100字范文 > 大数据之数据仓库分层

大数据之数据仓库分层

时间：2020-11-20 00:14:11

相关推荐

大数据之数据仓库分层

1. 什么是数据分层？2. 数据分层的好处一种通用的数据分层设计3. 举例4. 各层会用到的计算引擎和存储系统5. 大数据相关基础概念

1. 什么是数据分层？

数据分层是一套行之有效的数据组织和管理方法，使得数据体系更有序。

（1）清晰数据结构

每一个数据分层都有它的作用域和职责，在使用表的时候能更方便的定位和理解。

（2）减少重复开发

规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。

（3）统一数据口径

通过数据分层，提供统一的数据出口，统一对外输出的数据口径。

（4）复杂问题简单化

将一个复杂的任务分解成多个步骤完成，每一层解决特定的问题。

ODS：存放原始数据

DW：存放数仓中间层数据

APP：面向业务定制的应用数据

以下是一个电商网站的数据体系设计，只关注用户访问日志这部分数据。

数据源：业务系统、埋点、爬虫

PG：PostgreSQL,一种关系型数据库

Sqoop：是一个在结构化数据(mysql/oracle)和Hadoop(Hive)之间进行批量数据迁移的工具

Flume：是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；提供对数据进行简单处理，并写到各种数据接受方（HDFS\Hbase）的能力。

Kafka：是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统。

Flink：一个流式的数据流执行引擎。针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

Kylin：是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力一直吃超大规模数据。能在亚秒内查询巨大的Hive表。

ES：elasticsSearch,是一个高扩展、开源的全文检索和分析引擎，可准实时地快速存储、搜索、分析海量的数据。

Hadoop：是一个分布式系统基础架构，可使用户在不了解分布式底层细节的情况下开发分布式程序，充分利用集群的威力进行高速运算和存储。两大核心：HDFS\MapReduce

HDFS：是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。

MapReduce：分布式计算框架。

Spark：是一个专为大规模数据处理而设计的快速通用的计算引擎。

参考博文

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。