100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 大数据之数据仓库分层

大数据之数据仓库分层

时间:2020-11-20 00:14:11

相关推荐

大数据之数据仓库分层

大数据之数据仓库分层

1. 什么是数据分层?2. 数据分层的好处一种通用的数据分层设计3. 举例4. 各层会用到的计算引擎和存储系统5. 大数据相关基础概念

1. 什么是数据分层?

数据分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。

2. 数据分层的好处

(1)清晰数据结构

每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。

(2)减少重复开发

规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

(3)统一数据口径

通过数据分层,提供统一的数据出口,统一对外输出的数据口径。

(4)复杂问题简单化

将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。

一种通用的数据分层设计

ODS:存放原始数据

DW:存放数仓中间层数据

APP:面向业务定制的应用数据

3. 举例

以下是一个电商网站的数据体系设计,只关注用户访问日志这部分数据。

4. 各层会用到的计算引擎和存储系统

5. 大数据相关基础概念

数据源:业务系统、埋点、爬虫

PG:PostgreSQL,一种关系型数据库

Sqoop:是一个在结构化数据(mysql/oracle)和Hadoop(Hive)之间进行批量数据迁移的工具

Flume:是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;提供对数据进行简单处理,并写到各种数据接受方(HDFS\Hbase)的能力。

Kafka:是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统。

Flink:一个流式的数据流执行引擎。针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

Kylin:是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力一直吃超大规模数据。能在亚秒内查询巨大的Hive表。

ES:elasticsSearch,是一个高扩展、开源的全文检索和分析引擎,可准实时地快速存储、搜索、分析海量的数据。

Hadoop:是一个分布式系统基础架构,可使用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。两大核心:HDFS\MapReduce

HDFS:是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。

MapReduce:分布式计算框架。

Spark:是一个专为大规模数据处理而设计的快速通用的计算引擎。

参考博文

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。