100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 阿里巴巴大数据之路-大数据领域建模综述

阿里巴巴大数据之路-大数据领域建模综述

时间:2020-01-07 16:33:19

相关推荐

阿里巴巴大数据之路-大数据领域建模综述

阿里巴巴大数据之道-大数据领域建模综述

为什么要数据建模?

Linux 的创始人 Torvalds 有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据 结构和它们之间的关系。“

数据建模的好处

性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少 数据的 110 吞吐。成本 : 良好的数据模型能极大地减少不必要的数据冗余,也能实 现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率 :良好的数据模型能极大地改善用户使用数据的体验,提高 使用数据的效率。质量 : 良好的数据模型能改善数据统计口径的不一致性,减少数 据计算错误的可能性。

OLTP 和 OLAP 建模区别

OLTP

主要数据操作是随机读写主要采用满足 3NF 的实体关系模型存储数据在事务处理中解决数据的冗余和一 致性问题

OLAP

主要数据操作是批量读写事务处理中 的一致性不是 OLAP 所关注的关注数据的整合,以及在一次性 的复杂大数据查询和处理中的性能

建模方法论

ER模型

简述

数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计一 个 3NF 模型,用实体关系( Entity Relationship, ER)模型描述企业业 务,在范式理论上符合 3NF。数据仓库中的 3NF 与 OLTP 系统中的 3NF 的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体 业务流程的实体对象关系的抽象。

特点

需要全面了解企业业务和数据。实施周期非常长。对建模人员的能力要求非常高。

建模步骤

高层模型

一个高度抽象的模型,描述主要的主题以及主题间的 关系,用于描述企业的业务总体概况。

中层模型

在高层模型的基础上,细化主题的数据项。

物理模型(也叫底层模型)

在中层模型的基础上,考虑物理存 储,同时基于性能和平台特点进行物理属性的设计,也可能做一 些表的合并、分区的设计等。

维度模型

简述

维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to Dimensional Modeling 是 数据仓库工程领域最流行的数据仓库建模的经典。

特点

从分析决策的需求出发构建模型,为分析需求服务具有较好的大规模复 杂查询的响应性能其典型的代表是星形模型,以及在一些特殊场景下 使用的雪花模型

模型分类

雪花模型星型模型星座模型

建模步骤

选择需要进行分析决策的业务过程

业务过程可以是单个业务事 件,比如交易的支付、退款等;也可以是某个事件的状态,比如 当前的账户余额等;还可以是一系列相关业务事件组成的业务流 程,具体需要看我们分析的是某些事件发生情况,还是当前状态, 或是事件流转效率。

选择粒度

在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。

识别维表

选择好粒度之后,就需要基于此粒度设计维表,包括 维度属性,用于分析时进行分组和筛选。

选择事实

确定分析需要衡量的指标。

Data Vault 模型

简述

Data Vault 是 Dan Linstedt 发起创建的一种模型,它是 ER 模型的衍 生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分 析决策。

特点

可审计的基础数据层数据的历史 性、可追溯性和原子而不要求对数据进行过度的一致性处理和整合基于主题概念将企业数据进行结构化组织

组成部分

Hub

是企业的核心业务实体,由实体 key、数据仓库序列代理 键、装载时间、数据来源组成。

Link

代表 Hub 之间的关系。这里与 ER 模型最大的区别是将关 系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直 接描述 1 : 1 、 l :n 和 n:n 的关系,而不需要做任何变更。它由 Hub 的代理键、装载时间、数据来源组成。

Satellite

是 Hub 的详细描述内容, 一个 Hub 可以有多个 Satellite。 它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信 息组成。

模型实例

Anchor 模型

简介

Anchor 对 Data Vault 模型做了进一步规范化处理, Lars. Ri:innback 的初衷是设计一个高度可扩展的模型,其核心思想是所有的扩展只是添 加而不是修改,因此将模型规范到 6NF,基本变成了 k-v 结构化模型。

组成部分

Anchors

类似于 Data Vault 的 Hub ,代表业务实体,且只有主键。

Attributes

功能类似于 Data Vault 的 Satellite ,但是它更加规范 化,将其全部 k-v 结构化, 一个表只有一个 Anchors 的属性描述。

Ties

就是 Anchors 之间的关系,单独用表来描述,类似于 Data Vault 的 Link,可以提升整体模型关系的扩展能力。

Knots

代表那些可能会在多个 Anchors 中公用的属性的提炼, 比如性别、状态等这种枚举类型且被公用的属性。

模型实例

综合实践

模型设计

ODS:操作数据层

存储所有基础数据,做简单的数据清洗

DWD:明细数据层

采用维度退化的方法,将维度退化到事实表中,减少事实表和维度表的关联,调高明细表的易用性

DWS:汇总数据层

采用更多的宽表化手段,构建公共指标数据层

ADS:应用数据层

存放数据产品个性化的统计指标数据,主要面向前端展现

DIM:维度表

存储所有维度表数据

读感:

阿里巴巴大数据之道-大数据领域建模综述,本章节主要简述了数仓建模的基本方法论,不设计到理论的实践。解答了为什么要数据建模?以及建模的方法论有哪些?

可以做个初步的数仓建模理论理解,目前大多选择维度建模为主+宽表输出建设。要想更好的理解每个模型的优劣和不同点,还需要多实践。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。