100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 数据模型篇:一 大数据领域建模概述

数据模型篇:一 大数据领域建模概述

时间:2019-12-09 20:10:49

相关推荐

数据模型篇:一 大数据领域建模概述

大数据领域建模概述

文章目录

大数据领域建模概述一、为什么需要数据建模二、关系数据库系统和数据仓库(OLTP和OLAP)定义场景和应用的区别集中度不同三、维度模型建模方法论四、阿里巴巴数据模型实践综述

一、为什么需要数据建模

目标:将数据进行有序、有结构地分类组织和存储。如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。也可以归为两个方面成本和效率,其中成本分为存储成本和计算成本(性能),数据质量好,效率肯定更好。

二、关系数据库系统和数据仓库(OLTP和OLAP)

定义

OLTP(on-line transaction processing)为联机事务处理

OLAP(On-Line Analytical Processing)为联机分析处理

两者简单的区别为OLTP是做事务处理,OLAP是做分析处理。

站在数据库的操作层面来看,OLTP主要是对数据的增删改,侧重实时性,OLAP是对数据的查询,侧重大数据量查询。

场景和应用的区别

OLTP主要用来记录具体某类业务事件的发生,如交易行为,当行为产生后,数据库会记录这个事件是谁在什么时候什么地方做了什么事,这样的一行(或多行)数据会以(增删改)的方式在数据库中进行数据的更新处理操作,要求实时性高、稳定性强、确保数据及时更新成功,常见的业务系统如商场系统,ERP,客服系统,OA等系统都是基于OLTP开发的系统。

当业务发展到一定程度,积累了一些数据的时候,对过去发生的事情做一个总结分析的需求就会产生,这类需求往往需要把过去一段时间内产生的数据拿出来进行统计分析,从中获取我们想要的信息,为公司做决策提供支持,我们管这类场景就叫做OLAP。

集中度不同

OLTP数据往往是一个业务系统一个数据库,因此会分散在不同的业务系统中。

OLAP数据仓库往往是夸多业务的,因此需要将不同的业务数据集中到一起进行统一综合的分析,这时候就需要根据业务分析需求做对应的数据清洗后存储在数据仓库中,然后由数据仓库来统一提供OLAP分析。所以我们常说OLTP是数据库的应用,OLAP是数据仓库的应用,两者主要的区别如下图。

总的来说,可以认为OLAP的产生是因为一些特性OLTP无法满足,所以一些OLTP异变了一些特性,变成了OLAP,OLAP可以看做是OLTP的一种延展,一个让OLTP产生的数据发现价值的过程。

三、维度模型建模方法论

ER、Anchor和Data Vault 模型,了解的不多,不做介绍

维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data rehouse olkit-The Complete Guide to Dimensional Modeling数据仓库工程领域最流行的数据仓库建模的经典。维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型的代表是星形模型,以及在一些特殊场景下使用的雪花模型。其设计分为以下几个步骤。

选择需要进行分析决策的业务过程。业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。选择粒度。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。识别维表。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选。选择事实。确定分析需要衡量的指标

四、阿里巴巴数据模型实践综述

原文冗长,我简单介绍下

第一个阶段: 完全应用驱动的关系型数据库时代:阿里巴巴的第一代数据仓库系统构建在 Oracle 上,数据完全以满足报表需求为目的。

第二个阶段: 尝试提升性能的MPP 架构体系时代:始尝试将工程领域比较流行的 ER模型+维度模型方式应用到阿里巴巴集团,构建出 个四层的模型架构,ODL (操作数据层) +BDL (基础数据层) +IDL (接口数据层) +ADL(应用数据层)。最后失败了,原因主要是:业务不太成熟、快速变化。

第三个阶段: 拥抱以 Hadoop 为代表的分布式存储计算平台,选择了以维度建模为核心理念的模型方法论:阿里巴巴数据公共层建设的指导方法是一套统一化的集团数据整合及管理的方法体系(在内部这一体系称为“OneData ”),OneData三个部分包括一致性的指标定义体系 、模型设计方法体系以及配套工具,抢两个都是理论上的方法体系,最后一个是用来支持,约束,指导理论的工具(比如dataworks、dataphin)。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。