100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 说说数据那些事

说说数据那些事

时间:2022-09-29 12:18:17

相关推荐

说说数据那些事

标题: 说说数据那些事

日期: -07-28 22:53:38

标签: [数据仓库,数据]

分类: 数据

今天来说说我做数据这些年的一些感悟和体会,希望能够讲的通俗易懂,化繁为简,给刚入门的小伙伴一些帮助。

数据,是当今世界很重要也很值钱的东西,从哪里来,怎么处理,到哪里去,这是要弄清楚的最基本路线图,本文分着3个部分来分别讲解。

从哪里来

数据从哪里来的呢,从业务系统(网站浏览、点赞、评论等交互数据)、app、小程序、邮件系统等等系统产生,存储在关系型或菲关系新数据库中,或者直接落地磁盘,等待被拖走,然后进行下一步处理。

目前数据接入的方式有很多,比如flume监控日志,sqoop离线从数据库导数据到目的端,canal、dbz监控数据库binlog获取最新增删改的实时数据等。

怎么处理

在数据领域,处理数据就是将业务数据按照规范进行格式化、统一化,利用现有的技术手段,进行数据加工转换,变成我们想要的东西,然后进行数据分析、数据挖掘等,提供价值信息。

那么现在的java python均可作为数据处理的语言选择,利用处理引擎mr、spark、flink进行批量并行处理,大数据的分而治之思想就是在大量数据处理的时候找到的。

大数据时代,如何从大量的数据中抽取出我们想要的价值数据,就需要分而治之的思想,并行处理,能够大大利用现在廉价的机器资源,并且很重要的一点就是,如何进行数据筛选,如果在处理计算之前,过滤掉大部分数据,就会减少处理时间,提高数据响应度。

到哪里去

数据去哪里,就是我们如何利用这些规范化的数据,去分析、挖掘,找到我们想要的数据,想要的数据,如何展示,以图表?文件?excel?方式呈现在需求方呢,这就是数据的去向。数据去向在数据仓库中就是app或者数据集市层,对外以api、表、图的形式对外提供数据服务。

那么为了更好地提供数据服务,我们应该做好数据处理才行,于是就有了数据模型,一个好的模型,可以在同一个业务范围内,提供统一标准化的数据,也规范了统计口径,对下游使用方来说,减少了不必要的口径问题,也提供了好用的数据,这就是数据模型的作用,在数据处理阶段的重要职责。

为了让每天的数据能够稳定、高效、及时地产生,就少不了数据监控系统,但系统稳定,也不能代表不会出现什么问题,有可能是数据的问题,从源头开始就出现错乱数据,那么监控系统少不了,在监控我们自己的数据系统的同时,也要监控到数据源端,保证从源头就没有问题。

记得点个赞👍哦,你的鼓励就是我的动力。

吾之初心,永世不忘。

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:

喜欢宠物的朋友可以关注:【电巴克宠物Pets】

一起学习,一起进步。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。