100字范文 > 企业大数据平台一：企业需求及相关的基本组件

企业大数据平台一：企业需求及相关的基本组件

时间：2020-05-30 12:25:03

标签（空格分隔）：企业大数据平台

企业大数据平台一企业需求及相关的基本组件一企业需求二基本组件

一，企业需求：

第一方面：

数据分析：

* MapReduce———Hive:离线分析

* Spark—实时（相对来说）

* 实时分析：Storm(毫秒级别) Spark Streaming(秒级别)

* 深度分析：机器学习，数据挖掘

第二方面：

数据存储–数据仓库–数据检索

*HDFS

*Hive

*Hbase

*搜索–Nutch,Lunece,Solr,ES(ES与Hbase集成)

二，基本组件：

1，zookeeper–分布式协作框架

应用：

*HDFS HA自动故障转移

*RM HA 自动故障转移

*Hbase架构

*Kafka集群

*Storm集群

*Solr Clouder 4.x&Solr 5.x

*Dubble

节点个数：2N+1

–小型集群：3个或者5个

–中型机器：5个或者7个

–大型机器：7个以上（奇数个）

脚本启动zookeeper集群：/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm

2，集群大小：>>测试集群数量：5--10台机器>>机器配置：-----硬盘：4TB-----内存：24G/32GB以上（100万文件--1G内存）-----CPU和数：6核以上-----网卡：万兆以上>>生产集群：--小型集群：20台一下--中型集群：50台一下--大型集群：50台以上

2，HDFS

–分布式文件系统

–NameNode

–DataNode

现在来说，对于企业中，无论是测试还是生产集群，一概配置HA

3，YARN（include MapReduce）–分布式集群资源管理和任务调度

NFS:将hdfs的目录挂载到本地文件系统

–slider:将已经存在的分布式应用框架运行在yarn上，并且进行监控管理

–NodeManage:配置每台机器能够分配给NM的资源

–队列:配置，以及资源划分

/projects/slider.html

hadoop cluster数据安全性（基于角色）：/

4，MapReduce

–分布式并行计算模型

–思想：分而治之

–执行流程，shuffle,WordCount阐述

–MapReduce 编程模板

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。