100字范文 > 大数据技术原理与应用（二）：大数据处理架构Hadoop

大数据技术原理与应用（二）：大数据处理架构Hadoop

时间：2023-02-23 02:54:06

Hadoop简介
Hadoop是Apache软件基金会旗下开源软件，是一个开源分布式计算平台
Hadoop屏蔽了大数据底层实现的细节，只需要按照它提供的更高层的接口，做一些简单的编程操作，后台所有的工作全部由整个系统自己实现。
Hadoop平台是利用java平台来开发的。但是Hadoop可以支持多种语言
Hadoop两大核心——HDFS（分布式文件系统）+MapReduce（分布式并行框架）
Hadoop特性
高可靠性多台机器构成集群，部分机器发生故障，剩余机器可以继续对外提供服务高效性高效处理海量分布式数据集高可拓展性可以不断向Hadoop集群中添加节点
Hadoop的不同版本
把MapReduce框架所承担的任务给分解了，把它对资源的调度管理功能单独给划出来，不让它再去管资源调度了，只需要负责数据处理。将相关的负责资源处理的模块全部单独抽出来，做成一个新的框架，称为YARN
2.0版本的HDFS多了NN Federation和HA
Hadoop项目结构
Hadoop由最开始两大核心发展起来，现在已经衍生出了非常多的子项目，形成了非常丰富的生态圈。
华为对Hadoop开源的贡献是排在谷歌微软前面的
Hadoop的安装
Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行
Hadoop3.x的端口已经变了
Hadoop集群的部署和使用
整个Hadoop集群的主要节点有几类：
NameNode，名称节点DataNode，数据节点
NameNode像一个目录服务器一样，某个应用要取数据的时候，首先访问NameNode，去获得关于应用要访问的数据被放在了哪些DataNode上面，再到具体的DataNode上面去取数据
NameNode里面很多元数据都是直接保存在内存当中的
SecondNameNode是NameNode的备份
MapRecude两大核心组件：
JobTrackerTaskTracker
在做MapReduce应用程序开发时，每次都是以一个MapReduce作业的形式去完成具体的计算任务。
JobTracker负责对整个作业进行管理，它会把用户的一个大的作业拆分成很多小作业，分发到不同机器上去执行。
不同机器上面部署了TaskTracker，每一个TaskTracker负责跟踪执行分配给自己的那一小部分作业
大集群NameNode和JobTracker一般分开部署，小集群可以部署在一台机器上
如果是较大的集群SecondNameNode要找单独一个另外的服务器来存放

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。