100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 大数据处理技术与人工智能技术

大数据处理技术与人工智能技术

时间:2021-07-18 11:06:02

相关推荐

大数据处理技术与人工智能技术

大数据处理技术与人工智能技术

胡中英

大数据基础设施

随着互联网的发展,各种场景产生数据的数据量越来越大,速度越来越快。数据的格式大多以非关系形的数据为主,传统的数据库存储方式不满足大量非关系形数据的存储与查询,且传统的文件系统所依赖的服务器价格昂贵,提高其处理性能成本较高且已达到技术瓶颈,纵向扩展并不符合当今需求。

HDFS的概念和主要特性

在Google提出GFS文件系统的基础上,Apache开源组织开发出了Hadoop分布式文件系统,简称HDFS。HDFS被设计成适合运行在通用硬件上,具有分布式文件系统的特点,是一个高度容错性的系统,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。其主要系统架构如下图所示:

图一:HDFD系统架构图(来源自参考文献)

HDFS的主要特点和设计目标有:

高容错性和高可靠性:整个HDFS系统将由数百或数千个存储着文件数据片段的服务器组成,每一个组成部分都很可能出现故障,这就意味着HDFS里的总是有一些部件是失效的,因此,故障的检测和自动快速恢复是HDFS一个核心的功能特性。批量流式数据存取: 运行在HDFS之上的应用程序必须流式地访问它们的数据集,它不是运行在普通文件系统之上的普通程序。HDFS被设计成适合批量处理的,而不是用户交互式的。重点是在数据吞吐量,而不是数据访问的反应时间。处理大数据集:运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级别,所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。HDFS的缺点

HDFS 的上述种种特点非常适合于大数据量的批处理,但是对于一些特点问题不但没有优势,而且有一定的局限性,主要表现以下几个方面:

不适合低延迟数据访问无法高效存储大量小文件不支持多用户写入和随机文件修改HDFS的三大核心组件包括HDFS(Hadoop Distribute File System):hadoop的数据存储工具。YARN(Yet Another Resource Negotiator,一种资源协调者):Hadoop 的资源管理器。Hadoop MapReduce:分布式计算框架大数据与人工智能的应用

广义的大数据包括数据、算法、算力三部分,数据指系统获取到的所有的数据,算法通常批人工智能的算法,算力通常采用云计算等方式,通过云计算可方便的扩展计算能力。

人工智能算法以机器学习的四种类型为主:监督学习,半监督学习,无监督学习和强化学习。

典型的的大数据与人工智能的应用场景有:

计算机视觉:对图像进行语义分割,基于区域的多边形标注,对复杂不规则的图片进行区域划分并标注对应属性,助力图像识别模型训练,多应用于人体分割、场景分割和自动驾驶道路分割,可应用于智能驾驶、智能设备、智能安防场景,如图像语义分割、图片/视频分类、图片框选、人脸骨骼打点、连续帧标注等。语言识别:通过技术进行监听语音并识别模型训练,应用于智能家居、智能设备、智能客服、智慧门店等场景,如语音清洗、语音转写、语音切分、音素标注等。自然语义: NLP模型训练,可应用于智能客服、智慧金融、智能驾驶等场景,如文本清洗、文本分类、文本富集、OCR转写、情感标注、NLP标注等。大数据与人工智能的典型案例

温氏食品集团股份有限公司是一家以畜禽养殖为主业、配套相关业务的跨地区现代农牧企业集团,在全国 20 多个省(市、自治区)拥有 262 家控股公司、5.54 万户合作家庭农场、5 万多名员工。

业务痛点:

温氏股份作为国内农业行业的龙头企业,为了满足快速发展的业务需求,实现更好的以技术驱动业务,在面对更庞大的数据量、更复杂的数据管理与分析需求等问题上,也面临了如下挑战:

随着数据量的飞速增长,数据来源和数据结构更为多样,数据处理方式无法满足各个场景下的数据分析与应用需求,需要持续提升数据采集、存储与计算能力。可以便捷地获取自己所需数据,降低数据分析门槛,降低开发和维护成本,消除数据孤岛。持续挖掘业务价值。建立更加灵活、便捷的可视化分析,提高数据分析自主性,增强数据分析效率,提高数据价值贡献,增强自主分析能力。解决方案

企业通搭建养殖数据中平台,覆盖了大规模数据存储与计算、数据集成、应用开发及数据管理等企业大数据应用场景,全链路操作,根据企业自身特点定制应用开发,贴近业务需求。

支撑数据应用与创新:集中采集、存储与管理企业内外部数据,连通数据,消除数据孤岛,保障数据准确性,数据及时性,平台稳定性,降低大数据开发与管理的难度,支撑前端数据应用的快速创新。建设数字化运营能力,提升决策效率:通过业务梳理、规范统一指标,建设数字化运营分析体系,并创新了疫情监控、市场行情、领导力模型、饲料质检等数据应用,为提升日常运营管理效率、业务优化、辅助决策提供支持。增强业务人员的自助分析能力:通过数据商务智能分析提供的可视化工具,灵活进行多维分析,无需编写复杂的代码,降低了业务人员的技术门槛。通过数据,构建图文报表并茂的仪表盘便捷地向他人分享数据规律及背后揭示的业务现象,从而实现数据驱动价值的体现。企业收益建设统一大数据平台,集中采集、存储和管理企业内外部数据,连通各业务模块数据,消除信息孤岛,保障指标准确统一、数据计算实时、稳定,降低大数据开发与管理难度。构建数据仓库,覆盖财务、采购、人力、猪/禽/鲜品/熟食零售等各产业全流程的经营分析体系,提供数据监控、预警和决策支持。通过实时大屏、管理看板和固定报表等不同数据消费形式,集团总裁到部门经理、业务线人员等各层级的日常经营管理数据分析需求,轻松掌握企业经营状况。

参考文献:

[1] /item/hdfs/4836121?fr=aladdin

[2] /docs/r1.2.1/hdfs_design.html

[3] /sjmz30071360/article/details/79877846

[4] /customer/wsgf

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。