100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 决策树模型回归可视化分析_商业分析过程与数据探索

决策树模型回归可视化分析_商业分析过程与数据探索

时间:2024-05-27 00:39:56

相关推荐

决策树模型回归可视化分析_商业分析过程与数据探索

通常,商业模型以历史数据构建,一旦对模型精确度感到满意,就可以将模型部署到生产中进行实时数据分析。

第一阶段,理解商业问题

在项目初始阶段,重点是从商业角度理解商业问题,商业目标和商业要求,然后将这种理解转化为数据分析问题,采取合适的方法去实现目标和解决问题。

第二阶段,收集和整合数据

需要从各种来源手机数据。理解商业问题后,确定收集数据的过程,包括解决商业问题所需要的参数,如果数据库没有相应的数据,则需要展开调查工作

第三阶段,预处理数据

大多情况下,收集到的数据并不适合构建模型。原始数据可能会包含错误,如格式化冲突,数据类型错误和缺失值。这个过程需要进行数据清洗和归一化

第四阶段,探索和可视化数据

理解数据的特征,数据分布,数据趋势和数据变量之间的关系。对数据形成初始的见解,获取样本中隐藏的相关信息,作为后续推断的基础

第五阶段,选择建模技术和算法

决定是福哦采用监督机制,确定是分类问题还是回归问题,应该采取描述性技术还是预测技术,是否选择线性回归或逻辑回归方法。这些问题取决于商业需求和现有数据

选择模型之后,构建模型,并评估模型的性能

第六阶段,评估模型

使用测量模型精确度的标准方法及模型的现场性能来评估模型。这需要具备统计学,机器学习,算法和解释结果等深厚的知识

第七阶段,管理和审查报告

第八阶段,部署模型

跨行业的数据挖掘过程由6个阶段组成:业务理解,数据理解,数据准备,建模,评估和部署

数据库构建:

运营数据库:供应商管理,供应链,日常业务交易,客户投诉,客户反馈

制造和生产数据库:与制造过程有关的数据,生产细节,供应链管理,生产计划以及机械维修和保养

人力资源和财务数据库:与人力资源和财务职能相关的数据,员工假,人事资料,工作技能,员工和薪水

IT数据库,信息系统相关的数据,IT资产清单,许可详细信息,软件和各种日志

数据仓库:组织内的多个数据库创建的继承数据库

元数据:和数据相关的数据

随机抽样,分层抽样,系统抽样

变量选择:

如果要查找一个Y和一个单个预测变量X之间的关系,那么15个数据点可能会给出结果。但是如果由10个预测变量,15个数据点是远远不够的。统计学家汉考克和戴乐马特在2001年提出一个解决的办法,对任何预测模型,应具有6*m*p个记录,p是变量的数量,m是结果类的数量。拥有记录越多,预测结果越好。

数据准备:

缺失值处理:

方法:忽略之,用均值或众数填补缺失值,用同一个bin的相同属性的均值填补缺失值,根据可能的值预测缺失值:依据数据集中的其他属性,可以根据可能需要的最可能的值填补缺失值。也可以用一些统计技术,如贝叶斯定理或决策树来找出可能的值

数据探索和数据可视化:

探索性分析的目的如下:

确定数据集的分布和其他统计信息

确定数据集是否需要归一化

确定数据集是否对解决商业问题有帮助

指定解决商业问题的蓝图

view查看表格

summary查看汇总表

箱线图,散点图,散点图矩阵pairs, 方格图,相关图,密度分类,数据转换(归一化,数据聚合和平滑)

有时,为了服从正态分布,也许会使用log,指数函数或Box-Cox进行转换

使用建模技术和算法:

描述性分析:

分析解释了隐藏在数据当中的模式。这些模式纯粹基于历史数据,也可以将观测值归集到相同的集群里,这种分析称为聚类分析

类似的,在交易数据库使用关联规则或关联分析,找出百货商店已购商品之间的关联,有助于帮助企业有效地提供折扣,推出新产品和管理库存

预测分析:

预测由两种方法组成:分类和回归分析

分类是数据分析的基本形式,将数据分为各个类别

分类模型的任务是把以前没有发现的一组新数据进行分类

回归预测数值变量的值,例如:公司营业额收入或销售额,连续值可以预测,分类也可以用于预测,因为分类模型预测了未知类标签的新数据分类。用于此用途的一项技术就是逻辑回归

机器学习:

机器学习计遇迭代学习构建模型,挖掘隐藏其中的深刻见解。由于总是有新数据出现,迭代学习就显得格外重要,这样机器可以独立的适应新变化。机器学习已经存在了很长时间,但最近随着计算,存储和编程方面的发展,更多复杂的新算法和注入Hadhoop等大数据框架的出现,使得机器学习也不断发展壮大起来。

分类:监督学习和无监督学习

监督学习:

在训练数据集的帮助下建立的模型,包括:支持向量机,朴素贝叶斯,K-最近邻和决策树

无监督学习:

关联规则和聚类属于无监督学习的例子

基于数据类型的商业分析法

评估模型:

将数据分区,一个用于构建模型,一个用于评估模型

三个区:训练集和测试集,验证集

测试集用于评估模型的性能;验证集用于微调模型性能并减少拟合过度问题

交叉验证:

避免偏差,应随机分配数据集。如果数据量有限,应将数据划分为k个折,k折交叉验证

分类模型评估:

混淆矩阵

提升图:通常用于营销问题,提升曲线有助于确定如何选择相关的小组,获得最大点击量

混淆矩阵把模型作为一个总体进行有效性评估,而提升图则评估总体的一部分

ROC曲线:

是表示分类器性能的另一种方式。近年来,由于简单分类的精度不能很好评估分类器的性能,所以ROC曲线经常被机器学习采用。小于0.5的AUC可能表明模型表现不佳,通常AUC落在0.5-1之间,AUC面积达到1时,时任何机器学习模型的理想目标

研究表明,具有两个分类的算法最适合用于ROC方法。神经网络的例子就是一个合适的分类器,而决策树分类器不太适合

回归模型评估:有很多的性能评估标准,其中之一是均方根误差

提交管理报告和审查:

描述问题:详细描述企业定义的商业问题,并通过模型解释问题,可以唤起组织管理层对数据分析目的的注意

使用的数据集:列举所使用的数据,包括时间段,来源和特征,证明您使用了正确的数据,强调所作的假设

执行数据清洗:说明数据存在的问题,解释数据处理的原因,解释潜藏的数据缺点

创建模型的方法:建模的方法,技术,算法,介绍模型是如何解决问题的,包括模型评估和模型优化

模型部署的前提条件:介绍先决条件,包括数据需求和预处理需求,硬件和软件要求

模型部署和使用:对模型进行解释的相关文档

问题处理:介绍记录观察问题的理想过程,以及报告分析解决问题的方法

使用as.numeric()需要与as.character()一起使用

填充缺失值:

Data$stock[is.na(data$stock]=mean(data$stock,na.rm=TRUE)

View()可以查看表格

方格图,可用于高级绘图(Trellis Plot)

library(lattice)

tax<-cut(houl$TAX,4)

xyplot(MEDV~AGE|tax,data=houl)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。