100字范文 > 决策树模型回归可视化分析_商业分析过程与数据探索

决策树模型回归可视化分析_商业分析过程与数据探索

时间：2024-05-27 00:39:56

通常，商业模型以历史数据构建，一旦对模型精确度感到满意，就可以将模型部署到生产中进行实时数据分析。

第一阶段，理解商业问题

在项目初始阶段，重点是从商业角度理解商业问题，商业目标和商业要求，然后将这种理解转化为数据分析问题，采取合适的方法去实现目标和解决问题。

第二阶段，收集和整合数据

需要从各种来源手机数据。理解商业问题后，确定收集数据的过程，包括解决商业问题所需要的参数，如果数据库没有相应的数据，则需要展开调查工作

第三阶段，预处理数据

大多情况下，收集到的数据并不适合构建模型。原始数据可能会包含错误，如格式化冲突，数据类型错误和缺失值。这个过程需要进行数据清洗和归一化

第四阶段，探索和可视化数据

理解数据的特征，数据分布，数据趋势和数据变量之间的关系。对数据形成初始的见解，获取样本中隐藏的相关信息，作为后续推断的基础

第五阶段，选择建模技术和算法

决定是福哦采用监督机制，确定是分类问题还是回归问题，应该采取描述性技术还是预测技术，是否选择线性回归或逻辑回归方法。这些问题取决于商业需求和现有数据

选择模型之后，构建模型，并评估模型的性能

第六阶段，评估模型

使用测量模型精确度的标准方法及模型的现场性能来评估模型。这需要具备统计学，机器学习，算法和解释结果等深厚的知识

第七阶段，管理和审查报告

第八阶段，部署模型

跨行业的数据挖掘过程由6个阶段组成：业务理解，数据理解，数据准备，建模，评估和部署

数据库构建：

运营数据库：供应商管理，供应链，日常业务交易，客户投诉，客户反馈

制造和生产数据库：与制造过程有关的数据，生产细节，供应链管理，生产计划以及机械维修和保养

人力资源和财务数据库：与人力资源和财务职能相关的数据，员工假，人事资料，工作技能，员工和薪水

IT数据库，信息系统相关的数据，IT资产清单，许可详细信息，软件和各种日志

数据仓库：组织内的多个数据库创建的继承数据库

元数据：和数据相关的数据

随机抽样，分层抽样，系统抽样

变量选择：

如果要查找一个Y和一个单个预测变量X之间的关系，那么15个数据点可能会给出结果。但是如果由10个预测变量，15个数据点是远远不够的。统计学家汉考克和戴乐马特在2001年提出一个解决的办法，对任何预测模型，应具有6*m*p个记录，p是变量的数量，m是结果类的数量。拥有记录越多，预测结果越好。

数据准备：

缺失值处理：

方法：忽略之，用均值或众数填补缺失值，用同一个bin的相同属性的均值填补缺失值，根据可能的值预测缺失值：依据数据集中的其他属性，可以根据可能需要的最可能的值填补缺失值。也可以用一些统计技术，如贝叶斯定理或决策树来找出可能的值

数据探索和数据可视化：

探索性分析的目的如下：

确定数据集的分布和其他统计信息

确定数据集是否需要归一化

确定数据集是否对解决商业问题有帮助

指定解决商业问题的蓝图

view查看表格

summary查看汇总表

箱线图，散点图，散点图矩阵pairs, 方格图，相关图，密度分类，数据转换（归一化，数据聚合和平滑）

有时，为了服从正态分布，也许会使用log，指数函数或Box-Cox进行转换

使用建模技术和算法：

描述性分析：

分析解释了隐藏在数据当中的模式。这些模式纯粹基于历史数据，也可以将观测值归集到相同的集群里，这种分析称为聚类分析

类似的，在交易数据库使用关联规则或关联分析，找出百货商店已购商品之间的关联，有助于帮助企业有效地提供折扣，推出新产品和管理库存

预测分析：

预测由两种方法组成：分类和回归分析

分类是数据分析的基本形式，将数据分为各个类别

分类模型的任务是把以前没有发现的一组新数据进行分类

回归预测数值变量的值，例如：公司营业额收入或销售额，连续值可以预测，分类也可以用于预测，因为分类模型预测了未知类标签的新数据分类。用于此用途的一项技术就是逻辑回归

机器学习：

机器学习计遇迭代学习构建模型，挖掘隐藏其中的深刻见解。由于总是有新数据出现，迭代学习就显得格外重要，这样机器可以独立的适应新变化。机器学习已经存在了很长时间，但最近随着计算，存储和编程方面的发展，更多复杂的新算法和注入Hadhoop等大数据框架的出现，使得机器学习也不断发展壮大起来。

分类：监督学习和无监督学习

监督学习：

在训练数据集的帮助下建立的模型，包括：支持向量机，朴素贝叶斯，K-最近邻和决策树

无监督学习：

关联规则和聚类属于无监督学习的例子

基于数据类型的商业分析法

评估模型：

将数据分区，一个用于构建模型，一个用于评估模型

三个区：训练集和测试集，验证集

测试集用于评估模型的性能；验证集用于微调模型性能并减少拟合过度问题

交叉验证：

避免偏差，应随机分配数据集。如果数据量有限，应将数据划分为k个折，k折交叉验证

分类模型评估：

混淆矩阵

提升图：通常用于营销问题，提升曲线有助于确定如何选择相关的小组，获得最大点击量

混淆矩阵把模型作为一个总体进行有效性评估，而提升图则评估总体的一部分

ROC曲线：

是表示分类器性能的另一种方式。近年来，由于简单分类的精度不能很好评估分类器的性能，所以ROC曲线经常被机器学习采用。小于0.5的AUC可能表明模型表现不佳，通常AUC落在0.5-1之间，AUC面积达到1时，时任何机器学习模型的理想目标

研究表明，具有两个分类的算法最适合用于ROC方法。神经网络的例子就是一个合适的分类器，而决策树分类器不太适合

回归模型评估：有很多的性能评估标准，其中之一是均方根误差

提交管理报告和审查：

描述问题：详细描述企业定义的商业问题，并通过模型解释问题，可以唤起组织管理层对数据分析目的的注意

使用的数据集：列举所使用的数据，包括时间段，来源和特征，证明您使用了正确的数据，强调所作的假设

执行数据清洗：说明数据存在的问题，解释数据处理的原因，解释潜藏的数据缺点

创建模型的方法：建模的方法，技术，算法，介绍模型是如何解决问题的，包括模型评估和模型优化

模型部署的前提条件：介绍先决条件，包括数据需求和预处理需求，硬件和软件要求

模型部署和使用：对模型进行解释的相关文档

问题处理：介绍记录观察问题的理想过程，以及报告分析解决问题的方法

使用as.numeric()需要与as.character()一起使用

填充缺失值：

Data$stock[is.na(data$stock]=mean(data$stock,na.rm=TRUE)

View()可以查看表格

方格图，可用于高级绘图（Trellis Plot）

library(lattice)

tax<-cut(houl$TAX,4)

xyplot(MEDV~AGE|tax,data=houl)

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。