100字范文 > python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF

python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF

时间：2020-04-19 18:02:19

数据挖掘大作业最终报告

数据挖掘

大作业最终报告

学院：计算机学院

专业：计算机应用技术

年级：级

组号：第六组

成员：赵颖 260012

王晓媛260007

李昱燃260009

用户行为预测——以某电信公司为例

摘要

本文讨论了一个关于用户行为预测的数据挖掘问题，在对某电信公司客户数据集的处理、

Random Forest AdaBoost

特征选取之后，尝试使用随机森林 ( )、与结合的决策树、梯度提升

决策树 (Gradient BoostingDecision Tree)三种算法进行分类，最终较好地实现了对客户忠诚

度、购买欲、增值性三个属性的预测，并且对三者的结果进行了分析和比较。

关键词：特征选取、决策树、分类器

1 导论

1.1 问题描述

本文所尝试解决的问题是根据KDD Cup 竞赛的问题改编而来，目的是预测客户三

个维度的行为，包括：1、忠诚度(Churn)：用户切换运营商的可能性；2、购买欲(Appetency)：

购买新服务的可能性；3、增值性 (Up-selling)：客户升级或追加购买高利润产品的可能性。

我们需要根据现有数据训练出分类器，分别对客户的忠诚度、消费欲和增值服务倾向性做出二

元判别，并计算各分类器的准确率，比较它们的分类效果。

竞赛中的数据集来自法国Orange 电信公司的客户特征描述数据，我们使用的数据集则是

从比赛数据集中随机抽取的10000个带标签的训练数据和10000个无标签的测试数据(为了减

轻类分布的不平衡，保留了大多数正值的数据)，均有230个特征变量，前190个特征变量是

数值型变量，后40个是类别型变量。

1.2 相关工作

在KDD Cup 中，参赛者对该问题主要采取了以下方案：Miller[2]等人采用交叉验证方

[5]

法进行特征选取，分类器采用流行的Boosting+决策树的融合方法；Lo 等人则分别采用了多

[12]

种分类方法，比如选择朴素贝叶斯分类器、与AdaBoost 结合的决策树等；Xie 等人采用了封

[3]

装类型的特征选取方法，分类器则是随机梯度提升树。总的来看，特征选取的方法相对多样

化，封装类、过滤类以及混合类都有；分类方法则比较类似，虽然也有采用其它方法甚至多种

方法的，但决策树类的方法仍然是最受参赛者青睐的方法。

1.3 问题分析及文章结构

本文分三步解决这一问题：数据预处理与特征选择，分类算法的选择，分类算法的实现。

首先，由于数据集本身的特性，比如有大量缺失数据需要处理，或者类分布的不均衡，需要我

们对数据集中的数据进行预处理，并且选择合适的特征变量，方便分类器的训练。之后，出于

提高准确率、加快训练速度的目的，需要选择适当的分类算法。最后，实现了分类算法并进行

了分类器的训练。

本文第二部分对给出的特征值进行处理，以构造便于进行分类器训练的数据集；第三部分

选择合适的分类算法并实现分类；第四部分为不同条件下的实验结果；最后是总结与分析。

2 特征值处理

在构建分类器之前，首先要对原始数据进行有选择的加工，得到合适样本。

10000 230 190

给定的训练集共条数据，每条数据分别包括个特征值，特征值的前个

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。