100字范文 > 【机器学习入门】(6) 随机森林算法：原理实例应用（沉船幸存者预测）附python完整

【机器学习入门】(6) 随机森林算法：原理实例应用（沉船幸存者预测）附python完整

时间：2022-04-30 10:03:09

各位同学好，今天我和大家分享一下python机器学习的随机森林算法。主要内容有：

(1) 算法原理、(2) sklearn实现随机森林、(3) 泰坦尼克号沉船幸存者预测。

文末附python完整代码和数据集。那我们开始吧。

1. 随机森林算法原理

集成算法包含(bagging装袋/boosting增强/stacking堆叠)，其中随机森林属于bagging。

算法原理：

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。利用相同的训练数搭建多个独立的分类模型，然后通过投票的方法，以少数服从多数原则作出最终的分类决策。

例如：训练了5个树，其中4个树的结果是True，1个树的结果是False，最终结果也会是True。

学习算法：

若用N表示训练用的样本个数，M表示特征数目。输入特征数目m，用于确定决策树上一个节点的决策结果，其中m远小于M。

从N个训练样本中以有放回抽样的方法，取样M次，形成一个训练集，并用未抽到的样本做预测，评估其误差。

对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征决定的。根据这m个特征，计算其最佳的分裂方式。

随机抽样训练集的原因：

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的。

为什么有放回地抽样：

如果不进行有放回抽样，那么每棵树的训练集都是完全不相同的，都是没有交集的，每棵树训练出来都是有很大差异，而随机森林最后分类取决于多棵树的投票。

2. 随机森林算法实战

2.1 sklearn实现随机森林

首先从sklearn中导入随机森林分类器：

from sklearn.ensemble import RandomForestClassifier

随机森林函数RandomForestClassifier()参数设置：

n_estimator：整数类型，森林里树木的数量，默认=10

criterion：字符串型，分割特征的测量方法，默认是'Gini'，可选信息熵 'entropy'

max_depth：整数或None，树的最大深度，默认是None

bootstrap：布尔，是否采用有放回抽样，默认是True

2.2 实例应用

随机森林算法和决策树算法在程序上有类似部分，该篇文章就不再赘述，如果以下程序语句有不明白的，可以参考上一篇文章，使用的数据集也相同：【机器学习】(5) 决策树算法实战：sklearn实现决策树，实例应用（沉船幸存者预测）附python完整代码及数据集

（1）导入数据

导入泰坦尼克号乘客数据，数据集获取地址：GitHub - fayduan/Kaggle_Titanic: the data and ipython notebook of my attempt to solve the kaggle titanic problem，数据包含891个样本，10项特征数据姓名、年龄、船舱等，一项目标数据'survived'。

#（1）导入数据import pandas as pdfilepath = 'C:\\Users\\admin\\.spyder-py3\\test\\文件处理\\泰坦尼克数据集\\taitan.csv'data = pd.read_csv(filepath)

（2）数据预处理

从原数据中提取五项指标作为特征值，便于大家对随机森林算法有更直观的理解。由于暂时文章没有涉及到特征工程，暂且不把所有的特征值放入模型，后续文章会进行跟深入的探讨。

使用年龄的平均值并借助.fillna()函数填充age特征中的缺失值，划分出建模所需的数据和验证模型所需的数据。

# 提取部分特征值，船舱、年龄、性别、非直系亲属数量、直系亲属数量data_features = data[['Pclass','Age','Sex','SibSp','Parch']]# 提取Survived列所谓目标值data_targets = data['Survived']# 年龄均值填充年龄缺失值data_features.fillna(data_features['Age'].mean(),inplace=True)# 取出最后10行用于结果验证data_predict_features = data_features[-10:] #输入预测函数的特征值data_predict_targets = data_targets[-10:] #验证预测结果的目标值# 将建模数据删除最后10行data_features = data_features[:-10] #建模所需的特征值xdata_targets = data_targets[:-10] #建模所需的目标值y

（3）特征提取

由于特征sex对应的数据是'female'和'male'，属于字符串类型数据，然而模型训练函数.fit()只能接收数值类型的数据，因此需要将特征值转换成sparse数值矩阵。之前我们提到过文本特征提取方法CountVectorizer()，这里我们使用字典特征提取方法DictVectorizer()，要求输入的参数是一个由字典组成的列表，而现在的特征值是一个DataFrame类型数据；返回值是sparse数值矩阵，将字符串类型数据转变成数值类型。

使用.to_dict(orient = 'record')方法将DataFrame类型数据转变成由字典组成的列表。

有关sparse矩阵及文本特征抽取的知识见下文的第1.4小节：

【机器学习】(2) 朴素贝叶斯算法：原理、实例应用（文档分类预测）附python完整代码及数据集

#（3）特征抽取# 特征值Sex对应的值是字符串类型的数据，然而最终的预测函数的输入值是数值类型# 文本类型转化成数值类型，利用字典特征抽取方法from sklearn.feature_extraction import DictVectorizer #导入字典特征抽取方法vect = DictVectorizer()# 由于vect.fit_transform()方法只能接受由字典构成的列表# 对特征值进行转换，从DataFrame数据到字典构成的列表data_features = data_features.to_dict(orient = 'record')# 传入文本转数值类型方法的函数，变成sparse矩阵data_features = vect.fit_transform(data_features)# 同理，也要对最后的预测输入值，也转换成sparse矩阵data_predict_features = data_predict_features.to_dict(orient = 'record')data_predict_features = vect.fit_transform(data_predict_features)

sparse矩阵如下图所示：索引3对应female，索引4对应male，将性别转换成数值类型，索引3表示，是否是'female'，是就显示1，不是显示0。

（4）划分训练集和测试集

一般采用75%的数据用于训练，25%用于测试，因此把数据进行训练之前，先要对数据划分。划分方法不再赘述，有疑惑的可看下文中的第2.3节：【机器学习】(2) 朴素贝叶斯算法：原理、实例应用（文档分类预测）附python完整代码及数据集

#（4）划分测试集和训练集from sklearn.model_selection import train_test_split# 传入建模所需的特征值数据和目标值数据x_train,x_test,y_train,y_test = train_test_split(data_features,data_targets,test_size=0.25)

（5）随机森林方法

变量rf接收随机森林分类器RandomForestClassifier()，随机森林分类器的参数同决策树的参数，这里就不赘述，具体见下文的第1节：

【机器学习】(5) 决策树算法实战：sklearn实现决策树，实例应用（沉船幸存者预测）附python完整代码及数据集

训练函数.fit()中传入训练所用的x和y值，其中x_train是sparse数值矩阵，accuracy存放评分法.score()求得的模型误差，根据x_test预测结果，把结果和真实的y_test比较，计算准确率。result中存放预测函数.predict()得到的人员存活结果，预测函数的输入值data_predict_features也是sparse数值类型矩阵。

#（5）随机森林方法from sklearn.ensemble import RandomForestClassifier #导入随机森林分类器# 接收随机森林方法rf = RandomForestClassifier() #使用默认值# 函数参数同决策树参数# 训练，传入训练用的特征值和目标值rf.fit(x_train,y_train)# 评分法，计算准确率accuracy = rf.score(x_test,y_test)# 预测，输入预测所需的特征值result = rf.predict(data_predict_features)

最终模型准确率在80%左右，预测结果和实际结果见稍有偏差。

数据集获取：

GitHub - fayduan/Kaggle_Titanic: the data and ipython notebook of my attempt to solve the kaggle titanic problem

完整python代码：

# 随机森林--泰坦尼克号获救预测#（1）导入数据import pandas as pdfilepath = 'C:\\Users\\admin\\.spyder-py3\\test\\文件处理\\泰坦尼克数据集\\taitan.csv'data = pd.read_csv(filepath)#（2）数据预处理# 提取部分特征值，船舱、年龄、性别、非直系亲属数量、直系亲属数量data_features = data[['Pclass','Age','Sex','SibSp','Parch']]# 提取Survived列所谓目标值data_targets = data['Survived']# 年龄均值填充年龄缺失值data_features.fillna(data_features['Age'].mean(),inplace=True)# 取出最后10行用于结果验证data_predict_features = data_features[-10:] #输入预测函数的特征值data_predict_targets = data_targets[-10:] #验证预测结果的目标值# 将建模数据删除最后10行data_features = data_features[:-10] #建模所需的特征值xdata_targets = data_targets[:-10] #建模所需的目标值y#（3）特征抽取# 特征值Sex对应的值是字符串类型的数据，然而最终的预测函数的输入值是数值类型# 文本类型转化成数值类型，利用字典特征抽取方法from sklearn.feature_extraction import DictVectorizer #导入字典特征抽取方法vect = DictVectorizer()# 由于vect.fit_transform()方法只能接受由字典构成的列表# 对特征值进行转换，从DataFrame数据到字典构成的列表data_features = data_features.to_dict(orient = 'record')# 传入文本转数值类型方法的函数，变成sparse矩阵data_features = vect.fit_transform(data_features)# 同理，也要对最后的预测输入值，也转换成sparse矩阵data_predict_features = data_predict_features.to_dict(orient = 'record')data_predict_features = vect.fit_transform(data_predict_features)# 观察sparse矩阵# 查看sparse矩阵特征值名feature_names = vect.get_feature_names()# 将sparse矩阵变成列表形式，便于观察feature_array = data_features.toarray()#（4）划分测试集和训练集from sklearn.model_selection import train_test_split# 传入建模所需的特征值数据和目标值数据x_train,x_test,y_train,y_test = train_test_split(data_features,data_targets,test_size=0.25)#（5）随机森林方法from sklearn.ensemble import RandomForestClassifier #导入随机森林分类器# 接收随机森林方法rf = RandomForestClassifier() #使用默认值# 函数参数同决策树参数# 训练，传入训练用的特征值和目标值rf.fit(x_train,y_train)# 评分法，计算准确率accuracy = rf.score(x_test,y_test)# 预测，输入预测所需的特征值result = rf.predict(data_predict_features)

【机器学习入门】(6) 随机森林算法：原理实例应用（沉船幸存者预测）附python完整代码和数据集

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。