100字范文 > 多元线性回归预测房价

多元线性回归预测房价

时间：2021-03-09 17:09:25

相关推荐

多元线性回归预测房价

文章目录

一、利用Jupyter实现1.1 基础包与数据导入1.3 变量探索1.3 多元线性回归建模1.4 模型优化二、用Excel重做上面的多元线性回归，求解回归方程三、用机器学习库Sklearn库重做上面的多元线性归3.1 不处理直接求解3.2 数据进行清洗后再求解3.3 对比四、总结五、参考文献

一、利用Jupyter实现

jupyter使用参考文献：/qq_55691662/article/details/120569410

1.1 基础包与数据导入

先将数据集上传到jupyter

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltdf=pd.read_csv('house_prices.csv')//导入数据集df.info();df.head()

1.3 变量探索

#异常值处理#定义一个函数outlier_test（iqr&z分数两种方法）def outlier_test(data,column,method=None,z=2):""" 以某列为依据，使用上下截断点法检测异常值(索引) """""" full_data: 完整数据 column: full_data 中的指定行，格式 'x' 带引号 return 可选; outlier: 异常值数据框 upper: 上截断点; lower: 下截断点 method：检验异常值的方法（可选, 默认的 None 为上下截断点法），选 Z 方法时，Z 默认为 2 """#上下截断点法检验异常值if method==None:print(f'以{column}列为依据，使用上下截断点法(iqr)检测异常值')print('='*70)#四分位点：这里调用函数会存在异常column_iqr=np.quantile(data[column],0.75)-np.quantile(data[column],0.25)#1,3分位数(q1,q3)=np.quantile(data[column],0.25),np.quantile(data[column],0.75)#计算上下截断点upper,lower=(q3+1.5*column_ipr),(q1-1.5*column_iqr)#检测异常值outlier=data[(data[column]<=lower)|(data[column]>=upper)]print(f'第一分位数：{q1},第三分位数：{q3},四分位极差：{column_iqr}')print(f"上截断点：{upper}, 下截断点：{lower}") return outlier, upper, lower#z分数检验异常值if method=='z':""" 以某列为依据，传入数据与希望分段的 z 分数点，返回异常值索引与所在数据框 """"""paramsdata: 完整数据column: 指定的检测列z: Z分位数, 默认为2，根据 z分数-正态曲线表，可知取左右两端的 2%，根据您 z 分数的正负设置。也可以任意更改，知道任意顶端百分比的数据集合"""print(f'以{column}列为依据，使用z分法，z分位数取{z}来检测异常值')print('='*70)# 计算两个 Z 分数的数值点mean,std=np.mean(data[column]),np.std(data[column])upper,lower=(mean+z*std),(mean-z*std)print(f'取 {z} 个 Z分数：大于 {upper} 或小于 {lower} 的即可被视为异常值')print('=' * 70)# 检测异常值outlier = data[(data[column] <= lower) | (data[column] >= upper)]return outlier, upper, lower

outlier, upper, lower = outlier_test(data=df, column='price', method='z')outlier.info(); outlier.sample(5)

#简单丢弃df.drop(index=outlier.index,inplace=True)

# nominal_variables类别变量,又称为名义变量nominal_vars=['neighborhood','style']for each in nominal_vars:print(each,':')print(df[each].agg(['value_counts']).T)# 直接 .value_counts().T 无法实现下面的效果#必须得 agg，而且里面的中括号 [] 也不能少print('='*35)# 发现各类别的数量也都还可以，为下面的方差分析做准备

#热力图def heatmap(data,method='pearson',camp='RdYlGn',figsize=(10,8)):"""data:整份数据method:默认为pearson系数camp:默认为：RdYlGn-红黄蓝；YlGnBu-黄绿蓝；Blues/Greens 也是不错的选择figsize: 默认为 10，8"""## 消除斜对角颜色重复的色块# mask = np.zeros_like(df2.corr())# mask[np.tril_indices_from(mask)] = Trueplt.figure(figsize=figsize,dpi=80)sns.heatmap(data.corr(method=method),\xticklabels=data.corr(method=method).columns, \yticklabels=data.corr(method=method).columns, cmap=camp, \center=0, annot=True)# 要想实现只是留下对角线一半的效果，括号内的参数可以加上 mask=mask

# 通过热力图可以看出 area，bedrooms，bathrooms 等变量与房屋价格 price 的关系都还比较强# 所以值得放入模型，但分类变量 style 与 neighborhood 两者与 price 的关系未知heatmap(data=df, figsize=(6,5))

#前面探索我们发现，style与neighborhood的类别都是三类#如果只是两类的话我们可以进行卡方检验，所以我们使用方差分析#statsmodels有方差分析库#从线性回归结果中提取方差分析结果import statsmodels.api as smfrom statsmodels.formula.api import ols #ols为建立线性回归模型的统计数学库from statsmodels.stats.anova import anova_lm

样本量和置信水平α_level 的注意点（置信水平 α 的选择经验）

样本量 α-level ≤ 100 10% 100 ＜ n ≤ 500 5% 500 ＜ n ≤ 1000 1% n ＞ 2000 千分之一

样本量过大，α-level 就没什么意义了。

数据量很大时，p 值就没用了，样本量通常不超过 5000，

为了证明两变量间的关系是稳定的，样本量要控制好。

#数据集样本数量：6028，这里随机选择600条df=df.copy().sample(600)#C表示告诉Python这是分类变量，否则Python会当成连续变量使用#这里直接使用方差分析对所有分类变量进行检验#下面几行代码便是使用统计学库进行方差分析的标准方法lm=ols('price~C(neighborhood)+C(style)',data=df).fit()anova_lm(lm)# Residual 行表示模型不能解释的组内的，其他的是能解释的组间的# df: 自由度（n-1）- 分类变量中的类别个数减1# sum_sq: 总平方和（SSM），residual行的 sum_eq: SSE# mean_sq: msm, residual行的 mean_sq: mse# F：F 统计量，查看卡方分布表即可# PR(>F): P 值# 反复刷新几次，发现都很显著，所以这两个变量也挺值得放入模型中

1.3 多元线性回归建模

from statsmodels.formula.api import olslm=ols('price ~ area + bedrooms + bathrooms',data=df).fit()lm.summary()

1.4 模型优化

发现精度还不够高，这里通过添加虚拟变量与使用方差膨胀因子检测多元共线性的方式来提升模型精度

#设置虚拟变量#以名义变量 neighborhood 街区为例nominal_data = df['neighborhood']# 设置虚拟变量 dummies = pd.get_dummies(nominal_data)dummies.sample() # pandas 会自动帮你命名 # 每个名义变量生成的虚拟变量中，需要各丢弃一个，这里以丢弃C为例 dummies.drop(columns=['C'], inplace=True)dummies.sample()

#将结果与原数据集拼接results=pd.concat(objs=[df, dummies], axis='columns') #按照列来合并results.sample(3)#对名义变量style的处理可自行尝试

# 再次建模 lm = ols('price ~ area + bedrooms + bathrooms + A + B', data=results).fit()lm.summary()

# 模型末尾提示可能存在多元共线性，需要处理一下

# 自定义方差膨胀因子的检测公式def vif(df, col_i):""" df: 整份数据 col_i：被检测的列名"""cols = list(df.columns)cols.remove(col_i)cols_noti = colsformula = col_i + '~' + '+'.join(cols_noti)r2 = ols(formula, df).fit().rsquaredreturn 1. / (1. - r2)

test_data = results[['area', 'bedrooms', 'bathrooms', 'A', 'B']]for i in test_data.columns:print(i, '\t', vif(df=test_data, col_i=i))# 发现 bedrooms 和 bathrooms 存在强相关性，可能这两个变量是解释同一个问题

# 果然，bedrooms 和 bathrooms 这两个变量的方差膨胀因子较高，# 也印证了方差膨胀因子大多成对出现的原则，这里我们丢弃膨胀因子较大的 bedrooms 即可 lm = ols(formula='price ~ area + bathrooms + A + B', data=results).fit() lm.summary()

# 再次进行多元共线性检测test_data = df[['area', 'bathrooms']] for i in test_data.columns: print(i, '\t', vif(df=test_data, col_i=i))

二、用Excel重做上面的多元线性回归，求解回归方程

添加数据分析功能

数据分析功能添加完成！

选择数据分析功能，选择回归选项

选择x,y值域

将房屋售价（price）作为因变量，表格中的其他字段（area、bedrooms和bathrooms）作为自变量

点击确定

字段Multiple R代表复相关系数R，也就是R2的平方根，又称相关系数，用来衡量自变量x与y之间的相关程度的大小。
R Square是复测定系数，也就是相关系数R的平方。
Adjusted R Square是调整后的复测定系数R2。
标准误差用来衡量拟合程度的大小，也用于计算与回归相关的其它统计量，此值越小，说明拟合程度越好。
观察值是用于估计回归方程的数据的观察值个数，本次数据集共有20条数据，所以观察值为20。
Coefficients为常数项

设因变量房屋售价price为y，自变量面积area为x1，bedrooms为x2，bathrooms为x3

所以得到方程：

y=10072.11+345.911x1-2925.81x2+7345.392x3

三、用机器学习库Sklearn库重做上面的多元线性归

3.1 不处理直接求解

import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as plt #画图from sklearn import linear_model #线性模型data = pd.read_csv('house_prices.csv') data.head() #数据展示

new_data=data.iloc[:,1:]#除掉house_id这一列new_data.head()

new_data.corr()#相关系数矩阵，只统计数值列

"""取are、bedrooms和bathroom作为X,price为Y求线性回归。"""x_data = new_data.iloc[:, 1:4] #are、bedrooms、bathroom对应列y_data = new_data.iloc[:, -1] #price对应列print(x_data, y_data, len(x_data))

# 应用模型model = linear_model.LinearRegression()model.fit(x_data, y_data)print("回归系数：", model.coef_)print("截距：", model.intercept_)print('回归方程: price=',model.coef_[0],'*area +',model.coef_[1],'*bedrooms +',model.coef_[2],'*bathromms +',model.intercept_)

3.2 数据进行清洗后再求解

new_data_Z=new_data.iloc[:,0:]new_data_IQR=new_data.iloc[:,0:]def outlier_test(data, column, method=None, z=2):if method == None:print(f'以 {column} 列为依据，使用上下截断点法(iqr) 检测异常值...')print('=' * 70)column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)outlier = data[(data[column] <= lower) | (data[column] >= upper)]print(f'第一分位数: {q1}, 第三分位数：{q3}, 四分位极差：{column_iqr}')print(f"上截断点：{upper}, 下截断点：{lower}")return outlier, upper, lowerif method == 'z':print(f'以 {column} 列为依据，使用 Z 分数法，z 分位数取 {z} 来检测异常值...')print('=' * 70) mean, std = np.mean(data[column]), np.std(data[column])upper, lower = (mean + z * std), (mean - z * std)print(f"取 {z} 个 Z分数：大于 {upper} 或小于 {lower} 的即可被视为异常值。")print('=' * 70)outlier = data[(data[column] <= lower) | (data[column] >= upper)]return outlier, upper, loweroutlier, upper, lower = outlier_test(data=new_data_Z, column='price', method='z')outlier.info(); outlier.sample(5)#这里简单丢弃即可new_data_Z.drop(index=outlier.index, inplace=True)

outlier, upper, lower = outlier_test(data=new_data_IQR, column='price')outlier.info(); outlier.sample(5)# 这里简单的丢弃即可new_data_IQR.drop(index=outlier.index, inplace=True)

print("原数据相关性矩阵")new_data.corr()

print("z方法处理的相关性矩阵")new_data_Z.corr()

print("IQR方法处理的数据相关性矩阵")new_data_IQR.corr()

x_data = new_data_Z.iloc[:, 1:4]y_data = new_data_Z.iloc[:, -1]# 应用模型model = linear_model.LinearRegression()model.fit(x_data, y_data)print("回归系数：", model.coef_)print("截距：", model.intercept_)print('回归方程: price=',model.coef_[0],'*area +',model.coef_[1],'*bedrooms +',model.coef_[2],'*bathromms +',model.intercept_)

x_data = new_data_IQR.iloc[:, 1:4]y_data = new_data_IQR.iloc[:, -1]# 应用模型model = linear_model.LinearRegression()model.fit(x_data, y_data)print("回归系数：", model.coef_)print("截距：", model.intercept_)print('回归方程: price=',model.coef_[0],'*area +',model.coef_[1],'*bedrooms +',model.coef_[2],'*bathromms +',model.intercept_)