100字范文 > SPSS（五）SPSS之相关分析与线性回归模型（图文+数据集）

SPSS（五）SPSS之相关分析与线性回归模型（图文+数据集）

时间：2021-09-23 10:37:05

在讲解线性回归模型之前，先来学习相关分析的知识点，因为相关分析与回归有着密切的联系

§线性趋势

§独立性

§样本量

§根据经验，记录数应当在希望分析的自变量数的20倍以上为宜

§实质上样本量和模型的决定系数有关，可通过迭代的方法进行计算

§正态性

§方差齐性

§如果只是探讨自变量与因变量间的关系，则后两个条件可以适当放宽

备注：由于是连续变量，不可能事先分组描述，分组检验，我们一般做事后残差分析来看检验模型的正态性及方差齐性

线性回归模型分析步骤

1.考察数据的分布，进行必要的预处理。即分析变量的正态性、方差齐等问题

2.进行直线回归分析

3.残差分析

残差间是否独立（Durbin-Watson检验)

残差分布是否为正态（图形或统计量）

如何进行残差分析

图一是正常的残差图

图二残差随着自变量的变大而增大，证明方差不齐，我们可以使用变量转换的方法或者加权最小二乘法（同理随着自变量的变大而减小也是）

图三可能是没有把高次项或者交互项放进模型建模分析

案例

§某专门面向年轻人制作肖像的公司计划在国内再开设几家分店，收集了目前已开设的分店的销售数据(Y，万元)及分店所在城市的16岁以下人数(X1，万人)、人均可支配收入(X2，元)，试进行统计分析。

§实际上拟合的模型如下：（回归里面一般不考虑交互项，想加的话可以作为一个新变量x1*x2加进来）

数据集如下

17.446.85167016.444.52168024.429.1318.464.78163018.164.69173020.756.6118.284.95159016.325..544.89166013.723.84160024.198.79183019.117.28171023.208.84174014.534.29158016.115.25178020.978.57184014.644.13165014.405.17163023.268.96181022.418.27191016.655.231600

首先作所有自变量---因变量散点图

作散点图作用有三个：

1.观察有无趋势

2.是否是线性趋势

3.有无强离群点

图形----图表构建程序

选择散点图

发现销售收入--年轻人数有线性趋势，无强离群点

同理销售收入--人均可支配收入有线性趋势，可能有离群点，我们最后结合残差分析

建模（分析----回归---线性）

结果解读

决定系数R2（无限接近于1越好，简单来说衡量模型可用性与模型信息量的表达）

相应的相关系数的平方，用R2表示，它反映因变量y的全部变异中能够通过回归关系被自变量解释的比例

看sig.，加入sig.<0.05证明用这些因变量来预测是有价值的，但是具体哪一个变量有价值，要结合下面这张表格来看

年轻人人数、人均可支配收入sig.<0.05，证明都有意义，B就是回归模型的偏回归系数，标准系数就是偏回归系数消除量纲影响进行标准化

所以我们回归的方程为

y=-6.886+1.455*x1+0.009*x2

残差分析

检验残差之间的独立性（Durbin-Watson检验）

分析--回归--线性--统计量

在结果的

一般Durbin-Watson取值在[0,4]

当Durbin-Watson为2时残差完全独立

当1<=Durbin-Watson<=3时，没有什么大问题

当Durbin-Watson<1 或者Durbin-Watson>3就有问题了

残差分布是否为正态（图形或统计量）

作标准化残差图

正态性，由于样本量少，就不强求其正态分布了

P-P图也是检验其正态性的，数据要靠近那条线越好

最重要是这张图形，标准化残差图，我们可以从这图看数据有无极端值，一般在[-3,3]以没什么大问题

还有查看变量之间的相关性以及多重共线性

多重共线性（VIF>10或者条件索引>100就可能存在多重共线性）

所以分析到这里，这个案列就完成了

逐步回归

由于刚才那个案例两个自变量是我们定死的，一定要扔进去建模的，但是正常会有很多自变量，需要我们做变量的挑选

逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

多变量的筛选策略较稳妥的方式

单自变量回归模型，筛掉那些显然无关联的候选变量尝试建立多自变量模型，可手动、也可利用自动筛选方法，但使用后者时要谨慎多自变量和单自变量模型结果相矛盾时，以前者为准结果不符合专业知识时，尽量寻找原因

案例：固体垃圾排放量与土地种类的关系

本例来自Golueke and McGauhey 1970年对美国40个城市的固体垃圾排放量(吨)的调查资料，所关心的问题是不同种类土地使用面积（单位，英亩）与固体垃圾排放量之间的关系。可能的影响因素有：indust（工业区土地面积的大小）、metals（金属制造企业用地面积）、trucks（运输及批发商业用地面积）、retail（零售业用地面积）、restrnts（餐馆与宾馆用地面积）。试作逐步回归分析。

数据集如下

102.069.0133.0125.036.00.35741220.0723.02616.0953.0132.01.9673139.0138.046.035.06.00.1862221.0637.0153.0115.016.00.381612.00.01.09.01.00.15121.050.03.025.02.00.14491046.0127.0313.0392.056.00.47112032.044.0409.0540.098.00.6512895.054.0168.0117.032.00.66240.00.02.00.01.00.345725.02.024.078.015.00.335597.012.091.0135.024.00.39821.00.015.046.011.00.20444.01.018.023.08.00.296942.04.078.041.061.01.151587.0162.0599.011.03.00.56092.00.026.024.06.00.11042.09.029.011.02.00.086348.018.0101.025.04.00.1952131.0126.0387.06.00.00.16884.00.0103.049.09.00.07861.04.046.016.02.00.09550.00.0468.056.02.00.04867.00.052.037.05.00.08675.01.06.095.011.00.1403174.0113.0285.069.018.00.37860.00.06.035.04.00.0761233.0153.0682.0404.085.00.8927155.056.094.075.017.00.3621120.074.055.0120.08.00.17588983.037.0236.077.038.00.269959.054.0138.055.011.00.276272.0112.0169.0228.039.00.324571.078.025.0162.043.00.3737853.01002.01017.0418.057.00.91145.00.017.014.013.00.259411.034.03.020.04.00.4284258.01.033.048.013.00.190569.014.0126.0108.020.00.23414790.02046.03719.031.07.00.7759

逐步回归建模两种方法

手动自己一个一个去尝试，一般结果非常重要，建议手动，SPSS自动化错误率达到30%（这里就不演示了） SPSS自动方法（向前法、向后法、逐步法），一般来说逐步法结合了向前法向后法是最好的（只演示逐步法）

可以看到每一个步骤

每一个步骤决定系数变化是我们最关注的，R2越大越好，也是我们筛选变量的标准

已排除变量这张表要讲一下，说的是加入这个因变量模型会变得更加好吗？sig.<0.05表示会

SPSS自动方法逐步法扔进变量和剔除变量的阈值是？

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。