超详细SPSS操作：多重线性回归（完整版）

您所在的位置：网站首页 › 线性回归中的p值计算方法 › 超详细SPSS操作：多重线性回归（完整版）

超详细SPSS操作：多重线性回归（完整版）

2024-05-21 02:24| 来源: 网络整理| 查看: 265

小咖有话说：经常关注医咖会的小伙伴可能知道，我们之前已经推送过多篇关于“多重线性回归”的文章。这次推送的版本呢，有些内容在之前讲到过，有些内容是新添加进去的。对多重线性回归感兴趣或者未来有可能用到的伙伴，这篇文章请务必收藏，因为讲解实在是太详细了。

一、问题与数据

最大携氧能力（maximal aerobic capacity，VO2max）是评价人体健康的关键指标，但因测量方法复杂，不易实现。具体原因在于，它不仅需要昂贵的试验设备，还需要受试者运动到个人承受能力的极限，无法测量那些没有运动意愿或患有高危疾病无法运动的受试者。

因此，某研究者拟通过一些方便、易得的指标建立受试者最大携氧能力的预测模型。该研究者共招募100位受试者，分别测量他们的最大携氧能力（VO2max），并收集年龄（age）、体重（weight）、心率（heart_rate）和性别（gender）等变量信息，部分数据如下：

注：心率（heart_rate）测量的是受试者进行20分钟低强度踏板试验中，最后5分钟的平均心率。

二、问题的分析

研究者想根据一些变量（age、weight、heart_rate和gender）预测另一个变量（VO2max）。针对这种情况，我们可以使用多重线性回归分析，但需要先满足以下8项假设：

假设1：因变量是连续变量

假设2：自变量不少于2个（连续变量或分类变量都可以）

假设3：具有相互独立的观测值

假设4：自变量和因变量之间存在线性关系

假设5：等方差性

假设6：不存在多重共线性

假设7：不存在显著的异常值

假设8：残差近似正态分布

那么，进行多重线性回归分析时，如何考虑和处理这8项假设呢？

三、思维导图

（点击图片可查看大图）

四、对假设的判断

1. 假设1-2

假设1和假设2分别要求因变量是连续变量、自变量不少于2个。这与研究设计有关，需根据实际情况判断。

2. 假设3-8

为了检验假设3-8，我们需要在SPSS中运行多重线性回归，并对结果进行一一分析。

(1) 点击Analyze→Regression→Linear

出现下图：

(2) 将因变量（VO2max）放入Dependent栏，再将自变量（age，weight， heart_rate和gender）放入Independent栏

解释：Previous和Next按钮是针对层次回归（sequential/hierarchical multiple regression）的，在本次回归中可以忽略。同时，Method栏应设置为“Enter”，一般是SPSS自动设置的；如果不是，也应人工设置为“Enter”。

(3) 点击Statistics，弹出下图：

(4) 在Regression Coefficient框内点选Confidence intervals，设置Level（%）为95%。在Residuals框内点选Durbin-Watson和Casewise diagnosis，并在主对话框内点选Model Fit，Descriptive，Part and partial correlations和Collinearity diagnosis

(5) 点击Continue，回到主界面

(6) 点击Plots，弹出下图：

(7) 在Standardized Residual Plots对话框中点选Histogram和Normal probability,并点选Produce all partial plots

(8) 点击Continue回到主对话框

(9) 点击Save

(10) 在Predicted Values框内点选Unstandardized，在Distance框内点选Cook’s和Leverage values，在Residuals框内点选Studentized和Studentized deleted

(11) 点击Continue→OK

经过这些操作，Variable View 和Data View对话框中会增加5个变量：

这5个变量分别是未标化预测值（unstandardized predicted values，PRE_1），学生化残差（studentized residuals，SRE_1），学生化删除残差（studentized deleted residuals，SDR_1），Cook距离（Cook's Distance values，COO_1）以及杠杆值（leverage values，LEV_1）。

根据这5个新增变量和其他结果，我们将逐一对假设3-8进行检验。

假设3：具有相互独立的观测值

观测值之间相互独立是多重线性回归的基本假设之一，主要检验的是1st-order autocorrelation，即邻近的观测值之间没有相关性。SPSS中的Durbin-Watson检验，刚好可以实现这一目的。

举例来说，我们一般按照调查顺序录入数据，将第一位受试者录入到第一行，再将第二位受试者录入到第二行。在这种情况下，Durbin-Watson检验可以检测出第一位受试者和第二位受试者之间的相关性。但是如果我们乱序录入数据，将第一位受试者和可能与他存在自相关的第二位受试者离得很远，Durbin-Watson检验的结果就不准确了。

其实，观测值是否相互独立与研究设计有关。如果研究者确信观测值不会相互影响，我们甚至可以不进行Durbin-Watson检验，直接认定研究满足假设3。

在本研究中，我们假设观测值之间可能存在相关性，即需要进行Durbin-Watson检验。

经过上述操作，SPSS输出Durbin-Watson检验结果为：

本研究Durbin-Watson检验值为1.910。一般来说，Durbin-Watson检验值分布在0-4之间，越接近2，观测值相互独立的可能性越大。即，本研究中多重线性回归的观测值具有相互独立性，满足假设3。

假设4：自变量和因变量之间存在线性关系

多重线性回归不仅要求因变量与所有自变量存在线性关系，还要求因变量与每一个自变量之间存在线性关系。应该如何检验这个假设呢？

检验因变量与所有自变量之间是否存在线性关系

经上述SPSS操作，我们得到未标化预测值（PRE_1）和学生化残差（SRE_1）两个新增变量。为检验因变量与所有自变量之间是否存在线性关系，我们需要绘制这两个变量的散点图。

(1) 在主菜单点击Graphs→Chart Builder

出现下图：

(2) 在Chart Builder对话框下，点击Choose from栏内的Scatter/Dot

(3) 在中下部的8种图形中，选择左上角的那一种（如果点击这个图标会出现“Simple Scatter”字样），并拖拽到主对话框中

(4) 主对话框中会出现标记“Y-Axis？”和“X-Axis？”的方框

(5) 将Variables框内的未标化预测值（PRE_1）和学生化残差（SRE_1）变量分别拖拽到“X-Axis？”和“Y-Axis？”方框内

(6) 点击OK，完成散点图

一般来说，如果未标化预测值（PRE_1）和学生化残差（SRE_1）的散点图呈水平带状，就说明多重线性回归中因变量与所有自变量之间存在线性关系。结果提示，本研究满足因变量与所有自变量之间存在线性关系的假设。

为了方便大家理解，我们举一个因变量与所有自变量之间不存在线性关系的例子，如下：

检验因变量与每一个自变量之间是否存在线性关系

为检验因变量与每一个自变量之间是否存在线性关系，我们需要分别绘制每个自变量与因变量的散点图。当然，这是针对连续型自变量而言的，我们可以忽略分类型自变量（如性别）与因变量之间的线性关系。

点选Linear Regression：Plots对话框中的Produce all partial plots，SPSS可以自动输出每个自变量与因变量的散点图，如下：

年龄：最大携氧能力（VO2max）与年龄（age）之间存在近似线性关系

体重：最大携氧能力（VO2max）与体重（weight）之间存在线性关系

心率：最大携氧能力（VO2max）与心率（hear_rate）之间存在近似线性关系

综上，我们认为本研究满足因变量与每一个自变量之间存在线性关系的假设。

大家可能对如何根据散点图判断线性关系存在疑问，我们举例如下：

在多重线性回归分析中，如果因变量与某一自变量的散点图呈水平分布，即斜率为0，我们就认为该二者之间不存在线性关系。但如果散点分布近似直线，且斜率不为0，我们就认为该数据满足假设4。

假设5：等方差性

等方差性也可以通过学生化残差（SRE_1）与未标化预测值（PRE_1）之间的散点图进行检验，“假设4”中绘制散点图如下：

如果存在等方差性，不同预测值对应的残差应大致相同。即图中各点均匀分布，不会出现特殊的分布形状。如果散点图分布不均匀，形成漏斗或者扇形，那么回归就不具有等方差性，如下：

increasing funnel上升漏斗；decreasing funnel下降漏斗；fan shaped扇形

本研究中学生化残差与未标化预测值散点图的各点均匀分布，提示该数据符合等方差性，即满足假设5。

当然，如果研究结果提示不满足等方差性假设，我们也可以通过一些统计手段进行矫正。比如，采用加权最小二乘法回归方程，改用更加稳健的回归或者有稳健标准差结果的回归以及对自变量进行转换等。

假设6：不存在多重共线性

当回归中存在2个或多个自变量高度相关时，就会出现多重共线。它不仅可以影响自变量对因变量变异的解释能力，还可以影响整个多重线性回归模型的拟合。为了检验假设6，我们主要关注相关系数（correlation coefficients）和容忍度/方差膨胀因子（Tolerance/VIF ）两类指标。