超详细SPSS操作:多重线性回归(完整版) 您所在的位置:网站首页 线性回归中的p值计算方法 超详细SPSS操作:多重线性回归(完整版)

超详细SPSS操作:多重线性回归(完整版)

2024-05-21 02:24| 来源: 网络整理| 查看: 265

小咖有话说:经常关注医咖会的小伙伴可能知道,我们之前已经推送过多篇关于“多重线性回归”的文章。这次推送的版本呢,有些内容在之前讲到过,有些内容是新添加进去的。对多重线性回归感兴趣或者未来有可能用到的伙伴,这篇文章请务必收藏,因为讲解实在是太详细了。

一、问题与数据

最大携氧能力(maximal aerobic capacity,VO2max)是评价人体健康的关键指标,但因测量方法复杂,不易实现。具体原因在于,它不仅需要昂贵的试验设备,还需要受试者运动到个人承受能力的极限,无法测量那些没有运动意愿或患有高危疾病无法运动的受试者。

因此,某研究者拟通过一些方便、易得的指标建立受试者最大携氧能力的预测模型。该研究者共招募100位受试者,分别测量他们的最大携氧能力(VO2max),并收集年龄(age)、体重(weight)、心率(heart_rate)和性别(gender)等变量信息,部分数据如下:

注:心率(heart_rate)测量的是受试者进行20分钟低强度踏板试验中,最后5分钟的平均心率。

二、问题的分析

研究者想根据一些变量(age、weight、heart_rate和gender)预测另一个变量(VO2max)。针对这种情况,我们可以使用多重线性回归分析,但需要先满足以下8项假设:

假设1:因变量是连续变量

假设2:自变量不少于2个(连续变量或分类变量都可以)

假设3:具有相互独立的观测值

假设4:自变量和因变量之间存在线性关系

假设5:等方差性

假设6:不存在多重共线性

假设7:不存在显著的异常值

假设8:残差近似正态分布

那么,进行多重线性回归分析时,如何考虑和处理这8项假设呢?

三、思维导图

(点击图片可查看大图)

四、对假设的判断

1. 假设1-2

假设1和假设2分别要求因变量是连续变量、自变量不少于2个。这与研究设计有关,需根据实际情况判断。

2. 假设3-8

为了检验假设3-8,我们需要在SPSS中运行多重线性回归,并对结果进行一一分析。

(1) 点击Analyze→Regression→Linear

出现下图:

(2) 将因变量(VO2max)放入Dependent栏,再将自变量(age,weight, heart_rate和gender)放入Independent栏

解释:Previous和Next按钮是针对层次回归(sequential/hierarchical multiple regression)的,在本次回归中可以忽略。同时,Method栏应设置为“Enter”,一般是SPSS自动设置的;如果不是,也应人工设置为“Enter”。

(3) 点击Statistics,弹出下图:

(4) 在Regression Coefficient框内点选Confidence intervals,设置Level(%)为95%。在Residuals框内点选Durbin-Watson和Casewise diagnosis,并在主对话框内点选Model Fit,Descriptive,Part and partial correlations和Collinearity diagnosis

(5) 点击Continue,回到主界面

(6) 点击Plots,弹出下图:

(7) 在Standardized Residual Plots对话框中点选Histogram和Normal probability,并点选Produce all partial plots

(8) 点击Continue回到主对话框

(9) 点击Save

(10) 在Predicted Values框内点选Unstandardized,在Distance框内点选Cook’s和Leverage values,在Residuals框内点选Studentized和Studentized deleted

(11) 点击Continue→OK

经过这些操作,Variable View 和Data View对话框中会增加5个变量:

这5个变量分别是未标化预测值(unstandardized predicted values,PRE_1),学生化残差(studentized residuals,SRE_1),学生化删除残差(studentized deleted residuals,SDR_1),Cook距离(Cook's Distance values,COO_1)以及杠杆值(leverage values,LEV_1)。

根据这5个新增变量和其他结果,我们将逐一对假设3-8进行检验。

假设3:具有相互独立的观测值

观测值之间相互独立是多重线性回归的基本假设之一,主要检验的是1st-order autocorrelation,即邻近的观测值之间没有相关性。SPSS中的Durbin-Watson检验,刚好可以实现这一目的。

举例来说,我们一般按照调查顺序录入数据,将第一位受试者录入到第一行,再将第二位受试者录入到第二行。在这种情况下,Durbin-Watson检验可以检测出第一位受试者和第二位受试者之间的相关性。但是如果我们乱序录入数据,将第一位受试者和可能与他存在自相关的第二位受试者离得很远,Durbin-Watson检验的结果就不准确了。

其实,观测值是否相互独立与研究设计有关。如果研究者确信观测值不会相互影响,我们甚至可以不进行Durbin-Watson检验,直接认定研究满足假设3。

在本研究中,我们假设观测值之间可能存在相关性,即需要进行Durbin-Watson检验。

经过上述操作,SPSS输出Durbin-Watson检验结果为:

本研究Durbin-Watson检验值为1.910。一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。即,本研究中多重线性回归的观测值具有相互独立性,满足假设3。

假设4:自变量和因变量之间存在线性关系

多重线性回归不仅要求因变量与所有自变量存在线性关系,还要求因变量与每一个自变量之间存在线性关系。应该如何检验这个假设呢?

检验因变量与所有自变量之间是否存在线性关系

经上述SPSS操作,我们得到未标化预测值(PRE_1)和学生化残差(SRE_1)两个新增变量。为检验因变量与所有自变量之间是否存在线性关系,我们需要绘制这两个变量的散点图。

(1) 在主菜单点击Graphs→Chart Builder

出现下图:

(2) 在Chart Builder对话框下,点击Choose from栏内的Scatter/Dot

(3) 在中下部的8种图形中,选择左上角的那一种(如果点击这个图标会出现“Simple Scatter”字样),并拖拽到主对话框中

(4) 主对话框中会出现标记“Y-Axis?”和“X-Axis?”的方框

(5) 将Variables框内的未标化预测值(PRE_1)和学生化残差(SRE_1)变量分别拖拽到“X-Axis?”和“Y-Axis?”方框内

(6) 点击OK,完成散点图

一般来说,如果未标化预测值(PRE_1)和学生化残差(SRE_1)的散点图呈水平带状,就说明多重线性回归中因变量与所有自变量之间存在线性关系。结果提示,本研究满足因变量与所有自变量之间存在线性关系的假设。

为了方便大家理解,我们举一个因变量与所有自变量之间不存在线性关系的例子,如下:

检验因变量与每一个自变量之间是否存在线性关系

为检验因变量与每一个自变量之间是否存在线性关系,我们需要分别绘制每个自变量与因变量的散点图。当然,这是针对连续型自变量而言的,我们可以忽略分类型自变量(如性别)与因变量之间的线性关系。

点选Linear Regression:Plots对话框中的Produce all partial plots,SPSS可以自动输出每个自变量与因变量的散点图,如下:

年龄:最大携氧能力(VO2max)与年龄(age)之间存在近似线性关系

体重:最大携氧能力(VO2max)与体重(weight)之间存在线性关系

心率:最大携氧能力(VO2max)与心率(hear_rate)之间存在近似线性关系

综上,我们认为本研究满足因变量与每一个自变量之间存在线性关系的假设。

大家可能对如何根据散点图判断线性关系存在疑问,我们举例如下:

在多重线性回归分析中,如果因变量与某一自变量的散点图呈水平分布,即斜率为0,我们就认为该二者之间不存在线性关系。但如果散点分布近似直线,且斜率不为0,我们就认为该数据满足假设4。

假设5:等方差性

等方差性也可以通过学生化残差(SRE_1)与未标化预测值(PRE_1)之间的散点图进行检验,“假设4”中绘制散点图如下:

如果存在等方差性,不同预测值对应的残差应大致相同。即图中各点均匀分布,不会出现特殊的分布形状。如果散点图分布不均匀,形成漏斗或者扇形,那么回归就不具有等方差性,如下:

increasing funnel上升漏斗;decreasing funnel下降漏斗;fan shaped扇形

本研究中学生化残差与未标化预测值散点图的各点均匀分布,提示该数据符合等方差性,即满足假设5。

当然,如果研究结果提示不满足等方差性假设,我们也可以通过一些统计手段进行矫正。比如,采用加权最小二乘法回归方程,改用更加稳健的回归或者有稳健标准差结果的回归以及对自变量进行转换等。

假设6:不存在多重共线性

当回归中存在2个或多个自变量高度相关时,就会出现多重共线。它不仅可以影响自变量对因变量变异的解释能力,还可以影响整个多重线性回归模型的拟合。为了检验假设6,我们主要关注相关系数(correlation coefficients)和容忍度/方差膨胀因子(Tolerance/VIF )两类指标。

相关系数

点击 Linear Regression: Statistics 对话框中的Descriptive,SPSS可以输出Correlation结果,如下:

一般来说,如果自变量之间的相关系数大于0.7,我们就会怀疑可能存在多重共线性。本研究中,任意两个自变量的相关系数都小于0.7,提示数据中不存在多重共线性。

容忍度/方差膨胀因子

为了检验假设6,我们需要根据容忍度(Tolerance)和方差膨胀因子(VIF)进一步判断。

实际上,方差膨胀因子是容忍度的倒数(1/容忍度),我们只需要判断其中一个指标即可。如果容忍度小于0.1,方差膨胀因子大于10,提示数据存在多重共线性。在本研究中,所有容忍度值都大于0.1(最小值为0.765),说明数据满足假设6。

假设7:不存在显著的异常值

根据作用方式的不同,多重线性回归异常值主要分为离群值(outliers)、强杠杆点(leverage points)和影响点(influential points)3类。异常的观测值可以符合其中一类或几类。但无论是哪一种都对多重线性回归的拟合与推论有着严重的负面影响。好在我们可以通过SPSS检测这些异常值。

离群值

离群值是指实际值与预测值相差较大的数据,可以通过标化残差、学生化残差以及学生化删除残进行检测。在这里,我们主要向大家介绍标化残差(Casewise Diagnostics检验)和学生化删除残差两种方法。

Casewise Diagnostics检验标准是上下3倍标准差,并标记超出此范围的数据为离群值。本研究中,SPSS输出的Casewise Diagnostics检验结果如下:

注:如果研究中没有标化残差超出3倍标准差的离群值,SPSS就不会输出该表格。

本研究中没有标化残差超出3倍标准差的离群值,SPSS也未输出Casewise Diagnostics检验结果。为了更好地向大家展示多重线性回归的过程,我们将检验标准改为2倍标准差,SPSS才输出上述结果。但是值得注意的是,在没有特殊要求的情况下,我们认为以3倍标准差检验离群值比较合理,当然也有一些研究是以2.5倍标准差为检验标准的,这需要大家根据实际研究具体决定。

从上表可以看出,本研究中最严重的离群值是第28例数据:

第28例数据的标化残差值为2.969,实际值为49.87 ml/min/kg,预测值为32.97 ml/min/kg,差值(残差值)为16.90 ml/min/kg。如果您认为这是一例离群值,您需要考虑出现它出现的原因(如录入错误),并进行相应的调整。

本研究以标化残差的3倍标准差Casewise Diagnostics检验为标准,提示该数据没有离群值。

SPSS提供的另一种检测方法,学生化删除残差(Studentized deleted residuals),比Casewise Diagnostics检验更加稳定。在运行多重线性回归时,我们的新增变量(SDR_1)就是学生化删除残差。

(1) 右击SDR_1数据栏

(2) 选择“Sort Descending”

学生化删除残差会按照由大到小排序,如下:

根据学生化删除残差排序,大家可以在数据栏的最上方和最下方检查是否存在超过3倍标准差的离群值。如果存在,就应进行相应的调整或剔除。

强杠杆点

我们主要通过数据的杠杆值检测强杠杆点。在运行多重线性回归时,我们的新增变量(LEV_1)就是杠杆值。

(1) 右击LEV_1数据栏

(2) 选择“Sort Descending”

杠杆值会按照由大到小排序,如下:

一般来说,如果杠杆值小于0.2,我们就认为数据安全。但如果杠杆值位于0.2-0.5之间,我们就认为对应数据可能是强杠杆点;若杠杆值大于0.5,数据就很可能是强杠杆点了。在本研究中,数据的杠杆值都小于0.2,即不存在强杠杆点。

强影响点

强影响点主要通过Cook距离进行检测,多重线性回归的新增变量(COO_1)就是Cook距离。

(1) 右击COO_1数据栏

(2) 选择“Sort Descending”

Cook距离会按照由大到小排序,如下:

一般来说,如果Cook距离大于1,对应的数据就可能是强影响点。在本研究中,所有数据的Cook距离都小于1,即不存在强影响点。

综上,根据本研究的结果和实际情况,我们认为没有需要处理的异常值。

(想更详细了解异常值,请点击:怎么判别我的数据中存在特异值?教你几招!)

假设8:残差近似正态分布

在多重线性回归中,我们可以使用两种方法判断回归残差是否近似正态分布:

(1) 根据标化残差绘制的带正态曲线的柱状图或P-P图(2)根据学生化残差绘制的正态Q-Q图。我们将向大家逐一介绍。

带正态曲线的柱状图或P-P图

经上述操作,SPSS输出结果如下:

从图中可以看出,该回归的标化残差近似正态分布。但是由于横纵坐标比例的影响,柱状图的结果并不准确。我们可以通过上图右上角的均值和标准差进一步判断。一般来说,均值越接近于0,标准差越接近于1,回归的标化残差越倾向于正态分布。

同时,我们也可以通过P-P图进一步验证柱状图的结果,如下:

P-P图上各点的分布离对角线越近,提示数据越接近于正态分布;如果各点都刚好落在对角线上,数据就是完全的正态分布。其实,是否正态分布对多重线性回归结果的影响较小,一般我们认为只要残差近似于正态分布即可。因此根据上图,我们认为该研究满足假设8。

正态Q-Q图

另一种可以检测残差正态性的方法是正态Q-Q图,具体操作如下:

(1) 点击Analyze→Descriptive Statistics→Q-Q Plot

出现下图:

(2) 将变量SRE_1放入Variables窗口

(3) 点击OK,输出下图:

与P-P图相似,Q-Q图上各点的分布离对角线越近,也提示数据越接近于正态分布。同样地,上图也证实该研究残差近似正态分布,满足假设8。

五、结果解释

多重线性回归可以得到3个主要结果:

(1) 自变量解释因变量变异的比例

(2) 根据新增的自变量信息预测因变量

(3) 自变量改变一个单位,因变量的变化情况

为了更好地解释和报告多重线性回归的结果,我们需要统计以下3个方面:

(1) 多重线性回归模型的拟合程度

(2) 回归系数

(3) 根据自变量预测因变量

1. 模型解释

SPSS输出变量纳入结果,如下:

其实这个表并不是为多重线性回归模型设计,主要描述的是逐步回归和层次回归的变量纳入情况。但我们依旧可以从这个表中看到该研究的基本信息:(1) Variables Entered栏显示该研究纳入的自变量包括gender、age、heat rate和weight;(2) Method栏显示纳入方法为Enter(强制纳入);(3) 该回归模型是Model 1。

2. 判断多重线性回归模型的拟合程度

判断多重线性回归模型拟合程度的指标有很多,我们主要向大家介绍多重相关系数、变异的解释程度、模型的统计学意义以及预测值的准确性4个指标。

(1) 多重相关系数(Multiple correlation coefficient,R)

SPSS多重线性回归输出的结果中有Model Summary表格,如下:

上图中标黄的指标R就是多重相关系数,相当于多重线性回归预测值(PRE_1)和因变量实际值(VO2max)的Pearson相关系数。它是判断两者之间线性关系的重要指标,也反映了回归的拟合程度。

一般来说R值在0-1之间分布,数值越大,线性关系越强。在本研究中,R=0.760,提示中高等相关。但必须强调的是, 多重线性回归的结果解释一般并不关注R值,而关注R2 和adjusted R2 值。

(2) 变异的解释程度(R2  和adjusted R2 )

做过多元分析的研究者大多都听说过R2 ,知道R2 是指回归中因变量变异被自变量解释的程度。但很多人对R2 的具体解释存在误解,我们将在这里给大家举例说明。

比如,我们想要预测因变量值,最简单的办法就是运行空模型,即回归中仅有因变量,没有自变量。这时,最佳预测值就是因变量的均数。当然这种空模型也是最差的预测模型,所有自变量对因变量预测值的影响都被我们忽略了。但是在这种空模型中,我们可以估算出回归预测的总变异。

随后,我们把相关的自变量重新放入回归模型,再次估算回归变异程度。因为自变量可以在一定程度上影响或解释因变量的变化情况,加入自变量后的变异会比总变异小。这个减少的部分就是R2 值,即自变量解释因变量变异的程度。

从上表可知,本研究中R2 =0.577,提示自变量可以解释57.7%的因变量(VO2max)变异。但是,R2 是基于样本数据计算出来的,会夸大自变量对因变量变异的解释程度。而另一个指标adjusted R2 的计算方法不受纳入模型自变量个数的限制,相较于R2 准确性更好。

本研究中,adjusted R2 =0.559,小于R2 =0.577,校正了R2 中总体自变量对因变量变异解释程度的夸大作用。在汇报结果时,adjusted R2 更能代表自变量对因变量变异的解释程度。当然,如果能同时汇报adjusted R2 和R2 值更好。此外,adjusted R2 也是影响程度的评价指标。本研究中,adjusted R2 =0.559,提示具有高影响强度。

(3) 模型的统计学意义

SPSS输出ANOVA表格,如下:

该表中各指标的含义如下:

结果显示,本研究回归模型具有统计学意义,F(4,95)=32.393,P



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有