冯国双:如何理解线性回归中的方差齐性

数据小兵
数据小兵
数据小兵
64
文章
0
评论
2020-04-1802:05:00 评论 1,027 1320字
摘要

不少人可能对方差齐性检验不是很重视,觉得正态性可能更重要,但其实方差齐性的重要程度可能更大,因为它可能会让你的标准误发生很大变化,从而导致结论的变化。

线性回归中,方差齐性是一个必须考虑的前提条件。本文主要介绍一下,如何理解线性回归中的方差齐性的含义,以及如何对方差是否齐性进行探测。

所谓方差齐性,也就是方差相等,在t检验和方差分析中,都需要满足这一前提条件。在两组和多组比较中,方差齐性的意思很容易理解,无非就是比较各组的方差大小,看看各组的方差是不是差不多大小,如果差别太大,就认为是方差不齐,或方差不等。如果差别不大,就认为方差齐性或方差相等。当然,这种所谓的差别大或小,需要统计学的检验,所以就有了方差齐性检验。

在两组和多组比较中,每组都有很多数据,可以求出每组的方差,然后比较就行了,很容易理解。但是在线性回归中,有的人就不理解方差齐性是什么意思了。因为线性回归中自变量x不是分类变量,x取值很多,通常情况下,每个x值只对应1个y值。比如,分析身高对血压值的影响,可能每个身高对应的血压值只有一个数值。很显然,对于1个数是没有办法计算方差的,那还何来"方差齐性"检验呢?

这是因为,尽管在一次抽样中每个x取值上可能只有1个y值,但对于总体而言,理论上每个x取值上对应的y值是有很多的。例如,研究身高(x)与血压值(y)的关系,尽管在一次抽样中每一身高值(如170cm)所对应的血压值可能只有1个值(如140mmHg),但从总体而言这一固定的身高(170cm)所对应的血压值应该有很多,可能是140mmHg,也可能是150mmHg,只是在我们的抽样中恰好抽中了这1个值而已。事实上,如果你重新抽样,170cm所对应的血压值可能就不是140mmHg了,有可能就是145mmHg或138mmHg等。

所以,线性回归中,理论上也是有方差的。然而这种理论上的方差,除非你知道总体中每个x取值上的所有对应的y值,否则你是没有办法真正去计算方差的。但这种情况几乎是不可能发生的,因此在线性回归中的方差齐性检验,很多情况下只是一种探测而已。

冯国双:如何理解线性回归中的方差齐性

既然线性回归无法做到对每一个x取值上的y值计算方差,那我们可以放宽一下,可以简单地看某一x取值范围内的y值的方差,这是可以做到的。所以实际中我们经常通过线性回归的残差图来判断方差齐性,即以因变量残差作为纵坐标,以某自变量作为横坐标,绘制散点图。如下图所示。如果残差总的来说时随机分布的,没有随着自变量的增加而有其它趋势,基本就可以认为方差齐性。

当然残差图只是观察一下,如果想用统计学方法来验证是否有趋势的话,那很自然的一个想法就是,分析具体某一自变量与残差有没有关系就可以了。这也就是BP(Breusch-Pagan)法和White检验进行方差齐性检验的思想。即以残差为因变量,观察自变量与残差之间是否存在线性关系(BP法)或非线性关系(White检验)。如果存在,提示可能存在方差不齐。BP检验和White检验是较为常用的两种方差齐性检验的方法。

下面是SAS软件给出的两种检验结果。

冯国双:如何理解线性回归中的方差齐性

SAS软件中可通过proc model过程或proc reg过程的model语句的spec选项探测方差齐性。R软件可通过lmtest包中bptest函数,通过指定不同的变量形式,可输出BP检验或White检验。

End.作者:数据小兵来源:博客本文均已和作者授权,如转载请与作者联系。

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: