2.1.5 模型假设检验
线性回归模型必须满足必要的假设前提,包括:
1)Y的平均值能够准确地被由X构成的线性函数求解出来。
2)解释变量X和随机扰动项不存在线性关系。
3)解释变量X之间不存在线性关系(或强相关)。
4)假设随机误差项是一个均值为0的正态分布,且方差恒定。
5)随机误差是独立的。
我们建立的线性回归模型仅仅做到准确是不够的,只有满足了这五个前提假设,模型才有可能是正确的。线性回归模型如果不能满足这五个前提假设,则需要对数据进行一些变换,这也是线性回归中的难点。大体上,算法越简单越需要(或者称为“便于”)分析师进行更多的人工干预和优化。
1.假定1:线性假定
如果利用线性回归方程解出来的系数为0,即相当于,则一定程度上说明了Y和X之前没有线性关系(可能存在其他非线性关系)。问题在于,由于样本的偏差,即便Y和X线性关系不显著,最终解出来的系数也不会正好等于0,甚至可能不是一个很小的数(例如:X的单位为元或者万元,系数就会有量级上的差异),所以需要通过统计检验来判定系数为0的可能性。
(1)回归方程整体显著性检验
1)原假设为和线性关系不显著。
2)备择假设为H1:存在任意一个回归方程整体显著。
3)计算检验统计量:,表示自变量个数。
4)确定临界值:基于显著性水平α,设定临界值Fα。
5)做出决策:若,拒绝;否则,接受。
(2)回归系数显著性检验
1)原假设为与线性关系不显著。
2)备择假设为与线性关系显著。
3)计算检验统计量:。
4)确定临界值:基于显著性水平α,设定临界值。
5)做出决策:若,拒绝;否则,接受。
明显地,如果做简单线性回归,回归系数显著性检验与方程整体显著性检验是等价的。
假设失效的影响:如果模型的线性关系假设不成立,意味着模型中可能还有X2、ln(X)等非线性情形,或者因变量无法由自变量线性表示,此时所得到的模型参数无法证实刻画数据包含的内部规律。
假设失效解决方法:如果自变量与因变量的关系是非线性的,则可以考虑对自变量做X2、ln(X)等非线性变换后,再做线性回归。
需要注意的是,本小节前面讲过,如果为0,则一定程度上说明了Y和Xj之前没有线性关系。其中,“一定程度上”的表述只是为了更加准确地表明回归系数检验的作用。我们不可以说Y之所以与Xj有关,是因为是统计显著的(不为0)[1]。注意,切勿反复使用t检验和F检验来建立模型。当然,不妨将学术争议留给学者们。在实践中,我们保证最终模型的回归系数都是显著的即可,如不显著则考虑删除对应解释变量。
2.假定2:正交假定(外生性假定)
线性回归要求误差项与所有的解释变量X不相关,且其期望为0。即:
该假定提示我们在建立模型时,只要同时和X、Y相关的变量就应该纳入模型,否则回归系数就是有偏的。
该假定可应用于Hausman检验,通过工具变量法得到参数的一致估计量,再检验该估计量与普通最小二乘估计量的差异是否显著,以检验解释变量与随机扰动项是否相关。这要求我们寻找一个和解释变量相关但是和误差项无关的工具变量,而这通常难以做到,属于计量经济学的前沿问题。
学者们也提出了其他的解决方法,但大多数文献中给出的解决建议针对的是某种特定情况,并且是在很强的假设前提下。此外,最小二乘法本身就是正交变换,即使该假设不被满足,任何估计的方法产生的残差都会和解释变量正交。因此多数实践中,我们可以不对该假设做检验,只是尽量注意不在模型中遗漏重要变量,尤其要保证对数据的观测尽可能准确。
3.假定3:自变量不存在多重共线性
在多元线性回归模型中,解释变量之间不能存在线性关系,强相关也不可以。多元线性回归模型的参数估计如下:
可以看到,如果X的任意分量有线性关系,则不存在,即便不是完全的多重共线性也会导致回归系数的标准误差很大(相对于回归系数本身),以至于回归系数的估计失去价值。
多重共线性示例如图2-12所示。
图2-12 多重共线性图示
如图2-12所示,如果X1和X2有着较强的线性关系(可以想象,极端情况下二者完全线性相关的情形),多一个样本点或少一个样本点建立的模型会有很大的差异,这是参数估计标准误差过大的直观体现。
另外,回想一下模型解释中,βi代表其他自变量不变时,Xi变化对Y的影响。当Xi与其他自变量有线性关系时,很难在保持其他自变量不变的情况下,仅Xi发生变化,这也意味着没有方法能从所给的样本中把Xi与其他自变量的影响分解开来,所以多重共线性也会造成模型解释上存在问题。
要检验解释变量是否存在多重共线性,我们可以使用方差膨胀因子/特征根与条件指数/无截距的多重共线性分析等多种方法。方差膨胀因子计算公式如下:
其中,表示以Xi为因变量、其他X做自变量建立回归方程时的拟合优度。如果该值很大,说明Xi与其他X存在较强的线性关系,此时方差膨胀因子VIi会比较大。一般情况下,方差膨胀因子大于10,会被认为存在较强的多重共线性问题。
多重共线性的解决方法有多种,具体如下。
1)提前筛选变量。在回归之前通过决策树、随机森林、相关检验或变量聚类方法筛选变量,存在多重共线性的自变量有较大可能被删除。决策树是贪婪算法,理论上在大部分情况下起效;相关检验只能发现两个变量之间的线性关系,不适用于所有情况。不过,提前筛选变量简单、易用。
2)子集选择。这是传统的方法,包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则(如AIC、BIC、Cp、调整R2等)决定最优的模型。因为该方法同样属于贪婪算法,理论上只是在大部分情况下起效,实际中往往与方法1相结合。
3)收缩方法。收缩方法又称正则化(Regularization),主要包括岭回归(Ridge Reg-ression)和Lasso回归。通过对最小二乘估计法加入罚约束,使某些系数的估计为0或接近0(系数为0相当于删除了对应的自变量)。该方法会在后面详细介绍。
4)维数缩减。主成分回归(PCR)和偏最小二乘回归(PLS)方法把p个自变量投影到m维空间(m<p),利用投影得到的不相关自变量的组合建立线性模型。这种方法的可解释性差,不常使用。
此外,在后续案例中,我们还会从业务理解入手,构造新变量代替存在多重共线性的变量,以获取更好的模型效果和可解释性。
4.假定4:扰动项独立同分布
线性回归要求扰动项间相互独立,且遵循同一分布,要求方差齐性,即至少满足:
残差是样本Y的测量值与估计值的差,是随机扰动项在某份样本中的实际度量。线性回归中的随机扰动项是随机产生的。如果其不独立,说明不是随机误差,仍旧会有重要的信息蕴含在其中而未被提取出,因此样本残差也应当是独立的。同样地,残差须服从同一分布,其方差是齐性的。残差在拟合线周围的分布如图2-13所示。
图2-13 扰动项独立同分布
要验证该假设,最简单的办法是做残差与因变量的估计量的散点图,并根据散点的分布做出判断。除了做图,我们也可以选择Breusch-Pagan检验。注意,该检验的原假设是同方差,备择假设是异方差,这样读者根据输出的P值就可以直观判断了。
如果残差不是同分布或者方差齐性,则可能异方差、自相关等情况。我们需要根据具体的情况进行不同的处理,具体示例将在2.1.6节中给出。
5.假定5:扰动项服从正态分布
扰动项除了要遵循独立同分布,还要服从正态分布。
熵普遍被用作信息量的度量。在所有分布当中,正态分布的熵是最大的,因此可以认为在均值方差一定的情况下,正态分布是最随机的。在线性回归中,数据包含的所有信息均已经被提取,因此留下来的残差随机分布,不包含对模型构建有价值的信息。
图2-14 正态假设QQ图
验证正态假设最简单的办法是使用QQ图。它可以比较一个分布与指定的(正态)分布的接近程度,如图2-11所示。
从图2-14中可以看到,横轴代表理论分布的分位点,纵轴代表样本分位点,如果样本符合理论上的(正态)分布,则散点位于45°对角线上(理论分布的分位点=样本分位点),偏离越大说明越不符合正态分布。
如果采用统计检验的方法,则可以选择KS检验(Kolmogorov-Smirnov Test)。其原假设数据是正态分布的,这样可以直接根据输出的P值对检验结果进行分析。
如果残差不是正态分布的,OLS估计的标准误差将不可靠。实践中,如果残差不是正态分布,需关注两端样本的异常值是否合理,如果不合理可以考虑删除异常值再建模,此外也可以考虑对变量做非线性变换。
关于正态性假设对于线性回归的重要性,目前各方还有一些有价值的观点[2],有兴趣的读者可以关注,这里不做深入阐述。
[1] 参见达摩达尔·N·古扎拉蒂所著的《计量经济学基础》。
[2] https://www.qualitydigest.com/inside/quality-insider-article/should-residuals-be-normal.html#。