
2.1 一元线性回归模型
对经济问题的研究不仅仅要从定性的角度分析,还要从定量的角度考虑它们之间的数量关系。在回归分析中,我们要预测的变量叫作因变量(Dependent Variable)或者被解释变量,用来预测的一组变量叫作自变量(Independent Variable)或者解释变量。除了预测因变量的值,回归分析还可以帮助识别被解释变量与解释变量之间的数量关系,定量分析解释变量的变化对被解释变量的影响,并发现异常观测值。
我们借助于凯恩斯的消费函数理论来说明一元线性回归模型。凯恩斯的消费函数理论是他在《就业、利息和货币通论》(1936)一书中提出的:总消费是总收入的函数,这一思想用线性函数表示为:
Yt=α+βXt
式中,Yt表示总消费,Xt表示总收入,下标t表示时期,α表示没有收入的基本消费,β表示边际消费倾向,其值介于0与1之间。凯恩斯的这个消费函数仅仅以收入来解释消费,被称为绝对收入假说。这一假说过于简单粗略,事实上,消费支出不仅受到总收入的影响,还受到消费习惯、传统文化、经济发展程度、银行存款利率和商品价格水平等的影响。这时我们把这些不确定的因素归并到随机误差项εt中,建立总消费和总收入的回归消费模型:
Yt=α+βXt+εt (2.1.1)
在模型2.1.1中,只有一个解释变量,变量之间的关系又是线性关系,故式2.1.1称为一元线性回归模型。
一元线性回归模型2.1.1中,Yt=α+βXt部分是一条直线。直线的斜率是β,它表示X每变化一个单位,Y的期望值的变化,即X每变化一个单位导致Y变化的平均值。Y的截距为α,表示当X的值为0时,Y的平均值。该模型的最后一部分εt表示第t期的观测值Y包含的随机误差。
随机扰动项ε是线性回归模型重要的组成部分,原因如下。
1. 避免遗漏相关的影响因素
因为计量经济模型不可能把所有的因素都考虑到模型当中,各种经济变量本质上具有随机性,所以模型刻画的变量之间的关系只是简化、近似的统计关系,突出主要矛盾,将次要的影响因素忽略掉,所以要引入随机误差项(随机扰动项)。把这些忽略掉的影响因素对被解释变量Y的影响归入随机误差项当中。
2. 设定误差
模型设定产生的误差,经济变量之间的关系是复杂多变的,简化的函数关系未必反映变量之间的真实关系,随机扰动项的引入也是必须的。
3. 测量误差
由于主客观的原因,对社会经济现象观测获得的数据,可能会有一定的测量误差,这种误差只能归入随机扰动项中。随机误差项是计量经济学模型研究的基础,它所包含的信息量的多少,决定了模型拟合的好坏,这里我们需要对随机误差项做出几个基本的假定。
2.1.1 一元线性回归模型的基本假定
一元线性回归模型中,基本假定是从两个层面来讲的,一是对变量和模型的假定;二是对随机扰动项的假定。首先假定解释变量(自变量)是非随机的,或者虽然随机,但是与随机扰动项是无关的,并且模型中的变量没有测量误差。同时,对模型的设定假定是正确的,不存在设定偏误。对于随机扰动项有一些基本假定,只有这些基本假定得到满足,我们才可以讨论参数估计。其主要内容如下:
针对式2.1.1,其中的ε需要满足以下条件。

以上关于随机扰动项的假设是由德国数学家高斯最早提出的,也称为高斯假设,或者古典假设。满足以上古典假设的线性回归模型,又称为古典线性回归模型。如果实际模型满足这些基本假设,普通最小二乘法就是一种适用的估计方法,如果实际模型不满足这些基本假设,普通最小二乘法就不再适用,而要发展其他的方法来估算模型的参数。随机扰动项如果不服从正态分布,而是服从泊松分布、Logistic分布等,这时的模型就比较复杂,可以在一些相关的文献[Dobson,2001;Keith E.Muller,2006;Weisberg,2005]中见到。下面我们在线性回归模型的基本假定满足的情况下,考虑最小二乘估计及其相关性质。
2.1.2 最小二乘估计及其性质
在对模型2.1.1进行参数估计之前,需要首先明确几个基本概念,如总体回归模型、总体回归方程、样本回归模型、样本回归方程等。
1. 几个基本概念
(1)总体回归模型
如果下述模型2.1.2满足古典假定的基本条件,则称式2.1.2为随机变量Y, X之间的总体回归模型。
Yt=α+βXt+εt (2.1.2)
(2)总体回归方程
对式2.1.2两边同时取期望值,则有如下总体的回归方程。
E(Yt)=α+βXt (2.1.3)
(3)样本回归模型
如果有关于随机变量Y, X的样本观测值(Xi,Yi), i=1,2,…, n, 则可以利用样本信息估计得到母体参数的点估计值以及相应的残差序列ei i=1, 2, …, n。则式2.1.4称为样本回归模型。

(4)样本回归方程
在式2.1.4中,如果把残差项去掉,就得到了样本的回归方程,其中,Yi被它的拟合值所代替。

总体回归方程是未知的,只能通过样本回归方程去近似,但是样本不是总体,样本回归方程与总体回归方程之间存在着差异,二者的关系可以从图2-1中得到体现。

图2-1 总体回归方程与样本回归方程的关系图
2. 普通最小二乘法(Ordinary Least Squares Estimators, OLS)
对线性回归模型参数的估计方法通常有三种方法,最小二乘法、极大似然估计法和矩估计方法,其中比较常用的是最小二乘法。总体回归方程只能通过样本信息去近似,使样本回归方程尽可能接近母体的回归方程。这就需要样本回归方程被解释变量的估计值与被解释变量的真实值之间的误差尽可能小,即残差项ei越小越好。但残差项有正有负,简单加和会互相抵消趋于零。为此,考虑残差平方和寻找一组参数估计值
使残差平方和达到极小值,这就是最小二乘法。

要使残差平方和达到极小值,待定系数应满足如下一阶条件:

式2.1.7经过化简可以得到如下的正规方程组:

解此方程组,即可获得用样本观测值表达的的最小二乘解。

如果令则式2.1.10也可以表示成离差的形式,为了使表达形式简洁,本书一律用大写字母Yi,Xi表示观测值,用小写字母yi,xi表示观测值的离差。

式2.1.9和式2.1.10是根据最小二乘准则推导出来的,称为线性回归模型参数的最小二乘估计量。由这些估计量,依据样本信息就可以得到母体参数的点估计值,得到拟合的样本回归直线。

3. 普通最小二乘估计相关的结论
(1)残差和等于零

基于式2.1.7关于的一阶导数
又因为残差ei=
显然式2.1.13成立。
(2)残差ei与解释变量Xi不相关

基于式2.1.7关于的一阶导数,得出
又有残差的表示式,显然式2.1.14成立。
(3)残差均值等于零

由式2.1.13可知,式2.1.15显然成立。
(4)被解释变量估计值的均值等于被解释变量的均值

对上式两边求和,再求算术平均,则:

(5)残差与被解释变量的估计值不相关,即

把由于式2.1.13和式2.1.14成立,所以式2.1.18成立。
(6)样本回归直线通过样本均值点
由式2.1.9:
显然满足样本回归方程,所以样本回归直线经过点
4. 普通最小二乘估计量的统计性质
我们可以利用样本信息获得参数的最小二乘估计量由一元线性回归模型的基本假定可知,随机扰动项服从正态分布,这对进一步讨论参数估计量的性质提供了方便。在这里,统计性质主要讨论线性性、无偏性和最优性。
(1)线性性
线性性是指模型的参数估计值可以表示成被解释变量或者随机扰动项的线性组合形式。由最小二乘估计表达式可以表示成如下形式:

(2)无偏性
无偏性是指估计量是母体参数α、β的无偏估计量。
分别对上述的式2.1.19和式2.1.20两边取期望,则:

(3)最优性
参数估计的最优性是指在所有的线性、无偏估计量中,普通最小二乘估计量的方差最小[在总体参数的所有线性无偏估计当中,最小二乘估计量具有方差最小性,这又称为高斯–马尔可夫定理(Gauss-Markov)]。
在这里我们仅仅讨论斜率,截距项同理可证。
证明:任取一个β的线性无偏估计量则
应满足两个条件:①
可以表示成被解释变量的线性组合;②
的期望值是β。因此
可以写成如下的形式:

对此式两边同时求期望,应该有式2.1.23成立,

因为是β的线性无偏估计,所以要使式2.1.23成立,必须满足式2.1.24的条件:

同时对式两边求方差有式2.1.25成立。

由式2.1.24知,

同时又因:

所以式2.1.25又可以简化为:

从而结论得证。
2.1.3 极大似然估计及其性质
针对式2.1.1,随机扰动项满足古典假定是一个独立同分布的正态随机变量,εt~(0,σ2),因此,我们可以写出εt的联合分布密度函数:

令εt=Yt-α-βXt,则变换之后的似然函数为:

对这个似然函数取对数,得到对数似然函数:

关于α、β、σ2对上述似然函数2.1.29求极值,利用一阶导,可以得到对应的参数解:

显然,在正态性的假定条件下,截距项和斜率的最小二乘估计和极大似然估计是一样的,但是关于母体的方差的估计量,是有偏的,但它是渐进偏的,
2.1.4 模型的检验与评价
利用样本信息得到一元线性回归模型的回归方程,然后我们首先要根据经济理论及实际问题中解释变量和被解释变量的关系,判断回归系数符号及其大小是否符合理论预期。如果初步的符号和大小判断符合经济理论或者实际问题中的关系,则可进一步进行相应的统计检验和计量经济学检验。
1. 拟合优度
为了评价所建立的样本回归函数对样本观测值的拟合程度,需要对模型拟合优度加以度量,度量模型拟合优度的可决系数建立在对被解释变量总变差分解的基础上。
(1)总变差的分解
在给定的样本信息后,利用最小二乘法可获得样本的回归方程,这样样本回归直线在多大程度上反映了对样本的拟合程度,可通过图2-2加以表示。

图2-2 被解释变量的偏离与残差和可解释偏离的关系图
由图2-2可知,被解释变量在一点的偏离可以表示为:

要从整体上反映样本回归方程对所有样本点的拟合好坏,可采用平方和的形式。上式左边平方和等于右边平方和,则得到式子:

式2.1.35是总变差平方和的分解公式。
被解释变量的总变差平方和用TSS(Total Sum of Squares)表示,定义如下:

回归平方和用ESS(Explaned Sum of Suares)表示,定义如下:

残差平方和用RSS(Residual Sum of Squares)表示,定义如下:

所以,总变差的平方和可以用式2.1.36表示:
TSS=ESS+RSS (2.1.36)
(2)可决系数R2
在式2.1.36中,回归平方和ESS在总变差的平方和TSS中占的比重越大,说明样本回归直线对样本点的拟合越好、模型越精确、回归效果越显著。为了测量回归平方和所占的比重,我们将式2.1.36两边同除以总变差的平方和TSS得到下式:

定义可决系数(拟合优度)如下:

由式2.1.36可知,0≤R2≤1,R2越接近于1, 说明模型拟合的越好。一般地,如果R2取值超过0.8,则认为模型拟合优度较高。
(3)可决系数R2与样本相关系数r的关系
样本相关系数是变量X与变量Y之间线性相关程度的度量指标。定义如下:

而可决系数

由样本的回归方程可知,则式2.1.39可以表示为:

2. 回归系数的显著性检验与模型整体性检验
是总体回归系数α,β的样本估计值,必须检验它们的统计可靠性。由于
可以表示成被解释变量的线性组合或者随机扰动项的线性组合,同时又因为被解释变量和随机扰动项都服从正态分布,所以
也服从正态分布。

由于的方差中含有母体的方差σ2,但是母体的方差是未知的,只能通过样本信息进行母体方差的估计。
(1)随机扰动项方差估计
由样本的回归模型知,残差et是随机扰动项很好的近似值,所以可以考虑用残差的样本方差来估计母体的方差。

考虑所有样本点,式2.1.44两边对t求和,得到残差平方和:

对式2.1.45两边求期望,则得到式2.1.46:

其中等式右边各个部分可以做如下简化:

所以,式2.1.46可简化为:

即也可以表示成式2.1.48:

所以,的无偏估计量。由此,我们可以用
代替母体的方差,获得
的方差估计。
令这样我们就可以对参数进行显著性检验。
(2)参数估计的显著性检验
参数估计的显著性检验主要指的是回归系数的显著性检验(t检验)。回归系数的显著性检验反映的是单个自变量(解释变量)对因变量(被解释变量)影响的显著性检验。需要注意的是如果线性回归模型的基本假定不能被满足时,t检验可能会失效。因为最小二乘估计量服从正态分布,又因为母体方差未知,由数理统计知识我们可以构造t统计量,检验其显著性。

在原假设下,t服从自由度是n-2的t分布,其中,是估计量
的样本标准差。当|t|小于临界点tα/2(n-2)时,未通过检验;大于临界值,则检验显著。Eviews软件中为每个回归系数的t检验都提供了一个相伴概率prob,可以借助相伴概率很方便地判断检验是否显著。当相伴概率小于规定的显著性水平(譬如α取0.05)则称检验是显著的,检验通过;反之则称检验是不显著的,检验未通过。如果一个自变量(解释变量)的回归系数通过了t检验,说明该自变量对因变量(被解释变量)的影响显著;未通过检验的自变量要结合实际情况予以处理。同理,我们可以对截距项做显著性检验。
(3)回归方程显著性检验
检验一元线性回归模型在统计上是否显著的另外一种方法是使用F检验。在一元线性回归模型中,单参数的t检验和模型整体的显著性检验是一致的。

其中,ESS为回归平方和,RSS为残差平方和,F统计量服从分子自由度是1、分母自由度是n-2的F分布。若F的值大于临界值Fα(1, n-2),则拒绝原假设,认为在显著性水平为α时,被解释变量对自变量有显著性线性关系,回归方程是显著的;反之则不能拒绝原假设,认为回归方程不显著。同样,在Eviews中,为了方便用户,给出了拒绝原假设时犯第一类型错误的概率,称为相伴概率prob。若此概率值低于事先确定的显著性水平(如0.05),则可拒绝原假设,反之不能拒绝原假设。所以相伴概率是一个很方便的评判指标,只需查看相伴概率,而不需查表找临界值。
2.1.5 预测
当对模型参数和模型的设定通过了一系列的检验,认为已经得到了相对正确形式的模型和具有优良性质的参数估计后,可以利用它进行经济分析和预测。
1. 预测的点估计
最小二乘估计量是线性无偏估计量中方差最小的估计量,因此用最小二乘估计法得到的回归方程做出的点预测是最优的。假定模型为:
Yt=α+βXt+εt, t=1,2,…, n
其中,εt满足线性回归模型的基本假定条件:

利用样本信息可以获得回归方程:

假定回归模型对样本外一点t=n+1成立,则外推这点的预测值为:

显然是Yn+1的点估计,也就是Yn+1的点预测值。所以有式2.1.52成立:

所以,并不是Yn+1的无偏估计量,但是二者之差的平均水平趋向于0, 见式子2.1.53。基于这个原因,我们可以用
来估计Yn+1。
2. 预测的区间估计
要求出Yn+1的预测区间,我们需要知道与Yn+1偏差的分布,显然

式2.1.54右边各项可以分别求得:

其中,当随机扰动项的脚标不同时,需用到随机扰动项的协方差为零的假设。

所以,

由式2.1.53和式2.1.61知道,en+1服从均值是0、方差是的正态分布。又因为母体的方差σ2未知,所以要估计Yn+1置信区间,必须用t统计量。这时我们要用残差的样本方差来估计母体的方差。由式2.1.48知,母体方差的估计量用

t服从自由度为n-2的t分布,给定显著性水平α, 可以查表获得相应的临界值tα/2(n-2)满足如下的概率:

即:

所以,在置信水平是1-α下,Yn+1的置信区间为:

3. 影响预测精度的因素
(2.1.64)
当置信水平给定之后,Yn+1置信区间的大小取决于en+1方差,由式2.1.61可知,en+1的方差主要由如下因素决定,所以影响预测区间的因素和en+1的方差是一致的,即:
(1)母体的方差σ2;
(2)样本容量的大小;
(3)
(4)的大小。
综上所述,我们能够控制精度的主要是样本量、样本点的分散程度,以及预测点相对于均值点的偏离程度。预测点离样本均值点越近,则预测误差越小,所以回归分析不适合长期预测。