高级计量经济学 7：小样本OLS(下: F检验)

您所在的位置：网站首页 › 怎么做假设检验方程 › 高级计量经济学 7：小样本OLS(下: F检验)

高级计量经济学 7：小样本OLS(下: F检验)

2024-06-18 10:51| 来源: 网络整理| 查看: 265

高级计量经济学 7：小样本OLS(下: $F$ 检验)

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括代码和正文）做了修改。

仅供学习参考，请勿转载，侵删！

本文目录：

3 小样本OLS 3.7 对线性假设的 $F$ 检验 3.7.1 $F$ 检验是做什么的 3.7.2 $F$ 检验的思想 3.7.3 构造一个 $F$ 统计量 3.7.4 $F$ 检验的似然比原理表达式 3.7.5 约束最小二乘法（RLS） 3.7.6 似然比 $F$ 统计量的证明 3.8 预测 3.8.1 预测值的无偏估计 3.8.2 预测值的方差 3.8.3 预测误差的方差本文小结

$\S \text{ 第 3 章 } \S$

$\text{小样本OLS}$

3 小样本OLS 3.7 对线性假设的 $F$ 检验

$F$ 统计量和 $t$ 统计量的推导和假设检验的证明在很多地方都是十分相似的。我会着重说明他们之间的联系，让读者不要混淆。另外，为了直观，在描述的时候有一些数学符号并不是标准的用法，大家懂这个意思就可以。

3.7.1 $F$ 检验是做什么的

除了要检验系数是否显著不为零之外，我们常常还想知道整个回归方程是否显著。也就是说我要检验的原假设为 $H_0: \beta_2=\cdots=\beta_K=0$ （ $\beta_1$ 通常为常数）。或者说，更一般地我想检验回归系数的 $m$ 个线性假设是否同时成立： $H_0: \quad\pmb R^{m \times K} \cdot \pmb \beta ^{K\times 1} = \pmb r^{m \times 1}$ 其中， $\pmb R$ 是满秩矩阵，即没有多余的信息。

比方说，对模型 $y = \beta_1 x_1+\beta_2 x_2+\beta_3 x_3+\beta_4 x_4+\varepsilon$ ，检验 $H_0: \beta_2=\beta_3, \beta_4=0$ ，那么就有： $\pmb R=\left(\begin{matrix} 0 & 1 & -1 & 0 \\0 & 0 & 0& 1 \end{matrix} \right), \quad \pmb r = \left(\begin{matrix} 0\\0 \end{matrix}\right)$ 这是因为： $\left(\begin{matrix} 0 & 1 & -1 & 0 \\0 & 0 & 0& 1 \end{matrix} \right) \left(\begin{matrix} \beta_1\\\beta_2\\\beta_3\\\beta_4 \end{matrix}\right) = \left(\begin{matrix} \beta_2 - \beta_3\\\beta_4 \end{matrix}\right) = \left(\begin{matrix} 0\\0 \end{matrix}\right)$ 所以，有多少个条件 $\pmb R$ 就有多少行。形式葫芦画瓢就可以。

一般来说，我们的程序返回的原假设都是 $H_0: \beta_2=\cdots=\beta_K=0$ ，这时候 $\pmb R = {\bf I}_n$

3.7.2 $F$ 检验的思想

直观来看， $\pmb b$ 是 $\pmb \beta$ 的估计量，如果 $H_0: \pmb{R\beta=r}$ 成立的话，那么 $\pmb{Rb-r}$ 也应该比较接近 $\pmb 0$ 向量，因为： $\pmb{Rb-r} \approx \pmb{R\beta-r} = \pmb 0$ 所以就可以通过刻画 $\pmb{Rb-r}$ 到 $\pmb 0$ 的距离来进行沃尔德检验。

在小样本OLS的5个假定下，在 $H_0: \pmb{R\beta=r}$ 成立的条件下， $F$ 统计量为： $F \equiv \frac{(\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r})/m}{s^2} \sim F(m,n-K)$ 看到这个统计量，请先不要觉得很烦，其实其背后的想法是很简单的。

我们前面已经提到，在我们如何描述一个向量离 $\pmb 0$ 的距离呢？一般的做法是用欧几里得距离，即用向量的内积：定义向量 $\pmb e=(e_1e_2\cdots e_n)$ 那么就有： $\pmb e' \pmb e = (e_1-0)^2 + (e_2-0)^2 + \cdots + (e_n-0)^2$ 然而这个距离与 $\pmb e$ 的量纲是有关系的，所以我们需要想办法标准化这个距离。在这里，我要再次强调：在计量中，几乎所有的标准化都是用标准差距离来衡量的。

在标量中，我们的方差也是一个标量；而对于向量，方差就是协方差矩阵。

所以这里的距离需要除以一个协方差矩阵以进行标准化。我们在解释二次型的意义时候提到，对于二次型 $\pmb X' A \pmb X$ ， $A$ 的作用其实是一个权重。在这里，权重就是标准差的倒数，所以我们令 $A$ 为协方差矩阵的逆。

于是，我们就可以得出向量 $\pmb{Rb-r}$ 与 $\pmb 0$ 的标准距离就是： $(\pmb{Rb-r})^\prime {\rm Var}(\pmb{Rb-r})^{-1} (\pmb{Rb-r})$ 我们进一步推导： $\begin{split} {\rm Var}(\pmb{Rb-r}) &= {\rm Var}(\pmb{Rb})\\ 夹心估计量&= \pmb R \cdot {\rm Var}(\pmb b)\cdot \pmb R' \end{split}$ 而我们前面已经证明了 ${\rm Var}(\pmb b)=\sigma^2 {\bf X'X}^{-1}$ ，这里不厌其烦地再证明一次：

证明： ${\rm Var}(\pmb b)=\sigma^2 ({\bf X'X})^{-1}$ $\begin{split} {\rm Var}(\pmb b) &= {\rm Var}(\pmb b - \pmb \beta) = {\rm Var}(A\pmb \varepsilon) = A {\rm Var}(\pmb \varepsilon) A' = A \sigma^2 {\bf I}A'=\sigma^2 AA' = \sigma^2 ({\bf X'X})^{-1} \end{split}$ 证毕。

所以，我们有： $(\pmb{Rb-r})^\prime {\rm Var}(\pmb{Rb-r})^{-1} (\pmb{Rb-r}) = (\pmb{Rb-r})^\prime \left[\pmb R{\sigma^2 ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r})$ 也就是： $标准距离 = \frac{(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r})}{\sigma^2}$ 这个结构已经跟我们要构造的 $F$ 统计量十分接近了。跟 $t$ 统计一样，由于 $\sigma$ 是无法预先知道的，所以我们用它的无偏估计量 $s$ 来替代它： $标准距离的统计量 = \frac{(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r})}{s^2}$

这就离我们要的目标更进一步了。

不懂就问：为什么 $t$ 统计量就没有用到二次型相关的概念

答： $t$ 统计量只是对单个系数的检验， $t$ 只要离假想值足够远就可以，正负并不影响描述偏离的程度。但 $F$ 是对很多很多个系数践行检验，而且这么多个系数离 0 的距离是用同一个指标表达的，所以必须考虑有正也有负的偏离。所以 $t$ 统计只需要做减法，但 $F$ 统计需要平方和。

3.7.3 寻找一个 $F$ 统计量

现在，我们离标准的 $F$ 统计量之差 $m$ 和 $n-K$ 两个系数了。

我们接下来不打算去证明 $F$ 统计量就是服从 $F$ 分布的，而是打算沿着正的思路，去寻找一个 $F$ 统计量。这样更有助于我们深刻理解 $F$ 统计量的来源。

思路：我们知道 $\frac{\chi^2(m)/m}{\chi^2(n)/n}\sim F(m,n)$ ，而且我们之前已经知道： $\frac{s^2}{\sigma^2} = \frac{\pmb{e'e}}{(n-K)\sigma^2}\sim \frac{\chi^2 (n-K)}{n-K}$ 所以我们对标准的统计量做一个恒等变形： $\frac{(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r})}{s^2} = \frac{\sigma^2(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r})}{s^2/\sigma^2}$ 这样，分母自然就服从 $F$ 分布的分母形式了（一 $\chi^2$ 分布除以它的自由度）。于是我们只需要考察分子： $\sigma^2(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r})$ 是不是也服从某种分布就可以了。

我们定义 $\pmb{v\equiv Rb-r}$ ，那么在 $H_0: \pmb{R \beta =r}$ 成立的条件下，我们有： $\pmb{v \equiv Rb-r = Rb - R\beta = R(b-\beta)=R}A\pmb \varepsilon$ 由于 $\pmb R$ 只是人为设定的常数矩阵，所以我们肯定有：

${\rm E}(\pmb{v}|{\bf X}) = {\rm E}(\pmb{R}A\pmb \varepsilon|{\bf X}) = \pmb{R}A\underbrace{{\rm E}(\pmb \varepsilon|{\bf X})}_{=\pmb 0} = \pmb 0$ ${\rm Var}(\pmb v | {\bf X})={\rm Var}(\pmb{R(b-\beta)}|{\bf X}) = \pmb R {\rm Var}(\pmb{b-\beta}|{\bf X})\pmb R^\prime=\pmb R {\rm Var}(\pmb{b}|{\bf X})\pmb R^\prime = \sigma^2\pmb R ({\bf X'X})^{-1} \pmb R^\prime$

我们发现 ${\rm Var}(\pmb v | {\bf X})$ ：其实就是分子的中间那项： $\sigma^2(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{-1} (\pmb{Rb-r}) = (\pmb{Rb-r})^\prime {\underbrace{\left[\sigma^2 \pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]}_{{\rm Var}(\pmb v| {\bf X})}}^{-1} (\pmb{Rb-r})$ 运用定义 $\pmb{v\equiv Rb-r}$ ，可以进一步将分子写成： $分子=\pmb r' ({\rm Var}(\pmb v|{\bf X}))^{-1} \pmb r$ 接下来我们引用一个数理统计知识：

引理2：如果 $m$ 维随机向量服从正态分布 $N(\pmb \mu, \pmb \Sigma)$ ，其中 $\pmb \Sigma$ 为满秩矩阵，则二次型： $(\pmb{x - \mu})' \pmb \Sigma^{-1} (\pmb{x - \mu}) \sim \chi^2(m)$ 也先不要吐槽这个形式看上去很复杂。

回忆二次型就是向量的二次函数，协方差矩阵就是向量的方差，所以这个式子的标量形式不过是： $\left(\frac{x-\mu}{\sigma} \right)^2 \sim \chi^2(1)$ 那么肯定有人要问这个与 $t$ 检验的那个数理统计知识有什么区别或联系呢，先回忆一下 $t$ 检验的那个形式：

引理1：对于 $m$ 维向量 $\pmb x \sim N(\pmb 0 , {\bf I})$ ，如果幂等矩阵 $M$ 的秩 ${\rm rank}(M)=n$ ，那么二次型 $\pmb x M \pmb x'$ 满足： $\pmb x M \pmb x' \sim \chi^2(n)$ 可以看出，其实二者都是经过一个二次型得到一个 $\chi^2$ 分布，不过二者的二次型矩阵不一样。在引理2，要求二次型矩阵必须满秩；而引理1则要求二次型矩阵是幂等矩阵，更要求 $\pmb x$ 服从的是标准多维正太分布。

我猜测这两个引理可以合成一个，但我没有证明，有兴趣的读者可以提供证明哈：

猜测：对于 $m$ 维随机向量服从正态分布 $N(\pmb \mu, \pmb \Sigma)$ ，其中 $\pmb \Sigma$ 的秩 ${\rm rank}(\pmb \Sigma) = n$ ，那么就有： $(\pmb{x-\mu})' \pmb \Sigma (\pmb{x-\mu}) \sim \chi^2(n)$

所以，引用引理2， $分子=\pmb r' ({\rm Var}(\pmb v|{\bf X}))^{-1} \pmb r \sim \chi^2(m)$ 其中 ${\rm Var}(\pmb v|{\bf X})$ 的的秩是 $m$ 。这是因为我们前面已经假设了因为数据矩阵 $\bf X$ 满秩，而且 ${\rm Var}(\pmb v|{\bf X})$ 是 $\bf X$ 的函数。

于是我们发现离 $F$ 统计量已经非常接近了，因为现在： $标准距离的统计量 = \frac{\sigma^2(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{--1} (\pmb{Rb-r})}{s^2/\sigma^2} = \frac{\chi^2(m)}{\chi^2(n-K)/(n-K)}$ 所以，很自然地我们可以构造： $\begin{split} \frac{标准距离的统计量}{m} &= \frac{\sigma^2(\pmb{Rb-r})^\prime \left[\pmb R{ ({\bf X'X})^{-1}}\pmb R'\right]^{--1} (\pmb{Rb-r})/m}{s^2/\sigma^2} \\&= \frac{\chi^2(m)/m}{\chi^2(n-K)/(n-K)} \sim F(m,n-K) \end{split}$ 在衡量标准距离的时候，其实分子除以 $m$ 无关大碍。因为除以 $m$ 之后我们明确知道它服从 $F$ 分布了，也就可以进行检验了。

于是！我们就得到了一个 $F$ 统计量： $F \equiv \frac{(\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r})/m}{s^2} \sim F(m,n-K)$

3.7.4 $F$ 检验的似然比原理表达式

如果使用约束条件下的最小二乘法，即约束最小二乘法（Restricted OLS, RLS；或 Contraint OLS），则可以得到 $F$ 统计量的另外一个方便的表达式。

考虑以下约束问题： $\begin{split} &\min_{\pmb{\tilde b}} {\rm SSR}(\pmb{\tilde b})\\ & s.t. \pmb{R\tilde{b}=r} \end{split}$ 其基本思想是：如果 $H_0: \pmb{R\beta=r}$ 正确，那么加上这个约束应该不会让残差平方和 ${\rm SSR}(\pmb{\tilde b})$ 的最小值增大很多。于是，通过引入拉格朗日函数，可以求解这个约束的极值问题，而且可以证明： $F = \frac{({\rm SSR}^\star - {\rm SSR})/m}{{\rm SSR}/(n-K)} = \frac{(\pmb{e^{\star \prime} e^\star - e'e})/m}{\pmb{e'e}/(n-K)} \sim F(m,n-K)$ 其中，带 $\star$ 的是有约束的最小二乘法。这个 $F$ 统计量有时候更加容易计算（你看这个形式多优美！）。

这种通过比较极值条件与无条件极值而进行的检验，统称为似然比检验（Likelihood ratio test）。

我们接下来我们会证明这个似然比统计量其实与我们前面介绍的沃尔德 $F$ 检验的统计量是等价的。

3.7.5 约束最小二乘法（RLS）

为了证明两个统计量是等价的，我们首先要知道如何求解RLS。

证明： $F$ 检验的似然表达式

考虑一个RLS问题： $\begin{split} \min_{\pmb{\tilde b}} {\rm SSR}(\pmb{\tilde b}) &= \min_{\pmb{\tilde b}} (\pmb y -{\bf X}\pmb{\tilde b})'(\pmb y -{\bf X}\pmb{\tilde b})\\ & s.t. \pmb{R\tilde{b}=r} \end{split}$ 引入拉格朗日函数： $\begin{split} L(\pmb{\tilde b}, \pmb \lambda) &\equiv (\pmb y -{\bf X}\pmb{\tilde b})'(\pmb y -{\bf X}\pmb{\tilde b}) - \pmb \lambda^\prime( \pmb{r - R\tilde{b}}) \\ &=(\pmb{y}' - \pmb{\tilde b}' {\bf X}')(\pmb y -{\bf X}\pmb{\tilde b}) - \pmb \lambda^\prime( \pmb{r - R\tilde{b}})\\ &=\pmb{y'y} - \pmb{y}'{\bf X}\pmb{\tilde b} - \pmb{\tilde b}' {\bf X}' \pmb y + \pmb{\tilde b}' {\bf X}'{\bf X}\pmb{\tilde b} - \pmb \lambda^\prime( \pmb{r - R\tilde{b}}) \end{split}$ 其中 $\pmb \lambda$ 为 $m$ 维拉格朗日乘子列向量。那么F.O.C.为： $\begin{split} \frac{\partial L(\pmb{\tilde b}, \pmb \lambda)}{\partial \pmb{\tilde b}} &= - 2{\bf X}'\pmb y + 2{\bf X'X} \pmb{\tilde b} + \pmb R^\prime \pmb \lambda = \pmb 0_{K \times 1}\\ \frac{\partial L(\pmb{\tilde b}, \pmb \lambda)}{\partial \pmb{\lambda}} &= - \pmb ( \pmb{r - R\tilde{b}}) = \pmb 0_{m \times 1} \end{split}$

这里涉及向量的求导法则，搞不赢的话请移步《高级计量经济学 4：小样本OLS(上)》，本公众号或简书都行，那里有详细的推导，这里不再累赘了。

为了研究 $\pmb b$ 和 $\pmb{\tilde b}$ 的关系，我们对第一个F.O.C.左乘 ${\pmb R({\bf X'X})^{-1}}$ 可得： $$

2{\pmb R { ({\bf X'X})^{-1}}{\bf X}'\pmb y }+ 2{\pmb R{({\bf X'X})^{-1}}{\bf X'X}} \pmb{\tilde b} + [{\pmb R({\bf X'X})^{-1}}\pmb R']\pmb \lambda \pmb = \pmb 0_{K \times 1} $也就是：$ -2\pmb R \pmb b + 2 \underbrace{\pmb R \pmb{\tilde b} }{=\pmb r}+ [{\pmb R({\bf X'X})^{-1}}\pmb R']\pmb \lambda = \pmb 0{m \times 1} $其中，$\pmb{r = R \tilde b}$ 是第二个F.O.C.。由于我们已经要求 ${\bf X}$ 满秩，于是我们可以求解 $\pmb \lambda$ ：$ \pmb \lambda = -2\cdot[{\pmb R({\bf X'X})^{-1}}\pmb R']^{-1}(\pmb{r-Rb}) $从而又可以把 $\pmb \lambda$ 代入第一个F.O.C.中，就有：$ \pmb{\tilde b} = \pmb b + ({\bf X'X})^{-1}\pmb R^\prime [{\pmb R({\bf X'X})^{-1}}\pmb R']^{-1}(\pmb{r-Rb}) $$ 这就是RLS的估计量（如果不想要 $\pmb b$ 的话，就用 $({\bf X'X})^{-1}{\bf X'}\pmb y$ 取代就可以了。

于是我们发现带约束的估计量和不带约束的估计量之差别 $\pmb{\tilde b} - \pmb b$ 实际上是 $(\pmb{r-Rb})$ 的线性函数。而且 $(\pmb{r-Rb})$ 衡量的恰好是估计量 $\pmb b$ 偏离 $H_0$ 的程度。只有 $\pmb b$ 恰好满足 $H_0$ ，才会有 $\pmb{\tilde b} = \pmb b$ 。

3.7.6 似然比 $F$ 统计量的证明

在 3.7.4 节，我们已经有： $F \equiv \frac{(\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r})/m}{s^2} \sim F(m,n-K)$ 为了证明 $F = \frac{(\pmb{e^{\star \prime} e^\star - e'e})/m}{\pmb{e'e}/(n-K)} \sim F(m,n-K)$ 只要从分子分母分别证明即可。更进一步，由于 $s^2 = \pmb{e'e}/(n-K)$ ，所以两者的分母是相同的。所以我们现在要集中火力证明： ${\bf Prove}: (\pmb{e^{\star \prime} e^\star - e'e}) = (\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r})$

证明： $(\pmb{e^{\star \prime} e^\star - e'e}) = (\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r})$

由于： $\pmb{e^\star} = \pmb y - {\bf X}\pmb b^\star = \underbrace{\pmb y - {\bf X}\pmb b}_{=\pmb e} - {\bf X} (\pmb b^\star - \pmb b) = \pmb e - {\bf X} (\pmb b^\star - \pmb b)$ 所以： $\begin{split} \pmb{e^{\star \prime}e^\star } &= [\pmb e - {\bf X} (\pmb b^\star - \pmb b) ]^\prime [\pmb e - {\bf X} (\pmb b^\star - \pmb b) ]\\ &=[\pmb e' - (\pmb b^{\star \prime} - \pmb b^\prime) {\bf X}^\prime ] [\pmb e - {\bf X} (\pmb b^\star - \pmb b) ]\\ &= \pmb{e'e} - \underbrace{\pmb e^\prime {\bf X}}_{=({\bf X}^\prime\pmb e)^\prime} (\pmb b^\star - \pmb b) - (\pmb b^{\star \prime} - \pmb b^\prime) \underbrace{{\bf X}^\prime \pmb e}_{=\pmb 0} + (\pmb b^{\star \prime} - \pmb b^\prime) {\bf X}^\prime {\bf X} (\pmb b^\star - \pmb b) \end{split}$ 这里， ${\bf X}^\prime \pmb e = 0$ 是（无约束）正规方程组所要求的，是无约束小样本OLS的性质，于是： $\pmb{e^{\star \prime}e^\star } = \pmb{e'e} + (\pmb b^{\star \prime} - \pmb b^\prime) {\bf X}^\prime {\bf X} (\pmb b^\star - \pmb b)$ 所以我们发现： $\pmb{e^{\star \prime}e^\star } - \pmb{e'e} = (\pmb b^{\star \prime} - \pmb b^\prime) {\bf X}^\prime {\bf X} (\pmb b^\star - \pmb b)$ 接下来我们只需要证明等式的右边与分子相同即可。我们代入3.7.6所计算的结果： $\pmb{\tilde b} - \pmb b=({\bf X'X})^{-1}\pmb R^\prime [{\pmb R({\bf X'X})^{-1}}\pmb R']^{-1}(\pmb{r-Rb})$

在这里， $\pmb{\tilde b}$ 就是 $\pmb b^\star$ ，符号有点混乱，不好意思😂

就可以暴力计算出： $\begin{split} \pmb{e^{\star \prime}e^\star } - \pmb{e'e} &= (\pmb b^{\star \prime} - \pmb b^\prime) {\bf X}^\prime {\bf X} (\pmb b^\star - \pmb b)\\ &=[({\bf X'X})^{-1}\pmb R^\prime [{\pmb R({\bf X'X})^{-1}}\pmb R']^{-1}(\pmb{r-Rb})]^\prime {\bf X}^\prime {\bf X} [({\bf X'X})^{-1}\pmb R^\prime [{\pmb R({\bf X'X})^{-1}}\pmb R']^{-1}(\pmb{r-Rb})]\\ &= \cdots\\ &= (\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r}) \end{split}$ 我这里是懒得写了，你们自己在草稿纸上算一下哈。

所以，有： $F = \frac{(\pmb{e^{\star \prime} e^\star - e'e})/m}{\pmb{e'e}/(n-K)} = \frac{(\pmb{Rb-r})^\prime[\pmb R({\bf X'X})^{-1}{\pmb R}]^{-1}(\pmb{Rb-r})/m}{s^2}\sim F(m,n-K)$ 证毕。

3.8 预测

有时候，在获得了回归模型以后，我们需要进行对未来的预测（prediction or forecasting）预测的数学语言是，给定数据矩阵 $\bf X_0$ 的未来取值，预测未来 $\pmb y_0$ 的取值。

这里有一个哲学feel的东西，就是事物的发展都是有惯性的：即我认为对这个总体，以前的总体计量模型在未来是不变的。

那么在未来，总体的模型应该也是： $\pmb y_0 = {\bf X}_0 \pmb \beta + \pmb \varepsilon_0， \pmb \varepsilon_0|{\bf X}_0 \sim \pmb \varepsilon|{\bf X} \sim N(0,\sigma^2 {\bf I})$ 显然，我们可以用 $\hat{\pmb y_0} \equiv {\bf X}_0 \pmb b$ 对 $\pmb y_0$ 做预测。

3.8.1 $\hat{\pmb y_0}$ 是 $\pmb y_0$ 的无偏估计

证明： $\hat{\pmb y_0}$ 是 $\pmb y_0$ 的无偏估计

我们可以计算 $\hat{\pmb y_0}$ 的Bias： $\begin{split} {\rm Bias}(\hat{\pmb y}_0) = {\rm E}(\hat{\pmb y}_0 - \pmb y_0 | {\bf X}_0 ) &= {\rm E}({\bf X}_0 \pmb b - {\bf X}_0 \pmb \beta + \pmb \varepsilon_0| {\bf X}_0)\\ &={\rm E}({\bf X}_0 (\pmb b -\pmb \beta) + \pmb \varepsilon_0| {\bf X}_0)\\ &={\rm E}({\bf X}_0 (\pmb b -\pmb \beta) | {\bf X}_0 ) + {\rm E}(\pmb \varepsilon_0 | {\bf X}_0 )\\ &={\bf X}_0 {\rm E}(\pmb{b-\beta}| {\bf X}_0) + {\rm E}(\pmb \varepsilon_0 | {\bf X}_0 ) \end{split}$ 由于:

$\pmb b$ 是 $\pmb \beta$ 的无偏估计，所以 ${\rm E}(\pmb{b-\beta}|{\bf X_0})=0$ 严格外生性假设，所以 ${\rm E}(\pmb \varepsilon_0 | {\bf X}_0 )=0$

从而 ${\rm E}(\hat{\pmb y}_0 - \pmb y_0 | {\bf X}_0 )=0$ 所以 $\hat{\pmb y_0}$ 是 $\pmb y_0$ 的无偏估计

证毕。

3.8.2 $\hat{\pmb y_0}$ 本身的方差

我们可以计算： ${\rm Var}( \hat{\pmb y_0}| {\bf X}_0 ) = {\rm Var}({\bf X}_0 \pmb b| {\bf X}_0 ) = {\bf X}_0 {\rm Var}(\pmb b| {\bf X}_0 ) {\bf X}_0 ^\prime = \sigma^2 {\bf X}_0 ({\bf X}^\prime {\bf X}){\bf X}_0 ^\prime$ 这个方差所反映的是，由于抽样误差 $\pmb{b-\beta}$ 所带来的 $\hat{\pmb y_0}$ 带来波动。

3.8.3 预测误差 $\hat{\pmb y_0} - \pmb y_0$ 的方差

其实更多的时候我关心的是预测误差 $\hat{\pmb y_0} - \pmb y_0$ 的方差： $\begin{split} {\rm Var}( \hat{\pmb y_0} - \pmb y_0| {\bf X}_0 ) &= {\rm Var}[{\bf X_0} (\pmb{ b-\beta}) - \pmb \varepsilon_0| {\bf X}_0 ]\\ &={\rm Var}(\pmb \varepsilon_0| {\bf X}_0 ) + {\rm Var}({\bf X_0}\pmb{ b}| {\bf X}_0 )+ \underbrace{{\rm Var}({\bf X_0} \pmb{\beta}| {\bf X}_0 )}_{=\pmb 0}\\ &= \sigma^2 + \sigma^2 {\bf X}_0 ({\bf X}^\prime {\bf X}){\bf X}_0 ^\prime \end{split}$

在第一个等号到第二个等号，我们假设了 $\pmb b$ 与 $\pmb \varepsilon_0$ 不相关，因为估计 $\pmb b$ 的时候并没有用到后者的信息，所以才可以有 ${\rm Var}(A+B) = {\rm Var}(A)+{\rm Var}(B)$ 。

在这里，预测的误差有两个来源：

第一项：系统误差，是由于线性假设本身造成的误差第二项：抽样误差，是由于我对参数进行估计而造成的误差

【本文地址】

公司简介

联系我们