开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 二、简单线性回归模型（计量经济学学习笔记） -> 正文阅读

[数据结构与算法]二、简单线性回归模型（计量经济学学习笔记）

研究经济变量之间相互数量关系最基本的方法之一是回归分析。

①回归分析与回归函数

1.1相关分析与回归分析

1.1.1函数关系与相关关系

经济变量之间的相互依存关系有两种：1.确定性的函数关系 2.不确定性的统计关系，也称相关关系。
函数关系可表示为Y=f(X)
相关关系可表示为Y=f(X,u) ，其中u为随机变量（或Y=f(X)+u）
相关关系可分为以下类型：

从涉及的变量数量：简单相关关系?与?多重相关或复相关
从变量相关关系： 线性相关?与?非线性相关
从相关关系变化方向： 正相关?与?负相关
从变量相关程度：完全相关，不完全相关，不相关

1.1.2简单线性相关

1.1.2.1总体相关系数与样本相关系数

两个变量的相关程度用相关系数度量
对总体：
总体相关系数 $\displaystyle ρ= \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$
其中Var(X)是变量X的方差，Var(Y)是变量Y的方差，Cov(X,Y)是变量X和Y的协方差。
对样本：
样本相关系数 $\displaystyle r_{XY}=\frac{n\sum X_iY_i - \sum Xi \sum Y_i}{\sqrt{n \sum{X_i}^2 -(\sum X_i)^2}\sqrt{n \sum{Y_i}^2 -(\sum Y_i)^2}}$
或
$\displaystyle r_{XY}=\frac{\sum (X_i-\overline{X})((Y_i-\overline{Y})}{\sqrt{\sum{(X_i - \overline{X})}^2 \sum{(Y_i - \overline{Y})}^2}}$
其中X_i和Y_i分别是变量X和Y的样本观测值， $\overline{X}$ 和 $\overline{Y}$ 分别是变量X和Y的样本观测值的平均值；n为样本的个数，也称样本容量。
这样计算的样本相关系数是总体相关系数的一致估计。

1.1.2.2相关系数特点

1. $r_{XY}=r_{YX}$
2.相关系数只反映线性相关程度，不能说明非线性相关关系。
3.相关系数不能确定变量的因果关系。
4.样本相关系数是对总体相关系数的估计。

1.1.3回归分析

相关分析不能说明变量间相关关系的具体形式，相关关系表明变量间相关关系的性质和程度。要具体测定变量之间相关关系的具体形式，还要用到回归分析的方法。
回归分析研究的是总体中解释变量与被解释变量之间客观存在的协变规律性。

1.2总体回归函数

总体回归函数的条件期望表示方式：
$E(Y|X_i)=f(X_i)=β_1+β_2X_i$ $β_1为截距系数，β_2为斜率系数$
条件期望满足此方程式的函数称为总体回归函数(PRF)(population regression function)

1.3 随机扰动项μ

$μ_i=Y_i-E(Y|X_i)$ 或 $Y_i=E(Y|X_i)+μ_i$
如果函数是线性函数，则有
$μ_i=Y_i-β_1-β_2X_i$ 或 $Y_i=β_1+β_2X_i+μ_i$
随机扰动项 $μ_i$ 表示那些对Y有影响但是没有纳入模型的诸多因素的综合影响。
对 $Y_i=E(Y|X_i)+μ_i$ 式子两边同取对X_i的条件期望，则有
$E(Y|X_i)=E$ { $E(Y|X_i)$ } $E(μ_i|X_i)=E(Y|X_i)+E(μ_i|X_i)$
即暗含 $E(Y|X_i)=0$ 的假定条件，即回归曲线是通过Y的条件期望或条件均值的。

在总体回归函数中引入随机扰动项的原因：
1.作为位置影响因素的代表。
2.作为无法取得数据的已知因素的代表。
3.’作为众多细小影响因素的综合代表。
4.模型设定误差。
5.经济现象的内在随机性。

1.4样本回归函数

Y的样本观测值的条件均值解释变量X而变动的轨迹，称为样本回归线
把被解释变量Y的样本条件均值表示为解释变量X的某种函数，称为样本回归函数(SRF)。(Sample regression function)
如果为线性函数：
$\hat{Y_i}=\hat{β_1}+\hat{β_2}X_i$
实际观测的被解释变量值 $Y_i$ 不完全等于样本条件均值 $\hat{Y_i}$ ，二者之差可以用 $e_i$ 表示。
则： $Y_i -\hat{Y_i}=e_i$ 或 $Y_i=\hat{β_1}+\hat{β_2}X_i+e_i$
需要明确：样本回归函数与总体回归函数有所区别。总体回归函数虽然未知，但是是确定的：样本回归线随抽样波动而变化，可以有多条。总体回归函数的参数 $β_1和β_2$ 是确定的常数，样本回归函数的参数 $\hat{β_1}和\hat{β_2}$ 是随机变量。SRF与PRF总是会存在差异。

②简单线性回归模型的参数估计

2.1简单线性回归的基本假定：

五个基本假定：

1.零均值假定给定解释变量 $X_i$ ，随机扰动项 $u_i$ 的条件均值始终为零。
??????????? $E(u_i|X_i)=0$
2.同方差假定对于每个给定的 $X_i$ ，随机扰动项 $u_i$ 的条件期方差都等于一个常数 $σ^2$
??????????? $Var(u_i|X_i)=E[u_i-E(u_i|X_i)]^2=E(u_i^2)=σ^2$
3.无自相关假定随机扰动项 $u_i$ 的逐次值互不相关，或者说对于所有的i和j(i≠j)， $u_i和u_j的协方差为零。$
??????????? $Cov(u_i,u_j)=E[u_i-E(u_i)][u_j-E(u_j)]=E(u_iu_j)=0$
4.随机扰动项 $u_i$ 与解释变量 $X_i$ 不相关，可表示
为?????????? $Cov(u_i,X_i)=E[u_i-E(u_i)][X_i-E(X_i)]=0$
5.正态性假定即假定随机扰动项服从期望为0，方差为 $σ^2$ 的正态分布，表示为
?????????? $u_i$ ~ $N(0,σ^2)$

满足此五个假设的线性回归模型，称为古典线性回归模型(CLRM)

其中四个假定，也可以用 $Y_i$ 表示：
对零均值假定有： $E(Y_i|X_i)=β_1+β_2X_i$
对同方差假定有： $Var(Y_i|X_i)=σ^2$
对无自相关假定有： $Cov(Y_i,Y_j)=0(i≠j)$
对正态性假定有： $Y$ ~ $N(β_1+β_2X_i,σ^2)$

2.2普通最小二乘估计

用产生样本概率最大的原则去确定样本回归函数，称为极大似然准则；
用估计剩余平方和最小的原则确定样本回归函数，称为最小二乘准则。
最小二乘法，也称最小二乘估计(OLS或OLSE)
最小二乘法使样本回归函数尽可能地接近总体回归函数，需满足最小二乘准则，使剩余平方和 $Σe_i^2$ 最小。
即
$minΣe_i^2=minΣ(Y_i-\hat{Y_i})^2=minΣ(Y_i-\hat{β_1}-\hat{β_2}X_i)^2$
…

$\hat{β_2}=\frac{Σ(X_i-\overline{X})(Y_i-\overline{Y})}{Σ(X_i^2-\hat{X})}=\frac{x_iy_i}{x_i^2}$

$\hat{β_1}=\overline{Y}-\hat{β_2}\overline{X}$

2.3OLS回归性质

用普通最小二乘法拟合的样本回归线有以下性质

样本回归线通过样本均值。
估计值 $\hat{Y_i}$ 的均值 $\frac{Σ\hat{Y_i}}{n}$ 等于实际 $Y_i$ 的均值。
剩余项 $e_i$ 的均值的为0。
被解释变量估计值 $\hat{Y_i}$ 与剩余项 $e_i$ 不相关。
解释变量 $X_i$ 与剩余项 $e_i$ 不相关。

2.4最小二乘估计量的统计性质

2.4.1 参数估计量的评价标准

选择参数估计量时应考虑以下一些标准：
1.无偏性
如果参数的估计量 $\hat{β}$ 的期望等于参数的真实值β，即 $E(\hat{β})=β$ ，则称 $\hat{β}$ 是参数β的无偏估计量。
如果参数估计量 $β^*$ 是期望值不等于参数β的真实值，则称 $β^*$ 是有偏的，其偏倚为 $E(β^*)-β$ ，也称系统误差。无偏即无系统误差。
计量经济研究中应尽可能寻找符合无偏性要求的参数估计量。
2.有效性
一个估计量若不仅有无偏性，而且具有最小方差性，则称这个估计量为有效估计量。
即对于参数β的无偏估计量 $\hat{\beta}$ ，如果对于参数的任意一个无偏估计量 $\beta^*$ ，都有 $Var(\hat{β})≤Var(β^*)$ ，则称 $\hat{β}$ 是参数β的有效估计量。
或者说， $\hat{β}$ 较 $β^*$ 有效。
3.一致性
样本容量趋于无穷大时，如果估计量， $\hat{β}$ 的抽样分布依概率收敛于总体参数真实值β，即
$\displaystyle \lim_{n \rightarrow \infty} \hat{\beta}=β$
或 $\displaystyle \lim_{n \rightarrow \infty}P[(|\hatβ-β|)＜ε]=1$
也就是说，当样本容量n→∞时，估计量 $\hat{β}$ 与总体参数真实值β的距离 $\hat{β}-β$ 的绝对值小于任意给定正数ε的概率等于1，则称估计量 $\hat{β}$ 为一致估计量。
（也称相合性，相合估计量）

2.4.2OLS估计量的统计特性

在古典假定完全满足的情况下，回归模型参数的最小二乘估计量具有以下统计性质。
1.线性特性
由 $\hat{β_2}=\frac{x_iy_i}{x_i^2}$ ，详细过程略
可以有 $\hat{β_2}=Σk_iY_i$ ，其中 $k_i$ 是一组常数，所以 $\hat{β_2}$ 是 $Y_i$ 的线性相关函数。
类似也有， $\hat{β_1}$ 是 $Y_i$ 的线性相关函数。
2.无偏性
$E(\hat{β_2})=β_2$
$E(\hat{β_1})=β_1$
这表明最小二乘法估计的参数 $β_1$ 和 $β_2$ 的期望值等于总体回归函数参数的真实值 $β_1$ 和 $β_2$ ，所以OLS估计式是无偏估计量。
3.有效性
普通最小二乘估计 $\hat{β_1}$ 和 $\hat{β_2}$ 具有最小的方差。证明过程略。
也可以用标准误差度量估计量的精确性，标准误差(standard error)是方差的平方根，可以用SE表示。
$Var(\hat{β_2})=\frac{σ^2}{Σx_i^2}$
$Var(\hat{β_1})=σ^2 \frac{\sum{X_i^2}}{n \sum{x_i^2}}$
$SE(\hat{β_2})=\frac{σ}{\sqrt{\sum x_i^2}}$
$SE(\hat{β_1})=σ \sqrt{\frac{\sum X_i^2}{n \sum x_i^2}}$
其中 $σ^2$ 作为总体随机扰动项 $u_i$ 的方差是未知的，也需要通过样本估计。
用 $\hat{σ^2}=\frac{\sum e_i^2}{n-2}$ 计算的 $σ^2$ 的估计值 $\hat{σ^2}$ 是对 $σ^2$ 的无偏估计。
$e_i^2$ 是剩余平方和；n-2是自由度。

综上，OLS估计量 $\hat{β_1}$ 和 $\hat{β_2}$ 是总体参数 $β_1$ 和 $β_2$ 的最佳线性无偏估计量。(Best linear unbiased estimator,BLUE)。这个结论也称高斯-马尔可夫定理。

③拟合优度的度量

所估计样本回归线对样本观测数据拟合的优劣程度，称为样本回归线的拟合优度。

3.1总变差的分解

被解释变量Y的样本观测值与其平均值的离差平方和 $\sum{(Y_i-\overline{Y})^2}=\sum{y_i^2}$ ，称为总变差或总离差平方和(total sum of squares)。用TSS表示。
被解释变量Y的样本估计值与其平均值的离差平方和 $\sum{(\hat{Y_i}-\overline{Y})}^2=\sum{\hat{y_i}^2}$ ，称为回归解释平方和。是由模型回归线作出解释的变差，用ESS表示。
被解释变量观测值与估计值之间的平方和 $\sum{(Y_i-\hat{Y_i})}^2= \sum{e_i^2}$ ，是回归线未作出解释的平方和，称为残差平方和(residualc sum of squares)，用RSS*表示。(未解释平方和)
三者关系：

TSS=ESS+RSS

$\sum{(Y_i-\overline{Y})}^2=\sum{(\hat{Y_i}-\overline{Y})}^2+\sum{(Y_i-\hat{Y_i})}^2$

$\sum{y_i^2}=\sum{\hat{y_i}^2}+\sum{e_i^2}$

3.2可决系数

TSS=ESS+RSS
$\frac{ESS}{TSS}+\frac{RSS}{TSS}=解释平方和的权重+未解释平方和的权重$
其中解释平方和的权重可以作为综合度量回归模型对样本观测值拟合优度的指标，这一比例成为可决系数。在简单线性回归中一般用 $r^2$ 或 $R^2$ 表示，即

$R^2=\frac{\sum{(\hat{Y_i}-\overline{Y})}^2}{\sum{(Y_i-\overline{Y})}^2}=\frac{\hat{y_i^2}}{y_i^2}$

或 $R^2=1-\frac{\sum{(Y_i-\hat{Y_i})}^2}{\sum{(Y_i-\overline{Y})^2}}=1-\frac{\sum{e_i^2}}{\sum{y_i^2}}$

3.3可决系数与相关系数的关系

一元线性回归中，可决系数 $R^2$ 在数值上，是简单线性相关系数r的平方。即

$\sqrt{R^2}$
但二者在概念上是明显区别的。
$r_{XY}=\frac{\sum(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum{(X_i-\overline{X})^2} \sum{(Y_i-\overline Y)^2}}}$

$R^2=\frac{[\sum(X_i-\overline X)(Y_i-\overline Y)]^2}{\sum{(X_i-\overline{X})^2} \sum{(Y_i-\overline Y)^2}}$

可决系数取值范围为 $0≤R^2≤1$ ；不相关系数可正可负，取值范围为 $? 1 \leq r \leq 1$ 。

④回归系数的假设检验和区间估计

4.1 OLS估计的分布性质

在古典假定条件下，假定随机扰动项 $u_i$ 服从正态分布，则 $Y_i$ 也服从正态分布。
又因为 $\hat{β_1}$ ， $\hat{β_2}$ 都是 $Y_i$ 的线性函数，所以即使在小样本情况下， $\hat{β_1}$ 和 $\hat{β_2}$ 也服从正态分布。在大样本情况下，即使 $Y_i$ 不服从正态分布， $\hat{β_1}$ 和 $\hat{β_2}$ 也会趋于正态分布。
$\hat{β_1}$ 和 $\hat{β_2}$ 的具体分布可表示为：

$\hat{β_1}$ ~ $N(β_1,σ^2 \frac{\sum{X_i^2}}{n \sum{x_i^2}})$

$\hat{β_2}$ ~ $N(β_2,\frac{σ^2}{Σx_i^2})$

将 $\hat{β_1}$ 和 $\hat{β_2}$ 做标准化转换：

$z_1=\frac{\hat{β_1}-β_1}{SE(\hat{β_1})}$ ~ $N (0, 1)$

$z_2=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}$ ~ $N (0, 1)$

$\hat{β_1}$ 和 $\hat{β_2}$ 的方差即标准正态变量 $z_1$ ， $z_2$ 的确定，都要涉及随机扰动项 $u_i$ 的方差 $σ^2$ ，而总体随机扰动项 $u_i$ 是随机变量，其方差是未知的，只能通过 $\hat{σ^2}=\frac{\sum e_i^2}{n-2}$ 计算 $σ^2$ 的无偏估计 $\hat{σ^2}$ 。
在大样本情况下，用无偏估计 $\hat{σ^2}$ 替代 $σ^2$ ，可计算参数估计值的标准误差，这个时候标准化后的 $z_1$ ， $z_2$ 仍可视为标准正态分布变量。
小样本情况下，其不再服从正态分布，而是服从自由度为n-2的t分布。t~ $t (n ? 2)$

4.2 回归系数的假设检验

对回归系数假设检验的基本思路是，在所估计样本的回归系数概率分布性质已确定的基础上，在对总体回归系数某种原假设(或称零假设)成立的条件下，利用适当的有明确概率分布的统计量和给定的显著性水平α，构造一个小概率事件。判断原假设合理与否，是基于“小概率事件不会发生”的原理。如果小概率事件发生了，就拒绝原假设，不拒绝备择假设。

对总体参数假设检验可能有不同的要求，可以检验总体参数是否等于、大于或小于某特定数值 $β^*$ ，这时假设检验分别为 $H_0:β_2=β_2^*$ 、 $H_0:β_2≥β_2^*$ 、 $H_0:β_2≤β_2^*$ 。
也可以检验总体参数是否等于0。
原假设和备择假设的设定方式不同，判断是否拒绝区域的方式也不同。
设定 $H_0:β_2=β_2^*$ ， $H_1：β_2≠β^*$ ，进行的是双侧检验；
设定 $H_0:β_2≥β_2^*$ ， $H_1：β_2＜β_2^*$ ，
或设定 $H_0:β_2≤β_2^*$ ， $H_1：β_2＞β_2^*$ ，进行的是单侧检验。

**在计量经济学中，为了检验所建立的回归模型中解释变量对被解释变量是否有显著影响，经常把回归系数 $β_2=0$ 作为原假设。

假设检验的三种方法：①临界值②置信区间③P值

临界值法需要先构建检验统计量。

构建z统计量
当 $σ^2$ 已知，或样本容量充分大时，根据样本计算的 $z^*$ 有， $z^*=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}$ ~ $N (0, 1)$ 。
可利用服从正态分布的 $z^*$ 统计量。从正态分布表查z的临界值。如给定显著性水平α=0.05，则z临界值为1.96。把根据样本计算的z^*与z的临界值作比较，如果 $1.96≤z^*≤1.96$ ，就不能拒绝原假设 $H_0:β_2=β_2^*$ ，即认为 $β_2$ 显著不等于 $β_2^*$
计量经济研究中，通常面临的是 $σ^2$ 未知，且样本容量较小。通常使用 $\hat{σ^2}=\frac{\sum e_i^2}{n-2}$ 去替代 $σ^2$ ，构建的是t统计量。
$t=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}$ ~ $t (n ? 2)$ 。
由t分布表可知，自由度为n-2对应概率为α/2的临界值 $t_{α/2}(n-2)$ 。
如果 $t_{α/2}≤t≤t_{α/2}$ ，则不能拒绝原假设 $H_0:β_2=0$ ，即认为解释变量对被解释变量没有显著性影响；反之，如果 $t＜-t_{α/2}$ 或 $t＞t_{α/2}$ ，就拒绝 $H_0：:β_2=0$ ，不拒绝 $H_1：:β_2≠0$ ，即认为对应解释变量对被解释变量有显著影响。

4.3回归系数的区间估计

参数的区间估计与假设检验既有联系也有区别。
假设检验是根据已知样本观测值，判断它是否与总体参数作的某一个假设相一致；而参数区间估计主要回答什么样的区间包含总体参数真实值以及可靠程度问题。
对回归系数的区间估计，可分为以下三种情况：

当总体方差 $σ^2$ 已知时，在 $u_i$ 的正态性假定下：
有 $z=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}$ ~ $N (0, 1)$ 。
取α=0.05，即1-α=0.95，查正态分布表可知：
$P[-1.96<z=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}<1.96]$ =0.95
即
$P[\hat{β_2}-1.96SE(\hat{β_2})＜β_2＜\hat{β_2}+1.96SE(\hat{β_2})]=0.95$
所以回归系数 $β_2$ 的95%置信区间为 $[\hat{β_2}-1.96SE(\hat{β_2}),\hat{β_2}+1.96SE(\hat{β_2})]$
当总体方差 $σ^2$ 未知，且样本容量充分大时，可用无偏估计 $\hat{σ^2}=\frac{\sum e_i^2}{n-2}$ 去替代 $σ^2$ 。此时样本容量充分大，仍可认为 $z=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}$ ~ $N (0, 1)$ 。
然后同样利用正态分布确定 $β_2$ 的置信区间。
当总体方差 $σ^2$ 未知，且样本容量较小时，用无偏估计 $\hat{σ^2}=\frac{\sum e_i^2}{n-2}$ 去替代 $σ^2$ ，此时有：
$t=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}$ ~ $t (n ? 2)$
利用t分布去建立置信区间：
$P[-t_{α/2}≤t=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})}≤t_{α/2}]=1-α$
即 $P[\hat{β_2}-t_{α/2}SE(\hat{β_2})＜β_2＜\hat{β_2}+t_{α/2}SE(\hat{β_2})]=0.95$

数据结构与算法最新文章

【力扣106】从中序与后续遍历序列构造二叉

leetcode 322 零钱兑换

哈希的应用：海量数据处理

动态规划|最短Hamilton路径

华为机试_HJ41 称砝码【中等】【menset】【

【C与数据结构】——寒假提高每日练习Day1

基础算法——堆排序

2023王道数据结构线性表--单链表课后习题部

LeetCode 之反转链表的一部分

【题解】lintcode必刷50题＜有效的括号序列

加:2021-10-02 15:06:48 更:2021-10-02 15:08:57

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 9:38:34-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码