多重共线性
多重共线性产生的原因
自变量之间有较强的相关性
多重共线性产生的后果
多重共线性越严重,回归系数的拟合的值偏离程度就可能会越大,回归估计的精确程度大幅降低,可能会导致一些回归系数通不过显著性检验
多重共线性的检验方法
方差扩大因子
即对自变量进行中心标准化,得到自变量的相关阵,其主对角线上的元素即为x(i)的方差扩大因子(VIF) VIF = 1 / (1 - R^2(i)) R(i)表现的是自变量x(i)和其它自变量的线性相关程度 则我们可以知道,VIF越接近1时,则证明回归模型自变量一般无多重共线性, 一般认为VIF >= 10的时候,回归方程具有严重的多重共线性 Tol一般被称作容忍度,Tol = 1 - R^2(i) 即Tol和VIF两者互为倒数
多重共线性的消除
(1)剔除不重要的解释变量 (2)增大样本量 (3)回归系数的有偏估计
自变量的选择
自变量选择的准则
(1)自由度调整复决定系数达到最大 (2)AIC和BIC准则 (3)Cp统计量达到最小
前进法
思想
前进法的主要思想是变量从少到多,将变量一个一个引入到回归方程当中,直到变量不能引入为止。
方法步骤
(1)首先将每个自变量与因变量建立一元线性回归方程, 计算出它们回归系数的F检验值,并从中选出最大的F检验值, 在置信水平a的情况下,与将选中的最大的F检验值与Fa进行比较,若F>=Fa,则选入该检验值对应的自变量到回归方程当中
(2)其次,将剩下的变量与第一次选中的变量两两组合并与因变量建立二元线性回归方程, 计算出他们回归系数的F检验值,从中选中最大的F检验值 在置信水平a的情况下,再次进行比较,决定是否将该检验值对应的自变量到回归方程中
(3)以此类推……
后退法
思想
后退法的主要思想,是先选中全部自变量建立回归方程,然后从中一个个剔除最不重要的变量,直到变量不能剔除为止。
方法步骤
后退法的实验步骤其实和前进法的实验步骤正好相反 (1)首先将全部自变量与因变量y建立一个回归方程, 计算出它们回归系数的F检验值,从中选出最小的F检验值 在置信水平a的情况下,与将选中的最小的F检验值与Fa进行比较,若F<=Fa,则从回归方程中剔除该变量
(2)其次,将剩下的变量……与前文类似
逐步回归法
思想
逐步回归的主要思想是变量有进有出,将变量一个一个地引入到回归方程中,每引入一个变量就对已选入的变量逐个进行检验,当原来引入的变量因为新引入的变量而变得不再显著的时候,将其从回归方程中剔除。
|