机器学习面试必知：LR中的共线性问题和解决方法

最新推荐文章于 2023-08-02 22:17:23 发布

原创最新推荐文章于 2023-08-02 22:17:23 发布 · 4.3k 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#共线性 #线性回归

机器学习同时被 3 个专栏收录

39 篇文章

订阅专栏

面试

39 篇文章

订阅专栏

统计学习

23 篇文章

订阅专栏

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中，例如决策树或者朴素贝叶斯，前者的建模过程时逐渐递进，每次都只有一个变量参与，这种机制含有抗多重共线性干扰的功能；后者假设变量之间是相互独立的。但对于回归算法来说，都要同时考虑多个预测因子，因此多重共线性不可避免。

我们先来看共线性的原理，假设k个自变量的多元线性回归模型： $y=θ0+θ1x1+...+θkxk=θTx+ϵy=\theta_{0}+\theta_{1}x_{1}+... +\theta_{k}x_{k}=\theta ^{T}x+\epsilon$ $ϵ∼N(0,σ2)\epsilon \sim N(0,\sigma^{2})$
利用最小二乘法可得到参数的估计为： $θ^=X†y=(XTX)−1XTy\hat{\theta}=X^{\dagger}y=(X^{T}X)^{-1}X^{T}y$ 如果X不是满秩的话，会有无穷多个解。如果变量之间存在共线性，那么X近乎是不满秩的， $X^{T}X$ 近乎是奇异的。
我们从统计学的角度来看： $Var(θ^−θ)=Var[(XTX)−1XTϵ]Var(\hat{\theta}-\theta)=Var[(X^{T}X)^{-1}X^{T}\epsilon]$ $Var(θ^)=σ2(XTX)−1Var(\hat{\theta})=\sigma^{2}(X^{T}X)^{-1}$ $Var(θ^i)=σ2(n−1)Var(xj)⋅11−Ri2Var(\hat{\theta}_{i})=\frac{\sigma^{2}}{(n-1)Var(x_{j})}\cdot\frac{1}{1-R_{i}^{2}}$ 如果方差膨胀因子 $11−Ri2\frac{1}{1-R_{i}^{2}}$ 很大时，也就是 $R_{i}^{2}$ 趋向于1时，方差会变得异常大。
解决方法如下：