線性回歸的Robustness
ANOVA和線性回歸的簡要總結(jié):

本文主要想考慮一下線性回歸的robustness,即outlier和high leverage point對回歸結(jié)果的影響。
考慮以下問題:x_i都固定,改變某一個y_j,對于預(yù)測值\hat{y_j}有何影響?(self-sensitivity or self-influence)
從training的y_i到預(yù)測的y_i的關(guān)系,根據(jù)projection matrix給出:

所以

可見這個影響是線性的,并且強(qiáng)度取決于i th leverage h_{ii}。
如果leverage比較小,即時y_i的偏差很大(outlier),對于回歸的直線影響不大。
如果leverage很大,就要小心y_i的偏差了。如果偏差不大,無所謂。如果偏差很大,也就是說:既是outlier,也是high leverage point,則影響很大,非常危險。
下面仔細(xì)研究一下leverage h_{ii}有什么性質(zhì)。
性質(zhì)1: leverage的average。根據(jù)(小心Tr中三個矩陣的交換)

所以平均leverage是p/n。
數(shù)據(jù)點(diǎn)n越多,越不敏感,因?yàn)閱蝹€偏差可以由別的正常數(shù)據(jù)點(diǎn)制約著。
如果超過2p/n,可以認(rèn)為是一個high-leverage point,要小心。
性質(zhì)2:leverage的bound。對于冪等矩陣必然有0\leqslant leverage\leqslant 1。
self-influence一定是正向的。y_i變大,\hat{y}_i不會變小。
self-influence一定是削弱的。y_i變大1,\hat{y}_i頂多變大1,因?yàn)橛衅渌粍拥臄?shù)據(jù)點(diǎn)制約著。
性質(zhì)3:leverage的直觀含義是距離x_i集中位置的偏差。對于一維回歸,可以計(jì)算出

幾何含義顯著。這個結(jié)果可以推廣到高維,結(jié)果中包含了Mahalanobis距離:(要注意這里面的x向量是不包含1的)

當(dāng)\Sigma矩陣是單位矩陣時,它就是一般的歐式距離(數(shù)據(jù)點(diǎn)到重心的距離)?,F(xiàn)在\Sigma代表estimated covariance matrix,這相當(dāng)于在PCA的坐標(biāo)軸下測量的距離:

把它變換到新的坐標(biāo)就變成

在一維情況下,主軸就是坐標(biāo)軸,所以形式很簡單。二維的時候,主軸和坐標(biāo)軸偏離了,所以表達(dá)形式就比較復(fù)雜了。不妨算一下,形式并沒有明顯的直觀含義。但是從PCA的直觀來看,我們還是很容易分析出哪些點(diǎn)的leverage比較大。比如下圖中紅點(diǎn)和綠點(diǎn),雖然離重心的歐式距離差不多,但從PCA的坐標(biāo)來看,顯然紅點(diǎn)的leverage更大。

這個公式很好記。(n-1)來自于estimated covariance[的逆]中的Bessel修正,1/n和一維一樣。
下面是數(shù)值模擬。生成的數(shù)據(jù)是:
x=1:10;
x=[x,20];
y=x+randn(1,11);
plot(x,y)
plot(x,y,'o')

這11個點(diǎn)的leverage分別為:0.214617940199336 0.175747508305648 0.144186046511628 0.119933554817276 0.102990033222591 0.0933554817275748 0.0910299003322259 0.0960132890365449 0.108305647840532 0.127906976744186 0.725913621262459,其平均值為0.1818,前10個點(diǎn)都接近于這個平均值,而最后一個點(diǎn)超過0.3636(已經(jīng)是四倍均值了),歸于顯著的high leverage point。

黃色線為原數(shù)據(jù)的回歸結(jié)果,綠色線為把x=20的y上移5之后回歸得到的結(jié)果?;貧w的直線有了很大的偏差。一開始在20點(diǎn)處的預(yù)測值為20.1496,后來預(yù)測值為23.7792,上升值3.6296的確恰好等于leverage?0.7259*5。和理論相符。線性回歸的結(jié)果在20這個點(diǎn)上是不robust的。