繼上篇分享了進行迴歸分析時所做的殘差診斷後,這一篇來講一下另一個做迴歸分析時老闆們更愛的東西-多元共線性診斷。無論進行線性迴歸或是羅吉斯迴歸,當自變項個數在2個以上時,而自變項之間的相關性比較高的時間,就有可能存在共線性的問題,而當共線性問題很嚴重時,我自己的經驗就容易出現以下幾種現象:
(1)多自變項與依變項的相關性非常顯著,但迴歸分析出來的所有結果都不顯著。
(2)標準化迴歸係數異常的高,而且還有可能出現不顯著的結果。
(3)自變項與依變項明明就是正相關,卻在迴歸分析裡得到負值的迴歸係數且達顯著(方向不一致)。
換句話說,當我遇到這些情況,就會讓我直接連想到是共線性問題所造成的,此時就必須透過一些診斷方法,抓出是哪些變項在做怪,並進一步做處理,通常所使用的方法,一種是透過皮爾森相關分析,找出相關性較高的自變項,另一種則是透過線性迴歸裡的共線性診斷。
(1)點選「分析」→「相關」→「雙變數」。
(2)將所有自變項丟入右方「變數」欄位。
因為共線性問題是發生在自變項之中,所以不用特別去檢視依變項的相關。
(3)從相關係數表中,找出相關性較高的自變項,以高度相關的標準來說,相關係數超過0.7就代表高度相關了,以此例來說,自變項的相關係數都過高了。
(4)點選「分析」→「迴歸」→「線性」。
(5)將所有自變項丟入右方「自變項」欄位,至於依變項則沒有限制,就算丟ID也可以。
因為共線性診斷與依變項是沒有關係的,因此才提醒這邊的依變數欄位是可以任意選取變項。
(6)點選「統計量」。
(7)勾選「共線性診斷」。
(8)第一個共線性指標出現在係數的表格,左邊Tolerance為容忍度,右邊VIF為Variance inflation factor,翻譯為變異數膨脹因素,其實兩者僅是倒數關係,所以看其中一個指標就好,習慣是看右邊的VIF值,一般教科書指出若VIF值超過10,代表有明顯的共線性問題,不過這個標準實在是有點寬鬆,實務上如果數值超過3,我們就應該注意一下這個共線性問題對於結果的影響是否會干擾到我們的結論,因為VIF值是每一個自變項都有一個診斷值,因此是最常使用的診斷指標。
(9)第二個共線性指標則是看條件指標(Condition index, CI),一般教科書建議是超過30代表有共線性問題,但就我的實務經驗還蠻常遇到超過30的結果,所以我想這應該是一個比較嚴格的定義,也有看到教科書提到CI值超過100則代表有嚴重的共線性程度,不過因為CI值是整體自變項的診斷結果,因此在使用頻率上比VIF值來得低。
(10)如果想透過CI指標來找到共線性的變項,可以透過右方的變異比例來搜尋,左邊顯示有5個維度,當固定在同一個維度下,若有兩個比例值相對較高的話,代表變項間存在共線性的程度,譬如說維度3裡的X2=.49與X4=.55,數值越大所反映的共線性程度越高。
(11)最後我們可以把共線性診斷所得到的結果,整理成下表。