『http://dasanlin888.pixnet.net/blog/post/34469324』-之前部落格文章中有介紹迴歸係數跟預期方向相反的相關議題,我們定義為可能是多元共線性所造成的,對於研究者來說勢必相當困擾,畢竟此結果無法使用。

因此進行迴歸分析時,當遭遇以下幾種情況時,可能要注意迴歸模式中是否存在多元共線性(multi-collinearity)的問題:(1)共線性指標超過標準(含容忍度tolerance、變異膨脹因子VIF、條件指標CI)(2)迴歸係數的方向性與相關係數相反(3)解釋力R平方過高,但個別變項的係數未達顯著水準。

解決多元共線性的統計模式或方式還蠻多的,根據筆者的經驗,可以優先考慮的第一種作法是將選擇變數的方法改為逐步法(stepwise),若能將存在共線性的自變數排除在模式之外,可大幅改善統計結果的不合理;第二種作法,則是先利用主成分分析(principal components analysis,PCA)將線性重合的自變數重新建構成新的潛在變項(主成分得分),來替代原有的自變數,詳細的操作流程可參考(吳明隆,2009。SPSS操作與應用–問卷統計分析實務。臺北市:五南),不過主成分分數的命名,又是另一個頭痛的問題;第三種作法,則是本篇下方即將介紹的脊迴歸(ridge regression)。

脊迴歸是一種修改最小平方法,允許有偏估計量,進而改善多元共線性的方法,一個簡單易懂的圖示如下(假設真實值為β,不偏估計式所求得統計量為b,有偏估計式所求得統計量為bR),估計量b雖然不偏,但因為標準誤較大,因此估計結果較不精確,此時我們會傾向選擇有偏估計量bR,雖然有偏誤,但bR落在真實值β的機率會高於不偏估計量b。

11..jpg

 

【參考資料來源:Neter, J., Kutner, M. H., Nachtsheim, C. J., & Wasserman, W. (1997). Applied linear statistical models. (應用線性迴歸模型)(劉應興譯)。臺北:華泰。(原作1996年出版)】

而脊迴歸的方程式,是在原先普通最小平方法【(X’X)b=X’Y】的標準方程式中,加入一個偏化常數(biasing constant)c,c≧0,所得脊標準化迴歸方程式為(rXX+cI)bR = rYX

脊迴歸分析在進行時,由小到大代入不同的c值,去檢視每次的估計結果是否比普通最小平方估計量b有更小的總均方誤差,雖然c值越大可得到更小的總均方誤差,但c值越大會使得估計結果的偏誤不斷擴大,因此c值並沒有最佳解答,建議會同時使用脊跡(ridge trace)與變異數膨脹因子(VIF)作為判斷偏化常數的依據。所謂的脊跡,是將所有估計的脊標準化迴歸係數同時對應不同的c值作圖,可以從圖上看出在不同的c值之下,各自變項所估計的標準化迴歸係數為何,並選擇一個較穩定且合理的結果;至於VIF,則是去檢視當c值要達到多少的數值時,各變項的VIF值才能落在適當的範圍內,通常以1~2為優先考量。

此脊迴歸方程式有以下幾點特性:(1)當偏化常數c=0時,即為原先的不偏估計式;(2)當c值由0開始微些增加時,此時估計參數bR的改變幅度最大,甚至發生係數正負值的改變,隨著c值再增加時,迴歸係數bR的改變幅度會不斷變小,且迴歸係數bR越趨近於0;(3)個別VIF和估計參數bR的情形一樣,當c值由0開始些微增加時,VIF值會迅速下降,隨著c值再增加時,VIF的下降幅度會不斷減少;(4)當偏化常數c不斷增加時,迴歸模式的解釋力R2會不斷降低。

根據以上幾點特性,在進行脊迴歸分析時,會建議從脊跡選擇一個迴歸係數趨於穩定(變項迴歸係數的正負值合理),VIF夠小(盡量維持在1~2之間),且c值盡量越小越好。

在進行軟體的選擇時,先從使用較普及的SPSS著手,無意間發現有人提供用R套件寫好的ridge公用程式,但使用後發現結果只有給不同c值之下,各變項的未標準化參數估計值,因此不予採用。後來有看到在迴歸分析中的最適尺度(CATREG)有提供ridge regression的分析功能,在使用後發現結果只有不同c值之下,各迴歸模式的R2及各變項的標準化參數估計值,所提供的訊息仍是不夠。

而在SAS部分,有提供不同c值之下,各變項的未標準化及標準化參數估計值、VIF、SE(可進一步做參數檢定),另外也有提供脊跡圖,但唯獨缺少不同c值之下,每個迴歸模式的R2

目前僅發現採用NCSS執行脊迴歸所得到的結果訊息最為完整,以下將以此軟體為例,進行脊迴歸分析的操作介紹(自變項包含X12、X13、X17,依變項為Y)

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()