作迴歸分析(Regression analysis)時有種方法是以「自動選取」(Automatic variable selection)進行篩選有統計顯著意義的自變項,而自動選取的方法大致可分為向前選取法(Forward selection)、向後選取法(Backward selection)以及逐步選取法(Stepwise selection)這三種。

向前選取法是逐一增加自變項,直到任何一個自變項的額外貢獻量已經沒有統計意義(以線性迴歸 [linear regression] 來說就是Partial F; 以羅吉斯迴歸 [logistic regression] 來說則是LR卡方值);向後選取法則是逐一剔除自變項,直到當剔除任何一個自變項時,模式會損失過多的解釋力,此時即停止篩選變項;逐步選取法是同時結合了向前選取及向後選取兩種方法,最大不同處是逐步選取法可以允許被排除的變項又被選進模式,也允許被選進的變項最後又被模式排除。

常常作自動選取迴歸分析的讀者應該會發現,相較於其他兩種方法,向後選取法傾向於保留比較多的自變項,而且往往保留在最終模式中的自變項有些沒有達統計顯著(P> 0.05)。這是因為在統計軟體的預設中(例如SPSS),會將選入變項的預設標準設為「P< 0.05」(向前選取、逐步選取),而剔除變項的預設標準則為「P> 0.10(向後選取)。

 

111.jpg

 

圖一為線性迴歸的預設畫面,圖二為羅吉斯迴歸的預設畫面,圖三則為Cox比例危險模式(Cox proportional hazard model)的預設畫面。

 

1.jpg

圖一、線性迴歸關於自動選取的預設畫面

 

2.jpg

圖二、羅吉斯迴歸關於自動選取的預設畫面

 

3.jpg

圖三、Cox迴歸關於自動選取的預設畫面

 

如果讀者在進行向後選取法的時候,將以上畫面的「Removal」的數值從0.10改為0.05,此時向後選取法最後保留的變項幾乎都會顯著了。如果讀者是進行線性迴歸分析,當您做了以上設定,向前選取與向後選取最後會保留一樣的變項,而且各個自變項的檢定一定都會顯著,因為線性迴歸的Partial F值跟迴歸係數的t檢定的顯著性會剛好一模一樣。

但倘若是進行羅吉斯迴歸或者Cox迴歸,當您做了以上設定,雖然向前選取與向後選取最後會保留一樣的變項,但不見得一定會有顯著,這是因為向前選取法是基於概似比率(LR)統計量的顯著性(向後選取法也是),而迴歸係數的檢定是華德檢定(Wald test),因此有可能兩者之間的結果會不一致,不過通常是小樣本時才會有此情形。

但如之前介紹過(http://goo.gl/exi0ox),最理想的作法是不要直接進行自動選取法,而是可以使用改良的向後選取法(Allen-Cady modified backward selection),有興趣的讀者可以閱讀該文獻1。另外也再次推薦Vittinghoff等人著作的Predictor selection章節2,該書對於「Predictor selection」有非常實用的介紹。

1.     Maldonado G, Greenland S. Simulation study of confounder-selection strategies. American journal of epidemiology. 1993;138(11):923-936.

2.     Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE. Regression methods in biostatistics: linear, logistic, survival, and repeated measures models. 2nd ed. New York: Springer; 2012.

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()