為什麼向後選取法（Backward selection / Stepwise）保留的變項常常不顯著？~~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

作迴歸分析（Regression analysis）時有種方法是以「自動選取」（Automatic variable selection）進行篩選有統計顯著意義的自變項，而自動選取的方法大致可分為向前選取法（Forward selection）、向後選取法（Backward selection）以及逐步選取法（Stepwise selection）這三種。

向前選取法是逐一增加自變項，直到任何一個自變項的額外貢獻量已經沒有統計意義（以線性迴歸 [linear regression] 來說就是Partial F值; 以羅吉斯迴歸 [logistic regression] 來說則是LR卡方值）；向後選取法則是逐一剔除自變項，直到當剔除任何一個自變項時，模式會損失過多的解釋力，此時即停止篩選變項；逐步選取法是同時結合了向前選取及向後選取兩種方法，最大不同處是逐步選取法可以允許被排除的變項又被選進模式，也允許被選進的變項最後又被模式排除。

常常作自動選取迴歸分析的讀者應該會發現，相較於其他兩種方法，向後選取法傾向於保留比較多的自變項，而且往往保留在最終模式中的自變項有些沒有達統計顯著（P> 0.05）。這是因為在統計軟體的預設中（例如SPSS），會將選入變項的預設標準設為「P< 0.05」（向前選取、逐步選取），而剔除變項的預設標準則為「P> 0.10」（向後選取）。

圖一為線性迴歸的預設畫面，圖二為羅吉斯迴歸的預設畫面，圖三則為Cox比例危險模式（Cox proportional hazard model）的預設畫面。

圖一、線性迴歸關於自動選取的預設畫面

圖二、羅吉斯迴歸關於自動選取的預設畫面

圖三、Cox迴歸關於自動選取的預設畫面

如果讀者在進行向後選取法的時候，將以上畫面的「Removal」的數值從0.10改為0.05，此時向後選取法最後保留的變項幾乎都會顯著了。如果讀者是進行線性迴歸分析，當您做了以上設定，向前選取與向後選取最後會保留一樣的變項，而且各個自變項的檢定一定都會顯著，因為線性迴歸的Partial F值跟迴歸係數的t檢定的顯著性會剛好一模一樣。

但倘若是進行羅吉斯迴歸或者Cox迴歸，當您做了以上設定，雖然向前選取與向後選取最後會保留一樣的變項，但不見得一定會有顯著，這是因為向前選取法是基於概似比率（LR）統計量的顯著性（向後選取法也是），而迴歸係數的檢定是華德檢定（Wald test），因此有可能兩者之間的結果會不一致，不過通常是小樣本時才會有此情形。

但如之前介紹過（http://goo.gl/exi0ox），最理想的作法是不要直接進行自動選取法，而是可以使用改良的向後選取法（Allen-Cady modified backward selection），有興趣的讀者可以閱讀該文獻¹。另外也再次推薦Vittinghoff等人著作的Predictor selection章節²，該書對於「Predictor selection」有非常實用的介紹。

1. Maldonado G, Greenland S. Simulation study of confounder-selection strategies. American journal of epidemiology. 1993;138(11):923-936.

2. Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE. Regression methods in biostatistics: linear, logistic, survival, and repeated measures models. 2nd ed. New York: Springer; 2012.