P小於0.05，所以放到多變項分析？~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在醫學期刊中想要成功發表Clinical paper，多變項分析（Multivariable or multi-predictor or multivariate analysis）可說是家常便飯，在最後的迴歸模式中（無論是linear, logistic, Poisson, or Cox regression model）同時包括2個或以上的變項即可稱為多變項模式，而通常我們會把最終模式中達統計顯著的變項稱之為預測因子（Predictive factor or predictor），其實比較保守的說法是關聯因子（Associated factor）。

然而很常見的模式建立（Model building）的策略為研究者先做一系列的雙變項分析（Bivariate analysis），例如t-test, chi-square或是雙變項的迴歸分析（就是一次只放一個自變項），接著研究者會說：『將P小於0.05的變項進一步放到多變項分析』，這是現行期刊中非常普遍（甚至被廣為接受）的模式建立方法之一，但其實此作法存在著很大的問題。

此作法最大的問題在於會增加偽陽性（False positive）的機會，也就是說『事實上並沒有關聯，但我們卻宣稱有顯著地關聯』，這是因為不會每一個變項都會在雙變項分析達到P小於0.05，因此經過此步驟後會篩選少數（常常是極少數）變項放到多變項迴歸模式中，而當自變項（預測變項）數目較少的時候，留在模式中的變項的顯著性會比較小（因為統計效率較佳），因此達顯著的變項反而會變得比較多。

舉例來說，假設現在有10個潛在的預測變項，在雙變項分析達到P小於0.05有5個，然後將這5個放到多變項迴歸分析，最後有3個達顯著水準；反之如果一開始我們不篩選變項，我們認為這10個都具有臨床上或表面效度（Face validity），因此建立了一個包含10個預測變項的迴歸模式，但結果可能是最後達顯著的變項只剩下2個。

雖然達顯著的變項越多越好（對研究者而言），因為可能有更多的討論可以發揮，但其實得到錯誤結論的機會也會增高，因此不得不注意。當研究目的是在找尋預測變項的時候，已有許多流行病學及生物統計的文獻提供其他的替代方案，例如雙變項篩選的標準不應該是P小於0.05，而應該要放寬標準，例如0.20以下就應該要納入¹。

另外也有一種改良的向後選取法（Allen-Cady modified backward selection）也廣受推薦²，簡單來說，在第一個區塊（Block）根據文獻、表面效度及經驗法則先選擇重要的變項（不管其顯著與否），然後強迫進入迴歸模式中，接著在第二個區塊把一些不確定重不重要的變項放進去模式，然後第二個區塊以向後選取法的方式逐一剔除不重要的變項（第一個區塊變項不會被剔除），直到沒有變項能夠被排除為止。此作法的好處是第二個區塊的變項的篩選都是基於已調整（Adjust）第一個區塊所有變項，因此最後達顯著的變項數目比較不多，因此可改善偽陽性的問題。

本文提供了幾個替代方案給各位醫師參考，但其實「Predictor selection」是一件非常複雜的任務，有興趣的醫師可以參考Vittinghoff等人著作的Predictor selection章節²，未來筆者也會再另外整理關於預測變項篩選的文章。

1. Maldonado G, Greenland S. Simulation study of confounder-selection strategies. American journal of epidemiology. 1993;138(11):923-936.

2. Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE. Regression methods in biostatistics: linear, logistic, survival, and repeated measures models. 2nd ed. New York: Springer; 2012.