在醫學期刊中想要成功發表Clinical paper,多變項分析(Multivariable or multi-predictor or multivariate analysis)可說是家常便飯,在最後的迴歸模式中(無論是linear, logistic, Poisson, or Cox regression model)同時包括2個或以上的變項即可稱為多變項模式,而通常我們會把最終模式中達統計顯著的變項稱之為預測因子(Predictive factor or predictor),其實比較保守的說法是關聯因子(Associated factor)。

然而很常見的模式建立(Model building)的策略為研究者先做一系列的雙變項分析(Bivariate analysis),例如t-test, chi-square或是雙變項的迴歸分析(就是一次只放一個自變項),接著研究者會說:『將P小於0.05的變項進一步放到多變項分析』,這是現行期刊中非常普遍(甚至被廣為接受)的模式建立方法之一,但其實此作法存在著很大的問題。

此作法最大的問題在於會增加偽陽性(False positive)的機會,也就是說『事實上並沒有關聯,但我們卻宣稱有顯著地關聯』,這是因為不會每一個變項都會在雙變項分析達到P小於0.05,因此經過此步驟後會篩選少數(常常是極少數)變項放到多變項迴歸模式中,而當自變項(預測變項)數目較少的時候,留在模式中的變項的顯著性會比較小(因為統計效率較佳),因此達顯著的變項反而會變得比較多。

舉例來說,假設現在有10個潛在的預測變項,在雙變項分析達到P小於0.055個,然後將這5個放到多變項迴歸分析,最後有3個達顯著水準;反之如果一開始我們不篩選變項,我們認為這10個都具有臨床上或表面效度(Face validity),因此建立了一個包含10個預測變項的迴歸模式,但結果可能是最後達顯著的變項只剩下2個。

雖然達顯著的變項越多越好(對研究者而言),因為可能有更多的討論可以發揮,但其實得到錯誤結論的機會也會增高,因此不得不注意。當研究目的是在找尋預測變項的時候,已有許多流行病學及生物統計的文獻提供其他的替代方案,例如雙變項篩選的標準不應該是P小於0.05,而應該要放寬標準,例如0.20以下就應該要納入1

另外也有一種改良的向後選取法(Allen-Cady modified backward selection)也廣受推薦2,簡單來說,在第一個區塊(Block)根據文獻、表面效度及經驗法則先選擇重要的變項(不管其顯著與否),然後強迫進入迴歸模式中,接著在第二個區塊把一些不確定重不重要的變項放進去模式,然後第二個區塊以向後選取法的方式逐一剔除不重要的變項(第一個區塊變項不會被剔除),直到沒有變項能夠被排除為止。此作法的好處是第二個區塊的變項的篩選都是基於已調整(Adjust)第一個區塊所有變項,因此最後達顯著的變項數目比較不多,因此可改善偽陽性的問題。

本文提供了幾個替代方案給各位醫師參考,但其實「Predictor selection」是一件非常複雜的任務,有興趣的醫師可以參考Vittinghoff等人著作的Predictor selection章節2,未來筆者也會再另外整理關於預測變項篩選的文章。

 

1.     Maldonado G, Greenland S. Simulation study of confounder-selection strategies. American journal of epidemiology. 1993;138(11):923-936.

2.     Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE. Regression methods in biostatistics: linear, logistic, survival, and repeated measures models. 2nd ed. New York: Springer; 2012.

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()