四、遺漏值處理方法

約有 19% NEJM 論文會提到遺漏值的處理方式,其中幾乎都是以單一插補(single imputation)以及多重插補(multiple imputation)為主流。這邊的單一插補指的應該是 Expectation-Maximization 方法,但是此方法是在完全隨機遺漏(missing completely at random, MCAR)的假設之下才有效。

根據筆者實務處理經驗,當遇到比較大的資料時, MCAR 的假設通常都會被拒絕(Little’s MCAR test),這也是因為 Little 檢定也是在比較填補前與填補後的所有變項的共變異數矩陣的差異,也是完全會收到樣本數的影響。

倘若研究人員偏好先將資料填補完成後,再進行統計分析,目前科學界普遍可以接受的是多重插補,其假設比較寬鬆,是在隨機遺漏(missing at random, MAR)的假設之下。或是若在重複測量的情況之下,也會建議使用基於模型估計(model-based approach)的方式去處理遺漏值的問題,詳如下一段說明。

 

1.jpg

 

五、重複測量統計方法

筆者記得在 2009 年時介紹 GEE LMM的時候有斷言,未來十年內會幾乎沒有重複測量變異數分析(repeated measured ANOVA)的立足之地(請參考:https://tinyurl.com/yxw65kfn)。因為 ANOVA 只能去除任何有遺漏的樣本(listwise deletion),但 GEE/LMM 卻可以使用每一筆的有效值,是屬於 all available data 的方式。

果然在 2015 年的 NEJM 論文,已幾乎都是使用 GEE LMM 這新一代的重複測量統計方法。按照筆者理解,下圖的 Mixed-effects model 應該就是 LMM,而 GLMM generalized LMM,指的是結果變項是非連續變項,例如類別、次序或計數等。

 

2.jpg

 

六、重複測量與遺漏值處理

整體而言,有 36 篇論文(15%)是在重複測量的情況之下,考慮了遺漏值。可以分成兩大類,第一類是 Model-based approach,也就是不先把資料集填補成完整資料,而是直接進行分析,包括 GEE LMM,這是在比較寬鬆之下的隨機遺漏(MAR)的假設之下會得得到比較正確的估計

第二類是則是填補,又分成單一插補與多重插補。單一插補是完全隨機遺漏(MCAR)的嚴謹假設,多重插補則是隨機遺漏(MAR)相較寬鬆的假設。不過可見目前仍有 13/3636%)的論文使用單一插補。

最後則是遺漏值處理方法的敏感度分析,例如如果用 Model-based approach 作為主分析(primary analysis),則會以單一插補或多重插補作為敏感度分析,反之亦然。

 

3.jpg

 

七、結語

藉由指標雜誌 NEJM 使用統計方法的趨勢,也可以讓我們知道目前科學界對於『最適當』統計方法的潮流與認定,也讓我們自己盡量學習與採用這些越來越常被使用的方法,以做出相對更精確與可被信賴的統計結果,以避免錯誤統計結果可導致的醫療浪費與病人傷害。

 

(全文完)

 

arrow
arrow

    晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()