再談 NEJM 統計方法(下)~~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

四、遺漏值處理方法

約有 19% 的 NEJM 論文會提到遺漏值的處理方式，其中幾乎都是以單一插補（single imputation）以及多重插補（multiple imputation）為主流。這邊的單一插補指的應該是 Expectation-Maximization 方法，但是此方法是在完全隨機遺漏（missing completely at random, MCAR）的假設之下才有效。

根據筆者實務處理經驗，當遇到比較大的資料時， MCAR 的假設通常都會被拒絕（Little’s MCAR test），這也是因為 Little 檢定也是在比較填補前與填補後的所有變項的共變異數矩陣的差異，也是完全會收到樣本數的影響。

倘若研究人員偏好先將資料填補完成後，再進行統計分析，目前科學界普遍可以接受的是多重插補，其假設比較寬鬆，是在隨機遺漏（missing at random, MAR）的假設之下。或是若在重複測量的情況之下，也會建議使用基於模型估計（model-based approach）的方式去處理遺漏值的問題，詳如下一段說明。

五、重複測量統計方法

筆者記得在 2009 年時介紹 GEE 跟 LMM的時候有斷言，未來十年內會幾乎沒有重複測量變異數分析（repeated measured ANOVA）的立足之地（請參考：https://tinyurl.com/yxw65kfn）。因為 ANOVA 只能去除任何有遺漏的樣本（listwise deletion），但 GEE/LMM 卻可以使用每一筆的有效值，是屬於 all available data 的方式。

果然在 2015 年的 NEJM 論文，已幾乎都是使用 GEE 或 LMM 這新一代的重複測量統計方法。按照筆者理解，下圖的 Mixed-effects model 應該就是 LMM，而 GLMM 是 generalized LMM，指的是結果變項是非連續變項，例如類別、次序或計數等。