淺談遺漏值的產生機制（Mechanism）~~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在各類的醫學量化研究中，資料集中含有遺漏值（missing value）幾乎是無可避免的狀況。關於遺漏值的機制（mechanism），可分成三類：（一）Missing completely at random (MCAR)、（二）Missing at random (MAR) 以及（三）Missing not at random（MNAR）。

完全隨機（MCAR）

MCAR 是指遺漏值是完全在隨機之下發生的，在此情況下，「遺漏值的數值」與觀察資料（observed data）或其他遺漏值沒有相關性，MCAR 的假設可透過 Little’s test 來檢定，但此方法跟所有假設檢定一樣，檢定結果的顯著性與樣本數大小呈反比，即樣本數極大時則檢定很容易會顯著（違反 MCAR 的假設）。

以實驗室情境而言，技術員若不小心把某個檢體弄丟了或是致使損壞，導致該檢體無法得到某些檢驗值，排除蓄意的可能性，那麼這種情況之下所發生的遺漏值就是屬於完全隨機。此時若使用完整資料（complete data）進行分析，得到的估計結果並不會有偏差（bias），但由於完整樣本數變小，因此會減低統計檢定力（power）。

部分隨機（MAR）

MAR 是指遺漏值是在部分隨機之下發生的，在此情況下，「遺漏值的數值」與其他遺漏值沒有相關性，但卻與觀察資料具有相關性。換句話說，「遺漏值的數值」會與觀察資料具有系統性及方向性的關聯。在這種情況之下以完整樣本執行分析，將會得到偏差的估計結果（biased estimate）以及較低的統計檢定力。

相關例子在臨床上相當常見，例如某項研究用問卷詢問受訪者的體重，而有可能有少數的女性比較不願意提供體重資訊，當資料蒐集完成時，會發現男性的體重資料比較完整，而女性的體重資料的遺漏情形則較多，此即為遺漏值的發生與性別（我們實際上可以收集到的觀察資料）有關係。

非隨機（MNAR）

MNAR 是指遺漏值不是在隨機之下發生的，在此情況下，「遺漏值的數值」與未觀測資料（unobserved value）具有相關性。

沿用上一個以問卷調查受訪者體重的例子，我們可以假設，體重過重或肥胖者可能會有不願意報告體重的傾向，由於「體重」本身就是我們想要蒐集的目標資料，但「體重過重或肥胖」本身就是必須先收集到體重才能加以判定，因此「體重過重或肥胖」在這個狀況下就是屬於未觀測資料。

小結

在本篇文章中，筆者簡單地陳述遺漏值的三種產生機制，在接續的文章中，將進一步介紹遺漏值的填補（imputation）以及相關注意事項。