在各類的醫學量化研究中,資料集中含有遺漏值(missing value)幾乎是無可避免的狀況。關於遺漏值的機制(mechanism),可分成三類:(一)Missing completely at random (MCAR)、(二)Missing at random (MAR) 以及(三)Missing not at randomMNAR)。

 

完全隨機(MCAR

MCAR 是指遺漏值是完全在隨機之下發生的,在此情況下,「遺漏值的數值」與觀察資料(observed data)或其他遺漏值沒有相關性,MCAR 的假設可透過 Little’s test 來檢定,但此方法跟所有假設檢定一樣,檢定結果的顯著性與樣本數大小呈反比,即樣本數極大時則檢定很容易會顯著(違反 MCAR 的假設)。

以實驗室情境而言,技術員若不小心把某個檢體弄丟了或是致使損壞,導致該檢體無法得到某些檢驗值,排除蓄意的可能性,那麼這種情況之下所發生的遺漏值就是屬於完全隨機。此時若使用完整資料(complete data)進行分析,得到的估計結果並不會有偏差(bias),但由於完整樣本數變小,因此會減低統計檢定力(power)。

 

部分隨機(MAR

MAR 是指遺漏值是在部分隨機之下發生的,在此情況下,「遺漏值的數值」與其他遺漏值沒有相關性,但卻與觀察資料具有相關性。換句話說,「遺漏值的數值」會與觀察資料具有系統性及方向性的關聯。在這種情況之下以完整樣本執行分析,將會得到偏差的估計結果(biased estimate)以及較低的統計檢定力。

相關例子在臨床上相當常見,例如某項研究用問卷詢問受訪者的體重,而有可能有少數的女性比較不願意提供體重資訊,當資料蒐集完成時,會發現男性的體重資料比較完整,而女性的體重資料的遺漏情形則較多,此即為遺漏值的發生與性別(我們實際上可以收集到的觀察資料)有關係。

 

非隨機(MNAR

MNAR 是指遺漏值不是在隨機之下發生的,在此情況下,「遺漏值的數值」與未觀測資料(unobserved value)具有相關性。

沿用上一個以問卷調查受訪者體重的例子,我們可以假設,體重過重或肥胖者可能會有不願意報告體重的傾向,由於「體重」本身就是我們想要蒐集的目標資料,但「體重過重或肥胖」本身就是必須先收集到體重才能加以判定,因此「體重過重或肥胖」在這個狀況下就是屬於未觀測資料。

 

小結

在本篇文章中,筆者簡單地陳述遺漏值的三種產生機制,在接續的文章中,將進一步介紹遺漏值的填補(imputation)以及相關注意事項。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()