筆者曾在201599日分享一篇『SPSS資料處理-置換遺漏值(Replace Missing Value)』,但這種尋找單一數值作為替代的方式,較無法反映受訪者的變異性,進而造成變異量的低估。

資料的遺漏型態,可以分成完全隨機遺漏(Missing Completely at Random, MCAR)、隨機性遺漏(Missing at Random, MAR)與非隨機性遺漏(not missing at Random, NMAR),當資料屬於隨機性遺漏(Missing at Random, MAR)與非隨機性遺漏(not missing at Random, NMAR)時,資料插補的方法將對於結果產生較大的影響。此時若可以採用以模式為基礎的方法來進行插補(本篇將介紹EM插補法,expectation maximization),即使遺漏值的分布並非完全隨機遺漏(MCAR),也可透過最大概似法(Maximum likelihood method)求得具有一致性(consist)及有效率(efficient)的估計值進行插補。

EM插補法是利用最大概似法(Maximum likelihood method)先將遺漏資料模型化,透過E階段與M階段,再找出最精確與最合理的估計值,其中E階段是最遺漏值做最佳的估計值,M階段則求出最大概似估計值再進行取代,直到估計值的變化可以被忽略為止。

過程的確複雜,好在我們身處這個軟體爆發時代,SPSS軟體中已提供此功能在分析的選單中(名為:遺漏值分析)。此項功能除了可以分析遺漏值的型態之外,亦提供了兩種插補功能,分別是EM插補法與迴歸插補法,不過迴歸插補法有較多的限制及注意事項,因此本篇選擇以EM插補法做介紹。

操作

1)點選「分析」→「遺漏值分析」

 

1.jpg

 

2)將連續變項放入數值變數

這邊要注意,遺漏值分析所提供的插補功能,僅適用於連續變項。

3)將類別變項放入類別變數

這邊要注意,類別變項當有遺漏值時,會影響到有效樣本個案,進而影響到連續變項的插補結果。

4)「樣式」與「描述性統計量」屬於遺漏值分析功能,不點選

5)勾選「EM」插補法

 

2.jpg

 

6)點選「變數」

7)預設為「使用全部數值變項」

代表所有變項都會被用來當作預測遺漏值的因子,且所有變數中,只要有遺漏值就會被填補。

8)「選擇變數」

如果將變數丟在上方,代表這個變數只被插補,而不用於預測遺漏值;如果將變數丟在下方,代表這個變數只預測遺漏值,而不被插補。再次強調,在EM插補法裡,類別變數不被插補,也不用於預測。

 

3.jpg

 

9)點選「EM(M)

10)勾選「儲存完整資料集」,並輸入資料集名稱

 

4.jpg

 

11)已進行EM補值的資料集,必須另存新檔

EM插補完成的資料集裡,類別變數不被插補,也不用於預測;而連續變數已全數差補完成。

 

5.jpg

 

12)報表

報表中會顯示所有插補完連續變項的平均數、相關矩陣、共變數矩陣;每張表格下方都會顯示Littles MCAR檢定,此檢定可用來判斷資料的遺漏分布是否為完全隨機遺漏,若檢定結果未達顯著水準,則資料的遺漏分布屬於完全隨機遺漏。

 

6.jpg

創作者介紹
創作者 晨晰部落格新站 的頭像
晨晰部落格新站

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()