多重插補法(multiple imputation)可以說是以模型基礎法來插補的延伸,是屬於利用迴歸模式進行插補的一種方法,由於該方式是從預測值的合理分配中隨機抽取數個數值進行插補,因此稱之為多重插補,此一方法可適用於縱貫性資料或單一觀察資料,也可處理多變量資料結構。

目前多重插補法主要的演算法分為(1)最大期望值法(expectation maximization, EM)與(2)馬可夫鏈蒙地卡羅法(Markov Chain Monte Carlo, MCMC),而SPSS軟體中所提供的演算法即為後者,是透過貝氏定理的方法,以先驗機率分析資料,再以條件後驗分配進行重覆抽樣,直至近似分配收歛至目標分配為止。

SPSS多重插補法會產生m個資料集(m3),在應用上是搭配統計分析直接使用,所得到的參數估計值,是將資料集進行個別分析後,將所有的參加估計值進行平均;當進行推論性統計時,則會多出顯著性統合(pooled)的結果,讓研究者直接進行結論;另外,有文獻建議,使用多重插補法所產生的資料集數可以控制在10以下,因為再增加插補次數,其相對效率並不會提升太多。

分析樣式(用來檢視資料遺漏狀況)

1)點選「多重插補(multiple imputation)」→「分析樣式」

2)將需要分析遺漏狀況的變數丟入右方「分析各個變數」

3)「遺漏值摘要」

用來分析變項遺漏概況。

4)「遺漏值樣式」

用來檢視資料的遺漏狀況,判斷遺漏狀況是否屬於單調形式,進一步在插補模式中來選擇適當的插補方式。不過由於在SPSS的多重插補中已提供自動判別功能,而且最複雜的馬可夫鏈蒙地卡羅法可適用於各種遺漏形式的資料,所以此部分不用再由研究者判斷(不勾選亦可)。

5)「含有最高遺漏值次數的變數」

可控制顯示要顯示有遺漏值的變項,包含調整所顯示的遺漏值變數個數,以及遺漏百分比多少以下的變數不顯示。

 

1.jpg

 

6)「整體遺漏值摘要」

由圓餅圖可看出:【19個變項全部都有遺漏狀況;【21000個樣本裡有512人(51.2%)有遺漏狀況;【3】在9,000筆資料細格中,有758個(8.422%)細格為遺漏。

7)「變項遺漏值摘要」

顯示個變數的遺漏狀況及描述性統計量。

 

2.jpg

 

8)「遺漏值樣式」,不需理會

9)搭配「遺漏值樣式」,去分析每一種組合的狀況人數。

 

3.jpg

創作者介紹

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 PIXNET 留言(0) 人氣()