筆者在2012年底曾寫了二篇文章,討論樣本加權,即樣本與母體在背景變項上有明顯不同時,對樣本分析時加權處理。

當時提到,如果你可以蒐集母體各種背景變項的聯合分布,只要將每一細格的母體比例除以樣本比例(當時文中將二者反置,在此一併更正),即可得到每一樣本的權數;但如果,你只蒐集到母體邊際分布,便須用反覆加權(Raking),當時介紹的軟體是Xlstat。但畢竟為了一根牛毛,去養一頭牛,不值得。

事隔不到一年,我們最愛用的SPSS出了22版,這版最大的改變是,Essentials for Python預設隨IBM SPSS Statistics 22安裝。SPSS透過連結Python,增加了許多新功能,包括了今天要介紹的反覆加權。廢話不多說,直接秀例子。

這個方法在SPSS22中叫Rake weights(中文叫傾斜權重,很難理解的翻譯),假設我們有200人的樣本,背景資料為性別與年齡。原始人數分布如下:

 

 

A1

 

而我們所蒐集到的母體背景分布如下,明顯與樣本不同。

性別 > 男:女=38%62%

年齡 > 20歲以下: 21~40歲:41歲以上=20%50%30%

這時我們可以使用SPSS22的新功能來計算權數,資料>傾斜加權

 

 

A2

這時我們使用SPSS22的新功能來計算權數,[資料]->傾斜加權],出現右上圖對話框。

1格[要建立的加權變數]:自訂一個變項名稱,用來放置權數;

[控制項總計變數]:選入加權用的背景變項,最多五個(如果用語法執行,則最多十個);

[種類和控制項總計或分數]:填入母體的人數或比例、小數皆可,如附圖或1 3800 2 6200

按[確定]即可。

首先看輸出報表,它指出Gender=1()Age=1(20歲以下)的人權重為0.794,餘此類推。

 

A3

 

回到資料檢視可發現多了一欄weight,如果我們以此加權,則結果的分布就跟母體一模一樣。

A4A5  

 

最後說明一下權數的意義,比如第一個人權重0.488,代表樣本中這一類背景的人太多,為符合母體,應予縮小。故計算該類背景受訪者的意見時,每個樣本不當1人計,而是以0.488人計。

同理,第二個人權重2.816,代表樣本中這一類背景的人太少,為符合母體,必須放大。故計算該類背景受訪者的意見時,每個樣本不只當1人計,而是當2.816人計。

如此,透過人數計算的縮小或放大,使得加權後樣本的評分、喜好,更符合母體。

對我們這群SPSS愛用者來說,SPSS愈強大,愈是省了我們很多功夫在找工具。

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()