在抽樣調查時,尤其政治上的選舉民意研究,特別重視樣本的代表性問題。常見的狀況是樣本與母體在人口特性上有明顯不同,例如已知母體中男女的人數比例應為1:1,但抽取的樣本男女比例卻為2:1,此時如果進行意見的統計,則女性的意見將被低估。

 

理論上如果抽樣過程夠隨機,並不會有代表性問題。然而實際執行時,受到抽樣架構不完整、訪問失敗、隱藏樣本等影響,樣本的人口特性與母體可能不一致。而且差異越大,樣本代表性越低,調查結果可信度越低。

 

當我們發現樣本結構與母體結構之間,具有統計上的顯著差異時(通常使用卡方同質性檢定),為了讓使樣本所作的推論更能反映母體的特性,必須進行加權。

 

常見的加權方法有事後分層加權(Post-stratification)、多重反覆加權(Raking)等,二者的使用時機不同。假設你的重要人口變項只有性別、年齡二種,以下二表為例,樣本的人口分布與母體顯著不同,便需要對樣本進行加權。

 

一、當你可以蒐集到母體的聯合分布,即表1中間八個細格的實際人數或比例時,便可以使用事後分層加權(Post-stratification)。算法以男性20-29歲為例,將樣本比例除以母體比例,13%/20%=0.6500,代表所有男性20-29歲者,其權數皆為0.6500。其餘細格以此類推。當八個權數皆計算出來後,在資料檔上增列一欄,將這些權數依人口類別分別填入。後續進行態度變項的分析時,先設定資料以該欄加權即可。SPSS可在[資料]->[加權觀察值]中設定)

 

 

二、當你只能蒐集到母體的邊際分布,即表1右邊及下方的合計數字時,便須使用多重反覆加權(Raking)。也就是一次只考慮一個變項,加權後通過檢定再考慮另一個變項,之所以稱為反覆,是因為在處理第二個變項時,第一個變項分布再度受到扭曲,必須回頭再來處理第一個變項,如此反覆進行,直到疊代收斂David2008)。話雖如此,計算仍嫌繁瑣,如果人口變項多的話,更為複雜。下篇文章將介紹一個軟體Xlstat,可以解決這個麻煩的問題

(我想要體驗)


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()