樣本加權(上) @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在抽樣調查時，尤其政治上的選舉民意研究，特別重視樣本的代表性問題。常見的狀況是樣本與母體在人口特性上有明顯不同，例如已知母體中男女的人數比例應為1:1，但抽取的樣本男女比例卻為2:1，此時如果進行意見的統計，則女性的意見將被低估。

理論上如果抽樣過程夠隨機，並不會有代表性問題。然而實際執行時，受到抽樣架構不完整、訪問失敗、隱藏樣本等影響，樣本的人口特性與母體可能不一致。而且差異越大，樣本代表性越低，調查結果可信度越低。

當我們發現樣本結構與母體結構之間，具有統計上的顯著差異時（通常使用卡方同質性檢定），為了讓使樣本所作的推論更能反映母體的特性，必須進行加權。

常見的加權方法有事後分層加權(Post-stratification)、多重反覆加權(Raking)等，二者的使用時機不同。假設你的重要人口變項只有性別、年齡二種，以下二表為例，樣本的人口分布與母體顯著不同，便需要對樣本進行加權。

一、當你可以蒐集到母體的聯合分布，即表1中間八個細格的實際人數或比例時，便可以使用事後分層加權(Post-stratification)。算法以男性20-29歲為例，將樣本比例除以母體比例，13%/20%=0.6500，代表所有男性20-29歲者，其權數皆為0.6500。其餘細格以此類推。當八個權數皆計算出來後，在資料檔上增列一欄，將這些權數依人口類別分別填入。後續進行態度變項的分析時，先設定資料以該欄加權即可。（SPSS可在[資料]->[加權觀察值]中設定）

二、當你只能蒐集到母體的邊際分布，即表1右邊及下方的合計數字時，便須使用多重反覆加權(Raking)。也就是一次只考慮一個變項，加權後通過檢定再考慮另一個變項，之所以稱為反覆，是因為在處理第二個變項時，第一個變項分布再度受到扭曲，必須回頭再來處理第一個變項，如此反覆進行，直到疊代收斂（David，2008）。話雖如此，計算仍嫌繁瑣，如果人口變項多的話，更為複雜。下篇文章將介紹一個軟體—Xlstat，可以解決這個麻煩的問題。

(我想要體驗)