2.正確使用的抽樣誤差(Correct use of sampling error)
在抽樣時,經驗法則是百分之九十五的信心水準下,1000例樣本的抽樣誤差約 ± 3%,600例為 ± 4%,300例則為 ± 6%。因此有人以為如果某侯選人支持度為5%,那加上正負誤差6%後不就出現負1%的數字!!這是一個嚴重誤解。
事實上,如果母體數N很大(十萬以上),抽樣誤差的公式可以簡化成1.96 √[p(1-p)/n],這時可以很明顯看出,樣本數n 愈小,固然誤差愈大,但還須考慮支持率p。當p只有5%時,抽樣誤差便只有2.5%了。所以抽樣誤差除了隨樣本數變化外,還會隨著p值移動。樣本大小保持不變時,較小的p,較小的誤差(the smaller the p, the smaller the error is as well.)。
表1:抽樣誤差的變化
樣本數 |
百分率(p值)± 抽樣誤差 | ||||
1,000 |
5% ± 1.4% |
20% ± 2.5% |
50% ± 3.1% |
80% ± 2.5% |
95% ± 1.4% |
800 |
5% ± 1.5% |
20% ± 2.8% |
50% ± 3.5% |
80% ± 2.8% |
95% ± 1.5% |
500 |
5% ± 1.9% |
20% ± 3.5% |
50% ± 4.4% |
80% ± 3.5% |
95% ± 1.9% |
300 |
5% ± 2.5% |
20% ± 4.5% |
50% ± 5.7% |
80% ± 4.5% |
95% ± 2.5% |
100 |
5% ± 4.3% |
20% ± 7.8% |
50% ± 9.8% |
80% ± 7.8% |
95% ± 4.3% |
註:假設母體非常大
樣本量是否夠大,取決於調查結果能否準確地區分兩群體的數據(如二個侯選人支持度區間),或者同一群體在不同期間調查的變化(如事件前與事件後)。國際上民意調查的樣本規模一般都超過 1000例。但是,當進行人口統計的交叉製表時,規模較小的子群體之間的比較分析就不可避免了。有時,只有約 100或200的樣本數。
3.重疊樣本的概念(Concept of overlapping sample)
這項是滾動式調查的重點。批評者認為,滾動調查中舊數據的比例過高,因此認為只是在重複數據。對此,我們以表2的實例來說明,這是以3天為滾動基礎的樣本。首先,在1號與2號樣本間,有2天的重疊樣本,即9月2日、3日;同樣地,在2號樣本和3號樣本間,也有9月3日、4日等2天的重疊樣本,以此類推。
假設讀者X不喜歡重疊數字,只選擇看1號和4號樣本,因為它們之間完全沒有重疊。同樣理由,讀者Y只看2號和5號樣本,讀者Z只看3號和6號樣本。這三名讀者都可以宣稱,這6個樣本其實只有2個獨立樣本,其它4個都是在重複數字。
然而,對意見A的比例,讀者X和Y看到的是上升1%,而讀者Z卻沒有看到變化,停留在59%。而事實上,意見A已經歷了一段波動,但回到原來位置,但Z沒有察覺。相對地,意見B的比例,讀者X沒有看到變化,維持在83%;但讀者Y看到上升1%、讀者Z看到上升3%。而事實上,意見B呈現上升趨勢。
因此,即使在非重複樣本,在六天之間不同的取樣期間,仍會得到不一樣的結果。相較之下,反而顯示滾動調查的珍貴,因為細微變化經由持續的觀察才能得知。
表2:滾動樣本的組合
樣品編號 |
1 |
2 |
3 |
4 |
5 |
6 |
調查日期 |
1-3/9 |
2-4/9 |
3-5/9 |
4-6/9 |
5-7/9 |
6-8/9 |
樣本大小 |
1559 |
1669 |
1784 |
1902 |
1978 |
2121 |
意見A比例 |
59% |
59% |
59% |
60% |
60% |
59% |
意見B比例 |
83% |
83% |
82% |
83% |
84% |
85% |
讀者 |
X |
Y |
Z |
X |
Y |
Z |
也有人批評,“既然每天都收集數據,為什麼不每天公布結果呢?是不是想掩蓋每天滾動調查的樣本量不足的問題?” 撇開統計理論,這問題很容易回答,讀者如果從今天起,收集所有超過1000例樣本的各種專業調查,看看這些調查是在一天內完成的呢?,還是數天或數週的累積結果?可以預期,後者將是多數。那麼,批評者為什麼不要求所有的調查列出每天的數據呢?
事實上,天數多寡,主要取決於要進行微觀或宏觀尺度的分析。前者將有大的波動,但靈感度較高;後者,人們可以看到整體結構,但容易忽略一些微小細節。對於不同的調查對象,在選擇合適的滾動天數下,滾動調查可以兼顧這二項優點。
(待續)
留言列表