抽樣與普查－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

抽樣與普查(Census and Sampling)

趙昌泰　撰

統計分析之基本目的在於提供各領域的研究人員一科學化的工具，以便其有能力依據所擁有的資料對整個母體的現象加以正確之描述。而不論所應用的統計分析方法為何，研究人員都必須先完成資料的蒐集，是以如何以正確的方式獲得資料是完成一個嚴謹的統計分析的基本步驟，而抽樣設計（Sampling Design）的目標即在於提供各種公平且有效率的資料蒐集方法。

　　統計資料依其所涵蓋的範圍可分為普查（Census）資料及抽樣資料兩類，如果研究人員能夠對母體中的每一個體均加以觀察紀錄，則所獲得的資料即為普查資料。而如果研究人員僅能蒐集母體中部分個體的資料，則稱所觀察的個體為樣本(Sample)，所獲得的樣本資料當然也就不能涵蓋整個母體。如果具有一份「完整」且「正確」的普查資料，則事實上研究人員便可以對母體的實際現象直接加以精確的描述，但如果研究人員手中僅有樣本所提供的資料，則其就必須利用有效的統計分析方法對母體的現象加以推論，當然一定程度的誤差也就在所難免了。

　　乍看之下，一般人會以為普查資料所能提供的母體資訊遠較樣本資料更為精確。但是普查卻常常不是一個恰當的資料蒐集方式，因為研究人員常受限於金錢或時間等成本上的限制而無法對母體中的每一個體均加以觀察。即便願意投資大量的成本，普查資料也常常沒有一般人心目中所想像，能夠忠實的反映母體的現象。事實上，在資料的蒐集過程中，並不是將所有的個體加以觀察、測量與紀錄即可，在整個過程中有許多會造成誤差的因素存在。例如如果有某一組研究人員想調查大雪山林區的木材蘊藏量，首先，可以想見要一株株的測量每一株林木可以提供的木材（例如一株林木主幹的體積）將是一件幾乎不可能完成的工作。姑且假定不論在整個林區中有多少株的林木，研究人員都願意不計成本的一一加以測量，我們知道在整個觀察的過程中勢必仍舊產生測量上的誤差，而因為同樣的道理，許多紀錄上的誤差也因為觀察體的數目太大而隨之產生，而欲從事普查所需要花費的時間及金錢等成本就更使得普查成為一種不可行的資料蒐集方法。

　　相反的，如果使用抽樣的方式，因為所需觀察個體的數目有限，則研究人員在相同的成本下可以致力於減少在觀察、測量及紀錄等各方面所可能造成的誤差。例如使用較精密的測量工具，或對同一個體可以從事一次以上的測量等等，而觀察數的減少顯然也將大幅減少紀錄上的誤差發生的機率。

　　雖然樣本所提供的資料因為不能涵蓋整個母體，以至於在推論母體特徵時會產生一定程度的誤差，但在一個嚴謹設計及執行的抽樣設計下所得到的資料，研究人員得以明瞭並控制抽樣誤差的來源及其範圍，相反的，在整個調查過程中，如前所述的測量、紀錄等誤差來源反而是研究人員常常無法加以有效控制，同時也沒有有效的方法在從事統計推論時計入這些誤差的影響。同時，在許多現實生活的狀況之下，即便投入了大量的成本從事普查，在母體中仍常有部分的個體是沒有辦法被觀察到的。此時，縱然有著大量的普查資料，我們仍舊很難宣稱這些資料真正的對母體具有代表性。而在抽樣調查中，研究人員仍可以因為總觀察體數目的大幅減少，而能投注更多心力去避免此種情況的發生，甚至也可以有較合理的方法在推論過程中一併計入此類誤差的影響。

　　總之，一般人常不曉得的事實是，一個經過嚴謹設計及執行的抽樣調查所提供的資訊常較耗費大量金錢與時間的普查所提供的資訊更為有效。事實上，抽樣調查的確可以協助研究人員在較少的成本下得到對母體具有代表性的資料，研究人員在從事調查時所應注意的並不是資料是否能夠涵蓋整個母體，而是資料的獲取過程是否公正客觀且符合所運用之抽樣設計的要求，只要抽樣的選擇能夠依據抽樣設計的要求，那麼後續的分析程序自然可以提供客觀、公正且科學化的結果，而研究人員也能據以對母體的現象有更完整的了解。