樣本數規劃初探~林星帆顧問整理 (Sample size & power analysis) @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

從事統計顧問的這幾年來，常常與各種統計程度不一的客戶諮詢，有的是剛接觸統計的學生、有的是已頗有底子的研究人員、甚至有些是研究資歷豐富的大學教授，但令我頗驚訝的是，他們常常會有一個迷思：「樣本數是不是越大越好？」，大家普遍會這樣子認為是因為「樣本數越大越容易有顯著的結果！」。

其實這真的是一個極度錯誤的觀念，但要對於這件事情要作釐清還真的是件不容易的任務，困難之處是在於它不是瞭解一個名詞後就能通盤理解的概念，它必須先瞭解一系列的專有名詞並且逐一解析其中的關聯。因此在我這篇文章之中將只是嘗試把這幾個專有名詞作解釋，並且盡量把它們與樣本數的關係作一個清楚的交代，要徹底瞭解還是必須尋找專書來研讀，至於樣本數的專書其實有不少本，在本文最後將會介紹其中的經典之作。

影響樣本數的因素有很多，包括「顯著性」、「統計檢定力／或統計考驗力」、「效果量」、「統計方法」，其中最後一個統計方法在本文則只是舉最簡單的「獨立樣本T檢定」為例，因為採用不同統計方法時（例如迴歸、變異數分析）的程序都很類似，只是不同統計方法的「效果量」都不同，像T檢定是用Cohen’s d，迴歸是用大家熟悉的解釋力(或稱決定係數)R2，以下就針對各專有名詞作一個介紹。

介紹之前，在這邊有一個很重要的觀念要告訴大家，既然要作推論統計，就代表我們無法取得整個母群體的資料，因此我們才要抽樣並且嘗試推論結果到母群，因此「母群體的結果永遠不得而知」，假使我們的研究假設是「男生的女生的分數顯著不同」，因此如果只要你沒有作普查就永遠無法100%確定研究假設，因此近代統計學家所謂的假設考驗就是會設定兩個條件，第一個條件是「研究假設是錯的」，意思就是男生跟女生的分數是無顯著差異的，第二個條件是「研究假設是對的」，意思就是男生跟女生的分數是有顯著差異的，因此我們立刻須馬上再回顧一件事實：真正母群體的結果我們是無法得知的（除非作普查）。

(我也想上統計課)

一般我們最常看見的「顯著性」(singificance or p value) 就是第一個條件為真之下，也就是男生女生無差異的情形之下，我們收集回來的樣本資料卻顯示p值小於0.05，因此我們就推論並且宣佈男生女生是有差異的，這個時候我們就是錯誤推論結果，這叫做型一錯誤（Type I error）；顯著性(p值)相信大家可在每一篇量化研究上看到作者報告，但另外一種「錯誤」也非常的重要，但目前為止還沒有被所有期刊文章列為必須報告的數值，它就是「統計檢定力或統計考驗力」(power)，它是第二個條件為真之下，也就是男生女生有差異的情形之下，我們收集回來的樣本資料也正確顯示p值小於0.05，因此我們就推論並且宣佈男生女生是有差異的，這個時候我們是正確推論結果，這叫做統計檢定力，但如果我們收集回來的資料顯示是p值大於0.05因此我們宣佈男生女生是無差異的，這就叫做型二錯誤（Type II error）。

因此數十年以來，量化研究都太過於強調型一錯誤，不過近十年來心理學領域的期刊已經開始規定必須報告型二錯誤或統計檢定力，一般說來大家都根據Cohen(1988)的建議，將型一錯誤容忍值定為5%且型二錯誤容忍值定為20%，也就是說如果我們得到的樣本資料所推論的p值小於0.05且power高於80%時，通常這樣的結果都是能夠被接受的，因為兩個類型錯誤發生機率都蠻低的就代表不管母群體結果為何，推論的結果的犯錯機率都是低的，因此我們會對這個結果非常的有信心！

再來則是介紹「效果量」（effect size、簡單ES），先以統計術語介紹：「樣本資料所得到的差異是幾個標準差」，再來以T檢定舉例以幫助大家理解，假使我們要比較男生與女生分數的差異，結果抽樣回來的結果顯示男生平均數55分且女生平均數為50分，非常剛好地男生與女生的標準差都是10分，此時根據效果量定義為「樣本資料所得到的差異（男生減掉女生為5分）是幾個標準差（標準差為）10分」，因此答案為5分除以10分 = 0.5，但是因為我們已經除以標準差，就代表我們已經將變項「去掉單位」，大家可注意到一個訊息：「效果量跟樣本數完全沒有關係」，大家可注意到剛剛d = 0.5的計算完全沒有考慮樣本數，因此即使兩個研究，前者樣本數1000人且d = 0.2，後者樣本數100人且d = 0.5，此時若宣稱後者的效果大於前者的效果，這句話是成立的。

在其他條件不變之下（型一錯誤5%、power=80%），若事先估計的效果量越大（例如d = 0.8，則所需的樣本數越少，因此此時可知「顯著性」、「統計檢定力」、「效果量」與「樣本數」此4者之間的關係是互補的，當我們確定其中3個項目時，就能決定第4個。如果我們跟之前別人類似的研究而預估d = 0.5，且我們希望型一錯誤5%、power=80%，那麼我們就能決定需要樣本數為多少人，而且通常這是在作研究之前就計算的，這叫做「planning sample size a priori」；也很常見的一種情形是，我們已經做完研究了，但我想知道我達到多少統計檢定力，例如我所得到的d = 0.2，實際的p值=0.01，事實上我收的樣本資料為100個人，那麼此時我們就能計算統計檢定力是否達到80%的門檻，這叫做「compute achieved power as a post hoc」，而且如果是實驗性研究，假設只得到70%的power，那麼我們還可以知道還要多少樣本才能達到80%的門檻，甚至實驗可以繼續收集樣本！

由以上幾段的介紹可知，樣本數計算方式的確頗為繁複，但只要瞭解這幾個專有名詞，然後拜讀Cohen(1988)的經典著作，該書沒有什麼困難技術性細節，每一個概念都有很多個實例計算作示範，非常值得閱讀，詳細書目如下：Jacob Cohen (1988). Statistical Power Analysis for the Behavioral Sciences (second ed.). Lawrence Erlbaum Associates.

希望各位讀者之後閱覽量化研究文章時，除了注意顯著性是否小於0.05，我們同時也要注意到作者是否有報告「一開始他的樣本數是如何決定的」、「作者得到的統計檢定力有無達到80%」、「效果量大還是小」等等其他重要的指標，以免我們得到顯著但無檢定力且效果小的結果還不自知。

Facebook Plurk YAHOO!