實驗介入成效之各種統計方法比較－I（t檢定）-晨晰統計林星帆顧問整理－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在行為科學領域中（廣泛地來說，社會科學、醫學護理、運動體育、教育、管理等都可以算是行為科學）的研究，以「實驗介入」為主軸的研究不在少數，而之所以實驗介入型的研究會一直引領風騷，主要是因為如果想要證明「因果關係」，那麼實驗法目前為止各種研究方法中最為強韌的方法，其餘研究方法例如觀察法或質性研究，都無法像實驗法如此提供這麼直接的因果推論（Casual inference）的證據。

在過去數十年間，實驗法的統計方法幾乎是由變異數分析（Analysis of variance）獨領風騷，當然共變異分析（Analysis of covariance, ANCOVA）也常見於期刊中，或甚至偶見直接以t檢定呈現結果的文章。但這一、二十年間，有一些新的統計方法克服了舊統計方法的一些限制，而這些新統計方法又恰好可應用在檢驗實驗介入的成效分析，例如由生物統計學所發展出來的廣義估計方程式（Generalized estimating equation, GEE），或是由教育統計學所延伸的混合線性模式（Linear mixed model, LMM）。

本篇文章的主旨在於簡介這些統計方法在實際上的作法以及此作法背後的概念為何，並加以評論其優勢或劣勢所在，以期讓讀者在讀完這篇文章之後，能粗略地瞭解這些方法使用的時機。另外也會提供該統計方法的「統計式」，這對習慣看公式的讀者有立竿見影的學習效果。為了簡化，我們假設一共只有兩組人，分別為實驗組與控制組（對照組），測驗的時間點只有前測與後測共2次，並且暫不考慮控制變項的問題。接著我們就一項一項地討論，由簡單到複雜（也可說是由方法的舊到新）來作介紹。

l t檢定 (t-test)

有學過統計的讀者都知道，t檢定是推論統計（Inferential statistics）的最重要也是最基礎的第一堂課，而t檢定又分為獨立樣本（Independent sample）跟成對樣本（Paired sample）兩種情形。而t檢定在應用於實驗介入型研究時，是如何執行的呢？

讓我們來看下面這一張圖，在表格中我們分別列出了兩組人的前測與後測的描述統計，最右邊欄位列出獨立樣本t檢定的結果，分別檢驗兩組在前測的差異以及兩組在後測的差異，由結果可知前測分數無組別差異而後測分數達顯著差異。最下方的橫列是成對樣本t檢定的結果，將實驗組與控制組分開分析，檢驗該組前後測的差異，結果顯示實驗組的前後測達顯著差異，而控制組的前後測沒有顯著改變。

這是一個是最為理想的狀況，因為在一開始（前測）時實驗組就跟控制組是同質的了，這一點是很重要的，對於後續的所有比較都提供了可以繼續往下進行的合理性。接著又發現在後測時，實驗組比控制組表現更好。最後，又發現只有實驗組會進步，而控制組不會進步。因此各種跡象都顯示出，實驗介入確實是非常明顯地有效果。

但是，並不是每一個研究都能跑出這個完美的結果，常常遇見的狀況是，如果在前測時組別之間即有差異，那麼後面再比其他比較都是無效的。還有一種常見的狀況，就是控制組有可能也是會進步的（無論是成長效應或是學習效果），在醫學護理類的文章，前測可能是病人入院時或罹病時，後測可能是病人出院時或出院後一段時間，在這種狀況之下就算控制組也會因為常規治療（Regular cure）而讓症狀舒緩進而改善，所以如果實驗組跟控制組都各別有顯著的進步，那麼我們如何以t檢定證實實驗介入是有成效的？

另外還有一點，如果以t檢定來檢驗實驗介入的效果，必須分別計算出四個P值（如下圖中的4個P值），在統計分析的角度上，這四個P值是獨立地計算出來的，因此會造成型一錯誤的膨脹（Inflation of type I error）。

由上所述，以t檢定檢驗介入成效只有一種狀況可以成立，就是我舉的這個例子，但事實卻往往不如人願，因此我們必須再學習更多不同的方法，以克服t檢定所無法處理的限制。