實驗介入成效之各種統計方法比較－IV（ANCOVA）~晨晰統計林星帆顧問整理－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

ANCOVA還有一個額外的好處，就是即使我們是隨機分組，但還是不能保證實驗組與對照組在前測分數及所有人口學變項都是同質的，或許實驗組還是比控制組有比較高或低的前測得分，而此時如果用獨立t檢定組別在後測的得分，可能會得到錯誤的結論。讓我們看一下下面這個例子，一開始實驗組就比對照組有較高的前測得分（70 vs. 60），而經過介入之後兩組都分別進步了20分，此時如果直接用獨立t檢定看兩組在後測的差異（90 vs. 80），會得到實驗組比對照組有更高的後測得分，進而宣稱這是實驗所造成的介入效果，很明顯地這個結論是錯誤的。而此時若我們是用DID分析，會發現兩組的進步幅度無顯著差異（都是20分），或者是用ANCOVA比較調整後後測分數也會發現其實是沒有組別差異，在這個例子中，DID或ANCOVA都可以得到相對正確的結論：介入無效。

目前為止，我們闡述了許多ANCOVA的概念與其優勢，接下來我們要列舉ANCOVA的主要限制與劣勢。首先，如果研究採取的並非隨機分組，而是準實驗設計（Quasi-experimental design），像前述的A班級與B班級就可能本身存在系統性的差異，而非隨機性的差異，例如A班級在許多面向上都表現比較好（也包括前測分數），此時我們會發現自變項會與共變數的圈圈有所重疊（因為兩者之間有相關），如下圖所示。有綠色標記的區域代表的是三個變項同時重疊的部分，此時自變項（組別）佔依變項（後測分數）的變異量變的有點複雜，由於自變項並未與共變數是獨立的，導致我們無法很乾淨地把自變項獨特對依變項可以解釋的部分給分離出來，這就是所謂的「variance partitioning」現象（對此現象的深入討論請參考Pedhazur 1997年的著作，有一章專門討論這個問題），而也因此我們其實無法確定自變項可以解釋多少的依變項的變異量，所以有可能增加也有可能是減少自變項的檢定力。（但很糟糕的是，我們無法知道到底是增加還是減少）

ANCOVA還有一項主要的限制，這也是延伸前一個狀況，如果不是隨機分組的時候（例如觀察性研究），結果自變項（組別）在共變數或其他控制變項具有顯著差異，我們並不清楚這差異是來自隨機的抽樣誤差（random sampling error）或是其他的混淆因子（confounding factors），可能會造成著名的「Lord’s paradox」現象。這個例子是說，假設現在自變項是性別（男生跟女生），依變項是一年之後的體重，共變數是現在的體重，假設男生一年前後的體重為70、71公斤，女生一年前後為50、51公斤，如果我們是要比較性別在體重的變化，那很明顯的是沒有顯著差異（因為男女都變重一公斤），可是此時如果用ANCOVA分析，則是會得到顯著的結果，此時顯著的性別效果的解釋為：「當前測體重保持不變，男生比女生在一年之後更重」，可是問題什麼是「保持體重不變」？由於男生先天上就是比女生還重，根本不會存在男生跟女生在一開始體重是相同的事情發生，因此此時的ANCOVA對後測分數的「統計調整」會造成實際解釋上的困難。

所以總而言之，如果是在隨機分派的研究，可以放心地使用ANCOVA來檢驗介入成效，只是當挑選的共變數若與依變項的相關越低，則ANCOVA的檢定力越變的比較低，因為模式中所包括的變項越多就越不容易得到顯著的結論，若共變數與依變項的相關很高則ANCOVA的檢定力就變高，因為依變項的可解釋變異量變少了（相對的，自變項可以解釋的變異量變多了）。需要注意的是，當不是隨機分組而且兩組在前測分數具有顯著差異時，要非常小心這個差異可能是因為隨機抽樣的變異（如此仍可以使用ANCOVA），還是說可能是源自系統性的差異來源（例如Lord’s paradox一例中，體重前測的差異是來自性別，而男生一定比女生重就是系統性的差異，而不是隨機抽樣的差異）。

參考文獻

Owen, S. V. & Froman, R. D. (1998). Uses and abuses of the analysis of covariance. Research in Nursing & Health, 1998, 21, 557–562.

Pedhazur, E. J. (1997). Multiple regression in behavioral research (3rd Ed.). New York: Harcourt Brace.