實驗介入成效之各種統計方法比較－V（ANOVA）~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

l 二因子混合設計變異數分析 (Two-way mixed-design ANOVA)

截至目前為止，我們已經學習到了三種方法，第一種是用獨立t檢定與配對t檢定（型一錯誤會膨脹）、第二種是DID分析（假設前測分數與差值無相關）、第三種是在隨機分派時檢定力最高的ANCOVA。接著我們要介紹使用率一直很高的多因子變異數分析（Multi-factor analysis of variance），尤其是在教育領域（不過我觀察到，使用的情形越來越少）以及醫學領域（尤其是lab-based study）使用得特別多。

由於我們要簡化狀況，所以拿來討論的是「2 × 2」的設計，前面的2表示組別有兩組（實驗組跟控制組），而且是組間因子（Between-subject factor）；後面的2代表是時間點有兩次（前測與後測），而且是組內因子（Within-subject factor）。這種同時有組間及組內因子的設計又稱做為「二因子混合設計」（Two-way designed），它的統計式如下：

我們都知道從迴歸的角度來說，等號的右邊就是預測變項（predictor），因此我們從方程式中可以知道自變項包括：組別（x1）、時間（x2）以及組別與時間的交互作用（x1x2），而在統計上這個「交互作用」具有非常重要的意義，我們若允許這個交互作用項存在方程式裡，也就是我們方程式中有「β₃」，這就表示我們「允許實驗組與對照組的斜率可以不同」，如下圖：

假使我們真的得到一個顯著的交互作用（β₃達顯著），接下來作的事情就跟本系列第一篇文章所提到的獨立t跟配對t所做的事情是一樣的，亦即我們先檢驗組別分別在前測（與後測）是否有差異，再來檢驗前後測之間是否有差異（實驗組與對照組分開分析），這個程序有個專門的名稱：單純主要效果（Simple main effect）或單純效果（Simple effect）。只不過在多因子變異數分析之下所進行的單純效果分析，所用的誤差項（Error term）是整體的，因此其型一錯誤率（Type I error）仍然可以控制在一定的範圍內，而不會有膨脹的情形。

倘若我們的交互作用項未達顯著，那就必須移除交互作用項（β₃）並且重新分析，只能比較組別與時間點個別的主效果（Main effect），這個時候我們就規定「實驗組與對照組的斜率必須相同」（不管合理不合理，統計模式設定的數學意義就是如此），如下圖：

目前聽起來多因子變異數分析好像還不錯，但是其實它有許多限制與不合理之處（由於是與之後要介紹的GEE跟LMM相比較時），我們現在只提兩種狀況。我們先看圖5的狀況，看起來兩組的斜率（β₃）有可能會達顯著差異，然後我們就會進行單純主要效果，其中實驗組在後測可能比對照組分數顯著地更高。但是試想，難道這結論沒有問題嗎？一開始在前測時，實驗組就已經表現的比對照組還好，那麼在後測時就算是實驗組比較好，我們也無法歸咎於是實驗介入的效果，多因子變異數分析沒有辦法像ANCOVA那樣可以「調整後測分數」，因此這是其主要限制之一。

那麼是否只要兩組在前測分數沒有顯著差異，就可以放心地使用多因子變異數分析了呢？這也不盡然，我們看圖6的例子可以知道實驗組在前測比對照組高10分（假設P值為0.08），可是實驗組在後測顯著地比對照組分數更高（假設P值為0.01），我們就會把這項差異歸功於實驗效果，這其實如果用「進步幅度」來看，真正實驗組比對照組「進步的更多的幅度」只有10分，如果這個例子我們改用DID或ANCOVA或許會得到實驗介入無效的結論，而且看起來後者的正確性比較高。因此即使前測沒有顯著的組別差異（除非差異是接近0），不然我們似乎很難嚴謹地從多因子變異數分析定義介入是有效或無效。