關於廣義估計方程式（Generalized Estimating Equation, GEE）的一些釐清~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

約三年前我曾經寫過一篇GEE的簡介文章，廣受許多的朋友的迴響（http://dasanlin888.pixnet.net/blog/post/34468724），而這幾年使用GEE的比例越來越高，尤其是護理領域特別偏好使用GEE，有些問題常常重複地被提起，因此本篇文章旨在將幾點比較常被提問的問題作個釐清。

l 疑惑一：GEE只能用在重複測量（Repeated measure）的研究

答案：只對了一半，GEE是用在處理叢集資料（Clustered data）或是多階層資料（Multilevel data）的一種估計方法，而重複測量只是一種叢集資料的特殊型態，若是以重複測量來說，重複測量的多次時間點是鑲套（Nested）在人之下；倘若我們現在是橫斷面資料（Cross-sectional data），研究病人的預後，而每位病人各自有不同的主治醫師，每位主治醫師的治療方針多多少少略有差別，我們必須將主治醫師所造成的差異也納入考量，此時病人是鑲套在醫師之下。鑲套圖示請見圖1及圖2。

l 疑惑二：GEE的依變項只能是連續變項(我想要上統計課)

答案：不對，GEE的依變項（反應變數）至少可以是連續、二元、計數的分佈，除了這三種常見的分佈之外還有一些，但是比較少看到。至於詳細的說明可參見之前的簡介文章。

l 疑惑三：只有2個時間點的分析不能夠使用GEE

答案：不對，這個問題很常被問，許多人都有刻板印象：GEE是用在3個時間點以上的統計分析。但事實上疑惑一的解答已經說明過，GEE是一種估計叢集資料的方法，因此不管是2個時間點或200個時間點都是屬於叢集資料，因此都可以使用GEE。

l 疑惑四：工作相關矩陣選獨立矩陣（Independent）也可以

答案：不對，GEE絕不可使用獨立相關矩陣，大家會有這個疑問是因為SPSS的工作相關矩陣預設選項就是獨立矩陣，而很多人都以為預設的就是最好的，最好不要更動它。然而，獨立相關矩陣的意思是說叢集資料之間是無相關的，以重複測量的例子來說，就是每個人底下的多次時間點之間的相關係數為零，也就是說某人若有3次時間點會被當成是獨立的3個人，這是完全不合理的假設。因此建議還是盡量選擇可交換（Exchangeable）或者是AR1（First-order auto-regressive）的工作相關矩陣。

l 疑惑五：分析重複測量資料或叢集資料時，GEE是唯一選擇

答案：不對，尤其是護理領域會有這個迷思，因為護理使用GEE的比例非常高，有可能不清楚仍有其他可以處理叢集資料的統計方法。分析叢集資料仍有其他選擇，其中最具代表性的則為例如階層線性模式（Hierarchical linear modeling, HLM），又稱做線性混合模式（Linear mixed model, LMM）或多層次模型或多層次迴歸（Multilevel model / Multilevel regression)，可參見之前寫的簡介：http://dasanlin888.pixnet.net/blog/post/34468679

事實上，GEE在某些假設上甚至比HLM還要嚴格，例如GEE對於遺漏值（Missing value）的假設是完全隨機（Missing completely at random, MACR），而HLM的假設只是隨機（Missing at random, MAR），此顯示其實GEE對於資料分析的條件是比較嚴格的。

另外一點，一般套裝軟體（例如SPSS）跑的GEE都是population average（PA-GEE），簡單來說就是假設是固定效果（Fixed effect），以重複測量的資料來說，PA-GEE假設每一個個案的成長軌跡（Trajectory）皆為相同的，這也是不貼近事實的一種假設，反之HLM可以允許每個個案都有自己的成長軌跡。