約三年前我曾經寫過一篇GEE的簡介文章,廣受許多的朋友的迴響(http://dasanlin888.pixnet.net/blog/post/34468724),而這幾年使用GEE的比例越來越高,尤其是護理領域特別偏好使用GEE,有些問題常常重複地被提起,因此本篇文章旨在將幾點比較常被提問的問題作個釐清。
l 疑惑一:GEE只能用在重複測量(Repeated measure)的研究
答案:只對了一半,GEE是用在處理叢集資料(Clustered data)或是多階層資料(Multilevel data)的一種估計方法,而重複測量只是一種叢集資料的特殊型態,若是以重複測量來說,重複測量的多次時間點是鑲套(Nested)在人之下;倘若我們現在是橫斷面資料(Cross-sectional data),研究病人的預後,而每位病人各自有不同的主治醫師,每位主治醫師的治療方針多多少少略有差別,我們必須將主治醫師所造成的差異也納入考量,此時病人是鑲套在醫師之下。鑲套圖示請見圖1及圖2。
l 疑惑二:GEE的依變項只能是連續變項(我想要上統計課)
答案:不對,GEE的依變項(反應變數)至少可以是連續、二元、計數的分佈,除了這三種常見的分佈之外還有一些,但是比較少看到。至於詳細的說明可參見之前的簡介文章。
l 疑惑三:只有2個時間點的分析不能夠使用GEE
答案:不對,這個問題很常被問,許多人都有刻板印象:GEE是用在3個時間點以上的統計分析。但事實上疑惑一的解答已經說明過,GEE是一種估計叢集資料的方法,因此不管是2個時間點或200個時間點都是屬於叢集資料,因此都可以使用GEE。
l 疑惑四:工作相關矩陣選獨立矩陣(Independent)也可以
答案:不對,GEE絕不可使用獨立相關矩陣,大家會有這個疑問是因為SPSS的工作相關矩陣預設選項就是獨立矩陣,而很多人都以為預設的就是最好的,最好不要更動它。然而,獨立相關矩陣的意思是說叢集資料之間是無相關的,以重複測量的例子來說,就是每個人底下的多次時間點之間的相關係數為零,也就是說某人若有3次時間點會被當成是獨立的3個人,這是完全不合理的假設。因此建議還是盡量選擇可交換(Exchangeable)或者是AR1(First-order auto-regressive)的工作相關矩陣。
l 疑惑五:分析重複測量資料或叢集資料時,GEE是唯一選擇
答案:不對,尤其是護理領域會有這個迷思,因為護理使用GEE的比例非常高,有可能不清楚仍有其他可以處理叢集資料的統計方法。分析叢集資料仍有其他選擇,其中最具代表性的則為例如階層線性模式(Hierarchical linear modeling, HLM),又稱做線性混合模式(Linear mixed model, LMM)或多層次模型或多層次迴歸(Multilevel model / Multilevel regression),可參見之前寫的簡介:http://dasanlin888.pixnet.net/blog/post/34468679
事實上,GEE在某些假設上甚至比HLM還要嚴格,例如GEE對於遺漏值(Missing value)的假設是完全隨機(Missing completely at random, MACR),而HLM的假設只是隨機(Missing at random, MAR),此顯示其實GEE對於資料分析的條件是比較嚴格的。
另外一點,一般套裝軟體(例如SPSS)跑的GEE都是population average(PA-GEE),簡單來說就是假設是固定效果(Fixed effect),以重複測量的資料來說,PA-GEE假設每一個個案的成長軌跡(Trajectory)皆為相同的,這也是不貼近事實的一種假設,反之HLM可以允許每個個案都有自己的成長軌跡。
以上總計整理了五點常見的疑惑,希望對於各位在使用GEE上有所幫助,未來如果更多的問題,我會再整理並分享給大家。

關於廣義估計方程式(Generalized Estimating Equation, GEE)的一些釐清~晨晰統計林星帆顧問整理 ...《詳全文》
老師好: 很謝謝老師的分享,看完之後對GEE又更了解了。 不過我對於GEE處理遺漏值的假設部分還是很模糊,此部分能否再請老師多做解釋。 實在是感激不盡阿。
您好: GEE對遺漏值是不處理的,屬於有多少資料就做多少估計的方法。
你好,請問如果要對完全沒有學過統計的人解釋何為GEE該怎麼說呢
您好: 可參考http://dasanlin888.pixnet.net/blog/post/333434048-%E5%AF%A6%E9%A9%97%E4%BB%8B%E5%85%A5%E6%88%90%E6%95%88%E4%B9%8B%E5%90%84%E7%A8%AE%E7%B5%B1%E8%A8%88%E6%96%B9%E6%B3%95%E6%AF%94%E8%BC%83%EF%BC%8Dvi%EF%BC%88gee%EF%BC%89~以及http://dasanlin888.pixnet.net/blog/post/336843995-%E5%AF%A6%E9%A9%97%E4%BB%8B%E5%85%A5%E6%88%90%E6%95%88%E4%B9%8B%E5%90%84%E7%A8%AE%E7%B5%B1%E8%A8%88%E6%96%B9%E6%B3%95%E6%AF%94%E8%BC%83%EF%BC%8Dvii%EF%BC%88gee%EF%BC%89
老師 請問您 GEE跑出來的矩陣結果 都是標準誤 是對的嗎?如果樣本不大 怎樣才能跑 標準差?
您好:統計分析都是提供估計的標準誤。
老師您好 請問您 假若我的資料是兩個時間點 也就是前側後側的測量 想看用藥前後兩個測量濃度差異 故使用GEE model 跑了兩個model model1裡面只放入時間的變項 model2裡面只放入時間的變項以及其他想控制的變相 為什麼model1與model2裡面的時間變項 的估計值與p值都是一樣的呢?
您好: 應該剛好只是時間的效果太強,不太受到其他變項的影響。您可以把SPSS報表貼到EXCEL,或許小數點後很多位有不一樣喔。
老師我的資料沒有對照組只有實驗組,我在追蹤一群病人介入治療後長達七年的資料,要看治療是否可降低住院天數,這樣可以用GEE嗎?
您好: 只要是重複測量,都可以使用GEE
老師您好 請問您 我的資料是兩組,連續3天的前後測量, 第一天與第二天的前測兩組沒差異性,但是第三天的前測兩組相差近20 那我GEE適合用3天的後測分數分析,還是用前後側差異量???
您好: 建議兩種方式都分析看看