廣義估計方程式(Generalized estimating equation, GEE)近五年在國內生物統計領域(涵蓋醫學、護理領域)颳起一陣旋風,許多Paper及博碩士論文皆大量採用這個統計估計方法。
可能很多使用者都不知道這個知名統計估計方法其實是「台灣製造」,是由中研院院士梁賡義(Professor Liang,即將在民國99年擔任陽明大學校長)與約翰霍普金斯大學(The Johns Hopkins University)公共衛生學院生物統 計系 教授Scott Zeger於1986年在兩個頂尖生物統計期刊Biometrika及Biometrics陸續發表理論與應用文章,之後廣泛地被應用在重複測量的研究上。
在介紹GEE之前,一定要先認識廣義線性模式(Generalized Linear Models, 我在本文簡稱為GedLM),其實我們熟知的一般線性模式(General linear model, GLM)即為GedLM的特例,就好像Multiple linear regression(MLR)為GLM的特例。
我們都知道GLM的依變項(反應變數)是連續變數,但McCullagn and Nelder(1989)在其著作提出GedLM來擴充GLM對於反應變數的尺度限制,在GedLM透過「Probability distribution」與「Link function」來將反應變數尺度擴充至連續、類別、順序、計數(count)等資料型態,以連續依變項則可選擇「Normal distribution」與「Identity Link function」、以二元依變項則可選擇「Binomial distribution」與「Log / Logit Link function」、以計數依變項則可選擇「Poisson distribution」與「Log Link function」等等。因此可知GedLM將GLM擴充至各種反應變數尺度的應用。
然而問題來了,當今天的研究設計是「重複測量」或「鑲套, nested」時,前者譬如一個受訪者有3次以上的時間點,後者是每個醫生負責10-30位病患,此時GedLM雖然仍提供正確的係數估計(estimated coefficient)但卻會提供了錯誤的標準誤(standard error)因此會導致錯誤的統計推論,可能會更容易達顯著也可能會更難達顯著。(我需要上統計課)
讀者讀到這邊可能會想,為何不直接使用傳統的Repeated measure ANOVA估計即可呢?傳統rmANOVA主要無法解決的問題有二點:
第一點為無法容納遺漏值的存在,當有missing data時傳統rmANOVA僅能完全將此受試者的資料刪除(list-wise delete),此時使用GEE不會把missing data刪除,因此儘管受試者k少了某1次資料,GEE還是可以分析受試者k的其他次資料。
第二點是傳統rmANOVA假設各個測量時間點依變項(例如每個人都有3次資料)的「相關, σ」相同,這種統計術語叫做「Compound symmetry」工作相關矩陣,然而在一般套裝統計軟體叫做「Exchangeable」工作相關矩陣,也就是說研究者假設受試者的每一對(pair)時間的依變項相關係數是一樣的,這個假設在某些情形是明顯不適用的,譬如說一共收集三次資料且每一次都間隔一年之久,這時候若再假設第一年與第二年的依變項相關係數(σ12)跟第一年與第三年的依變項相關係數(σ13)相同,這是很明顯不適當的,因為隨著時間變化應該(σ12 >σ13),此時可考慮設定First-order autoregressive(AR1)工作相關矩陣會比較適當,AR1是假設若第一次與第二次的依變項相關係數為σ(譬如0.7),則此時第一次與第三次的依變項相關係數則為σ2(0.7*0.7=0.49)。這樣的工作相關矩陣(Working correlation matrix)共有數十種,研究者可適時地先將自己的資料跑各個時間點的相關矩陣圖,再根據資料型態自行指定合適的工作相關矩陣代入GEE。
GEE另一個優勢之處為強韌標準誤(Robust standard error),簡單來說就是在迴歸方程式的時候由於代入工作相關矩陣(視為自變項)來估計參數,因此會有殘差(residual),此時受試者內殘差(Within-subject residual)拿來估計標準誤,因此此時的推論效果不限於工作相關矩陣,因此儘管選擇了不適當的工作相關矩陣仍然能得到有效的統計推論。
其實以上提到的GEE應用也都以HLM(Generalized Linear Mixed Model / Multilevel Model / Multilevel Regression)或條件式羅吉斯迴歸(Conditional logistic regression, CLR)作替代,但近來研究開始在比較此三種方式(GEE, HLM, CLR)的優劣,目前以國內而言比較少見到CLR的研究,但已經有一些模擬研究指出在小樣本研究以CLR的模式表現比較理想。
GEE的計算原理非常困難,有興趣的讀者可參見GEE專書:
Hardin, J. W., & Hilbe, J. M. (2003). Generalized estimating equations. Boca Raton : Chapman & Hall/CRC.

廣義估計方程式(GEE)簡介---晨晰統計林星帆顧問整理 ...《詳全文》
版主您好:請教您一個GEE問題,謝謝。 若想縱貫探討A、B、C對D的影響,若跑完GEE後,A對D時,所得的斜率為0.22,而B對D時斜率為0.31,C對D時0.40,請問可以解釋為C對D的影響最大,其次為B,最小為A嗎?謝謝您抽空回答,感恩感恩。 MAY
你好: 比較好的方式是同時將A、B、C一起對Y作預測,然後A、B、C各會有迴歸係數與其標準誤,我們再以Contrast(請找任何一本迴歸教本)去比較A、B、C迴歸係數之間的差異即可。
版主您好:謝謝您的回答,我就是將A、B、C一起對Y做預測,所以我現在只需要用一般多元回歸的方式處理係數就可以的意思嗎?謝謝您的幫忙,真是感激不盡! MAY
你好: 沒有錯,請找迴歸分析的教科書,看一下「contrast」怎麼作,也可套用至GEE喔!
版主你好: 在我的論文中我也使用GEE進行資料分析, 有個疑問想要請教您: 我的資料為實驗室測試資料,為小樣本,重複測量的資料,自變項有1到3個不等 當以GEE進行統計分析時, 即使某X變項分類的平均值沒有很大的差距,但GEE的檢定結果卻是達顯著差異 且常常會有 p < 0.0001 狀況。 相對於以無母數檢定的統計分析結果, 無母樹檢定則檢定不出差異。 請問您是否有任何建議或是可能的解是能供我參考呢? 謝謝您~~ (貓頭鷹)
你好: 請告知樣本數、重複測量的時間點、選用的工作相關矩陣,另外請問你用何種無母數統計? 另外,如果樣本數的確很小以及時間點不多(因為N=樣本數*時間點),那麼不建議使用GEE,因為GEE本來就並非無母數統計而且也是建立在常態分佈的假設之下。
哇 很喜歡你的網站喔!!!謝謝
3Q~~
想請問關於logistic regression之問題:小弟有一筆27名個案的資料,要跑logistic regression因為個案數少;所以希望model裡面的predictors(independent factors)可以控制在小於或等於兩個文獻回顧後選了六個possible predictors我的做法是:先用個別的factor去跑,接下來是選兩個factors去跑結果只有一組兩個factors之組合是有意義的我嘗試用Backward LR去跑(一次把六個都放進去)也得到相同的結果想請問以統計得觀點來看哪一種方式是比較合理的呢?如果都不合理,請問比較適當的作法為何?Thanks~
你好: 根據Vittinghoff, Glidden, Shiboski, and McCulloch (2005) 的建議,逐步法之中以Backward比較好,因為一開始就考慮了所有變項的關係。 不過在你的狀況中,2個作法答案都一樣,且在統計上也是合理的作法。 Vittinghoff, E., Glidden, D. V., Shiboski, S. C., & McCulloch, C. E. (2005). Regression methods in biostatistics: Linear, logistic, survival, and repeated measures models. NY: Springer-Verlag.
請問小樣本(8-10人),在接受介入處理之後,前、後測的得分,該用統計方法考驗其差異顯著? 若是單一個案呢?是否也可以? 謝謝!
你好: 如果只是前後測,兩次時間點的話,建議直接用Paired T or Wilcoxon sign-ranked test。 單一個案只有前後測分數的話,應該無法作推論的統計檢定,因為沒有標準差可計算。
瞭解,非常感謝!
老師您好,我想知道一下,GEE 和GLS有什麼假設前提的不同?什麼情況下我要使用GEE, 什麼情況下可以使用GLS??
您好:什麼是GLS?請提供全名,謝謝。
老師: GLS(Generalized Lease Square)和 GEE 感覺很像...我有點分不出來到底什麼情況下要使用哪一種??因為跑出來的結果不同,麻煩老師了!
您好:Generalized Lease Square我們比較沒有聽說過,但一般而言GEE是用在重複測量(repeated measure)的資料上的。
感謝老師,很喜歡這個網站ㄛ!
3Q,多多來逛逛!
老師可以另外請問一下,使用STATA GEE時,其中FAMILY 和LINK的意思是什麼嗎??我該怎麼選擇合適的選項?
您好:FAMILY是依變項分派的型態。LINK是linking function,連續變項而言是identity, 二元變項是logit, count data是log。
此外如果我的X 是連續變數,但Y是COUNT DATA,那我該選擇哪一個?
您好:Y是COUNT DATA,因此是Poisson + Log,謝謝。
版主您好: 由於我使用GEE來控制DATA的CLUSTER EFFECT,但X分兩或三組,GEE卻無法跑統計, 出現ERROR: Invalid reference value for fa22. 這該如何修改程式或何種原因造成呢? 程式如下 proc genmod data=Y; class size fa11(ref='0') fa22(ref='0') fa33(ref='0') newx2(ref='1') newx3(ref='1') newx5(ref='3') newx6(ref='1') newx7(ref='1') newx8(ref='2');model pap=fa11 fa22 fa33 newx2 newx3 newx5 newx6 newx7 newx8/dist=binomial link=log;repeated subject=size;run; 謝謝您幫忙 謝謝感恩 AIKO
您好: 關於您的問題,要看到data才有辦法判斷,可以的話還請您提供data寄到我們信箱,謝謝。
您好, 不好意思 我有SPSS的問題想請教。 假如我只有22個年度的樣本數,有7個independent variables, 想測試這七個變數(eg. FDI, growth rate of export,growth rate of import etc.) 對GDP經濟成長率的影響。對於樣本數較小的研究,請問我可以用SPSS哪個回歸方法呢? 如果可以,還麻煩請您告訴我操作步驟,真的很謝謝您! 因為我的碩士論文遇上瓶頸,眼看截止日期就要到了,真的很無助.... 我有看到文章中提到CLR,但我不知道一般SPSS 20可否跑的出來?適不適用於我的論文研究? 由於我的統計學不是很好,也不知道是否有其他比較容易的研究方法可以跑SPSS,麻煩您解惑了。 謝謝您!
您好: 總樣本數只有22筆的話,那建議用比較簡單的simple linear regression就可以了,太過於複雜的統計模型由於樣本數太小也會跑不出結果的。
您好, 謝謝您告訴我simple linear regression適用於小樣本。 我還想請問 假如我的22個年度樣本跑相關回歸的話,是否local linear regression, correlation regression analysis也可使用呢? 這三個model哪個會比較或最適合作為我的論文研究方法(如8/16的留言所述,7個各總體經濟數據對GDP 成長率影響)? 另外還想請教,這三個研究方法是否都能在跑回歸的同時多選擇SPSS bootstrapping選項,假設為大樣本,預測未來趨勢呢?不知道對於我的研究來說是否適合。 非常感謝您!!
您好: Bootstrapping應適合各種推論統計使用;至於每一種迴歸建議皆可嘗試看看。
老師您好 學生最近看到一篇paper的統計方法內容:logistic regression models with generalized estimating equations were used (篇名為 Longutidnal trends in mammogrsphic percent density and breast cacner risk)。所以想請問老師如何用gee跑邏輯斯回歸呢? 此外邏輯斯回歸不都用在橫斷性或病例對照研究,他如何能與GEE連接再一起? 煩請老師指點,萬分感謝 迷路人
您好:如果outcome是2類別的,一般情形可以跑logistic regression,不過若是資料是叢集型態(例如重複測量或多層次)就可以改為採用GEE調整標準誤,而變成GEE type logistic regression,因此GEE只是一種估算方法,並不是算是一種迴歸方法。
此則為私密回應
您好: 我們公司有提供GEE教學 (SPSS或SAS),若有需要煩請您與我們公司客服人員聯繫(raising.statistic@gmail.com),謝謝。
想請問 資料有missing值,GEE真的不會整筆刪除嗎? 因為我跑過資料後,發現Number of Observations Used(306)與Number of Observations Read(312)的個數是不同的,不代表他將資料移除了嗎?
您好: GEE會將資料整筆刪除。
*****
*****
版主您好 有關GLMM,SPSS要如何操作?
您好:可以與我們公司客服預約諮詢服務:raising.statistic@gmail.com,謝謝。
*****
*****
想詢問若是想檢定兩組的介入成效(共進行3次測量-前測、後測、追蹤),使用gee可行嗎?或是採用混和設計的ANCOVA較好呢?
您好: 如果是多個時間點,會建議使用GEE,會比較有彈性!
版主不好意思, 您在上面的回文有提到GEE是建立在常態假設之下, 但是GEE的反應變數又可使用exponential族群,ex: gamma、binomial..等 這是意味使用GEE需要大樣本y要趨近常態嗎? 因為我看Liang的原文,還沒看到說是y建立在常態假設之下,我可能再去仔細看看。 謝謝版主
您好:GEE的一致性(consistency)及漸進常態性(Asymptotically normal)都有樣本數(cluster數量)的基本要求。
版主您好: 非常感謝您們一直以來的教學文,讓我們在學習統計和寫論文時獲益良多。 不好意思,因為我最近看到一篇文獻,對於內容有幾個疑點,不確定作者這樣分析是否妥當,想請您指點。 這是一個longitudinal study,對一群人收三次問卷資料,以GEE分析主要的兩個Y是否隨時間改變。但因為個案流失,三次收到的人數分別為117、103與76。文獻中並未提及是否針對個案進行編碼,但根據您之前的教學文,看起來必須要明確知道受試者是誰。請問如果三次收案的人數不同,還可以跑GEE嗎? 另外,文獻中有個類別變項分成兩組,一組是100人、另一組只有3人,卻在GEE的分析中得到顯著差異,作者因此針對這點提出結論。由於您的回覆曾提到"GEE本來就並非無母數統計而且也是建立在常態分佈的假設之下",假如是樣本數少、又想進行longitudinal的研究時,請問應該採用哪種分析比較妥當呢? 謝謝!!
您好:(1)原作者一定是知道受試者是誰,例如第二次的103人是第一次的117的哪些人,一定是知道的,要有「Unique ID」才行。(2)「樣本數少、又想進行longitudinal的研究」,應該還是以GEE比較容易能夠估計出結果。
老師好,您的網頁資料很受用,謝謝您! 想請教GEE 放入控制變項後發現參數估計值中截距B估計值與未放入控制變項的數值不同。請問應如何解釋放入控制變項後的截距 (例如: 前測每位樣本的平均差異,對嗎?)
您好:截距B估計值不需解釋,沒有實務意義。
老師您好, 想請問您我的樣本數共僅有8位,分配至兩組(各四位),治療前及治療後比較兩組成效差異,可否跑GEE?謝謝。
您好:有可能估計不出來結果,因為GEE的估計也需要一定的樣本數才能跑得出來,您可以試試看。
請問追蹤相同700位病人兩波資料相隔五年,假說五年前運動量高的人五年後身體功能會衰退的較慢,如果直接將兩波資料的體適能結果(依變項)相減用t檢定看有無顯著,然後跑線性迴歸、邏輯思回歸,這樣可行嗎?? 還是這樣的處理會很隨便呢qq 這種需要用HLM嗎??
您好: 除非前測到後測的衰弱程度有一個臨床切點,因此可以分出一個2元變項,跑一般的logistic regression;否則還是建議使用HLM/LMM或GEE分析。
老師好,請教GEE中,當 group*time 為顯著時,想諮詢有關simple main effect
您好:可以與我們客服聯絡:02-29602817或是raising.statistic@gmail.com
老師好,截距項beta值不距實務意義,請問它的p值達顯著也無法解釋嗎??
您好: 是的,不需要解釋它