廣義估計方程式（Generalized estimating equation, GEE）簡介~广义估计方程式（GEE）简介---晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

廣義估計方程式（Generalized estimating equation, GEE）近五年在國內生物統計領域（涵蓋醫學、護理領域）颳起一陣旋風，許多Paper及博碩士論文皆大量採用這個統計估計方法。

可能很多使用者都不知道這個知名統計估計方法其實是「台灣製造」，是由中研院院士梁賡義（Professor Liang，即將在民國99年擔任陽明大學校長）與約翰霍普金斯大學（The Johns Hopkins University）公共衛生學院生物統計系教授Scott Zeger於1986年在兩個頂尖生物統計期刊Biometrika及Biometrics陸續發表理論與應用文章，之後廣泛地被應用在重複測量的研究上。

在介紹GEE之前，一定要先認識廣義線性模式（Generalized Linear Models, 我在本文簡稱為GedLM），其實我們熟知的一般線性模式（General linear model, GLM）即為GedLM的特例，就好像Multiple linear regression（MLR）為GLM的特例。

我們都知道GLM的依變項（反應變數）是連續變數，但McCullagn and Nelder（1989）在其著作提出GedLM來擴充GLM對於反應變數的尺度限制，在GedLM透過「Probability distribution」與「Link function」來將反應變數尺度擴充至連續、類別、順序、計數（count）等資料型態，以連續依變項則可選擇「Normal distribution」與「Identity Link function」、以二元依變項則可選擇「Binomial distribution」與「Log / Logit Link function」、以計數依變項則可選擇「Poisson distribution」與「Log Link function」等等。因此可知GedLM將GLM擴充至各種反應變數尺度的應用。

然而問題來了，當今天的研究設計是「重複測量」或「鑲套, nested」時，前者譬如一個受訪者有3次以上的時間點，後者是每個醫生負責10-30位病患，此時GedLM雖然仍提供正確的係數估計（estimated coefficient）但卻會提供了錯誤的標準誤（standard error）因此會導致錯誤的統計推論，可能會更容易達顯著也可能會更難達顯著。(我需要上統計課)

讀者讀到這邊可能會想，為何不直接使用傳統的Repeated measure ANOVA估計即可呢？傳統rmANOVA主要無法解決的問題有二點：

第一點為無法容納遺漏值的存在，當有missing data時傳統rmANOVA僅能完全將此受試者的資料刪除（list-wise delete），此時使用GEE不會把missing data刪除，因此儘管受試者k少了某1次資料，GEE還是可以分析受試者k的其他次資料。

第二點是傳統rmANOVA假設各個測量時間點依變項（例如每個人都有3次資料）的「相關, σ」相同，這種統計術語叫做「Compound symmetry」工作相關矩陣，然而在一般套裝統計軟體叫做「Exchangeable」工作相關矩陣，也就是說研究者假設受試者的每一對（pair）時間的依變項相關係數是一樣的，這個假設在某些情形是明顯不適用的，譬如說一共收集三次資料且每一次都間隔一年之久，這時候若再假設第一年與第二年的依變項相關係數（σ₁₂）跟第一年與第三年的依變項相關係數（σ₁₃）相同，這是很明顯不適當的，因為隨著時間變化應該（σ₁₂>σ₁₃），此時可考慮設定First-order autoregressive（AR1）工作相關矩陣會比較適當，AR1是假設若第一次與第二次的依變項相關係數為σ（譬如0.7），則此時第一次與第三次的依變項相關係數則為σ²（0.7*0.7=0.49）。這樣的工作相關矩陣（Working correlation matrix）共有數十種，研究者可適時地先將自己的資料跑各個時間點的相關矩陣圖，再根據資料型態自行指定合適的工作相關矩陣代入GEE。

GEE另一個優勢之處為強韌標準誤（Robust standard error），簡單來說就是在迴歸方程式的時候由於代入工作相關矩陣（視為自變項）來估計參數，因此會有殘差（residual），此時受試者內殘差（Within-subject residual）拿來估計標準誤，因此此時的推論效果不限於工作相關矩陣，因此儘管選擇了不適當的工作相關矩陣仍然能得到有效的統計推論。

其實以上提到的GEE應用也都以HLM（Generalized Linear Mixed Model / Multilevel Model / Multilevel Regression）或條件式羅吉斯迴歸（Conditional logistic regression, CLR）作替代，但近來研究開始在比較此三種方式（GEE, HLM, CLR）的優劣，目前以國內而言比較少見到CLR的研究，但已經有一些模擬研究指出在小樣本研究以CLR的模式表現比較理想。