廣義估計方程式(Generalized estimating equation, GEE)近五年在國內生物統計領域(涵蓋醫學、護理領域)颳起一陣旋風,許多Paper及博碩士論文皆大量採用這個統計估計方法。
可能很多使用者都不知道這個知名統計估計方法其實是「台灣製造」,是由中研院院士梁賡義(Professor Liang,即將在民國99年擔任陽明大學校長)與約翰霍普金斯大學(The Johns Hopkins University)公共衛生學院生物統 計系 教授Scott Zeger於1986年在兩個頂尖生物統計期刊Biometrika及Biometrics陸續發表理論與應用文章,之後廣泛地被應用在重複測量的研究上。
在介紹GEE之前,一定要先認識廣義線性模式(Generalized Linear Models, 我在本文簡稱為GedLM),其實我們熟知的一般線性模式(General linear model, GLM)即為GedLM的特例,就好像Multiple linear regression(MLR)為GLM的特例。
我們都知道GLM的依變項(反應變數)是連續變數,但McCullagn and Nelder(1989)在其著作提出GedLM來擴充GLM對於反應變數的尺度限制,在GedLM透過「Probability distribution」與「Link function」來將反應變數尺度擴充至連續、類別、順序、計數(count)等資料型態,以連續依變項則可選擇「Normal distribution」與「Identity Link function」、以二元依變項則可選擇「Binomial distribution」與「Log / Logit Link function」、以計數依變項則可選擇「Poisson distribution」與「Log Link function」等等。因此可知GedLM將GLM擴充至各種反應變數尺度的應用。
然而問題來了,當今天的研究設計是「重複測量」或「鑲套, nested」時,前者譬如一個受訪者有3次以上的時間點,後者是每個醫生負責10-30位病患,此時GedLM雖然仍提供正確的係數估計(estimated coefficient)但卻會提供了錯誤的標準誤(standard error)因此會導致錯誤的統計推論,可能會更容易達顯著也可能會更難達顯著。(我需要上統計課)
讀者讀到這邊可能會想,為何不直接使用傳統的Repeated measure ANOVA估計即可呢?傳統rmANOVA主要無法解決的問題有二點:
第一點為無法容納遺漏值的存在,當有missing data時傳統rmANOVA僅能完全將此受試者的資料刪除(list-wise delete),此時使用GEE不會把missing data刪除,因此儘管受試者k少了某1次資料,GEE還是可以分析受試者k的其他次資料。
第二點是傳統rmANOVA假設各個測量時間點依變項(例如每個人都有3次資料)的「相關, σ」相同,這種統計術語叫做「Compound symmetry」工作相關矩陣,然而在一般套裝統計軟體叫做「Exchangeable」工作相關矩陣,也就是說研究者假設受試者的每一對(pair)時間的依變項相關係數是一樣的,這個假設在某些情形是明顯不適用的,譬如說一共收集三次資料且每一次都間隔一年之久,這時候若再假設第一年與第二年的依變項相關係數(σ12)跟第一年與第三年的依變項相關係數(σ13)相同,這是很明顯不適當的,因為隨著時間變化應該(σ12 >σ13),此時可考慮設定First-order autoregressive(AR1)工作相關矩陣會比較適當,AR1是假設若第一次與第二次的依變項相關係數為σ(譬如0.7),則此時第一次與第三次的依變項相關係數則為σ2(0.7*0.7=0.49)。這樣的工作相關矩陣(Working correlation matrix)共有數十種,研究者可適時地先將自己的資料跑各個時間點的相關矩陣圖,再根據資料型態自行指定合適的工作相關矩陣代入GEE。
GEE另一個優勢之處為強韌標準誤(Robust standard error),簡單來說就是在迴歸方程式的時候由於代入工作相關矩陣(視為自變項)來估計參數,因此會有殘差(residual),此時受試者內殘差(Within-subject residual)拿來估計標準誤,因此此時的推論效果不限於工作相關矩陣,因此儘管選擇了不適當的工作相關矩陣仍然能得到有效的統計推論。
其實以上提到的GEE應用也都以HLM(Generalized Linear Mixed Model / Multilevel Model / Multilevel Regression)或條件式羅吉斯迴歸(Conditional logistic regression, CLR)作替代,但近來研究開始在比較此三種方式(GEE, HLM, CLR)的優劣,目前以國內而言比較少見到CLR的研究,但已經有一些模擬研究指出在小樣本研究以CLR的模式表現比較理想。
GEE的計算原理非常困難,有興趣的讀者可參見GEE專書:
Hardin, J. W., & Hilbe, J. M. (2003). Generalized estimating equations. Boca Raton : Chapman & Hall/CRC.
留言列表