接著開始討論方程式多出的「CORR」此項目,稱之為工作相關矩陣(Working correlation matrix),這是GEE兩大特色之一,而這個工作相關矩陣就是GEE如何「看待」重複測量的精神所在,簡單地來說,工作相關矩陣允許同一受測者的不同時間點之間的依變項是具有相關的(正相關),例如前測分數越高者其後測分數通常也會高(反之亦然)。不僅如此,GEE的工作相關矩陣還可以選擇不同的相關類型,我們就先簡介幾種最常見的,包括獨立(independent)、未結構化(unstructured)、可交換(Exchangeable)以及AR1Auto-regressive first order),如以下:

 

A1

 

 

A2  

 

7列出幾種最常見的工作相關矩陣類型,我們假設每個樣本都有五個時間點的資料(假設前測1次,然後連續收集4次後測)。接著,我們依序討論各種矩陣的意涵:

l   獨立矩陣(Independent

我們可以看到非對角線(off-diagonal)的相關係數全部都被規定是0,這表示同一個受試者在不同時間點的依變項得分是完全沒有關係的,很明顯的如果是重複測量(縱貫型)的研究,獨立矩陣是絕對不合理的。其實,除非樣本數非常的小,否則獨立矩陣皆不適於在任何情況之下採用(然而,如果是使用SPSS所發表的論文,常常看到用獨立矩陣,這是因為SPSS的預設是獨立矩陣,請各位讀者一定要注意)

 

l   AR(1) 矩陣(Auto-regressive first order

我們可以看到t1t2的相關是「ρ」,這個相關係數會自動由實際的觀察資料中計算出來(透過GEE的平均數與共變異數矩陣所計算的),不過可發現t1t3的相關是「ρ2」,也就是說,如果ρ等於0.70,那麼ρ2就等於0.49。如果我們的t1指的是前測,t2是介入後1個月,t3是介入後2個月,此時使用AR(1)是非常合理的選擇,因為如果前測跟剛介入完1個月的相關是0.7,那麼可以預期前測與介入後2個月的相關應該會比較低,因為t1t2只距離了一個月,而t1t3卻距離了兩個月,AR(1)矩陣假設距離越久的時間點之間的相關越低,而且此相關係數會等於ρkk為距離幾個時間點)。

通常AR(1)適用於重複測量的間隔(interval)是相同長度的研究,例如不同時間點之間的時間間隔是相同的,例如t1t2離一個月,t2t3也是離一個月,以此類推。反之,如果t3是介入後6個月,那麼此時選擇AR(1)或許就不是這麼適合,t1t2的相關是ρ(例如0.70),雖然t1t3的相關是ρ20.49)非常合理,但是此時t2t3由於只距離一個時間點因此相關係數也是ρ0.70)就變得不合理了,因為t2t3之間距離了五個月之久。

 

l   可交換矩陣(Exchangeable

可交換矩陣比較容易理解,因為大家可以觀察到五個時間點(一共10個相關係數)全部都被設定一樣(全部都是ρ),也就是說我們假設不同時間點之間的相關係數是相同的。通常在縱貫型分析,這也是極為常用的矩陣之一,特別是重複測量的間隔不是相同長度時。然而在非縱貫型研究的資料中,一般我們稱之為集群資料(Clustered data),例如同一個學校之內的學生(的依變項)比較容易有相關、同一個主治醫師有偏好的治療方針也導致底下病人的預後比較容易有相關(另外一種實際狀況,病情比較嚴重的病人會被送到「名醫」那邊,所以該名醫底下病人的預後狀況有相關),此時可交換是最適合的工作相關矩陣。

值得注意的是,在多因子變異數分析中(例如重複測量變異數分析、混合設計變異數分析),所使用的就是可交換矩陣,不過在ANOVA中稱之為複合對稱(Compound symmetry)。

 

l   未結構化(Unstructured

未結構化工作相關矩陣不假設各時間點之間的相關係數為多少,而是以實際觀察資料作估計,因此十個相關係數可能都不一樣,聽起來好像最「準確」,不是嗎?

確實如此,但是必須瞭解到一個事實,在GEE的方程式中,除了迴歸係數需要估計之外(β0, β1, β2, β3),工作相關矩陣也需要被「估計」,如果我們採用獨立矩陣,那麼不需要再額外估計(因為是0),若是可交換或AR(1)都只需要額外估計一個相關係數(就是ρ),但是在未結構化矩陣中,竟有「10個」相關矩陣需要被估計,也就是說,雖然從方程式中看起來只有4個參數,但是其實是14個參數(加上10個需要估計的相關係數),這在統計術語來說是很沒有效率(Efficient)的模型。

因此除非我們樣本數非常的大(例如上千、上萬),否則一般我們是不考慮用未結構化的矩陣的。還有一種狀況,即使樣本數非常大,但時間點如果很多個,那麼也不會考慮使用未結構化,例如10個時間點就有45個相關係數要被估計(C102),等於方程式中竟然有45個參數需要被估計,這會使得整個模型其他變項很可能都不顯著。

 

目前為止,我們已經可以理解到GEE是如何「看待及處理」同一個個案的重複測量資料,就是透過工作相關矩陣正視「不同時間點之間的依變項有正相關」這個事實,並將此工作相關矩陣加到方程式之中加以估計。接著,我們要介紹角度完全不同的另一個主流方法,稱之為混合效果模式(LMM)或隨機效果模式(Random effect model)。

如果對於GEE計算過程有興趣,但卻又不嫻熟於代數或矩陣的讀者,可以參考Hanley et al.2003)的文章,裡頭非常詳盡地介紹了GEE的計算過程與其代表的意義,而且可以透過手算完成(放心,只需要用到加減乘除跟一點點的矩陣),非常值得各位花時間閱讀。

 

 

參考文獻

Hanley, J. A., Negassa, A., & Forrester, J. E. (2003). Statistical analysis of correlated data using generalized estimating equations: An orientation. American journal of epidemiology, 157(4), 364-375.

Laird, N. M., & Ware, J. H. (1982). Random-effects models for longitudinal data. Biometrics, 38(4), 963-974.

Liang, K.-Y., & Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73(1), 13-22. 

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()