完成對處置變項的羅吉斯迴歸之後,根據每個個案的基本特性(年齡、性別與共病狀況)會得到預測機率,即此人成為治療組的機率。在接著往下進行傾向分數的分析之前,要先評估治療組與控制組在傾向分數的分布情形。可以使用兩種方法來判斷,第一種是畫圖,第二種是看C-statistics(即C-indexAUROC)。C-statistics代表的是預測變項對處置變項(1=treated, 0=untreated)整體的區別力,0.5為完全無法區別,1代表完美區別。

下圖列出傾向分數可以非常有效區分治療組與控制組的結果,兩組在傾向分數的分布截然不同,而且重疊區域很少(中間灰色底的common support),這種狀況是很難進行後續的傾向分數分析的,不管進行任何一種傾向分數分析,都無法有效降低混淆因子的效果。當出現這種情形時,檢查是否有對處置變項的強烈預測變項,例如「有洗腎的病人一定不會開Metformin」或是存在工具變數。

 

1.jpg

資料來源:Kim等人(2016)的圖2A

 

下圖列出傾向分數適度地(modestly)區分治療組與控制組的結果,灰色重疊區域的兩組人數都很多,這表示兩組大多數的個案都有一定的機率會成為治療組或控制組,或是表示有些重要的混淆因子沒有被考慮到。以傾向分數的後續分析而言,這種狀況比較容易進行分析。

 

2.jpg

資料來源:Kim等人(2016)的圖2B

 

 

111.jpg  

 

                不過大家要記得,傾向分數分析的目的是降低混淆效果,而不是得到一個完美區別的預測模型(對處置變項),所以當我們得到高C-statistics的模型時,要檢查是否納入了非常強而有力的預測變項;而低C-statistics模型則可能是反映了臨床不確定性(clinical uncertainty)或是忽略了重要的混淆因子。因此整體而言,C-statistics不能當成唯一評估傾向分數模型的指標,特別是在概念上(或臨床實務上)是否納入了重要的混淆因子或不應該納入的完美區別變項,這是需要仰賴臨床經驗與背景知識來判斷的。

 

傾向分數主要有四種應用方式,分別為配對(matching)、加權(weighting)、分層(stratification)以及統計控制(covariate adjustment in regression model)。

(一)傾向分數配對

傾向分數配對(propensity score matching, PSM),這是目前被廣為使用的標準方法。經由將傾向分數相近的治療組與控制組給配對起來,營造類似隨機試驗的環境(不包括未測量到的混淆因子)。PSM有幾點優勢,第一、相較於分層分析與統計控制,PSM更能有效地讓兩組的共變項更為均勻(remove covariate imbalance)。第二,很直覺式地提供像隨機試驗那樣的報告方式,即很透明化地呈現兩組的基本特性在表格當中。

然而PSM也有其劣勢,由於PSM可能會剔除相當人數的治療組與許多控制組(一般來說控制組人數比治療組多),這會導致兩個嚴重效果。第一、由於損失了許多人數的控制組,無法將結果推論到整個群體(limited generalizability)。第二,由於人數下降,因此統計檢定力(power)會下降,亦即可能會得到比較不顯著的結果。

儘管PSM有這些缺點,但仍然是目前四種傾向分數分析的最常被應用的方法。此外使用PSM,有一些技術細節要考慮,包括配對演算法(optimal greedy nearest neighbor matchingcaliper width的設定(界定可容忍的傾向分數之間的合理距離)、是否容許配對後的置換(matching with or without replacement)以及將資料排列順序予以隨機化等細節。

另外由於經由PSM之後,在同一個配對群組(match pair)的治療組個案與控制組個案已不再獨立,因此在作統計分析時要改用配對統計方法,例如獨立t檢定要改配對t檢定,羅吉斯迴歸要改用條件式羅吉斯迴歸(Conditional logistic regression)或是廣義估計方程式(Generalized estimating equation, GEE),這些議題多少也會增加正確使用PSM的難度。

(二)加權

治療權重倒數機率(inverse probability of treatment weighting, IPTW)是近幾年來使用率越來越高的方法。這種方法類似於社會研究的調查(survey)的加權原理,賦予某些個案比較高(>1)或比較低(<1)的權重,藉此「虛擬還原」母群體的分配比例。藉由加權每個個案之後,會得到兩個加權後的組別資料,且這兩組在基本特性(共變量)的分布會是類似的。

IPTW的優勢是分析全部的個案資料,因此結果的外推性比較高。而且這個方法還可以延伸到處理設限資料(censoring)與時間相依混淆因子(time-dependent confounding)的處理。劣勢是會收到極端權重的影響,不過這一點很容易克服,可以使用Stabilized weight即可中和極端權重對結果的影響(Hernan et al., 2010)。綜合以上結果,筆者認為未來IPTW的使用狀況很有可能會追上PSM

(三)分層

這個方法是傾向分數的始祖所提出的作法(Rosenbaum and Rubin, 1983),即將傾向分數由低至高等分為5組(或10組),然後在一個分層之下比較治療效果,最後再用統計方法整合各分層的結果(pooled estimate)。這個方法已被很多方法學文獻證實處理混淆因子的效果不佳,因此筆者不建議使用。

(四)統計控制

這個方法是預測變項一共只有兩個,第一個是治療變項,第二個是代表所有變項的傾向分數。此方法假設傾向分數與結果變項的關係是被成功識別的(correctly specified),但這往往無法被證實。而且這個方法也未能像以上三種方法提供透明化的資訊,因此也不建議採用此種分析策略。

 

參考文獻

Hernan MA, Brumback B, Robins JM. Marginal structural models to estimate the causal effect of zidovudine on the survival of HIV-positive men. Epidemiology 2000;11:561–570.

Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983;70:41–55.

Kim DH, Pieper CF, Ahmed A et al. Use and interpretation of propensity scores in aging research: A guide for clinical researchers. Journal of the American Geriatrics Society 2016;64:2065–2073.

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()