傾向分數分析介紹（第2篇，共2篇）－晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

完成對處置變項的羅吉斯迴歸之後，根據每個個案的基本特性（年齡、性別與共病狀況）會得到預測機率，即此人成為治療組的機率。在接著往下進行傾向分數的分析之前，要先評估治療組與控制組在傾向分數的分布情形。可以使用兩種方法來判斷，第一種是畫圖，第二種是看C-statistics（即C-index或AUROC）。C-statistics代表的是預測變項對處置變項（1=treated, 0=untreated）整體的區別力，0.5為完全無法區別，1代表完美區別。

下圖列出傾向分數可以非常有效區分治療組與控制組的結果，兩組在傾向分數的分布截然不同，而且重疊區域很少（中間灰色底的common support），這種狀況是很難進行後續的傾向分數分析的，不管進行任何一種傾向分數分析，都無法有效降低混淆因子的效果。當出現這種情形時，檢查是否有對處置變項的強烈預測變項，例如「有洗腎的病人一定不會開Metformin」或是存在工具變數。

資料來源：Kim等人（2016）的圖2A

下圖列出傾向分數適度地（modestly）區分治療組與控制組的結果，灰色重疊區域的兩組人數都很多，這表示兩組大多數的個案都有一定的機率會成為治療組或控制組，或是表示有些重要的混淆因子沒有被考慮到。以傾向分數的後續分析而言，這種狀況比較容易進行分析。

資料來源：Kim等人（2016）的圖2B

不過大家要記得，傾向分數分析的目的是降低混淆效果，而不是得到一個完美區別的預測模型（對處置變項），所以當我們得到高C-statistics的模型時，要檢查是否納入了非常強而有力的預測變項；而低C-statistics模型則可能是反映了臨床不確定性（clinical uncertainty）或是忽略了重要的混淆因子。因此整體而言，C-statistics不能當成唯一評估傾向分數模型的指標，特別是在概念上（或臨床實務上）是否納入了重要的混淆因子或不應該納入的完美區別變項，這是需要仰賴臨床經驗與背景知識來判斷的。

傾向分數主要有四種應用方式，分別為配對（matching）、加權（weighting）、分層（stratification）以及統計控制（covariate adjustment in regression model）。

（一）傾向分數配對

傾向分數配對（propensity score matching, PSM），這是目前被廣為使用的標準方法。經由將傾向分數相近的治療組與控制組給配對起來，營造類似隨機試驗的環境（不包括未測量到的混淆因子）。PSM有幾點優勢，第一、相較於分層分析與統計控制，PSM更能有效地讓兩組的共變項更為均勻（remove covariate imbalance）。第二，很直覺式地提供像隨機試驗那樣的報告方式，即很透明化地呈現兩組的基本特性在表格當中。

然而PSM也有其劣勢，由於PSM可能會剔除相當人數的治療組與許多控制組（一般來說控制組人數比治療組多），這會導致兩個嚴重效果。第一、由於損失了許多人數的控制組，無法將結果推論到整個群體（limited generalizability）。第二，由於人數下降，因此統計檢定力（power）會下降，亦即可能會得到比較不顯著的結果。

儘管PSM有這些缺點，但仍然是目前四種傾向分數分析的最常被應用的方法。此外使用PSM，有一些技術細節要考慮，包括配對演算法（optimal或 greedy nearest neighbor matching、caliper width的設定（界定可容忍的傾向分數之間的合理距離）、是否容許配對後的置換（matching with or without replacement）以及將資料排列順序予以隨機化等細節。

另外由於經由PSM之後，在同一個配對群組（match pair）的治療組個案與控制組個案已不再獨立，因此在作統計分析時要改用配對統計方法，例如獨立t檢定要改配對t檢定，羅吉斯迴歸要改用條件式羅吉斯迴歸（Conditional logistic regression）或是廣義估計方程式（Generalized estimating equation, GEE），這些議題多少也會增加正確使用PSM的難度。

（二）加權

治療權重倒數機率（inverse probability of treatment weighting, IPTW）是近幾年來使用率越來越高的方法。這種方法類似於社會研究的調查（survey）的加權原理，賦予某些個案比較高（>1）或比較低（<1）的權重，藉此「虛擬還原」母群體的分配比例。藉由加權每個個案之後，會得到兩個加權後的組別資料，且這兩組在基本特性（共變量）的分布會是類似的。

IPTW的優勢是分析全部的個案資料，因此結果的外推性比較高。而且這個方法還可以延伸到處理設限資料（censoring）與時間相依混淆因子（time-dependent confounding）的處理。劣勢是會收到極端權重的影響，不過這一點很容易克服，可以使用Stabilized weight即可中和極端權重對結果的影響（Hernan et al., 2010）。綜合以上結果，筆者認為未來IPTW的使用狀況很有可能會追上PSM。

（三）分層

這個方法是傾向分數的始祖所提出的作法（Rosenbaum and Rubin, 1983），即將傾向分數由低至高等分為5組（或10組），然後在一個分層之下比較治療效果，最後再用統計方法整合各分層的結果（pooled estimate）。這個方法已被很多方法學文獻證實處理混淆因子的效果不佳，因此筆者不建議使用。

（四）統計控制

這個方法是預測變項一共只有兩個，第一個是治療變項，第二個是代表所有變項的傾向分數。此方法假設傾向分數與結果變項的關係是被成功識別的（correctly specified），但這往往無法被證實。而且這個方法也未能像以上三種方法提供透明化的資訊，因此也不建議採用此種分析策略。

參考文獻

Hernan MA, Brumback B, Robins JM. Marginal structural models to estimate the causal effect of zidovudine on the survival of HIV-positive men. Epidemiology 2000;11:561–570.

Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983;70:41–55.

Kim DH, Pieper CF, Ahmed A et al. Use and interpretation of propensity scores in aging research: A guide for clinical researchers. Journal of the American Geriatrics Society 2016;64:2065–2073.