傾向分數配對（Propensity score matching）軟體大PK（上） ~~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在非隨機分派的觀察型研究中（Non-randomized observational study），如果欲比較介入或處置的效果（Treatment），在研究上的最大威脅就是選擇性偏差（Selection bias）的問題。對此，傾向分數配對（Propensity score matching）已被證實是最有效的工具，並且已經廣為使用。

本篇文章並未嘗試介紹傾向分數的原理與使用方式，而是在介紹目前較受歡迎的幾個統計軟體之間的比較。若對於傾向分數想要深入認識者，可參考以下兩篇論文。其中Rosenbaum（1983）年的論文是經典文獻，在Google scholar上的引用次數已經超過14,000次；而d’Agostino（1998）則是一步一步教學且實務理論兼顧的教學文章。

Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika. 1983;70(1):41-55.

d’Agostino RB. Tutorial in biostatistics: propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group. Stat Med. 1998;17(19):2265-2281.

<綜述>

下圖列出目前筆者較常使用的三個軟體的比較。此外，還有一個功能很強的『STATA』統計軟體，但筆者較少使用，因此並不納入本次比較的對象。關於R軟體，筆者並非直接執行R軟體，而是使用『SPSS Statistics - Essentials for R』，利用SPSS易操作的人性化介面去執行R軟體的強大功能。

以下筆者將傾向分數區分成不同面向的功能，分別評析這幾個軟體的使用狀況，大致上可區分為配對演算法（Matching algorithm）、傾向分數的演算法（Estimation algorithm）、是否具備精確配對的功能（Exact match）、配對誤差容忍值的設定（Caliper）、報表詳細程度（Output）以及資料讀取量限制與執行速度。

<配對演算法（Matching algorithm）>

首先是配對演算法，一般最常用的是“Greedy”最近相鄰配對法（Greedy’sNearest Neighbor Matching）的配對方式，當然這三個軟體都有此功能。而Optimal（最佳化）配對則追求最完美的配對結果，會大量損失樣本數；相較之下，Full（完整）配對則是追求保留最多的樣本數，因此配對誤差會很大，一般Optimal跟Full幾乎沒人在使用。

但筆者必須說明，SAS的配對功能並不是SAS本身的procedure，而是由Parsons（2001）於SAS研討會論壇（SUGI）所發表的巨集（Macro），使用的方式其實叫作『GREEDY 5→1 DIGIT』配對法，亦即研究者可自行根據對於配對誤差的容忍度，自行決定要接受到小數點第幾位的配對，其中小數點第5位就是配對最精準的結果（treated與untreated的event機率只差萬分之一），小數點第1位就是配對誤差最大的結果（treated與untreated的event機率差到10%之多）。

因此若是使用Parsons（2001）的Macro，算是使用修正版本的Greedy最近相鄰配對法，讀者必須要認知到這一點。

Parsons L. Reducing bias in a propensity score matched-pair sample using greedy matching techniques [paper 214]. Paper presented at: SUGI 26 Proceedings2001.

<傾向分數的演算法（Estimation algorithm）>

傾向分數最普遍的定義就是『根據該個案的各個變項的排列組合，此人成為treated組的機率』，譬如年齡45歲、女性且沒有糖尿病者的成為treated組的機率是多少。大多數軟體預設都是以logistic regression來計算傾向分數（即機率），不過R軟體提供一個較新的估計方法，稱之為廣義相加模式（Generalized additive model, GAM），不過根據筆者觀察，GAM方法目前在空氣污染相關領域較為流行，在公共衛生或醫學領域目前尚未普及。

這邊補充說明一下，在NCSS跟SAS macro操作時，研究者要先把傾向分數（logistic regression的機率）自行計算好。反之，在R操作的時候不需先將傾向分數計算好，而是在執行過程中軟體會自動計算得出。