傾向分數配對（Propensity score matching）軟體大PK（下） ~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

<精確配對（Exact match）>

精確配對指的是指定治療組（treated）與對照組（untreated）的某個變項的分配（或比例）要一模一樣，通常都是類別變項（Categorical variable），最常見的就是性別，亦即指定男性必須配男性，女性就配女性。R與NCSS的傾向分數配對的操作介面皆有提供精確配對的選項，但是SAS卻沒有，而是要透過自己修改Macro（巨集）加以指定對某些變項精確配對。

<配對誤差容忍值的設定（Caliper tolerance）>

Caliper tolerance指的是對於配對誤差的容忍值，通常指的就是被配對的兩個人（一個治療組，另一個對照組）的傾向分數（羅吉斯迴歸的預測機率）可以接受到多少的差距。最常見的標準是0.2倍或0.5倍的傾向分數的標準差（以整體樣本作計算），亦即如果一個治療組病人與另一個對照組病人的傾向分數如果差距到超過0.5倍的標準差，如此這兩個人就不允許被配對。

R跟NCSS除了可以指定某個倍數的標準差之外，也可直接指派一個絕對值，例如兩個人的差距不可超過0.10（預測機率＝10％）。反觀SAS由於是採用『GREEDY 5→1 DIGIT』配對法（請見前一篇說明），因此比較類似於指派絕對值的作法，而無法設定某個倍數的標準差。

<報表（Output）>

R跟NCSS都會提供許多基本資料的分佈，包括兩組在配對前與配對後的描述統計，包括兩組的平均數、兩組的標準差、兩組平均數的差距以及平均數差距的百分比（以untreated組的標準差為分母）等豐富的資訊，反之SAS macro則是完全沒有提供報表。

此外R還提供了很多圖像化的圖型，很容易讓讀者可以判斷整體配對的狀況是否良好，以及很快可以看出某幾個變項（計算傾向分數的covariate）是否不適合放入配對，例如配對前的兩組差距過大的那些變項（預設會列出差距百分比超過25％的變項，以作為警告）。另外R還提供了檢定統計量（Test statistics），不過根據筆者經驗，醫學領域很少使用這一類的檢定統計量，因此僅供參考。

<資料讀取量與執行速度>

筆者最早是使用NCSS做傾向分數配對，最困擾的事就是它只能允許1萬多筆的資料量，因此後來才開始改用SAS，後來又發現R提供了許多漂亮的圖像化圖型，因此目前是三個軟體交替使用，若資料量很小就不會使用SAS而是使用NCSS跟R（為了漂亮的圖型），若資料量很大就使用SAS以及R（仍然是為了漂亮的圖型）。

最後一個需考量的因素就是執行速度，一般來說如果資料只有數萬筆，執行速度都很快，但如果資料上百萬筆，那麼不同軟體之間的執行時間會差距很大。整體來說SAS的速度最快，R跟NCSS明顯慢上一截，而R又比NCSS快一點。