在非隨機分派的觀察型研究中(Non-randomized observational study),如果欲比較介入或處置的效果(Treatment),在研究上的最大威脅就是選擇性偏差(Selection bias)的問題。對此,傾向分數配對(Propensity score matching)已被證實是最有效的工具,並且已經廣為使用。

本篇文章並未嘗試介紹傾向分數的原理與使用方式,而是在介紹目前較受歡迎的幾個統計軟體之間的比較。若對於傾向分數想要深入認識者,可參考以下兩篇論文。其中Rosenbaum1983)年的論文是經典文獻,在Google scholar上的引用次數已經超過14,000次;而d’Agostino1998)則是一步一步教學且實務理論兼顧的教學文章。

Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika. 1983;70(1):41-55.

dAgostino RB. Tutorial in biostatistics: propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group. Stat Med. 1998;17(19):2265-2281.

 

<綜述>

下圖列出目前筆者較常使用的三個軟體的比較。此外,還有一個功能很強的『STATA』統計軟體,但筆者較少使用,因此並不納入本次比較的對象。關於R軟體,筆者並非直接執行R軟體,而是使用『SPSS Statistics - Essentials for R』,利用SPSS易操作的人性化介面去執行R軟體的強大功能。

以下筆者將傾向分數區分成不同面向的功能,分別評析這幾個軟體的使用狀況,大致上可區分為配對演算法(Matching algorithm)、傾向分數的演算法(Estimation algorithm)、是否具備精確配對的功能(Exact match)、配對誤差容忍值的設定(Caliper)、報表詳細程度(Output)以及資料讀取量限制與執行速度。

 

111.jpg

 

<配對演算法(Matching algorithm)>

首先是配對演算法,一般最常用的是“Greedy”最近相鄰配對法(Greedy’sNearest Neighbor Matching)的配對方式,當然這三個軟體都有此功能。而Optimal(最佳化)配對則追求最完美的配對結果,會大量損失樣本數;相較之下,Full(完整)配對則是追求保留最多的樣本數,因此配對誤差會很大,一般OptimalFull幾乎沒人在使用。

但筆者必須說明,SAS的配對功能並不是SAS本身的procedure,而是由Parsons2001)於SAS研討會論壇(SUGI)所發表的巨集(Macro),使用的方式其實叫作『GREEDY 51 DIGIT』配對法,亦即研究者可自行根據對於配對誤差的容忍度,自行決定要接受到小數點第幾位的配對,其中小數點第5位就是配對最精準的結果(treateduntreatedevent機率只差萬分之一),小數點第1位就是配對誤差最大的結果(treateduntreatedevent機率差到10%之多)。

因此若是使用Parsons2001)的Macro,算是使用修正版本的Greedy最近相鄰配對法,讀者必須要認知到這一點。

Parsons L. Reducing bias in a propensity score matched-pair sample using greedy matching techniques [paper 214]. Paper presented at: SUGI 26 Proceedings2001.

 

<傾向分數的演算法(Estimation algorithm)>

傾向分數最普遍的定義就是『根據該個案的各個變項的排列組合,此人成為treated組的機率』,譬如年齡45歲、女性且沒有糖尿病者的成為treated組的機率是多少。大多數軟體預設都是以logistic regression來計算傾向分數(即機率),不過R軟體提供一個較新的估計方法,稱之為廣義相加模式(Generalized additive model, GAM),不過根據筆者觀察,GAM方法目前在空氣污染相關領域較為流行,在公共衛生或醫學領域目前尚未普及。

這邊補充說明一下,在NCSSSAS macro操作時,研究者要先把傾向分數(logistic regression的機率)自行計算好。反之,在R操作的時候不需先將傾向分數計算好,而是在執行過程中軟體會自動計算得出。

 

1.jpg

(下篇續)

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()