延續上一章節,本篇將持續透過官方範例檔與示範程式(如下圖所示),簡介程序實際操作之後產出的報表,以及報表中各項目的涵義。  

  執行完上段程序後,首先產出的報表會描述進行傾向分數配對的變數細節(如下圖所示)。

 

 

1.jpg

 

  Data Set為配對前輸入的資料集。

  Output Data Set為配對後輸出配對樣本的資料集。

  Treatment Variable為組別變項,也就是作傾向分數時,邏輯斯迴歸使用的依變項。Treatment Group為治療組的判斷標記。

  All Obs (Treatment)跟All Obs (Control)分別列出輸入的資料集中,治療組跟對照組各自的人數。

  Support Region這邊顯示Extended Treatment Group,是因為程式中下了region=treated的指令,限定兩組可以進行互相配對的範圍,預設是在Extended指令之下,限定傾向分數邏輯值標準差的0.25倍以內才能進行配對。範例程序中,省略了Extended指令,直接採用預設值。

  PSMATCH這項程序,會在程式撰寫設定之下,計算出「Support Region」,也就是可以進行配對的範圍,因此報表中的「Lower PS Support」跟「Upper PS Support」就是Support Region範圍內的樣本,傾向分數的下限值跟上限值。而「Support Region Obs (Treatment)」跟「Support Region Obs (Control)」則分別列出符合Support Region範圍被選入配對程序的治療組跟對照組人數。由此張報表可發現,對照組最初有140人,最後真正進入配對程序的只有132人。有8個對照組因為傾向分數邏輯值標準差超過0.25倍而未被選入Support Region,在真正開始配對之前就先被淘汰了。

 

2.jpg

 

  上表為範例程式產出的傾向分數描述型統計表。

  All是指輸入的資料集,配對前的所有觀察值,兩組傾向分數的平均值、標準差、最小值跟最大值。

  Region是指符合傾向分數邏輯值標準差0.25倍以內的範圍資料筆數(Support Region),可以發現對照組傾向分數的平均值比All較趨近治療組。

  Matched是指最後完成配對的樣本,由上表可以看出兩組人數皆為60人,因為範例程式是進行1:1的配對。

  上圖的傾向分數報表只能看出傾向分數的描述性統計數據,沒有做差異檢定,因此並不能從這張報表直接看出兩組的傾向分數是否有統計上的差異。

 

3.jpg

 

  上表為配對採用的配對方式,以及一些配對相關的資訊。

  Difference Statistic顯示Logit of Propensity Score是因為範例程式中下了assess lps指令,指定用傾向分數的邏輯值(logit of propensity score)計算兩組差距。

  Method標示配對的方式,此範例中為貪婪配對(Greedy matching)。

  Control/Treated Ratio標示兩組配對的比例。

  Order是指治療組在尋找適合配對的對照組時,是用什麼順序。程序支援三種配對順序「ASCENDING」、「DESCENDING」跟「RANDOM(SEED= number)」。程式預設是DESCENDING。

  Caliper (Logit PS)可以看出配對後樣本傾向分數邏輯值的卡鉗(caliper)值,此範例超過一般認知的0.2是因為示範程式中設定caliper=0.5。

  「Matched Sets」、「Matched Obs (Treated)」跟「Matched Obs (Control)」分別列出配對的組數,以及配對後治療組跟對照組的觀察值筆數。

  Total Absolute Difference列出配對後樣本傾向分數邏輯值的絕對離差。

 

 

4.jpg

 

  上表為最後一張報表,也是看配對後兩組差異最重要的報表,最上方橫列部分揭露此報表的差異比較皆是試驗組減對照組。上表分為三個部分,左邊呈現兩組在配對前與配對後,配對變項及傾向分數邏輯值(LPS)的平均值差異(Mean difference)。中間部分提供兩組的標準化平均差異(Standardized mean difference, SMD)跟縮減百分比(Percent reduction),投稿文章通常會寫出標準化平均差異供讀者判斷配對後兩組的差異。標準化平均差異比起平均值或是卡方差異檢定的P值相對穩定,可以避免因為樣本數大,導致檢定P值容易顯著,造成假性顯著差異的問題,通常SMD 的絕對值小於 0.1表示兩組沒有顯著差異。變異數比值(Variance ratio)為試驗組跟對照組變異數的比值,可以從此項目上看出配對後兩組在配對項目的離散程度,Rubin建議0.5到2之間為佳,性別因為做精確配對,兩組在配對後完全一致,因此性別的變異數比值為1。

  從上表可以發現,所有觀察值(All Obs)跟符合傾向分數邏輯值標準差0.25倍以內的觀察值(Region Obs),在SMD的表現皆超過0.1 (性別除外)。但在配對後的樣本(Matched Obs)中皆降至0.1以內,性別由於設定為精確配對,因此配對後兩組完全無差異,SMD=0。

 

5.jpg

 

  上圖是將各變項在配對前與配對後的SMD圖示化,以利讀者能快速判斷配對品質,灰色虛線標示為預設標示正負0.25。目前筆者還沒找到能變更預設值的方式。

 

6.jpg

 

  配對變項中的連續型變項會輸出像上圖的盒型圖,將配對前與配對後的兩組差異透過圖示化的方式快速判讀,從上圖可看出配對後兩組的差異遠小於配對前的差異。

 

7.jpg

 

  如果配對變項為類別變項則會輸出如上圖的柱狀圖,只是這個柱狀圖判斷兩組差異不太容易,因為X軸是次數(Frequency)而不是比例。

 

8.jpg

 

  最後,無論是連續變項或是類別變項,報表都會提出上圖這種散佈圖,讓研究者能看出配對前後資料數據集中跟分佈的狀況。比較特別的是左側圖中對照組的右側尾巴有明顯多筆標示藍色X顯示「Outside Support Region」的資料點,這些就是程式下達「region=treated」時被捨棄的資料點。

關鍵字:配對, 傾向分數配對, matching, propensity score matching, Greedy nearest neighbor, Greedy matching, PSMATCH

參考文獻

SAS Institute Inc. 2016. SAS/STAT® 14.2 User’s Guide. Cary, NC: SAS Institute Inc.

 

創作者介紹
創作者 晨晰部落格新站 的頭像
晨晰部落格新站

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()