在前兩篇文章中,我們分別介紹了整體表現(overall performance)以及區別/鑑別(discrimination)的指標以及其使用上的限制。為了回答以下兩個臨床問題,即(1)新模式是否比舊模式更能預測結果變項/事件發生?或新模式的預測是否準確?(2)在新模式的預測之下,是否可以改變治療決策(medical decision)?分別要再採用校正/校準(calibration)以及風險重新分組(reclassification)此兩組指標。

(三)校正/校準(calibration

Calibration的定義為:「模式預測值與實際觀察值之間的一致性」,換句話說,即經由模式所預測的值(或機率值)是否準確,這在預測模型的研究是非常重要的屬性。Calibration又稱作為適合度(goodness-of-fit),因為它用來衡量該預測模式是否正確估計發生事件的風險。

Calibration的常用指標分成兩類,一個是畫圖的方式,另一個則是統計檢定。首先介紹畫圖的方式,常見以散佈圖(scatter)或直條圖來呈現,下圖是Han2016)的圖1,一般常見將預測值等分為十組(decile),X軸為預測機率值(譬如1000個人當中,預測機率值最低的100人的平均預測值)而Y軸為實際觀察值(譬如1000個人當中,預測機率值最低的100人的平均觀察值),45度線代表預測值恰好等於觀察值。點落在線的上方表示預測模式低估(較低的預測值或較低的發生率),反之則是高估。

 

1.jpg

 

然而圖形本身並沒有檢定,此時針對二元類別結果變項與存活資料分別可使用Hosmer-Lemeshow goodness-of-fit檢定與Nam-D'Agostino檢定。概念非常直觀,對於上述等分的10組而言,預測值與觀察值(平均機率)乘以該組總人數之後其實就是頻率(表示人數多寡),此時即可使用卡方檢定(chi-square)檢驗預測人數與觀察人數的細格是否具有顯著差異。

下圖是一個很好的例子,(a)是舊模式,其Hosmer-Lemeshow test達到統計顯著,表示預測人數與觀察人數之間具有差異,亦即預測其實不是非常準確;反之,(b)是新模式,其Hosmer-Lemeshow test沒有顯著差異,意味其預測相對比較準確。不過要特別注意,根據預測值等分為10組雖然是很常見的作法,但其實是很武斷且主觀的分組方式,最好可以提供各種不同分組方式當成是敏感度分析(sensitivity analysis),譬如同時提供5組、10組以及15組的數據。

 

2.jpg

資料來源:doi:10.1371/journal.pone.0166206.g001

 

(四)風險重新分組(reclassification

最後為了回答:『在新模式的預測之下,是否可以改變治療決策(medical decision)? 』此問題,我們需要風險重新分組(reclassification)的指標,最主要是net reclassification improvementNRI)以及integrated discrimination improvementIDI),而這兩個指標在我們之前的文章已經介紹過,在此不再贅述。

因此未來讀者若進行預測模式的研究,可參考這一系列文章,分別報告這四大類的各種指標,以讓讀者更能充分地從各個面向評讀結果。

(全文完)

 

參考文獻

1.     Alba AC, Agoritsas T, Walsh Met al. Discrimination and calibration of clinical prediction models: Users’ guides to the medical literature. Jama 2017; 318:1377-1384.

2.     Han K, Song K, Choi BW. How to develop, validate, and compare clinical prediction models involving radiological parameters: study design and statistical methods. Korean journal of radiology 2016; 17:339-350.

3.     McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician's guide. Archives of Internal Medicine 2008; 168:2304-2310.

4.     Steyerberg EW, Vickers AJ, Cook NRet al. Assessing the performance of prediction models: a framework for some traditional and novel measures. Epidemiology (Cambridge, Mass) 2010; 21:128.

 

創作者介紹
創作者 晨晰部落格新站 的頭像
晨晰部落格新站

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()