如何評估預測模型的表現（第3篇，共3篇）~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在前兩篇文章中，我們分別介紹了整體表現（overall performance）以及區別/鑑別（discrimination）的指標以及其使用上的限制。為了回答以下兩個臨床問題，即（1）新模式是否比舊模式更能預測結果變項/事件發生？或新模式的預測是否準確？（2）在新模式的預測之下，是否可以改變治療決策（medical decision）？分別要再採用校正/校準（calibration）以及風險重新分組（reclassification）此兩組指標。

（三）校正/校準（calibration）

Calibration的定義為：「模式預測值與實際觀察值之間的一致性」，換句話說，即經由模式所預測的值（或機率值）是否準確，這在預測模型的研究是非常重要的屬性。Calibration又稱作為適合度（goodness-of-fit），因為它用來衡量該預測模式是否正確估計發生事件的風險。

Calibration的常用指標分成兩類，一個是畫圖的方式，另一個則是統計檢定。首先介紹畫圖的方式，常見以散佈圖（scatter）或直條圖來呈現，下圖是Han（2016）的圖1，一般常見將預測值等分為十組（decile），X軸為預測機率值（譬如1000個人當中，預測機率值最低的100人的平均預測值）而Y軸為實際觀察值（譬如1000個人當中，預測機率值最低的100人的平均觀察值），45度線代表預測值恰好等於觀察值。點落在線的上方表示預測模式低估（較低的預測值或較低的發生率），反之則是高估。

然而圖形本身並沒有檢定，此時針對二元類別結果變項與存活資料分別可使用Hosmer-Lemeshow goodness-of-fit檢定與Nam-D'Agostino檢定。概念非常直觀，對於上述等分的10組而言，預測值與觀察值（平均機率）乘以該組總人數之後其實就是頻率（表示人數多寡），此時即可使用卡方檢定（chi-square）檢驗預測人數與觀察人數的細格是否具有顯著差異。

下圖是一個很好的例子，(a)是舊模式，其Hosmer-Lemeshow test達到統計顯著，表示預測人數與觀察人數之間具有差異，亦即預測其實不是非常準確；反之，(b)是新模式，其Hosmer-Lemeshow test沒有顯著差異，意味其預測相對比較準確。不過要特別注意，根據預測值等分為10組雖然是很常見的作法，但其實是很武斷且主觀的分組方式，最好可以提供各種不同分組方式當成是敏感度分析（sensitivity analysis），譬如同時提供5組、10組以及15組的數據。

資料來源：doi:10.1371/journal.pone.0166206.g001

（四）風險重新分組（reclassification）

最後為了回答：『在新模式的預測之下，是否可以改變治療決策（medical decision）？』此問題，我們需要風險重新分組（reclassification）的指標，最主要是net reclassification improvement（NRI）以及integrated discrimination improvement（IDI），而這兩個指標在我們之前的文章已經介紹過，在此不再贅述。

因此未來讀者若進行預測模式的研究，可參考這一系列文章，分別報告這四大類的各種指標，以讓讀者更能充分地從各個面向評讀結果。

（全文完）

參考文獻

1. Alba AC, Agoritsas T, Walsh Met al. Discrimination and calibration of clinical prediction models: Users’ guides to the medical literature. Jama 2017; 318:1377-1384.

2. Han K, Song K, Choi BW. How to develop, validate, and compare clinical prediction models involving radiological parameters: study design and statistical methods. Korean journal of radiology 2016; 17:339-350.

3. McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician's guide. Archives of Internal Medicine 2008; 168:2304-2310.

4. Steyerberg EW, Vickers AJ, Cook NRet al. Assessing the performance of prediction models: a framework for some traditional and novel measures. Epidemiology (Cambridge, Mass) 2010; 21:128.