在各種類的醫學研究中,建立以及驗證一個有效的預測模型(prediction model)是很常見的,無論結果變項(outcome)是連續型、二元類別、計數變項或是存活資料,現在皆已有常規的迴歸分析方法,分別是線性迴歸、logistic迴歸、Poisson迴歸以及Cox比例危險模式(Cox proportional hazard model)。

舉例來說,目前已知數個心衰竭病人死亡率的預測模式,例如MAGGIChttps://www.mdcalc.com/maggic-risk-calculator-heart-failure)或Seattle Heart Failure Modelhttps://qxmd.com/calculate/calculator_203/seattle-heart-failure-model),假定我們在這些預測模型之下,提出一個(或多個)生物標記或是一組危險因子,我們想要證實加上這些生物標記/危險因子之後,我們的新模式會比原本模式更能預測死亡率。

然而如何評估這些預測模型的表現,目前存在著許多指標,可粗略分為傳統指標以及近15年內所發展的新指標。本系列文章旨在介紹這些新舊指標各別的涵義以及向讀者推薦數篇很值得閱讀的相關參考文獻。

首先,我們先將這些測量指標分類四大類,分別是(一)整體表現(overall performance)、(二)區別/鑑別(discrimination)、(三)校正/校準(calibration)以及(四)風險重新分組(reclassification),以下分別說明之。

(一)整體表現(overall performance

首先是整體表現,有學過線性迴歸的讀者一定知道,當我們要評估多個自變項(2個以上)對於結果變項的解釋能力時,會使用「R-square」這個指標,亦即解釋力(variance explained)。R2介於0-1之間,當R2很接近1時,代表模式所預測的結果變項的值(predicted value)與實際觀察值(observed value)所差無幾。

但是在醫學領域,結果變項往往是二元類別(binary outcome)或是存活資料(survival data or time to event data),此時可以參考Nagelkerke’s R2,此指標可以套用到廣義線性模式(generalized linear model)的所有分配與連結函數。Nagelkerke’s R2也可套用到存活資料。

另外也可使用Brier scoreBrier score等於(預測值-實際值)2,它的最小值是0,代表完美的模式,問題是沒有最大值。因此臨床論文會改為使用scaled Brier score,於是值就會介於0-1之間,0表示是一個無訊息的模式(noninformative model),1則是完美模式。

另外也常見AICAkaike information criterion)或BICBayesian information criterion),AIC/BIC同時考慮了模式複雜度(放的自變項數目的多寡)以及殘差(不能被模式所解釋的部分),倘若我們欲提議的新模式(例如:舊模式+1個新的生物標記/危險因子)的AIC/BIC小於舊模式,則表示新模式表現優於舊模式。不過特別注意,AIC/BIC只能用來比較巢套模型(nested model),例如上述的新模式就是巢套在舊模式之下,也就是新模式必須包含舊模式所有的解釋變項。

然而只使用這些「整體表現的指標」是遠遠不夠的,例如新舊模式的scaled Brier score分別是33%30%BIC分別是31003200,沒有一個既定標準讓我們評估這樣的差異是否夠大。更甚者,整體表現的指標沒有回答到下述問題:(1)加入新的生物標記/危險因子之後,新模式是否比舊模式更能區分有無發生事件?(2)新模式是否比舊模式更能預測結果變項/事件發生?(3)新模式是否可以改變治療決策?

為了回答以上三個問題,分別要再採用區別/鑑別(discrimination)、校正/校準(calibration)以及風險重新分組(reclassification)此三組指標,我們將於下兩篇文章予以介紹。

參考文獻

1.     Alba AC, Agoritsas T, Walsh Met al. Discrimination and calibration of clinical prediction models: Users’ guides to the medical literature. Jama 2017; 318:1377-1384.

2.     Han K, Song K, Choi BW. How to develop, validate, and compare clinical prediction models involving radiological parameters: study design and statistical methods. Korean journal of radiology 2016; 17:339-350.

3.     McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician's guide. Archives of Internal Medicine 2008; 168:2304-2310.

4.     Steyerberg EW, Vickers AJ, Cook NRet al. Assessing the performance of prediction models: a framework for some traditional and novel measures. Epidemiology (Cambridge, Mass) 2010; 21:128.

創作者介紹
創作者 晨晰部落格新站 的頭像
晨晰部落格新站

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()