多變項迴歸分析(Multivariable or multi-predictor regression analysis)指的是迴歸方程式中,同時有2個或2個以上的解釋變項,反應變項(Response variable, Y)則可能是各種尺度的變項,常見的有線性(連續變項)、二元、計數與存活資料等,分別適用線性迴歸(Linear regression)、羅吉斯迴歸(Logistic regression)、卜瓦松迴歸(Poisson regression)及Cox比例危險模型(Cox proportional hazard model)等。
呈現多變項分析結果最常見的方式就是列表,列出迴歸係數、勝算比或危險比的值、信賴區間以及顯著性,如下表所示。方程式除了列解釋變項的迴歸係數(或勝算比、危險比)之外,也列出截距項(Intercept or constant)的數值,以利讀者可以帶入特定值,以計算出預測的結果變項的數值,例如50歲男性且Creatinine是0.8,此人的預測Y值是多少。預測Y值在線性迴歸跟卜瓦松迴歸代表的是平均值,在羅吉斯迴歸與Cox模型則是代表發生事件的機率。
以上表格易於看出哪些解釋變項是跟結果變項有關,但對於轉換為「絕對風險」(Absolute risks)則是較為不直觀,因為讀者必須自行帶入截距項或是基線危險值(Baseline hazard)計算出Y的預測值。另外一方面,表格提供的資訊並不容易比較各個解釋變項的預測效果之強弱,以上表為例,由於age跟creatinine的單位不同,並無法直接從迴歸係數或風險比直接比較兩者的效果。
在本文之中,筆者介紹兩種呈現多變項分析結果的方法,分別為nomogram跟risk score(或稱simplified points system1),可以讓讀者更能做到以下兩點,第一、能簡單地直接轉換特定X值(例如50歲男性且Creatinine是0.8)並得到預測Y值;第二、能直接評估比較不同解釋變項之間的預測效果。
(一)Nomogram
首先先介紹nomogram,它其實就是直接帶入迴歸方程式,以某個個案的特定值帶入迴歸係數與截距項,所得出的預測Y值。以羅吉斯迴歸為例,預測Y值(成為事件組的機率)為以下方程式:
圖一、羅吉斯迴歸預測Y值的公式
Nomogram使用方式很簡單,根據這位個案的各個解釋變項的實際數值,在第一列會有個相對應的分數(Points),例如Teratoma為1者的分數約為4.7分,於是每位個案都會有一個總分(倒數第三列的Total Points),接著再比對最後一列的預測機率(p)。
關於「評估比較不同解釋變項之間的預測效果」,則可以看各解釋變項的分數多寡,例如由本例中可得知Teratoma, Pre.AFP, Pre.HCG三者對於結果變項的預測效果大致差不多,都介於4-5分之間。反之LHDst, Post.size跟Reduction的預測力就明顯比較強。
資料來源:Steyerberg 2009 page 3182
Nomogram使用雖然便利,但仍有其侷限,當解釋變項太多個的時候(例如>10),使用者在使用此工具時,當用尺量的次數變多,會造成困擾。目前Nomogram可利用Frank Harrell撰寫的R套件「nomogram」3產生,針對各種配適函數(fit)都可以輕易地產生出圖形,這個部分筆者未來會專門介紹羅吉斯迴歸與Cox模型的實際R語法的應用。
參考文獻
1. Sullivan LM, Massaro JM, D'Agostino RB. Presentation of multivariate data for clinical use: the Framingham Study risk score functions. Statistics in medicine 2004; 23(10): 1631-60.
2. Steyerberg EW. Restrictions on candidate predictors. Clinical Prediction Models: Springer; 2009.
3. Harrell Jr FE. Regression modeling strategies: with applications to linear models, logistic and ordinal regression, and survival analysis: Springer; 2015.
留言列表