多變項迴歸分析的呈現方式（共2篇，上）~~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

多變項迴歸分析（Multivariable or multi-predictor regression analysis）指的是迴歸方程式中，同時有2個或2個以上的解釋變項，反應變項（Response variable, Y）則可能是各種尺度的變項，常見的有線性（連續變項）、二元、計數與存活資料等，分別適用線性迴歸（Linear regression）、羅吉斯迴歸（Logistic regression）、卜瓦松迴歸（Poisson regression）及Cox比例危險模型（Cox proportional hazard model）等。

呈現多變項分析結果最常見的方式就是列表，列出迴歸係數、勝算比或危險比的值、信賴區間以及顯著性，如下表所示。方程式除了列解釋變項的迴歸係數（或勝算比、危險比）之外，也列出截距項（Intercept or constant）的數值，以利讀者可以帶入特定值，以計算出預測的結果變項的數值，例如50歲男性且Creatinine是0.8，此人的預測Y值是多少。預測Y值在線性迴歸跟卜瓦松迴歸代表的是平均值，在羅吉斯迴歸與Cox模型則是代表發生事件的機率。

以上表格易於看出哪些解釋變項是跟結果變項有關，但對於轉換為「絕對風險」（Absolute risks）則是較為不直觀，因為讀者必須自行帶入截距項或是基線危險值（Baseline hazard）計算出Y的預測值。另外一方面，表格提供的資訊並不容易比較各個解釋變項的預測效果之強弱，以上表為例，由於age跟creatinine的單位不同，並無法直接從迴歸係數或風險比直接比較兩者的效果。

在本文之中，筆者介紹兩種呈現多變項分析結果的方法，分別為nomogram跟risk score（或稱simplified points system¹），可以讓讀者更能做到以下兩點，第一、能簡單地直接轉換特定X值（例如50歲男性且Creatinine是0.8）並得到預測Y值；第二、能直接評估比較不同解釋變項之間的預測效果。

（一）Nomogram

首先先介紹nomogram，它其實就是直接帶入迴歸方程式，以某個個案的特定值帶入迴歸係數與截距項，所得出的預測Y值。以羅吉斯迴歸為例，預測Y值（成為事件組的機率）為以下方程式：

圖一、羅吉斯迴歸預測Y值的公式

Nomogram使用方式很簡單，根據這位個案的各個解釋變項的實際數值，在第一列會有個相對應的分數（Points），例如Teratoma為1者的分數約為4.7分，於是每位個案都會有一個總分（倒數第三列的Total Points），接著再比對最後一列的預測機率（p）。

關於「評估比較不同解釋變項之間的預測效果」，則可以看各解釋變項的分數多寡，例如由本例中可得知Teratoma, Pre.AFP, Pre.HCG三者對於結果變項的預測效果大致差不多，都介於4-5分之間。反之LHDst, Post.size跟Reduction的預測力就明顯比較強。

資料來源：Steyerberg 2009 page 318²

Nomogram使用雖然便利，但仍有其侷限，當解釋變項太多個的時候（例如>10），使用者在使用此工具時，當用尺量的次數變多，會造成困擾。目前Nomogram可利用Frank Harrell撰寫的R套件「nomogram」³產生，針對各種配適函數（fit）都可以輕易地產生出圖形，這個部分筆者未來會專門介紹羅吉斯迴歸與Cox模型的實際R語法的應用。

參考文獻

1. Sullivan LM, Massaro JM, D'Agostino RB. Presentation of multivariate data for clinical use: the Framingham Study risk score functions. Statistics in medicine 2004; 23(10): 1631-60.

2. Steyerberg EW. Restrictions on candidate predictors. Clinical Prediction Models: Springer; 2009.

3. Harrell Jr FE. Regression modeling strategies: with applications to linear models, logistic and ordinal regression, and survival analysis: Springer; 2015.