進行多變項迴歸分析常見的兩種目的~晨晰統計林星帆顧問整理－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在生物醫學統計中，多變項迴歸（Multivariable regression）是極為重要且常用的分析手段，其指的是迴歸方程式中，同時有 2 個或 2 個以上的解釋變項，反應變項（Response variable, Y）則可能是各種尺度的變項，常見的有線性（連續變項）、二元、計數與存活資料等，分別適用線性迴歸（Linear regression）、羅吉斯迴歸（Logistic regression）、卜瓦松迴歸（Poisson regression）及Cox比例危險模型（Cox proportional hazard model）等。

多變項迴歸分析在研究目的上，大致上可以區分成兩大類，第一：當該結果變項（Outcome）的危險因子已被充分研究過，而我們試圖證明某個變項（例如：檢驗值、狀態或治療）可能是新的危險因子。

以心臟冠狀動脈疾病（Coronary artery disease; CAD）為例，過去數十年來，針對罹患 CAD 的危險因子的研究論文可能有數萬篇，也就是說罹患 CAD 的危險因子已經被完整建立（Well-established），此時我們如果仍然以罹患 CAD 作為結果變項的研究，必定是我們有個過去尚未報告過或是仍尚未有共識的變項，我們試圖證明該變項是 CAD 的預後因子。

在這種研究目的之下，當在樣本數（或是事件數）足夠的情況時，這些已經被完整建立的危險因子，無論在我們的樣本資料中是否達到統計學顯著，都應該要校正它們。以 CAD 來說，眾所皆知抽煙是強烈的危險因子，但確實可能在我們收集的樣本資料中卻顯示抽煙沒有達顯著，但這並不表示我們就可以不校正抽煙的效果。

圖片來源：https://mobilephysiotherapyclinic.in/coronary-artery-disease/

多變項迴歸分析的第二種研究目的，則是該結果變項的預後因子尚未被研究充分，因此我們想根據所收集的樣本資料，進而找出可能的危險因子。需要注意的是，由於找預測因子這種目的的迴歸分析結果，容易受樣本資料的抽樣誤差以及不同的模式建立策略所影響，因此結論的外推性（Generalizability）會比較受限制。

換言之，根據我們收集的樣本資料所找到的危險因子，換一組資料之後有可能就會得到不同結果；甚至是同一組資料，也會因為不同的模式建立策略而有不同的結論，譬如使用不同的自動選取法（Auto-selection：https://reurl.cc/a1RkxQ）、使用單變項篩檢（Univariate screening）時用不同的顯著性標準（https://reurl.cc/rLoQK1）以及處理共線性的方法（https://reurl.cc/AdpKbd）都可能會得到不一樣的結果。

有時候只是知道哪些變項是顯著的危險因子還不夠，我們可能會想進一步在臨床上使用多變項迴歸分析的結果，如果結果變項是連續變項，那麼可以用簡單的迴歸方程式在臨床上套用；但當結果變項是二元、存活或計數資料時，可能就會使用 nomogram 或是預測評分系統（Prediction score system），這個部分可以參考筆者過去兩篇介紹文章（https://reurl.cc/0EQ2m6、https://reurl.cc/1eM28G）。

眾上所述，當感興趣的結果變項的預後因子是否已被研究充分時，其對應的多變項迴歸分析的策略也會有不同，研究人員應該要根據文獻回顧與臨床經驗，判斷即將進行的多變項迴歸分析屬於哪一種目的。