在生物醫學統計中,多變項迴歸(Multivariable regression)是極為重要且常用的分析手段,其指的是迴歸方程式中,同時有 2 個或 2 個以上的解釋變項,反應變項(Response variable, Y)則可能是各種尺度的變項,常見的有線性(連續變項)、二元、計數與存活資料等,分別適用線性迴歸(Linear regression)、羅吉斯迴歸(Logistic regression)、卜瓦松迴歸(Poisson regression)及Cox比例危險模型(Cox proportional hazard model)等。

多變項迴歸分析在研究目的上,大致上可以區分成兩大類,第一:當該結果變項(Outcome)的危險因子已被充分研究過,而我們試圖證明某個變項(例如:檢驗值、狀態或治療)可能是新的危險因子。

以心臟冠狀動脈疾病(Coronary artery disease; CAD)為例,過去數十年來,針對罹患 CAD 的危險因子的研究論文可能有數萬篇,也就是說罹患 CAD 的危險因子已經被完整建立(Well-established),此時我們如果仍然以罹患 CAD 作為結果變項的研究,必定是我們有個過去尚未報告過或是仍尚未有共識的變項,我們試圖證明該變項是 CAD 的預後因子。

在這種研究目的之下,當在樣本數(或是事件數)足夠的情況時,這些已經被完整建立的危險因子,無論在我們的樣本資料中是否達到統計學顯著,都應該要校正它們。以 CAD 來說,眾所皆知抽煙是強烈的危險因子,但確實可能在我們收集的樣本資料中卻顯示抽煙沒有達顯著,但這並不表示我們就可以不校正抽煙的效果。

 

1.jpg

圖片來源:https://mobilephysiotherapyclinic.in/coronary-artery-disease/

 

多變項迴歸分析的第二種研究目的,則是該結果變項的預後因子尚未被研究充分,因此我們想根據所收集的樣本資料,進而找出可能的危險因子。需要注意的是,由於找預測因子這種目的的迴歸分析結果,容易受樣本資料的抽樣誤差以及不同的模式建立策略所影響,因此結論的外推性(Generalizability)會比較受限制。

換言之,根據我們收集的樣本資料所找到的危險因子,換一組資料之後有可能就會得到不同結果;甚至是同一組資料,也會因為不同的模式建立策略而有不同的結論,譬如使用不同的自動選取法(Auto-selectionhttps://reurl.cc/a1RkxQ)、使用單變項篩檢(Univariate screening)時用不同的顯著性標準(https://reurl.cc/rLoQK1)以及處理共線性的方法(https://reurl.cc/AdpKbd)都可能會得到不一樣的結果。

有時候只是知道哪些變項是顯著的危險因子還不夠,我們可能會想進一步在臨床上使用多變項迴歸分析的結果,如果結果變項是連續變項,那麼可以用簡單的迴歸方程式在臨床上套用;但當結果變項是二元、存活或計數資料時,可能就會使用 nomogram 或是預測評分系統(Prediction score system),這個部分可以參考筆者過去兩篇介紹文章(https://reurl.cc/0EQ2m6https://reurl.cc/1eM28G)。

眾上所述,當感興趣的結果變項的預後因子是否已被研究充分時,其對應的多變項迴歸分析的策略也會有不同,研究人員應該要根據文獻回顧與臨床經驗,判斷即將進行的多變項迴歸分析屬於哪一種目的。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()