筆者的同事在不久之前分享了如何以 R 軟體進行「Restricted cubic spline」(RCS),來處理變項之間的非線性關係(Non-linear relationship),有興趣的讀者可至 https://reurl.cc/R6OEqG 以及 https://reurl.cc/2b8yjm 查看全文。本篇文章筆者由概念原理出發,說明 RCS 的數學公式、優勢、劣勢與使用的注意事項。

 

一、直線關係(Linear relationship

近些年來,在醫學雜誌對於 RCS 的使用已是非常普遍,因為在醫學領域,其實很少存在著真正的「線性關係」。舉例來說,假使結果變項是血壓(連續變項),而自變項是年齡(也是連續變項),如果得到一個迴歸係數的值是 1.2 來說,代表當年齡增加一歲則模式預測的血壓會增加 1.2 個單位(mmHg),當年齡增加 10 歲則血壓會被預測增加 12 mmHg

然而在生物學的機制來說,不太可能存在著真正的直線關係,就算「年齡越大則血壓越高」的機制確實存在,但從下圖可知,左上方的收縮壓(Systolic)那條線來看,大約 70 歲之前的關係比較接近直線,但在 75-80 歲之後變成是比較陡峭的上升,代表血壓會在 75-80 歲之後隨著年齡越老而有比較大幅度的上升。

 

1.jpg

(圖片來源:Hypertension; Volume 60, Issue 1, July 2012, Pages 25-33

 

假設兩個變項之間並非呈現直線關係,但我們卻假設它們是直線關係,那麼模式的契合度(Goodness of fit)會比較差,例如在線性迴歸中(結果變項為連續型)是以 R2 作為解釋力的指標,在羅吉斯迴歸中則是以校準(Calibration)與區別(Discrimination)等指標也會表現的比較差。

 

二、重新分組為類別變項(Categorization

另外在實務上很常將該連續變項重新分組為類別變項,例如年齡層區分為<20, 20-39, 40-59, 60-79, 80-99 歲等分組方式,或是純粹以等分人數的方式來分組,譬如三分法(Tertile)、四分法(Quartile)、五分法(Quintile)或甚至是十分法(Decile)。

但這種作法的最大問題有二,第一是假設同一個次群體(例如60-79 歲)的結果變項都一樣,但事實上 60 歲與 79 歲的血壓其實也具有不小的差異,這會造成模式契合度不佳。如下圖所示,同一個垂直高度的紅點就是被強迫歸類到同一個次群體的 X 值,此時在模式的計算上,這些紅點的 Y 值都被必須假設是一樣的值 ,其實非常的不符合真實情形,因此單純將連續變項簡化為類別變項,會嚴重地損失連續變項的資訊。

 

2.jpg

(圖片來源:https://www.twblogs.net/a/5d190005bd9eee1e5c82de44

 

第二,在不同次群體的銜接點上(例如 40-59 vs. 60-79歲)會出現跳躍點(Step function),如下圖所示,而在這銜接點的模式擬合(Fitting)的表現會比較差。這一點也是會造成整個模式的解釋力降低,進而可能得到相對不準確的估計結果。

 

3.jpg

(圖片來源:https://reurl.cc/V3RQgY

 

此時可以採取一個比較極端的策略,就是既然分成太少的類別變項會損失連續變數的資訊,那不如將該連續變項分成很多組,例如將年齡用每 2 歲分組(20-21, 22-23, 24-25, …, 80-81, 82-83…),那不就不會損失資訊了?當樣本數極大的時候,例如數萬甚至數百萬時,這可能在統計上是可執行的(但沒人會這麼做)。但在較小樣本的時候,這種作法則是不可行,會造成模式有過度契合(Over-fitting)的情形,因為如果年齡被分成 40 組,那麼在模式中會用到 39 個自由度(39 1/0 的虛擬變項)。另外就是迴歸係數的結果也會很難解釋,因為會有 39 個迴歸係數,實務上很難應用這個迴歸的結果。

 

三、傳統的非線性關係

然而在許久之前,就已經有非線性關係的處理方式,到目前為止應該還會在醫學雜誌看到使用這些方法。最簡單的就是直接加上平方項/二次項(Quadratic)或是三次項(Cubic),一般這種大於兩次項的迴歸又稱為多項式(Polynomial)迴歸。以上述的年齡與血壓的關係,就是在方程式中除了放原本的年齡(線性關係),再放二次項(age2)及三次項(age3)。

這種作法確實很大程度上可以讓迴歸預測線變成更平滑(Smooth),但也存在著缺陷。最主要是這種非線性關係雖然平滑,但卻不具有彈性(Flexible),以二次項來說,它僅限制著四種關係(如下圖)。假使我們收集資料的 X Y 不是這麼符合這四種形狀的關係,也很有可能會得到一個不佳的模式契合度。

 

4.jpg

(圖片來源:https://slidesplayer.com/slide/14732583/

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()