當我們想要「預測」一件事情,最常用的統計工具就是「迴歸」(regression),要被預測或被瞭解的變項叫做依變項(Dependent variable),它可以是名目變項(nominal)、順序變項(Ordinal)、等距變項(interval)以及比率變項(ratio)。如果依變項是屬於後兩者,我們稱作連續變項(Continuous),那麼我們習慣用線性迴歸(Linear regression)去配適資料。

 

 

然而在實際的情況下,所收集回來的資料不見得會是連續變項,而常常是名目變項與順序變項(我們稱為間斷變項, discrete variable),例如醫學統計最常遇到的就是「死亡與否」、「有無生病」、「有無發生」,此時依變項只有兩種情況,那麼傳統的線性迴歸再也不適用於配適這樣的類別性資料,原因有很多,例如殘差常態性不可能成立、依變項的預測值可能會超過1等等。此時若對依變項作一個轉換,稱作logit轉換則可以解決以上諸多問題(關於詳細的轉換過程要參見教科書)。

 

 

111.jpg

 

 

 

傳統線性迴歸的迴歸係數(regression coefficient)的解釋為「當自變項增加一個單位,依變項則會增加多少單位」,但是在Logistic regression的迴歸係數解釋為「當自變項增加一個單位,依變項1相對依變項0的機率會增加幾倍」,也就是說「自變項增加一個單位,依變項有發生狀況(習慣稱為Event)相對於沒有發生狀況(non-event)的比值」,這個比值就是勝算比(Odds ratio, OR)。我們可以這樣說,除了迴歸係數的解釋方法不太相同之外,基本上可說傳統線性迴歸跟Logistic regression是一樣的分析。

 

 

以上我們提到的是當依變項是二元的(Binary)時的Logistic regression,不過有的時候依變項的類別會超過3類,例如人格心裡學就常常把人格分成「五大人格」,而且這五個人格之間是互斥的(沒有順序關係),此時想要「預測」這個人的人格會是哪一種類型的迴歸方法就是多項邏輯模型(Multinomial logistic regression),它是Logistic regression的擴充,解釋方法都一樣。唯一不同之處在於要將依變項其中一個類別設為「參照組」(Baseline category / Reference group),假設依變項有三類,那麼迴歸係數解讀為「當自變項增加一個單位,依變項A相對依變項C的機率會增加幾倍」,此時依變項C為我們選定的參照組(分母,或說被比較的那一組),參照組可隨意設定,因為結果會完全一樣。

 

 

最後要提到的當依變項是順序尺度,例如「傷病等級」分成3類,但是並非為等距變項,此時要預測的統計工具可選用比例勝算模型(Odds proportional model)或累積機率模型(Cumulative probability model)。此時迴歸係數的解讀為「當自變項增加一個單位,依變項A相對依變項BC的機率以及依變項AB相對依變項C的機率會增加幾倍」,所以是一種累積機率的概念,實務上也很常用。

 

 

最後推薦國內 劉應興 教授翻譯的「類別資料分析導論」,原作者為Alan Agresti,是一本很棒的Logistic regression導論,如果覺得這本書太簡單,可考慮研讀David KleinbaumLogistic regression: A self-learning text,是一本應用性與原理性都兼顧到的好書。

 

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(33) 人氣()