Logistic Regression介紹---晨晰統計林星帆顧問整理（Logistic Regression介绍---晨晰统计林星帆顾问整理）－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

當我們想要「預測」一件事情，最常用的統計工具就是「迴歸」（regression），要被預測或被瞭解的變項叫做依變項（Dependent variable），它可以是名目變項（nominal）、順序變項（Ordinal）、等距變項（interval）以及比率變項（ratio）。如果依變項是屬於後兩者，我們稱作連續變項（Continuous），那麼我們習慣用線性迴歸（Linear regression）去配適資料。

然而在實際的情況下，所收集回來的資料不見得會是連續變項，而常常是名目變項與順序變項（我們稱為間斷變項, discrete variable），例如醫學統計最常遇到的就是「死亡與否」、「有無生病」、「有無發生」，此時依變項只有兩種情況，那麼傳統的線性迴歸再也不適用於配適這樣的類別性資料，原因有很多，例如殘差常態性不可能成立、依變項的預測值可能會超過1等等。此時若對依變項作一個轉換，稱作logit轉換則可以解決以上諸多問題（關於詳細的轉換過程要參見教科書）。

傳統線性迴歸的迴歸係數（regression coefficient）的解釋為「當自變項增加一個單位，依變項則會增加多少單位」，但是在Logistic regression的迴歸係數解釋為「當自變項增加一個單位，依變項1相對依變項0的機率會增加幾倍」，也就是說「自變項增加一個單位，依變項有發生狀況（習慣稱為Event）相對於沒有發生狀況（non-event）的比值」，這個比值就是勝算比（Odds ratio, OR）。我們可以這樣說，除了迴歸係數的解釋方法不太相同之外，基本上可說傳統線性迴歸跟Logistic regression是一樣的分析。

以上我們提到的是當依變項是二元的（Binary）時的Logistic regression，不過有的時候依變項的類別會超過3類，例如人格心裡學就常常把人格分成「五大人格」，而且這五個人格之間是互斥的（沒有順序關係），此時想要「預測」這個人的人格會是哪一種類型的迴歸方法就是多項邏輯模型（Multinomial logistic regression），它是Logistic regression的擴充，解釋方法都一樣。唯一不同之處在於要將依變項其中一個類別設為「參照組」（Baseline category / Reference group），假設依變項有三類，那麼迴歸係數解讀為「當自變項增加一個單位，依變項A相對依變項C的機率會增加幾倍」，此時依變項C為我們選定的參照組（分母，或說被比較的那一組），參照組可隨意設定，因為結果會完全一樣。

最後要提到的當依變項是順序尺度，例如「傷病等級」分成3類，但是並非為等距變項，此時要預測的統計工具可選用比例勝算模型（Odds proportional model）或累積機率模型（Cumulative probability model）。此時迴歸係數的解讀為「當自變項增加一個單位，依變項A相對依變項B與C的機率以及依變項A與B相對依變項C的機率會增加幾倍」，所以是一種累積機率的概念，實務上也很常用。

最後推薦國內劉應興教授翻譯的「類別資料分析導論」，原作者為Alan Agresti，是一本很棒的Logistic regression導論，如果覺得這本書太簡單，可考慮研讀David Kleinbaum的Logistic regression: A self-learning text，是一本應用性與原理性都兼顧到的好書。