迴歸分類與要點－廣義線性模型 (Generalized linear model)Regression family~晨晰統計林星帆顧問整理

一年半前曾經寫過一篇簡介「logistic regression」的文章，結果沒想到很多讀者都有興趣，並且留言問了很多問題，這也表示越來越多人重視「間斷反應」（discrete response）的迴歸分析了，因此我將在這一篇文章精簡地介紹迴歸家族的分類方式（介紹最常用的幾種）。

提到「迴歸」分析，我們都知道如果依變項（Dependent variable）是連續變項且（Continuous）符合常態分佈的話，就是使用線性迴歸（Linear regression），迴歸方程式就如下圖所示：

由上圖可知，X₁可以是類別變項，X₂可以是連續變項，而Y是連續變項，例如生活品質分數、血壓、憂鬱分數等等。此時這個迴歸叫作Linear regression。

那如果依變項不是連續變項呢，例如依變項是二元的（Binary）、順序的（Ordinal）、超過3類的名目變項（nominal variable with categories≧3）、以及計數（Count data）呢？在1989年，McCullagh and Nelder這兩位統計學家首度出版一本關於「迴歸家族」的專書，書名就叫作「Generalized linear model」，中文翻作「廣義線性模型」或「概化線性模型」，他們利用了「隨機成分」（Random component）及「連結函數」（Link function）將各種不同尺度的依變項作迴歸模式的統整，本文由於篇幅有限，就針對二元依變項及計數依變項作簡介。

由下圖可知，第一列指的是Y必須符合「2項分佈」（binomial），例如「生存 vs. 死亡」或「成功 vs. 失敗」，我們簡化為「Event vs. Event free」，而P(Y=1)的意思就是「成為Event的機率」，而logit(μ)就是所謂的「連結函數之Logit轉換」（Logit transformation），你是否有注意到logit(μ)等號右邊的「迴歸方程式」跟傳統線性迴歸是一樣的？這就是連結函數的妙用，不管依變項尺度是什麼，透過連結函數之後，等號右邊的迴歸方程式一律相同。此時這個迴歸叫作binary logistic regression。

由下圖可知，第一列指的是Y必須符合「卜瓦松分佈」（Poisson），這時候依變項是「計數變項」，通常是「罕見次數」，例如過去一年以內氣喘發作次數、車禍的次數等等。可注意到第三列，log(μ)指的是將這些次數取對數，這就是所謂的「連結函數之Log轉換」（Log transformation），我們可再度看見，log(μ)等號右邊的迴歸方程式又是跟一般線性迴歸是相同的，此時叫作Poisson regression in log-linear model。

除了以上我們介紹的三種尺度依變項（連續、二元、計數），事實上廣義線性模型尚有其他尺度依變項，例如三類以上戶斥的名目變項（例如五大人格類型），此時叫作multinomial logistic regression；順序型依變項（例如傷病等級分3個等級、預後分5個等級），此時叫作ordinal logistic regression，不過礙於篇幅有限，這篇文章無法介紹。

在此再度推薦劉應興教授翻譯的「類別資料分析導論」（華泰出版），原作者為Alan Agresti第一版（1996），其中第4章有專門針對廣義線性模型作介紹，第5章到第8章則是針對logistic regression、log-linear model、ordinal logistic regression and multinomial logistic regression作介紹。