一年半前曾經寫過一篇簡介「logistic regression的文章,結果沒想到很多讀者都有興趣,並且留言問了很多問題,這也表示越來越多人重視「間斷反應」(discrete response)的迴歸分析了,因此我將在這一篇文章精簡地介紹迴歸家族的分類方式(介紹最常用的幾種)。

 

 

提到「迴歸」分析,我們都知道如果依變項(Dependent variable)是連續變項且(Continuous)符合常態分佈的話,就是使用線性迴歸(Linear regression),迴歸方程式就如下圖所示:

 

 

 

由上圖可知,X1可以是類別變項,X2可以是連續變項,而Y是連續變項,例如生活品質分數、血壓、憂鬱分數等等。此時這個迴歸叫作Linear regression。

 

那如果依變項不是連續變項呢,例如依變項是二元的(Binary)、順序的(Ordinal)、超過3類的名目變項(nominal variable with categories3)、以及計數(Count data)呢?在1989年,McCullagh and Nelder這兩位統計學家首度出版一本關於「迴歸家族」的專書,書名就叫作「Generalized linear model」,中文翻作「廣義線性模型」或「概化線性模型」,他們利用了「隨機成分」(Random component)及「連結函數」(Link function)將各種不同尺度的依變項作迴歸模式的統整,本文由於篇幅有限,就針對二元依變項及計數依變項作簡介。

 

 

由下圖可知,第一列指的是Y必須符合「2項分佈」(binomial),例如「生存 vs. 死亡」或「成功 vs. 失敗」,我們簡化為「Event vs. Event free」,而P(Y=1)的意思就是「成為Event的機率」,而logit(μ)就是所謂的「連結函數之Logit轉換」(Logit transformation),你是否有注意到logit(μ)等號右邊的「迴歸方程式」跟傳統線性迴歸是一樣的?這就是連結函數的妙用,不管依變項尺度是什麼,透過連結函數之後,等號右邊的迴歸方程式一律相同。此時這個迴歸叫作binary logistic regression

 


 

由下圖可知,第一列指的是Y必須符合「卜瓦松分佈」(Poisson),這時候依變項是「計數變項」,通常是「罕見次數」,例如過去一年以內氣喘發作次數、車禍的次數等等。可注意到第三列,log(μ)指的是將這些次數取對數,這就是所謂的「連結函數之Log轉換」(Log transformation),我們可再度看見,log(μ)等號右邊的迴歸方程式又是跟一般線性迴歸是相同的,此時叫作Poisson regression in log-linear model

 


除了以上我們介紹的三種尺度依變項(連續、二元、計數),事實上廣義線性模型尚有其他尺度依變項,例如三類以上戶斥的名目變項(例如五大人格類型),此時叫作multinomial logistic regression;順序型依變項(例如傷病等級分3個等級、預後分5個等級),此時叫作ordinal logistic regression,不過礙於篇幅有限,這篇文章無法介紹。

 

 

在此再度推薦劉應興教授翻譯的「類別資料分析導論」(華泰出版),原作者為Alan Agresti第一版(1996),其中第4章有專門針對廣義線性模型作介紹,第5章到第8章則是針對logistic regression、log-linear model、ordinal logistic regression and multinomial logistic regression作介紹。

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(4) 人氣()