當我們想要「預測」一件事情,最常用的統計工具就是「迴歸」(regression),要被預測或被瞭解的變項叫做依變項(Dependent variable),它可以是名目變項(nominal)、順序變項(Ordinal)、等距變項(interval)以及比率變項(ratio)。如果依變項是屬於後兩者,我們稱作連續變項(Continuous),那麼我們習慣用線性迴歸(Linear regression)去配適資料。
然而在實際的情況下,所收集回來的資料不見得會是連續變項,而常常是名目變項與順序變項(我們稱為間斷變項, discrete variable),例如醫學統計最常遇到的就是「死亡與否」、「有無生病」、「有無發生」,此時依變項只有兩種情況,那麼傳統的線性迴歸再也不適用於配適這樣的類別性資料,原因有很多,例如殘差常態性不可能成立、依變項的預測值可能會超過1等等。此時若對依變項作一個轉換,稱作logit轉換則可以解決以上諸多問題(關於詳細的轉換過程要參見教科書)。
傳統線性迴歸的迴歸係數(regression coefficient)的解釋為「當自變項增加一個單位,依變項則會增加多少單位」,但是在Logistic regression的迴歸係數解釋為「當自變項增加一個單位,依變項1相對依變項0的機率會增加幾倍」,也就是說「自變項增加一個單位,依變項有發生狀況(習慣稱為Event)相對於沒有發生狀況(non-event)的比值」,這個比值就是勝算比(Odds ratio, OR)。我們可以這樣說,除了迴歸係數的解釋方法不太相同之外,基本上可說傳統線性迴歸跟Logistic regression是一樣的分析。
以上我們提到的是當依變項是二元的(Binary)時的Logistic regression,不過有的時候依變項的類別會超過3類,例如人格心裡學就常常把人格分成「五大人格」,而且這五個人格之間是互斥的(沒有順序關係),此時想要「預測」這個人的人格會是哪一種類型的迴歸方法就是多項邏輯模型(Multinomial logistic regression),它是Logistic regression的擴充,解釋方法都一樣。唯一不同之處在於要將依變項其中一個類別設為「參照組」(Baseline category / Reference group),假設依變項有三類,那麼迴歸係數解讀為「當自變項增加一個單位,依變項A相對依變項C的機率會增加幾倍」,此時依變項C為我們選定的參照組(分母,或說被比較的那一組),參照組可隨意設定,因為結果會完全一樣。
最後要提到的當依變項是順序尺度,例如「傷病等級」分成3類,但是並非為等距變項,此時要預測的統計工具可選用比例勝算模型(Odds proportional model)或累積機率模型(Cumulative probability model)。此時迴歸係數的解讀為「當自變項增加一個單位,依變項A相對依變項B與C的機率以及依變項A與B相對依變項C的機率會增加幾倍」,所以是一種累積機率的概念,實務上也很常用。
最後推薦國內 劉應興 教授翻譯的「類別資料分析導論」,原作者為Alan Agresti,是一本很棒的Logistic regression導論,如果覺得這本書太簡單,可考慮研讀David Kleinbaum的Logistic regression: A self-learning text,是一本應用性與原理性都兼顧到的好書。

Logistic Regression介紹 ...《詳全文》
版主你好,請問logit model 與 logistic regression兩者是否相同? 謝謝你的回答。
logit model包含logistic regression。 就好像GLM分析包含ANOVA及Regression一樣。
我想請問一下,若我想做男女之間的差異,是不是能將性別納入依變項中? 例如:有工作女性=1;無工作女性=0 解釋方式是不是:B(係數)為正(且顯著)則為有工作女性的機率較高?? 目前淪陷在邏輯迴歸解釋的旋滑中的小小人
類別變項當然可以放入自變項,須設成虛擬變項沒錯, 依照你的例子來說,你的解釋也是正確的,有工作女性的「勝算」較高(勝算在SPSS是數字比較大的當分母喔) 不過你提的例子跟性別好像沒關係?
無意間晃到,logistic regression 為 logit model 為 binary時的特例, 而此時在binary logit中相對的類別 (通常code為 0 ),的變數均解釋為令一類別(code 為 1)的比較基準,版主似乎沒回到問題^^
是的,如你所說,就好像Simple regression為GLM的特例一樣。 你現在指的應該是自變項若為1或0的變項時,由X=0到X=1造成logit值改變的效應,剛好會等於此變項的迴歸係數B,但用這樣的術語恐怕很多初學者聽不懂。
感恩~受教了~ 正在找multinomial logistic regression的解釋的路人~
別客氣!一起加油喔!
此則為私密回應
(1)Hosmer and Lemeshow Test只是一個預測準確度的參考指標,你也可考慮看一下各STEP的預測準確表(classification table) (2)一般列出B、Wald卡方值跟OR跟信賴區間就可以了
你好 我想請問一個問題, 如果我的自變項是binary data (o , 1), 而當在個案內的表現全為o或1的時候, 通常logistic regression的估計值或無限大, 想請問有沒有任何調整的辦法可以解決這個問題?
你好: 如果你指的是所有的自變項數值都是constant(都一樣),此時就如同""常數項""一樣角色,因此就無法估計了,必須捨棄這個變項。
你好 我使用的是Cumulative logistic regression model 可是我系數不會解釋 Y 是Disease_Level分為5.4.3.2.1.0 X是 Age = -2.5549 odds=0.988 Operation(有=1無=0動手術)=0.1411 odds=7.019 想請問個別系數和odds 怎麼解釋!感謝:D
你好: 假設疾病嚴重度從0至5表示從輕微到嚴重,如果你是使用SPSS,那麼Age迴歸係數顯著為負(此時odds ratio會小於1)則表示「年齡越大,疾病越嚴重(相對越輕微)的勝算越小」,亦即年齡越大反而疾病嚴重的機率比較低的意思;至於OP則更容易解釋,OP迴歸係數顯著為正(此時odds ratio會大於1)則表示「有OP相對於沒有OP而言,疾病越嚴重(相對越輕微)的勝算越大」,亦即OP的人的疾病嚴重度嚴重的機率比較大。 但如果你是使用SAS,那麼結果解釋都是要顛倒的。因為SPSS在分析時是將「數字大的」放在分子,SAS則是將「數字小的」放在分子。
你好!!:D 真得很感謝你回答我的問題,我是用SAS,所以按照你的意思我寫的解釋如下 EX: Age = -2.5549 =>>年齡越大,關節炎第五期(相對第四期或第三期或第二期或沒診斷)勝算越大 也就是,年齡越大,診斷關節炎第五期的機率比較高。 EX: Operation=0.1411 =>>有動手術的人相對於沒有動手術的人而言,關節炎第五期(相對第四期或第三期或第二期或沒診斷)勝算越小,亦即有動手術的人關節炎第五期的機率比較小。 最後想問 -2.5549 0.1411 這些值要怎麼解釋 EX:Age = -2.5549 是說 年齡增加一歲 診斷(第五期)相對(01234期的人)機率增加2.5549倍 (5+4)相對(0123)機率增加2.5549倍????? (5+4+3)相對(012)機率增加2.5549倍????? 麻煩你了,感謝:D
你好: 你的觀念是正確的,亦即(0/1+2+3+4+5), (0+1/2+3+4+5), (0+1+2/3+4+5), (0+1+2+3/4+5), (0+1+2+3+4/5), 這幾個組合的Odds ratio都被限制為一樣。
您好,想請問您若Logistic regression的Hosmer and Lemeshow Test是顯著的話 應該要朝甚麼方向處理資料才有可能讓Hosmer and Lemeshow Test不顯著呢?? 感謝您的回答
您好:Hosmer and Lemeshow Test是顯著的話,除了新增新的預測變項之外,增加模型預測的準確度,除此之外似乎沒有特別的作法。
您好,請問在logit的多變量迴歸中,詮釋其中一個IV的係數或odds ratio時,所謂的控制其他變數(holding other variables constant),也跟ols一樣是代入其他變數的平均值或中位數(還是眾數?有點忘了,我指當IV為dummy variable時)嗎?
您好: 是的,holding other variables constant,即代入其他變數的平均值。
您好,如果我的被解釋變數是子女數=0,1,...6 這樣適合用orderd logit嗎?或是用possion reg.呢? 如果可以目前我跑出來的回歸結果 其中一個 自變數=母親的教育年數 其odds ratio=0.864 解釋為在其他條件不變下,母親的教育年數越大(教育程度越高),生6個小孩的勝算比是生0或1或2或3或4或5的勝算比的0.864倍,生6個小孩比生0或1或2或3或4或5的機率下降,或是應該要怎麼解釋比較好呢?我有點搞糊塗了,麻煩您幫我解答一下. 另外,如果被解釋變數是生育間隔(年),例如:1,5,8,11年 這樣用什麼模型比較好呢? 以上麻煩您的解答,謝謝.
您好: (1)0,1,2,3,4,5,6,如果0的個數很多,然後看似符合possion分佈,那可以考慮以possion reg。反之就使用orderd logit (2)母親教育年數(連續變項)的OR=0.864,如果您是使用SPSS,意思是說母親教育年數越高,則「生越多小孩/生越少小孩」的勝算越低,簡單來說就是母親教育年數越高則生越少小孩。如果您是用SAS,則是顛倒解釋。 (3)生育間隔(年)可考慮試試看orderd logit或multinomial logit。
您好,我想請問一下在做Multinomial logistic regression時將類別自變項轉換為虛擬變項的問題。我知道在做Binary logistic regression時可以點選"定義類別變數"的選項,把類別自變項轉換為虛擬變項,之後再進行迴歸分析。請問在做Multinomial logistic regression時有這個轉換為虛擬變項的功能嗎?還是要自己先行將類別自變項轉換為虛擬變項之後,再選入Multinomial logistic regression進行迴歸分析呢? 期待您的解答!謝謝!
您好: 在SPSS中,Multinomial logistic regression的 "Factor (因子)" 會自動當類別變項設成虛擬變項,不過SPSS內建以"最後一組"當成參照組,無法修改設定,如果您要指定其他組當參照組,那就如您所說要自行製作虛擬變項。
補充上面提出的問題,我用的是SPSS軟體,所以是指在透過spss來分析統計資料時的情形。謝謝!
您好: 在SPSS中,Multinomial logistic regression的 "Factor (因子)" 會自動當類別變項設成虛擬變項,不過SPSS內建以"最後一組"當成參照組,無法修改設定,如果您要指定其他組當參照組,那就如您所說要自行製作虛擬變項。
您好,我有提問關於生育個數的問題,個數為o的比例為72/4287=1.82%,生育個數為1或2或3占大多數,總共佔90%左右,我用poisson reg.和ordered logit,後者的結果還不錯只有一個變數不顯著,我是用stata11進行估計,所以解釋應該遵照哪一個呢? 此外,因為間隔都是0或正整數,生育間隔我會用ordered logit試試看的,謝謝您的指教.
您好: 由於0的比例很低,且最大值只到3的話,那可以考慮ordered logit或multinomial logit,就不考慮poisson regression了。
大大你好: 請問一下,我欲使用SAS的CATMOD指令進行Multinomial logistic regression,但跑出的報表中並沒有勝算比(odds),這是為什麼?
您好:PROC GENMOD預設是沒有提供OR,建議可在excel自行計算,OR=exp(B),或是參考以下資料: http://support.sas.com/kb/42/728.html
您好,請問如果的的自變項為連續變項,但依變項中有連續也有二分變項,這樣在SAS中可以用 logistic regression處理嗎?若是自變項是二分變項,依變項中有連續也有二分變項,也是用logistic regression處理嗎? 謝謝~~~~~
您好: 依變項若是連續變項,則是linear regression;依變項若是二分變項,則是logistic regression。
請問我用sas軟體跑logistic regression的結果圖中的estimate是否就是spss結果中的coefficient?
您好:是的。
請問可以去哪查詢SAS的CATMOD指令
您好:可以試一下這個官方網址:http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#catmod_toc.htm
您好 我想請問一下 我們探討的議題是經濟因素根是否打工的相關性 自變數放經濟因素個5個選項 依變數放是否打工 自變數跟依變數的值都是只有0和1 這樣用迴歸分析跑出來的結果是不是都會是不顯著?
您好:自變項與依變項的值如果都是1跟0,這與顯著與否並無絕對的關係喔!
您好. 請問一下如果我的依變項是界於0~1的數 那麼該用logit或probit呢?
您好:介於0到1的話,可以考慮使用Tobit模式!
請問 如果依變數是-1~1的值 能使用什麼檢定呢?
您好:介於-1到1的話,可以考慮使用Tobit模式!
您好 我跑OLS的結果R平方為0.997 非常接近1 做VIF檢定沒有貢獻性的問題 想請問一下是不是有其他步驟操作錯誤
您好:最有可能的是,您的X變項跟Y變項是概念重疊的變項。
您好 SPSS邏輯迴歸中,依變項為投票傾向,自變項為性別、族群、教育程度。其中性別和族群是虛擬變項,這樣需要把他們放進類別共變量中嗎。
您好:如果已經是虛擬變項,那麼丟入「連續共變量」(covariate)即可。
您好, 我想請問一下,在計算可能生幾個孩子的時候,為什麼都是推薦使用Poisson distribution 呢? 是否可以使用Normal 或其他呢?
您好:由於孩子數量是「個數」,可能不會是常態分配,最有可能是Poisson分配。
您好 為什麼解釋變數在logistic regression中特別稱做covariate(共變量),請問是有什麼特別的用意嗎?
您好:無特別含意,covariate(共變量)就是一個自變項而已。
我使用spss進行multiple logistic regression分析後, 軟件出現了兩個警告: Hessian 矩陣中發生非預期的異常狀況。這表示若非某些預測變數應該被排除在外,便是某些類別應該被合併。 NOMREG 繼續不理會上述警告。隨後顯示的結果是以最後一個疊代為準。不確定模型配適的有效性。 我光盡力氣也處理不了, 所以想講教你如果解決這兩問題...感謝
您好:可能有放入完全共線性的變項,可以排除部分變項試試看。
我使用spss進行multiple logistic regression分析後, 軟件出現了兩個警告: Hessian 矩陣中發生非預期的異常狀況。這表示若非某些預測變數應該被排除在外,便是某些類別應該被合併。 NOMREG 繼續不理會上述警告。隨後顯示的結果是以最後一個疊代為準。不確定模型配適的有效性。 我光盡力氣也處理不了, 所以想講教你如果解決這兩問題...感謝 您好:可能有放入完全共線性的變項,可以排除部分變項試試看。 晨晰部落格新站 於 2016/11/08 09:00 回覆 我發現只要刪除因子就沒有警告了, 是否我的因子數目太多,但每項的因子的参數太少,因此矩陣中發生非預期的異常狀況. 面對這問題要如何處理,因子不能刪除啊
您好:考慮增加樣本數,或減少變項數量,或縮減變項分類數。
你好, 我使用tobit model,但有兩個自變數的相關係數高達0.94 在OLS model時必須處理共線性問題,那tobit model是否也要處理共線性問題? 謝謝~~
您好:所有的迴歸分析,都應該要注意自變項之間的相關喔!
大大您好非常謝謝分享!對初學者來說很有幫助
謝謝您的回饋
*****
*****
請問:多元logistic迴歸與判別分析有什麼不同?使用時機分別是什麼呢?
這網站似乎抄襲您的內容?,雖說文末有參考來源,但內文用字遣詞幾乎未更動。 https://ryanisagoodguy.blogspot.com/2015/08/logistic-regression.html
感恩您的提醒,我們會去了解一下,謝謝!