在擔任統計諮詢顧問的過程中,超過半數的客戶都會使用到迴歸分析(Regression analysis),無論是線性迴歸(Linear)、羅吉斯迴歸(Logistic)或是其他種類的迴歸,主要原因當然是迴歸可以一次檢視多個自變項對於依變項的預測效果,因此廣受量化研究者的喜愛。
不過實際上的研究由於樣本數的受限,因此通常沒辦法將所有感興趣的研究變項都置入迴歸方程式裡頭,尤其以護理或醫學研究更是如此,可能只有100名樣本但是有超過20個感興趣或臨床已驗證有影響的預測因子(Predictive factor),例如血壓、膽固醇、抽煙史等等變項。如果此時我們將所有20個變項都丟到迴歸分析,會發現到估計參數(迴歸係數)幾乎都會不顯著,因此此時很多研究者會採用逐步法(Stepwise)挑選統計顯著(e.g. p < .05)的變項到迴歸模式中,至於逐步法有向前(Forward)、向後(Backward)及逐步(Stepwise)的差異之處則請參考任意一本迴歸分析專書。
假設我們目前手上的20個變項其中有類別變項(Categorical variable),就以圖1的「體重評估」為例子,由於這是一個4個水準的類別變項,因此我們在跑迴歸分析之前要先作虛擬編碼(Dummy coding)的處理,k類的類別變項可轉換為k-1類的虛擬變項。此時我們會挑選一個參照組(reference group),通常是選數值最低或最高的那一組當成參照組,以圖1的例子而言可發現「體重過輕」的3個虛擬變項數值都是0因此表示它是參照組,「dummy_1」、「dummy_2」及「dummy_3」則是分別表示「體重正常」、「體重過重」及「體重肥胖」跟「體重過輕」作比較。(我想上統計課程)
接著我們就開始執行逐步迴歸,自變項包括其他自變項(血壓、年齡、血糖等等)及圖1中的3個虛擬變項,假設第一個被挑選進來的變項是「年齡」、第二個是「dummy_2」、第三個是「血壓」,其餘變項則未被選進模式。
此時千萬不要開心的太早,因為這個時候的「dummy_1」及「dummy_3」由於並未被逐步迴歸選進去,因此此時的「dummy_2」並不是「體重過重 vs. 體重過輕」,而是「體重過重 vs. 其他3類」,如圖2所示,此時「dummy_2 = 1 = 體重過重」然而其餘三類都等於「0」,因此在係數的解釋意義上已經完全改變,而且變的不合理。
因此,倘若你的研究有3類以上的類別變項(就會有2個以上的虛擬變項))要放到迴歸分析,而且必須使用逐步迴歸時,首先請先注意是否同時所有的虛擬變項一起被選進方程式之中。如果不是,我提供一個替代的作法,亦即將k-1類的類別變項都轉換為2類的虛擬變項,以圖1為例,可以把過輕跟正常編碼為0,而把過重與肥胖編碼為1,但須注意這樣分成2類的方式必須符合邏輯以及根據文獻,而不可以自己隨便亂分類。

在擔任統計諮詢顧問的過程中,超過半數的客戶都會使用到迴歸分析(Regressio ...《詳全文》
你好: 不好意思可以問你一個問題嗎 因為我現在是研究生,我會使用的統計軟體為spss和amos 而我現在的研究是有3種不同類型的廣告(A、B、C)現在要對生活型態(5分類)和廣告效果作比較 但我再跑spss時,我不知道該如何跑出3種不同類型的廣告,在5種生活形態中對於廣告效果的顯著各為何? 所以可以請教您有什麼方法可以跑出我想要的結果嗎?謝謝您,打擾您很抱歉!!
您好: 所以您的生活型態是一個五類的類別變項嗎? 廣告效果是一個連續變項嗎? 如果是的話,那可以將生活型態作split file (切割檔案),然後用One-way ANOVA分析廣告類型在廣告效果上的差異,而且是將生活型態5類分開分析。
老師您好 我想請問如果我有五種測驗,為連續變數 想用來區分有病或是無病 用linear regression 的方式 是要stepwise or enter 用為何呢?? 謝謝你
您好:如果outcome是有病或無病,那麼應該使用logistic regression(羅吉斯迴歸),stepwise或是enter法皆可。
請問如果我使用SPSS 22 轉換->建立虛擬變數 它會第一組 1-->1 2-->0 3-->0 4-->0 第二組 1-->0 2-->1 3-->0 4-->0 第三組 1-->0 2-->0 3-->1 4-->0 第四組 1-->0 2-->0 3-->1 4-->0 請問要按甚麼可以相反過來 我想把第一組變成參考組 感謝!!
您好:您的第四組好像設錯了,應該是4→1,else→0。若欲將第一組變成參考組,那麼不要丟第一組到model中,就是以第一組為參考組了。
請問我有四個連續變項當作自變數,依變項將本為名義的情況(有三個程度)、編碼成1.2.3;這樣可以用linear regression?
您好:依變項是3類以上的名義變項的話,要用multinomial logistic regression。
極度感謝你
您好: 太客氣了,歡迎再提問~
請問想要了解個案在一個次量表與另一個量表總分上的關係(影響)強度,該用何種分析方法
您好: 可以用相關分析或線性迴歸分析。
非常感謝。再請教問題。 1. Spearman's rho相關分析表格的呈現與Pearson相關表格一樣嗎? 2.在進行複回歸後驗證有無共線性時,一定是tolerance、variance inflation及conditional dex嗎? 是否有參考資料?因統計書並未寫的很清楚。 謝謝
您好:(1)是的,呈現方式是一樣的 (2)一般共線性是用變項之間的相關係數大小、VIF及CI來判定,可參考John Neter的Applied Linear Statistical Models,有繁體中譯本哦。
我有一些問題想請教您。我跑完線性迴歸結果有一個自變數被系統排除,由共線性統計量來看是允差太小,因此我回過頭檢測是否是自變數間存在共線性,但結果是正常,因為我的迴歸要固定產業及年份效果,所以我有設虛擬變數,只要加入虛擬變數該自變數就會被排除,請問我要如何得知該自變數是與哪一個變數存在共線性?
您好:可以跑相關性看看,看有沒有相關是「1」的。
我想請問如果我想知道 家庭照顧者男姓女性家庭照顧者的生活品質(連續變項)得分與抽血自由基的相關這樣我要怎麼跑
您好:抽血自由基若是連續變項的話,則是Pearson's correlation或是Spearman's rank correlation。
請問自變數若都是類別型虛擬變數,如何檢驗自變數間是否存在共線性呢?
您好:可以使用VIF,不過通常虛擬變數之間都會有部份共線性的問題。
您好,想請問:複迴歸中,若自變數有類別也有連續,若類別都設為數字1234而沒有另外設虛擬變數0123,他會自行轉換嗎? 再者,沒有設0而使用強迫進入法(Enter)進行分析,數據會有問題嗎?
您好:(1)SPSS不會自行轉換,除非您是使用SAS或STATA可以宣告類別變項(2)結果解釋上當然會有問題,請務必要先轉dummy variables。
您好:想請問因我要用spss跑複回歸,在這之前我會先跑個pearson相關係數,因我有類別及連續變項,想請問,我的類別數據(如單位別有5個),我跑相關時類別數據是否可用dummy variables來跑,因發現轉為dummy跑時,某單位會呈現有顯著,那跑複回歸時,我的類別數據都在2個以上,我沒有用強迫法,因複回歸是把相關性最高的選進,那單位的其中一項(如安寧病房)選進,其數據的解釋是否有問題?
您好:您可以先用one-way ANOVA來分析。如果有3類以上的dummy,最好別用stepwise法,因為可能會如您所說只挑進去某一個dummy(假設全部有2個或2個以上的dummy),此時此dummy變項的意義已變質。
您好~請問我先做類別變項ANOVA以及連續變項pearson相關, 再將結果有顯著的所有連續與類別的自變項(類別變項有先轉換dummy)一起放入複回歸模型中(選擇stepwise), 請問這樣的作法是法正確? ~另外,因為我某一個類別變項有3個以上的dummy(例如教育程度)~ 若回歸結果顯示-教育程度dummy_3有顯著,此時的解釋應是「dummy_3 vs. 參照組」或是「dummy_3 vs.其他3組」?
您好:如果模式只有選入dummy_3,那麼就是「dummy_3 vs.其他3組」
請問如果我要跑教育程度(內有分1無,2小學畢業,3高中畢業,4大學/技術學院畢業,5研究所以上) 與肥胖(BMI>27)的人有無相關,那我應該用那種統計方法?那要如何處理變項?要設dummy variable 嗎?
您好:可以用卡方分析,教育程度為五類,BMI以27切分為2類; 若要跑迴歸的話,則為logistic regression,教育程度需要設定dummy variable。
請問若是虛擬變項的類別太多,對於迴歸分析的結果會有什麼影響?或是有更好的統計方法?例如,探討美國家庭所得對教育投資的影響,想控制州別的城鄉差距因素,把州別變項轉為虛擬變數作為迴歸模型中的控制變數,共有52個州別,就要列51個虛擬變項。
您好:根據您舉的例子,用HLM(LMM or multilevel model)會比較合適喔!
您好: 想請教您一個問題 因為我現在在寫論文,使用的統計軟體為sas 研究的題目是想看睡眠的嚴重程度對血脂所造成的影響 我目前的分析步驟是將問卷所挑出的變項與依變項進行簡單回歸,有顯著的才放入逐步回歸中,那麼想問的問題是,在放入逐步回歸中的變項有需要包含我要看得主變項嗎?以及在做簡單回歸找出顯著相關的變相時,有需要做我要看得主便向與其他干擾因子的相關性嗎?還有就是如果自變項是類別型,依變項是連續行,那要做相關分析時,是要用皮爾森還是斯皮爾曼呢? 謝謝您
您好:如果研究目的沒有要探討干擾因子(交互作用),一般都是用主要效果就可以了。至於要用皮爾森或是斯皮爾曼,主要看您對於常態分佈假設看待的多嚴謹。
您好: 想請教您一個問題 複迴歸跑完有, 調整後的 R 平方=-.129 負值有甚麼問題?
您好:可能是自變項數目太多了。
*****
*****
*****
*****
您好: 我想請教您一個問題, 我將吸菸狀態分為3組,在進行複迴歸分析時,我知道需要設定dummy variable, 但請問我另外要進行Spearman correlation test,這個有需要設定dummy variable嗎?
老師好,想請問如果產生的dummy variable其中一組與其他連續型變項的x產生共線性(VIF>10)應如何處理呢? 謝謝老師解惑