迴歸分析使用虛擬變項的注意事項（Dummy variable in regression analysis: A caution note）~晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在擔任統計諮詢顧問的過程中，超過半數的客戶都會使用到迴歸分析（Regression analysis），無論是線性迴歸（Linear）、羅吉斯迴歸（Logistic）或是其他種類的迴歸，主要原因當然是迴歸可以一次檢視多個自變項對於依變項的預測效果，因此廣受量化研究者的喜愛。

不過實際上的研究由於樣本數的受限，因此通常沒辦法將所有感興趣的研究變項都置入迴歸方程式裡頭，尤其以護理或醫學研究更是如此，可能只有100名樣本但是有超過20個感興趣或臨床已驗證有影響的預測因子（Predictive factor），例如血壓、膽固醇、抽煙史等等變項。如果此時我們將所有20個變項都丟到迴歸分析，會發現到估計參數（迴歸係數）幾乎都會不顯著，因此此時很多研究者會採用逐步法（Stepwise）挑選統計顯著（e.g. p < .05）的變項到迴歸模式中，至於逐步法有向前（Forward）、向後（Backward）及逐步（Stepwise）的差異之處則請參考任意一本迴歸分析專書。

假設我們目前手上的20個變項其中有類別變項（Categorical variable），就以圖1的「體重評估」為例子，由於這是一個4個水準的類別變項，因此我們在跑迴歸分析之前要先作虛擬編碼（Dummy coding）的處理，k類的類別變項可轉換為k-1類的虛擬變項。此時我們會挑選一個參照組（reference group），通常是選數值最低或最高的那一組當成參照組，以圖1的例子而言可發現「體重過輕」的3個虛擬變項數值都是0因此表示它是參照組，「dummy_1」、「dummy_2」及「dummy_3」則是分別表示「體重正常」、「體重過重」及「體重肥胖」跟「體重過輕」作比較。(我想上統計課程)

接著我們就開始執行逐步迴歸，自變項包括其他自變項（血壓、年齡、血糖等等）及圖1中的3個虛擬變項，假設第一個被挑選進來的變項是「年齡」、第二個是「dummy_2」、第三個是「血壓」，其餘變項則未被選進模式。

此時千萬不要開心的太早，因為這個時候的「dummy_1」及「dummy_3」由於並未被逐步迴歸選進去，因此此時的「dummy_2」並不是「體重過重 vs. 體重過輕」，而是「體重過重 vs. 其他3類」，如圖2所示，此時「dummy_2 = 1 = 體重過重」然而其餘三類都等於「0」，因此在係數的解釋意義上已經完全改變，而且變的不合理。

因此，倘若你的研究有3類以上的類別變項（就會有2個以上的虛擬變項））要放到迴歸分析，而且必須使用逐步迴歸時，首先請先注意是否同時所有的虛擬變項一起被選進方程式之中。如果不是，我提供一個替代的作法，亦即將k-1類的類別變項都轉換為2類的虛擬變項，以圖1為例，可以把過輕跟正常編碼為0，而把過重與肥胖編碼為1，但須注意這樣分成2類的方式必須符合邏輯以及根據文獻，而不可以自己隨便亂分類。