經驗分享－該怎麼做好迴歸分析 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

只要論文提到影響或預測，就會讓人直覺聯想到要進行迴歸分析，去年年底有發表過一篇文章『該選什麼迴歸分析』，現在想想覺得不夠深入，因此這篇將分享個人的習慣作法，給有需要的人參考，就如同之前說的，線性迴歸的比例仍佔大多數，因此這篇就以線性迴歸為例來跟大家討論（不過好像沒差XDDDD）。

當拿到客戶的第三章研究方法，就會知道有沒有需要做迴歸，不過除非客戶在統計方法的章節交代很清楚，否則我們只能知道要做迴歸或不用做迴歸，那我們要做怎樣的迴歸呢?站在客戶的立場，結果一定是越顯著越好，所以就會有幾種的組合來做嘗試，分為兩個面向（1）自變項全部放入 or 挑選單變量有顯著（或p<某個標準值，如0.2）的變項；（2）要選全部進入法（Enter） or 逐步法（Stepwise），形成以下交叉表

關於第一個面向，自變項要全部放入呢?還是要挑選單變量有顯著（或p<某個標準值，如0.2），所謂單變量有顯著，是指針對自變項與依變項的測量尺度，透過適合的統計方法去檢測自變項與依變項的關係，像是獨立樣本t檢定/單因子變異數分析/皮爾森積差相關，如果達顯著水準（p < .05），則將該變項納入到迴歸模式中，至於括號裡提到，不一定是挑選單變量達顯著（p < .05）的變項，有些研究有可能會挑單變量結果接近顯著的變項（如p<0.2），不過一般論文研究還是以挑選達顯著（p < .05）的結果比較多，我想主要原因是這些變項在迴歸模式中仍達顯著的可能性是比較高的，你們應該聽過一種說法，迴歸模型中因為包含了多個自變項，因此在彼此互相控制的情況下，其多變量結果會比單變量的結果還要不顯著，也就是說這些單變項未達顯著的變項，在迴歸模型中要達顯著的可能性又更低了；第二個原因，若挑選單變量未達顯著的結果進入模式中，如果不小心達顯著了，結果會變得難以解釋，你現在一定會想這有可能嗎?是的，這種可能性仍然存在，特別是自變項間有共線性問題時更容易發生。

比起挑選單變量有顯著的自變項，我個人較不傾向將架構圖中的所有自變項全數放入，如果有算過迴歸分析所需的樣本數，那您應該會發現，當自變項越多時，所需要的樣本數就會越多，才能達到當初所希望達顯著的標準，所以這兩者相比，一定是挑選單變量有顯著的自變項更為有利於結果，除非研究的樣本數真的非常多，譬如說超過800，那我認為就可以考慮試試全部進入法（Enter），畢竟當所有變項全數納入迴歸模式中，其模式的嚴謹程度勝過只有部分變項出現在迴歸的模式。

第二個面向，是要選擇全部進入法（Enter）或逐步法（Stepwise）呢?這邊我個人建議會選全部進入法（Enter），原因有二，第一，當自變項中含有虛擬變項時，如果採用逐步法（Stepwise），就會發現結果常出現四分五裂的情況，有些有選入模式中，有些卻沒有，只要同一個變項的虛擬變數未同時出現在模式裡，就無法組合成一個完整的變項，失去變項原有的定義；原因二，在大部分的研究裡，第一面向的選擇，都會是挑選單變量有顯著的自變項，若此時再選用逐步法（Stepwise），則有可能使變項再刪去更多，大幅降低模式的嚴謹度（考量的因子太少），因此對我來說，會讓我採用逐步法的原因，（一）客戶論文明顯提到要用逐步迴歸；（二）全部進入法（Enter）的結果不理想，改採逐步法（Stepwise）試試看。

總結，上述的四種組合都可以試試看，不過當研究樣本數一般般，沒有特別多時（低於200），個人認為可以直接選擇（A）挑選單變量有顯著+全部進入法（Enter），如果結果不理想，再試試（B）挑選單變量有顯著+逐步法（Stepwise），這兩者都是合理降低自變項個數，以配合樣本數較少的迴歸模型；如果樣本數非常多（超過800），個人認為可以直接選擇（C）全部放入+全部進入法（Enter），如果結果不理想，可以改用（A）挑選單變量有顯著+全部進入法（Enter）或（D）全部放入+逐步法（Stepwise），如果結果仍不理想，就採用自變項數最少的（B）挑選單變量有顯著+逐步法（Stepwise）。