實務上作迴歸分析的注意事項 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

晨晰統計顧問林星帆整理

（1）在作任何迴歸分析之前，記得先對所有資料對相關分析（1對1的相關），以及畫出任兩變數之間的相關矩陣，先對於變數之間的關係作初步確認。

（2）實務上常遇見的就是變數之間相關很高，也就是有「共線性」的問題，如果遇到自變項之間相關太密切，可考慮挑選較有代表性的變項放入迴歸分析，或者用主成分分析（principle component analysis）縮減變項，並得出每個樣本在該主成分的因素得分，然後再放進迴歸模型作分析，就不會有共線性問題了（因為各個主成分之間是獨立的），值得注意的是SPSS無法得出主成分分析的正確因素得分，需改用其他統計軟體（例如SAS）。

（3）除了做出相關圖之外，應該還要畫各自變項與依變項的「散佈圖」，或許某自變項跟依變項的關係並非「直線關係」，可能是二項式或logistic曲線的關係，進而修正迴歸方程式。

（4）確認樣本的同質性，舉醫學統計為例，不應該把病人的資料與正常人的資料混合在一起作迴歸分析，應該分別作分析。

（5）在進行分析之前，應該對所有變項作「極端值」檢驗，在迴歸分析裡頭Outlier對結果的影響甚大，可用盒型圖或直方圖作檢查，檢驗是否有不合理的離群值出現。

（6）開始分析後，如果有好幾個預測變數，不應盲目地選擇「逐步法」，逐步程序法是最沒有理論邏輯性的方法，每個變數在放入迴歸模型之前最好都有一定的理論基礎，如果非得要用「逐步」法，那最好是挑選Forward（向前選取）或Backward（向後選取）法，它們相對於Stepwise（逐步法）是較具有邏輯性的。

（7）有達「顯著」的迴歸係數（Β或β）不代表就有「強的預測力」，如果解釋力（R平方）只有0.02，那就代表這個自變項只能解釋2％的依變項，所以除了解釋迴歸係數的顯著性之外，也要注意看解釋能力高不高。

（8）還有一個常見的問題，就是用很少的樣本數，但卻放很多的自變項，例如只有100個樣本數卻放進20個自變項，這樣會造成各個變項的「預測效率」低落，也就是整體的F檢定達顯著（代表至少有一個自變項有預測力），但是每一個變項的迴歸係數卻都不顯著，這就是因為用太少的樣本數但卻放入太多的自變項的後果。一般建議樣本數跟自變項數目的比例是10：1。