晨晰統計顧問林星帆整理

 

 

(1)    在作任何迴歸分析之前,記得先對所有資料對相關分析(11的相關),以及畫出任兩變數之間的相關矩陣,先對於變數之間的關係作初步確認。

 

(2)    實務上常遇見的就是變數之間相關很高,也就是有「共線性」的問題,如果遇到自變項之間相關太密切,可考慮挑選較有代表性的變項放入迴歸分析,或者用主成分分析(principle component analysis)縮減變項,並得出每個樣本在該主成分的因素得分,然後再放進迴歸模型作分析,就不會有共線性問題了(因為各個主成分之間是獨立的),值得注意的是SPSS無法得出主成分分析的正確因素得分,需改用其他統計軟體(例如SAS)。

 

(3)    除了做出相關圖之外,應該還要畫各自變項與依變項的「散佈圖」,或許某自變項跟依變項的關係並非「直線關係」,可能是二項式或logistic曲線的關係,進而修正迴歸方程式。

 

(4)    確認樣本的同質性,舉醫學統計為例,不應該把病人的資料與正常人的資料混合在一起作迴歸分析,應該分別作分析。

 

(5)    在進行分析之前,應該對所有變項作「極端值」檢驗,在迴歸分析裡頭Outlier對結果的影響甚大,可用盒型圖或直方圖作檢查,檢驗是否有不合理的離群值出現。

 

(6)    開始分析後,如果有好幾個預測變數,不應盲目地選擇「逐步法」,逐步程序法是最沒有理論邏輯性的方法,每個變數在放入迴歸模型之前最好都有一定的理論基礎,如果非得要用「逐步」法,那最好是挑選Forward(向前選取)或Backward(向後選取)法,它們相對於Stepwise(逐步法)是較具有邏輯性的。

 

(7)    有達「顯著」的迴歸係數(Ββ)不代表就有「強的預測力」,如果解釋力(R平方)只有0.02,那就代表這個自變項只能解釋2%的依變項,所以除了解釋迴歸係數的顯著性之外,也要注意看解釋能力高不高。

 

(8)    還有一個常見的問題,就是用很少的樣本數,但卻放很多的自變項,例如只有100個樣本數卻放進20個自變項,這樣會造成各個變項的「預測效率」低落,也就是整體的F檢定達顯著(代表至少有一個自變項有預測力),但是每一個變項的迴歸係數卻都不顯著,這就是因為用太少的樣本數但卻放入太多的自變項的後果。一般建議樣本數跟自變項數目的比例是101

 

(9)    為嚴格起見,做完分析之後要作「異常點」與「殘差」檢驗,有幾種常見的檢驗方法:偏迴歸圖、t化去點殘差(辨認依變項離群值)、槓桿值(辨認自變項離群值)、DFFITSCook距離、DFBETASToleranceVIF(辨認共線性)

 

(10)    迴歸分析的推薦讀物:Neter等人原著Applied Linear Regression Models,劉應興翻譯的應用線性迴歸模型,全書翻譯流暢且校正精確,非常值得推薦。

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(2) 人氣()