迴歸模型建立（建模）之淺談－下~An introduction to strategy of model building for regression 晨晰統計林星帆顧問整理 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

雖然可以用N + (p*10) 的原則或者是根據正式公式樣本數計算的公式來大略預估需要多少人數，但是如果自變項數目太多時，這個原則可能還是失效的。

例如我們有10個自變項，若按照N + (p*30) 的原則（N設100），那麼所需要的是400名樣本；反之，舉一個極端的例子，如果我們有100個自變項，則需要3100名樣本，但按照經驗法則，如果一個迴歸模型中真的包括了100個自變項，那麼儘管樣本數高達3100名但結果可能還是很難有顯著的發現，這100個自變項可能達顯著水準的只會有少數幾個。一般我們在許多期刊論文上面看到迴歸模型的自變項很少超過10個，可能的話也盡量不要超過20個（儘管樣本數可能很大）。

一般來說，探討預測因子或關聯因素的自變項數目大概也不會太多個，可能10-20個就已經算很多了。不過由於問卷調查或資料庫研究可能會問到很多受訪對象的基本資料，或許確實是收集到上百個關於研究對象的特性，但是如之前所說，「文獻有提到的自變項及研究者所感興趣的變項」應該不至於到有上百個，所以研究者應該在第一時間根據文獻（過去的研究曾經告訴我們哪些因素與依變項有關）跟自己感興趣的變項（通常只會有少數幾個）作初步的篩選，例如從100個人口學特性中挑選出30個（還是很多），但是我們可能只有200名樣本，按照N + (p*30) 的原則是需要1000名樣本，所以還是遠遠不夠，怎麼辦？

接下來要講的這個技巧是從統計教科書上面找不到的，因為教科書只會有公式跟結果的解讀方式，對於實務上研究者所會面臨到的問題並不會提供解方。自變項數目相較於實際樣本數還是太大的問題一定是很多研究者會遇到的難題，就像我們舉的這個虛擬的例子一樣，200人但卻有30個自變項。

這個時候我們會有兩種策略來處理迴歸建模，第一個策略叫作：「雙變項分析達顯著的變項才丟到最終模型」，所謂的雙變項分析是一對一的分析，也就是迴歸模型中只包括一個自變項，我們可以先依序進行30次雙變項分析（因為有30個自變項嘛），這30次中或許會有10個自變項達顯著，然後我們最後在將這10個自變項一起放到多變項模型（Multivariable model）分析。這個建模方法是現行期刊的主流方法之一，不過也不一定要雙變項的結果達顯著（p值小於0.05），我也常常看到只要小於0.10或0.15的都可以放到多變項模型，就看研究者自己如何決定。

這個時候可能有讀者說，按照N + (p*30) 的原則，如果有10個自變項，那至少需要400名樣本，而我們舉的這個例子卻只有200名樣本，怎麼辦？此時就要考慮用第二種策略了，叫作：「逐步法」（Stepwise），也就是將10個自變項同時置放到迴歸方程式，然後讓統計軟體協助挑選達統計顯著的變項，而逐步法一般常見的有Forward、Backward跟Stepwise，其中細節與異同以後有機會再作專文介紹。而這個逐步法也不一定要先經過雙變項分析的過濾才能作，也就是可以直接將30個自變項（其中有10個雙變項分析達顯著）全部一起放，這樣子也是可行的方法。