迴歸模型建立（建模）之淺談－上 An introduction to strategy of model building for regression~晨晰統計林星帆顧問整理－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

無論是各種領域，只要使用到量化研究，最重要的也讓人最感興趣的就是「尋找預測因子」或「尋找關聯性」，或是大膽地說想要探討「因果關係」。例如醫學研究中，胸腔科的醫師可能想知道與肺腺癌病人的存活率有關聯性的變項有哪些；政治學的研究中，可能想要探討什麼特質的選民會投票給某種屬性的候選人或政黨，這也需要用到「預測」的技術，而在現代的統計學中，目前最主流作預測分析的統計方法就是迴歸分析（Regression analysis）。

迴歸分析會因為依變項尺度（Scale）的不同而採用不同的模型，例如連續型依變項是線性迴歸（Linear regression）、二元型依變項是Logistic regression等等各種不同的模型，不過大致上皆可歸類到廣義線性模式（之前的簡介，不過今天這篇文章不是在介紹統計分析方法，而是要淺談「迴歸模型建立的策略」，簡稱「建模」，說的白話一點就是我們如何決定一組迴歸模型中最後要保留哪些自變項。

首先最先決定的要素就是「樣本數」，如果樣本數非常大，例如進行資料庫的研究，動輒就是上萬的樣本數，基本上迴歸建模是一件相對簡單的事情，只要把握住一個原則：文獻有提到的自變項及研究者所感興趣的變項都丟到模型作分析就對了，只是要注意自變項之間是否存在共線性的問題，只要共線性不是問題，基本上如果有好幾十個自變項都還是可以分析出結果的。

然而，並非每個人都有資料庫的資料可以分析，大多數的研究者都是自己努力收集資料的，例如問卷調查可能可以收到300-400份已經算多的了，而一份問卷調查可能問到的自變項也多數十個，例如基本資料（年齡、性別、教育程度、婚姻等等），此時如果我們將這些蒐集到的基本資料不分青紅皂白地都放到迴歸模型作模式建立，可能會得到一個很悲慘的結果：幾乎得不到顯著的結論。這是因為統計分析有個原則，叫作「效率」（Efficiency）性原則，意思就是說如果一個迴歸模型包含了太多的自變項（相對於樣本數而言），那麼這樣的模型是不具有統計效率的，而沒有效率的模型就會導致過高的估計標準誤（Standard error），而進一步導致得到很大的顯著性（就是P值），最後什麼結論都無法得到，很可怕吧！

那要怎麼樣的模型才能叫作「有效率」呢？這是一個很專業且有深度的議題，我在這邊提供一個非常粗糙的指標，在很久以前（至少50年前）有人提出過一個原則，叫作10-1 rule，意思就是一個自變項（Independent variable）至少要有10個樣本數，如果我們最後想要在迴歸方程式中最後能夠保留5個自變項，那麼最起碼也要有50名樣本數，不然恐怕很難得到顯著的結論。不過我自己實務經驗指出，可能至少要20比1才夠！

另外還有個說法，就是N + (p*10) 的原則，N是一個定值，例如50好了，而p就是自變項的數目，假使我們最後想要保留5個自變項，那麼至少需要50 + (10*5)，也就是100個樣本才足夠。不過在這裡我還是建議可以把N設為100，而與p相乘的數字設為20或30會比較安全一點，一樣是五個自變項的條件下，就至少要200-250名樣本。