當我們收集完資料並完成建檔後,在分析之前,一定要確實做到檢查的工作,檢查的重點,包含了數值的合理性,以及變數的遺漏狀況。我們用的分析方法,是最簡單及最常見的次數分配與描述性統計量,沒錯,只要分析有做到敘述統計的話,大致上都能檢查到資料的問題,下面我們將這些問題整理出來。
利用敘述統計探視變數的遺漏狀態:
(20)此段改用迴歸資料來進行示範,「分析」à「敘述統計」à「敘述統計」。
(21)敘述統計的報表中,最左邊呈現的N,指的是每個變數的有效樣本數,從不一致的樣本數,就可以資料變項之間存在著遺漏值。
(22)最下方的有效N,指的是這張表格裡的所有變項完全無遺漏的有效樣本,這個數據非常好用,像這種有遺漏的資料集,在跑迴歸分析之前,將所有自變項與依變項放入,可以先知道最後的有效樣本剩下多少人。
(23)接下來教大家如何留下這些有效樣本,首先我們要去計算每位樣本在這些變數的遺漏變數各有多少,點選「轉換」à「計算觀察值內的值」。
(24)在「目標變數(T)」輸入變項名稱「MISS」,變數名稱可以隨意命名。
(25)將要考量的變數放入「數值變數」。
(26)點選「定義值」。
(27)由於我們是要找遺漏值,直接點選「系統或使用者遺漏」。
(28)按下「新增」。
(29)此時會在「要計數的值(O)」裡看到「MISSING」,代表遺漏是我們檢視的目標。
(30)點選「繼續」。
(31)點選「確定」。
(32)資料集裡會增加一欄計算遺漏的欄位「MISS」,裡面的數值代表每一位樣本在我們定義的5個變數裡,遺漏的變數有幾個,因此0代表5個變數皆無遺漏,而1代表5個變數裡有1個遺漏,以此類推…。
(33)點選「資料」à「選取觀察值」,我們要把無遺漏的有效樣本篩選出來。
(34)點選「如果滿足條件」,用設定條件的方式去篩選樣本。
(35)點選「如果」,以開啟填寫條件的視窗。
(36)將條件輸入在右邊的空白欄位「MISS=0」,代表要篩選出MISS=0的樣本。
(37)點選「刪除未選取的觀察值」,此項設定是只留下符合條件的樣本,因此只要MISS≧1就會被刪除。
(38)如果只是想暫時篩選出「MISS=0」的樣本,並不想刪除其他未符合條件的樣本,則要點選「過濾掉未選取的觀察值」。
(39)按下「確定」,此時完成的資料集即是N=1869的有效樣本,記得要另存新檔,才能將刪除前後的資料檔都保存下來。
(40)透過「敘述統計」,以確認資料集的變數有效樣本皆是1869人。