當我們收集完資料並完成建檔後,在分析之前,一定要確實做到檢查的工作,檢查的重點,包含了數值的合理性,以及變數的遺漏狀況。我們用的分析方法,是最簡單及最常見的次數分配與描述性統計量,沒錯,只要分析有做到敘述統計的話,大致上都能檢查到資料的問題,下面我們將這些問題整理出來。
利用次數分配找到輸入錯誤的變數:
- 首先到變數註解頁面,針對類別變項的部分,設定好數值標籤。
(2)點選「分析」à「敘述統計」à「次數分配表」。
(3)將要檢查的變項放入「變數(V)」,建議是類別變項,連續變項當然也可以,但較不建議。
(4)按下「確定」。
(5)次數分配表如下圖,一般來說,可以看到每一組別計算出的人數與百分比。
(6)也可以看出每一變數遺漏的樣本數及遺漏比例。
(7)但是當您檢查到有編碼未附帶標籤時,即是有問題的數字,有可能是漏掉標籤,不過絕大因素是數字有錯,如果是數字有錯,則需要回到資料集裡進行修正。
(8)連續變項進行次數分配時,會呈現每一個水準的人數與百分比,雖然也可以用來檢查,但當水準過多時,肯定費力又費時,所以會建議採用後續的方式。
(9)如何搜尋剛剛教育程度異常的數字,首先用滑鼠左鍵點一下這個變數「教育程度」,以選取整個欄位。
(10)選擇「編輯」à「尋找」,或者直接同時按下「Ctrl+F」。
(11)在「尋找」欄位裡填入要找的異常數值,按下「尋找下一個」。
(12)畫面會跳到該數值所在位置,即可確認後進行修改,若有多筆異常數值,則要分多次進行處理。
利用敘述統計找到異常範圍的變數:
(13)連續變項不適合用次數分配,則改用敘述統計,「分析」à「敘述統計」à「敘述統計」。
(14)將要檢查的變項放入「變數(V)」,當然除了連續變項,類別變項也是可以的。
(15)按下「確定」。
(16)可以透過最小值與最大值,確認變項是否有異常值存在,因此剛剛提到類別變項也是可以用描述性統計量檢查,不過跟次數分配比較起來就沒那麼仔細,算是一種比較省時省力的檢查方式,假設若這份研究的收案年齡為20歲以上,那我們就必須把未滿20歲的樣本搜尋出來,以確認資料是否有誤。
(17)同樣用滑鼠左鍵點一下這個變數「年齡」,以選取整個欄位。
(18)透過排序的方式,將最小值或最大值提到資料的最上端,以年齡為例,要找到最小的年齡層,因此選擇遞減排序。
(19)排序完的變數即可找到數字有異常的樣本,進一步確認並修改或刪減樣本。