操作(有關鍵變數-兩檔案皆提供觀察值):
(8)為了按照編號來合併兩個檔案,先勾選「匹配已排序檔案關鍵變數的觀察值」,預設值為「兩者皆提供觀察值」,代表就算兩邊檔案收錄的樣本不完全相同,無論以國語成績或是數學成績的頁面來操作,所有樣本最後都會一同留置在新的資料集中。
(9)將「ID」放到關鍵變數欄位中,所謂的關鍵變數是指兩個欄位共有的變項,並以此關鍵變項進行兩個檔案的串接。
(10)勾選「指明觀察值來源為變數」,最後在資料檔案中會新增出一個變項欄位,可以區分每一樣本來自不同的檔案,但不一樣要勾選此選項,因為如果想要有這項資訊,應該在原始的檔案中,就先建立此變項欄位,譬如說個案來自哪一家醫院,或是學生來自哪間學校或班級,再讓此欄位併入新的資料集中。
(11)對照一開始兩個檔案的圖片,就可以看出此處的ID是兩個資料的聯集(所有樣本都納入新的資料集)。
(12)從資料合併的結果來看,兩個檔案已確實按照關鍵變數ID進行合併,缺少的部分則以系統遺漏值呈現。
(13)在步驟10勾選了「指明觀察值來源為變數」,因此樣本會依不同的來源檔案,編碼為0與1。
操作(有關鍵變數-非作用中資料集是索引表):
(14)這是筆者最習慣的操作方式,我會先找一個或建立一個完整樣本的檔案,並在這個檔案頁面下進行操作合併(稱為作用中資料集:主檔案),此時其他要合併到主檔案的資料皆為索引表,若以此處為例,作用中資料集(國語成績)是主檔案,所以編號就只會有ID1至ID7,就算其他檔案有其他的編號,這些樣本也不會出現在資料集中,這也是為什麼要先找一個或建立一個完整樣本的檔案作為主要操作的檔案。
(15)合併完的資料集,樣本即是原來主檔案(國語成績)的ID1至ID7,。
(16)並從索引表檔案(非作用中資料集:數學成績)裡將ID4至ID7的數學成績併入到主檔案(國語成績)裡,由於數學成績中沒有ID1至ID3的資料,所以新資料集的有ID1至ID3在數學成績呈現遺漏值。
操作(有關鍵變數-作用中資料集是索引表):
(17)此操作剛好就跟非作用中資料集是索引表的結果相反,改以非作用中資料集(數學成績)為主檔案,所以編號就只會有ID4至ID10,合併後的檔案已不再納入其他編號的資料,因此為了避免搞混,所以習慣上我只選擇非作用中資料集是索引表來進行檔案合併。
(18)合併完的資料集,樣本只留下非作用中資料(數學成績)的ID4至ID10,。
(19)作用中資料集的國語成績為索引表,在合併的過程中,只會留下編號與非作用中資料(主檔案:數學成績)有交集的部分ID4至ID7。其實如果按照剛剛提到的習慣,選擇(有關鍵變數-非作用中資料集是索引表),還是有辦法得到下圖一樣的結果,就是將操作畫面改成數學成績的畫面進行合併檔案,此時數學成績就會變成作用中資料集了(國語成績則變為非作用中資料集),為了讓編號維持在ID4至ID10,設定上選擇(非作用中資料集是索引表),即可得到與下圖一樣的結果,只要記得一件事,索引表就是要匯入到主檔案的那個檔案,所以留下哪些ID的樣本,並不是索引表能夠決定的,而是操作畫面那個檔案(作用中資料集)決定的。
留言列表