國健局中老年身心社會生活狀況長期追蹤調查資料庫使用心得~晨晰統計林星帆顧問整理－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

縱貫性資料分析（Longitudinal data analysis, LDA）在現今的研究中已經逐漸變成主流，因為LDA考慮一個個體2次以上的重複測量的資料，在研究設計與統計的觀點比較能有效推論因果關係（Causal effect），因此近來開始蔚為風行。

而國內有些大型的資料庫分析正符合LDA的條件，例如以國民健康局的「台灣地區中老年身心社會生活狀況長期追蹤」調查系列為例，此資料庫從1989年即開始追蹤中老年人的資料，請訪員作問卷調查，問卷內容涵蓋甚廣，包含家戶資料、就醫資料、生活型態、身心社會功能等等。接著此資料庫分別於1993、1996、1999、2003、2007再進行了五波的後續追蹤，期間由於個案過世的情形因此在1996及2003年再增加了另外2族（Cohort）的長者資料，因此可知此資料庫非常符合LDA的需求，大多數的個案都有2次以上的資料，很適用於縱貫型的統計分析，例如存活分析、GEE分析或HLM分析（又稱為LMM或Multilevel分析）。

近2年來由於不少客戶有使用這個資料庫，因此也讓我有機會來瞭解到其資料的內容，以下就我個人處理的經驗中將其優勢與劣勢（或使用的限制）整理如下，給未來有機會使用到的朋友參考。

優勢部分：

一、節省設計問卷或實驗介入的時間與成本：

每一波的問卷的題目皆超過上千題，因此對於研究者而言不用再花費心力重新設計問卷；有些時候此資料庫也可作為準實驗的設計，例如可探討有喪偶與無喪偶的存活分析比較，此時此資料庫即有現成的資料，研究者可不需再進行臨床試驗即可取得資料並進而分析。

二、大樣本、妥善抽樣與低抽樣誤差

由於這些資料庫皆是政府的主管機關所主導，因此樣本數很大並且會作好妥善的抽樣，因此研究的推論效度或外在效度極佳，即抽樣樣本的結果可以推論到母群體的精確程度較佳。

三、階層性資料（Clustered data）因此適合高階統計分析

此資料庫其實兩個階層（Two level）的資料，第一層為受訪者，第二層則為重複測量（Repeated measure），因此適合使用GEE分析或HLM分析等縱貫型的分析方法，相對於傳統的統計方法較能得到相對正確的結果，亦即研究的內在效度較佳

四、資料豐富

之前有提到，此資料庫的每一波問卷都上千題，包括無論是背景資料（分類資料）、事實性資料（行為頻率）或態度性測量（量表）可說是應有盡有，因此可研究的議題非常的多

劣勢部分（或使用限制）：

一、遺漏值的問題（missing value）

真實的調查中常見遺漏值的問題，此資料庫也無可避免的會有一些未回答或不適用的題目，雖說在統計上是可以作填補（Imputation），但多少還是會影響到結果的推論性

二、資料錯誤

雖然此資料庫已經經過很嚴謹的資料檢查，但使用過程中我發現仍有不少資料有輸入錯誤的情形，此類錯誤可分成兩種，第一種是數值錯誤，例如譯碼簿（Coding book）的選項只有1~2，但是實際的數據卻有4, 8, 9；第二種錯誤是邏輯錯誤，例如當我把問卷資料及存活資料串檔之後，發現1993年有問卷資料者卻在1990年就死亡，因此在資料使用上還是得非常小心。

三、量表的信效度問題

資料庫裡頭已經內建許多的量表，例如憂鬱量表（CESD）、社會支持（Social support）等，但通常會有2個問題，首先是這些量表有可能都是縮短版的而不是原始版本，因此可能會被質疑到量表的有效性；再者這些量表有些根本不是臨床上在使用或已經經過驗證的量表，例如社會支持量表就是如此

四、調查內容會變動

有些重要的議題可能在後來才開始設計到問卷裡頭，例如長期照護最近幾年在台灣才開始受到關注，因此在2007年才開始加入長期照護的相關變項，因此如果想要探討這部分變項的話就只能分析2007年之後的資料，此為限制之一；另外一個限制則是同一個量表也有可能在不同波（Wave）作了調整，例如功能性日常活動量表（IADL）在1989年只有5題但1993年後都有6題，例如憂鬱量表（CESD）在1993年是5題、1996至2003是10題，但在2007又變成了11題，這對於研究者在使用上會造成困擾。