在前面的幾篇文章中,我們已將健保資料庫所涵蓋的幾個主要檔案作了初步的介紹,接著我們介紹該如何「串檔」,所謂的串檔就是將同一個人在不同檔案的就醫資訊作串聯,例如我們收案條件(Enrollment)是診斷糖尿病(從門診CD檔擷取),欲探討糖尿病人之後的醫療耗用(Utilization)及預後(Prognosis),由於病人有可能會住院進而產生費用及後續的診斷(住院費用跟診斷是DD檔),因此我們需要把某個病人的CD檔跟DD檔作串聯,這就是所謂的串檔,是健保資料庫最富挑戰性的部分。
第一部分、串聯資料庫所需具備的知識
一、 譯碼簿
在開始串聯各個檔案來源之前,首要之務就要先知道每個檔案有哪些欄位,這部分國衛院有作了非常詳盡的譯碼簿(Coding book),譯碼簿又分成「資料描述」及「代碼說明」兩個部分,以下將詳細說明。
國衛院譯碼簿的下載網址:http://nhird.nhri.org.tw/date_02.htm。
(一) 資料描述
資料描述的部分,列出每一個檔案來源的各個欄位名稱說明與資料型態,我們舉CD檔為例,下面列出CD第一頁(共四頁)的欄位內容,首先是「序號」,指的是欄位的編號。接著是國衛院建議的英文欄位與中文欄位的名稱。資料型態「C」為文字型態(Character),N為數字型態(Numeric)。長度指的是這個變項的字元數,例如就醫日期(FUNC_DATE)的長度是8,因為它是YYYYMMDD的格式,一共8個字元。最右邊的資料描述則是一些補充說明,有時候下方會有註解說明,或是要再對照「代碼說明」,後續會再說明。
由於光CD檔的資料描述就有四頁之多,以下列出幾個比較常用到的欄位。表4列出CD檔比較常用到的欄位說明,其中序號1~6是用在於跟醫令檔(OO檔)串聯使用,除此之外並無其他用途。
就醫科別(FUNC_TYPE)也不是很常用,不過因為這個欄位剛好可以與「代碼說明」作對照,因此作展示使用。
關於診斷碼部分(ACODE_ICD9_1~ ACODE_ICD9_3),雖然列了三個,但在每一次的門診中,醫師不一定會把三個診斷都填滿,或許只會有一個診斷碼或甚至完全沒有診斷碼也有可能。手術/處置碼(ICD_OP_CODE)也是不一定會有,例如只是看個感冒,醫師可能沒有作任何的手術(例如開刀)及處置(例如氣管鏡)。
不過要稍微注意一點,由於健保資料庫從1996年就開始,在這麼長的一段期間有一些欄位的字元數(長度)在一開始可能認為1個字元就足夠,但後來可能發現不敷使用而改為2個字元,因此在讀取健保資料庫時要注意到即使是一樣多的變項,但是總長度可能不同,例如CD檔就有兩組年份,但其實差別只在於其中一個欄位的長度不同,因此讀取資料的時候要稍微注意一下。
(二) 代碼說明
在健保資料庫中,有些欄位有相對應的編碼,例如我們以上述例子中的就醫科別(FUNC_TYPE)為例,我們想知道這次門診是到什麼科就診的,可由「代碼說明」檔案中找到「就醫科別及細分科」的對照表,下圖列出其中幾種科別。若是我們到腸胃內科看診,FUNC_TYPE就是02或AA都有可能。
留言列表