公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

目前分類:生物醫學統計 (151)

瀏覽方式: 標題列表 簡短摘要

我的工作主要就是協助醫師做(1)研究規劃,例如估算所需樣本數計算(required sample size)及設計妥當的研究設計、(2)統計分析,包括圖表製作及結果撰寫以及(3)投稿後的處理,包括跟reviewers做回覆或答辯。這幾年的過程中學習到很多,但也發現有些資訊(跟統計沒關係的喲)我以為醫師們都會知道,結果卻是大多數醫師都不知情,因此之後我將不定期的整理並發佈一些關於醫學投稿的訊息,今天就先來個「首發」!

前陣子協助一位醫學中心的Neurology的資深醫師(V20+)進行健保資料庫的研究,就稱他為K醫師吧,平心而論該研究的grading相當不錯,研究設計非常嚴謹且研究發現非常robust且具有臨床價值。但是該醫師還有個老闆(corresponding author),說要把這篇文章投到JAMA(打這四個字時我心存尊敬),沒錯,這個JAMA就是那個impact factor 30分的JAMA,而且老闆心意已決,然而K醫師其實有時間上的壓力,因此來詢問我的意見,問我有什麼想法,於是乎我就驚訝地發現原來K醫師對於醫學期刊的時間議題(time issue)不是很瞭解,我在想會不會大多數醫師也不清楚,因此在此做個說明。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

二、          各檔案之間的關聯-舉例說明

(一)  總覽

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在前面的幾篇文章中,我們已將健保資料庫所涵蓋的幾個主要檔案作了初步的介紹,接著我們介紹該如何「串檔」,所謂的串檔就是將同一個人在不同檔案的就醫資訊作串聯,例如我們收案條件(Enrollment)是診斷糖尿病(從門診CD檔擷取),欲探討糖尿病人之後的醫療耗用(Utilization)及預後(Prognosis),由於病人有可能會住院進而產生費用及後續的診斷(住院費用跟診斷是DD檔),因此我們需要把某個病人的CD檔跟DD檔作串聯,這就是所謂的串檔,是健保資料庫最富挑戰性的部分。

 

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

瞭解了「資料來源」之後,我們要明白到一件事情,由於健保的原始資料過於龐大,對研究者而言非常難以使用,因此國衛院會將健保局提供的資料建置為各類加值資料檔案,以利研究者使用,主要分成兩種:「制式光碟片」與「特殊需求申請」,其中制式光碟片又包括了系統抽樣檔、特定主題分檔及抽樣歸人檔,以下將稍作說明。

一、          資料加值服務所提供的資料組合

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

(一)  原始資料檔

接著是原始資料檔,相較於基本資料檔,也就是無法一次拿到全台灣2300萬人的所有資料,而是要按照申請案的類型,看是「系統抽樣檔」或是「特殊需求申請」而提供某種特定個案的資料。按照我目前使用經驗,以下幾個檔案最常使用。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

健保資料庫(National health insurance research database, NHIRD)目前可謂是醫學領域的顯學,在PubMed搜尋「NHIRD」的關鍵字,可發現2012年後每年至有200-300篇的文章被刊登,並且速度仍在增加當中,因此對於臨床醫師而言,已經不得不對健保資料庫有所瞭解了。

本系列文章旨在讓讀者對於健保資料庫的資料結構有所瞭解,當我們知道健保資料庫各次資料庫分別有什麼變項之後,可以幫助我們著手進行研究設計,最後我將討論健保資料庫的優勢以及面臨到的挑戰。

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

 

針對類別變項進行交叉分析時,通常會利用卡方檢定(Chi-square test)或費雪精確性檢定(Fisher's exact test)來進行考驗,而醫護領域有時候還會計算出「相對風險」(Relative risk, RR)或「勝算比」(Odds ratio, OR)來作呈現,本篇文章將以此兩項指標為主題進行介紹。

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

目前為止我們已經知道要如何輸入資料,接著我們就要以SPSS為例,讓大家知道如何在SPSS裡頭分析time-dependent covariateCox regression

我們延續之前另外一個例子,即心房性頻脈的負荷(Burden of atrial tachyarrhythmia, AT burden)與中風(Stroke)的關係之研究,在這個研究中,當病人首次安裝心跳節律器(Pacemaker, PM)之後,每一年測量一次病人在這一年之間發生心房性頻脈的時間,因此如果病人的追蹤期有幾年就會有幾筆的資料。

晨晰部落格新站 發表在 痞客邦 留言(5) 人氣()

前我們已經介紹time-dependent covariate的使用時機,現在我們就開始示範資料的輸入方式,仍以CABG手術為例子。

2列出四位病人的資料輸入方式,可以注意到第一位病人的資料筆數有兩筆,第一筆資料是從CABG術後(1月)到發生BSI日期(2月),第二筆資料是從發生BSI日期(2月)到病人死亡日期(5月)。首先,先關注第一筆資料,由於第一筆資料的「終點」是發生BSI2月,因此在這一筆資料上面所輸入的變項應該要算是「起點」的變項,也就是CABG術後(1月)時的變項,既然如此,由於第一筆資料尚未發生BSI感染,因此BSI這個變項就要輸入「0」,因為病人沒有死亡因此Death也為「0」;到了第二筆資料時,病人有發生BSI感染了,而且病人最後死亡,因此BSI輸入「1」且Death也為「1」。此時我們可注意到,BSI這個變項是自變項,但是它在兩筆資料的數值是會改變的(第一次是0,第二次是1),因此這就算一種「time-dependent covariate」的形式。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

第二個例子也是心臟科的例子,即心房性頻脈(Atrial tachyarrhythmia, AT)與中風的關係〔Circ Arrhythmia Electrophysiol. 2009;2:474-480.〕或心房顫動(Atrial fibrillation, AF)與中風的關係〔N Engl J Med 2012;366:120-9J Am Coll Cardiol 2005;46:1913–20〕,無論是ATAF,都符合之前我們對time-dependent covariate的定義:「研究追蹤期間會改變的治療或測量」,在這一類的研究中,AT/AF的測量是固定一段期間測量一次,例如是每3個月測量一次病人的AT/AF的負荷量(AT/AF burden)有多少。假使有一位病人有4筆資料,那就代表這位病人剛好追蹤期為一年,假使有位病人只有追蹤3個月時就發生中風事件(Endpoint)或是失去追蹤,那麼這位病人只會有1筆資料。

 

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

之前曾經介紹一系列關於存活分析(Survival analysis)的應用與原理,一共包括四篇,其中第四篇為最重要的Cox regression,但是該篇文章所介紹的Cox模式都只涉及到最基礎(但也最常用)的模式,但是其實Cox model本身有很多種延伸的模型,其中最為重要的一種就是「時間相依共變數」(Time-dependent covariate),又稱之為隨時間變動的共變數(Time-varying covariate)。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在應用統計分析作學術研究的各個領域中,醫學領域可說是其中的非常大宗,據統計目前全世界約有3萬種的醫學期刊,約佔了科技期刊的四分之一之多(資料來源:baike.baidu.com/view/92671)。而在這塊這麼大的市場中,我觀察到在醫學領域所使用的統計名詞,經常與統計教科書有相當多的出入,本篇文章擬將這些常見的混淆之處作個釐清。

 

晨晰部落格新站 發表在 痞客邦 留言(5) 人氣()

約三年前我曾經寫過一篇GEE的簡介文章,廣受許多的朋友的迴響(http://dasanlin888.pixnet.net/blog/post/34468724),而這幾年使用GEE的比例越來越高,尤其是護理領域特別偏好使用GEE,有些問題常常重複地被提起,因此本篇文章旨在將幾點比較常被提問的問題作個釐清。

 

晨晰部落格新站 發表在 痞客邦 留言(7) 人氣()

縱貫性資料分析(Longitudinal data analysis, LDA)在現今的研究中已經逐漸變成主流,因為LDA考慮一個個體2次以上的重複測量的資料,在研究設計與統計的觀點比較能有效推論因果關係(Causal effect),因此近來開始蔚為風行。

而國內有些大型的資料庫分析正符合LDA的條件,例如以國民健康局的「台灣地區中老年身心社會生活狀況長期追蹤」調查系列為例,此資料庫從1989年即開始追蹤中老年人的資料,請訪員作問卷調查,問卷內容涵蓋甚廣,包含家戶資料、就醫資料、生活型態、身心社會功能等等。接著此資料庫分別於19931996199920032007再進行了五波的後續追蹤,期間由於個案過世的情形因此在19962003年再增加了另外2族(Cohort)的長者資料,因此可知此資料庫非常符合LDA的需求,大多數的個案都有2次以上的資料,很適用於縱貫型的統計分析,例如存活分析、GEE分析或HLM分析(又稱為LMMMultilevel分析)。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

上一篇文章已經教過大家以陽性預測值(PPV)及陰性預測值(NPV)計算得出罹患疾病的機率,只不過那兩個公式仍然有些繁複,在臨床實務上不易使用。在本文,即將介紹結合貝式機率(Bayesian probability)及盛行率(Prevalence)所推導得出的前後測機率(Pretest and posttest probability)及前後測勝算(Pretest and posttest odds)的轉換。

 

晨晰部落格新站 發表在 痞客邦 留言(2) 人氣()

 

前兩篇文章我們已經介紹過敏感性(Sensitivity)、特異度(Specificity)、陽性概似比(Positive likelihood ratio, LR+)與陰性概似比(Negative likelihood ratio, LR-)的定義,此篇文章介紹如果已知檢測結果以及疾病的盛行率,那麼究竟罹患或沒有罹患某疾病的機率為多少,例如:「如果檢驗陽性,那麼患病的機率是多少」或「如果檢驗陰性,那麼沒有患病的機率是多少」,前者叫作陽性檢測率/陽性預測值(Positive predictive value, PPV),後者叫作陰性檢測率/陰性預測值(Negative predictive value, NPV)。待會會作很多的運算,都是基於圖2的幾個名詞去求出的,因此再把圖2列在以下以供各位查照。

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

上篇文章我們已經介紹過敏感性(Sensitivity)及特異度(Specificity)的定義,現在有個很重要的問題要詢問:「如果檢驗陽性,那麼患病的機率是多少」或「如果檢驗陰性,那麼沒有患病的機率是多少」,在回答這個問題之前,我們要先介紹一個很重要的名詞-概似比(Likelihood ratio)。

 

晨晰部落格新站 發表在 痞客邦 留言(2) 人氣()

醫學篩檢(Medical Screening)旨在從尚未發病的健康族群之中找出可能罹患疾病的人。以癌症篩檢為例,目前在台灣有4種癌症的醫學篩檢是免費提供的,包括30歲以上的婦女每年一次免費子宮頸抹片檢查、45歲以上的婦女每兩年一次乳癌乳房X光攝影檢查、50歲以上的每兩年一次大腸癌糞便潛血檢查以及30歲以上每兩年一次口腔癌口腔黏膜檢查。

 

晨晰部落格新站 發表在 痞客邦 留言(3) 人氣()

【2018-10-8經網友提醒,發現舉例錯誤,因此更正】

在醫學領域裡頭常常將依變項(dependent variable / outcome)定義為二元的變項(binary / dichotomous),有一些是天生的二元變項,例如病人死亡與否、病人洗腎與否;有些則是人為定義為二元變項,例如心臟科常將病人的左心室射血分數(left ventricular ejection fraction, LVEF)小於40% (or 35%) 為異常,或腎臟科將病人的腎絲球過濾率(estimated Glomerular filtration rate, eGFR)定義為小於60%為異常。

晨晰部落格新站 發表在 痞客邦 留言(8) 人氣()

 

本篇文章旨在介紹醫學領域常見的研究設計(research design),原則上只介紹同時有實驗組與對照組研究設計(因為最常見),下圖列出簡易版的研究設計分類圖(註:在流行病學所定義的研究設計比以下的圖還複雜許多,本例只是用最簡化的例子作示範),大致可分成前瞻性研究(prospective study)及回溯性研究(retrospective study)兩個類別,其中前瞻性研究至少包括兩種主要的研究設計:①臨床實驗(clinical trials)②世代研究(cohort study),而回溯性研究則至少包括最常見的病例對照研究(case-control study)。

晨晰部落格新站 發表在 痞客邦 留言(7) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼