本篇將說明如何找到變項各自單獨的解釋力,不過是否符合老闆的需要,還是得視情況而定,本篇提供兩種找尋的方式,(1)仍是以R平方改變量找尋變項解釋力;(2)利用部分相關(part correlation)來計算(非偏/淨相關)。
在分享找尋變項各自單獨的解釋力之前,先利用下圖瞭解對依變項的解釋力包含哪一些,此處設定兩個自變項X1、X2,依變項Y來做介紹。
本篇將說明如何找到變項各自單獨的解釋力,不過是否符合老闆的需要,還是得視情況而定,本篇提供兩種找尋的方式,(1)仍是以R平方改變量找尋變項解釋力;(2)利用部分相關(part correlation)來計算(非偏/淨相關)。
在分享找尋變項各自單獨的解釋力之前,先利用下圖瞭解對依變項的解釋力包含哪一些,此處設定兩個自變項X1、X2,依變項Y來做介紹。
有關問卷調查的研究中,獨立樣本t檢定、單因子變異數分析、皮爾森相關、多元線性迴歸是推論統計常使用的分析方法,其中前三項都不致於有什麼太大的奇怪問題,但在迴歸分析裡,有些老闆會要求學生「列出每一個自變項對依變項的解釋力,好看出哪一個自變項的影響力或預測力最大」。
老闆的要求看起來似乎合理,不過通常他們認知各自變項的解釋力,和真正變項的解釋力不太相同,以下先介紹如何求出老闆要求的各自變項解釋力,在本文章採用的例子,自變項有3個(分別是X1、X2、X3),依變項名稱為Y。
繼上次分享直接搜尋期刊官方網頁,到「About the journal」或「Instructions for authors」等地方尋找關於acceptance rate跟time issue的訊息(請見http://dasanlin888.pixnet.net/blog/post/394444061),後來就有醫師問我:「如果期刊網站也沒有提供,那我怎麼知道文章投出去要等多久?」,在此提供兩個小撇步給各位醫師參考。
第一招,下載幾篇目標期刊的research articles,注意看標題頁(就是有標題、摘要跟作者資訊那一頁),其實有相當高比例的期刊會將該篇文章的「publication history」列在標題頁,例如第一次收到manuscript、第一次收到revision、accept日期及publish的日期等。
筆者在2012年底曾寫了二篇文章,討論樣本加權,即樣本與母體在背景變項上有明顯不同時,對樣本分析時加權處理。
當時提到,如果你可以蒐集母體各種背景變項的聯合分布,只要將每一細格的母體比例除以樣本比例(當時文中將二者反置,在此一併更正),即可得到每一樣本的權數;但如果,你只蒐集到母體邊際分布,便須用反覆加權(Raking),當時介紹的軟體是Xlstat。但畢竟為了一根牛毛,去養一頭牛,不值得。
我的工作主要就是協助醫師做(1)研究規劃,例如估算所需樣本數計算(required sample size)及設計妥當的研究設計、(2)統計分析,包括圖表製作及結果撰寫以及(3)投稿後的處理,包括跟reviewers做回覆或答辯。這幾年的過程中學習到很多,但也發現有些資訊(跟統計沒關係的喲)我以為醫師們都會知道,結果卻是大多數醫師都不知情,因此之後我將不定期的整理並發佈一些關於醫學投稿的訊息,今天就先來個「首發」!
前陣子協助一位醫學中心的Neurology的資深醫師(V20+)進行健保資料庫的研究,就稱他為K醫師吧,平心而論該研究的grading相當不錯,研究設計非常嚴謹且研究發現非常robust且具有臨床價值。但是該醫師還有個老闆(corresponding author),說要把這篇文章投到「JAMA」(打這四個字時我心存尊敬),沒錯,這個JAMA就是那個impact factor 30分的JAMA,而且老闆心意已決,然而K醫師其實有時間上的壓力,因此來詢問我的意見,問我有什麼想法,於是乎我就驚訝地發現原來K醫師對於醫學期刊的時間議題(time issue)不是很瞭解,我在想會不會大多數醫師也不清楚,因此在此做個說明。
筆者曾在另一篇文章示範利用PowerMap及開放資料畫出「臺北市登記工廠分佈圖」,使用的是點狀圖與熱圖。如果我們想在這圖上再放進人口分佈,來看看工廠是否分佈在人口密集地區的話,那麼就要利用到圖層套疊的技術,這在傳統地理空間統計是常用的技術,但在PowerMap上同樣可以作到,而且更簡單。
圖層套疊在一般地圖軟體上,最怕碰到一個問題,就是座標系統不同。筆者曾經從台北市與新北市的開放資料平台分別下載各里圖層,結果一套疊,台北市會整個向左平移一點,以致二市有部分里是重疊的,造成筆者很大困擾。
在前面的幾篇文章中,我們已將健保資料庫所涵蓋的幾個主要檔案作了初步的介紹,接著我們介紹該如何「串檔」,所謂的串檔就是將同一個人在不同檔案的就醫資訊作串聯,例如我們收案條件(Enrollment)是診斷糖尿病(從門診CD檔擷取),欲探討糖尿病人之後的醫療耗用(Utilization)及預後(Prognosis),由於病人有可能會住院進而產生費用及後續的診斷(住院費用跟診斷是DD檔),因此我們需要把某個病人的CD檔跟DD檔作串聯,這就是所謂的串檔,是健保資料庫最富挑戰性的部分。