晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

Nov 10 Mon 2014 09:38
迴歸分析-變項各自解釋力（二）

本篇將說明如何找到變項各自單獨的解釋力，不過是否符合老闆的需要，還是得視情況而定，本篇提供兩種找尋的方式，（1）仍是以R平方改變量找尋變項解釋力；（2）利用部分相關（part correlation）來計算（非偏/淨相關）。

在分享找尋變項各自單獨的解釋力之前，先利用下圖瞭解對依變項的解釋力包含哪一些，此處設定兩個自變項X1、X2，依變項Y來做介紹。

晨晰部落格新站發表在痞客邦留言(1) 人氣()

個人分類：迴歸與SEM

Nov 03 Mon 2014 09:38
迴歸分析-變項各自解釋力（一）

有關問卷調查的研究中，獨立樣本t檢定、單因子變異數分析、皮爾森相關、多元線性迴歸是推論統計常使用的分析方法，其中前三項都不致於有什麼太大的奇怪問題，但在迴歸分析裡，有些老闆會要求學生「列出每一個自變項對依變項的解釋力，好看出哪一個自變項的影響力或預測力最大」。

老闆的要求看起來似乎合理，不過通常他們認知各自變項的解釋力，和真正變項的解釋力不太相同，以下先介紹如何求出老闆要求的各自變項解釋力，在本文章採用的例子，自變項有3個（分別是X1、X2、X3），依變項名稱為Y。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(9) 人氣()

個人分類：迴歸與SEM

▲top

Oct 27 Mon 2014 09:19
投稿期刊時要注意的事－時間議題（time issue）Part 2 ~林星帆顧問整理

繼上次分享直接搜尋期刊官方網頁，到「About the journal」或「Instructions for authors」等地方尋找關於acceptance rate跟time issue的訊息（請見http://dasanlin888.pixnet.net/blog/post/394444061），後來就有醫師問我：「如果期刊網站也沒有提供，那我怎麼知道文章投出去要等多久？」，在此提供兩個小撇步給各位醫師參考。

第一招，下載幾篇目標期刊的research articles，注意看標題頁（就是有標題、摘要跟作者資訊那一頁），其實有相當高比例的期刊會將該篇文章的「publication history」列在標題頁，例如第一次收到manuscript、第一次收到revision、accept日期及publish的日期等。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Oct 20 Mon 2014 09:28
SPSS22新功能─反覆加權

筆者在2012年底曾寫了二篇文章，討論樣本加權，即樣本與母體在背景變項上有明顯不同時，對樣本分析時加權處理。

當時提到，如果你可以蒐集母體各種背景變項的聯合分布，只要將每一細格的母體比例除以樣本比例（當時文中將二者反置，在此一併更正），即可得到每一樣本的權數；但如果，你只蒐集到母體邊際分布，便須用反覆加權(Raking)，當時介紹的軟體是Xlstat。但畢竟為了一根牛毛，去養一頭牛，不值得。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Oct 13 Mon 2014 10:00
投稿期刊時要注意的事－時間議題（time issue） ~林星帆顧問整理

我的工作主要就是協助醫師做（1）研究規劃，例如估算所需樣本數計算（required sample size）及設計妥當的研究設計、（2）統計分析，包括圖表製作及結果撰寫以及（3）投稿後的處理，包括跟reviewers做回覆或答辯。這幾年的過程中學習到很多，但也發現有些資訊（跟統計沒關係的喲）我以為醫師們都會知道，結果卻是大多數醫師都不知情，因此之後我將不定期的整理並發佈一些關於醫學投稿的訊息，今天就先來個「首發」！

前陣子協助一位醫學中心的Neurology的資深醫師（V20+）進行健保資料庫的研究，就稱他為K醫師吧，平心而論該研究的grading相當不錯，研究設計非常嚴謹且研究發現非常robust且具有臨床價值。但是該醫師還有個老闆（corresponding author），說要把這篇文章投到「JAMA」（打這四個字時我心存尊敬），沒錯，這個JAMA就是那個impact factor 30分的JAMA，而且老闆心意已決，然而K醫師其實有時間上的壓力，因此來詢問我的意見，問我有什麼想法，於是乎我就驚訝地發現原來K醫師對於醫學期刊的時間議題（time issue）不是很瞭解，我在想會不會大多數醫師也不清楚，因此在此做個說明。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Oct 06 Mon 2014 10:02
地理空間統計PowerMap的圖層套疊

筆者曾在另一篇文章示範利用PowerMap及開放資料畫出「臺北市登記工廠分佈圖」，使用的是點狀圖與熱圖。如果我們想在這圖上再放進人口分佈，來看看工廠是否分佈在人口密集地區的話，那麼就要利用到圖層套疊的技術，這在傳統地理空間統計是常用的技術，但在PowerMap上同樣可以作到，而且更簡單。

圖層套疊在一般地圖軟體上，最怕碰到一個問題，就是座標系統不同。筆者曾經從台北市與新北市的開放資料平台分別下載各里圖層，結果一套疊，台北市會整個向左平移一點，以致二市有部分里是重疊的，造成筆者很大困擾。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Sep 29 Mon 2014 09:34
超級數據力演講~~亞東技術學院

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：統計應用專題

▲top

Sep 22 Mon 2014 09:36
健保資料庫（NHIRD）研究方法Ⅴ－串聯資料庫2~林星帆顧問整理

二、各檔案之間的關聯－舉例說明

（一）總覽

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Sep 15 Mon 2014 09:30
健保資料庫（NHIRD）研究方法Ⅳ－串聯資料庫1~林星帆顧問整理

在前面的幾篇文章中，我們已將健保資料庫所涵蓋的幾個主要檔案作了初步的介紹，接著我們介紹該如何「串檔」，所謂的串檔就是將同一個人在不同檔案的就醫資訊作串聯，例如我們收案條件（Enrollment）是診斷糖尿病（從門診CD檔擷取），欲探討糖尿病人之後的醫療耗用（Utilization）及預後（Prognosis），由於病人有可能會住院進而產生費用及後續的診斷（住院費用跟診斷是DD檔），因此我們需要把某個病人的CD檔跟DD檔作串聯，這就是所謂的串檔，是健保資料庫最富挑戰性的部分。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(1) 人氣()