公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

三、使用「pROC」比較兩個預測變項的曲線下面積

接著安裝並呼叫「pROC」(compare ROC)套件,由於更換了套件,因此此時要再 attach 一次資料集「proteinuria」。

再來創造「roc1」物件,括號前面的「proteinuria$AKI」表示資料集「proteinuria」中的「AKI」這個變項是結果變項;括號後面的「proteinuria$SOFA」則是資料集「proteinuria」中的「SOFA」這個變項是預測變項。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者曾在之前的一系列文章,介紹風險預測模型(risk prediction model)使用 area under the curveAUC)的限制(https://reurl.cc/GkX1Vy),以及應該如何評估預測模型的表現(https://reurl.cc/RdON4xhttps://reurl.cc/GkX1rZhttps://reurl.cc/W4qnLL),進而介紹預測模型的新指標-IDI NRIhttps://reurl.cc/M7Xedkhttps://reurl.cc/qDZE8N),本系列文章則以 R 軟體進行操作示範。

一、安裝軟體及套件,並匯入資料

首先讀者可先自行安裝最新版 R 軟體(https://cran.r-project.org/bin/windows/base/),並且安裝操作介面較為友善的免費版 R studiohttps://rstudio.com/products/rstudio/download/)。接著在 R studio 右下角的『Install』點擊一下,並陸續安裝以下套件(package):『rms』、『Hmisc』、『PredictABEL』以及『pROC』。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者最近在整理自己工作上寫的程式遇到了一個問題,一般人在整理電腦檔案的時候(筆者平常的習慣),可能會用日期加上做了甚麼事作為檔案的名稱,例如:20191114資料處理,雖然這樣的整理可以讓使用者區別不同檔案的製作時間跟做了哪些東西,但隨著時間,資料夾的檔案可能會越來越多,難保使用者經過一段時間再打開這個資料夾的檔案的時候,有辦法能快速回憶所寫程式的一切(包含中間改了哪些內容),因為有些時候我們只是修改了部分的程式碼(可能是只是測試一個小功能),有時候因為方便,可能沒有另存一個新的檔案,而是覆蓋原有的檔案,這樣事後在回顧自己寫的程式時可能會有一些前後不一致的狀況,因此單靠檔案的命名整理檔案似乎不太可行(至少對筆者來說),因此如果有一個工具能幫使用者記錄寫程式的過程中,做了哪些事,以及能讓使用者任意回到之前或之後的版本,還有最重要的一點,如果使用者可以不需要存一堆檔案,只需要維持一個檔案,原本筆者認為應該沒有那麼好康的事情,但就在最近筆者開始接觸了Git這個好用的東西。

Git是一個版本控制系統(Version Control System),何謂版本控制,維基百科給的說明是,版本控制是一種軟體工程技巧,藉此能在軟體開發的過程中,確保由不同人所編輯的同一程式檔案都得到同步,如下圖所示,筆者電腦裡有一個專案的資料夾,隨著時間的變化,一開始這個資料夾裡只有3個檔案(綠色圈圈),過兩天增加到5(綠色圈圈)。不久之後,其中的2(綠色方框)被修改了,過了三個月後又增加到7個,最後又刪除了1個,變成6個。每一個「檔案的狀態變化」,不管是新增或刪除檔案,亦或是檔案內容的修改,都被視為一個「版本」。「版本控制系統」的功用就是會幫使用者記錄這些所有的狀態變化,並且可以像搭乘時光機一樣,任意切換到不同時間的版本。一個人從頭做到尾,如果檔案整理得好,也許真的都能知道開發的過程中做的所有事,但實務上開發程式經常是多人開發的,需要大家共同編輯程式,在這種情況下,由於大家未必都在同個時間去修改程式,這樣就會產生一個問題,例如,工程師A改了某個部分,工程師B可能也在其他時間改了某個部分,甚至有可能兩個工程師在同個時間修改同一份檔案,如果只是單純存取不同檔案來去管理,難保最後再匯總程式的時候,會出現到底哪一個檔案才是最新的內容的疑問。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

做出有顯著的結果,一直以來都是研究生所嚮往的,為了達到這個目標,我們能做的只有日以繼夜的持續收案,大家應該有聽過,樣本數越大越容易顯著,這句話是真的,但還要加個條件,必須維持在相同的檢定力與效果量之下,下圖以相關分析為例,假設每次收案的結果,變項的相關係數能維持在0.3,以及0.8的檢定力,那樣本數與顯著性p值呈現了反比關係,符合我們的認知。考量到研究會有時間及預算的壓力,需要設定一個收案結束點,因此都會在研究設計的章節裡交代樣本數規劃,為此筆者也推出一系列的G-power的教學文章給需要的人參考。

 

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

大家好!2020的課程多了一堂現在很熱門的R課程以及一堂POWER BI考證照的輔助課程,大家可以參考看看喔。其中POWER BI考證照課程比較特別,我把課程目的放在下面讓大家參考參考。

 

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

    有關統計方法的諮詢,迴歸分析是最常被詢問的統計方法之一,如何操作軟體、如何解讀報表、如何呈現結果,這些相信在坊間教科書或是上網就可以找到一堆教學資料,前提是要輸入對的關鍵字,因此我們這篇就來討論『該選什麼迴歸分析』。

 

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

醫學藥物研究常見時間相依(time-dependent)的研究設計,期望能更細緻的處理隨研究追蹤時間產生變化的藥物暴露劑量,藉以強化藥物暴露與研究觀察結果之間的風險推論。藥物隨時間變化的暴露計算方式有許多操作方式,例如:累積劑量、人-季(person-quarter)或人-月(person-month)計算藥物暴露量。以下簡略說明採用人-季(person-quarter)方式計算研究藥物暴露量的資料檔處理方式。

1.準備好每個研究ID的追蹤起始日期與結束日期,如下圖所示,研究起始日期為Index_date,終止日期為End_date

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

關於PowerBI學習,大多的教材或課程都從讀取資料開始,誇耀PowerBI可連結資料來源的多樣化,遍及檔案、資料庫、線上資料等;接著,再驚嘆資料萃取(extract)、轉置(transform)、載入(load)至目的端過程的強大;最終再進入各種視覺化效果的安排。

對已在職場中服務的人,這種學習方式太過漫長,且中間很多技術成份有待克服。因此,筆者於20191017台北市記帳士公會開課時,改用模版式教學,也就是找一份合適的模版(上述課程採用NAVPBI02 - Finance - Income Statement - Import),先研究這儀表版有什麼內容?如何使用?知道我們最後會獲得什麼成果後,再來研究如何達到這一步

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

四、遺漏值處理方法

約有 19% NEJM 論文會提到遺漏值的處理方式,其中幾乎都是以單一插補(single imputation)以及多重插補(multiple imputation)為主流。這邊的單一插補指的應該是 Expectation-Maximization 方法,但是此方法是在完全隨機遺漏(missing completely at random, MCAR)的假設之下才有效。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

 

筆者分別在 2017 年評論過由權威醫學雜誌 The New England Journal of Medicine(NEJM)的一篇關於統計方法使用趨勢的評論,網址連結:https://goo.gl/IJ7eSQ。另外也曾於同年評論過美國醫學雜誌 JAMA 關於統計方法使用趨勢的一篇文章,網址連結:https://tinyurl.com/y67mxofr

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼