公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

筆者最近在Kaggle上開始學習如何透過Python進行資料分析的實作,因此想利用這幾個月的時間跟各位讀者分享學了甚麼,以及甚麼是Kaggle,初學者要如何在上面快速的學習與資料科學有關的內容。

這次我們先來講一下Kaggle到底是甚麼以及初學者要如何在上面快速的學習資料科學的應用好了,Kaggle是一個資料建模以及資料分析的競賽平台,成立於2010年,2017年的時候被Google公司收購,許多企業或研究單位會在上面放上各式各樣的資料,提供給加入這個平台的人,透過競賽的方式去分析這些資料並透過資料來去建模,以解決這些企業或研究單位所遇到的問題,Kaggle的目標其實很單純,其實就是透過眾人的力量來去解決現階段所遇到的問題,因為資料分析以及建模的作法非常的多元,研究單位或企業很難一開始就知道怎樣的做法能最好的解決目前所遇到的問題,所以透過競賽的方式能利用眾人的力量找到最佳的解決方法。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

我會與違章工廠結緣,是因為從事數據工作多年,深覺得資料應該與民眾生活結合才有意義。因此在2019初,選擇這個當時正發展中的議題,作為起手式。切入的角度為資料視覺化(Data Visualization),材料為公開資料(Open Data),工具為Power BI Desktop

歷經約三個月的討論與實作,終於把一個作品完成(1)。老實說,我並不是很滿意,原因有資料不夠完整,也有創意不夠多,更有覺得美感能力不足之感。但無論如何,這是一個開始,過程中收獲良多。隨著工輔法6/27修正通過,這個議題似乎有點偃旗息鼓,不過我相信只要污染的事實存在,這件事隨時會再引起大家關注。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

           在電子化醫學研究資料庫逐漸流行的時代,利用次級資料庫或是公務行政資料庫進行醫學研究逐漸普及。研究者需要運用許多資料處理的技術在大量資料點中,擷取出適合分析的樣本,再依取出的樣本進行後續的分析處理。一般研究設計中,病例組/治療組因為操作目標明確,通常是容易擷取的,但是對照組範圍很廣,且年齡、性別的分佈往往會跟病例組/治療組有很大差異 (可以想像一般年輕人比較不容易成為病例組,所以病例組的年齡常常是較年長的),造成兩者之間可比較性低。此時有許多技術操作可以挑選出具有可比較性、適合分析的對照組,以下分享一些容易操作的簡單小技巧「抽樣」來達成挑選對照組的任務。

        常見的抽樣方式「簡單隨機抽樣(Simple random sampling)」、「分層隨機抽樣(Stratified random sampling)」,其中分層隨機抽樣可再依操作方式分為「等比例隨機抽樣」跟「不等比例隨機抽樣」。以下簡單介紹透過SAS SURVEYSELECT Procedure來達成以上的抽樣操作。以上幾種常見的抽樣方式,在SURVEYSELECT Procedure語法的基本結構如下:

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

二、共變異數分析

8)回到模式的設定

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

搜尋了一下過去的文章,有寫過用SAS進行ANCOVA與詹森內曼法的教學,以及用SPSS進行詹森內曼法的教學,因此這篇將補足用SPSS進行ANCOVA的教學分析,畢竟ANCOVA應該算是在變異數分析裡比較熱門的分析方式,至於比較詳細的原理及教學,可以找一些變異數分析的專書,應該蠻好找到相關的內容。

多數的共變數分析,常出現在前後測的介入研究中,而且在多個研究領域上的接受度也是頗高的,除了使組別在後測的比較更精確之外,在統計方法的使用上也比使用獨立樣本t檢定或配對樣本t檢定來得好看。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者前些日子去長庚醫院參加「資料庫研究的研究設計方法與測量」的研討會,這個演講主要分為兩大主題「健保資料庫研究設計與應用」、「資料庫藥物流病研究的測量」,筆者想跟讀者分享演講過程學到的知識以及筆者的一些心得。

  • 健保資料庫研究設計與應用

主要講述內容包含(1) 觀察性研究會遇到的偏差(bias)(2) 常見的研究設計與如何避免研究的偏差;(3) 演講者在實務研究上的分享

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

相較於在嚴格控制情境之下的臨床試驗,目前醫學研究多數仍為以真實情境世界所蒐集的資料(real world data; RWD)所進行的真實世界研究(real world study; RDS),特別是以例行性蒐集資料(routinely collected data,以下簡稱RCD)由於資料已經預先收集,通常樣本數較大,因此很常被用來比較療效(treatment effectiveness),以台灣而言最常見的為健康保險資料庫(NHIRD或衛生福利資料科學中心)、醫院的電子病歷資料庫(electronic health records; EHRs)以及各醫學會的登錄研究(registries)。

由於網路是在近二十幾年才開始越來越發達,因此在過去來說,對於此類 例行性蒐集資料並沒有很完整的方法學體系的知識,但很幸運的是,在過去的十幾年間,許許多多的流行病方法專家與生物統計學家展示了各種偏誤(bias)、提出這些偏誤的來源以及提供了許多處理方式。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

 

由於平台的推廣,加上網路時代快速的要求,網路問卷已經愈來愈普遍,也愈來愈被大家接受。現在不只消費者調查,觀眾、遊客、員工調查也大量在使用網路問卷。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者這次將利用Joinpoint軟體官方提供的資料,來介紹Joinpoint軟體的操作與需要注意的細節(主要針對筆者在學習過程中所遇到的狀況)Joinpint軟體的操作可分為四個區塊:

操作步驟

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

參、文獻排序

在多篇文獻的排序中(包含內文引用或後續的參考文獻),中文的文獻須排列在英文文獻之前,除此之外,中英文獻的排序規則並不完全相同,以下將分開說明,並依據規則的先決條件依序呈述。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼