承襲筆者前陣子寫的文章,Kaggle資料科學學習歷程(二),筆者接著介紹如何利用Python進行初步的數據清洗。我們一般拿到一個資料,當初步了解資料的內容,以及挑出可能用於之後分析的變項後,我們一般會遇到資料可能有遺漏以及資料有極端值的情況,雖然不處理這些情況下,跑統計分析的時候可能跑得出來,但跑出來的結果也許會受到這兩項因素的影響,導致出現錯誤的結果,因此筆者將針對常見的處理方式以及如何利用Python來去處理做介紹。
承襲筆者前陣子寫的文章,Kaggle資料科學學習歷程(二),筆者接著介紹如何利用Python進行初步的數據清洗。我們一般拿到一個資料,當初步了解資料的內容,以及挑出可能用於之後分析的變項後,我們一般會遇到資料可能有遺漏以及資料有極端值的情況,雖然不處理這些情況下,跑統計分析的時候可能跑得出來,但跑出來的結果也許會受到這兩項因素的影響,導致出現錯誤的結果,因此筆者將針對常見的處理方式以及如何利用Python來去處理做介紹。
在問卷調查的研究中,量表普遍被使用在問卷裡,其目的是用來收集研究對象在心理特質/能力/或態度...等抽象概念,此時在進行研究工具的介紹中,除了介紹量表的題目內容與計分規則外,關於信效度的介紹,Cronbach' alpha係數應該是論文中最常見的信度指標,甚至可以說是信度的代表,其主要目的是在衡量題目間的一致性,因此又稱為內部一致性係數,直接用來比較題目之間的同質性。
在真實情境世界所蒐集的資料(real world data; RWD)所進行的真實世界研究(real world study; RDS),醫院的電子病歷資料庫(electronic health/medical records; EHRs or EMRs)佔了相當的比重。本篇文章旨在介紹目前台灣各家醫院在開放 EMRs 的現況。
承襲筆者前陣子寫的文章,資料科學學習歷程(一),筆者最近整理了一些網路資源,關於拿到一筆資料時,該進行那些基本的處理,讓資料之後能用於建置模型或更進一步的分析。這次的內容主要先以初步的數據探勘(步驟1-3)為主,筆者也整理了一些Python的實作語法供讀者參考,之後的文章也會進一步介紹如何利用Python進行初步的數據清洗。
筆者在 2013 年曾經寫過一篇文章『醫學統計經常混淆的名詞』(https://dasanlin888.pixnet.net/blog/post/34469753),將醫學領域與其他領域的慣用使用統計名詞作了一些釐清。
本篇文章旨在討論在醫學領域很常被誤用的統計名詞,有些名詞甚至錯誤(或說不精確)名詞的使用頻率還高過正確名詞。主要討論多變項(multivariable)與多變量分析(multivariate)的差別以及雙變項/雙變量(bivariable or bivariate)還是單變量分析(univariable or univariate)的差別。
各位好朋友,我們公司的顧問每周三下午兩點半都會在FB上直播討論自己遇到的統計問題,有些問題深有些淺,兩年多來我們將這些影片整理起來,希望可以讓有需要的人能方便使用。所以如果你有統計問題,不妨可以在這邊搜尋一下,然後點進去看看顧問們討論的內容是否對你有幫助,也順便參考一下統計顧問遇到這些問題時是怎樣去思考解決的。學習是一種不斷精進的過程,我們希望透過一群人一起努力,讓這個過程更美好,謝謝大家。
筆者最近在Kaggle上開始學習如何透過Python進行資料分析的實作,因此想利用這幾個月的時間跟各位讀者分享學了甚麼,以及甚麼是Kaggle,初學者要如何在上面快速的學習與資料科學有關的內容。
這次我們先來講一下Kaggle到底是甚麼以及初學者要如何在上面快速的學習資料科學的應用好了,Kaggle是一個資料建模以及資料分析的競賽平台,成立於2010年,2017年的時候被Google公司收購,許多企業或研究單位會在上面放上各式各樣的資料,提供給加入這個平台的人,透過競賽的方式去分析這些資料並透過資料來去建模,以解決這些企業或研究單位所遇到的問題,Kaggle的目標其實很單純,其實就是”透過眾人的力量來去解決現階段所遇到的問題”,因為資料分析以及建模的作法非常的多元,研究單位或企業很難一開始就知道怎樣的做法能最好的解決目前所遇到的問題,所以透過競賽的方式能利用眾人的力量找到最佳的解決方法。
我會與違章工廠結緣,是因為從事數據工作多年,深覺得資料應該與民眾生活結合才有意義。因此在2019年初,選擇這個當時正發展中的議題,作為起手式。切入的角度為資料視覺化(Data Visualization),材料為公開資料(Open Data),工具為Power BI Desktop。
歷經約三個月的討論與實作,終於把一個作品完成(註1)。老實說,我並不是很滿意,原因有資料不夠完整,也有創意不夠多,更有覺得美感能力不足之感。但無論如何,這是一個開始,過程中收獲良多。隨著工輔法6/27修正通過,這個議題似乎有點偃旗息鼓,不過我相信只要污染的事實存在,這件事隨時會再引起大家關注。
在電子化醫學研究資料庫逐漸流行的時代,利用次級資料庫或是公務行政資料庫進行醫學研究逐漸普及。研究者需要運用許多資料處理的技術在大量資料點中,擷取出適合分析的樣本,再依取出的樣本進行後續的分析處理。一般研究設計中,病例組/治療組因為操作目標明確,通常是容易擷取的,但是對照組範圍很廣,且年齡、性別的分佈往往會跟病例組/治療組有很大差異 (可以想像一般年輕人比較不容易成為病例組,所以病例組的年齡常常是較年長的),造成兩者之間可比較性低。此時有許多技術操作可以挑選出具有可比較性、適合分析的對照組,以下分享一些容易操作的簡單小技巧「抽樣」來達成挑選對照組的任務。
常見的抽樣方式「簡單隨機抽樣(Simple random sampling)」、「分層隨機抽樣(Stratified random sampling)」,其中分層隨機抽樣可再依操作方式分為「等比例隨機抽樣」跟「不等比例隨機抽樣」。以下簡單介紹透過SAS SURVEYSELECT Procedure來達成以上的抽樣操作。以上幾種常見的抽樣方式,在SURVEYSELECT Procedure語法的基本結構如下: