在認識Adaboost演算法之前,我們必須了解機器學習的眾多演算法中,有一個分支是集成式學習(或稱作整體學習),但這裡有一個重要的觀念提醒,集成學習雖然歸屬於機器學習,他是一種「訓練思路」,並不是某種具體的方法或者算法。當我們使用一種分類器無法達到很良好的預測結果時,除了改使用其他類型的分類器,可以將數個分類器的預測結果綜合考慮,藉此達到分類的效果,這即是集成式學習,用白話來說就是「三個臭皮匠勝過一個諸葛亮」的概念。
我們以答一題是非題來舉例,假如我們使用一枚硬幣來決定答案要答O是還是X,此時答對的機率是50%(答錯機率為50%),但如果這時候我們使用兩枚硬幣來決定答案,此時答對的機率是 1-(50%*50%)=75%(答錯機率變為25%),以此類推,當我們硬幣的數目來到 5 枚,答對的機率是 1-(50%)5=96.875%(答錯的機率為3.125%)。隨著硬幣的個數增加,答對這一題是非題的機率也隨之增加(答錯機率也會隨之下降,50%à25%à3.125%),這時候硬幣就是所謂的分類器,把多個分類器的結果作為分類的依據就是集成式學習。集成式學習可分為三個部分,(1) Bagging、(2) Boosting、(3) Stacking。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
只要論文提到影響或預測,就會讓人直覺聯想到要進行迴歸分析,去年年底有發表過一篇文章『該選什麼迴歸分析』,現在想想覺得不夠深入,因此這篇將分享個人的習慣作法,給有需要的人參考,就如同之前說的,線性迴歸的比例仍佔大多數,因此這篇就以線性迴歸為例來跟大家討論(不過好像沒差XDDDD)。
當拿到客戶的第三章研究方法,就會知道有沒有需要做迴歸,不過除非客戶在統計方法的章節交代很清楚,否則我們只能知道要做迴歸或不用做迴歸,那我們要做怎樣的迴歸呢?站在客戶的立場,結果一定是越顯著越好,所以就會有幾種的組合來做嘗試,分為兩個面向(1)自變項全部放入 or 挑選單變量有顯著(或p<某個標準值,如0.2)的變項;(2)要選全部進入法(Enter) or 逐步法(Stepwise),形成以下交叉表
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
筆者在之前簡單介紹了診斷型統合分析(Diagnostic meta-analysis; DMA)的傳統方法(https://reurl.cc/Ldg5jx)以及現今的主流方法(https://reurl.cc/XkgZDM)的概念及原理。本篇文章旨在介紹以免費且功能強大的 R 套件,然而 R 套件支援 DMA 的數量眾多,本篇文章主要介紹具有比較型(Comparative)功能的套件,例如可以比較不同次群體或組別。
根據筆者的搜尋,目前 R 支援 DMA 的套件至少有:mada, metatron, metadisc, meta4diag, HSROC, bamdit, NMADiagT, CopulaDTA 等。其中筆者經實際測試後,確定具有比較型功能的 R 套件有:mada、meta4diagnosis 以及 CopulaDTA,以下就進行各套件主要功能的比較與說明。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
對Power BI的中重度使用者而言,絕對可以把報表(Report,即可發布之儀表版)設計的美侖美奐,看起來不呆板無聊。但是,您需要花費數十小時,才能設計出一份令人驚艷的報告。更遑論初階學習者會花費更久!
當然,有人會說:你可以簡單的上網下載精美的Power BI報表佈局!
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
前一篇文章介紹Power BI有一個Google Analytics的App(即GA模板),可以讓你快速建立GA的視覺化報表。本篇繼續介紹後半段。
第三頁Map Analytics地圖分析,這一頁用來找出你的網站瀏覽者,來自那些國家/地區較多,人數愈多圓餅愈大。更酷的是遊標移到某個國家/地區時,還會秀出該地點人群的瀏覽量時段分布,週間那一時段最多人。不過,我覺得它用顏色來代表語言別是一個敗筆,因為語言數太多了,顏色實在難以區別。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
筆者在之前的文章中(https://reurl.cc/OXXpR9),淺白地介紹新冠疫苗研究的「有效率」與「安全性數據」,本篇文章繼續介紹新聞稿(https://reurl.cc/gmO2vV)中的專有名詞釋義。
三、如何解讀次群體分析的結果
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
上單元我們已實例示範RCS在存活分析及邏輯斯迴歸分析的應用,本單位我們繼續介紹RCS在線性迴歸分析的應用
範例三、分析醫師的執刀經驗(累積執刀數目)情形與病患住院日數的相關性
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
傳統迴歸分析模型的一重要假設為自變項和依變項呈線性關係,然實際收案資料在分析時甚少能符合此假設條件,若能以模式模擬自變量與依變項之間的非線性關係,將可更忠實呈現自變項和依變項的相關。其中Restricted cubic spline (RCS) 可清楚描述自變項與依變項之間的關係(無論線性或非線性關係),且適用於各分析模式(包括線性迴歸、邏輯斯迴歸、存活COX迴歸分析等),而成為近年最常見的非線性相關分析方法。本單元我們依序實例示範RCS在各分析的應用(使用R statistic)
首先請先安裝及執行相關package
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
在前一篇文章中,我們示範了如何在二階層橫斷面資料中(人/時間點)點選 GLMM 的操作,本篇文章將仔細介紹報表的解讀。
下圖為報表最先出現的「Case Processing Summary」,。首先要注意資料有沒有遺漏值,有可能結果變項(Y)或解釋變項(X)具有遺漏值,此時會刪除在任何一個變項具有遺漏值的樣本(listwise deletion),本例中剛好有一筆遺漏值。下方「Model Summary」則顯示機率分佈為常態分佈以及連結函數為 identity,此即為標準的 linear regression。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
筆者在不久之前示範了線性混合模式(Linear mixed model, LMM)以SPSS 25版應用於二個階層橫斷面資料的操作與解讀(請見:https://reurl.cc/9X6qrV、https://reurl.cc/m9R2LM、https://reurl.cc/ygD0EO),本系列文章則介紹二個階層縱貫面資料(longitudinal)的操作與應用。
我們使用一個真實的耳鼻喉科的資料作為示範,此資料一共包括 122 名阻塞睡眠呼吸中止症(Obstructive sleep apnea, OSA)的未成年患者,他們全部都接受扁桃腺線樣體切除手術治療,且術前及術後第三個月、術後第六個月皆有完整的 24 小時血壓測量數據,因此該 SPSS 資料一共 122*3 = 366 筆的橫列資料筆數。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()