公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

筆者最近開始在學習人工智慧當中的分支-「機器學習」,有一些學習心得想跟各位讀者分享,如圖一所示,其實人工智慧包含了機器學習(Machine learning)及深度學習(Deep learning)的內容,其實人工智慧的目的在於如何讓事物變得更聰明,能有效展現人類的智慧,在這過程中,我們會需要讓事物記憶各種情境(給予事物資料),並加以透過演算法(機器學習、深度學習)使事物能學習這些內容,並加以判斷在各種情境下該做如何的處理,舉例來說:為了讓你家的大門能去辨別「人」跟「老鼠」的差別,人可以進入你家但老鼠不行,在這過程中的一開始,為了要讓你家大門知道甚麼是老鼠、甚麼是人,你一定會讓大門開始去紀錄一堆人跟一堆老鼠的照片或相關可供辨別的資訊,讓大門能開始區分人跟老鼠的差異,最終你會希望你家大門下次遇到老鼠的時候能辨別這是老鼠,不可以進入你家,但當你阿姨的表弟的鄰居來你家的時候,大門能讓那他進來,不會出現人與老鼠都可進入或不可進入的情況。在上述的例子中,在訓練你家大門的過程中,一定有機會出現人與老鼠都可進入或不可進入的狀況,因為就像人類在學習新東西的時候總是會有出錯的可能,既然是要訓練事物模擬人類學習的過程,這樣出錯的機會當然也會存在,甚至會比人類的出現的錯誤還要更多,因為人類在學習新東西的過程,不是只是單純透過過往的資料(老鼠和人的圖片)和經驗中學習並找到其運行規則(機器學習的概念),人類的學習可以透過與其他經驗的連結來加強目前學習的成效,例如你學會了辨別人與老鼠,那這樣的學習經驗能否套用在辨別其他物體上(人與貓的差別),機器學習可能只能做到讓事物從已知的資訊(人類找到的特徵)來去預測,但深度學習能讓事物從已知的資訊中去產生人類沒找到的關鍵特徵來去得到更精準的預測,所以機器學習被視為是弱的人工(工人)智慧,而深度學習則是透過機器學習的技術達到更接近人工智慧的技術,兩者是相符相乘的,最終的目的都是希望事物能達到真正的人工(人類)智慧。

圖二說明了機器學習與深度學習的不同,兩者差別在於機器學習把學習過程把特徵擷取跟分類技術分成兩步驟,開發者必須先透過資料找到能預測output可能的特徵(人為尋找),進而透過分類技術來去預測;深度學習則是將這兩步驟同時進行,讓機器可以自動化的從資料擷取與output有關的特徵(機器尋找),透過分類技術來去預測output。如果把機器學習跟深度學習比喻成兩種人(一般人跟天才),機器學習就是一般人,一件事的完成會先拆成好幾個部分,各別完成後再組合再一起,但深度學習則是天才,一件事情可以直接從頭做到尾,中間原本應該要分開完成的過程可以直接一步到位,而且最後的成果甚至還比機器學習更好,因為天才總是可以想到一般人所沒有想到的東西,能更完美的達成任務。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

大數據Big Data的口號我們已經耳熟能詳,人工智慧AI的浪潮又席捲而來,對於頂尖的資料科學家而言,一次又一次的數據管理創新,代表更多的技術提升與推廣機會。但企業營運不在追求技術的前沿,而在落實商業數據的效益。

美國顧問機構顧能(Gartner)分析師霍華‧瑞斯納(Howard Dresner),在1980年代提出「商業智慧」概念(BIbusiness intelligence),指有系統地儲存企業內、外部資料,並加以分析,輔助商務決策。瑞斯納認為,經理人應該親自經手資料,以達到迅速決策與提高生產力的目標。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

八、使用「rms」得到 Resampling calibration Validation 指標

在「rms package」中,只提供 k-fold bootstrap 兩種驗證模式的方式,首先我們先來看 bootstrap validation 的指令非常的簡單,首先先固定種子數,否則每一次重複抽樣的樣本組合都會不一樣,於是就會得到不一樣的結果。

                  欲驗證的是 fit2 這個物件,亦即包含「Proteinuria」的完整模型;B=2000 代表一共要 2000 bootstrap samples。除非是樣本數很大(例如數萬甚至數十萬),否則建議 bootstrap samples 設至少一千次。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

七、Validation 原理說明

在現今以預測模型做為主要目標的論文,幾乎都要再報告 Resampling calibration Validation 的結果,才有機會可以通過統計審查這一關,特別是發在優質的雜誌時。

雖然在上述第五點,雖然有提到以「PredictABEL」得到一些其他 Calibration 指標,但須注意,這些指標都是利用該模式的「預測機率」算出來的。然而其實這個模式的「類推性」(generalizability)是受限制的,因為一個模式通常都是在我們同一群樣本之下,用精挑細選的方式揀擇最後留在模式中的變項,因此通常會傾向得到一個高估模式表現的結果(例如比較高的解釋力、比較低的預測誤差)。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

五、使用「PredictABEL」得到其他 Calibration Discrimination 指標

             在「PredictABEL」套件中,有許多關於 Calibration Discrimination 的指標。下方為常用的 Hosmer-Lemeshow goodness-of-fit,其中「predRisk= predRisk2」使用完整模型(預測變項包括Proteinuria + SOFA + Age + Male + DM + SBP)的預測機率。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

三、使用「pROC」比較兩個預測變項的曲線下面積

接著安裝並呼叫「pROC」(compare ROC)套件,由於更換了套件,因此此時要再 attach 一次資料集「proteinuria」。

再來創造「roc1」物件,括號前面的「proteinuria$AKI」表示資料集「proteinuria」中的「AKI」這個變項是結果變項;括號後面的「proteinuria$SOFA」則是資料集「proteinuria」中的「SOFA」這個變項是預測變項。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者曾在之前的一系列文章,介紹風險預測模型(risk prediction model)使用 area under the curveAUC)的限制(https://reurl.cc/GkX1Vy),以及應該如何評估預測模型的表現(https://reurl.cc/RdON4xhttps://reurl.cc/GkX1rZhttps://reurl.cc/W4qnLL),進而介紹預測模型的新指標-IDI NRIhttps://reurl.cc/M7Xedkhttps://reurl.cc/qDZE8N),本系列文章則以 R 軟體進行操作示範。

一、安裝軟體及套件,並匯入資料

首先讀者可先自行安裝最新版 R 軟體(https://cran.r-project.org/bin/windows/base/),並且安裝操作介面較為友善的免費版 R studiohttps://rstudio.com/products/rstudio/download/)。接著在 R studio 右下角的『Install』點擊一下,並陸續安裝以下套件(package):『rms』、『Hmisc』、『PredictABEL』以及『pROC』。

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者最近在整理自己工作上寫的程式遇到了一個問題,一般人在整理電腦檔案的時候(筆者平常的習慣),可能會用日期加上做了甚麼事作為檔案的名稱,例如:20191114資料處理,雖然這樣的整理可以讓使用者區別不同檔案的製作時間跟做了哪些東西,但隨著時間,資料夾的檔案可能會越來越多,難保使用者經過一段時間再打開這個資料夾的檔案的時候,有辦法能快速回憶所寫程式的一切(包含中間改了哪些內容),因為有些時候我們只是修改了部分的程式碼(可能是只是測試一個小功能),有時候因為方便,可能沒有另存一個新的檔案,而是覆蓋原有的檔案,這樣事後在回顧自己寫的程式時可能會有一些前後不一致的狀況,因此單靠檔案的命名整理檔案似乎不太可行(至少對筆者來說),因此如果有一個工具能幫使用者記錄寫程式的過程中,做了哪些事,以及能讓使用者任意回到之前或之後的版本,還有最重要的一點,如果使用者可以不需要存一堆檔案,只需要維持一個檔案,原本筆者認為應該沒有那麼好康的事情,但就在最近筆者開始接觸了Git這個好用的東西。

Git是一個版本控制系統(Version Control System),何謂版本控制,維基百科給的說明是,版本控制是一種軟體工程技巧,藉此能在軟體開發的過程中,確保由不同人所編輯的同一程式檔案都得到同步,如下圖所示,筆者電腦裡有一個專案的資料夾,隨著時間的變化,一開始這個資料夾裡只有3個檔案(綠色圈圈),過兩天增加到5(綠色圈圈)。不久之後,其中的2(綠色方框)被修改了,過了三個月後又增加到7個,最後又刪除了1個,變成6個。每一個「檔案的狀態變化」,不管是新增或刪除檔案,亦或是檔案內容的修改,都被視為一個「版本」。「版本控制系統」的功用就是會幫使用者記錄這些所有的狀態變化,並且可以像搭乘時光機一樣,任意切換到不同時間的版本。一個人從頭做到尾,如果檔案整理得好,也許真的都能知道開發的過程中做的所有事,但實務上開發程式經常是多人開發的,需要大家共同編輯程式,在這種情況下,由於大家未必都在同個時間去修改程式,這樣就會產生一個問題,例如,工程師A改了某個部分,工程師B可能也在其他時間改了某個部分,甚至有可能兩個工程師在同個時間修改同一份檔案,如果只是單純存取不同檔案來去管理,難保最後再匯總程式的時候,會出現到底哪一個檔案才是最新的內容的疑問。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

做出有顯著的結果,一直以來都是研究生所嚮往的,為了達到這個目標,我們能做的只有日以繼夜的持續收案,大家應該有聽過,樣本數越大越容易顯著,這句話是真的,但還要加個條件,必須維持在相同的檢定力與效果量之下,下圖以相關分析為例,假設每次收案的結果,變項的相關係數能維持在0.3,以及0.8的檢定力,那樣本數與顯著性p值呈現了反比關係,符合我們的認知。考量到研究會有時間及預算的壓力,需要設定一個收案結束點,因此都會在研究設計的章節裡交代樣本數規劃,為此筆者也推出一系列的G-power的教學文章給需要的人參考。

 

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

大家好!2020的課程多了一堂現在很熱門的R課程以及一堂POWER BI考證照的輔助課程,大家可以參考看看喔。其中POWER BI考證照課程比較特別,我把課程目的放在下面讓大家參考參考。

 

文章標籤

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼