晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

Mar 23 Mon 2020 09:08
淺談遺漏值的產生機制（Mechanism）~~晨晰統計林星帆顧問整理

在各類的醫學量化研究中，資料集中含有遺漏值（missing value）幾乎是無可避免的狀況。關於遺漏值的機制（mechanism），可分成三類：（一）Missing completely at random (MCAR)、（二）Missing at random (MAR) 以及（三）Missing not at random（MNAR）。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Mar 16 Mon 2020 09:07
Octave的介紹

筆者最近在coursera這個線上學習平台學習機器學習的課程，在機器學習實作的練習中，有用到一個Octave語言，想跟各位讀者分享，Octave是一種採用進階程式語言，主要用於數值分析的軟體，可用於解決線性和非線性問題，Octave語言其實可以把它當作MATLAB語言的替代版本，很多功能都跟MATLAB類似，但相較於MATLAB主要有幾個優點:

免費安裝(https://ftp.gnu.org/gnu/octave/windows/)
安裝容量較小(最新版本: 5.2.0, 1.71G)，MATLAB全模組約13G

稍微介紹了一下Octave後，來介紹一下Octave的實際操作，當我們透過Octave的網頁下載程式後，安裝完成後，打開後會出現以下的畫面，跟Windows內建的命令視窗類似。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Mar 09 Mon 2020 09:04
機器學習-Bias-Variance Tradeoff

在機器學習中，研究者希望產生的模型可以「準確」地去描述資料背後的模式，但怎樣才算是準確呢？「準確」可分為兩部分，準指的是偏差(Bias)小，確指的是變異(variance)小，研究者總是希望模型可以同時偏差小、變異小，但現實總是殘酷的，如下圖所示，因為模式的整體誤差(Total error)=偏差(Bias ⁾²+變異(variance)+隨機誤差(random error)，由於隨機誤差無法做調整(數據本身的誤差)，在模式整體誤差是固定的時候，為了降低偏差使模式複雜度(Model complexity)增加時，變異也會隨之增大，反之，為了降低變異使模式複雜度(Model complexity)降低時，偏差也會隨之增大，因此追求模型偏差以及變異最小是機器學習領域非常重要的課題之一。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Mar 02 Mon 2020 09:40
諮詢最常遇到的問題（三）：P值不顯著了怎麼辦

擔任統計顧問以來，我覺得最難的統計問題就是如何得到有顯著的結果，因為只要統計結果有顯著，客戶就會開心，若不顯著，顧問就會遭殃，看來統計顧問也算是要看天吃飯的一個職業了。在大環境的影響下，無論是學位論文或是期刊發表，結果顯著似乎論文被接受的必要條件，這也間接導致為什麼文獻都做出有顯著的結果，但我的卻沒有，進一步開始懷疑自己是不是資料分析有誤。

為了能夠正視P值不顯著的問題，我們必須先瞭解什麼是顯著性，於是google”顯著性”三個字，並在維基百科中，得到了顯著性的定義，嗯….想要認識顯著性P值，我覺得還是從它的故事起源聽起，最能夠瞭解顯著性P值的精髓。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：研究方法

▲top

Feb 24 Mon 2020 09:01
機器學習初探

筆者最近開始在學習人工智慧當中的分支-「機器學習」，有一些學習心得想跟各位讀者分享，如圖一所示，其實人工智慧包含了機器學習(Machine learning)及深度學習(Deep learning)的內容，其實人工智慧的目的在於如何讓事物變得更聰明，能有效展現人類的智慧，在這過程中，我們會需要讓事物記憶各種情境(給予事物資料)，並加以透過演算法(機器學習、深度學習)使事物能學習這些內容，並加以判斷在各種情境下該做如何的處理，舉例來說:為了讓你家的大門能去辨別「人」跟「老鼠」的差別，人可以進入你家但老鼠不行，在這過程中的一開始，為了要讓你家大門知道甚麼是老鼠、甚麼是人，你一定會讓大門開始去紀錄一堆人跟一堆老鼠的照片或相關可供辨別的資訊，讓大門能開始區分人跟老鼠的差異，最終你會希望你家大門下次遇到老鼠的時候能辨別這是老鼠，不可以進入你家，但當你阿姨的表弟的鄰居來你家的時候，大門能讓那他進來，不會出現人與老鼠都可進入或不可進入的情況。在上述的例子中，在訓練你家大門的過程中，一定有機會出現人與老鼠都可進入或不可進入的狀況，因為就像人類在學習新東西的時候總是會有出錯的可能，既然是要訓練事物模擬人類學習的過程，這樣出錯的機會當然也會存在，甚至會比人類的出現的錯誤還要更多，因為人類在學習新東西的過程，不是只是單純透過過往的資料(老鼠和人的圖片)和經驗中學習並找到其運行規則(機器學習的概念)，人類的學習可以透過與其他經驗的連結來加強目前學習的成效，例如你學會了辨別人與老鼠，那這樣的學習經驗能否套用在辨別其他物體上(人與貓的差別)，機器學習可能只能做到讓事物從已知的資訊(人類找到的特徵)來去預測，但深度學習能讓事物從已知的資訊中去產生人類沒找到的關鍵特徵來去得到更精準的預測，所以機器學習被視為是弱的人工(工人)智慧，而深度學習則是透過機器學習的技術達到更接近人工智慧的技術，兩者是相符相乘的，最終的目的都是希望事物能達到真正的人工(人類)智慧。

圖二說明了機器學習與深度學習的不同，兩者差別在於機器學習把學習過程把特徵擷取跟分類技術分成兩步驟，開發者必須先透過資料找到能預測output可能的特徵(人為尋找)，進而透過分類技術來去預測；深度學習則是將這兩步驟同時進行，讓機器可以自動化的從資料擷取與output有關的特徵(機器尋找)，透過分類技術來去預測output。如果把機器學習跟深度學習比喻成兩種人(一般人跟天才)，機器學習就是一般人，一件事的完成會先拆成好幾個部分，各別完成後再組合再一起，但深度學習則是天才，一件事情可以直接從頭做到尾，中間原本應該要分開完成的過程可以直接一步到位，而且最後的成果甚至還比機器學習更好，因為天才總是可以想到一般人所沒有想到的東西，能更完美的達成任務。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Feb 17 Mon 2020 09:22
全國最有公信力的一張POWER BI證照—MCSA：BI Reporting

大數據Big Data的口號我們已經耳熟能詳，人工智慧AI的浪潮又席捲而來，對於頂尖的資料科學家而言，一次又一次的數據管理創新，代表更多的技術提升與推廣機會。但企業營運不在追求技術的前沿，而在落實商業數據的效益。

美國顧問機構顧能（Gartner）分析師霍華‧瑞斯納（Howard Dresner），在1980年代提出「商業智慧」概念（BI，business intelligence），指有系統地儲存企業內、外部資料，並加以分析，輔助商務決策。瑞斯納認為，經理人應該親自經手資料，以達到迅速決策與提高生產力的目標。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：power BI

▲top

Feb 10 Mon 2020 09:03
以R軟體進行二元結果變項之風險預測模型的實作（第5篇）－晨晰統計林星帆顧問整理

八、使用「rms」得到 Resampling calibration 及 Validation 指標

在「rms package」中，只提供 k-fold 跟 bootstrap 兩種驗證模式的方式，首先我們先來看 bootstrap validation 的指令非常的簡單，首先先固定種子數，否則每一次重複抽樣的樣本組合都會不一樣，於是就會得到不一樣的結果。

欲驗證的是 fit2 這個物件，亦即包含「Proteinuria」的完整模型；B=2000 代表一共要 2000 個 bootstrap samples。除非是樣本數很大（例如數萬甚至數十萬），否則建議 bootstrap samples 設至少一千次。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Feb 03 Mon 2020 08:57
以R軟體進行二元結果變項之風險預測模型的實作（第4篇） ~晨晰統計林星帆顧問整理

七、Validation 原理說明

在現今以預測模型做為主要目標的論文，幾乎都要再報告 Resampling calibration 及 Validation 的結果，才有機會可以通過統計審查這一關，特別是發在優質的雜誌時。

雖然在上述第五點，雖然有提到以「PredictABEL」得到一些其他 Calibration 指標，但須注意，這些指標都是利用該模式的「預測機率」算出來的。然而其實這個模式的「類推性」（generalizability）是受限制的，因為一個模式通常都是在我們同一群樣本之下，用精挑細選的方式揀擇最後留在模式中的變項，因此通常會傾向得到一個高估模式表現的結果（例如比較高的解釋力、比較低的預測誤差）。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Jan 20 Mon 2020 08:55
以R軟體進行二元結果變項之風險預測模型的實作（第3篇）－晨晰統計林星帆顧問整理

五、使用「PredictABEL」得到其他 Calibration 及 Discrimination 指標

在「PredictABEL」套件中，有許多關於 Calibration 及 Discrimination 的指標。下方為常用的 Hosmer-Lemeshow goodness-of-fit，其中「predRisk= predRisk2」使用完整模型（預測變項包括Proteinuria + SOFA + Age + Male + DM + SBP）的預測機率。