<源起>
LDA最早是1936年由RA. Fisher(現代統計學之父)發展,可用於解決二元分類的問題,之後也拓展成解決多分類的問題。在機器學習的領域,LDA可做為資料降維的工具,至於為什麼要降維,可參考筆者之前寫過的文章(https://reurl.cc/7y1zON),裡面有完整的介紹,降維的目的主要是為了避免機器學習的模型的分類或迴歸能力會開始隨維度的增加而下降(如圖一所示)。
<源起>
LDA最早是1936年由RA. Fisher(現代統計學之父)發展,可用於解決二元分類的問題,之後也拓展成解決多分類的問題。在機器學習的領域,LDA可做為資料降維的工具,至於為什麼要降維,可參考筆者之前寫過的文章(https://reurl.cc/7y1zON),裡面有完整的介紹,降維的目的主要是為了避免機器學習的模型的分類或迴歸能力會開始隨維度的增加而下降(如圖一所示)。
筆者最近在研究機器學習分析時,經常會遇到一個困惱的問題,就是不同演算法經常是散落在各種不同的套件,有在使用R作統計分析的讀者應該會了解這種困擾,為了跑不同機器學習的分析筆者必須去搜尋各種模型所需要的套件,但R的套件實在是非常的多,同一個演算法可能都能找到許多不同的套件可供使用,因此筆者就需要再進一步深入研究這些套件的差異以符合筆者的需求。
就當筆者深陷需要花很多時間搜尋需要功能套件時,筆者意外地在網路上搜尋到”caret”這個強大的套件,此套件的全名是” Classification And REgression Training”,從字面上就可以知道這個套件的功能在於解決機器學習模型訓練(迴歸 or 分類問題)的一個綜合性套件,此套件整合了絕大多數機器學習常用的演算法,例如:隨機森林、KNN、Adaboost等演算法,筆者接下來將針對caret常用的幾個功能做介紹。
在之前的文章中,筆者介紹了Cox proportional hazard model(Cox 比例危險模式,接下來簡稱 Cox model)關於比例危險假設(proportional hazard assumption; 以下簡稱 PH assumption)的兩種檢定方式。第一種為檢視個別解釋變項的 Schoenfeld residual 與遞增排序後的事件存活時間的相關性。第二種為在 Cox model 中,增加解釋變項與存活時間的交互作用項,通常存活時間會先經過自然對數的轉換,亦即取 ln (survival time)。解釋變項與存活時間的交互作用項的作法很簡單,只要在資料中先創造好解釋變項與存活時間(自然對數轉換過後)的交互作用變項。或甚至是不需要在資料中另外創造變項,而是直接在統計軟體的語法中增加交互作用變項,通常是用「*」這個符號來將兩個變項作交乘的動作。因此,筆者預計在此篇文章示範如何以 R 統計軟體進行 Schoenfeld residual 檢定方式的操作與解讀。首先,會需要使用到兩個套件,分別為「survival」跟「survminer」。
安裝套件後,先呼叫,然後將資料匯入。示範資料為第四期頭頸癌病人的數據,一共 159 名病人。變項說明如下表:
在臨床試驗中,次群體分析(subgroup analysis;或稱為子群體分析)扮演了相當重要的角色。現今的臨床試驗會有主要療效指標(primary efficacy endpoint),有些則是會另外設定次要療效指標(secondary efficacy endpoint),當然有些是針對副作用設定為主要指標,那麼就變成是主要及次要安全性指標(primary and secondary safety outcomes)。
臨床試驗針對主要療效/安全性指標一定都會作次群體分析,次要療效/安全性指標則有時候也會提供,結果也許放在本文,也有可能放在附錄。因為在整體的試驗結果只提供了一個答案:「整個實驗組(例如用藥組)對上整個對照組(例如安慰劑組)的結果是否具有差異」。
在Power BI的儀表板報表中,大家看到各種令人驚艷的視覺效果(即數據圖表),其反應的內容,一般為資料庫載入後,經處理、運算,再將精美圖形呈現出來。但無論如何變化,其反應的結果都是既定事實,已經發生的。這也就是資料視覺化的範疇。但大數據還有一個面向是「預測」(forecast),只是精準的預測模型並不是Power BI的專長。所以有許多達人開發出很厲害的「預測視覺效果」(forecast visual),讓使用者可以輕鬆使用。以下介紹六個可使用的效果,它們都需要去AppSource中新增。在搜尋欄中打「forecast」,出現的前六個即是。它們有個共同特點,都是使用R的套件來進行預測,這使得Power BI的使用,從單純彙總,進步到建模,而且我們不用去寫R語言,只要先安裝好R,再安裝這些visual即可,真是太棒了。
為了在R上面執行決策樹,我們首先要在R studio上先下載”rpart-package”、 ”rpart.plot-package”,並利用library()載入,再x利用read_csv將原始資料載入到R studio做分析。
Part 2適用檔案類型:具有加權權重之資料類型,如Inverse probability treatment weighting (IPTW)(兩組加權資料)或generalized boosted modeling (GBM)- IPTW(三組或三組以上加權資料),SAS 的語法整理如下
研究者在進行存活分析時,應該都會想要繪製圖形以清楚呈現有興趣的健康事件隨著時間的發生情形,本系列的實例範例將依序介紹不同檔案類型下所使用的統計模型及EXCEL圖表繪製技巧。Part 1適用檔案類型:未配對之原始資料、使用傾向性評分匹配 (Propensity Score Matching, PSM)配對的檔案,此類資料較為單純,沒有加權權重或校正變項的考量,SAS 的語法整理如下
本集接著介紹如何利用模版,您可以用自己製作的報告,或下載現有的報告,來當作模板。網路上有很多人提供了Power BI的報告檔(.pbix檔),而且有些視覺效果非常令人驚艷,我們可以加以利用。由於每個報告檔匯入的資料源不同,可能是本機檔案、各式資料庫、甚至是網頁,這裏先示範比較簡單的形式:單一excel檔(4個工作表)。其它形式牽涉到路徑的更改,以後有機會再說。我們回到上集介紹最受歡迎模板的其中1個,Global Super Store(全球超級商店):https://community.powerbi.com/t5/Data-Stories-Gallery/Global-Super-Store/td-p/627564