使用R實行決策樹 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

為了在R上面執行決策樹，我們首先要在R studio上先下載”rpart-package”、 ”rpart.plot-package”，並利用library()載入，再x利用read_csv將原始資料載入到R studio做分析。

我們分析所用到的資料是Kaggle網站上面的鐵達尼號資料(Titanic)，這個資料主要包含以下整理的內容:

我們透過head(資料,筆數)去看前10筆的數據(其中NA代表遺漏值)，tibble為tidyverse的主要資料型態(如同dataframe一樣)，但是比內建的dataframe型態方便，tibble的變項格式有以下幾種:

我們利用rpart()產生一個決策樹，其中Outcome是存活與否，自變項丟年齡、性別、票(船艙)的種類、登船港口，因為我們的outcome為二元的類別變項，所以要選擇method = “class”，我們產生決策樹的目的在於想知道哪些變數會與outcome有關以及關聯性，透過視覺化的呈現可以清楚了解變數與outcome的關係，這邊補充一個指令，在rpart()裡面可以加入cp=XXX，這個指令代表決策樹的複雜度，數字為>0的實數，數字越大決策樹複雜度越低，數字越小複雜度越高。至於cp要等於多少才是最佳，可透過交叉驗證來去得到結果，有興趣的讀者可參考這篇的操作步驟(https://www.jamleecute.com/decision-tree-cart-%E6%B1%BA%E7%AD%96%E6%A8%B9/)。

我們可以透過summary(cart.model)這個指令來去得到決策樹的統計結果，我們可以在以下的報表中得到變數重要性的結果(如紅色框框所示)，這報表主要是要跟我們說明用於建構決策樹的變項中，各變項的重要性，所有變項重要性的總合為100%，在這個決策樹的模型中，最重要的因素是性別，占比為69%，其實中後面的決策樹細節也不難發現，第一層的分支就是以性別做為分類，這也代表性別對於最後存活與否有很重要的決定性。

透過print()，可以把決策樹的決策過程列印出來，首先1)是一開始的起始，從891個人開始往下，其中342代表的是存活(1)的人數，存活率是342/891=0.3838；首先會以性別做分類，分支2)是男性(有577人)，其中109人存活，存活率為109/577=0.1889、分支3)是女性(有314人)，其中233人存活(1)，存活率為233/314=0.742；進一步會根據Age, Pclass, Embarked做分類，構成如下所示的決策樹，*代表葉子的節點。