一、緣起:
隨機存活森林(Random Survival Forest,RSF)是一種基於決策樹的集成學習方法,特別適用於分析和預測存活數據。存活數據(Survival Data)是指在研究對象隨時間的變化過程中,記錄其存活或事件發生的情況。這類數據常見於醫學研究中,如病人的生存時間分析、疾病復發風險評估等。
隨機存活森林的基本原理源於隨機森林(Random Forest,RF),其核心思想是通過構建多棵決策樹來進行預測和分類。每棵決策樹都是在不同的數據子集和特徵子集上訓練的,這樣可以降低模型的過擬合風險,提升預測的穩定性和準確性。在隨機存活森林中,每棵決策樹都會對存活數據進行分析,最終通過集成這些決策樹的結果來進行預測。
隨機存活森林的發展歷史可以追溯到20世紀80年代,當時統計學家開始探索使用決策樹方法來分析存活數據。然而,單棵決策樹在處理高維度數據和複雜關係時,往往表現不佳,易於過擬合。為了解決這一問題,Leo Breiman等人提出了隨機森林的方法,並在2008年,由Ishwaran和Kogalur引入了隨機存活森林,將其應用於存活數據分析。
二、RSF的步驟:
隨機存活森林的優勢在於其能夠處理高維度數據、捕捉複雜的非線性關係以及對缺失數據的穩健性(Robustness)。此外,隨機存活森林還具備自動化特徵選擇的功能,通過分析每個特徵對預測結果的貢獻(例如:Variable importance, VIMP) ,幫助研究人員識別重要的影響因子。
在實際應用中,隨機存活森林的構建過程通常包括以下幾個步驟:
1. 數據預處理:包括數據清理、缺失值處理、數據標準化等。
2. 樣本選擇:通過引入隨機性,從原始數據集中隨機抽取多個子集。
3. 特徵選擇:在每個子集中,隨機選擇一部分特徵進行分析。
4. 決策樹構建:基於選定的樣本和特徵,構建多棵決策樹。
5. 結果集成:將所有決策樹的預測結果進行集成,得出最終的預測結果。
三、RSF的理論基礎與數學模型:
隨機存活森林的理論基礎涉及多個統計學和機器學習的核心概念。理解這些理論基礎有助於我們更好地應用隨機存活森林技術,並對其性能進行有效評估。隨機存活森林的數學模型主要基於生存分析中的Cox比例風險模型(Cox Proportional Hazards Model)和決策樹模型。
3.1 Cox比例風險模型:
Cox比例風險模型是一種半參數模型,用於分析存活數據中的風險比(Hazard Ratio)。該模型假設風險比是時間的函數,但其影響因素(特徵變量)對風險比的影響是恆定的。Cox模型的數學表達式為:
其中h(t|X)表示在時間t後,具有特徵變量X的對象風險比,h0(t) 是基準風險函數,XB是特徵變量 X與參數B的線性組合。Cox比例風險模型在處理高維度數據和非線性關係時,往往表現不佳。因此,隨機存活森林通過結合Cox模型和決策樹方法,克服了這些局限性。
3.2 決策樹模型:
決策樹是一種樹狀結構的模型,用於進行分類和迴歸分析。在存活分析中,決策樹通過不斷劃分數據集,來最大化每個節點的純度(即最小化節點內的異質性)。在隨機存活森林中,每棵決策樹都是基於存活數據構建的,並且每個節點的劃分標準是基於存活時間和事件發生的情況。隨機存活森林中的每棵決策樹都是使用Bootstrap樣本(自助法樣本)構建的,即從原始數據集中隨機抽取一個樣本子集,並且這個過程中允許重複抽樣。這樣可以保證每棵樹的訓練數據都是不同的,從而提升模型的穩定性和泛化能力。
3.3 隨機存活森林的數學表達:
隨機存活森林的數學模型可以表示為多棵決策樹的集成,其中每棵決策樹都是基於Bootstrap樣本構建的。對於每一個輸入樣本 x,隨機存活森林的預測結果是所有決策樹預測結果的平均值。具體來說,對於 B棵決策樹,隨機存活森林的預測結果f^(x)可以表示為:
其中,Tb(x)是第b棵決策樹對樣本 x的預測結果。
參考資料:
- https://www.randomforestsrc.org/articles/survival.html
留言列表