當我們收集完資料並完成建檔後,在分析之前,一定要確實做到檢查的工作,檢查的重點,包含了數值的合理性,以及變數的遺漏狀況。我們用的分析方法,是最簡單及最常見的次數分配與描述性統計量,沒錯,只要分析有做到敘述統計的話,大致上都能檢查到資料的問題,下面我們將這些問題整理出來。
利用次數分配找到輸入錯誤的變數:
當我們收集完資料並完成建檔後,在分析之前,一定要確實做到檢查的工作,檢查的重點,包含了數值的合理性,以及變數的遺漏狀況。我們用的分析方法,是最簡單及最常見的次數分配與描述性統計量,沒錯,只要分析有做到敘述統計的話,大致上都能檢查到資料的問題,下面我們將這些問題整理出來。
利用次數分配找到輸入錯誤的變數:
支持向量機(Support Vector Machine,SVM)是一種常見的機器學習演算法,主要用於監督式學習的二元分類問題。關於監督式學習是甚麼東西,可參考筆者過去寫的文章說明(https://reurl.cc/jDk4QD),SVM的基本想法是在數據點之間找到一條最優的超平面,如圖表 1的黃線,將不同類別的數據點分開,以達到分類的目的。
多數論文的研究問題,都會討論到變項之間的影響或預測,此時會利用迴歸模型,分析多個自變項(X)對於依變項(Y)的預測結果,除了知道每個自變項(X)對於依變項(Y)的影預測是否顯著之外,還可以知道其預測的方向性及強度,最後,我們可以根據此迴歸結果,建立迴歸預測的方程式,針對後續新進的樣本,可以迴歸方程式中需要的自變項代入,用來得到依變項(Y)的預測結果。
本篇文章準備了示範資料,樣本數為140人,共包括了5個自變項(X)與依變項(Y)-睡眠品質分數,分數越高,代表睡眠困擾越嚴重,5個自變項(X)介紹如下。
晨晰在評估一個新案件時,可以透過論文的第三章「研究方法」進行報價,需要的重點內容包含「研究架構」、「研究假設」、「研究工具」、「資料分析方法」,另外搭配「問卷電子檔(如採用問卷收集資料時)」,當這些內容整理的越清楚,甚至可以在不需要討論的情況下,直接對案件進行報價或完成分析,本篇文章就針對這五個部分,說明如何準備這些項目。
研究架構
隨機森林是當今機器學習領域中一種強大的演算法,廣泛應用於資料科學和預測建模。它是一種集成學習方法,通過在大量的決策樹之間進行投票,來執行分類和回歸分析。隨機森林的概念和操作靈活性使其成為資料科學家和機器學習實踐者的首選之一。隨機森林採用了決策樹的優點,如解釋性和穩健性,同時克服了決策樹的過擬合(Over-fitting)問題。它通過隨機選擇特徵和訓練樣本,並將它們組合成強大的分類器或回歸器,建立一系列不同的決策樹。這樣,隨機森林能更好地處理複雜的資料集和高維度特徵。