機器學習分類-監督式學習－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

一般來說機器學習大致可以分為以下幾種類型：監督式學習（Supervised learning）、非監督式學習（Un-supervised learning）、半監督式學習（Semi-supervised learning）及強化學習（Reinforcement learning）。

本次筆者先從監督式學習(概念就是產生一個預測模式)開始介紹監督式學習（Supervised learning）à目的在於預測(基於使用者手上已經有每一個人目標變數的答案)

Y = f(X)

Y代表你想要預測的目標類型(類別型資料 or 連續型資料)
X代表你考慮的特徵(參數)

根據目的(Y的目標類型)可分為兩類

A)分類 (Classification): 例如:預測病人是否得病

常見的演算法有下列幾種:

1.Logistic regression:類似於一般的線性回歸，只不過Y變成二元分類變項 (例如:是否得病)

2.Decision tree (決策樹)

分類樹:當決策目標為分類變項(例如:今天會不會出門)

回歸樹: 當決策目標為連續變項(例如:房價)

<優點>

可同時處理資料中的連續變項及類別變項

模型與資料配適度高

可用於找到重要變項，可以很清楚明白分類的模式

<缺點>

對資料點特徵數或資料量太少,反而分析效率會更差

同一個分類法會出現在同一個法則，之後解釋可能會出現問題(所以必須做適當的決策樹剪枝)

3.Naive Bayes:把主觀的意見加入客觀的分析的過程，常用於語言資料的處理，例如計算A very close game這個句子是體育運動的機率以及它不是體育運動的機率

<優點>

樣本大與樣本小都適用

適合多分類的情境(類別資料)

計算不複雜

<缺點>

未考慮特徵之間的相關性(假設是每一個特徵彼此是獨立的)

連續型資料必須假設滿足某一分布(必須有先驗分布的假設)

4.KNN算法 (K近鄰法): KNN分類中，Outcome是一個分類變項。一個物件的分類是由其鄰居的「數量」去決定的，K個最近鄰居（K為正整數，通常較小）中最常見的分類決定了賦予該物件的類別。若K = 1，則該物件的類別直接由最近的一個節點賦予。KNN回歸中Outcome是連續變項。該值是其K個最近鄰居的值的平均。