<源起>
LDA最早是1936年由RA. Fisher(現代統計學之父)發展,可用於解決二元分類的問題,之後也拓展成解決多分類的問題。在機器學習的領域,LDA可做為資料降維的工具,至於為什麼要降維,可參考筆者之前寫過的文章(https://reurl.cc/7y1zON),裡面有完整的介紹,降維的目的主要是為了避免機器學習的模型的分類或迴歸能力會開始隨維度的增加而下降(如圖一所示)。
<要解決的問題>
1.Which set of parameters can best describe the association of the group for an object?資料中的哪些特徵跟想要分類的組別有大的關聯(目的在於降維,找重要的特徵)
2.What is the best classification preceptor model that separates those groups?找到一個最好的分類器去區別不同的組別(目的在於分類)
<LDA分析的假設>
A.資料中的連續變項(特徵變數)必須服從常態分佈(高斯分佈)
B.資料中的連續變項(特徵變數)必須符合變異數同質性的假設
C.資料中的樣本資料(所有的特徵變數)都是從母體隨機抽樣的
D.資料中的特徵變數間必須是獨立的,沒有明顯多重共線性的存在
<LDA實例介紹>
下圖是說明使用LDA前後資料的改變,今天我們想透過身高跟體重去區別是男生還是女生,圖二是做LDA分析前,我們繪製身高與體重的散佈圖,並把資料點標記是男生或女生,從圖形上應該可以看的出來,男女生的資料點基本上大多都混在一起,沒有一個明顯的分隔。因為如此,我們想要找一條線(平面)去把男生女生根據身高體重做分組,我們透過LDA後,圖三男女生的資料被一條黑線有效地做分類,除了幾個點有重疊之外,基本上男女生的資料點被有效的分隔,因為我們目前只有使用身高體重做男女生的分組,但如果今天再增加一個特徵變數,例如:年齡,我們也許就可以把重疊的點做更有效的分隔。
線性判別分析(Linear Discriminant Analysis, LDA)與主成分分析(Principal Component Analysis, PCA)的比較:LDA跟PCA都屬於資料降維的方法,但LDA是資料已經有已知的分組變項,LDA的目的在於做資料的分組,PCA資料沒有已知的分組變項,雖然都可以降維,但PCA缺少了分類的功能,PCA是針對特徵變數組做分群的動作。
除此之外,兩種方法針對降維的方式也不同,LDA選擇分類性能最好的投影方向,而PCA選擇樣本點投影具有最大變異程度的方向。兩者都可作為資料降維方法,但LDA有最多降維成k(幾個特徵)-1個維度的限制,但PCA則沒有這個限制。從圖五也可以看出,LDA降維後的投影,藍點跟橘點會被分成兩堆,不會有重疊;但PCA降維後,藍點跟橘點會有重疊,這也代表LDA相較於PCA多了一個分類的功能。
參考資料:
留言列表