另類文字探勘技術（續）－晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

前一篇提到，擷取到了鉅量的文字，這是一個巨大的寶藏，當然要用力挖掘。但是要怎麼挖呢？總不能用手（人工）吧！那要挖到民國幾年？介紹大家二個工具。

第一個是中研院有一個中文詞知識庫小組，他們研發一套具有新詞辨識能力的中文斷詞系統，此一系統包含一個約十萬詞的詞彙庫，該系統除了有線上展示版本外，亦有商業版本供業界使用。有興趣者可搜尋＂中文斷詞系統＂。該系統也提供非營利學術研究使用的簡易版線上分詞系統，詳情請參閱http://ckipsvr.iis.sinica.edu.tw。

因前述擷取的部落格文字太多，為示範方便起見，我選紅樓夢第一回，叫「甄士隱夢幻識通靈　賈雨村風塵懷閨秀」來示範。這篇小說有7431個字，複製進分詞系統，經分詞運作後，選擇「包含未知詞的斷詞標記結果」，就會出現分詞結果（如附圖）。圖中可以看到每個詞後都接一個英文，代表詞性，例如A代表形容詞，N開頭的代表名詞……等等。

當然，接著你可能會問，要怎麼計算每個詞的出現次數呢？哈哈，當然不會叫你自己數，在「線上資源」連結，有提供一個「詞頻統計程式」，可以利用。統計結果進EXCEL排序後，籂選出名詞（詞性為N開頭），可以看到「士隱」、「雨村」、「道人」，這幾個詞是最出現最多的。