前一篇提到,擷取到了鉅量的文字,這是一個巨大的寶藏,當然要用力挖掘。但是要怎麼挖呢?總不能用手(人工)吧!那要挖到民國幾年?介紹大家二個工具。

第一個是中研院有一個中文詞知識庫小組,他們研發一套具有新詞辨識能力的中文斷詞系統,此一系統包含一個約十萬詞的詞彙庫,該系統除了有線上展示版本外,亦有商業版本供業界使用。有興趣者可搜尋"中文斷詞系統"。該系統也提供非營利學術研究使用的簡易版線上分詞系統,詳情請參閱http://ckipsvr.iis.sinica.edu.tw

因前述擷取的部落格文字太多,為示範方便起見,我選紅樓夢第一回,叫「甄士隱夢幻識通靈 賈雨村風塵懷閨秀」來示範。這篇小說有7431個字,複製進分詞系統,經分詞運作後,選擇「包含未知詞的斷詞標記結果」,就會出現分詞結果(如附圖)。圖中可以看到每個詞後都接一個英文,代表詞性,例如A代表形容詞,N開頭的代表名詞……等等。

當然,接著你可能會問,要怎麼計算每個詞的出現次數呢?哈哈,當然不會叫你自己數,在「線上資源」連結,有提供一個「詞頻統計程式」,可以利用。統計結果進EXCEL排序後,籂選出名詞(詞性為N開頭),可以看到「士隱」、「雨村」、「道人」,這幾個詞是最出現最多的。

 

A1

 

  

 

A2

 

A3

 

 

如果,看倌覺得有點麻煩的話,第二個方法就是懶人法了,那就是直接利用文字雲(http://timc.idv.tw/wordcloud/)。把文章貼進去後,可得到下圖。大大的「士隱」、「雨村」、「道人」、「那僧」、「笑道」極為明顯,有眼睛的人都可以看出那些字詞最多。

 

 

A4  

 

比較這兩者,可謂各有所長。斷詞系統背後有豐富詞庫和堅實理論基礎,而且標註詞性,可以讓使用者依不用詞性需求,如名詞、形容詞、動詞等,快速找出高頻字詞;而文字雲雖然不知其背後原理,但使用方便、快速,而且視覺化呈現方式令人一目了然。而且這次PK的結果不分高下,找出的字詞差不多。

大家不妨自行找文章來試試,看看到底大院士的功力高,還是小工程師的創意強?

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()