另類文字探勘技術 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

在鉅量資料時代，資料是多樣性的，一般常用來分析的結構化資料只佔20%，更多的是文字資料，如訪談稿、機器記錄檔（log）、FB臉書、Twitter推特、網誌、部落格、留言版等，所獲得的資料都是一堆文字，對統計學家來說，其分析意義主要在字詞出現頻率。高出現次數代表被討論或關注的頻率高，也就是該字詞可能是一種多數人的主流意見。

所以這方面分析統計方法難度並不高，重點在於如何擷取文字資料、自動辨別字詞與計數。前者會因為來源不同而需要不同的技術或軟體，而後者則需要事先建立龐大的字詞資料庫以供比對。今天筆者介紹一種應用在部落格分析上的方法，非常簡單且容易學習，最重要的是免費。

舉例而言，如果你想學習如何搭配衣服，有很多部落格會提供穿搭建議，甚至有圖片給你參考。但是你看到的文章愈多，你愈是眼花瞭亂，不知從何著手。這時眾多的部落格文章便形成一個鉅量文字資料，我們可以找出最常出現的穿搭關鍵字詞，便可以知道現在流行什麼了。

首先，要快速擷取文字，網路達人開發的JComicDownloader是一個不錯的選擇，以JAVA為執行環境，可跨平台使用，免費、免安裝、無廣告，且開放原始碼。（https://sites.google.com/site/jcomicdownloader/step-by-step/blog-download）。它提供部落格文章批次下載功能，可選擇txt或html此兩種儲存格式，目前支援Blogger、Pixnet、Xuite和天空部落等。

下載執行後，只要輸入部落格網址，按［加入］，勾選想要的文章，確定後即出現在下載任務視窗。建議先按［選項］，設定儲存位置及格式，以免不知你的文章下載到那裏去了。確定後再按［下載］，不多久即可看到所選的316篇文章乖乖的存在你的電腦裏囉！~~開心。（詳細操作在上述網站有圖文說明哦！）

面對這麼多的文字檔，是否有股莫名的興奮呢？因為寶藏就在這些文章中。接著，使用一個神奇的文字檔內容合併工具AeroMerge（又是一免費軟體，且已中文化，http://ftp.isu.edu.tw/pub/CPatch/fileutil/aeromerge/source/），可以將多個 TXT 文字檔的內容，合併為一個單一的文字檔(*.txt)。只要把所有TXT檔拖曳到AeroMerge即可。如果檔名或路徑有特殊符號，如♥，記得先改名囉！（把全部檔案選取，F2改名即可）。合併後的文字檔高達7萬5千多列，20多萬字，真是壯觀。