在鉅量資料時代,資料是多樣性的,一般常用來分析的結構化資料只佔20%,更多的是文字資料,如訪談稿、機器記錄檔(log)、FB臉書、Twitter推特、網誌、部落格、留言版等,所獲得的資料都是一堆文字,對統計學家來說,其分析意義主要在字詞出現頻率。高出現次數代表被討論或關注的頻率高,也就是該字詞可能是一種多數人的主流意見。

所以這方面分析統計方法難度並不高,重點在於如何擷取文字資料、自動辨別字詞與計數。前者會因為來源不同而需要不同的技術或軟體,而後者則需要事先建立龐大的字詞資料庫以供比對。今天筆者介紹一種應用在部落格分析上的方法,非常簡單且容易學習,最重要的是免費。

舉例而言,如果你想學習如何搭配衣服,有很多部落格會提供穿搭建議,甚至有圖片給你參考。但是你看到的文章愈多,你愈是眼花瞭亂,不知從何著手。這時眾多的部落格文章便形成一個鉅量文字資料,我們可以找出最常出現的穿搭關鍵字詞,便可以知道現在流行什麼了。

首先,要快速擷取文字,網路達人開發的JComicDownloader是一個不錯的選擇,以JAVA為執行環境,可跨平台使用,免費、免安裝、無廣告,且開放原始碼。(https://sites.google.com/site/jcomicdownloader/step-by-step/blog-download)。它提供部落格文章批次下載功能,可選擇txthtml此兩種儲存格式,目前支援BloggerPixnetXuite和天空部落等。

下載執行後,只要輸入部落格網址,按[加入],勾選想要的文章,確定後即出現在下載任務視窗。建議先按[選項],設定儲存位置及格式,以免不知你的文章下載到那裏去了。確定後再按[下載],不多久即可看到所選的316篇文章乖乖的存在你的電腦裏囉!~~開心。(詳細操作在上述網站有圖文說明哦!)

 

 

 

A1A2A3  

 

面對這麼多的文字檔,是否有股莫名的興奮呢?因為寶藏就在這些文章中。接著,使用一個神奇的文字檔內容合併工具AeroMerge(又是一免費軟體,且已中文化,http://ftp.isu.edu.tw/pub/CPatch/fileutil/aeromerge/source/),可以將多個 TXT 文字檔的內容,合併為一個單一的文字檔(*.txt)。只要把所有TXT檔拖曳到AeroMerge即可。如果檔名或路徑有特殊符號,如,記得先改名囉!(把全部檔案選取,F2改名即可)。合併後的文字檔高達75千多列,20多萬字,真是壯觀。

 

A4  

 

到這裏,算是完成第一步:擷取文字資料,接下來該怎麼辦呢?下回待續囉!

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()