「用電腦協助做資料分析」簡直是一句廢話,早在我出生之前大家
就開始這樣做了,為何在我出生後30年又開始說這個議題呢?麥可
喬丹也不是NBA職籃剛開始發展就出現的,但是在NBA發展4、50年之
後,他把NBA推向了顛峰,讓全世界的人都更認識籃球的藝術。
在有了SAS與SPSS這些大型的統計軟體公司出現以後,為何還需要晨
晰統計呢?只為了倣傚?只為了追隨?絕對不是!我們是為了把統計
的藝術推向顛峰而開創的公司,即使還沒做到但是這絕對是我們唯一
的目標與理念。
先跳來思考兩個問題,你今天出門前為何不先用電腦的資料庫算一下
你要去的地點今天會下雨的精確機率,再決定你的服裝跟交通工具呢
?媽媽去買菜前為何不先用迴歸模型計算好要買的菜的今日合理價格
再出門購物呢?只因為統計的應用藝術目前只有小學的程度,所以我
們還在「懵懂」的過日子!!
言歸正傳,我們要突破,但是突破要有方向,方向就在下面這張圖上面!
目前統計分析處理流程大約可以切分成四大塊:
收集資料-->資料輸入電腦-->XXXX(黑盒子,大家各自用各自的方式處理)
-->瞭解統計的結果與應用這些資訊(商業上可能是行銷人員的工作,以
論文來說就是撰寫結論)。
大家最好奇的一定是黑盒子裡面是什麼,因為黑盒子裡面正是晨晰要努力
的方向,也是把統計藝術推向顛峰的關鍵,所以必須一步一步仔細的探究
,不過可以先瞭解一下黑盒子的特性就是1.過程繁複2.需要專業知識3.有
許多手動的程序,這步驟最容易出錯,根據過往的統計發現專家犯錯的機
率是3成(這表示代表一般人的你犯錯機率比3成還高)4.可以模組化。不
過這個黑盒子很難經由「純電腦程式」的人才來把它模組化,因為他們通
常不瞭解A.資料型態及限制的設定(在統計分析裡面資料類型對資料分析
的影響很大,通常程式人員寫的系統都忽略這個部分,所以後續的資料分
析就很困難)。B.資料排列的方式(統計人員的資料思考模式是矩陣的而
電腦工程師的思考大多是陣列的,有用過網路上免費問卷系統的人最清楚
這個問題)。C.應用時機的模組化(電腦工程師不瞭解統計分析的實際應
用情形,所以無法做出有效益的分類與模組化的工作)。
說了那麼多之後,我即將開始說明黑盒子裡面的四大重點階段。
階段一:資料除錯
收集回來的資料輸入進電腦,但是必然會有錯誤的部份,那如何除錯呢?
除錯的工作越完整,對資料分析越有利,錯誤類型可以分成三種,第一種
是填寫者本身出現的錯誤(亂填或填錯);第二種是資料輸入者發生的錯
誤(手抖了一下);第三種是邏輯上的錯誤(前後答案不一致)。以目前
來說可行的除錯方式有幾種,首先從資料填寫端下手,直接由調查對像透
過電腦填寫,必然不會有資料輸入的錯誤,像利用網路問卷的方式就可以
減低這一塊的錯誤。其次像問卷王等公司有提供一套軟硬體,它是利用影
像比對的原理來掃瞄問卷,讓問卷的答案直接轉換成電腦數字,這樣也是
可以免除問卷輸入錯誤的問題。其三利用EXCEL的功能來除錯,EXCEL的資
料篩選功能可以協助你找到錯誤的數值,EXCEL裡還可以寫一些公式去檢
驗遺漏值個數及算出眾數…等,都可以協助我們來清理資料。最後一種是
利用SPSS的邏輯判斷功能找出不合理的數值,當然這種功能要先寫好SPSS
的語法,並且要瞭解一些實際上的狀況,譬如以年齡跟職業來講,一般來
說70歲以上的人應該都是退休了,那如果他還有填寫職業而不是填寫退休
的選項的話,我們就可以篩選出這些資料,把他們去除。除錯是黑盒子的
第一階段,但要把垃圾變黃金也沒那麼容易,當資料量很巨大的時候各式
各樣的錯誤都可能出現,偏偏電腦又會很慢,這才是考驗與挑戰。
------------------------------------------------------待續
留言列表