「用電腦協助做資料分析」簡直是一句廢話,早在我出生之前大家

就開始這樣做了,為何在我出生後30年又開始說這個議題呢?麥可

喬丹也不是NBA職籃剛開始發展就出現的,但是在NBA發展450年之

後,他把NBA推向了顛峰,讓全世界的人都更認識籃球的藝術。

 

 

在有了SASSPSS這些大型的統計軟體公司出現以後,為何還需要晨

晰統計呢?只為了倣傚?只為了追隨?絕對不是!我們是為了把統計

的藝術推向顛峰而開創的公司,即使還沒做到但是這絕對是我們唯一

的目標與理念。

 

 

先跳來思考兩個問題,你今天出門前為何不先用電腦的資料庫算一下

你要去的地點今天會下雨的精確機率,再決定你的服裝跟交通工具呢

媽媽去買菜前為何不先用迴歸模型計算好要買的菜的今日合理價格

再出門購物呢?只因為統計的應用藝術目前只有小學的程度,所以我

們還在「懵懂」的過日子!!

 

言歸正傳,我們要突破,但是突破要有方向,方向就在下面這張圖上面!

 


 

目前統計分析處理流程大約可以切分成四大塊:

 

收集資料-->資料輸入電腦-->XXXX(黑盒子,大家各自用各自的方式處理)

 -->瞭解統計的結果與應用這些資訊(商業上可能是行銷人員的工作,以

論文來說就是撰寫結論)。

 

大家最好奇的一定是黑盒子裡面是什麼,因為黑盒子裡面正是晨晰要努力

的方向,也是把統計藝術推向顛峰的關鍵,所以必須一步一步仔細的探究

,不過可以先瞭解一下黑盒子的特性就是1.過程繁複2.需要專業知識3.

許多手動的程序,這步驟最容易出錯,根據過往的統計發現專家犯錯的機

率是3成(這表示代表一般人的你犯錯機率比3成還高)4.可以模組化。不

過這個黑盒子很難經由「純電腦程式」的人才來把它模組化,因為他們通

常不瞭解A.資料型態及限制的設定(在統計分析裡面資料類型對資料分析

的影響很大,通常程式人員寫的系統都忽略這個部分,所以後續的資料分

析就很困難)。B.資料排列的方式(統計人員的資料思考模式是矩陣的而

電腦工程師的思考大多是陣列的,有用過網路上免費問卷系統的人最清楚

這個問題)。C.應用時機的模組化(電腦工程師不瞭解統計分析的實際應

用情形,所以無法做出有效益的分類與模組化的工作)。

 

 

 

說了那麼多之後,我即將開始說明黑盒子裡面的四大重點階段。

 

 

 

階段一:資料除錯

 

收集回來的資料輸入進電腦,但是必然會有錯誤的部份,那如何除錯呢?

除錯的工作越完整,對資料分析越有利,錯誤類型可以分成三種,第一種

是填寫者本身出現的錯誤(亂填或填錯);第二種是資料輸入者發生的錯

誤(手抖了一下);第三種是邏輯上的錯誤(前後答案不一致)。以目前

來說可行的除錯方式有幾種,首先從資料填寫端下手,直接由調查對像透

過電腦填寫,必然不會有資料輸入的錯誤,像利用網路問卷的方式就可以

減低這一塊的錯誤。其次像問卷王等公司有提供一套軟硬體,它是利用影

像比對的原理來掃瞄問卷,讓問卷的答案直接轉換成電腦數字,這樣也是

可以免除問卷輸入錯誤的問題。其三利用EXCEL的功能來除錯,EXCEL的資

料篩選功能可以協助你找到錯誤的數值,EXCEL裡還可以寫一些公式去檢

驗遺漏值個數及算出眾數等,都可以協助我們來清理資料。最後一種是

利用SPSS的邏輯判斷功能找出不合理的數值,當然這種功能要先寫好SPSS

的語法,並且要瞭解一些實際上的狀況,譬如以年齡跟職業來講,一般來

70歲以上的人應該都是退休了,那如果他還有填寫職業而不是填寫退休

的選項的話,我們就可以篩選出這些資料,把他們去除。除錯是黑盒子的

第一階段,但要把垃圾變黃金也沒那麼容易,當資料量很巨大的時候各式

各樣的錯誤都可能出現,偏偏電腦又會很慢,這才是考驗與挑戰。

 

------------------------------------------------------待續

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨晰部落格新站 的頭像
    晨晰部落格新站

    晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

    晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()