有句老話說,人一胖他就喘,而企業一旦有了很多數據,就想做些分析。前幾年,數據倉庫項目先是在電信、金融行業廣泛開展;近兩年,在零售、製造業中也不斷傳來建設數據倉庫的消息。這就是因為這些企業已經沉澱了足夠數據的緣故。

 

當然,有些企業是出於經營分析的需要,有的企業則可能是看著競爭對手上了個數據倉庫,唯恐自己落後緊趕著上的。而不管如何,當企業開始它們首個數據倉庫(或稱商務智慧)項目時,大都會被一個問題困擾——應該使用什麼樣的產品組合。

 

“洋玩意兒”何其多

 

在選型之前,不妨數數現有的BI主流產品都有哪些。

數據庫方面,有DB2、Oracle、SQL Server、Teradata,早先還有專門用於數據倉庫的Redbrick(被IBM收編以後,退出歷史舞臺)。

 

ETL工具上,像Datastage、Powercenter都是比較主流的,此外,還有很多公司也有自己的ETL產品,例如SAS的ETL Server、BO的Data Integrator等。

 

OLAP工具上,則還可以細分為MOLAP(MuiltDimension OLAP,多維度型線上分析系統)和ROLAP(Relational OLAP,關係型線上分析系統),前者可以選擇Hyperion、Cognos、Microsoft公司的產品,而後者可供選擇的餘地就不多,像Microstrategy可能是目前能夠看得見市場份額比較大的,以前和Redbrick一起。此外,還有一個叫Metacube的ROLAP工具,早在2000年以後也退出市場。

 

數據挖掘產品領域,有SAS、SPSS等兩大廠家,而像IBM、Teradata也都有自己的挖掘工具。除此之外,在報表伺服器、前端工具上的選擇可就多了,其中,Cognos、BO、Brio是比較主流的。

 

從這些主流產品來看,大多是舶來品。國內也有研發BI產品的,但多限于ETL、前端以及數據挖掘產品。這種局面和國內以往的產品選型有著莫大關係,因為在這三塊領域很多項目都曾經自主從頭開發過。

 

說的要比唱的好

 

從目前各類用戶的產品選型過程來看,問題多出在以下幾個方面。

 

其一,只見樹木不見森林,只顧得降低單個工具的成本,卻忽視了總體成本。有些大企業在IT建設上一擲千金,從不在乎在購買產品上投入多少,每一塊都是選用最好的。但是,更多的企業則不得不出於成本考慮,能省則省。除了數據庫和OLAP工具兩項之外,經常動心思的地方就是,設想如果把ETL和前端展現自己來開發是不是會省點資金出來。

 

然而問題是,如果僅僅從單個產品的成本考慮而忽視綜合的項目成本,最後很可能會被難以維護的程式所困擾,甚至要完全推翻重來,這樣的成本恐怕會更高。而對於那些財大氣粗的大企業來說,即便選擇了每個領域最好的產品,組合起來也不一定就是最好的。

 

其二,全方位解決方案並不受待見。如今幾乎每家公司都號稱可以提供全方位解決方案,提供一站式服務。像IBM、Oracle、SAS都稱自己是這樣的全方案提供商,也就是說它們的產品線已經包含了數據庫、OLAP、ETL等各類工具。直接選用它們,就不用再為工具選型煩惱了。事實上,這樣的廠家還在漸漸增多,它們有的靠OEM專業產品,有的則直接購並專業工具廠商。

 

選擇這樣的產品組合可能是明智的,然而在國內還沒有完全能夠吃得開。因為中國人講究制衡,所有的蛋糕都給你一家拿去了,以後你跩起來,我豈非很被動?因此,通常還是要引入多家原廠商,讓它們合作並競爭著吧。

 

其三,評估報告難以客觀。企業負責產品選型的人,通常要求廠商提供一份評估報告,要列出幾種方案選擇,各自優劣何在,最後得出哪種方案是最適合自己的。

 

如果從字面上理解此報告,某種產品哪方面比較好,哪方面不好,這純屬扯淡。此種報告,不可能指望它的客觀性。想想,對於廠商來說,這就是一筆單子,當然將自己產品吹上天去;而對於集成商來說,或許它就在代理某種產品,當然會推薦特定產品;對於這個選型負責人來說,也許他早就對某種工具有好感,或是跟某個廠家的關係不錯,甚至有更進一步的交易。這樣的情況,想客觀一點不容易。

 

自己就曾遇到過一件事,一次客戶的系統升級,原先的系統使用幾年了。客戶提出希望連帶工具一併換了,在提出方案之後(當然是我們熟悉的方案),對方負責人也提出一個小小的要求,看ETL工具是否能夠用某某產品。不巧的是,那個工具我們公司根本沒人會,而且國內也沒幾個應用案例,沒敢答應。沒想到會後,銷售說到:“你們都傻啊,這不是明擺著嗎,人家已經做工作了,咱們要是能用那個產品就用吧,犯不著得罪客戶。”

 

選型四要點

 

其實,如果是選擇這些主流的產品的話,大家知道一句話,“沒有最好的,只有最合適的”。什麼是最合適?拋開上面提到的幕後因素,其實也就是四點需要考慮——產品成本、開發人員對這個產品的熟悉程度、有沒有類似案例,以及你跟人家廠商關係談的好不好。

 

首先看成本。NCR、IBM和Oracle的產品線完整,但齁貴。微軟的產品便宜些,可如果你的數據量夠大,恐怕又不太敢用它,就更別談那些不要錢的開源產品了。當然,成本不光是產品本身的價格決定的,後面人員學習、項目延期、客戶滿意度低都要作為成本考慮,這些隱型成本才是難以計算的。

 

再看人員的經驗。人的學習曲線是不可避免的,不要妄想人們接觸一個新產品就能立馬成為高手,能夠基於陌生的產品做出良好架構。這方面,顯然Oracle和微軟有優勢,因為在這兩家產品上有經驗的人多,好找。當然,如果你們原來的業務系統用的就是這幾家產品之一,不妨仍然用它。

 

案例比白皮書更重要。當你決定不使用一家產品,為了平衡利益關係選擇不同的產品組合時,要考慮他們之間是否相容。但如果你要是從產品的白皮書裏去尋找此類資訊,會發現說得很美,互相之間會如何完美地“無縫”相容,但實際上卻不是那麼回事。因此,不要去看這些文字的東西,要去尋找同行業類似的案例,如果同行業沒有,就去尋找數據量類似、業務複雜度類似以及相似應用的其他行業案例。

 

最後還得看你和廠家的關係,項目實施過程中免不了要人家支援。如果你是一個大企業,還好,廠家跟在你屁股後面跑,如果你是個小單位,項目預算小,對不起,那些大廠的銷售也不太願意低下他們高貴的頭。因此,還是觀察觀察,哪個廠家會可能給出更大的支援吧。

 

如果從這四方面還是沒有決定該選哪些組合,你或許只有最後一招:擲骰子。(責任編輯:崔平)


創作者介紹
創作者 晨晰部落格新站 的頭像
晨晰部落格新站

晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地)

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()