編輯導語:在如今這個資料化時代,資料對於個人和企業來說,其重要性都不可小覷。因此,有不少企業強化了資料工作,加強企業資料建設。接下來,本文作者整理了一份超全面的企業資料產品的選型對比,希望對大家有所幫助。
前言:
這個從上至下都在強調數字化轉型的時代,越來越多公司重視資料,也越來越多的企業有資料建設的需求。
企業無論做任何資料工作,必然要有一定的資訊化基礎,也要有資料化建設的基礎,少不了資料平臺、資料應用工具,資料管理工具等。
關於企業資料建設這塊,本人從事了近7年,從技術到專案管理,做過乙方也做過甲方,也有多年和各乙方廠商打交道的經驗,遂來分享選型“內幕”。
涉及到的產品有:數倉、大資料平臺、報表、BI、資料中臺、資料治理等。
一、數倉資料倉庫算是一個解決方案,視企業需求有不同架構(傳統數倉、資料集市、大資料平臺等),架構下有很多分層和元件,比起工具更需要架構師能力,具體原理就不講了。
關於數倉的選型主要涉及:資料儲存方案、ETL、還有前端應用。
底層的資料倉庫伺服器通常是一個關係資料庫系統,常用的方案有Oracle、db2、還有greenplum、teredata等資料倉庫專業解決方案。
- 傳統的關係型資料庫有:oracle、mysql、DB2。
- 大規模並行處理資料庫:Vertica、Teradata(商業)、Greenplum (開源)。
Teradata老江湖了,銀行業使用較多,但成本也是真的貴,目前我們做專案較多的是用Greenplum,算是業界最快和最高性價比的高階資料倉庫解決方案,Greenplum是基於PostgreSQL的,於2015年開源。
我知道的國內四大行有3家在用,5大物流公司有4家在用,不少公司在從Teradata遷移到GP。
大資料平臺主流的是:Hadoop+Hive。這套方案有多通用不用多說了,後面說到的大資料平臺廠商也大多基於這個來設計平臺產品。
ETL工具,kettle、Tablend和Penthao用的較多。
Talend:基於Eclipse,具有很好的擴充套件性、穩定性以及可定製化(可以自己開發eclipse外掛),並且服從Eclipse標準(如檔案目錄結構都是程式設計師熟悉的結構)。
Talend具有很好的嵌入性,因為它生成的是Java程式碼,這些程式碼可以很好的和其他系統結合在一起,這就要求使用者會java。
Penthao是一個老牌工具,2001年就釋出了第一個版本,Kettle是Penthao整個解決方案的一個元件,用來進行資料整合。
它也是基於java開發的,但是它不要求使用者會java,將底層實現細節都隱藏了。主要的缺點是和talend相比,它的擴充套件性較差。由於它很難擴充套件,所以在社群中可用的元件就比較少。
前端應用工具主要就是報表、BI和資料探勘,前兩者的選型後面會細講。
二、大資料平臺2013年左右,Hadoop體系的不斷完善,標誌著大資料應用場景可以被滿足了。這時候就有前沿的一些企業開始做大資料平臺,廠商特別多,主流的就說3個吧,華為、星環還有新華三。
這幾年這些廠商也開始往“資料中臺”的概念上走。但是畢竟是傳統軟體廠商,有點搞不太懂網際網路公司提的“資料中臺”到底是啥,貌似跟他們做的大資料平臺沒啥區別。
其實所有大資料平臺都已經具備了“資料中臺”的基礎能力,你拿大資料平臺和資料中臺的產品對一下,其實各種底層架構和功能大體都一樣。
對於大部分企業來講,中臺那一套還是適合網際網路運營商銀行的“有錢主”、“資料巨無霸”,真的中臺更強調資料服務化,但普通企業有幾家真的達到這個痛點,還是老老實實做好資料化管理吧。
如果你的公司有龐雜的業務系統,資料量達到PB級,海量資料的儲存、計算的需求,三個裡面選型吧,對比下方案。
三、報表現在還在做報表的廠商已經很少了,國內主流的就帆軟finereport和潤乾,起初很火的水晶報表最近也見的少了,還有開源的工具jaspereport也用的挺多。
選型方面,普通小公司,1~2個數據工作者,建議採購一個報表平臺就行了,不用急著上BI。
帆軟finereport功能齊全,生態和服務很好,招報表工程師也比較好招,價格比其他廠商略貴,品牌和服務溢價也能理解,畢竟國內top1。
潤乾已被帆軟打壓的走低價,號稱一套萬把塊錢,應該還會按併發抬價,還不算服務和專案實施,乙方可以考慮。
四、BI平臺BI在零幾年的時候都是國外市場的天下,BO、Brio、Cognos、MSTR等,都是老牌BI廠商,我做純技術的時候就大量使用他們的產品。東西都不便宜,而且是按產品+使用者雙重收費,不太划算。
架構也是真的複雜,上手難度對比現在網際網路時代產品的使用風格,也是確實難。
早期國內市場只有報表,但凡BI相關的大單都被國外廠商壟斷,但是後面BI的需求越來越明顯,就和當初資訊化產業發展類似,中小型企業的需求逐漸顯露。
於是國內也就開始發展BI了,比如帆軟BI、BDP等。東西也不差,價格比國外的美麗多了,而且基本都只是限定伺服器,不限定使用者數,怎麼用都OK。
再到後來,tableau、powerBI這倆工具型產品火了起來,有很多擁護的個人使用者,上手確實好用,但是在企業級應用場景,要看效能和併發成本,就見仁見智了。
不過用BI,就不是2、3個人的事情了,必須得建數倉,然後再做各種視覺化、多維分析等。所以就得有數倉工程師、ETL工程師、BI工程師等崗位。
當然,你要是牛,一個人全兼了也沒問題,很多單位招人也確實要兼做。
中大型公司,有好幾個業務系統的,建議採購BI系統,什麼數倉、指標體系、固定報表、多維分析、資料視覺化就都有了。建設期得多幾個人,建好之後就很舒服了,業務固定的話,留兩個人維護就OK了。
五、資料中臺“中臺”的概念就是阿里推廣開的。
阿里從SuperCell學過來這一套,然後化為阿里內功後,再向外推廣。“資料中臺”也是那時候一起推廣出來的,所以主要的廠商都是阿里系的人出來創業的公司。
袋鼠雲、數瀾、奇點雲都是阿里的P9出來創辦的公司,技術都差不多。
- 袋鼠雲是阿里DBA團隊出來的,比較雞賊,牢牢的跟阿里綁死,阿里接單,袋鼠雲幹活,跟在阿里後面;
- 數瀾是阿里產品團隊出來的,產品設計的比較ok,宣傳的也很不錯,業務開展的風生水起;
- 奇點雲是阿里數倉和數加團隊出來的,貌似宣傳的沒上面兩個強,接觸不多(數加是阿里自己的產品)。
如果你們公司業務複雜,資料量巨大,關鍵是業務方面有多個客戶應用場景,資料互動效率低,需要大量的客戶資料價值發現,需求也很緊迫,那可以考慮研究下中臺方案。
六、最後總結- 報表平臺解決固定報表、自動化報表,支援列印和計算等大批次批處理作業,公司有需求直接用帆軟一類的平臺解決,配1、2個報表工程師就能搞定了;
- BI平臺是在報表平臺上增加解決多維分析、自助查詢報表的能力,需要數倉團隊做底層資料支撐,需要BI工程師設定各種度量、維度,做多維分析報表;不用一張張的做固定報表了;
- 大資料平臺是在BI平臺基礎上,解決大資料量的儲存、計算、實時計算的問題;無需關注底層的海量資料儲存、計算、實時計算等問題;需要增加大資料工程師進行叢集的維護,基於大資料平臺的各種開發工作;
- 資料中臺是在大資料平臺基礎上,提供ID打通、統一模型、統一服務的能力,附加標籤工廠、使用者分析等偏網際網路屬性的功能。人員需要增加資料中臺產品經理,其他的工作還是由大資料工程師、大資料分析師等完成;
- 資料治理能力是從BI平臺就開始有了,在大資料平臺和資料中臺中不斷被強化。所以BI平臺、大資料平臺、資料中臺中都有資料治理的能力,在資料中臺中還增加了資料資產和計費的概念和能力。
作者:李啟方,專注資料分析和企業資料化管理;公眾號:資料分析不是個事兒
本文由 @李啟方 原創釋出於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議