楠木軒

從大數據的發展史,看數據中台的核心價值

由 聊素麗 發佈於 科技

編輯導語:自從數據中台提出以後,各行各業都開始推出關於中台的應用和落實;數據中台的核心價值是什麼?所有公司都適合做數據中台嗎?本文作者詳細分析了大數據下的數據中台。

“數據中台”是進今年比較火的一個詞,正在做數字化轉型的傳統型公司都會首選做數據中天項目,建設數據中台嫣然成為傳統企業數字轉型的首選。

但為什麼要做中台、好處是什麼、能給企業帶來什麼價值、是不是所有公司都適合做數據中台,這是隨之而來的問題。

一、大數據發展的歷史

上個世紀90年代開始出現數據倉庫概念,他幫助企業做出經營分析決策,例如在銷售行業的門店管理中,如何使單個門店的利益最大化,就需要分析每個商品的銷售、庫存數據,按照不同的時間週期:每日、每週、每月,找到商品銷售規律以及關聯影響,然後制定出合理的商品採購計劃和促銷活動,這些都是依賴與大量的數據分析。

比爾.恩門給出的數據倉庫定義:數據倉庫是在企業管理和決策中面向主題的集成的、與時間相關的,不可修改的數據集合。

所以數據倉庫是會按照主題去集成數據,你可以把主題理解成一個目錄。主題是不會輕易改變,所以劃分主題時要儘量做到與業務相關,且容易區分數據劃分規則。

進入互聯網時代後,數據規模前所未有的快速增長:

  • 例如:抖音、微信,每天都在產生千億級的用户行為數據,同時數據結構也在變得複雜多樣化,有結構化、非結構化、半結構化的數據產生;
  • 例如:app、web的埋點數據、後台日誌數據。

這些特點都是傳統數據倉庫所難以承載的。

所以hadoop出現了,他有兩個優勢:

  1. 完全分佈式,易擴展,而且使用廉價的計算機就可以集成一個計算、存儲能力很強的集羣,滿足海量數據處理需求;
  2. 弱化數據格式,數據集成到hadoop後,數據模型與數據存儲分離,在數據使用時,按照不同的數據模型讀取數據,滿足多種數據結構的分析需求。

隨着hadoop技術成熟,出現了數據湖的概念,數據湖的出現我認為標誌這hadoop是走向商業化成熟的標誌,企業可以基於hadoop構建數據湖,將數據作為企業核心資產。

接下來如何讓數據的加工能夠像流水線一樣作業,大數據平台的概念就被提出來了,就是為了提升研發的效率,降低數據研發的門檻,讓數據像流水線一樣被加工。

大數據平台服務的對象是數據研發人員,可分為數據集成、數據模型開發、數據測試、數據運維,底層是以HADOOP為代表的大數據框架,包含,存儲、計算、資源調配(HDFS、MapReduce、yarn)。

大數據平台就像流水線設備,數據就是被加工的內容,最後產出指標,呈現在各BI或其他的數據產品中,隨着經濟、業務快速增長,業務人員也對數據採集響應要求變快,數據指標共享也逐漸變多,逐漸又出現了數據中台概念。

前面講的都是數據發展歷史,是為了讓大家明白每一次演變的本質都是滿足業務需求或者痛點。

數據中台也是一樣的道理,先説下大部分企業數據的痛點:煙囱式的業務發展模式,導致數據也是煙囱式的發展,數據是割裂的,導致大量的重複開發、計算、從而導致研發效率的浪費、計算存儲資源的浪費,大數據的應用成本也越來越高,比如本人所在公司每年投入的硬件資源都是過億,同時這種帶來的還有不同數據應用平台展示相同指標的結果會不一致。為了解決這些問題,數據中台的價值也就出來了。

數據中台最核心的價值:

  • 避免數據的重複計算
  • 提升數據服務力
  • 提高數據共享力
  • 將數據資產化管理。

最後可以看出,數據中台是構建數據湖之上,具備數據湖能夠處理多樣化結構的數據計算、存儲能力;數據中台依賴於hadoop大數據平台,數據中台比大數據平台增加了數據治理和數據服務的內容;數據中台借鑑了傳統數據數據倉庫面向主題的數據建模理論,構建統一的數據共享層。

二、數據中台與業務數據相結合

數據中台價值的產生一定要是與業務數據應用場景相結合,舉個案例:

保險行業的隊伍管理的增員場景看,主管要促進自己的團隊架構裂變就需要進行增員,在這個過程中主管需要分析哪些人適合增員,增員的成功通常需要滿足哪些條件,每日還要對代理人的增員進行效果追蹤。要做這些分析就要用到代理人的行為和業績數據,同時還要有標杆案例數據,通常這些數據都存放在不同的數據庫裏面,並且要以日的頻率提供數據到頁面上進行展示。

傳統數據處理邏輯:各業務系統對數據進行加工處理,然後將結果提供給報表平台進行展示,但這個會出現,A報表和B報表對於相同的指標可能指標結果不一致,並且各系統之間指標重複計算。

數據中台是把各業務系統的增員數據進行彙報,然後統一做數據清洗,加工建模,最後以API接口形式提供結果給應用系統在不同的頁面進行展示。既避免了重複計算,也提升了開發效率,還提供數據共享,同時也保證了數據的一致性。

最後講下數據資產化管理,可以分兩塊看:

從面向開發角度看:數據中台可以提供開發血緣關係分析和指標、標籤字典,開發通過血緣關係、指標、標籤字典查詢可以快速掌握數據結構,瞭解業務數據的邏輯。

從面向業務角度看:通過數據中台可以產出數據資產目錄及報告,讓數據資產以可視化形式展示,管理層瞭解公司數據情況,例如:公司數據資產目錄,每個部門對數據的使用情況,最核心資產是哪塊。通常都會有一個數據資產管理平台去承載。

不是所有公司都適合做數據中台,要滿足特定條件才適合建立數據中台,以下條件可供參考:

首先公司是否有大量的數據應用場景,數據中台自身是不能直接產生業務價值,本質是快速支持數據應用,當企劃有較多的數據應用場景時就考慮;

其次,公司業務經歷過一輪野蠻式快速擴展,產生大量的數據,存在較多的業務數據孤島,需要整合各業務系統的數據,進行關聯分析;

業務對數據的需求有明顯提升,數據採集要求高,指標準確性,開發團隊面臨大量的數據開發、數據質量、數據效率、數據成本等問題;

企業面臨經營困難,需要通過數據實現新的業務突破點,提升業務運營效率的時候。

數據中台投入大,時間週期長,説的通俗點數據中台適合有錢穩定的大公司,不適合初創型的小公司。

本文由 @木子姐 原創發佈於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議