搭建大數據分析平台的工作是循序漸進的,不同公司要根據自身所處階段選擇合適的平台形態,沒有必要過分追求平台的分析深度和服務屬性,關鍵是能解決當下的問題。
如果説用户行為分析平台是互聯網行業等線上業務特有的數據分析產品,那麼大數據分析平台就是適用於全行業的數據分析產品。任何行業的公司發展和精進都離不開數據分析,而大數據分析平台就是實現數據分析,為業務人員提供分析能力的基礎產品。如果沒有該數據分析平台,企業則不得不招聘專業的數據分析師完成全部的數據分析工作。
一方面數據分析師的招聘門檻更高,一方面數據分析師對實際業務的瞭解程度也並不如運營、市場等業務方人員。
所以更合理的做法是為業務人員提供易用的數據分析產品,配合特定的數據分析培訓,以使業務同事可自行完成絕大部分數據分析需求。同時輔以數名數據分析師完成更專業的數據分析任務,產出數據報告或決策等關鍵信息。
大數據分析平台是對大數據時代的數據分析產品(或稱作模塊)的泛稱,諸如業務報表、OLAP應用、BI工具等都屬於大數據分析平台的範疇。與用户行為分析平台相比,其分析維度更集中在核心業務數據,特別是對於一些非純線上業務的領域,例如線上電商、線下零售、物流、金融等行業。而用户行為分析平台會更集中分析與用户及用户行為相關的數據。
企業目前實現大數據分析平台的方法主要有三種:
(1)採購第三方相關數據產品
例如Tableau、Growing IO、神策等。此類產品能幫助企業迅速搭建數據分析環境,不少第三方廠商還會提供專業的技術支持團隊。但選擇此方法,在統計數據的廣度、深度和準確性上可能都有所侷限。例如某些主打無埋點技術的產品,只能統計到頁面上的一些通用數據。
隨着企業數據化運營程度的加深,這類產品可能會力不從心。該方案適合缺少研發資源、數據運營初中期的企業。一般一些創業公司、小微企業可能會選擇此方案。
(2)利用開源產品搭建大數據分析平台
筆者曾經待過的一家公司就是採用該方案搭建的OLAP應用。對於有一定開發能力的團隊,可以採用該方式快速且低成本地搭建起可用的大數據分析平台。該方案的關鍵是對開源產品的選擇,選擇正確的框架,在後續的擴展過程中會逐步體現出優勢。而如果需要根據業務做一些自定義的開發,最後還是繞不過對源碼的修改。
(3)完全自建大數據分析平台
對於中大型公司,在具備足夠研發實力的情況下,通常還是會自己開發相關的數據產品。自建平台的優勢是不言而喻的,企業可以完全根據自身業務需要定製開發,能夠對業務需求進行最大化的滿足。
對於平台型業務,開發此類產品也可以進行對外的商業化,為平台上的B端客户服務。例如淘寶官方推出的生意參謀就是這樣一款成熟的商用數據分析產品,且與淘寶業務和平台優勢有非常強的結合。
接下來,本篇將重點介紹幾種不同階段的大數據分析平台產品形態。
提到數據分析,很多人的第一反應應該都是報表。確實報表應該就是最基礎的數據分析工具,因此不少公司在搭建數據分析平台時,也是先從滿足報表需求起步的。
在平台搭建初期,優先實現重要的固化報表沒有任何問題,但隨着業務的發展,對數據分析的需求會成倍增加,不可能一直靠業務新增查詢需求,數據團隊對前後端進行開發改動這種低效的方式來實現。
因此我們可以在報表平台上開發一套擴展工具,用於完成對取數需求的條件配置。本質上是將日常業務查詢的SQL語句進行了產品化,並羅列了可支持的數據指標、維度、時間等信息。
至此,報表平台便擁有了直接新增報表的功能,業務人員可根據自身需求在平台上配置所需的報表,而不用每次由研發團隊單獨開發。例如下圖是生意參謀中的新建報表功能,商家可以通過一系列的條件選擇完成報表的配置。
生意參謀-新建報表
除去簡單的報表生成,我們還可以擴展圖表模塊,對報表進行可視化。可以選擇常見的圖表樣式,例如折線圖、柱狀圖、餅圖等。
不過受限於產品形態,所有的配置操作都是在既定的框架下完成的,研發人員需要事先在頁面上規定可選的維度、時間週期、指標的信息。若遇到對當前頁面還不支持的指標或維度的分析需求(在實際使用時會經常發生),仍需要進行開發,升級平台。為了滿足更定製化的查詢需求,該平台也可以做到支持書寫SQL完成查詢。
某種程度上來看,其實該階段的分析平台對業務人員還不夠友好,可能更多時候是數據產品經理和數據分析師在進行使用,以滿足自身分析需求或承接業務的數據需求。為了真正讓業務人員直接具備查詢、分析數據的能力,我們需要進入下一個階段。
如果説擴展後的報表平台能很大程度的釋放研發生產力的話,搭建自助分析平台將可以解放數據分析師的大量工作。自助分析平台已經基本能滿足業務人員的全部數據查詢和分析需求了。當然,在平台上線後還是需要組織適當的培訓,提供友好的產品説明文檔。
自助分析平台是進一步將我們的數據查詢、分析語言產品化。與報表平台相比,自助分析平台至少有了以下進步:
下圖是筆者過去搭建的某自主分析平台產品的簡易原型。
新建查詢
在完成查詢條件的篩選後,會構建出如下表格。同一維度下的查詢字段會構建層次化索引,不同維度下的查詢字段會類似concat連接在一起。
查詢結果
自助分析平台的另一個優勢是可直接根據數據生成各式的圖表,典型的折線圖、柱狀圖、堆積面積圖、直方圖、餅圖、散點圖等,以及根據業務需求可以支持漏斗圖或基於GIS信息的圖表等。
自助分析平台雖然功能強大,但其本質上仍是構建數據表格的工具。業務人員更自然的使用方式是利用平台構建表格並導出,之後在Excel進行分析和圖表的製作,這其實違背了我們希望平台本身能解決數據分析問題的初衷。這一方面是因為用户的習慣很難改變,另一方面也是平台構建表格的屬性引導了用户。
若要通過平台直接完成數據分析,這就要求平台不能只是構建表格這麼簡單。我們需要重點優化平台的數據表達和交互功能,以體現出平台的分析屬性。這個階段可以稱為在線智能分析平台。這裏的關鍵詞有兩個:“在線”和“智能”。
其進步表現在可以直接在構建完的數據之上進行交互,產生更多的數據洞察。類似於我們在python中直接通過matplot或seaborn進行可視化,和利用bokeh進行數據表達的區別。雖然seaborn已經可以做出優秀的可視化報告,但其表達形式主要還是靜態圖表,更多時候是展現在分析報告中。而bokeh構建的圖表支持一系列的交互操作,不同使用人員可根據自身需求在圖表上完成分析。
最典型的區別,有以下幾點:
(1)支持圖表的基本交互操作
包括了對區域的圈選高亮、全局或針對單一座標軸的放大縮小、鼠標懸停時的詳細數據展示等常用操作。
(2)支持數據的下鑽
選中具體數據後,可根據所支持的維度進行數據下鑽。例如我們發現某天的GMV下降明顯,選中當天數據後可以根據GMV在業務上定義的構成指標(訂單量、客單價等)或其他查詢維度(門店/類目等)進行下鑽以定位具體問題。可能最終會發現是某家重點門店當天經營異常而導致了整體GMV的下降。
(3)支持數據間的聯動
根據分析需求,我們可能需要同時分析有關聯關係的數據,洞察數據間的關係或影響。其核心是以某一字段作為關聯圖表或表格的關聯字段,建立多份數據間的聯繫。這樣在同一個工作區內,對其中任意一份數據進行圈選、拖拽等操作,在其他的數據中也會同步展示。
例如A表是SKU信息表,B表是訂單詳情表,C表是商品銷量的圖表,商品運營同事在分析具體SKU銷售情況時,會在A表中選中具體的SKU,在B表中為自動選出包含該SKU的訂單,在C表中會自動選出該SKU的銷量情況。
在這些功能的支撐下,我們便可以直接在平台上在線完成大部分數據分析的工作,而不用導出數據後在其他工具中進行分析。
根據數據分析的方法和目的,我們可以簡單的劃分為三類:描述性分析、預測性分析和規範性分析。
描述性分析給出的數據表現的客觀事實;預測性分析會基於過去的數據預測未來表現和可能性;規範性分析會通過分析提供指導和建議,就像醫生會對我們的體檢報告標註出異常並給出建議。
而在線智能分析平台的“智能”也可以體現在對數據的診斷解讀上。一方面業務人員的數據分析水平可能參差不齊,無法要求所有人都有專業的分析能力,另一方面我們查看數據的主要目的也是想洞察數據背後的結論,而不是數據本身。因此平台如果可以針對數據表現直接給出解讀,將大大提升平台的服務屬性。
平台可以對核心指標的異常範圍進行定義,比如可利用3σ原則,即對於服從正態分佈的數據,具體數值與整體平均值的差值大於3倍標準差時,可認定為異常值。也可以與業務進行溝通,定義數據的異常波動範圍。
針對不同的異常情況,可以提示不同的話術,並匹配建議方案。例如下圖是筆者過去負責的某款數據產品中,對具體指標給出的診斷解讀。對於不具備分析能力或時間寶貴的同學,直接概覽此模塊,就能對當前的經營情況有個大致瞭解。
數據診斷解讀
對大數據分析平台用户的需求進行深挖,我們會發現不同用户羣所關注的數據也會有所不同,而同一用户往往會持續關注同一批數據。再想想,我們的運營人員、數據分析師等角色是不是每週或每月都會發送相關數據的週報或月報?
可以認為,每個人在查看數據的時候,是在閲讀一份數據報告。
因此,平台若能定週期產出符合目標用户數據需求的,既有數據,又有洞察,帶有指導意義,且閲讀友好的數據報告,將能進一步提升平台自身的價值。
為了讓平台可以自動生成報告,我們需要結合平台之前的所有能力。用户可以在平台上配置適合自己及其他閲讀受眾的報告模板(組合相關的數據圖表及設置樣式),定義關鍵指標的解讀方法(定義數據波動區間及對應話術)。由系統給出解釋原因或預留備註空間由人工解釋。根據業務需要,配置報告的生成周期、發送對象、發送方式等信息。如下圖數據產品,每週會產出運營數據簡報。
數據運營簡報
對於不同的用户,還可以查看細分欄目的週報,例如下圖是客户維度的週報。
客户數據運營週報
隨着數據驅動的意識越來越被重視,且大量傳統行業開始數字化轉型,大數據分析平台在企業中扮演的角色會越來越重要。
目前看到的情況是,大家對於大數據分析平台的產品形態和發展趨勢的判斷基本是一致的。平台最初用於解決基礎的數據查詢和分析需求,之後會逐步解放人力提升人效,最後我們都希望能由數據和機器直接生成決策。
當然,搭建大數據分析平台的工作是循序漸進的,不同公司要根據自身所處階段選擇合適的平台形態,沒有必要過分追求平台的分析深度和服務屬性,關鍵是能解決當下的問題。
大數據分析平台篇到此結束。
作者:Rowan;公眾號:羅老師別這樣
本文由 @Rowan 原創發佈於人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議