数据中台是中国本土诞生的一个名词,很多企业在“什么是数据中台”和“我要上XX中台”徘徊。其炒作程度跟当年的“大数据” 一词有的一拼,如果用Gartner的炒作周期图来看,数据中台目前已经逼近炒作的顶峰。
与其不断地讨论什么是数据中台,企业更应该了解建设数据中台的目的是让企业高效的数据驱动,减少重复的架构建设。如果要用一张图来描绘Gartner如何看待数据中台的建设方向,可以如下图所示。
数据中台的建设方向应该处于企业数字化平台的核心,即Gartner定义的数据和分析平台(红色虚线部分),帮助企业的数字化平台(客户体验平台,生态系统平台,物联网平台和内部信息系统)的业务用户做出更好的决策,并在各个数字化平台的合作孵化下形成可复用的数据分析能力。数据分析能力应该在业务端无处不在且高度自助,最终助力数字化平台实现Gartner定义的封装的业务能力 (Packaged Business Capability)。
以下是Gartner对于想建设数据中台企业的建议。
数据中台中数据管理策略的平衡
上文提到的这么一个“大而全“的方向听起来是挺美好,但很多企业在建设初期是没有考虑过各个数字平台对数据资产的可复用性或自服务性的(这也是很多企业为了建立数据中台的初衷)。原因很简单,一次性完成所有平台的数字化本来就是不现实的,很多公司都是分阶段进行的,特别是传统企业,很多业务干脆还没有完成数字化,别说建设数据中台了。阿里,腾讯这样的数字化原生的企业建设中台是十分有优势的,或者说数据中台是这些企业在业务指数级增长的同时自然生长出来的产物。
另外数据作为数字业务的核心资产的价值被广泛接受,企业最直 接的反应就是试图在建立数字化平台时将数据收集(Collect)起来,仿佛这才是实现业务价值的关键。例如,过去非常流行的数据湖,会将收集数据作为核心能力。但收集数据不一定能带来商业价值,企业也没有可能一口气收集好全部数据。
以物联网平台为例,数据分布在网络上、边缘设备上、网关上、云端和传统系统中。例如,需要自主行为的 "物"(如联网汽车或风力发电机)必须有板载或网关上的数据和处理,以便对变化的情况做出即时反应。面向消费者的IoT解决方案(如用于健身追踪的可穿戴设备)通常将数据存储在云端进行分析。而且几乎所有的IoT解决方案还必须与传统业务应用共享和整合数据,以执行客户服务和长时间的性能分析。
另外,对实时(或 "近乎实时")集成的需求不断增加引入了一个交付时间的要求,这让最快的数据收集策略也无法满足。在采取响应之前,操作流程在 "边缘 "对数据采取行动与事先将所有的数据收集到集中存储的位置的要求是不相容的。试图收集所有这些物联网数据再后续处理和使用,既不实际也不可行。
同时,保护个人身份信息的隐私法规也将阻碍数据的整体收集。因此,一些数据用例将需要连接(Connect)到数据,而不仅仅是收集数据。
企业建设数据中台绝不是把所有的数据全部收集在一个地方了再开始应用数据,随着数据的不断涌入,用一种连接(Connect)的方式在数据原本存放的介质中重复利用数据才是数据中台也该有的手段。收集数据和连接数据的平衡是现代化数据管理的的必要条件。数据虚拟化能力会是企业需要在保留已有数据库,数据湖投入但又想建立数据中台必须考虑的元素。重复或冗余的数据始终会存在,企业要建立的不是“single source of truth”而是“single source of trust”。
企业可以进一步参考Gartner提出的新一代数据管理设计原则Data Fabric去用于实现可复用和增强的数据集成服务、数据管道和语义层,以实现灵活的数据交付。
定位数据中台为一个组织战略促进合作
企业在渐进式数字化转型时面临的一个共同问题,他们各自为政,分别构建类似的解决方案,例如针对不同业务目的的数据分析模型,而这些模型具有共同的元素。在最好的情况下,这样做会造成重复,但更多的情况下,这也会增加复杂性,因为这样做会产生不同的点式解决方案,即使在单个业务内也无法沟通,更不用说在全公司的业务价值链上了。从这个角度来看,Gartner更推荐企业把数据中台定性成一个组织战略,把数据分析团队作为数字化平台建设必备的一个元素。Gartner也在2019年的《Gartner 数字化业务团队问卷》中发现,数据分析/商业智能是融合团队(Fusion team)中除IT以外最常见的功能。
一个好的数据分析团队是由集中的团队和各条业务线上的分散团队组成的。很多企业过分的关注于技术架构的建设而不是业务人员基于数据的合作,在一味追求新的数据分析技术栈的过程,忽略了对于组织战略的调整以解决实际业务用户的问题,把原来遗留的问题从数据仓库移到了数据湖,再移到现在的津津乐道数据中台,而不是解决它们,一个现代化的数据分析团队应该是数据分析能力的赋能者,从管控数据能力到促进基于数据的合作。
业务场景出发整理已有的数据分析能力
企业在不断建设自己数字化平台时,早已投入了各种数据分析资产,这个时候为了数据中台这个新词而放弃已经建立的数仓,数据湖,数据整合平台是没有必要的,企业需要做的是把数据中台作为一个组织战略去联合各个部门共同建设可复用且自服务性高的数据分析能力,通过业务流程到数字化平台,自上而下(红线)的去整理已有的数据分析能力。
大多数企业其实都已在做自下而上(蓝线)的数据分析平台,这本没有错,尤其是企业集中式的IT团队已部署数仓,设计了ETL流程和报表系统。但是作为前线的业务获得这些能力是被动的,久而久之,并不会存在业务主动要求提升自己的数据分析能力,毕竟业务作为企业内部的甲方,只提需求还是很爽的。
然而为了让企业变得更数据驱动,或者说让企业建的的数据中台能被真正用起来,逼着业务从业务场景开始做数据分析是一条必经之路,尤其在业务端才是能提出业务问题发起分析时刻(Analytics Moments)的一群人。
下图就是一个典型的电商的业务场景,从业务端定义并梳理分析时刻,从技术栈寻找相对应的数据分析能力的过程。
分析时刻是Gartner定义的一种数据分析流程,通过对数据进行可视化、探索和应用算法,支持业务成果的交付,从而做出更好或更快的决策,实现业务流程的自动化。在这个例子中,数据分析能力(最右侧)是被逐步建立起来的,他们的背后有大量的厂商可以被选择,这些能力可以多大程度的被其他分析时刻复用,多低的门槛可以被业务应用,直接决定了数据中台的成功。其中厂商的能力可以通过Gartner每年数据分析领域的九张《魔力象限(Magic Quadrant)》及配套的《关键能力(Critical Capability)》报告进行评估。
分析时刻的梳理往往是一个数据中台建设最为棘手的部分,他一方面依赖供应商是否有业务咨询的能力将业务场景梳理清楚,另外一方面也依赖企业自身的数据素养去不断优化对于数据分析能力的要求。企业可以借着建立数据中台这个机会,分类整理已有的数据分析能力或试行新的数据分析能力,Gartner每年出的《Gartner Analytics Atlas》报告就可以像能力字典一样去帮助企业分类与挑选。
数据分析能力整合到复用是一个创新的过程
通过刚才的例子我们也可以看见,电商场景的业务逻辑是很成熟且明确的,其背后数据分析能力也能很快的被重复应用上,然而可复用的数据分析能力是个非常主观的概念,不一样数据素养的团队对于数据分析能力的要求是非常不同的,越简单易用,也容易被别的业务场景给重复利用,不一样的地方是数据的情景和用户情景。如果数据中台的输出能力仅仅只是Data as a Service,即API的形式是远远无法让业务可以直接使用的,从而降低了企业对数据分析应用的广度。企业应该通过整合复用以丰富数据分析能力的输出,随着新技术的引入和融合团队的建立,这无疑是个创新的过程。
例如,由机器学习为基础的增强型数据分析和管理工具,就可以大大降低用户的使用门槛(自然语言驱动的分析)并减少数据管理的工作量(主动利用元数据学习获得用户行为)。企业应该了解到利用增强型能力是为减少数据分析手动的部分,从而给用户给多时间去构思业务如何使用数据。
图谱分析(Graph)的引入也会更进一步帮助企业去探知利用率严重不足的数据,图谱可以发现企业数据与数据之间以及不同部门使用数据中被忽视或难以察觉的联系,从而让需要可复用的能力有据可寻,图谱已经变成了很多数据分析产品的基础性技术。企业建立数据中台,缺少的可能既不是数据的量(Quantity)也不是数据的质(Quality),而是数据之间的联系。
如果企业建的数据中台需要在技术的角度进一步让企业减少重复开发的工作量但是提高数据分析的利用率,这些技术都是值得进一步去研究的。增强型数据管理和图谱技术也是今年Gartner的十大数据分析技术之一。
最后可能要问各位企业高管的是,如果你真的拥有一个完美的数据中台满足您所有的技术期待,您企业员工的数据素养跟上了么?