楠木轩

领英是如何构建数据科学团队的?

由 巫马言 发布于 科技

图片来源@unsplash

数据科学并不算是一个全新的领域,可以追溯到50年前,统计学家John W. Tukey第一次在学术界展开数据分析。而自从2008年DJ Patil在领英提出“数据科学家”这个名词时,数据科学家才真正地作为职业开始起步,逐渐成为“21世纪最性感的职业”。

据领英《2020年新兴工作报告》显示,过去5年招聘需求增速最快的职业中,数据科学家位列第三。

在数据的总量完成了史无前例的增长、新基建等政策不断加持的今天,我们已经正式进入了一个“数据密集型”的时代。面对用户在网上产生的源源不断向四处流动的数据,公司可以通过这些数据去了解用户的需求,为用户提供更好的产品,推动公司增长,因此数据团队对于互联网企业的重要性日益增加,数据科学家的定位也随之在不断产生改变。

LinkedIn(领英)全球数据科学负责人许亚看来数据科学团队的整体趋势更加走向了专业化,他们的职责不再是建立数据基础设施或平台,而是去使用数据科学和工程来最大化数据的价值。那么从团队运作方式、工作衡量标准和社会责任等角度,数据科学家的工作在“新常态”下发生了怎样的转变?如何让数据的价值最大化?

数据科学团队更加“工程化”和“专业化”

领英的数据团队起源于对增长和商业表现的需求。在进入互联网的时代、大量的用户数据产生后,领英推出了“你可能认识的人(People You May Know)”功能,推荐潜在可能认识的用户,这个功能关键性地推动了领英早期的病毒式增长,随后推出的“职位推荐”等功能也帮助了领英核心的商业表现。因此领英产生了更多的数据需求和对数据科学的重视,从而建立了数据科学团队,来驱动领英早期商业表现和用户增长。

从2008年到现在,数据科学家的定位也产生了一系列的变化。

在早期的时候,在数据科学领域工作的人都是“万能手”,能身兼多个任务,比如建立基础设施、研发数据储存方式、编写算法等等。随着这个领域越来越成熟,数据量越来越大,许亚认为,数据团队需要变得更加工程化和专业化,并通过“嵌入式工作”和“中心化管理”,去应对几十万、几千万的用户增长。

许亚介绍,目前领英的数据科学团队分离出了底层架构人员,根据不同的专业领域设立了三个工作方向,包括可以很有效地建立起数据管道(Data Pipeline)和数据流 (Data Flow)的工程专家;负责进行A/B 测试、预测、打造差分隐私的算法专家;以及有很强的业务属性,将数据见解和公司战略结合起来的业务专家。

这三个领域的专家共同构成数据科学团队,并与产品、市场等团队建立起紧密的“嵌入式工作”模式,推动产品的优化、基础设施运维和市场战略决策,将数据广泛地用在了领英各个渠道。首先是产品,秉承“用户第一”的价值原则,领英的每一个产品细节都由数据充分证实,包括信息流、你可能感兴趣的人等功能,或者怎么样吸引新的用户来并且提供优秀的产品和UI体验,都是数据来推动。

除了产品,领英还会通过数据科学来优化公司基础设施的运行和维护。领英每年投资数百万在数据储存空间等硬件设施上面,怎样充分利用这些硬件设施是意义重大的问题。领英的数据科学团队会通过数据分析和算法去衡量工程架构的建设是否有效率,更好地做时间规划,让硬件和GPU发挥更大的价值,有助于提升公司整体的效率。

此外,数据科学家还可以通过数据帮助企业明确战略方向,在哪个方面去投资,或者决定下一步的产品或者市场意向。例如通过用户数据了解目标用户的特征,从而针对这样的群体把他们吸引到领英平台上;或者了解哪些用户更容易去购买领英的产品并且成为领英的客户,从而赋能公司的商业决策和成果,对净利润造成影响。

如何衡量数据科学团队的成果?

由于不同的数据科学家会有不同的侧重方向,比如产品、市场,或者工程,工作的KPI有时候难以进行标准和量化。许亚接手领英数据团队之后,做的第一件事情就是建立了三个成功的衡量指标,到现在都是合理有效的:

一是工作效率和数据易得性。以前的数据科学家特别喜欢尝试最新最难的问题,但没有维护和迭代习惯。现在许亚认为,如果建立了一些衡量标准、数据模型或者算法,就应该确保它一直可使用。许亚也鼓励数据科学家们减少重复性工作,并提供自动化的工具和平台,让每个数据科学家都能更有效率地去挖掘数据价值。

二是战略化思维。数据科学团队在公司里的职责之一是用数据去指导、指引公司的一些策略方向,甚至和公司的高层直接沟通。许亚认为在疫情后,用户的行为多少会发生一些不可逆转的改变,数据可以帮助团队更好地去学习用户行为变化,了解用户是如何在领英上获得价值,从而在战略上指引公司对哪些领域进行重点投资。

三是直接商业影响。数据团队的成果是跟这个公司的净利润是有直接作用的,数据科学家需要去衡量他们的工作怎么样去影响公司的净利润,如何对公司的商业目标产生积极影响。

许亚以最佳产品优化利器A/B 测试应用举例:

A/B 测试是数据驱动的常见产品功能优化手段,将用户分为对照组和实验组,对照组使用现有的功能,实验组测试新功能,从而判断新功能是否应该上线。

许亚介绍,在领英,基本上你可以看得到的任何产品改变,都是经过反复A/B 测试产生的,比如搜索栏、搜索算法、导航栏,甚至是APP的字号和字体。所以领英不选择用直觉来进行假设,而是用A/B 测试来判断到底大众喜不喜欢新推出的产品功能,让一切都通过数据来说话。

一个产品开发生命周期内A/B测试的示例

例如在使用APP的过程中展示的页面内容数量就涉及到产品的平衡与取舍。每次加载可以展示20个、30个、也可以100个内容在页面上,但展示的数据越多,加载的时间就越长,用户上下滑动App时就需要等候;展示的数据越少,用户就需要频繁刷新,影响到用户体验。所以领英数据团队会根据A/B测试来决定到底是应该放多少个。

另外,领英要不要建立或者关闭一个数据中心也通过A/B 测试决定,因为用户和数据中心的距离对于传输速度有很大的关系,选择不同的数据中心对于用户的请求的处理有很大的影响。

A/B 测试也并不是仅由数据科学团队来主导的,不同的团队在决定是否做A/B 测试的过程也同样激发了大量的创新。

许亚解释道,领英每天大概有100个新的试验进行,数据科学团队没有精力去参加公司的所有试验项目,会更加投入在重要的试验研究和分析上。借助公司提供的自动化工具和A/B 测试平台,其他团队可以解决大部分的实验设计、应用、分析上的问题,从而自主地产生创新的想法,并通过A/B 测试来确认是否正确,避免一些主观争议。这样科学的决策机制、开放的实验文化和数据文化,让公司里的每个团队都能放心大胆地去构想并且验证创新的想法。

新的挑战:促进公平

当技术手段和基础设施从数据中挖掘出更多的价值之时,也带来了全新的挑战与问题:公平性。

公平很难有一个准确的定义,但领英的愿景是为全球劳动市场里的每一位创造经济机会,希望有着同样才能的两个人应该获得相等的机会。为了实现这一点,领英在开发产品和功能的时候会很重视可量化的指标,确保领英的产品对于每个用户群体都会带来积极的影响。如果只看平均下来的效果,可能会只对一部分人有益,而给另一部分人带来不公平的因素。

领英是如何构建“公平”的

特别是在疫情“新常态”下,职场人获得机会的难度加大,社会不平等带来的挑战也随之加剧。为此领英开展了一个称为“Project Every Member”的项目,这个项目能让数据科学家们借助A/B 测试和算法来准确地评估和优化每一个新产品,从而缩小人脉差距,确保每个人都能够获得公平地去发现和连接机会。领英也在近期开源了Project Every Member里有关Apache Spark的一段代码,从而帮助更多公司准确地衡量产品带来的影响,打造更加富有公平性的产品。

“促进公平的重点不仅仅在于算法,而在于产品设计的方方面面。”许亚说。

“此外,我们也经常去评估现在平台上面是否有一些导致不公平的漏洞。比如说招聘者用我们的产品去招人,搜索的结果下面出来的都是男性,这会导致女性失去了这个工作机会。所以一年前我们推出了Representative Ranking,通过机器学习模型对候选集进行重新排序,使搜索结果能够代表所有的潜在候选人,以确保减少偏见,获得多样化的人才。”

近两年来,领英的数据科学团队迅速发展并逐渐成熟,人数规模扩张了一倍,从150人增加到了300多人,遍布世界各地。在中国,领英同样有一支精良的数据科学团队,服务本地市场。在疫情带来的不确定之下,领英通过数据发现平台上用户的内容类型和比例都严重的受到了影响,比如疫情对刚入职场的人影响很大,对女性的影响也比对男性的更大。

许亚说,在这个过程中,你可以感受最大化数据价值的强大能力,感受到数据的责任所在,从而更好地帮助这些受影响的人,这也是数据科学家这份工作最有意义的地方。