領英是如何構建數據科學團隊的？

圖片來源@unsplash

數據科學並不算是一個全新的領域，可以追溯到50年前，統計學家John W. Tukey第一次在學術界展開數據分析。而自從2008年DJ Patil在領英提出“數據科學家”這個名詞時，數據科學家才真正地作為職業開始起步，逐漸成為“21世紀最性感的職業”。

據領英《2020年新興工作報告》顯示，過去5年招聘需求增速最快的職業中，數據科學家位列第三。

在數據的總量完成了史無前例的增長、新基建等政策不斷加持的今天，我們已經正式進入了一個“數據密集型”的時代。面對用户在網上產生的源源不斷向四處流動的數據，公司可以通過這些數據去了解用户的需求，為用户提供更好的產品，推動公司增長，因此數據團隊對於互聯網企業的重要性日益增加，數據科學家的定位也隨之在不斷產生改變。

在LinkedIn（領英）全球數據科學負責人許亞看來，數據科學團隊的整體趨勢更加走向了專業化，他們的職責不再是建立數據基礎設施或平台，而是去使用數據科學和工程來最大化數據的價值。那麼從團隊運作方式、工作衡量標準和社會責任等角度，數據科學家的工作在“新常態”下發生了怎樣的轉變？如何讓數據的價值最大化？

數據科學團隊更加“工程化”和“專業化”

領英的數據團隊起源於對增長和商業表現的需求。在進入互聯網的時代、大量的用户數據產生後，領英推出了“你可能認識的人（People You May Know）”功能，推薦潛在可能認識的用户，這個功能關鍵性地推動了領英早期的病毒式增長，隨後推出的“職位推薦”等功能也幫助了領英核心的商業表現。因此領英產生了更多的數據需求和對數據科學的重視，從而建立了數據科學團隊，來驅動領英早期商業表現和用户增長。

從2008年到現在，數據科學家的定位也產生了一系列的變化。

在早期的時候，在數據科學領域工作的人都是“萬能手”，能身兼多個任務，比如建立基礎設施、研發數據儲存方式、編寫算法等等。隨着這個領域越來越成熟，數據量越來越大，許亞認為，數據團隊需要變得更加工程化和專業化，並通過“嵌入式工作”和“中心化管理”，去應對幾十萬、幾千萬的用户增長。

許亞介紹，目前領英的數據科學團隊分離出了底層架構人員，根據不同的專業領域設立了三個工作方向，包括可以很有效地建立起數據管道（Data Pipeline）和數據流（Data Flow）的工程專家；負責進行A/B 測試、預測、打造差分隱私的算法專家；以及有很強的業務屬性，將數據見解和公司戰略結合起來的業務專家。

這三個領域的專家共同構成數據科學團隊，並與產品、市場等團隊建立起緊密的“嵌入式工作”模式，推動產品的優化、基礎設施運維和市場戰略決策，將數據廣泛地用在了領英各個渠道。首先是產品，秉承“用户第一”的價值原則，領英的每一個產品細節都由數據充分證實，包括信息流、你可能感興趣的人等功能，或者怎麼樣吸引新的用户來並且提供優秀的產品和UI體驗，都是數據來推動。

除了產品，領英還會通過數據科學來優化公司基礎設施的運行和維護。領英每年投資數百萬在數據儲存空間等硬件設施上面，怎樣充分利用這些硬件設施是意義重大的問題。領英的數據科學團隊會通過數據分析和算法去衡量工程架構的建設是否有效率，更好地做時間規劃，讓硬件和GPU發揮更大的價值，有助於提升公司整體的效率。

此外，數據科學家還可以通過數據幫助企業明確戰略方向，在哪個方面去投資，或者決定下一步的產品或者市場意向。例如通過用户數據瞭解目標用户的特徵，從而針對這樣的羣體把他們吸引到領英平台上；或者瞭解哪些用户更容易去購買領英的產品並且成為領英的客户，從而賦能公司的商業決策和成果，對淨利潤造成影響。

如何衡量數據科學團隊的成果？

由於不同的數據科學家會有不同的側重方向，比如產品、市場，或者工程，工作的KPI有時候難以進行標準和量化。許亞接手領英數據團隊之後，做的第一件事情就是建立了三個成功的衡量指標，到現在都是合理有效的：

一是工作效率和數據易得性。以前的數據科學家特別喜歡嘗試最新最難的問題，但沒有維護和迭代習慣。現在許亞認為，如果建立了一些衡量標準、數據模型或者算法，就應該確保它一直可使用。許亞也鼓勵數據科學家們減少重複性工作，並提供自動化的工具和平台，讓每個數據科學家都能更有效率地去挖掘數據價值。

二是戰略化思維。數據科學團隊在公司裏的職責之一是用數據去指導、指引公司的一些策略方向，甚至和公司的高層直接溝通。許亞認為在疫情後，用户的行為多少會發生一些不可逆轉的改變，數據可以幫助團隊更好地去學習用户行為變化，瞭解用户是如何在領英上獲得價值，從而在戰略上指引公司對哪些領域進行重點投資。

三是直接商業影響。數據團隊的成果是跟這個公司的淨利潤是有直接作用的，數據科學家需要去衡量他們的工作怎麼樣去影響公司的淨利潤，如何對公司的商業目標產生積極影響。

許亞以最佳產品優化利器A/B 測試應用舉例：

A/B 測試是數據驅動的常見產品功能優化手段，將用户分為對照組和實驗組，對照組使用現有的功能，實驗組測試新功能，從而判斷新功能是否應該上線。

許亞介紹，在領英，基本上你可以看得到的任何產品改變，都是經過反覆A/B 測試產生的，比如搜索欄、搜索算法、導航欄，甚至是APP的字號和字體。所以領英不選擇用直覺來進行假設，而是用A/B 測試來判斷到底大眾喜不喜歡新推出的產品功能，讓一切都通過數據來説話。

一個產品開發生命週期內A/B測試的示例

例如在使用APP的過程中展示的頁面內容數量就涉及到產品的平衡與取捨。每次加載可以展示20個、30個、也可以100個內容在頁面上，但展示的數據越多，加載的時間就越長，用户上下滑動App時就需要等候；展示的數據越少，用户就需要頻繁刷新，影響到用户體驗。所以領英數據團隊會根據A/B測試來決定到底是應該放多少個。

另外，領英要不要建立或者關閉一個數據中心也通過A/B 測試決定，因為用户和數據中心的距離對於傳輸速度有很大的關係，選擇不同的數據中心對於用户的請求的處理有很大的影響。

A/B 測試也並不是僅由數據科學團隊來主導的，不同的團隊在決定是否做A/B 測試的過程也同樣激發了大量的創新。

許亞解釋道，領英每天大概有100個新的試驗進行，數據科學團隊沒有精力去參加公司的所有試驗項目，會更加投入在重要的試驗研究和分析上。藉助公司提供的自動化工具和A/B 測試平台，其他團隊可以解決大部分的實驗設計、應用、分析上的問題，從而自主地產生創新的想法，並通過A/B 測試來確認是否正確，避免一些主觀爭議。這樣科學的決策機制、開放的實驗文化和數據文化，讓公司裏的每個團隊都能放心大膽地去構想並且驗證創新的想法。

新的挑戰：促進公平

當技術手段和基礎設施從數據中挖掘出更多的價值之時，也帶來了全新的挑戰與問題：公平性。

公平很難有一個準確的定義，但領英的願景是為全球勞動市場裏的每一位創造經濟機會，希望有着同樣才能的兩個人應該獲得相等的機會。為了實現這一點，領英在開發產品和功能的時候會很重視可量化的指標，確保領英的產品對於每個用户羣體都會帶來積極的影響。如果只看平均下來的效果，可能會只對一部分人有益，而給另一部分人帶來不公平的因素。

領英是如何構建“公平”的

特別是在疫情“新常態”下，職場人獲得機會的難度加大，社會不平等帶來的挑戰也隨之加劇。為此領英開展了一個稱為“Project Every Member”的項目，這個項目能讓數據科學家們藉助A/B 測試和算法來準確地評估和優化每一個新產品，從而縮小人脈差距，確保每個人都能夠獲得公平地去發現和連接機會。領英也在近期開源了Project Every Member裏有關Apache Spark的一段代碼，從而幫助更多公司準確地衡量產品帶來的影響，打造更加富有公平性的產品。

“促進公平的重點不僅僅在於算法，而在於產品設計的方方面面。”許亞説。

“此外，我們也經常去評估現在平台上面是否有一些導致不公平的漏洞。比如説招聘者用我們的產品去招人，搜索的結果下面出來的都是男性，這會導致女性失去了這個工作機會。所以一年前我們推出了Representative Ranking，通過機器學習模型對候選集進行重新排序，使搜索結果能夠代表所有的潛在候選人，以確保減少偏見，獲得多樣化的人才。”

近兩年來，領英的數據科學團隊迅速發展並逐漸成熟，人數規模擴張了一倍，從150人增加到了300多人，遍佈世界各地。在中國，領英同樣有一支精良的數據科學團隊，服務本地市場。在疫情帶來的不確定之下，領英通過數據發現平台上用户的內容類型和比例都嚴重的受到了影響，比如疫情對剛入職場的人影響很大，對女性的影響也比對男性的更大。

許亞説，在這個過程中，你可以感受最大化數據價值的強大能力，感受到數據的責任所在，從而更好地幫助這些受影響的人，這也是數據科學家這份工作最有意義的地方。