從1956年美國達特茅斯會議首次提出“人工智能”的概念,到如今新一輪科技革命和產業變革方興未艾,大數據、雲計算、5G等為公眾所熟知。大數據時代勢不可擋,尤其在垂直細分行業的大數據應用展現出巨大潛力,大數據與各行業業務場景有機結合,推動細分行業實現數字化轉型升級,助力社會治理創新發展,同時催生出大批新模式與新業態。
中國移動互聯網的發展見證了中國大數據行業的蓬勃發展。 數據智能作為移動互聯網時代的自然產物,也是未來很長一段發展階段的核心所在。
本文主要根據個推在數據智能領域多年的實踐,來為大家 闡述數據智能的本質以及技術體系要求,之後還會跟大家分享關於數據中台、數據體系建設的實質、思路和方式等內容。希望能用通俗化的語言,能讓各位技術人員、產品或運營對數據智能以及所涉及的技術體系有一個比較清晰的瞭解,為大家的日常工作帶來一些新的啓發。
1. 大數據的發展歷程
什麼是數據智能,這個概念怎麼來的呢?
記得從2010年開始,隨着移動互聯網的興起,大數據也隨之出現在各個媒體網站和行業論壇,大家見面都會問一句:“你們搞大數據了嗎?” 其實大家都不太清楚大數據應該怎麼搞,哈哈。
對於大數據能做什麼,我在2013年左右找到一張我比較認可的圖:
我把它稱之為大數據成熟度模型。這個過程實質上我們理解也是數據從工具變成為資產的過程,從一個輔助的東西變成生產資料的過程。現在在提的數字經濟,很多人試圖對此進行理論定義,以便把數字經濟和實體經濟從概念上區分開來,我的建議是就從數字是否作為主要生產資料,是否作為核心資產這個角度去界定,會比較簡單明瞭。
從這幾年的實際發展來看,大數據基本上按照上圖的這個模型在演進發展。
2013年左右,企業已經開始認知到數據價值,各個具有大數據生產環境的行業如電信運營商、政府、公安、金融等開始建設大數據平台,收集並存儲企業業務產生的數據。同時,金融等行業也開始大量購買外部數據,希望通過外部數據快速挖掘數據的價值,彌補自身數據短缺的問題,不少從事數據聚合和相關服務公司獲得了發展機遇。
2015年,大數據進入到了監測階段,通過數據大屏等形式,實現對業務的監測,這是大數據最早、最先成熟的應用方向。對於政府、央企及大型國企而言,數據大屏、領導看板等數據展現應用是大數據最直接能夠反映價值的方式。
2017年,大數據平台建設基本完善,單純數據展現開始難以滿足企業的多樣化需求,大數據開始與業務場景結合,基於大數據實現對業務問題的洞察,呈現出百花齊放的局面,分別應用在金融領域的精準營銷和風控反欺詐,公安領域的刑偵破案,工業領域的故障預測預警等。
企業對業務場景的洞察,單純靠簡單的數理統計已經不足以滿足要求。因此,數據挖掘、數據建模技術應運而生。AI建模平台、數據科學平台開始進入人們的視野,出現了一些主打建模平台的創業公司,但更多公司將AI建模平台內化成自身的能力,基於AI建模平台,形成解決方案,幫助企業客户落地大數據應用。
在2019年左右,大數據開始進入到業務決策階段,也就是説,由機器形成數據報表或者數據報告,業務人員進行決策,變成機器直接給出決策建議,讓機器具備推理能力。例如:在外賣、出行場景,美團和滴滴的系統直接形成最佳調度方式,系統自動完成決策環節,將任務下發給騎手和司機。這種消費互聯網相對常見的場景,將在產業互聯網、企業業務場景中逐漸出現。也就是説,大數據開始從業務數字化階段向數據智能化階段邁進。
2. 數據智能的特徵和定義
從上節中的大數據發展歷程中,我們看到數據智能目前對應的是 決策、優化以及商業重塑階段。也就是説讓機器具備推理能力,而這些能力意味着 自然語言處理(NLP)、知識圖譜(Knowledge Graph) 等認知技術的逐漸成熟,這也是為何2018年NLP、知識圖譜成為市場的熱點的原因。
因此,數據驅動決策,數據驅動業務發展的企業新需求,也必然會帶動一批數據智能公司的興起。
未來,隨着技術更加成熟,大數據會從決策進入到最後一個環節,也就是業務重塑。很多執行環節可以由機器來實現,但仍然有很多環節需要人蔘與其中。因此,人機協同會迎來迅猛發展,從人工智能 AI (Artificial Intelligence ) 向人類智力增強 IA (Intelligence Augmented) 進發。
至此, 我們試着給數據智能做一個定義:
數據智能就是以數據作為生產資料,通過結合大規模數據處理、數據挖掘、機器學習、人機交互、可視化等多種技術,從大量的數據中提煉、發掘、獲取知識,為人們在制定決策時提供有效的數據智能支持,減少或者消除不確定性。
3. 數據智能的技術體系
數據智能首先需要有數據提供,而且數據在其中充當着核心資產和生產資料的角色,那麼對於數據的治理就顯得尤為重要。
什麼是數據治理(Data Governance) 呢?
我們經常聽到公司治理這個詞,公司治理在經濟學上主要解決幾個問題:
所有權和經營權如何分離?
公司所有者如何向職業經理人進行科學的授權及監督?
那麼對應地,數據治理也要解決類似的幾個問題:
數據(資產)有哪些?
如何讓數據所有權和使用權分離?
數據資產所有者如何向數據使用者進行科學的授權及監督?
數據智能的所有手段其實都是在解決上述的幾個問題。
關於數據治理方面的內容我將在之後的文章中詳細描述。
同時,我們知道窮人和富人之間的差別在於對待財富的態度,富人更多的是從資產增值的角度去對待財富,想的是如何創造更多資產,並且讓資產不斷增值;窮人更偏向於從消費的角度去看待財富,賺來的錢更多的是用於消費。
那麼在數據智能時代,如果我們想成為一個“富人”,就需要考慮 如何讓數據發揮更大的價值,如何找到其他合作者去聯合創造價值,但是數據不同於別的資產,其具有可複製性、難確權的性質,這就需要我們去解決數據安全問題,也就是目前行業內比較關注的安全計算技術。
還有一個需要我們關注的點是: 大數據由於其具備的 4V 特性,特別是量大、種類多,有時候會讓我們對於其聚合或者產生的結果存疑,雖然有一些可以通過常識或者直覺去判斷,但是總是有説不出的味道。這就需要有一個質量保證體系來讓我們對於數據從產生到開始的各個環節有一個完整的檢驗過程。
在這裏小結一下,數據智能的技術體系至少需要包含三個方面:
數據治理系統
數據質量保證系統
數據安全計算體系
結語
數據智能作為大數據時代一個重要且激動人心的階段,機會與挑戰並存。
作為本系列開篇文章,本文對該主題內容進行了一個整體概述,後續會對具體內容逐步展開,希望對大家有所幫助。