有關商家和平台利用大數據殺熟(指商家對新老客户、不同地區的客户,實行不同的價格,或者利用掌握的大數據,採用十分複雜的計算方法,對消費者進行價格歧視)的消息屢有發生,而更多與大數據有關的新聞也不斷挑動着人們的神經,讓大家覺得自己在大數據面前似乎“無所遁形“。
對於普通人而言,大數據是一個近在眼前,卻又不甚瞭解的事物。大數據究竟是什麼?它和我們熟知的數字、數學又有着什麼樣的聯繫?大數據究竟給我們的生活帶來了哪些改變?作為中國大數據倡始之人,大數據專家塗子沛通過回溯數的發展、數據在中外歷史重大事件的全方位應用,清晰、直觀地解釋了與大數據有關的知識。以下內容節選自《給孩子講大數據》,已獲得出版社授權刊發。
《給孩子講大數據》,塗子沛著,童趣出版有限公司編,人民郵電出版社2020年7月版。
作者丨塗子沛
摘編丨安也
大數據的出現,讓統計科學和數據科學重新洗牌
這是一個關於零售帝國沃爾瑪的故事。
沃爾瑪,全世界最大的零售商,擁有11000多家分店、200多萬名僱員。它的銷售收入在2018年突破了5000億美元,超過了很多國家的GDP(國內生產總值)。
沃爾瑪的數據庫是世界上最龐大的商業數據庫之一。沃爾瑪也是最早一批大規模使用數據挖掘技術的企業之一。它的首席信息官叫羅林·福特,數據分析是他的核心工作。羅林曾經感嘆:“每天早上一醒來,我就要問自己,怎麼才能讓數據流動得更好、管理得更好、分析得更好?”
在一次例行的數據分析之後,研究人員突然發現:跟尿布一起搭配賣得最多的商品竟然有啤酒!尿布和啤酒,聽起來風馬牛不相及啊!任何一個人都很難將兩者聯繫在一起,但這卻是對歷史數據進行挖掘的結果,反映的是數據層面的規律。這實在令人費解,這是一個真正的規律嗎?答案,還是在數據裏。
經過跟蹤調查,研究人員終於發現事出有因:一些年輕的爸爸經常要到超市購買嬰兒尿布,有30%~40%的“奶爸”會順便買點兒啤酒犒勞自己。再有想象力的人恐怕也很難想到,事實的真相居然是這個樣子的。沃爾瑪隨即對尿布和啤酒進行了捆綁銷售。果然,銷量雙雙增長。這是數據科學應用的經典案例。
電影《白金數據》(2013)劇照。
沃爾瑪到底是怎樣發現這個規律的呢?這就要進入數據科學的核心:數據挖掘。數據挖掘,是指通過特定的算法對大量的數據進行分析,在大量的數據當中發現新知識,供人蔘考。之所以稱之為“挖掘”,是比喻在海量數據中尋找知識,就像開礦鑿金一樣困難。你可以這樣理解,數據挖掘是一台由算法控制的挖掘機,而數據庫就像是一座礦山。
1989年之前,數據挖掘不叫數據挖掘,而是叫一個很長的名字:基於數據庫的知識發現。作為挖掘基礎的數據庫也不是和計算機同步產生的,它是在計算機出現之後,慢慢從軟件當中成長、獨立出來的。
1948年,杜魯門和杜威競選美國總統,蓋洛普通過抽樣調查預測杜威將會當選。新聞界對這個預測深信不疑,《紐約時報》等報紙提前一天印好了杜威當選美國總統的版面,準備搶佔先機。結果卻令所有的人都大跌眼鏡,最後當選的是杜魯門!那些印有杜威當選消息的報紙只好全部銷燬。
蓋洛普失敗的原因就在於,抽樣調查需要經過問卷設計、信息收集、數據分析等多個步驟,這導致它掌握的數據有滯後性,而真實的情況是瞬息萬變的。在競選結果出來前的最後的兩週裏,蓋洛普不得不停止調查,而杜魯門卻恰恰在這最後的關頭扭轉了戰局。
在大數據時代,對總統競選的預測出現了新的方法:在投票的前後,對社交媒體上的數據進行觀點的挖掘,可以較為準確地預測出誰能當選。2008年和2012年兩屆美國總統選舉,都有人通過挖掘推特、臉書上的數據,準確預測出了結果。
這種對互聯網數據的挖掘不需要設計問卷,也不需要挨個兒調查,成本很低;這樣的數據分析,一個人就可以完成,而不像問卷那樣要出動大量的人馬;更重要的是,這種分析是實時的,沒有滯後性。
所以,有越來越多的科學家相信,因為大數據的出現,統計科學和數據科學將重新洗牌,進入一個新的時代。在這個新的時代,數據挖掘將成為越來越重要的分析預測工具;抽樣技術的重要性將下降,這種技術將成為輔助工具。雖然數據挖掘如日中天,但也有搶風頭的,這就是機器學習。打遍天下無敵手的國際象棋機器人“深藍”,還有把眾多圍棋名將下得沒有脾氣的機器人阿爾法狗(AlphaGo),用的都是機器學習技術。
電影《白金數據》(2013)劇照。
機器學習憑藉的也是計算機算法。和數據挖掘不同的是,其算法並不是固定的,它能夠隨着計算、挖掘次數的增多,自動調整算法的參數,使挖掘和預測的結果更為準確。
大數據刺激了數據可視化專業市場的形成
1855年,克里米亞戰爭爆發了。這場戰爭導致50多萬人死亡,異常慘烈。作為交戰一方的英國當然是傷亡慘重。
弗羅倫斯·南丁格爾(1820—1910)是英國的一名戰地護士,也是一名自學成才的統計學家。她在考察了英國士兵的傷亡情況之後,發現由於醫療衞生條件惡劣而導致的死亡人數,大大超出了在前線直接陣亡的人數。
南丁格爾將她的統計結果製成了一張圖表。圖表清晰地反映了“戰鬥死亡”和“非戰鬥死亡”兩種情況下死亡人數的懸殊對比。強烈的視覺效果引發了英國整個社會的激烈討論,促成了英國政府出台成立野戰醫院的決策。由此,人類歷史上第一所正式的野戰醫院建立起來了。
南丁格爾後來被譽為現代護理學之母。她的這張圖表更是歷史上第一份“極區圖”,也是統計學家對利用圖形來展示數據進行的早期探索。
一張圖表改變了一個制度,這並不誇張。人類天生就是感性的生物,視覺衝擊對人的震撼要遠遠強過單純的聯想。
南丁格爾的這種做法被稱為數據可視化。它是指以圖形、圖像、地圖、動畫等更為生動和易於理解的方式,展現數據的大小,詮釋數據之間的關係和發展的趨勢,以更好地理解並使用數據分析的結果。
南丁格爾的事例充分地證明了數據可視化的價值,特別是在公共領域的價值。生理學也證明,人的大腦皮層當中,有40%是視覺反應區,人類的神經系統天生就對圖像化的信息最為敏感。通過圖像,信息的表達和傳遞將更加直觀、快捷、有效。而且,人的創造力不僅僅取決於邏輯思維,還取決於形象思維。數據可視化的技術,可以通過圖像進一步激發人的形象思維和空間想象能力,吸引、幫助用户洞察數據之間隱藏的關係和規律。
20世紀70年代,由於計算機技術的興起,一批有遠見卓識的學者看到了這個領域巨大的潛力。有人認為:“未來的計算機不僅要能計算,還要能將計算結果轉變為直觀的圖形。我們應該研究這兩種結果,因為每一種都有助於我們理解問題。”
1983年,耶魯大學的教授愛德華·塔夫特成了數據可視化這門學科的掌門人。塔夫特系統考證了人類用“圖形”表達“數據”和“思想”的淵源,整理了歷史古籍中的圖形瑰寶,並結合計算機的發展給統計領域帶來的革命,出版了《定量信息的視覺展示》一書。這本書後來被公認為是“數據可視化”作為一門學科的開山之作。
塔夫特強調,數據可視化的關鍵在於“設計”,“信息過載這回事並不存在,問題出在糟糕的設計,如果你用來表達數據的圖形讓人感覺雜亂不解,那就要修改你的設計”。美國總統每年公佈政府預算都是美國的一件大事。在塔夫特的領導下,美國白宮曾經用一張圖對奧巴馬公佈的年度預算進行了可視化處理。如下圖,圖形以線條的粗細表明各項收支金額的大小,左邊是收,右邊是支,中間的紅色部分是赤字缺口,形象貼切。奧巴馬收了多少錢,要辦哪些事,各項收入和支出一目瞭然。
奧巴馬在2010年預算開支的可視化展示。(數據來源:《華盛頓郵報》,2010年2月1日)
進入21世紀之後,大數據的爆炸使人們更加需要展示數據、理解數據、演繹數據的工具。這種需求,刺激了數據可視化專業市場的形成,其產品迅速增多,可謂絢麗多彩、百花齊放。從最早的點線圖、直方圖、餅圖、網狀圖等簡單圖形,發展到以監控商務績效為主的儀表盤、記分板,再到交互式的三維地圖、動態模擬、動畫技術等。
作為一個新興的行業,數據可視化的發展潛力不容小覷。數據可視化工程師既懂數據分析,又精通構圖的藝術,集故事講述和藝術家的特質於一身,通過把複雜的數據轉化為直觀的圖形,他們把數據分析的結果推向了普通大眾,可謂是大數據時代的導航員。
“物證雲”是大數據在警務系統內的應用
大數據之大,不僅在於容量大,其根本還在於潛在的價值大。
人類可以邁進大數據時代,最根本的原因,是人類的數據技術取得了重大的突破。通過以數據挖掘為核心的一系列技術,人類在數據當中發現了新的知識、創造了新的價值,從而為社會帶來“大知識”“大科技”“大利潤”和“大智能”等大機遇。
在這個新時代,數據就是財富,數據分析的能力就是核心競爭力,很多行業都要相繼跨入一個數據興則興、數據強則強的“數據競爭”時代。這也是一場數據科學家之間的競爭,以發現新知識為使命的數據挖掘和機器學習,就是這個時代最為矚目的競爭利器。
我曾旅居杭州4年。這4年中很喜歡看《錢江晚報》。有一天,我看到一個大消息,之江花園案破了!
之江花園別墅的這起案件曾經轟動整個杭州市。2003年,有人在一個雨夜潛入之江花園,入室搶劫殺人,隨後潛逃,再無音信。這一年,華人神探李昌鈺第一次來杭州,有人拿這個案子問他,當時他也拿不出辦法,但留下了一句話,“只要時機到來,案子遲早會破”。這個時機,一等就是13年。讓人沒想到的是,等來的時機竟然是大數據。
20世紀90年代,杭州警方開始普及“生物痕跡”的概念,引進了物證管理系統;2008年,標準化採集儀器“搜痕儀”在杭州的派出所得到普及,它可以收集記錄人像、DNA(脱氧核糖核酸)、指紋、掌紋、足印以及鞋底式樣等數據;2012年,這些數據開始向雲端轉移,形成“物證雲”,任何一個嫌疑人的數據都可以在“物證雲”中和其他數據進行大範圍的比對。“物證雲”正是大數據在警務系統內的應用。它在之江花園案的破案過程中起到了關鍵作用。
2015年9月,一名姓俞的男子在諸暨一家麪館因為爭吵而傷人。當地警方把他制伏後,提取了他的DNA等數據,並錄入到“物證雲”上。沒有想到的是,對數據進行跨地區比對已經實現了,警方發現他的各項數據和之江花園案留下的痕跡高度吻合,俞某的身份很快得到確認。為了破之江花園案,杭州警方十多年來踏破鐵鞋,但真正破案時卻沒費多少工夫。這首先要歸功於“物證雲”的強大覆蓋能力,“物證雲”讓一些零散的數據形成了聯繫,破案時機就在這種比對中出現了。
1975年至1986年間,美國出現了一起連環案,犯罪嫌疑人被稱為“金州殺手”。辦案人員追蹤他20多年,查對過數千名嫌疑人,但都沒能抓到他。
電影《源代碼》(2011)劇照。
2017年12月,一名探員突然想到了一個應用大數據的新辦法。他把已經掌握的嫌疑人的DNA上傳到一個尋親網站,這個網站能夠分析上傳的基因數據,為人們尋親溯祖提供線索。結果,真的找到了一個和嫌疑人DNA部分匹配的人。憑藉這個重要的發現,警方將嫌疑人的範圍從上百萬人縮小至一個家族。在排查之後,警方抓到了案犯迪安傑洛。此時,這位“金州殺手”已經72歲了。正義雖然姍姍來遲,卻沒有缺席,這裏面最大的功臣也是大數據。
我的警察朋友這樣告訴我:“大數據和新技術太厲害了,我們現在是有案必破,破積案、等案破、沒案破。”“今天你要是做了壞事,就別跑,因為你根本跑不掉,你就坐在家裏,等着警察來找就沒錯了。”這説的可能有些誇張,但也正説明警方如今的底氣不是一般的足。為什麼底氣能這麼足?正是因為有了大數據的分析。
今天,幾乎人類所有的行為都在留下數據。凡走過的,必留下痕跡。通過對痕跡的分析,一個人幾乎沒有秘密。普通人是這樣,犯罪分子也是這樣,除非他一直躲在深山老林裏不出來,顯然,這在現代社會幾乎是不可能的。
用數據和“雲”解決“空巢”老人的救助問題
大自然中沒有兩片相同的葉子。因為,紋理可以將一片葉子與另一片葉子區分開來。也沒有兩個人的聲紋或指紋是相同的。同樣,在數據空間裏,一個人或一個物體就是一個獨特的“數體”,它可以被無數數據定義、支撐、背書。每一組、每一條數據又都有自己的特徵,就像聲紋和指紋,它們是數據紋理,簡稱“數紋”。每個人的臉型、指紋、心跳和血壓等生理數據不一樣,每個人的社會活動也不一樣,不斷地收集、整合一個人的數據,一個獨特的數紋就出現了。憑藉這些數紋,就可以清晰地定義一個人,區分這個人和另一個人。
這種個體區分力,在人類的歷史上還從沒有過。但今天的政府正在擁有,我叫它“單粒度治理”的能力,意思是,人正在成為顯微鏡下的一粒原子。打個比方,就像漫天飛雪,雖然每片雪花高度相似,但它們在形成過程中,由於水蒸氣條件的不同,形成了各自的獨特構造,再受氣流的影響,紛紛揚揚下落的路徑充滿變數,每一片都不一樣。今天的技術就好比上蒼之眼,可以在空中鎖定、跟蹤、分辨每一片雪花的軌跡。
電影《白金數據》(2013)劇照。
2018年8月,南方的一個花園小區裏,一對老人倒在家中,被發現時已死亡多日。新聞報道説:二老都是退休教師,老爺子70多歲了,患有阿爾茨海默病,老太太也患有多種疾病。兩位老人平常和藹可親,沒有想到説走就走了,多日後才被鄰居發現,實在可憐。老人有一個兒子,就住在隔一條馬路的小區。
小區里人來人往,兒子就住在隔壁的小區,可這樣的事還是發生在了眼皮子底下,到底出了什麼問題?大家可能會想到鄰里關係的冷漠,兒子對老人疏於照顧,老人即使身處鬧市,又與獨居有什麼區別?
每家都有老人。當今中國,獨居老人或者叫“空巢”老人的問題已經非常嚴重。據統計,截止到2018年年底,我國60週歲以上的人口大約有2.5億,占人口總數的18%,其中65週歲以上的人口約1.7億,占人口總數的12%。中國即將進入人口老齡化的高峯階段。
我曾經還看過一個報道,有一個在外地打工的遊子打電話回家,連打了幾天都沒人接聽。他非常擔心,放下工作直奔家中,推開門就發現慘劇已經發生了。幾天之前,他父親因為心臟病發作死在浴室,母親癱瘓在牀,因為沒有人照顧餓死了。不斷看到這樣的悲劇,真是令人難受。我想,今天有那麼多的傳感器、智能手環,用好了一定可以解決這個問題。移動技術已經讓人類永不下線,傳感器普及的浪潮正在到來。
智能手環收集到的數據如果可以和醫院實時聯通,那麼被監控者的心跳、體温等數據就可以源源不斷地傳送到醫院的數據庫中。當被監控者的心跳出現異常時,算法就可以把數據推送給醫生,提醒其注意及時救治。
目前,江蘇省揚州市的個園社區正在嘗試為老人安裝“智能看護”傳感器,主要包括:牀墊傳感器、馬桶傳感器、煤氣泄漏報警器和室內紅外線傳感器等。這些傳感器每天會按時將收集的數據發送到系統終端,社區負責人員和子女只要打開手機,就可以瞭解到老人當天的生活情況。
日本社會也存在老齡化的問題,比中國更嚴重。據統計,日本的獨居老人約600萬,每年有4萬人孤獨離世。為了關注他們,日本人也用上了大數據,他們通過能源提供商監測這一家住户的水龍頭幾天沒被使用了,燈有沒有被打開,燃氣一直在被使用或者沒被關掉等。日本家庭的水錶一般安裝在住所外面,因此,改造水錶很方便。
通過安裝一個可以實時記錄用水量的電子指示器,關注獨居老人的想法就可以實現。遠方的子女每天都可以看到老人的能源使用數據,從這些數據推測老人做飯、洗澡所需的時間。當發現數值異常時,可以立即與當地社區聯繫,請社區工作人員到家中查看。這樣一來,日本獨居老人在家中死亡若干天后才被發現的事件減少了30%。
把數據用好,把“雲”用好,“空巢”老人的救助問題將發生極大的變革。
知冷知熱知心,是大數據的終極追求
2013年7月,華東師範大學有一位女生收到校方的短信:同學你好,發現你上個月餐飲消費較少,不知是否有經濟困難?
這條温暖的短信也要歸功於大數據。校方通過挖掘校園飯卡的消費數據,發現這位女生每頓飯的餐費都偏低,於是向這位女生髮出關心的詢問。
電影《點球成金》(2011)劇照。這部電影講述了球隊如何用數據建模的方式,挖掘潛在的明星隊員。
藉助數據分析,華東師範大學把每個月在食堂吃飯超過60頓、總消費不足420元的學生,悄悄列為受資助對象,不用審核、不用公示,學校直接將金額各不相同的補貼款打進這些學生的飯卡。因為校方在長期的管理當中發現,不少家境貧寒的學生,因為面子原因不願申請貧困生助學金。如果進行公開的評審和公示,難免會傷害一些學生的自尊心。這種方法可以説是用心良苦了。當然,偶爾也會出現美麗的錯誤!剛才説的那位女生之所以消費低,只是因為正在減肥。
誤會之所以發生,並不是因為大數據不管用,而是在於數據不夠多、不夠全面、不夠強大。大數據的特點除了“量大”,還有“多源”。如果除了飯卡,還有其他來源的數據作為輔助,判斷就會更加準確。
我的朋友周濤教授在電子科技大學工作,作為國內知名的大數據專家,他主持過一個課題,叫“尋找校園中最孤獨的人”。該課題從3萬名在校生中採集到了2億多條行為數據。這些數據包括學生選課、圖書館刷卡、寢室門禁、食堂消費以及學校超市購物等數據,都是學生在刷一卡通時產生的。
通過對不同的卡在不同地點的刷卡數據進行分析,課題組最終發現了電子科技大學有800多名學生,他們在校的大部分時間都是獨來獨往的。每一次排隊,前後都沒有同學或好友,他們是“最孤獨的人”。這些孤獨的人患上心理疾病的可能性很大,家長和學校如果提前予以關注,就會避免悲劇的發生。這也是大數據温暖的一面。知冷知熱知心,應該是大數據的終極追求。
本文節選自《給孩子講大數據》,較原文有刪節修改,小標題為編者所加,非原文所有,已獲得出版社授權刊發。
編輯丨劉亞光
校對丨吳興發