馬雲曾經分享過這樣一個結論:在中國,浙江女性的胸最小。這個結論是如何得出來的呢?就是通過阿里巴巴的大數據,發現淘寶銷售的胸罩中,賣到浙江去的胸罩平均尺寸最小。
大數據對於我們的意義絕不只是可以獲得一些信息,在理解它的過程中,我們還可以改變自己的思維方式。
大數據思維關注的是相關性,而非因果關係,意即它強調的是人與人、人與事物、事物與事物之間的相互關係。
十年前的一個夏天,科學家們在研究游泳溺水事件時,發現了一個有趣的現象:冰淇淋銷量的増長和溺水而死的人的増長趨勢完全一致,也就是説隨着冰淇淋銷量的増長,溺水而死的人在直線上升。
這一現象告訴我們,隨着天氣變熱,吃冰淇淋的人増多,游泳的人也増多,淹死的人自然就増多。在這裏,冰淇淋銷量和溺水人數之間存在的只是相關性,而非因果關係。
利用大數據提升實用思維包含以下四個要點:
第一點:傳統的因果思維是有問題的。
這個世界是複雜的,而且正在受到越來越多的因素的干擾,變得越來越複雜,所以很多時候對許多現象我們並不能準確地找到原因。倘若一定要強行尋找原因,那麼結果必定適得其反。
就像期貨投資思維強調的一樣,這世界上本沒有因果,只是我們把事情想成了因果關係。
第二點:注重相關性,才是更有效率的思維方式。
作為全世界最大的連鎖超市,沃爾瑪的數據分析師發現,當把啤酒和嬰兒紙尿褲擺放在一起時,會大幅提高二者的銷量。
為什麼會這樣呢?是因為帶孩子的爸爸變多了嗎?還是因為人們在買啤酒的時候有點愧疚,希望展現一下自己有責任心的一 面?
沒人知道。原因並不重要。
沃爾瑪在發現了這一相關性後,迅速調整貨架佈局,將這兩種貨物擺在一起,結果既提高了銷量,又便利了顧客。
為此很多顧客讚歎:“沃爾瑪居然知道我心裏在想什麼。實際上,沃爾瑪並不知道顧客在想什麼,也從不曾研究過造成這一現象的原因,但這沒關係,因為它並不妨礙沃爾瑪做出正確的決策,做出快速反應。
第三點:相關性需要全樣本。
樣本就是我們做觀察和調研的時候抽取的一部分數據,它對於做決策具有很重要的作用。在大數據當中,正是樣本規模的改變,導致了決策思維的改變。
隨着互聯網和計算機技術的發展,大數據和全樣本變得可能了,我們當然沒有理由不去利用這種便利。
第四點:面對全樣本,需要我們有理解抽象數據的能力。
作為全面跟蹤中文圖書市場零售數據的平台,“開卷”已經存在了十幾年。它為出版業提供不同渠道和不同時間的數據。不過當時圖書行業對於數據的利用主要用於書籍上市後,在數據平台上監測銷售的好壞,這決定着是否趕緊加印,以避免市場上斷貨。
為什麼數據沒有得到充分的利用,沒有參與到製作流程裏來呢?就是因為當年相當多編輯不清楚如何解讀這些數據,缺乏理解抽象數據的能力。
還有一個特別有意思的事實,很多經濟類、計算機類的書賣得比較好,一方面固然是由於讀者羣剛需較大,另一個重要的原因還在於人們出於提升理解數據的能力需要。
同樣的大數據,在看不懂的人眼中,就是一堆亂碼,但是在有抽象數據能力的人眼中,就有了週期,有了規律,還藴藏着讀者的需求。原因就在於這些人具有宏觀性、系統性的思維。
“讀客”是另外一個靠數據成功的例子。2017年,讀客圖書估值超20億,在業界號稱“單品之王”,其創始人華杉、華楠兩兄弟均是做戰略諮詢出身。
千萬不要認為有了全樣本就足矣,你一定要同時具備理解數據的能力。因為小樣本的本質是訓練人的感覺,大樣本的本質是訓練方法、訓練思維方式。而要建立抽象數據的思維能力, 是需要練習的。
鑑於數據分析能力比較抽象,一個人練習極易走進死衚衕,所以一定要與他人交流,互相矯正。
下面這個小練習不妨一試:下載一個“國務院” App,找一個小夥伴,利用每天睡覺前五分鐘的時間,看一個小的數據總結,比如去年的房地產數據、保險業數據、統計局數據等,以此培養自己的數據分析能力。次日再抽出十分鐘,與小夥伴互相討論。
舍恩伯格在《大數據時代》一書中提出:大數據具有模糊性,可以不追求精確。
數據越精確,需要的數據量就越大,但數據的收集成本也越大,我們最終追求的是以最高效率達到可靠結論,所以如果能做到精確,當然可以,但最重要的是要權衡這樣做的成本和收益。
奧地利數據科學家舍恩伯格,在《大數據時代》一書中説,大數據開啓了一次重大的時代轉型,人們不再認為數據是靜止的陳舊的,而是成為一種戰略資產,一項可以創造新的經濟價值的投入。