马云曾经分享过这样一个结论:在中国,浙江女性的胸最小。这个结论是如何得出来的呢?就是通过阿里巴巴的大数据,发现淘宝销售的胸罩中,卖到浙江去的胸罩平均尺寸最小。
大数据对于我们的意义绝不只是可以获得一些信息,在理解它的过程中,我们还可以改变自己的思维方式。
大数据思维关注的是相关性,而非因果关系,意即它强调的是人与人、人与事物、事物与事物之间的相互关系。
十年前的一个夏天,科学家们在研究游泳溺水事件时,发现了一个有趣的现象:冰淇淋销量的増长和溺水而死的人的増长趋势完全一致,也就是说随着冰淇淋销量的増长,溺水而死的人在直线上升。
这一现象告诉我们,随着天气变热,吃冰淇淋的人増多,游泳的人也増多,淹死的人自然就増多。在这里,冰淇淋销量和溺水人数之间存在的只是相关性,而非因果关系。
利用大数据提升实用思维包含以下四个要点:
第一点:传统的因果思维是有问题的。
这个世界是复杂的,而且正在受到越来越多的因素的干扰,变得越来越复杂,所以很多时候对许多现象我们并不能准确地找到原因。倘若一定要强行寻找原因,那么结果必定适得其反。
就像期货投资思维强调的一样,这世界上本没有因果,只是我们把事情想成了因果关系。
第二点:注重相关性,才是更有效率的思维方式。
作为全世界最大的连锁超市,沃尔玛的数据分析师发现,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高二者的销量。
为什么会这样呢?是因为带孩子的爸爸变多了吗?还是因为人们在买啤酒的时候有点愧疚,希望展现一下自己有责任心的一 面?
没人知道。原因并不重要。
沃尔玛在发现了这一相关性后,迅速调整货架布局,将这两种货物摆在一起,结果既提高了销量,又便利了顾客。
为此很多顾客赞叹:“沃尔玛居然知道我心里在想什么。实际上,沃尔玛并不知道顾客在想什么,也从不曾研究过造成这一现象的原因,但这没关系,因为它并不妨碍沃尔玛做出正确的决策,做出快速反应。
第三点:相关性需要全样本。
样本就是我们做观察和调研的时候抽取的一部分数据,它对于做决策具有很重要的作用。在大数据当中,正是样本规模的改变,导致了决策思维的改变。
随着互联网和计算机技术的发展,大数据和全样本变得可能了,我们当然没有理由不去利用这种便利。
第四点:面对全样本,需要我们有理解抽象数据的能力。
作为全面跟踪中文图书市场零售数据的平台,“开卷”已经存在了十几年。它为出版业提供不同渠道和不同时间的数据。不过当时图书行业对于数据的利用主要用于书籍上市后,在数据平台上监测销售的好坏,这决定着是否赶紧加印,以避免市场上断货。
为什么数据没有得到充分的利用,没有参与到制作流程里来呢?就是因为当年相当多编辑不清楚如何解读这些数据,缺乏理解抽象数据的能力。
还有一个特别有意思的事实,很多经济类、计算机类的书卖得比较好,一方面固然是由于读者群刚需较大,另一个重要的原因还在于人们出于提升理解数据的能力需要。
同样的大数据,在看不懂的人眼中,就是一堆乱码,但是在有抽象数据能力的人眼中,就有了周期,有了规律,还蕴藏着读者的需求。原因就在于这些人具有宏观性、系统性的思维。
“读客”是另外一个靠数据成功的例子。2017年,读客图书估值超20亿,在业界号称“单品之王”,其创始人华杉、华楠两兄弟均是做战略咨询出身。
千万不要认为有了全样本就足矣,你一定要同时具备理解数据的能力。因为小样本的本质是训练人的感觉,大样本的本质是训练方法、训练思维方式。而要建立抽象数据的思维能力, 是需要练习的。
鉴于数据分析能力比较抽象,一个人练习极易走进死胡同,所以一定要与他人交流,互相矫正。
下面这个小练习不妨一试:下载一个“国务院” App,找一个小伙伴,利用每天睡觉前五分钟的时间,看一个小的数据总结,比如去年的房地产数据、保险业数据、统计局数据等,以此培养自己的数据分析能力。次日再抽出十分钟,与小伙伴互相讨论。
舍恩伯格在《大数据时代》一书中提出:大数据具有模糊性,可以不追求精确。
数据越精确,需要的数据量就越大,但数据的收集成本也越大,我们最终追求的是以最高效率达到可靠结论,所以如果能做到精确,当然可以,但最重要的是要权衡这样做的成本和收益。
奥地利数据科学家舍恩伯格,在《大数据时代》一书中说,大数据开启了一次重大的时代转型,人们不再认为数据是静止的陈旧的,而是成为一种战略资产,一项可以创造新的经济价值的投入。