統計學對大數據的意義
很高興有這樣一個機會,我能與大家在這裏做一些關於統計學與大數據的交流,與大家分享一些觀點。
在講大數據之前,我們首先來看看什麼是數據。很長一段時間裏,大家對數據的理解,可能只是停留在阿拉伯數字這個層面。近些年來,大家開始講大數據。結果有人就開始好奇了:這個大數據和我們之前説的數據有什麼關係呢?
阿拉伯數字是不是數據呢?當然是數據。大數據是不是數據呢?當然也還是數據。不過,現在我們對數據的理解要廣泛得多了。凡是可以被數據化的信息載體,我們都可以認為是數據。比如説,我們接觸的文本,包括平時看到的一些文字,現在我們都可以把它量化。我們看到的圖片、視頻和音頻,現在也都可以量化。包括阿拉伯數字、文本、圖片、視頻和音頻,我們都稱之為數據。現在我們理解的數據,從來源上來説更加廣泛了,從類型上説變得很複雜了。這些不同來源、類型複雜的數據組合在一起,達到一定的體量之後,就可以認為是一個大數據了。
現在我們來説一下統計學,統計學是什麼呢?首先,從學科定位上説,統計學已經被列為一級學科了。這一點和數學、法學等都一樣了。大不列顛百科全書對統計學有個定義,説這是一門收集數據、分析數據的科學和藝術。定義中提到統計學是一門科學,這個容易理解。那為什麼説統計學是一門藝術呢?這個問題,就和我今天主要回答的一個問題很有關係。順便説一句,現在美國很多高校的統計系,它並不設在理學院下面,而是設在藝術學院下面。
今天我主要回答一個問題:在大數據時代,我們究竟是否需要基於抽樣的統計學?
有些人認為,現在計算機科學非常發達,可以收集海量的數據。為了特定的研究目的,我們現在甚至有能力通過計算機技術收集與特定的研究目的相關的全部數據。今天,基於抽樣的統計學就沒有那麼重要了,甚至都不再被需要了。事實真的是這樣嗎?
統計學是一門收集數據的藝術
既然統計學被認為是一門收集數據、分析數據的科學和藝術,我們暫時不談科學,先來看看統計學為什麼被認為是一門收集數據的藝術。
我們來看第一個案例。這個案例是希望調查15個國家國民的誠實情況。調查人員想要知道,哪些國家的國民最傾向於撒謊,哪些國家的國民很誠實。如果直接去問被調查的人員:“您是否撒過謊?”十之八九,是問不到真實答案的。如果被調查人員以前撒過謊,也不在乎多撒這個謊了。被調查人員可能出於不同的動機,不願意給出真實答案。那麼,調查數據怎麼得來呢?這顯然不是簡單地通過計算機技術、通過某些爬蟲軟件就容易收集到適合研究目的相關數據的。
如何利用統計學方法來收集數據呢?這就需要統計學的智慧了。調查人員設計了兩組實驗。
調查人員先從每一個國家找1000人蔘與測試,15個國家一共找了15000人,找這麼多不同國家的人來面對面調查,這是非常困難的,所以調查人員通過互聯網找到了這15個國家共計15000人。兩組實驗都是在互聯網上進行的。
在第一組中,他們先做了一個測試,請受調查者在家裏拋硬幣,硬幣有正反兩面,調查者事先規定,受調查者拋硬幣之後要告訴我結果,如果硬幣正面朝上,我就獎勵你十塊錢,如果反面朝上,我就不給你獎勵。這個調查不需要提供你拋硬幣的證據,只是由你告訴調查者,拋硬幣的結果。這也就是説,受調查者有沒有撒謊,只有他自己知道。
這個最後的結果,實際上調查者是有參照的。因為,每個國家有1000人蔘與測試。正常情況下,1000次拋硬幣的結果,應該是500次左右正面朝上。某個國家參與實驗的1000個人之中,如果有900個人聲稱自己拋出來的硬幣正面朝上,甚至1000人聲稱拋出來硬幣正面朝上。那麼,很大概率就是其中有人撒謊了。這是第一組實驗。
第一組的實驗有價值,但是它也不一定能夠全面反映真實的情況,所以調查人員還有第二組實驗。
第二組實驗,是要求受調查者回答五個問題。這五個問題在回答之前,需要受調查者承諾,他不能為了答題去查閲任何資料,不能去尋求任何幫助,也就是説,看了這五個問題之後,受調查者需要立即給出答案。調查者承諾,如果五個問題中,回答對了四個以上,就獎勵給受訪者十塊錢,如果答對三個或者三個以下,就沒有獎勵。
而這五個問題中,其中有三個問題特別簡單,類似於像1 1等於幾這種問題。另外兩個問題則非常生僻。如果受調查者不去查閲資料或諮詢他人的話,基本是不太可能回答出來的。因此,如果有受調查者答對了這兩道難題,十有八九就説明他違反了自己事先承諾的“不去查閲資料尋求幫助”,由此可以推論他在這件事情上不誠實。
然後統計人員通過這兩組實驗結果,互相驗證。這兩組數據收集的過程都非常恰當地體現了統計學在收集數據方面的智慧。
所以説,即使在大數據時代,不是説有了計算機,有了爬蟲技術,我們就能收集到適合研究目的的所有數據。統計學是一個收集數據的藝術,針對特定的研究目的,設計非常漂亮的數據收集方案,就是一個非常藝術的收集數據的過程了。
我們再舉一個例子。這是最近美國麻省理工剛剛完成的一個實驗,大致在2018年左右完成的,實驗結果也公佈出來了。目的是想了解大家目前的婚姻觀念,100人受到邀請來到一個封閉的場所參與這個實驗。參加實驗時,每人都會被貼上一個編號。男的編號是單數一三五七九,女的編號是雙數二四六八十,以此類推。參與實驗的這100人不知道自己的編號,也不知道究竟有多少人蔘加了這次實驗。換句話説,他們不知道參加這次實驗的正好是50個男人和50個女人,受訪者僅僅知道,這次實驗有很多人蔘加。
在這裏統計人員採取了一點小花招,就是當受訪者進門的時候,把編號貼在受訪者後背上,受訪者知道自己有編號,但是不知道自己的編號是多少,不過他能夠看到別人後背上的編號。實驗規則説,允許100人中的任何兩個人進行交談,除了不能告訴對方他的後背編號是多少,其他話題都可以談。
然後實驗者把這100人帶到一個很小的房間裏,宣佈給大家5分鐘時間,在這5分鐘內,大家自行配對,每人只能配一名異性。5分鐘結束之後,如果配對成功了,兩個人背後的數字加起來乘以十,就是兩人能夠拿到的獎金。也就是説,如果編號是100的那個女性找到了那個編號為99的男性,那麼兩人就可以拿到(100 99)×10的獎金,也就是1990美元,這筆錢已經很可觀了。但是如果你是一個編號為2的女性,而你找到的是那個編號為1的男性,那麼你倆只能得到(1 2)×10也就是30美元,你倆用這獎金一起吃頓飯都不一定夠。但是5分鐘之後,如果還沒有配對成功的話,你就連一美分都拿不到。因此,參加者必須在5分鐘之內,在一個很小的擁擠空間內,儘快找到願意跟自己配對的那個人。而且在這個過程中,要儘可能讓自己的獎金數額變得很大。
實驗人員之所以把100人故意安排在非常擁擠的小房間內,就是考慮到,一方面要讓大家能夠很快速地看到一些人的編號,另一方面又能保證一個人不可能看到所有人的編號。在人擠人的情況下,有些編號是肯定看不到的。
實驗開始了。
一些人很快就發現,自己連續跟別人配對三四次,大家都拒絕他。這很可能説明,自己後背的編號數字不夠大,別人不感興趣。於是這其中就有人採取了應對策略,他跟別人講,如果你願意跟我配對的話,那我願意把獎金全部給你,反正我數字也不大,所以我的錢不要了。還有人説,只要你這次跟我配對成功了,我們出去以後,我再單獨請你吃頓飯。
另外還有一些人,雖然他不知道自己後背的編號,但是他發現有很多人過來找他,所以他很快就意識到,自己後背的編號很可能很大,但具體多大,他並不知道。而且要儘可能讓兩個人組合出來的數字變得很大。於是他很快就把眼前這批他能看到數字的人拒絕掉了,因為他理所當然地認為接下來肯定還有更大的編號,但是他並不知道最大的編號是多少,同時他還必須要在5分鐘內快速決定跟誰配對。
這個實驗的結果是,編號99的男性並沒有與編號100的女性配對成功。那位編號100的女性,找到的是編號八十幾的一位男性。那些數字在中間的人,大體都配對了跟自己差不多的另一個人。這個結果,很符合中國的一種傳統思想,也就是門當户對。
我們現在來看這個實驗的結果,它基本上跟中國男女婚姻觀念的現實比較類似。比如説,實驗者因為自己編號小,就讓渡自己的獎金給對方甚至於承諾事後請對方吃飯,以求得成功配對,這個跟現實中“我的個人條件差一些,但是我父母同意我們兩個結婚之後送給我們一套房子”的承諾是類似的。而且我們在生活中也發現,一些最優秀的男性女性,他們身邊不乏追求者,但是他們並沒有找到自己的“最佳匹配對象”。
這個數據的收集過程也是非常漂亮的。
數據並不是越多越好
統計本身是一門收集數據的科學,但是數據是不是越多越好呢?很難説。
歷史上有一個非常有名的例子。大約500年之前,丹麥有一個天文學家叫第谷,他從當時的丹麥國王那裏要了一筆錢,建了一個實驗室。第谷天天去觀察每顆行星的運動軌跡,並且每天記錄下來。於是第谷觀察了20年,記錄了大量的數據。不過,這個數據太多了,第谷花了大量時間、精力來分析這個數據,但沒有發現任何規律。
這時候,一個叫開普勒的人出現了。開普勒認為,第谷每天去觀測,一年365天每一顆行星都會有365個數據,這樣20年觀測記錄積累下來,要分析處理的數據就太多了,而且那個時候的數據分析只能依靠手工計算,這個處理工作量實在太大了。於是開普勒就説,能不能每年只給我一個數據,比如説你可以只告訴我每年的1月1日,地球在什麼位置,土星在什麼位置,太陽在什麼位置,等等。這樣20年的觀測數據篩選之後,每一顆行星的數據就只有20個了。開普勒知道,地球每隔365天會回到同一個位置,然後他把地球的位置固定,再分析其他行星跟地球的相對位置。開普勒通過固定地球的位置,對其他行星位置20年的數據進行分析,就成功得到了其他行星的運行軌跡。此後開普勒就發現,如果地球位置不變的話,那麼其他行星的20年運行軌跡畫出來之後,這些行星都是圍着太陽運轉,運行軌跡都是橢圓形的。由此開普勒發現了行星運動的規律。
從這個天文學上的著名案例,我們可以看出來,數據太多可能會導致信息量變得巨大,反而增加尋找到規律的難度,從而需要通過科學的方法簡化數據。
關於這方面的案例還有不少。比如説美國總統富蘭克林·羅斯福。他是美國曆史上唯一一位連任四屆的總統。1932年的時候他第一次當總統,當時美國和許多國家正在遭受經濟危機,羅斯福面臨的壓力也很大。因此到了1936年羅斯福想競選自己的第二任總統的時候,美國許多人預測羅斯福很難連任。那一次,羅斯福的主要競選對手是蘭登。當時就有兩個機構在預測總統選舉結果,其中一個是《文學文摘》雜誌,它在當時是一個非常有影響力的刊物,因為這個雜誌此前幾次對總統選舉結果的預測都成功了。到了1936年美國總統選舉的時候,《文學文摘》搞了一個大的調查統計,它調查了240萬人。具體方式就是在雜誌裏面夾上關於總統選舉的調查問卷,然後收集反饋。其實當時《文學文摘》調查的還不止240萬人,還要更多,只不過最後收回來的有效問卷是240萬份。正是根據這個調查結果,《文學文摘》宣佈他們預測蘭登將戰勝羅斯福贏得大選。
而當時還有一個機構,準確地説是一個年輕人,叫蓋洛普,他的預測結果跟《文學文摘》的預測正好相反。起初蓋洛普做這類調查統計,是因為他的母親要競選眾議員,他是給他母親幫忙,於是就在經費不多的情況下做了對較小人羣的相關調查,然後這個調查結果很成功,他母親當上了眾議員。接下來他就想調查一下,羅斯福和蘭登誰會贏得1936年競選。但是他比不了《文學文摘》的財大氣粗,所以他只調查了5000個人,根據這5000人的調查結果,蓋洛普預測羅斯福當選。
結果羅斯福果然成功連任總統,蓋洛普的預測勝利了。
這個選舉結果出來之後,對《文學文摘》的聲譽造成了巨大的衝擊:畢竟《文學文摘》調查了 240萬人,最後卻發佈了一個錯誤的預測,而蓋洛普只調查了5000人,發佈的預測卻是正確的。結果,《文學文摘》因為這個事情後來就關門倒閉了。而那個年輕人蓋洛普,就此成立了一個民意調查公司,也就是現在的蓋洛普諮詢公司。
這是事情的結果。那麼為什麼調查了5000人的預測,要比調查240萬人的結果更準確呢?我們先不説240萬這種海量數據,它在規模變大以後會帶來計算效率的下降,我們也不提這類海量收集數據會導致成本居高不下的問題。根本的原因,是當時《文學文摘》通過雜誌夾帶問卷進行調查的這種方式。因為當初問卷是夾在雜誌中發放的,所以《文學文摘》收集來的240萬份有效問卷,實際面對的都是訂閲了這份期刊的用户。那麼,當時什麼樣的家庭會訂閲這樣的雜誌呢?一般來説都是家境比較好的家庭,所以,《文學文摘》雖然號稱調查了240萬人之多,但是它調查的主要羣體,是當時美國國內相對而言有錢的那部分人。而窮人羣體的意見,它這個調查實際並沒有覆蓋到。
數據的量多不一定就代表準確,收集來的數據質量好、有代表性,才有可能分析出準確的結果。
統計學是一門分析數據的藝術
前面舉了一些例子,提醒我們需要非常小心地設計方案收集數據。數據收集上來之後,我們還要做數據分析。按照前面大不列顛百科全書的説法,統計學同樣是一門分析數據的藝術。
講到數據分析,在這裏我只講兩個基本概念:相關與因果。為什麼講這兩個概念呢?這是因為人們常常混淆這兩個概念,常常會把相關關係誤以為是因果關係。在許多科學研究和政策問題評價中,我們更關心因果關係。但是,當我們看到了某種形式的相關關係後,常常會誤以為這就是我們追求的因果關係了。
比如説,在中世紀的歐洲,很多人相信,蝨子對人的健康是有幫助的。這是因為當時人們發現,得病的人身上很少有蝨子,而健康人的身上反而是有蝨子的。這是長期的觀察累積下來,形成的經驗。在中世紀的歐洲,很長一段時間裏人們都根據這個經驗,得出這樣一個因果推論:這個人身上有蝨子,所以他身體健康,那個人身上沒蝨子,説明他身體不健康。
當時,人們確實觀察到蝨子的存在與否跟人是否健康構成了相關關係,但是,這是因果關係嗎?有了温度計以後,人們就發現了,這不是真正意義上的因果關係:因為蝨子對人的體温非常敏感,它只能在一個很小的温度區間範圍生存下來。而人體一旦生病的話,很多時候會出現發燒症狀。人體一發燒,温度變化,蝨子就無法適應發燒時候的熱度,於是跑掉了。如果我們只停留在觀察到健康與否和蝨子多寡之間存在關係,那實際只是相關關係,而不是因果關係。與之類似的例子還有很多,比如説,我們看到每年冰淇淋銷量增加的同時,各地不幸溺亡的人數也在增加。那麼這兩件事情是不是構成因果關係呢?常識告訴我們,肯定不是。其實是因為每年氣温升高之後,游泳的人可能就多了起來了,隨之溺亡人數也就相應增加了。而同樣是因為氣温升高,冰淇淋的銷量也會增加。
也就是説,如果我們觀察到一個因素出現了一點點變化,另外一個因素也會隨着它變化,它們之間可能就有相關關係,但是這種相關關係,並不意味着這兩個因素構成因果關係。
如何判斷因果關係呢,這就需要我們非常小心,而且要非常藝術地做數據分析了,我們最終還是要回到統計學上來。
這裏,我們舉一個歷史上的疾病案例,這就是小兒麻痹症,也就是脊髓灰質炎。現在大家看到的小兒麻痹癥病例比較少,因為現在有相應的疫苗。歷史上,脊髓灰質炎曾經是一個讓人非常害怕的疾病。
在20世紀50年代,當時美國一所大學的實驗室,做出了一種針對這個疾病的疫苗,已經證明它在實驗室條件下能夠產生有效的抗體。但是他們不知道,如果應用到實際生活中的大規模實驗,這個疫苗還會不會有效。所以當時美國政府部門就決定要做實驗,這個時間大致在1954年。因為當時脊髓灰質炎的患者主要是孩子,所以當時的實驗人羣定為小學一二三年級的學生。怎麼做實驗才能夠真正説明疫苗是否有效呢?為了確保統計結果最終反映真實的因果關係,當時提出了五套實驗方案。
第一套方案是,因為1953年之前是沒有這個疫苗的,所以就從1954年開始,給所有的一二三年級小學生接種疫苗,最後再來看一下,1954年的發病率,跟1953年相比,會不會有差別。這個方案是個辦法,但是它有問題,因為之前每一年的脊髓灰質炎發病率的差別比較大。比如説1951年全美可能有3萬名脊髓灰質炎患者,1952年則有6萬名,而1953年又可能縮減到不足4萬名。這個脊髓灰質炎每年發病率的波動都比較大,萬一到時候實驗結果是3萬名到4萬名之間,如何判斷這個結果是隨機變化的,還是疫苗發生了作用?
第二個方案則提出要按照地區來做。比如,在紐約地區,就給一二三年級小學生們全部接種疫苗,而在芝加哥地區的就全部不接種疫苗,然後來統計,紐約和芝加哥這兩個地區的脊髓灰質炎發病情況。這個方案後來發現也不行。因為脊髓灰質炎本身就是傳染病,一個地區可能流行這個疾病了,而另外一個地區就可能沒流行,那麼這兩個地區的數據看起來就會有差異,但是這不是疫苗的效果,不具有可比性。
於是就有人提出了第三個方案。因為當時這個疫苗接種,誰也不知道有沒有副作用,因此是有一定風險的。所以這個方案就提出,讓接種疫苗的孩子們的父母來自行選擇。有的家長選擇給孩子接種疫苗,有的就不選擇接種,這樣同一批孩子就會出現不同的對照。但是這麼做,也有問題。因為當時人們已經發現,脊髓灰質炎的患者一般來自於家境比較好的家庭。這是因為,那些家庭經濟狀況比較差的家庭,因為生活條件差,衞生條件不好,可能一個人很早就接觸過脊髓灰質炎的病毒了,甚至很可能在剛剛出生的時候就接觸了脊髓灰質炎的病毒,但是剛出生的嬰兒是有母體的免疫力的,嬰兒憑藉母體的免疫力,接觸這個病毒之後能夠產生抗體,反而不會得病。當時的這類數據情況已經展現了這種現象。如果採用自願接種的方式,那些經濟狀況比較好的家庭,往往願意讓自己的小孩去接種,而經濟狀況不好的家庭由於經費原因,同時也知道自己這個階層染病率稍微低一些,他可能就不願意接種了。這樣就造成了對實驗結果的干擾,你無法判斷到底是疫苗有效還是經濟原因導致的不同結果。
然後是第四個方案。有人提出,只讓二年級的學生接種,而一年級和三年級學生不接種。之後再比較接種的跟不接種的學生之間的區別,看他們的發病率會不會有差別。這個方案是當時的一個脊髓灰質炎防治委員會提出的方案。這個方案同樣行不通,第一,它同樣無法避開接種孩子家庭貧富差距導致的患病概率差異。第二,脊髓灰質炎是一種傳染疾病,人羣的年齡是對這種傳染有影響的,一二三年級的學生年齡層次有差別,可能就會導致各個年級學生得病概率的差異。此外這個方案還有第三個重大缺陷,那就是可能會對醫生形成心理上的誘導。如果按照這個方案執行下去,醫生們就是知道的,一、三年級學生沒有接種疫苗,而二年級同學中有部分同學接種了疫苗。當時脊髓灰質炎的診斷還不太容易,如果醫生已經知道了這個疫苗接種方案,而且也提前知道這個疫苗在實驗室階段是管用的,那麼醫生在面對一年級學生時,一旦這個疾病還無法確診,那麼這個醫生就很可能根據“一年級學生沒有接種疫苗”“疫苗是有效的”這兩個提前的認知,就直接診斷這名一年級學生得了脊髓灰質炎。而且這種區別對待的方案,接種的學生本身心理也會受到影響的。
當時還有第五個方案,也就是最終執行並被採納了調查結果的方案。這個方案具體來説,就是在徵得學生家長同意之後,仍舊會告訴家長:你即使同意接種疫苗,我給你家孩子接種的,也不一定是疫苗,而是一種看起來跟疫苗一模一樣的安慰劑,沒什麼副作用也沒有什麼效果。因為這個安慰劑跟疫苗長得一樣,所以醫生和學生都不知道到底接種的是疫苗還是普通的安慰劑,但是疫苗提供方是知道的,它對每一個藥品都加了編號,因此疫苗提供方知道哪些是安慰劑,哪些是疫苗。通過這樣的方式,實驗室實現了隨機的方式接種疫苗,而且無論家境好壞,這個接種疫苗都是隨機的。同時醫生們也不知道,到底是哪一些小孩接種了疫苗。這就規避了年齡、經濟條件等各種擾動,有助於確定脊髓灰質炎與疫苗之間真正的因果關係。
1954年,這個實驗大約有74萬名小學生參與。最終的實驗結果是,如果接種疫苗,孩子罹患脊髓灰質炎的概率大約是十萬分之28,如果不接種疫苗,患病概率大約是十萬分之77,二者相差一倍多。之後又經過各種努力,脊髓灰質炎疫苗在美國獲得了通過。
許多科學結論、政策評價都依賴於因果分析而不是相關分析。統計學能夠幫助我們證明那些我們所需要的因果關係。很多時候,真正的因果關係,不能簡單地建立在相關關係的基礎之上。還有很多科學問題,仍需要我們去發現真正的因果關係,這正是統計學可以提供數據收集以及分析方案的地方,也是統計學的魅力所在。
(摘自3月30日《光明日報》)