參考消息網3月29日報道美國《紐約人》週刊網站3月22日發表文章《有什麼是數據做不到的》,副題為“當涉及人和政策時,數字既有用又危險”,作者是數學家漢娜·弗萊。全文摘編如下:
託尼·布萊爾在人羣面前通常顯得輕鬆而富有魅力。但2005年4月,在倫敦的一個電視演播室裏,與觀眾中一名女性的交鋒讓他明顯慌了神。布萊爾當時擔任英國首相已有八年,一直致力於改進國民保健署。當時,在合理時間段內很難得到醫生的預約;患者經常被告知,他們要等幾周才能等到下一個空額。布萊爾政府決定通過設定目標來解決這個問題:如果醫生在48小時內接診,就可以得到經濟獎勵。
布萊爾遇到的難題
這似乎是個合理計劃。但觀眾們知道一個布萊爾及其政府不知道的問題。在全國電視直播中,戴安娜·徹奇冷靜地向首相解釋説,她兒子的醫生要求在一週後給他看病,但診所卻不肯做晚於48小時的預約。否則,醫生就會拿不到獎金。如果徹奇想讓兒子一週後去看醫生,就得等到就診的前一天,然後在上午8點打電話。
主持人問:“這對您來説是新聞嗎?”
布萊爾答道:“對我來説是新聞。”
主持人轉向觀眾問道:“還有人碰到過這種事嗎?”
現場亂了。大家開始喊叫,布萊爾開始結巴,全國民眾眼見其領導人因為數據錯誤的經典案例而方寸大亂。
布萊爾及其顧問遠非第一批與自身的善意目標發生衝突的人。如果你試圖強迫現實世界做某件可以計算的事情,意外後果比比皆是。這是兩本有關數據和統計的新書的主題:德博拉·斯通的《計數:我們如何利用數字來決定孰輕孰重》警告了過分依賴數字的危險,蒂姆·哈福德的《數據偵探》則展現瞭如何避開數據驅動的世界的陷阱。
這兩本書問世之際,數據的超凡力量從未如此顯而易見。新冠肺炎大流行表明,如果沒有詳盡的統計數字,世界會多麼脆弱。總統選舉使得我們的報紙充斥民調和預測,這一切都是為了滿足我們對洞見的渴望。在充滿不確定性的一年裏,數字甚至成為一種安慰。由於它們看似精確客觀,我們受到了蠱惑,因此,如果數字未能體現現實的隨意性,我們就會感覺遭到了背叛。
“古德哈特定律”
託尼·布萊爾及其政策專家犯下的特殊錯誤足以歸納成一句格言:一旦有用的數字成為衡量成功的標準,它就不再是有用的數字。這就是所謂的古德哈特定律。德博拉·斯通講到了規定生產配額的蘇聯工廠和農莊。紡織廠需要生產具體規定長度的大量布料,因此會調整織布機,生產長而窄的布匹。因為要對採摘的棉花稱重,所以烏茲別克的採棉工把棉花浸在水裏,使之更重。
同樣,當美國在19世紀60年代建成首條橫貫大陸的鐵路時,企業是按鐵軌的英里數領取報酬的。因此,內布拉斯加州奧馬哈郊外的一段鐵軌鋪成了寬弧而不是直線,從而使鐵軌增加了毫無必要(但利潤豐厚)的若干英里。每當我們用數字替代自己在意的東西時,麻煩就來了。
不過,這個問題不好解決。圍繞古德哈特定律產生的問題已經在困擾人工智能設計:如果你們唯一的共同語言是數字,你如何向算法傳達一個目標?計算機科學家羅伯特·費爾特曾經創造過一種算法,任務是讓飛機降落在航母上。目標是讓一架模擬飛機緩慢地停下來,儘可能減少機身受力。遺憾的是,算法在訓練中發現了一個漏洞。如果不是讓模擬飛機平穩降落,而是故意讓它猛然停下,那麼機身受力將達到完美的零。但這卻使整個系統不堪重負。
數據驅動的世界觀
當人們習慣於控制而不是理解事物時,數字可能是最危險的。不過,古德哈特定律其實只是在暗示數據驅動的世界觀的一種更基本的侷限性。正如蒂姆·哈福德寫道的那樣,數據“可能是真正重要事物的一個相當不錯的替代”,但即便是最好的替代也與實物存在巨大差距。
哈福德援引偉大的心理學家丹尼爾·卡內曼的話説,每當遇到難題,我們習慣於把它換成一個簡單問題,而且往往沒有注意到自己這樣做。這一點在社會意圖藉助數據回答的問題當中也得到了體現,有個關於學校的著名例子。我們或許很想知道孩子是否接受了良好教育,但很難確定“良好”是什麼意思。相反,我們傾向於提出一個相關和比較簡單的問題:學生在圍繞一些事實接受考查時的表現如何?於是,我們患上了可悲的“應試教育”綜合徵。
如果想把世界簡化到可以用數字加以體現的程度,就會丟掉許多細節。不可避免的疏漏可能會使數據偏向某些羣體。斯通講到,聯合國試圖制定衡量女性遭受暴力侵害程度的指導方針。歐洲、北美、澳大利亞和新西蘭的代表根據各自國家的受害者調查,提出了有關其中包含的暴力類型的想法。這些類型包括打、踢、咬、掌摑、推搡、毆打和鎖喉。與此同時,一些孟加拉國婦女提議納入其他形式的暴力——在印度次大陸並不罕見的行為——比如焚燒婦女、向她們潑酸、把她們從高處推下、強迫她們在畜欄裏睡覺。這些行為均未列入最後清單。正如斯通所説的那樣,要想計數,必須首先決定應該把什麼計算在內。
世界並不總能簡單歸類。有時必須對把什麼計算在內以及如何計算作出艱難判斷。
算法不能算出人生
在千年之交,一羣研究人員開始為研究他們所謂的“脆弱家庭”招募人員。這些研究人員尋找有新生兒的家庭,以追蹤這些孩子及其父母長年累月的發展變化。他們招募了4000多個家庭,初次評估後,該團隊在孩子們一歲、三歲、五歲、九歲、十五歲時再次與這些家庭見面。他們每次收集關於孩子發育、家庭狀況和周圍環境的數據。他們記錄關於健康、人口統計、父母關係、孩子生活的社區類型以及就寢時間的細節。研究結束時,研究人員掌握了每個孩子的將近1.3萬個數據點。
然後,該團隊做了件相當聰明的事。他們決定不一次性公佈數據,而是扣住一些最後的數據塊,邀請世界各地的研究人員來看看他們是否能預測某些發現。利用這些孩子到那時為止的已知情況,全世界最先進的機器學習算法和數學模型能確定孩子們十五歲時的生活會是什麼樣嗎?
為了突出這一挑戰,研究人員被要求預測六個關鍵指標,比如孩子們十五歲時的學習表現。為了給所有人提供一個基準,該團隊還建立了一個近乎簡單得可笑的預測模型。該模型只使用四個數據點,其中三個是孩子出生時記錄的:母親的教育水平、婚姻狀況和種族。
正如你可能預料到的那樣,這個基準模型並不很善於預測將要發生的情況。在表現最佳的類別中,它只解釋了大約20%的數據變動。然而,更令人驚訝的是複雜算法的表現。在每個類別中,以充分的、異常豐富的數據集為基礎的模型僅比基準模型改進了幾個百分點。在六個類別中的四個類別中,沒有一種的準確率超過6%。即便表現最佳的算法也只能預測孩子們平均成績的23%的變動。事實上,在所有方面,表現最佳和最差模型之間的差距始終小於最佳模型與現實之間的差距。也就是説,正如該團隊指出的那樣,此類模型“更善於預測彼此”,而不是預測人生道路。
並不是説這些模型不好。它們與直覺和猜測相比是個相當大的進步。但“脆弱家庭”的挑戰告誡我們,不要以為數字能提供所有答案。
數據的力量
但是,承認數據驅動的現實觀存在侷限並不是要貶低它的力量。有兩點可能是對的:面對現實的細微差別,數字存在不足,但它同時也是我們理解這一現實的最有力手段。
此次大流行中的事件提供了鮮明例證。統計數字無法體現這種病毒導致的實際死亡人數。它不能告訴我們在重症監護病房工作是什麼感覺,也不能告訴我們失去親人是什麼感覺。它甚至不能告訴我們死亡的總人數。它無法準確告訴我們何時能恢復正常。但無論如何,如果我們想了解這種病毒有多致命、弄清有效療法、探索今後可能出現的前景,它是唯一的手段。
數字可能包含人類生存的整個故事。在肯尼亞,每千名兒童中有43名在五歲前死亡。馬來西亞只有9名。斯通援引瑞典公共衞生專家漢斯·羅斯林的話説:“這種衡量標準測量了整個社會的温度。因為兒童非常脆弱。有太多東西可以要他們的命。”其他991名兒童得到保護,遠離了病菌、飢餓、暴力、醫療匱乏構成的危險。通過這個簡單的數字,我們可以清楚地瞭解兒童活下去所需的一切要素。
哈福德的書用類似的統計數字讓我們瞭解得更加深入。哈福德要我們想象一份每100年發行一次的報紙:他認為,如果現在發行這樣一份報紙,那麼頭版新聞將是兒童死亡率在過去一個世紀裏的明顯下降。他寫道:“想象一下,如果成立一所學校,從世界各地接收100名出生時隨機挑選的五歲兒童。1918年,其中32名兒童在上學第一天之前就夭折了。到2018年,只有四名兒童會這樣。”哈福德指出,這是了不起的進步,沒有什麼能比數字更清楚地揭示這一總體進步。
哈福德明確地指出,統計數字可以用來清楚而準確地展現世界。它可以幫助彌補我們生而為人的易錯性。我們很容易忘記的是,統計數字也可能會放大這些易錯性。正如斯通提醒我們的那樣:“要想計算得準確,我們需要謙遜,知道哪些是不能或者不應該計算在內的。”
《計數:我們如何利用數字來決定孰輕孰重》封面
《數據偵探》封面
來源:參考消息網