西媒:數據為何喜愛從“1”開始?

  新華社北京12月24日新媒體專電 據西班牙《國家報》網站12月16日發表題為《為什麼很多數據都從“1”開始?》的文章稱,根據本福特定律,在實際生活中以“1”為首位數字的數的出現概率約為總數的30%。全文摘編如下:

  西班牙馬德里自治區的179座城市中,大約三分之一的城市(準確地説是54座)都表現出居民人口數以“1”開頭的特點。這是本福特定律的一個例子。本福特定律指出,從實際生活得出的數據中,以“1”為首位數字的數的出現概率約為總數的30%。

  本福特定律可追溯至1880年,當時美國天文學家西蒙·紐科姆在整理一本對數表書籍時發現了一個有趣現象:以“1”開頭的數,其所在的頁數相較其他頁數破損更多。紐科姆的觀察逐漸被人們遺忘,直到1938年,這個現象才引起美國工程師兼物理學家弗蘭克·本福特的注意。本福特在多個來源不同的數據集合上測試了這個現象,包括美國3259座城市的居民人口、1800種物質的分子量以及美國《讀者文摘》月刊308期中出現的數字。紐科姆的“第一位定律”後來被命名為“本福特定律”。

  然而,並非所有數據集合都遵循本福特定律。顯然,鞋碼不符合這個規律,來源於隨機進程的數據——如聖誕節彩票的中獎碼——也不符合。因此,如果您購買的“十分之一彩票”(西班牙的一種彩票,如果所購號碼中獎,所得獎金為相應獎金的十分之一——本網注)首位數字不是“1”也不必擔心:無論首位數是什麼,您中獎的概率都很低。

  雖然本福特定律不能幫助我們中獎,但它體現在方方面面,如街道門牌號、股票價格、河流長度和國家面積等。稍作思考,就可以很容易地發現,這些數據以“1”開頭的頻率更高。例如,就西班牙各個街道的門牌號而言,由於很多街道是“小街道”,因此門牌號大都在10至20號之間,超過200個門牌號的“大街道”相對較少。

  作為一般性規律,符合本福特定律的數據為表示規模的、不預設限制的數據(長度、人口等)。此外,數據覆蓋的數量級越高,就越符合這項定律。從這個意義上來講,本福特定律是正態分佈的“親戚”,而正態分佈自然存在於各類統計現象中。

  準確地説,本福特定律可以用以10為底的對數(lg)來解釋。如果集合中一個元素以數字c開頭的概率為lg(c+1)-lg(c),我們就説這個集合滿足本福特定律。在滿足本福特定律的集合中,以“1”開頭的元素的概率為lg2-1g1≈0.3011。同樣,以“8”開頭的元素的概率為lg9-lg8≈0.0511。換句話説,大約30%的數字以“1”開頭,而僅有約5%的數字以“8”開頭。

  本福特定律也可應用於實際生活中。假設西班牙企業向大氣排放的二氧化碳噸數滿足本福特定律,如果一家公司提供的二氧化碳排放量數據中,有15%的數據以“8”開頭,則我們有理由認為這家公司的數據存在作假嫌疑。這可能不是決定性證據,但可以成為調查此事件的線索。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1180 字。

轉載請註明: 西媒:數據為何喜愛從“1”開始? - 楠木軒