漢語為何成為世界上資訊熵最大的語言，英語只有漢語的十分之一

2020-11-19由勞新忠釋出於經典

漢語是世界上資訊熵最大的主流語言。在1948年發表了一篇論文，震撼了學術界，而這篇論文也開創了一個資訊度量的時代，既然事件發生的資訊可以度量，語言作為一種資訊傳遞的手段，那麼語言中的資訊是多少？世界上有最優秀的語言嗎？

在此之前我們先來談談什麼叫做資訊熵。資訊熵是指所有可能發生事件中所包含資訊的期望平均值。這麼說大家聽不懂，給大家舉一個簡單一點的例子。太陽從東方升起這句話是廢話，因為大家都知道太陽不可能從西方升起，所以這句話所包含的資訊熵就是0。如果你在做一道判斷題，但是你不知道答案。所以你只能靠蒙，這個時候就有了資訊熵，而如果把這個判斷題改為選擇題，那麼這個題的資訊熵就會變大。除此之外還有機率的問題。假如一個選擇題你知道a和b可能是正確的，c和d是完全不正確的，那麼你就會選a或者是b。相比較其他選擇題來講，資訊熵就會變少。

這就是資訊熵。那麼語言的資訊熵究竟是有多少呢？這個的計算方式很直觀，只需要把公式帶進去就行了，但是困擾學者很多年的問題是，大家都無法準確的知道一個語言中特定位置的出現機率，有時候甚至難以統計這個語言到底有多少種字元。

所以資訊科學家只能用各種手段來估計各個語言的資訊熵，比如說有某位學者認為英語的資訊熵應該在0.6~1.3位元每位元組。而其他人有人認為英語的資訊熵應該在1.25位元每位元組。英語還算是比較好統計的，但是放到漢語的統計難度就非常大了。不過還好的是當年資訊熵剛剛發展出來，各個學者科學家都紛紛對此非常有興趣。即便是中文有很大的特殊性，依然有很多學者排除萬難，採用了統計的計算方式，計量了漢語的資訊熵。

而在計量過程中他們發現中文不論是文字部首還是音節，他的資訊熵都遠遠超過了英語。

但是這樣計算出來的結果，沒辦法和其他語言直接對比。因為他們是用的不同的資料庫。而且人為翻譯也可能導致資訊誤差，所以在2002年哈佛大學的某位科學家做了重新的對比實驗。他們選用了一種很有意思的辦法，那就是在計算機上把文字壓縮到資訊壓縮的下界。

也就是說不論是英語還是漢語或者西班牙語都不進行最佳化。之後再進行壓縮。研究者們對比了英語，西班牙語，法語，中文漢語，阿拉伯語，日文，俄語等等。像這樣壓縮情況下，如果沒有缺失檔案，都是那麼所有的語言都會和英語壓縮後的文字一樣大。所以我們需要對比的就是他們的壓縮時間，壓縮時間越長的，他們的資訊熵就越大。

而中文的壓縮效率遠遠低於其他文字。除此之外他們又做了其他的對比實驗，比如說換壓縮演算法。再比如說把譯文擴充。因為聖經中都是常見詞彙，但是其他語言中有很多特殊的詞彙。但是在壓縮過後，中文依然是壓縮效率最低的一個語言。可以說中文是資訊熵最大的一種語言了。

雖然說這個實驗也不完美，有很多漏洞，但是多個實驗結果看上去都是很相似的。而且即便是有很大的漏洞，這樣的實驗依然存在著很強的指導意義。