漢語為何成為世界上信息熵最大的語言，英語只有漢語的十分之一！

2021-02-19 由端木泰華發佈於經典

漢語是世界上信息熵最大的主流語言。在1948年發表了一篇論文，震撼了學術界，而這篇論文也開創了一個信息度量的時代，既然事件發生的信息可以度量，語言作為一種信息傳遞的手段，那麼語言中的信息是多少？世界上有最優秀的語言嗎？

在此之前我們先來談談什麼叫做信息熵。信息熵是指所有可能發生事件中所包含信息的期望平均值。這麼説大家聽不懂，給大家舉一個簡單一點的例子。太陽從東方升起這句話是廢話，因為大家都知道太陽不可能從西方升起，所以這句話所包含的信息熵就是0。如果你在做一道判斷題，但是你不知道答案。所以你只能靠蒙，這個時候就有了信息熵，而如果把這個判斷題改為選擇題，那麼這個題的信息熵就會變大。除此之外還有概率的問題。假如一個選擇題你知道a和b可能是正確的，c和d是完全不正確的，那麼你就會選a或者是b。相比較其他選擇題來講，信息熵就會變少。

這就是信息熵。那麼語言的信息熵究竟是有多少呢？這個的計算方式很直觀，只需要把公式帶進去就行了，但是困擾學者很多年的問題是，大家都無法準確的知道一個語言中特定位置的出現概率，有時候甚至難以統計這個語言到底有多少種字符。

所以信息科學家只能用各種手段來估計各個語言的信息熵，比如説有某位學者認為英語的信息熵應該在0.6~1.3比特每字節。而其他人有人認為英語的信息熵應該在1.25比特每字節。英語還算是比較好統計的，但是放到漢語的統計難度就非常大了。不過還好的是當年信息熵剛剛發展出來，各個學者科學家都紛紛對此非常有興趣。即便是中文有很大的特殊性，依然有很多學者排除萬難，採用了統計的計算方式，計量了漢語的信息熵。

而在計量過程中他們發現中文不論是文字部首還是音節，他的信息熵都遠遠超過了英語。

但是這樣計算出來的結果，沒辦法和其他語言直接對比。因為他們是用的不同的數據庫。而且人為翻譯也可能導致信息誤差，所以在2002年哈佛大學的某位科學家做了重新的對比實驗。他們選用了一種很有意思的辦法，那就是在計算機上把文本壓縮到信息壓縮的下界。

也就是説不論是英語還是漢語或者西班牙語都不進行優化。之後再進行壓縮。研究者們對比了英語，西班牙語，法語，中文漢語，阿拉伯語，日文，俄語等等。像這樣壓縮情況下，如果沒有缺失文件，都是那麼所有的語言都會和英語壓縮後的文本一樣大。所以我們需要對比的就是他們的壓縮時間，壓縮時間越長的，他們的信息熵就越大。

而中文的壓縮效率遠遠低於其他文字。除此之外他們又做了其他的對比實驗，比如説換壓縮算法。再比如説把譯文擴充。因為聖經中都是常見詞彙，但是其他語言中有很多特殊的詞彙。但是在壓縮過後，中文依然是壓縮效率最低的一個語言。可以説中文是信息熵最大的一種語言了。

雖然説這個實驗也不完美，有很多漏洞，但是多個實驗結果看上去都是很相似的。而且即便是有很大的漏洞，這樣的實驗依然存在着很強的指導意義。

轉載請註明：漢語為何成為世界上信息熵最大的語言，英語只有漢語的十分之一！ - 楠木軒