漢語為何成為世界上資訊熵最大的語言,英語只有漢語的十分之一
漢語是世界上資訊熵最大的主流語言。在1948年發表了一篇論文,震撼了學術界,而這篇論文也開創了一個資訊度量的時代,既然事件發生的資訊可以度量,語言作為一種資訊傳遞的手段,那麼語言中的資訊是多少?世界上有最優秀的語言嗎?
在此之前我們先來談談什麼叫做資訊熵。資訊熵是指所有可能發生事件中所包含資訊的期望平均值。這麼說大家聽不懂,給大家舉一個簡單一點的例子。太陽從東方升起這句話是廢話,因為大家都知道太陽不可能從西方升起,所以這句話所包含的資訊熵就是0。如果你在做一道判斷題,但是你不知道答案。所以你只能靠蒙,這個時候就有了資訊熵,而如果把這個判斷題改為選擇題,那麼這個題的資訊熵就會變大。除此之外還有機率的問題。假如一個選擇題你知道a和b可能是正確的,c和d是完全不正確的,那麼你就會選a或者是b。相比較其他選擇題來講,資訊熵就會變少。
這就是資訊熵。那麼語言的資訊熵究竟是有多少呢?這個的計算方式很直觀,只需要把公式帶進去就行了,但是困擾學者很多年的問題是,大家都無法準確的知道一個語言中特定位置的出現機率,有時候甚至難以統計這個語言到底有多少種字元。
所以資訊科學家只能用各種手段來估計各個語言的資訊熵,比如說有某位學者認為英語的資訊熵應該在0.6~1.3位元每位元組。而其他人有人認為英語的資訊熵應該在1.25位元每位元組。英語還算是比較好統計的,但是放到漢語的統計難度就非常大了。不過還好的是當年資訊熵剛剛發展出來,各個學者科學家都紛紛對此非常有興趣。即便是中文有很大的特殊性,依然有很多學者排除萬難,採用了統計的計算方式,計量了漢語的資訊熵。
而在計量過程中他們發現中文不論是文字部首還是音節,他的資訊熵都遠遠超過了英語。
但是這樣計算出來的結果,沒辦法和其他語言直接對比。因為他們是用的不同的資料庫。而且人為翻譯也可能導致資訊誤差,所以在2002年哈佛大學的某位科學家做了重新的對比實驗。他們選用了一種很有意思的辦法,那就是在計算機上把文字壓縮到資訊壓縮的下界。
也就是說不論是英語還是漢語或者西班牙語都不進行最佳化。之後再進行壓縮。研究者們對比了英語,西班牙語,法語,中文漢語,阿拉伯語,日文,俄語等等。像這樣壓縮情況下,如果沒有缺失檔案,都是那麼所有的語言都會和英語壓縮後的文字一樣大。所以我們需要對比的就是他們的壓縮時間,壓縮時間越長的,他們的資訊熵就越大。
而中文的壓縮效率遠遠低於其他文字。除此之外他們又做了其他的對比實驗,比如說換壓縮演算法。再比如說把譯文擴充。因為聖經中都是常見詞彙,但是其他語言中有很多特殊的詞彙。但是在壓縮過後,中文依然是壓縮效率最低的一個語言。可以說中文是資訊熵最大的一種語言了。
雖然說這個實驗也不完美,有很多漏洞,但是多個實驗結果看上去都是很相似的。而且即便是有很大的漏洞,這樣的實驗依然存在著很強的指導意義。