漢語是世界上信息熵最大的主流語言。在1948年發表了一篇論文,震撼了學術界,而這篇論文也開創了一個信息度量的時代,既然事件發生的信息可以度量,語言作為一種信息傳遞的手段,那麼語言中的信息是多少?世界上有最優秀的語言嗎?
在此之前我們先來談談什麼叫做信息熵。信息熵是指所有可能發生事件中所包含信息的期望平均值。這麼説大家聽不懂,給大家舉一個簡單一點的例子。太陽從東方升起這句話是廢話,因為大家都知道太陽不可能從西方升起,所以這句話所包含的信息熵就是0。如果你在做一道判斷題,但是你不知道答案。所以你只能靠蒙,這個時候就有了信息熵,而如果把這個判斷題改為選擇題,那麼這個題的信息熵就會變大。除此之外還有概率的問題。假如一個選擇題你知道a和b可能是正確的,c和d是完全不正確的,那麼你就會選a或者是b。相比較其他選擇題來講,信息熵就會變少。
這就是信息熵。那麼語言的信息熵究竟是有多少呢?這個的計算方式很直觀,只需要把公式帶進去就行了,但是困擾學者很多年的問題是,大家都無法準確的知道一個語言中特定位置的出現概率,有時候甚至難以統計這個語言到底有多少種字符。
所以信息科學家只能用各種手段來估計各個語言的信息熵,比如説有某位學者認為英語的信息熵應該在0.6~1.3比特每字節。而其他人有人認為英語的信息熵應該在1.25比特每字節。英語還算是比較好統計的,但是放到漢語的統計難度就非常大了。不過還好的是當年信息熵剛剛發展出來,各個學者科學家都紛紛對此非常有興趣。即便是中文有很大的特殊性,依然有很多學者排除萬難,採用了統計的計算方式,計量了漢語的信息熵。
而在計量過程中他們發現中文不論是文字部首還是音節,他的信息熵都遠遠超過了英語。
但是這樣計算出來的結果,沒辦法和其他語言直接對比。因為他們是用的不同的數據庫。而且人為翻譯也可能導致信息誤差,所以在2002年哈佛大學的某位科學家做了重新的對比實驗。他們選用了一種很有意思的辦法,那就是在計算機上把文本壓縮到信息壓縮的下界。
也就是説不論是英語還是漢語或者西班牙語都不進行優化。之後再進行壓縮。研究者們對比了英語,西班牙語,法語,中文漢語,阿拉伯語,日文,俄語等等。像這樣壓縮情況下,如果沒有缺失文件,都是那麼所有的語言都會和英語壓縮後的文本一樣大。所以我們需要對比的就是他們的壓縮時間,壓縮時間越長的,他們的信息熵就越大。
而中文的壓縮效率遠遠低於其他文字。除此之外他們又做了其他的對比實驗,比如説換壓縮算法。再比如説把譯文擴充。因為聖經中都是常見詞彙,但是其他語言中有很多特殊的詞彙。但是在壓縮過後,中文依然是壓縮效率最低的一個語言。可以説中文是信息熵最大的一種語言了。
雖然説這個實驗也不完美,有很多漏洞,但是多個實驗結果看上去都是很相似的。而且即便是有很大的漏洞,這樣的實驗依然存在着很強的指導意義。