汉语是世界上信息熵最大的主流语言。在1948年发表了一篇论文,震撼了学术界,而这篇论文也开创了一个信息度量的时代,既然事件发生的信息可以度量,语言作为一种信息传递的手段,那么语言中的信息是多少?世界上有最优秀的语言吗?
在此之前我们先来谈谈什么叫做信息熵。信息熵是指所有可能发生事件中所包含信息的期望平均值。这么说大家听不懂,给大家举一个简单一点的例子。太阳从东方升起这句话是废话,因为大家都知道太阳不可能从西方升起,所以这句话所包含的信息熵就是0。如果你在做一道判断题,但是你不知道答案。所以你只能靠蒙,这个时候就有了信息熵,而如果把这个判断题改为选择题,那么这个题的信息熵就会变大。除此之外还有概率的问题。假如一个选择题你知道a和b可能是正确的,c和d是完全不正确的,那么你就会选a或者是b。相比较其他选择题来讲,信息熵就会变少。
这就是信息熵。那么语言的信息熵究竟是有多少呢?这个的计算方式很直观,只需要把公式带进去就行了,但是困扰学者很多年的问题是,大家都无法准确的知道一个语言中特定位置的出现概率,有时候甚至难以统计这个语言到底有多少种字符。
所以信息科学家只能用各种手段来估计各个语言的信息熵,比如说有某位学者认为英语的信息熵应该在0.6~1.3比特每字节。而其他人有人认为英语的信息熵应该在1.25比特每字节。英语还算是比较好统计的,但是放到汉语的统计难度就非常大了。不过还好的是当年信息熵刚刚发展出来,各个学者科学家都纷纷对此非常有兴趣。即便是中文有很大的特殊性,依然有很多学者排除万难,采用了统计的计算方式,计量了汉语的信息熵。
而在计量过程中他们发现中文不论是文字部首还是音节,他的信息熵都远远超过了英语。
但是这样计算出来的结果,没办法和其他语言直接对比。因为他们是用的不同的数据库。而且人为翻译也可能导致信息误差,所以在2002年哈佛大学的某位科学家做了重新的对比实验。他们选用了一种很有意思的办法,那就是在计算机上把文本压缩到信息压缩的下界。
也就是说不论是英语还是汉语或者西班牙语都不进行优化。之后再进行压缩。研究者们对比了英语,西班牙语,法语,中文汉语,阿拉伯语,日文,俄语等等。像这样压缩情况下,如果没有缺失文件,都是那么所有的语言都会和英语压缩后的文本一样大。所以我们需要对比的就是他们的压缩时间,压缩时间越长的,他们的信息熵就越大。
而中文的压缩效率远远低于其他文字。除此之外他们又做了其他的对比实验,比如说换压缩算法。再比如说把译文扩充。因为圣经中都是常见词汇,但是其他语言中有很多特殊的词汇。但是在压缩过后,中文依然是压缩效率最低的一个语言。可以说中文是信息熵最大的一种语言了。
虽然说这个实验也不完美,有很多漏洞,但是多个实验结果看上去都是很相似的。而且即便是有很大的漏洞,这样的实验依然存在着很强的指导意义。