汉语为何成为世界上信息熵最大的语言，英语只有汉语的十分之一

2020-11-19由劳新忠发布于经典

汉语是世界上信息熵最大的主流语言。在1948年发表了一篇论文，震撼了学术界，而这篇论文也开创了一个信息度量的时代，既然事件发生的信息可以度量，语言作为一种信息传递的手段，那么语言中的信息是多少？世界上有最优秀的语言吗？

在此之前我们先来谈谈什么叫做信息熵。信息熵是指所有可能发生事件中所包含信息的期望平均值。这么说大家听不懂，给大家举一个简单一点的例子。太阳从东方升起这句话是废话，因为大家都知道太阳不可能从西方升起，所以这句话所包含的信息熵就是0。如果你在做一道判断题，但是你不知道答案。所以你只能靠蒙，这个时候就有了信息熵，而如果把这个判断题改为选择题，那么这个题的信息熵就会变大。除此之外还有概率的问题。假如一个选择题你知道a和b可能是正确的，c和d是完全不正确的，那么你就会选a或者是b。相比较其他选择题来讲，信息熵就会变少。

这就是信息熵。那么语言的信息熵究竟是有多少呢？这个的计算方式很直观，只需要把公式带进去就行了，但是困扰学者很多年的问题是，大家都无法准确的知道一个语言中特定位置的出现概率，有时候甚至难以统计这个语言到底有多少种字符。

所以信息科学家只能用各种手段来估计各个语言的信息熵，比如说有某位学者认为英语的信息熵应该在0.6~1.3比特每字节。而其他人有人认为英语的信息熵应该在1.25比特每字节。英语还算是比较好统计的，但是放到汉语的统计难度就非常大了。不过还好的是当年信息熵刚刚发展出来，各个学者科学家都纷纷对此非常有兴趣。即便是中文有很大的特殊性，依然有很多学者排除万难，采用了统计的计算方式，计量了汉语的信息熵。

而在计量过程中他们发现中文不论是文字部首还是音节，他的信息熵都远远超过了英语。

但是这样计算出来的结果，没办法和其他语言直接对比。因为他们是用的不同的数据库。而且人为翻译也可能导致信息误差，所以在2002年哈佛大学的某位科学家做了重新的对比实验。他们选用了一种很有意思的办法，那就是在计算机上把文本压缩到信息压缩的下界。

也就是说不论是英语还是汉语或者西班牙语都不进行优化。之后再进行压缩。研究者们对比了英语，西班牙语，法语，中文汉语，阿拉伯语，日文，俄语等等。像这样压缩情况下，如果没有缺失文件，都是那么所有的语言都会和英语压缩后的文本一样大。所以我们需要对比的就是他们的压缩时间，压缩时间越长的，他们的信息熵就越大。

而中文的压缩效率远远低于其他文字。除此之外他们又做了其他的对比实验，比如说换压缩算法。再比如说把译文扩充。因为圣经中都是常见词汇，但是其他语言中有很多特殊的词汇。但是在压缩过后，中文依然是压缩效率最低的一个语言。可以说中文是信息熵最大的一种语言了。

虽然说这个实验也不完美，有很多漏洞，但是多个实验结果看上去都是很相似的。而且即便是有很大的漏洞，这样的实验依然存在着很强的指导意义。