为啥微信里我的声音听起来不像“我”? 枯燥的三原理是什么

2016-06-15 由夏侯依丝发布于综合

　　相信你第一次在微信中听见自己的声音一定会产生疑问，“这个声音是我?”完~全~不~科~学!

　　事实上，不仅仅是微信，当你回听其他录音软件的声音时，基本上都感觉这声音有点难听。“我的声音应该是KTV里那种华丽丽的呀!”

　　这世界上不止你一个人有过这样的疑虑，网友们对此纷纷表示：

　　1、镜子里的我和照片里的我，也感觉长得不一样。

　　2、发微信时不小心点开了自己的语音，受到了十分惊吓。

　　3、我不听我不听我不听，为什么要告诉我真相。

　　好可怕，别人听到我的声音，其实不是我想表现给别人听到我的声音，(这句话念起来有点绕，但一点都不妨碍理解)你懂的。

　　为什么我的声音听起来不像“我”呢?

　　为什么说话时，自己听到远比周围的人听到的醇厚和柔美，简单理解“很好听”。准确的说，人说话时，声带的快速颤动不仅带动颅腔振动，也有喉咙振动，颈部皮肤、颅骨和口腔的震动，从而形成多处同步振动;而别人听到的声音则通过了空气的震动传导再进入听者的耳朵，刺激他们的鼓膜及内耳结构，将模拟波形转变为电信号，最终传递给大脑理解。这个转化过程有一定的损耗，”我“的音色也会有所变化，别人的实际听感类似“回响”。因此相对“我”的原声，别人听见“我”的声音变得纤薄干脆。

　　其实，除了你自己没人能够听到头骨传导的这部分声音。

　　那么，微信里“我”说话的声音是不是更接近于别人听到“我”的声音?答案“是”。

　　但是，别人听到“我”的声音还是有些细微的差别。比如：每个人的耳廓结构不同，对声音捕捉的敏感程度也是不同的;每个人与你的距离也是不一样的，所以事实上每个人听到的你的声音都是不!一!样!的!正是所谓的“一千个人眼里有一千个哈姆雷特”，“一千个人耳里就有一千个你”。

　　那么你一定好奇了，我的声音不一样，机器设备怎么能识别我的语音呢?

　　这听起来是个难题，但是对掌握自我学习能力的机器设备而言，其实不难!

　　那是因为机器设备可以通过智能语音技术分别构成人机语音交互的“听”和“说”。机器识别人的语音是语音识别技术(ASR)，目前连续语音识别技术可以将用户实时说话内容转为文字，准确率额也相当高。语音识别其中包括了两方面的含义：第一层是逐字逐句听懂非转化成书面语言文字;第二层是更深入地对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。

　　【以下是枯燥的三原理】

　　首先，语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次，语音是可以阅读的，即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下，用数十个具有区别性的、离散的符号来表示;最后，语音交互是一个认知过程，因而需要语言的语法、语义和语用结构支持。

　　而对于语音识别的预处理，则包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题。在之后的特征提取过程，就是用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等。

　　然后关键是训练阶段，即在识别之前通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库。最后是模式匹配，这是整个语音识别系统的核心，它根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等)，计算输入特征与库存模式之间的相似度(如匹配距离、似然概率)，判断出输入语音的语意信息。

　　换句话说，你的音色其实不会影响机器对你的语音识别能力。别再自欺欺人了，无论微信里的那个家伙的声音听起来多么不像“你”，事实就是你说的。

转载请注明：为啥微信里我的声音听起来不像“我”? 枯燥的三原理是什么 - 楠木轩