相信你第一次在微信中听见自己的声音一定会产生疑问,“这个声音是我?”完~全~不~科~学!
事实上,不仅仅是微信,当你回听其他录音软件的声音时,基本上都感觉这声音有点难听。“我的声音应该是KTV里那种华丽丽的呀!”
这世界上不止你一个人有过这样的疑虑,网友们对此纷纷表示:
1、镜子里的我和照片里的我,也感觉长得不一样。
2、发微信时不小心点开了自己的语音,受到了十分惊吓。
3、我不听我不听我不听,为什么要告诉我真相。
好可怕,别人听到我的声音,其实不是我想表现给别人听到我的声音,(这句话念起来有点绕,但一点都不妨碍理解)你懂的。
为什么我的声音听起来不像“我”呢?
为什么说话时,自己听到远比周围的人听到的醇厚和柔美,简单理解“很好听”。准确的说,人说话时,声带的快速颤动不仅带动颅腔振动,也有喉咙振动,颈部皮肤、颅骨和口腔的震动,从而形成多处同步振动;而别人听到的声音则通过了空气的震动传导再进入听者的耳朵,刺激他们的鼓膜及内耳结构,将模拟波形转变为电信号,最终传递给大脑理解。这个转化过程有一定的损耗,”我“的音色也会有所变化,别人的实际听感类似“回响”。因此相对“我”的原声,别人听见“我”的声音变得纤薄干脆。
其实,除了你自己没人能够听到头骨传导的这部分声音。
那么,微信里“我”说话的声音是不是更接近于别人听到“我”的声音?答案“是”。
但是,别人听到“我”的声音还是有些细微的差别。比如:每个人的耳廓结构不同,对声音捕捉的敏感程度也是不同的;每个人与你的距离也是不一样的,所以事实上每个人听到的你的声音都是不!一!样!的!正是所谓的“一千个人眼里有一千个哈姆雷特”,“一千个人耳里就有一千个你”。
那么你一定好奇了,我的声音不一样,机器设备怎么能识别我的语音呢?
这听起来是个难题,但是对掌握自我学习能力的机器设备而言,其实不难!
那是因为机器设备可以通过智能语音技术分别构成人机语音交互的“听”和“说”。机器识别人的语音是语音识别技术(ASR),目前连续语音识别技术可以将用户实时说话内容转为文字,准确率额也相当高。语音识别其中包括了两方面的含义:第一层是逐字逐句听懂非转化成书面语言文字;第二层是更深入地对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。
【以下是枯燥的三原理】
首先,语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次,语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下,用数十个具有区别性的、离散的符号来表示;最后,语音交互是一个认知过程,因而需要语言的语法、语义和语用结构支持。
而对于语音识别的预处理,则包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题。在之后的特征提取过程,就是用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。
然后关键是训练阶段,即在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。最后是模式匹配,这是整个语音识别系统的核心,它根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息。
换句话说,你的音色其实不会影响机器对你的语音识别能力。别再自欺欺人了,无论微信里的那个家伙的声音听起来多么不像“你”,事实就是你说的。