相信你第一次在微信中聽見自己的聲音一定會產生疑問,“這個聲音是我?”完~全~不~科~學!
事實上,不僅僅是微信,當你回聽其他錄音軟體的聲音時,基本上都感覺這聲音有點難聽。“我的聲音應該是KTV裡那種華麗麗的呀!”
這世界上不止你一個人有過這樣的疑慮,網友們對此紛紛表示:
1、鏡子裡的我和照片裡的我,也感覺長得不一樣。
2、發微信時不小心點開了自己的語音,受到了十分驚嚇。
3、我不聽我不聽我不聽,為什麼要告訴我真相。
好可怕,別人聽到我的聲音,其實不是我想表現給別人聽到我的聲音,(這句話念起來有點繞,但一點都不妨礙理解)你懂的。
為什麼我的聲音聽起來不像“我”呢?
為什麼說話時,自己聽到遠比周圍的人聽到的醇厚和柔美,簡單理解“很好聽”。準確的說,人說話時,聲帶的快速顫動不僅帶動顱腔振動,也有喉嚨振動,頸部皮膚、顱骨和口腔的震動,從而形成多處同步振動;而別人聽到的聲音則通過了空氣的震動傳導再進入聽者的耳朵,刺激他們的鼓膜及內耳結構,將模擬波形轉變為電訊號,最終傳遞給大腦理解。這個轉化過程有一定的損耗,”我“的音色也會有所變化,別人的實際聽感類似“迴響”。因此相對“我”的原聲,別人聽見“我”的聲音變得纖薄幹脆。
其實,除了你自己沒人能夠聽到頭骨傳導的這部分聲音。
那麼,微信裡“我”說話的聲音是不是更接近於別人聽到“我”的聲音?答案“是”。
但是,別人聽到“我”的聲音還是有些細微的差別。比如:每個人的耳廓結構不同,對聲音捕捉的敏感程度也是不同的;每個人與你的距離也是不一樣的,所以事實上每個人聽到的你的聲音都是不!一!樣!的!正是所謂的“一千個人眼裡有一千個哈姆雷特”,“一千個人耳裡就有一千個你”。
那麼你一定好奇了,我的聲音不一樣,機器裝置怎麼能識別我的語音呢?
這聽起來是個難題,但是對掌握自我學習能力的機器裝置而言,其實不難!
那是因為機器裝置可以透過智慧語音技術分別構成人機語音互動的“聽”和“說”。機器識別人的語音是語音識別技術(ASR),目前連續語音識別技術可以將使用者實時說話內容轉為文字,準確率額也相當高。語音識別其中包括了兩方面的含義:第一層是逐字逐句聽懂非轉化成書面語言文字;第二層是更深入地對口述語言中所包含的要求或詢問加以理解,做出正確響應,而不拘泥於所有詞的正確轉換。
【以下是枯燥的三原理】
首先,語音訊號中的語言資訊是按照短時幅度譜的時間變化模式來編碼;其次,語音是可以閱讀的,即它的聲學訊號可以在不考慮說話人試圖傳達的資訊內容的情況下,用數十個具有區別性的、離散的符號來表示;最後,語音互動是一個認知過程,因而需要語言的語法、語義和語用結構支援。
而對於語音識別的預處理,則包括語音訊號取樣、反混疊帶通濾波、去除個體發音差異和裝置、環境引起的噪聲影響等,並涉及到語音識別基元的選取和端點檢測問題。在之後的特徵提取過程,就是用於提取語音中反映本質特徵的聲學引數,如平均能量、平均跨零率、共振峰等。
然後關鍵是訓練階段,即在識別之前透過讓講話者多次重複語音,從原始語音樣本中去除冗餘資訊,保留關鍵資料,再按照一定規則對資料加以聚類,形成模式庫。最後是模式匹配,這是整個語音識別系統的核心,它根據一定規則(如某種距離測度)以及專家知識(如構詞規則、語法規則、語義規則等),計算輸入特徵與庫存模式之間的相似度(如匹配距離、似然機率),判斷出輸入語音的語意資訊。
換句話說,你的音色其實不會影響機器對你的語音識別能力。別再自欺欺人了,無論微信裡的那個傢伙的聲音聽起來多麼不像“你”,事實就是你說的。