為啥微信裏我的聲音聽起來不像“我”? 枯燥的三原理是什麼

2016-06-15 由夏侯依絲發佈於綜合

　　相信你第一次在微信中聽見自己的聲音一定會產生疑問，“這個聲音是我?”完~全~不~科~學!

　　事實上，不僅僅是微信，當你回聽其他錄音軟件的聲音時，基本上都感覺這聲音有點難聽。“我的聲音應該是KTV裏那種華麗麗的呀!”

　　這世界上不止你一個人有過這樣的疑慮，網友們對此紛紛表示：

　　1、鏡子裏的我和照片裏的我，也感覺長得不一樣。

　　2、發微信時不小心點開了自己的語音，受到了十分驚嚇。

　　3、我不聽我不聽我不聽，為什麼要告訴我真相。

　　好可怕，別人聽到我的聲音，其實不是我想表現給別人聽到我的聲音，(這句話念起來有點繞，但一點都不妨礙理解)你懂的。

　　為什麼我的聲音聽起來不像“我”呢?

　　為什麼説話時，自己聽到遠比周圍的人聽到的醇厚和柔美，簡單理解“很好聽”。準確的説，人説話時，聲帶的快速顫動不僅帶動顱腔振動，也有喉嚨振動，頸部皮膚、顱骨和口腔的震動，從而形成多處同步振動;而別人聽到的聲音則通過了空氣的震動傳導再進入聽者的耳朵，刺激他們的鼓膜及內耳結構，將模擬波形轉變為電信號，最終傳遞給大腦理解。這個轉化過程有一定的損耗，”我“的音色也會有所變化，別人的實際聽感類似“迴響”。因此相對“我”的原聲，別人聽見“我”的聲音變得纖薄幹脆。

　　其實，除了你自己沒人能夠聽到頭骨傳導的這部分聲音。

　　那麼，微信裏“我”説話的聲音是不是更接近於別人聽到“我”的聲音?答案“是”。

　　但是，別人聽到“我”的聲音還是有些細微的差別。比如：每個人的耳廓結構不同，對聲音捕捉的敏感程度也是不同的;每個人與你的距離也是不一樣的，所以事實上每個人聽到的你的聲音都是不!一!樣!的!正是所謂的“一千個人眼裏有一千個哈姆雷特”，“一千個人耳裏就有一千個你”。

　　那麼你一定好奇了，我的聲音不一樣，機器設備怎麼能識別我的語音呢?

　　這聽起來是個難題，但是對掌握自我學習能力的機器設備而言，其實不難!

　　那是因為機器設備可以通過智能語音技術分別構成人機語音交互的“聽”和“説”。機器識別人的語音是語音識別技術(ASR)，目前連續語音識別技術可以將用户實時説話內容轉為文字，準確率額也相當高。語音識別其中包括了兩方面的含義：第一層是逐字逐句聽懂非轉化成書面語言文字;第二層是更深入地對口述語言中所包含的要求或詢問加以理解，做出正確響應，而不拘泥於所有詞的正確轉換。

　　【以下是枯燥的三原理】

　　首先，語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次，語音是可以閲讀的，即它的聲學信號可以在不考慮説話人試圖傳達的信息內容的情況下，用數十個具有區別性的、離散的符號來表示;最後，語音交互是一個認知過程，因而需要語言的語法、語義和語用結構支持。

　　而對於語音識別的預處理，則包括語音信號採樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的噪聲影響等，並涉及到語音識別基元的選取和端點檢測問題。在之後的特徵提取過程，就是用於提取語音中反映本質特徵的聲學參數，如平均能量、平均跨零率、共振峯等。

　　然後關鍵是訓練階段，即在識別之前通過讓講話者多次重複語音，從原始語音樣本中去除冗餘信息，保留關鍵數據，再按照一定規則對數據加以聚類，形成模式庫。最後是模式匹配，這是整個語音識別系統的核心，它根據一定規則(如某種距離測度)以及專家知識(如構詞規則、語法規則、語義規則等)，計算輸入特徵與庫存模式之間的相似度(如匹配距離、似然概率)，判斷出輸入語音的語意信息。

　　換句話説，你的音色其實不會影響機器對你的語音識別能力。別再自欺欺人了，無論微信裏的那個傢伙的聲音聽起來多麼不像“你”，事實就是你説的。

轉載請註明：為啥微信裏我的聲音聽起來不像“我”? 枯燥的三原理是什麼 - 楠木軒