知乎日報：明明可以語音輸入為什麼大家還會發語音消息？

2017-04-16由宗政從蓉發佈於經典

　　從 2 個方面來回答這個問題：

　　1、語音中包含的信息量要遠遠多於文本。

　　從內容上來講，語音消息和文本消息包含了相同的語言學內容。除此之外，語音消息還包含了以下的信息，這些信息都是文本所不具有的：

　　a)語音消息包含説話人信息。

　　從文本上看並不能確定消息的發送者是就是手機的擁有人。例如盜用賬號進行詐騙，從字面上我們難以確認是否是自己的熟人所發。當然信件可以通過字體來進行判斷寫字人，這是字跡鑑定，這裏不做過多討論。

　　通過語音我們是可以判斷出對方是否是我們的熟人。這個技術的學名叫做聲紋認證(Speaker recognition)，其依據就是人的聲音和指紋一樣具有可辨別行。錄音作為呈堂證據也是這個原理。聲紋技術在人工智能中也有提現，比如大家都説同樣的一句話“我想聽歌”，智能系統推薦出的歌曲卻不相同。其實現原理就是利用聲紋技術，識別出不同的説話人，然後依據個人的喜好，推薦不同的歌曲。

　　b)語音消息包含情感。

　　文字可以包含情感，通過文字表達喜怒哀樂很常見。但是相同的文字用不同的語氣讀出來表達的意義可能完全不同。前段時間關於華東師範大學中文系 2012 屆畢業生的一篇題為《網絡會話中“呵呵”的功能研究》的論文引起熱議想必大家都還有印象。輕聲細語的説出來和粗獷的説出來顯然是不能相提並論的。

　　試看下面一段話：

　　“。·ˇ‸ˇ·。)哼!都怪你們 (`ȏ′) 也不哄哄人家(〃′o`)人家超想哭的，捶你胸口，大壞蛋!!!(￣^￣)ゞ咩 QAQ 捶你胸口你好討厭!(=ﾟωﾟ)ﾉ要抱抱嚶嚶嚶哼，人家拿小拳拳捶你胸口!!!(。· ︿·̀。)大壞蛋，打死你(つд⊂)”

　　光從內容你來看你可能快要被感動，可真正説出來就未必了。可以自行搜索“大叔版小拳拳”。

　　c)語音消息包含人的健康狀況信息。

　　語音是通過聲帶振動，然後經過口腔、鼻腔甚至胸腔和額的共鳴最終發聲。不同的發聲技巧會形成不同的音色，進而形成不同的唱腔。每個人正常講話的方式通常是固定的，音色也固定，從而具有可鑑別性。如果生病導致鼻子堵塞或是嗓子腫脹，都會影響音色。因此關心你的人通常能夠通過你的聲音判斷你是否健康。

　　以上這些都是語音消息中所包含但文本消息中不具有的信息。

　　2、語音識別還沒到準確令人滿意的程度。

　　目前語音識別的水平看似已經不錯，手機輸入發的準確率已經蠻高了。但這些都是有前提條件，那就是“近講、安靜環境”。如果你走在嘈雜的馬路上，或是在喧鬧的集市中，性能就未必如你所想的那麼好了。其實從另一個方面來講，如果語音識別真的如此好的話或者你只關心説話內容時，那麼完全可以在微信中識別成文字查看內容。顯然結果並不總能讓人滿意。當然各家語音識別性能也有差距，這裏我們暫且不論。

　　關於語音識別的進展請移步這裏：https://www.zhihu.com/question/46829056

　　3、語音技術的未來

　　其實説了這麼多，最大的限制還是語音技術。這裏的語音技術包括語音識別，聲紋認證，情感分析等等。所以大多數場景下我們更習慣於在手機上點擊操作，而不是用語音來控制設備。或者控制設備的時候，更傾向於發送一條文本指令而不是一條語音指令。

　　技術的進步改變我們的生活方式這一點是毋庸置疑的。隨着語音技術的進步，相信語音會在很多場景下得到更好的應用。比如騰不出手的時候控制智能設備，比如同機器人的交流等等。

　　以上