從 2 個方面來回答這個問題:
1、語音中包含的信息量要遠遠多於文本。
從內容上來講,語音消息和文本消息包含了相同的語言學內容。除此之外,語音消息還包含了以下的信息,這些信息都是文本所不具有的:
a)語音消息包含説話人信息。
從文本上看並不能確定消息的發送者是就是手機的擁有人。例如盜用賬號進行詐騙,從字面上我們難以確認是否是自己的熟人所發。當然信件可以通過字體來進行判斷寫字人,這是字跡鑑定,這裏不做過多討論。
通過語音我們是可以判斷出對方是否是我們的熟人。這個技術的學名叫做聲紋認證(Speaker recognition),其依據就是人的聲音和指紋一樣具有可辨別行。錄音作為呈堂證據也是這個原理。聲紋技術在人工智能中也有提現,比如大家都説同樣的一句話“我想聽歌”,智能系統推薦出的歌曲卻不相同。其實現原理就是利用聲紋技術,識別出不同的説話人,然後依據個人的喜好,推薦不同的歌曲。
b)語音消息包含情感。
文字可以包含情感,通過文字表達喜怒哀樂很常見。但是相同的文字用不同的語氣讀出來表達的意義可能完全不同。前段時間關於華東師範大學中文系 2012 屆畢業生的一篇題為《網絡會話中“呵呵”的功能研究》的論文引起熱議想必大家都還有印象。輕聲細語的説出來和粗獷的説出來顯然是不能相提並論的。
試看下面一段話:
“。·ˇ‸ˇ·。)哼!都怪你們 (`ȏ′) 也不哄哄人家(〃′o`)人家超想哭的,捶你胸口,大壞蛋!!!( ̄^ ̄)ゞ咩 QAQ 捶你胸口 你好討厭!(=゚ω゚)ノ要抱抱嚶嚶嚶哼,人家拿小拳拳捶你胸口!!!(。· ︿·̀。)大壞蛋,打死你(つд⊂)”
光從內容你來看你可能快要被感動,可真正説出來就未必了。可以自行搜索“大叔版小拳拳”。
c)語音消息包含人的健康狀況信息。
語音是通過聲帶振動,然後經過口腔、鼻腔甚至胸腔和額的共鳴最終發聲。不同的發聲技巧會形成不同的音色,進而形成不同的唱腔。每個人正常講話的方式通常是固定的,音色也固定,從而具有可鑑別性。如果生病導致鼻子堵塞或是嗓子腫脹,都會影響音色。因此關心你的人通常能夠通過你的聲音判斷你是否健康。
以上這些都是語音消息中所包含但文本消息中不具有的信息。
2、語音識別還沒到準確令人滿意的程度。
目前語音識別的水平看似已經不錯,手機輸入發的準確率已經蠻高了。但這些都是有前提條件,那就是“近講、安靜環境”。如果你走在嘈雜的馬路上,或是在喧鬧的集市中,性能就未必如你所想的那麼好了。其實從另一個方面來講,如果語音識別真的如此好的話或者你只關心説話內容時,那麼完全可以在微信中識別成文字查看內容。顯然結果並不總能讓人滿意。當然各家語音識別性能也有差距,這裏我們暫且不論。
關於語音識別的進展請移步這裏:https://www.zhihu.com/question/46829056
3、語音技術的未來
其實説了這麼多,最大的限制還是語音技術。這裏的語音技術包括語音識別,聲紋認證,情感分析等等。所以大多數場景下我們更習慣於在手機上點擊操作,而不是用語音來控制設備。或者控制設備的時候,更傾向於發送一條文本指令而不是一條語音指令。
技術的進步改變我們的生活方式這一點是毋庸置疑的。隨着語音技術的進步,相信語音會在很多場景下得到更好的應用。比如騰不出手的時候控制智能設備,比如同機器人的交流等等。
以上