關於語音互動，你瞭解多少？

編輯導讀：隨著智慧音箱、智慧家居等智慧硬體的普及，語音互動熱度也不斷飆升。本文從互動模式的發展出發，梳理分析了語音互動的優勢、存在的問題和設計要點，並展望了語音互動的未來發展，希望透過此文能夠加深你對語音互動的認識。

隨著人工智慧技術的發展，語音互動逐漸成為我們主流的互動方式之一，一方面是因為語音互動更加自然，一方面也得益於技術的發展。從智慧音箱到智慧手機，語音互動正在被大眾所接受。

一、互動模式的發展

自從工業革命以來，人機互動就逐漸進入人們的視野。

開始是傳統的按壓互動，一個機械按鍵，按下去以後機器會有相應的反饋，就像現在手機的開機鍵。
然後就是鼠鍵互動，透過滑鼠+鍵盤這個組合，對映到可視的顯示器上，點選來進行互動。
緊接著是觸控互動，觸控式螢幕的普及，人們開始習慣在螢幕上戳戳點點，這就是我們每天都在使用的觸控互動。
一直到現在，在以上兩種互動的基礎之上，又衍生出了語音互動和手勢互動，這都是得益於大資料和人工智慧的發展，這就是我們常用的智慧音箱和手機助手。
未來最有可能被普及的就是意識互動，計算機可以識別人腦的想法，從而直接進行反饋，之前看的Facebook有一個輸入法就可以透過腦電波輸入，最近又有埃隆·馬斯克的腦機介面演示，感覺這一天離我們越來越近。

現在語音互動在技術上也越來越成熟，識別的準確率和處理的效率越來越高，也已經有了很多落地的產品，足以證明語音互動在現在的可行性。隨著5G和物聯網的普及，語音互動會有更大的應用場景，讓所有的物體都會說話，真是一件不能再酷的事情了。

二、語音互動的優缺點

從最開始的按壓互動，到現在的語音互動，中間經歷了幾百年的時間，但是按壓互動依然沒有被完全替代，像手機上的音量按鍵，電腦上的鍵盤等，在我們身邊隨處可見。語音識別和自然語言處理技術這麼成熟，為什麼我們不能完全由語音控制呢？

這就要說到互動的基本原則，也就是什麼樣子的互動設計用著爽：

簡單：儘可能的降低使用者的學習成本
精準：能夠準確的完成我們想做的事情
自然：符合人體工程設計，看起來像一個正常人

我們先看鼠鍵互動和觸控互動，鼠鍵互動相比觸控互動，最大的優勢是精準，而簡單和自然就不如觸控互動了。觸控是人類的天性，相比於滑鼠的對映更加簡單，學習成本低，操作起來也更自然，不用正襟危坐的在電腦前，隨時隨地都可以操作。這也是為什麼手機的互動方式碾壓電腦的原因，但是電腦因為有更精準的特點，也會一直存在。

沒有什麼方式能夠比直接說話來的更簡單，更自然，更不需要學習成本，但是語音互動最大的問題是不夠精準。首先是受環境的影響，導致語音識別的準確率較低；再者就是表達一個意圖的說法千變萬化，更本無法覆蓋全；最後就是語音互動是一個開放域的事情，需要處理很多意外的情況。這裡還沒有考慮有些場景不適合語音互動，比如會議場景，家人睡覺的時候等。

語音互動的優點和他的缺點一樣突出，這也就導致語音互動最終無法取代其他的互動模式，多種互動模式會長期並存。所以我們需要結合實際場景，充分發揮語音互動的優勢，而不是一味的追求語音互動。

三、如何設計語音互動？

由於技術的限制，語音互動的精確性不高，這也導致語音互動在未來很長一段時間裡，不會成為唯一的互動方式，而是和多種互動模式並存，可能會處於一種輔助的狀態。

在設計語音互動的時候，可以按照三步進行梳理。

1. 確定互動場景

先要考慮當前場景是否適合語音互動。適合語音互動的場景有以下幾個特點：

環境噪音少，或者噪音處於一個穩定可控的狀態；
使用環境私密，或者當前環境互動沒有心理負擔；
對指令下發失敗容忍度高，或者有補救的方案；
使用物件雙手被佔用，或者距離操作按鈕很遠；
觸發的指令意圖簡短且明確。

根據以上特點，我們發現手機的智慧助手滿足以上條件，因為手機的使用場景足夠豐富，幾乎覆蓋生活的方方面面，那麼總會有場景完全適合語音互動，所以大家都在嘗試做自己的語音助手。我們常見智慧音箱和車載助手，也完全符合。

2. 確定互動反饋

其次要考慮語音互動後的反饋，要能夠保證資訊的準確傳達。簡單可以把語音互動夫人反饋分為三種：

（1）聽懂了的反饋：這個比較好理解，相對比較容易設計。只要知道使用者所表達的意圖，我們就可以給出一個明確的反饋，一般會結合視覺和聽覺同時反饋給使用者，並執行對應的指令。

（2）沒聽懂的反饋：沒聽懂需要分層次，是完全沒聽懂，還是聽懂了一點，還是感覺聽懂了，但是不確認，這都算在沒有聽懂裡面。如果是完全沒有聽懂，一般反饋內容分為兩部分，一是表示沒聽懂，另外需要引導使用者說機器人會的內容。比如“XXXXXXX”，沒有對應的處理方案，對於機器人就是沒有聽懂，可以回覆“這個我沒聽懂，您可以對我說’開啟空調’。”

如果是聽懂了一點，只聽出一個關鍵詞，或者是說話的語氣，也可以做一些回覆。比如“開啟XX”，沒有聽清後面的裝置，那麼就可以回覆“您想要開啟什麼裝置呢？”，然後根據反饋再做多輪迴復。

如果是聽懂了，但是不確認，就可以直接進行反問，讓使用者進行二次確認。比如“開啟空條”，感覺使用者是想要說“開啟空調”，就可以直接反問“您是要開啟空調嗎？”，然後根據反饋再做多輪迴復。

（3）異常狀態的情況也有很多，但是我們全都需要有反饋。比如噪音、斷網等情況，要提示使用者當前狀態，避免使用者頻繁互動而沒有結果。

3. 確定互動關係

最後還要設定語音互動和其他互動方式的關係。往往一個裝置不會只搭載一種互動方式，而是多種互動方式相結合。手機就是一個典型的多種互動方式結合的產物，所以要考慮語音和觸控之間的關係，比如是否要語音支援手機關機，語音指令是否支援打斷當前任務等等。

做語音互動的產品，首先要明確是否適合語音互動，其次再分層次的解決語音互動中的反饋，最後設計清楚語音和其他互動的關係。

四、語音互動的未來

說到語音互動，很多人會說這是最符合人類的互動方式，因為我們感覺人和人之間都是語音互動。其實並不是這樣的，我們說話的時候，是帶有表情和動作的，我們把這種豐富的互動模式叫做多模態互動。

多模態互動才是語音互動的未來。現在我們傳統的語音互動，只是簡單的獲取了使用者的文字資訊，基於字面意識去做處理，高階一點的會利用上文聊過的資訊，再往前一步，會根據使用者畫像做反饋。多模態互動不僅僅需要文字資訊，同樣需要視覺，音訊等資訊，然後根據不同的權重，作出合理的反饋。

其實在人與人對話的時候，除了字面意思外，還有很多隱藏的的資訊，面對不同身份，不同關係的人，可能反饋的內容都不一樣。所以需要給機器設定人設，還要對使用者進行分類，有時候甚至需要做到千人千面。

語音互動相比於傳統的互動模式，更依賴於演算法和資料，所以語音互動的未來是需要技術突破的。

五、總結

我們生活中有多種多樣的互動方式，每一種互動方式都有它的優缺點，所以很多傳統的互動方式會一直存在。而語音互動是最簡單，最自然的互動方式，但同樣也是精準度最低的互動方式。這也就註定了語音互動將長期處於一個協助觸控互動的狀態，不過有些精準度要求不高的場景，也可以實現純語音互動。

未來語音互動繼續發展，將會進一步對人群進行分類，並結合多模態資訊反饋。

本文由 @我叫人人原創釋出於人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基於CC0協議。