編輯導讀:隨著智慧音箱、智慧家居等智慧硬體的普及,語音互動熱度也不斷飆升。本文從互動模式的發展出發,梳理分析了語音互動的優勢、存在的問題和設計要點,並展望了語音互動的未來發展,希望透過此文能夠加深你對語音互動的認識。
隨著人工智慧技術的發展,語音互動逐漸成為我們主流的互動方式之一,一方面是因為語音互動更加自然,一方面也得益於技術的發展。從智慧音箱到智慧手機,語音互動正在被大眾所接受。
一、互動模式的發展自從工業革命以來,人機互動就逐漸進入人們的視野。
- 開始是傳統的按壓互動,一個機械按鍵,按下去以後機器會有相應的反饋,就像現在手機的開機鍵。
- 然後就是鼠鍵互動,透過滑鼠+鍵盤這個組合,對映到可視的顯示器上,點選來進行互動。
- 緊接著是觸控互動,觸控式螢幕的普及,人們開始習慣在螢幕上戳戳點點,這就是我們每天都在使用的觸控互動。
- 一直到現在,在以上兩種互動的基礎之上,又衍生出了語音互動和手勢互動,這都是得益於大資料和人工智慧的發展,這就是我們常用的智慧音箱和手機助手。
- 未來最有可能被普及的就是意識互動,計算機可以識別人腦的想法,從而直接進行反饋,之前看的Facebook有一個輸入法就可以透過腦電波輸入,最近又有埃隆·馬斯克的腦機介面演示,感覺這一天離我們越來越近。
現在語音互動在技術上也越來越成熟,識別的準確率和處理的效率越來越高,也已經有了很多落地的產品,足以證明語音互動在現在的可行性。隨著5G和物聯網的普及,語音互動會有更大的應用場景,讓所有的物體都會說話,真是一件不能再酷的事情了。
二、語音互動的優缺點從最開始的按壓互動,到現在的語音互動,中間經歷了幾百年的時間,但是按壓互動依然沒有被完全替代,像手機上的音量按鍵,電腦上的鍵盤等,在我們身邊隨處可見。語音識別和自然語言處理技術這麼成熟,為什麼我們不能完全由語音控制呢?
這就要說到互動的基本原則,也就是什麼樣子的互動設計用著爽:
- 簡單:儘可能的降低使用者的學習成本
- 精準:能夠準確的完成我們想做的事情
- 自然:符合人體工程設計,看起來像一個正常人
我們先看鼠鍵互動和觸控互動,鼠鍵互動相比觸控互動,最大的優勢是精準,而簡單和自然就不如觸控互動了。觸控是人類的天性,相比於滑鼠的對映更加簡單,學習成本低,操作起來也更自然,不用正襟危坐的在電腦前,隨時隨地都可以操作。這也是為什麼手機的互動方式碾壓電腦的原因,但是電腦因為有更精準的特點,也會一直存在。
沒有什麼方式能夠比直接說話來的更簡單,更自然,更不需要學習成本,但是語音互動最大的問題是不夠精準。首先是受環境的影響,導致語音識別的準確率較低;再者就是表達一個意圖的說法千變萬化,更本無法覆蓋全;最後就是語音互動是一個開放域的事情,需要處理很多意外的情況。這裡還沒有考慮有些場景不適合語音互動,比如會議場景,家人睡覺的時候等。
語音互動的優點和他的缺點一樣突出,這也就導致語音互動最終無法取代其他的互動模式,多種互動模式會長期並存。所以我們需要結合實際場景,充分發揮語音互動的優勢,而不是一味的追求語音互動。
三、如何設計語音互動?由於技術的限制,語音互動的精確性不高,這也導致語音互動在未來很長一段時間裡,不會成為唯一的互動方式,而是和多種互動模式並存,可能會處於一種輔助的狀態。
在設計語音互動的時候,可以按照三步進行梳理。
1. 確定互動場景先要考慮當前場景是否適合語音互動。適合語音互動的場景有以下幾個特點:
- 環境噪音少,或者噪音處於一個穩定可控的狀態;
- 使用環境私密,或者當前環境互動沒有心理負擔;
- 對指令下發失敗容忍度高,或者有補救的方案;
- 使用物件雙手被佔用,或者距離操作按鈕很遠;
- 觸發的指令意圖簡短且明確。
根據以上特點,我們發現手機的智慧助手滿足以上條件,因為手機的使用場景足夠豐富,幾乎覆蓋生活的方方面面,那麼總會有場景完全適合語音互動,所以大家都在嘗試做自己的語音助手。我們常見智慧音箱和車載助手,也完全符合。
2. 確定互動反饋其次要考慮語音互動後的反饋,要能夠保證資訊的準確傳達。簡單可以把語音互動夫人反饋分為三種:
(1)聽懂了的反饋:這個比較好理解,相對比較容易設計。只要知道使用者所表達的意圖,我們就可以給出一個明確的反饋,一般會結合視覺和聽覺同時反饋給使用者,並執行對應的指令。
(2)沒聽懂的反饋:沒聽懂需要分層次,是完全沒聽懂,還是聽懂了一點,還是感覺聽懂了,但是不確認,這都算在沒有聽懂裡面。如果是完全沒有聽懂,一般反饋內容分為兩部分,一是表示沒聽懂,另外需要引導使用者說機器人會的內容。比如“XXXXXXX”,沒有對應的處理方案,對於機器人就是沒有聽懂,可以回覆“這個我沒聽懂,您可以對我說’開啟空調’。”
如果是聽懂了一點,只聽出一個關鍵詞,或者是說話的語氣,也可以做一些回覆。比如“開啟XX”,沒有聽清後面的裝置,那麼就可以回覆“您想要開啟什麼裝置呢?”,然後根據反饋再做多輪迴復。
如果是聽懂了,但是不確認,就可以直接進行反問,讓使用者進行二次確認。比如“開啟空條”,感覺使用者是想要說“開啟空調”,就可以直接反問“您是要開啟空調嗎?”,然後根據反饋再做多輪迴復。
(3)異常狀態的情況也有很多,但是我們全都需要有反饋。比如噪音、斷網等情況,要提示使用者當前狀態,避免使用者頻繁互動而沒有結果。
3. 確定互動關係最後還要設定語音互動和其他互動方式的關係。往往一個裝置不會只搭載一種互動方式,而是多種互動方式相結合。手機就是一個典型的多種互動方式結合的產物,所以要考慮語音和觸控之間的關係,比如是否要語音支援手機關機,語音指令是否支援打斷當前任務等等。
做語音互動的產品,首先要明確是否適合語音互動,其次再分層次的解決語音互動中的反饋,最後設計清楚語音和其他互動的關係。
四、語音互動的未來說到語音互動,很多人會說這是最符合人類的互動方式,因為我們感覺人和人之間都是語音互動。其實並不是這樣的,我們說話的時候,是帶有表情和動作的,我們把這種豐富的互動模式叫做多模態互動。
多模態互動才是語音互動的未來。現在我們傳統的語音互動,只是簡單的獲取了使用者的文字資訊,基於字面意識去做處理,高階一點的會利用上文聊過的資訊,再往前一步,會根據使用者畫像做反饋。多模態互動不僅僅需要文字資訊,同樣需要視覺,音訊等資訊,然後根據不同的權重,作出合理的反饋。
其實在人與人對話的時候,除了字面意思外,還有很多隱藏的的資訊,面對不同身份,不同關係的人,可能反饋的內容都不一樣。所以需要給機器設定人設,還要對使用者進行分類,有時候甚至需要做到千人千面。
語音互動相比於傳統的互動模式,更依賴於演算法和資料,所以語音互動的未來是需要技術突破的。
五、總結我們生活中有多種多樣的互動方式,每一種互動方式都有它的優缺點,所以很多傳統的互動方式會一直存在。而語音互動是最簡單,最自然的互動方式,但同樣也是精準度最低的互動方式。這也就註定了語音互動將長期處於一個協助觸控互動的狀態,不過有些精準度要求不高的場景,也可以實現純語音互動。
未來語音互動繼續發展,將會進一步對人群進行分類,並結合多模態資訊反饋。
本文由 @我叫人人 原創釋出於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議。