聊一聊語音交互以及語音助手

編輯導語:隨着科技的不斷髮展,如今語音助手也頻繁的出現在我們的日常生活中,比如手機的語音助手、智能音箱等等,語音助手的出現也很大程度上提高的一些效率問題;本文作者分享了關於語音交互的理解,我們一起來看一下。

聊一聊語音交互以及語音助手

“語音交互是一種簡單、自然的人機交互方式,也是人類最基本的溝通方式。”

説起語音交互、語音助手,我相信大家一定不陌生。

  • 2011 年,Siri 跟隨 iPhone 4s 一同發佈;
  • 2014 年,亞馬遜發佈 Alexa;
  • 2018 年,天貓精靈、小愛同學、小度等音箱開啓瘋狂補貼……

如今,各種科技公司、互聯網公司、車企,甚至是房地產企業都在做語音助手;你已經很難找到一台新發布,且不帶語音助手的手機 or 汽車了。

我最早感受到語音交互的魅力是在16年,當時在做全屋智能的產品經理,公司調研產品買了一台亞馬遜的echo,第一次體驗到遠場的語音交互,很驚豔,遠場語音交互技術給了居家場景太多的想象空間。

後來國內陸續出了小愛同學、天貓精靈、小度音箱… 我基本都是第一時間買回了家。

18年5月,我去了獵户星空做服務機器人“豹小秘”,機緣巧合的負責起了它的對話能力,有幸伴隨它從需要“一字不差的吼着交互”,到在全國各地的落地,我可能是最清楚它的對話能力是怎麼做起來的人。

19年8月,我去了滴滴,一年多過去了,也算是從0到1做了一個給司機用的語音助手(遺憾是還沒有做到全國全量…)。

到現在我也算是行業老兵了,想結合過往的經歷和思考,跟大家聊一聊語音交互。

這次主要想聊下面幾個話題:

  • 語音交互是什麼?
  • 做一款語音助手的難點是什麼?//為什麼 Siri、天貓精靈、小愛同學總被人説智障?
  • 可能的解決路徑又是什麼?//如何打造一個不傻屌的語音助手?
一、語音交互是什麼?

交流是人們與生俱來的本能,人類大約在二歲學會説話,説話也是人與人之間主要的交互方式。

我們可以試着想一下,假如人與人之間不能説話,只能通過觸摸固定的區域來交流,那世界會怎麼樣?我相信,你一定很難想象這會是什麼樣的世界;而事實上,我們現在與計算機交流的方式就是這樣。

語音交互是一項人機交互技術,可以通過説話跟計算機交互來獲取信息、服務等,語音交互也不是要替代觸控交互,而是在一些場景中讓人與計算機交互變的更簡單、自然。

二、做一款語音助手的難點是什麼?

説起難點,我先拋幾個現狀:

  • 從 Google、蘋果、微軟、亞馬遜,到國內的 BAT、華為等巨頭公司都有做語音助手的團隊;
  • 大多用户眼中,Siri、小度、天貓精靈、小愛同學等語音助手仍然是“人工智障”;
  • 使用過語音助手的人很多(19年光智能音箱出貨7200W台,城鎮住房滲透率 20%),但但用户活躍度低,使用過的功能也寥寥可數,主要是:聽歌、查天氣、訂鬧鐘等;

為什麼這麼多頂尖的公司,投入了頂尖的資源、頂尖的人才都沒做出一款 C 端用户滿意的語音助手?為什麼在很多用户眼中都是“人工智障”?語音助手的難點又是什麼?

這些問題很大,值得從業者們一起思考,這裏聊聊我的思考;我認為,導致人們經常説語音助手“智障”的原因是:用户預期與實際助手能力的 gap 過大。

聊一聊語音交互以及語音助手

就像這張圖,用户預期與語音助手能力的交集少的可憐。那麼有沒有可能變成下面這張圖的狀態?

聊一聊語音交互以及語音助手

按這個思路,問題的難點還可以繼續拆解:

1. 問題 1:如何讓用户知道語音助手能幹什麼?

語音助手背後的技能、內容其實都已小具規模(在19年,Alexa 集市就已經有了8萬多個技能),但很多用户也就只會使用聽歌、查天氣、訂鬧鐘這麼幾個技能(有屏音箱裏充滿了各種引導、推薦,就是試圖在解決這個問題)。

而我認為這個問題最根本的原因是,大多語音助手還沒有打透一個剛需場景。

像 90 年代初的互聯網,大家也不知道互聯網能幹嘛,馬雲到處推銷互聯網還被罵是騙子;而隨着互聯網解決的剛需場景越來越多(BBS解決了社交需求、門户網站解決了獲取信息的需求),也激發了更多的人去了解互聯網能幹什麼。

所以,大多用户們不瞭解語音助手能幹什麼,本質還是語音助手沒有找到一個剛需場景並打透(沒有找到剛需場景,或者説沒有在一個剛需場景中創造顯著的體驗差)。

2. 問題 2:如何讓語音助手連接更多的服務、內容?

想要回答這個問題,需要從場景深度和廣度兩個維度來看。

深度方面,單一場景要打通的鏈路很長,體驗閉環難。

案例 1:以家庭智能音箱的聽歌場景為例,受限於音箱背後的音樂版權,而音箱沒有,這會很大的影響體驗;比如小愛同學,因為它連接的歌曲資源是QQ音樂,而我就沒辦法聽自己在網易雲收藏的歌單了。

案例 2:在家庭照明場景,想通過語音助手隨意的控制家庭燈光,需要連接整個家庭燈光照明設備,這甚至得打通裝修環境,在裝修時就考慮。

廣度方面,用户在跟語音助手交互時,會有非常多的碎片化小需求。

案例:在滴滴的司機語音助手中,除了大家可以想到的導航場景,司機還會有各種各樣的長尾問題,例如:“網約車考試的題目在哪裏?”、“飛機場那邊的排隊區在哪裏”、“幫我查一下我的預約單”等等,這些都是司機自發的問語音助手的碎片化小需求。

3. 問題 3:如何管理用户預期?

導致用户預期過高也有兩方面的原因:

一方面,用語言交流時,某種程度上人們會不自覺把“語音助手”與真實的人比較,嘗試用人腦的思考習慣去理解“語音助手”,這必然會導致很多時候用户會覺得人機對話的結果不符合預期;因為目前的AI的原理和真正的人腦原理差的還很遠(根本原因是科學對人腦的瞭解也還很初級…),再加一些科幻電影,還有媒體對人工智能概念的鼓吹…

另一個方面是語音無法設定交互邊界,設計GUI交互時,我們可以定義出清晰的交互路徑和邊界(eg:首頁只提供一個按鈕);但是語音交互你無法限制用户説什麼,就像人與人的對話中,你永遠無法避免別人問到你不會的問題。

4. 小結

用户預期與實際助手能力的 gap 過大,導致很多用户認為語音助手“智障”,而導致 gap 過大的難點是:

  1. 當前語音助手的功能普遍太雞肋,沒有找到一個剛需場景並打透,用户都懶懶得去了解它;
  2. 單一場景要打通的鏈路很長、體驗閉環難,且碎片化小需求太多;
  3. 某種程度上用户的預期過高,且語音交互難以設定的交互邊界。
三、可能的解決路徑

想打造一個不傻屌的語音助手,不僅僅是打磨技術本身,有落地時對無數細節的打磨、把控,還有語音助手背後的生態…

這些都不是一蹴而就的事情,需要有清晰的目標、解決路徑,然後耐心的持續投入、細心打磨。

1. 找到剛需場景,打造出顯著的體驗差

我們希望它像鋼鐵俠的賈維斯一樣可以幫忙主人完成各種各樣的任務,它就得連接到各種各樣的服務,也會是一個 all in one 的入口。

所以,第一步也是最重要的一步,一定是找到剛需場景,打造出顯著的體驗差。

説到這裏,想先聊聊什麼是流量“入口”,舉一個智能家居行業的例子,業內一直有人在討論智能家居的入口是什麼。

早期有人説是路由器、電視,後來智能音箱出現,阿里、百度、小米等公司紛紛開啓補貼大戰,被不少人稱為“智能家居入口之爭”,現在又有人討論智能音箱作為“智能家居入口”這個命題是否成立。

我認為,決定是否能成為“入口”的不是形態,而是剛需場景中的用户體驗:

  • 互聯網早期,Yahoo因為在獲取信息這個剛需場景做的好,成為了一個流量“入口”;
  • 後來,Google 在獲取信息這個剛需場景下的體驗更好,逐漸替代 Yahoo 為了一個流量“入口”;
  • 智能手機也是因為在通訊社交、獲取信息、娛樂這些剛需場景的體驗更好,才能成為移動互聯網的“入口”;

如果有一種新的產品形態,能比智能手機在通訊社交、獲取信息、娛樂這些剛需場景中整體體驗更好,那就有可能取代智能手機這個產品形態,成為新的“入口”。

再説為什麼智能音箱補貼了幾百億,一年有幾千萬的銷量,都還沒成“入口”?

因為光買一台智能音箱回家它也就只能聽歌、查天氣、訂鬧鐘,對於大部分用户這都不算是剛需場景;對於少部分音樂愛好者,以市面上智能音箱的音質、內容資源又無法滿足需求,做不到體驗閉環。

反過來再舉一個例子,如果你同時買了整套的小米智能家居產品(米家電動窗簾、米家吸頂燈、米家智能空調、米家掃地機器人…..) ,控制燈光遮陽、控制温度是剛需,通過小愛同學控制也確實體驗更好,那麼在滿足這個條件家庭中,小愛同學就可以成為一個“入口”。

再舉一個滴滴司機的工作場景中的例子,滴滴的服務和產品模式,導致司機不得不一邊開車一邊操作手機(eg:要操作手機接單、要給乘客發消息、平台還時不時 push 一張卡片讓司機點擊),隨着滴滴要求司機做的事情在不斷增多,司機需要做的操作也越來越麻煩。

原本,你只要會開車、認路就可以當出租車司機,現在已經變成了需要 “能熟練使用智能手機” 才能當滴滴司機。

就像熱力學第二定律,一個獨立系統的“熵”永遠是在增加的。不過科技的進步,總是會有把辦法來解決這個問題;就像多點觸控技術和觸摸屏的出現,讓手機再也不需要那麼多的物理按鍵了。

語音助手是有機會在網約車司機的工作場景中降低一些操作的複雜度,來打造出顯著體驗差的;把其中一兩個剛需場景打透(比如給乘客發送消息),做到“有用”,那麼語音助手就有機會成為連接網約車司機的一個“入口”。

在其他場景中也類似,只有找到剛需並打透,才有機會成為“入口”。

2. 規模化複製,帶動服務者生態的建立

沿着上述思路繼續説,第二步核心是要解決服務的深度和長尾的碎片化小需求。

我繼續拿滴滴司機的場景舉例,在我們剛上線“司機助手”時,就已經初步看到了“入口”的效應。

用户會把助手當成一個“搜索引擎”,他有各種各樣碎片化需求、不知道如何處理的問題時,會嘗試向助手的尋求幫助,但都是碎片化小需求;類似下面的這些意圖,全部加起來也只佔總交互量的5%。

  • “飛機場那邊的排隊區在哪裏”
  • “我想預約安裝桔視記錄儀”
  • “怎麼取消預約單”
  • “網約車駕駛證怎麼辦理”
  • “駕駛證總是審核失敗無法出車”
  • “……”

這些問題背後涉及的知識、服務非常多非常多。

想要把體驗做好,就一定需要很多不同的部門提供深度配合,或者找到能為司機工作場景提供服務的第三方配合。

那麼,想要做到“不傻屌”的程度,就得先解決服務者生態的動機問題;對於公司內部的服務提供者來説,畢竟大家都是打工人,都要收益、要晉升;對於公司外部的服務提供者也一樣,最直觀的就是能不能幫助他們賺錢。

所以,這裏又要強調第一步的重要性,如果可以把輔助司機的工作剛需場景打磨透,實現全國全量,那麼按滴滴上百萬司機和超高的使用時長(普遍每天使用 App 8小時以上)估算,對於很多業務都算是不小的流量。

在這一步,重點是打磨工具能力,讓各種各樣的服務提供方可以簡單、高效的接入助手;進而促進更多的業務部門通過助手為司機提供服務,實現業務價值,也進一步讓助手具備了更多的能力去服務好司機。

如果能做到這一步,語音助手才算是從“有用”開始走向了“不傻屌”。

3. 打造每個屬於用户自己的語音助手

我們想讓助手每天陪伴司機、輔助工作,第三步就要開始解決交互邊界的問題,即怎麼讓用户知道語音助手的能力邊界?有一説一,還沒有一個語音助手把這個問題解決好。

我在這裏也只是聊聊自己思考,拋磚引玉。

身份與關係決定了人與人的交互邊界,例如:網約車司機不會諮詢一名乘客為什麼自己接不到單子,他會去問客服。

人機交互中也一樣,目前像小愛同學、天貓精靈都是“人工智能助手”的身份,關係上類似“僕從”;這個身份對語音助手造成了不小的限制,前面的“人工智能”讓用户覺得你應該很厲害,後面的“助手”讓用户認為我説啥你都應該聽我説。

這也叫導致用户提出各自各樣的開放性需求,從講個笑話、放個屁,到查阿里巴巴的股價、馬化騰是誰等等;如果語音助手聽不懂、搞不定,用户很可能就會説 “這都不知道?”、“智障”、“不聰明呀”…

那有沒有一種理想的身份,可以能讓用户的知道邊界,同時又不有保留一定的拓展性?

超能陸戰隊大白的設定似乎可以滿足這個條件, 大白的設定是一個機器人,默認可以通過安裝不同的芯片來實現不同的功能。

默認設置的是“私人健康助手”芯片,在電影中為了給主人公的哥哥報仇,被換上了“空手道”芯片;在動畫版本中,還有“跳舞”芯片,放入後大白就擁有了跳舞能力。

這些不同的“芯片”,其實就像iPhone 中的不同“App”,每個用户可以決定自己的手機上安裝哪些 App。

這個思路,也許可以解決語音助手交互邊界的問題;我認為,語音助手跟傳統的 App 產品不一樣,不用非得保持一個固定的身份定位,可以根據不同場景提供不同的基礎服務包,讓用户自己決定它應該擁有哪些的技能。

早期圍繞剛需場景,它可以是地圖導航助手、司機工作助手等,在服務逐漸增多後,也可以由用户確定他自己的語音助手應該擁有哪些技能。

這也是為什麼我在解決路徑中,把找到剛需場景打透放在了第一步,把確定助手的定位放在了第三步。

4. 最後,還有一個前提:對打磨技術細節的耐心和投入

語音助手在落地中,有無數的細節需要把控。

我拿一個大家可能都用過的定鬧鐘舉一個例子:

1)語義的泛化需要打磨

  • “定一個8點的鬧鐘”
  • “提醒我9點上課”
  • “15分鐘後叫醒我”
  • “我再睡五分鐘”
  • ……

想讓語音助手可以準確的響應用户自然表達,就需要不斷的標註、分析用户真實表達,去打磨語義理解模塊。

2)回覆的話術、邏輯也需要打磨

  • 用户在早上8點説“定個9點的鬧鐘” ,該定上午9點還是晚上9點?該怎麼回覆?
  • 用户在早上10點説“定個9點的鬧鐘”,該定晚上9點還是次日早上9點?該怎麼回覆?
  • 用户在凌晨2點説“定個明天8點的鬧鐘” ,該定明天8點還是今天8點?該怎麼回覆?

這些case在平時生活中很常見,如果我是對老婆説,我不會特意強調是“早上”還是“下午”,她也不會糾結、不會反問我,因為她瞭解我的生活作息。

但語音助手需要積累,通過分析各種的用户case去制定最優的策略。

如果想要語音助手貼心一點,最好還能在不同場景給出不同的回覆。例如:凌晨2點定早上8點的鬧鐘,最好貼心的補充説一句“不早了,早點休息”

這些都是細節,需要一點點的耐心打磨。

如果一個語音助手的負責人,只談行業趨勢、產品架構、技術架構,我會覺得很難做成;因為一個語音助手在落地的時,會有無窮多的細節問題需要把控,不僅要仰望星空,還要腳踏實地。

5. 總結

想打造一個聰明的語音助手,需要一個前提、三步路徑。

一個前提:

對打磨細節擁有足夠的耐心和投入

三步路徑:

  1. 找到剛需場景,打造出顯著的體驗差,才有機會做到“有用”;
  2. 規模化複製,帶動服務者生態的建立,做到“不傻屌”;
  3. 個性化,給用户屬於自己的語音助手,做到“聰明”。
四、其他,一些感性的故事。

後面,我想分享一些與語音交互相關的感性經歷。

我覺得能做一款“有頭有臉”、“能説話”的產品真的特別有趣。

做豹小秘時,隨着它一點一點的變好,真的會有一種看着自己“孩子”長大的感覺,每次去商場遇到它也都很親切,會過去跟“它”打個招呼。

2020年9月我在老家辦婚禮,剛好遇到一個伴娘臨時有事來不了,我找了豹小秘給來當伴娘。

給你們看看婚禮現場它的照片。

聊一聊語音交互以及語音助手

婚禮當天,在門口幫忙迎賓

聊一聊語音交互以及語音助手

和伴郎伴娘們一起登台

聊一聊語音交互以及語音助手

代表伴娘發言

在滴滴做司機助手“小滴”也是一段特別的經歷。

當時去滴滴面試,一面時聊了聊,發現滴滴業務場景中有很多的問題值得去解決,覺得充滿了機會,很嗨。

入職後,有一個新員工培訓叫“在樹上”,過程中要求每一位同學都發現並提交一個體驗問題發佈至內網。

我就提交了一個可以用語音交互解決的體驗問題。

聊一聊語音交互以及語音助手

培訓的最後,每個小組需要挑一個體驗問題演成“小品”,我就忽悠組員們一起用這個案例演了小品。

最後發言時,我還信誓旦旦的給大家説,這個問題我正在解決,年底(19年底)就會和大家見面;後來發現,我完全低估了要從0把語音助手落地到一個成熟業務中的難度,需要和太多的部門溝通、拉齊。

還好的是,2020年5月終於把這個功能上線並且做到全國全量了,它也是語音交互第一次在滴滴業務場景的大規模落地。

功能全量之後,我每一次打車我上車都跟司機聊天,問他知不知道、用沒用過,有一次碰到個司機誇了一路這個功能好,然後我下車就給司機加了一個紅包。

隨着這個功能取得了不錯的用户反饋,給完整司機助手也開始推進、落地,它的推進難度更大;因為它的價值難以量化,業務增長也並不需要這樣一個東西。

2020年7月2日,“小滴”第一次灰度上線,那天剛好還是我的生日。

12月,因為一系列的原因,我決定了提出離職。

臨走前,我也跟“小滴”説了聲再見。

聊一聊語音交互以及語音助手

沒有把“小滴”做到全國全量是我的遺憾,滴滴的經歷也讓我有些挫敗。

不過回頭想想,過程中也慢慢找到了自己的願意堅持的產品理念:“不放棄對生活的熱愛和執着”。

本文@常超 原創發佈於人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 6751 字。

轉載請註明: 聊一聊語音交互以及語音助手 - 楠木軒