這家被收購的3人小團隊 完成了百度“喚醒萬物”的第一步
DuerOS的核心是喚醒萬物,而人機交互的第一步則是喚醒詞,可以説KITT.AI這個由3位高材生組成的明星團隊完成了百度喚醒萬物的第一步。
智東西 文 | 寓楊
7月5日,百度重磅發佈了DuerOS語音交互平台、Apollo自動駕駛平台,成為百度AI的兩大核心落地平台。而在這天,百度還宣佈收購一家專注喚醒和自然語言處理的AI創企——KITT.AI,與其“喚醒萬物”的使命不謀而合。
隨着“All in AI”和“從連接信息到喚醒萬物”,百度的市值在7月份一個月就漲了約120億美元,截止到北京時間8月2日,百度總市值已達782.30億美元,彷彿突破千億大關已在不遠處。從移動互聯的服務和應用到AI時代的底層技術,百度也在實現自身的轉變,而無疑這種轉變是被市場和資本所看好的。
一、度秘的新成員——KITT.AI
熱詞識別是一款快速訓練喚醒詞的產品,開發者通過軟件平台Snowboy為硬件設備添加喚醒詞功能,如亞馬遜Echo的“Alexa”,叮咚音箱的“叮咚叮咚”。對話系統 ChatFlow帶有基於其自身NLP(Natural Language Processing,自然語言處理)技術打造的自然語言理解引擎NLU(Natural Language Understanding),是一款給開發者用來開發對話系統的工具,幫助開發者解決基於上下文的多輪對話問題。
KITT.AI最初是作為艾倫人工智能研究所(AllenInstitute for Artificial Intelligence,簡稱AI2)的一個內部孵化項目於2014年9月誕生,但在2015年底才真正轉做“熱詞”(即喚醒詞)和對話引擎,相關產品也打磨了近一年半。目前,其熱詞技術可達到95%~98%的喚醒率。
它曾拿到了微軟聯合創始人Paul Allen和亞馬遜Alexa等5家機構的投資,併入選了CB Insights人工智能創業一百強。令人吃驚的是,這樣一個明星團隊,到目前為止仍只有3名員工。
被百度收購後,KITT.AI保留原有品牌和產品,作為一個獨立團隊加入度秘事業部,並將繼續在西雅圖發展。
目前,KITT.AI的熱詞識別正在接入DuerOS,度秘下面的很多產品都會使用其熱詞技術。據姚旭晨透露,熱詞識別連同其對話系統ChatFlow(NLP技術)都將在今年內接入到DuerOS中,但具體收費情況還未確定。
二、喚醒萬物先從“喚醒”説起
還記得KITT.AI聯合創始人兼CTO陳果果在今年百度AI開發者大會上的展示嗎?即通過Snowboy平台快速訓練一個喚醒詞,這正是KITT.AI的熱詞識別,也是DuerOS平台賦能人機交互體驗的關鍵一環。
具體來講,熱詞識別的原理是:使用者念出的三遍喚醒詞會形成3個音頻文件傳輸到雲端,這是一個端到端的深度學習分類器,它會對該文件進行音頻建模,建立一個只針對這三個音頻的分類器。它可以從能量、音調等方面提取參數進而構成特徵,下次使用喚醒詞時,這個分類器就會判斷是否與這三個音頻的特徵相近,來決定是否喚醒。據姚旭晨介紹,KITT.AI的熱詞識別用到了幾十萬到上百萬的特徵提取。
喚醒設備很重要,但如何減少誤喚醒同樣重要。姚旭晨談到,誤喚醒的因素也很多,跟噪聲、能量也有關。比如一些與喚醒詞相似的音節,小魚在家機器人曾用《小魚兒與花無缺》這部電視劇進行測試,發現劇中很多“小魚兒”的詞語有時會帶來誤喚醒。
此外,他也談到,毫無相關的一些聲音有時也能夠引發設備的誤喚醒。原因在於機器並不像人一樣有語境,它只能從眾多特徵參數中去判斷,可能你的一個爆破音會導致分類器的每個權重都很大,進而造成誤喚醒。
放眼當下火熱的智能音箱,噪音環境下的喚醒和誤喚醒仍然是各家亟待解決的問題。打磨好技術,做到高準確性、高容錯,才能獲得更好的用户體驗。
三、自然語言處理進展到底如何?
近期,關於智能音箱的“智商”問題一直被大家吐槽,而智商背後的關鍵就在於NLP。儘管BAT等互聯網公司擁有海量的數據資源,能夠將語音識別做到97%以上,但在NLP上進展卻並不明顯,各家的語音助手仍被吐槽。
那麼NLP在語音應用上到底進展如何呢?姚旭晨談到,“凡事無法衡量的東西,都是難以改進的”,像語音識別和圖像識別很容易measure(衡量),語音識別看看錯別字就可以衡量識別率。但是自然語言不是,它是一種開放式的問題,你問它一句話,它可能有100種回答,所以你很難測量這個表現的結果。如果不能測量這個表現,則很難對其進行優化。
NLP是人工智能裏最難的問題之一,在人機交互裏,機器距離聽懂人話還有很遠的距離。以智能音箱中的多輪對話為例,目前通用語的多輪對話還難以實現,更多的是特定任務中的多輪對話能力,如打車、叫外賣、定電影票等。
目前NLP還沒有太大的突破,它要像人一樣會思考、會推理,還有很長的路要走。所以NLP在智能音箱、兒童玩具中做一個簡單方便的小助手尚可,但其他的應用還難以做到。這另一方面也説明了,為什麼當下的智能音箱大多是“one shot”(一次喚醒一次問答)模式。
四、從收購KITT.AI看百度的語音佈局
百度在語音識別和內容服務方面已有很多資源,此舉收購KITT.AI,正是看中其在語音喚醒和自然語言處理上的優勢,從而在“聽懂”上更具優勢,完善整個語音生態。
KITT.AI在被收購前就已經有近2萬名免費開發者,還有來自四個大洲的許多付費客户,並且其公司在今年4、5月份已實現盈利。
在談及選擇百度的原因時,姚旭晨談到,確實有許多公司想要收購KITT.AI,之所以選擇百度,核心原因在於KITT本身的定位就在於平台,即成為一家成功的SaaS (Software as a Service,軟件即服務)公司,而百度可以給他們提供一個更大的平台,更多的開發者。此外,百度對技術更加認可,並且也給予其團隊很大的自由度,同意團隊在西雅圖獨立發展。
百度需要喚醒和自然語言技術,來強化底層技術根基,而KITT.AI也需要更大的平台,二者可以説是一拍即合。
除了DuerOS和Apollo兩大平台產品以及語音領域的KITT.AI外,今年百度還在2月份收購人工智能創企渡鴉科技,4月份收購硅谷專注於機器視覺的AI公司xPerception。在百度內部,搜索部門為AI提供知識庫和文本的解決方案,地圖團隊為自動駕駛提供導航,百度雲提供基礎設施,百度醫療大腦提供人工智能診斷,可以説百度的“All in AI” 絕不是一句空話。
結語:語音——人機交互的未來
然而,姚旭晨也坦言,自然語言處理尚未實現突破性進展。如何讓機器聽懂人類、理解人類,仍會是我們很長一段時間內面臨的難題。