AI語音取代屏幕觸控難在哪？對話式AI瓶頸、解決方案速覽

2021-03-30由諸葛寒香發佈於科技

智東西（公眾號：zhidxcom）

編譯 | 高歌

編輯 | 雲鵬

智東西3月30日消息，昨天，EE Times介紹了對話式人工智能（AI）目前的瓶頸與相關廠商的解決方案。

當前，雲端語音處理成本較高，存在可能泄露用户隱私、可靠性不足、延遲較高等問題。而對話式AI的高功耗，技術多樣、難以集成更是阻礙了技術發展。

加拿大語音邊緣AI平台PicoVoice、美國AI芯片初創公司Syntiant和音頻方案供應商Knowles針對不同角度，各自給出瞭解決方案。

一、便捷性與低成本推動對話式AI進入邊緣

當前，語音控制和語音接口已經開始應用於消費電子設備邊緣，而語音識別算法和AI芯片的進步，可能將進一步推動對話式人工智能（AI）應用於功耗、成本更低的設備中，比如智能家居、可穿戴、可聽設備等。

從用户角度來看，便捷性和成本是推動語音技術發展最主要的兩個因素。

加拿大語音邊緣AI平台PicoVoice的首席執行官Alireza Kenarsari-Anhari稱，便捷性是目前語音控制的主要驅動力之一。

Alireza Kenarsari-Anhari（來源：PicoVoice）

他如此描述語音控制的未來：“想像一下，想要喝咖啡時，您會從辦公桌上通過語音控制屋裏的咖啡機，或者拿着一籃濕衣服向滾筒式洗衣機下達命令。”

由於智能家居可能會一直與家用Wi-Fi相連，在雲端運行語音算法看上去可能會更簡單一些。但是Kenarsari-Anhari則認為雲端處理語音數據有很多問題。

首先，如果用户的語音數據都在雲端處理，那麼消費者的隱私就有可能遭到泄露。

可靠性也是一個需要考慮的問題，Kenarsari-Anhari認為，如果Wi-Fi網絡產生波動、斷開，洗衣機等設備需要能夠繼續運行。

某些情況下，低延遲也是一個重要的指標。在遊戲、互動等環節中，邊緣語音處理將更好的避免網絡波動帶來的延遲。

除此之外，成本也是語音邊緣處理的一個主要因素。目前，雲端處理語音數據需要花費一定的資金，而每次都要對雲端付費的業務模型並不適用於家用電器和消費電子產品，因為這些產品的語音需求較低，並且每天會使用多次。

以聲控咖啡機為例，使用公共雲服務的聲控咖啡機如果每天使用10次，則每台設備每年將產生15美元左右的費用，而如果使用咖啡機CPU上的現有資源就可以避免這些費用。

目前PicoVoice的AI語音、文本推理引擎的目標是在低於1美元的微處理器（MCU）上應用，實現更多低成本設備的語音控制，應用範圍將包括可穿戴設備與可聽設備。

Kenarsari-Anhari稱，基於MCU的語音解決方案將同時兼顧設備中電源和成本的優化，在工業、安全和醫療等領域中創造更大的價值。

最近PicoVoice推出了Shepherd無代碼平台，通過搭配PicoVoice Console模型創建軟件，用户可以在MCU上構建語音應用算法。目前Shepherd支持意法半導體和恩智浦的Arm Cortex-M微處理器以及一些其他型號設備。

Kenarsari-Anhari對記者稱，語音是一種開發界面，就和現在不用編碼即可構建GUI或網站一樣，未來語音界面也可以做到類似的事情。雖然現在PicoVoice的開發人員在構建相關原型並快速迭代，但Kenarsari-Anhari希望能夠讓普通用户也能構建模型，讓每個人都可以擁有一個自己的專屬語音助手。

這需要普通人也能夠在沒有專業軟件的情況下，開發自然語言處理模型，難度較高。Kenarsari-Anhari對此回應：“當然可以（做到），蘋果、亞馬遜、谷歌和微軟都已經實現了這一目標，關鍵在於企業是否擁有足夠的資源，能夠圍繞該目標花費數年的努力。”

二、AI芯片助力語音界面化

並非只有Kenarsari-Anhari看到了語音界面化的未來，美國AI芯片初創公司Syntiant的首席執行官Kurt Busch也在採訪中稱，語音將成為下一代技術用户的首選界面。

Kurt Busch通過他最小的孩子描述了這一未來。他最小的孩子因為年紀太小，可以閲讀卻無法寫作，藉助智能手機的語音功能卻實現了與朋友互發短信。

Kurt Busch （來源: Syntiant）

這一功能將孩子們互發短信的時間提前了數年。Kurt Busch稱，隨着時間流逝，語音、對話將會成為更年輕一代的默認界面。

他將語音比作“未來的觸摸屏”，而設備中的語音處理功能也將從PC、筆記本電腦等轉向智能家居。

Syntiant公司主要生產用於對話式AI的AI芯片，可在處理低功耗、低成本消費電子設備上使用。

迄今為止，這家初創公司已經在全球範圍內售出了超過1千萬顆芯片，其中大部分應用於手機中，提供一直在線的關鍵字檢測。

Syntiant的最新芯片NDP120可以識別諸如“ OK Google”之類的熱門單詞，在280µW以下的功率激活谷歌助手。

Kurt Busch認為對話式AI將是一種每個人都可以使用的連接、訪問技術，可以讓更多人獲得更好的生活。

他強調，當前世界上有30億人每天的生活費僅為2美元，佔到世界人口的近1/3，這些人大部分沒有互聯網訪問權限，沒有受過教育，不會寫字、閲讀，語音界面化對他們來説意義重大。

在這種情況下，很多發展中國家已經對對話式AI產生了很大的興趣。

三、Knowles解決語音控制碎片化難題

雖然語音技術的發展潛力很大，但是在高速發展下，對話式AI市場可能會變得碎片化。

音頻方案供應商Knowles高級總監Vikram Shirastava提到，由於多種語音識別引擎的出現，對話式AI市場將會比較分散。集成於SoC或MCU、操作系統不同、聲學環境差異等都將造成語音解決方案的不同。

Vikram Shrivastava（來源：Knowles）

他認為，如果想要解決語音集成問題，必須找到每個垂直領域的共同點。據他介紹，Knowles有一套基於DSP（數字信號處理）的語音控制解決方案，可以引入不同垂直領域的語音控制技術。

該方案通過找出不同語音技術的共同點，比如家用控件、電視條形音響和遙控器可能屬於同一類，之後再針對這一類技術進行優化。

Shirastava稱這種方法為“下一級交鑰匙（one level below turnkey）“，交鑰匙工程是一種商業模式，當一家公司完成設計、建造時，將會把所有權和管理權等”鑰匙“交給另外一方進行運營。據他介紹，Knowles的方案具備交鑰匙工程的擴展性，又增加了一些靈活性。

有時，Knowles也會針對某些領域開發不同的版本，以覆蓋某個垂直領域。其最新版本的AISonic藍牙標準解決方案是一種開發套件，用於在與藍牙連接的設備（例如智能揚聲器、智能家居設備、可穿戴設備和車載語音助手等）中進行語音識別。

該套件基於Knowles的IA8201雙核DSP芯片，專門針對神經網絡處理而設計，其功耗遠低於應用處理器。使用該芯片可以在50mW以下的同時處理單獨的AI模型，同時進行關鍵字點播、源分類、波束形成、聲學回聲消除（AEC）和源方向估計。

IA8201的秘密武器是Tensilica DSP內核上的指令集，該指令集包含近400條用於音頻和AI處理的自定義指令，可以降低時鐘頻率實現降低功耗。

結語：語音界面化阻礙正在被打破

隨着AI技術的不斷進步，對話式AI正在成為解放雙手和提高生產力的關鍵工具。複雜的語音開發環境、雲端處理語音數據成本較高、設備的高功耗、市場碎片化等都是語音界面化的阻礙因素。

而隨着邊緣AI語音平台能夠為開發人員提供更方便的語音開發環境；AI芯片使語音識別更加準確，讓語音控制可以應用於低功耗、低成本的設備中；而通過集成多種語音控制技術，或許可以解決語音市場碎片化的問題。

未來，因為語言的便捷性，語音界面可能將成為未來下一代“觸摸屏”，幫助更多無法閲讀、寫作的人羣享受到科技的便利。

來源：EE Times