AI語音取代螢幕觸控難在哪？對話式AI瓶頸、解決方案速覽

2021-03-30由諸葛寒香釋出於科技

智東西（公眾號：zhidxcom）

編譯 | 高歌

編輯 | 雲鵬

智東西3月30日訊息，昨天，EE Times介紹了對話式人工智慧（AI）目前的瓶頸與相關廠商的解決方案。

當前，雲端語音處理成本較高，存在可能洩露使用者隱私、可靠性不足、延遲較高等問題。而對話式AI的高功耗，技術多樣、難以整合更是阻礙了技術發展。

加拿大語音邊緣AI平臺PicoVoice、美國AI晶片初創公司Syntiant和音訊方案供應商Knowles針對不同角度，各自給出瞭解決方案。

一、便捷性與低成本推動對話式AI進入邊緣

當前，語音控制和語音介面已經開始應用於消費電子裝置邊緣，而語音識別演算法和AI晶片的進步，可能將進一步推動對話式人工智慧（AI）應用於功耗、成本更低的裝置中，比如智慧家居、可穿戴、可聽裝置等。

從使用者角度來看，便捷性和成本是推動語音技術發展最主要的兩個因素。

加拿大語音邊緣AI平臺PicoVoice的執行長Alireza Kenarsari-Anhari稱，便捷性是目前語音控制的主要驅動力之一。

Alireza Kenarsari-Anhari（來源：PicoVoice）

他如此描述語音控制的未來：“想像一下，想要喝咖啡時，您會從辦公桌上透過語音控制屋裡的咖啡機，或者拿著一籃溼衣服向滾筒式洗衣機下達命令。”

由於智慧家居可能會一直與家用Wi-Fi相連，在雲端執行語音演算法看上去可能會更簡單一些。但是Kenarsari-Anhari則認為雲端處理語音資料有很多問題。

首先，如果使用者的語音資料都在雲端處理，那麼消費者的隱私就有可能遭到洩露。

可靠性也是一個需要考慮的問題，Kenarsari-Anhari認為，如果Wi-Fi網路產生波動、斷開，洗衣機等裝置需要能夠繼續執行。

某些情況下，低延遲也是一個重要的指標。在遊戲、互動等環節中，邊緣語音處理將更好的避免網路波動帶來的延遲。

除此之外，成本也是語音邊緣處理的一個主要因素。目前，雲端處理語音資料需要花費一定的資金，而每次都要對雲端付費的業務模型並不適用於家用電器和消費電子產品，因為這些產品的語音需求較低，並且每天會使用多次。

以聲控咖啡機為例，使用公共雲服務的聲控咖啡機如果每天使用10次，則每臺裝置每年將產生15美元左右的費用，而如果使用咖啡機CPU上的現有資源就可以避免這些費用。

目前PicoVoice的AI語音、文字推理引擎的目標是在低於1美元的微處理器（MCU）上應用，實現更多低成本裝置的語音控制，應用範圍將包括可穿戴裝置與可聽裝置。

Kenarsari-Anhari稱，基於MCU的語音解決方案將同時兼顧裝置中電源和成本的最佳化，在工業、安全和醫療等領域中創造更大的價值。

最近PicoVoice推出了Shepherd無程式碼平臺，透過搭配PicoVoice Console模型建立軟體，使用者可以在MCU上構建語音應用演算法。目前Shepherd支援意法半導體和恩智浦的Arm Cortex-M微處理器以及一些其他型號裝置。

Kenarsari-Anhari對記者稱，語音是一種開發介面，就和現在不用編碼即可構建GUI或網站一樣，未來語音介面也可以做到類似的事情。雖然現在PicoVoice的開發人員在構建相關原型並快速迭代，但Kenarsari-Anhari希望能夠讓普通使用者也能構建模型，讓每個人都可以擁有一個自己的專屬語音助手。

這需要普通人也能夠在沒有專業軟體的情況下，開發自然語言處理模型，難度較高。Kenarsari-Anhari對此回應：“當然可以（做到），蘋果、亞馬遜、谷歌和微軟都已經實現了這一目標，關鍵在於企業是否擁有足夠的資源，能夠圍繞該目標花費數年的努力。”

二、AI晶片助力語音介面化

並非只有Kenarsari-Anhari看到了語音介面化的未來，美國AI晶片初創公司Syntiant的執行長Kurt Busch也在採訪中稱，語音將成為下一代技術使用者的首選介面。

Kurt Busch透過他最小的孩子描述了這一未來。他最小的孩子因為年紀太小，可以閱讀卻無法寫作，藉助智慧手機的語音功能卻實現了與朋友互發簡訊。

Kurt Busch （來源: Syntiant）

這一功能將孩子們互發簡訊的時間提前了數年。Kurt Busch稱，隨著時間流逝，語音、對話將會成為更年輕一代的預設介面。

他將語音比作“未來的觸控式螢幕”，而裝置中的語音處理功能也將從PC、膝上型電腦等轉向智慧家居。

Syntiant公司主要生產用於對話式AI的AI晶片，可在處理低功耗、低成本消費電子裝置上使用。

迄今為止，這家初創公司已經在全球範圍內售出了超過1千萬顆晶片，其中大部分應用於手機中，提供一直線上的關鍵字檢測。

Syntiant的最新晶片NDP120可以識別諸如“ OK Google”之類的熱門單詞，在280µW以下的功率啟用谷歌助手。

Kurt Busch認為對話式AI將是一種每個人都可以使用的連線、訪問技術，可以讓更多人獲得更好的生活。

他強調，當前世界上有30億人每天的生活費僅為2美元，佔到世界人口的近1/3，這些人大部分沒有網際網路訪問許可權，沒有受過教育，不會寫字、閱讀，語音介面化對他們來說意義重大。

在這種情況下，很多發展中國家已經對對話式AI產生了很大的興趣。

三、Knowles解決語音控制碎片化難題

雖然語音技術的發展潛力很大，但是在高速發展下，對話式AI市場可能會變得碎片化。

音訊方案供應商Knowles高階總監Vikram Shirastava提到，由於多種語音識別引擎的出現，對話式AI市場將會比較分散。集成於SoC或MCU、作業系統不同、聲學環境差異等都將造成語音解決方案的不同。

Vikram Shrivastava（來源：Knowles）

他認為，如果想要解決語音整合問題，必須找到每個垂直領域的共同點。據他介紹，Knowles有一套基於DSP（數字訊號處理）的語音控制解決方案，可以引入不同垂直領域的語音控制技術。

該方案透過找出不同語音技術的共同點，比如家用控制元件、電視條形音響和遙控器可能屬於同一類，之後再針對這一類技術進行最佳化。

Shirastava稱這種方法為“下一級交鑰匙（one level below turnkey）“，交鑰匙工程是一種商業模式，當一家公司完成設計、建造時，將會把所有權和管理權等”鑰匙“交給另外一方進行運營。據他介紹，Knowles的方案具備交鑰匙工程的擴充套件性，又增加了一些靈活性。

有時，Knowles也會針對某些領域開發不同的版本，以覆蓋某個垂直領域。其最新版本的AISonic藍芽標準解決方案是一種開發套件，用於在與藍芽連線的裝置（例如智慧揚聲器、智慧家居裝置、可穿戴裝置和車載語音助手等）中進行語音識別。

該套件基於Knowles的IA8201雙核DSP晶片，專門針對神經網路處理而設計，其功耗遠低於應用處理器。使用該晶片可以在50mW以下的同時處理單獨的AI模型，同時進行關鍵字點播、源分類、波束形成、聲學回聲消除（AEC）和源方向估計。

IA8201的秘密武器是Tensilica DSP核心上的指令集，該指令集包含近400條用於音訊和AI處理的自定義指令，可以降低時鐘頻率實現降低功耗。

結語：語音介面化阻礙正在被打破

隨著AI技術的不斷進步，對話式AI正在成為解放雙手和提高生產力的關鍵工具。複雜的語音開發環境、雲端處理語音資料成本較高、裝置的高功耗、市場碎片化等都是語音介面化的阻礙因素。

而隨著邊緣AI語音平臺能夠為開發人員提供更方便的語音開發環境；AI晶片使語音識別更加準確，讓語音控制可以應用於低功耗、低成本的裝置中；而透過整合多種語音控制技術，或許可以解決語音市場碎片化的問題。

未來，因為語言的便捷性，語音介面可能將成為未來下一代“觸控式螢幕”，幫助更多無法閱讀、寫作的人群享受到科技的便利。

來源：EE Times