選自:MIT Technology Review
編譯:網易見外智能編譯平台
審校:Ecale
[網易智能訊 8月11日消息]人工智能語音設備不僅僅是一台可以表達觀點的自動唱機,它們很可能成為人機互動的主要方式之一。
Alexa的誕生與技能擴張
2012年8月31日,四名亞馬遜工程師註冊了一項基礎性專利,這項專利的內容日後最終演變成了Alexa。專利涉及了一種人工智能系統,該系統旨在與人類語言,這一世界上最大、最複雜的數據集進行互動。工程師當時只需要使用11個單詞和一個簡單的圖表就能描述它的工作原理。
一個男性用户在一個安靜的房間裏説:“請播放甲殼蟲樂隊的Let It Be。”
一台小型台式電腦回答説:“沒問題。”
然後系統開始播放這首歌曲。
由此開始,家用語音人工智能成為了亞馬遜的一項重要業務,而這一領域也成為亞馬遜與其科技界的競爭對手們較量的重要戰場。谷歌,蘋果、三星和微軟都在這一領域投入了上千名研究人員和商業專家,以期待制造出可以同人類進行交流,且便於使用的強大設備。
直到現在,我們還必須去打字、敲擊或者滑動來解鎖設備和操作。而目前,新的用户界面正在逐漸適應人類,Witlingo公司的首席執行官Ahmed Bouzid説道。該公司製造了各種各樣適用於銀行、大學、法律公司和其他企業的語音驅動應用程序。
對於亞馬遜來説,其最初只是想製造一個自動唱機,但後來這一項目變得越來越大:它變成了一種基於人類數據並且可以不斷學習的人工智能系統。它生產的Echo和體積更小的Dot是無處不在的家庭好幫手,它們可以關燈,講笑話,或者讓你不用手就能知曉天下事。
他們還收集了大量關於用户的數據,這些數據被用來改善設備本身,並增加他們的功能。自2014年上市以來,已經售出了上千萬台的Alexa設備。據第三方機構統計,亞馬遜目前已經佔據了美國人工智能語音設備70%的市場。
(圖:溝通的原則:亞馬遜設備能聽懂的指令越來越多,以下是當你想讓它調整房間燈光亮度時,一些可以奏效或不能奏效的指令,紅色為不能奏效的)
目前,Alexa同超過50種智能照明系統合作,包括飛利浦、通用電氣和宜家等。 2016年,德語版的Alexa誕生,其他非英語語種的Alexa也將陸續誕生。但是,亞馬遜並沒有試圖從可與Alexa相連接設備的製造商那裏獲得收入,這些設備包括智能恆温器、燈泡等。不過,照這樣的趨勢發展,未來亞馬遜與這些公司之間很有可能會簽訂收入共享合同或者是採取其他的支付方式。這三個市場中最小的一個是家庭自動化市場,在這一市場中每年的支出已經超過了50億美元,而去年美國的零售總額為4.9萬億美元。
如今,亞馬遜通過出售這些設備來賺錢,設備的價格從50美元到230美元不等,最高端的Echo show產品帶有視頻屏幕。如果選購這些設備的用户最終在亞馬遜龐大的網上商店中購買了更多的商品,那麼亞馬遜就能再賺上一筆(不過亞馬遜是不會透露這些數據的)。若要讓Echo像智能手機那樣普及,他們還需要更多的努力。為此,亞馬遜鼓勵獨立開發者在其平台上開發新服務,正如蘋果長期以來與所做的那樣。
到目前為止,已經出現了超過15000個這樣的“技能”或應用程序。應用程序構建工具十分易於使用,以至於不具備太多知識的人現在可以在大約一小時內打造出一個簡單的技能。其中最受歡迎的應用是優步和Lyft的叫車服務。而Duds擁有48種不同的技能,可以以狂轟濫炸之勢詆譭它的聽眾。
而那些最具雄心的開發商中包括了製造、銷售與Alexa配合的硬件或服務的公司。例如,Capital One向其銀行客户提供基於Alexa的賬單支付服務。而總部位於多倫多的Ecobee公司是一家智能恆温器製造商,該公司生產的恆温器可以受Alexa控制,用户可以僅僅通過幾個簡單的指令就能夠提高或降低室温。
“我們的客户都很忙,”Ecobee的首席執行官Stuart Lombard説。該公司現在從其與Alexa合作的產品中獲得的銷售額佔總銷售額的40%,這些產品也成為了該公司10年來增長最快的業務。
“為了回家,他們不得不忍受交通擁堵,然後他們還要給孩子們餵飯,換尿布,誰知道還要幹什麼別的。”
“我們讓他們不用雙手就能完成一些工作,這樣他們就可以‘多管齊下’了。”
Google Home也有了數百萬的銷量,蘋果和微軟也在研發他們自己的設備。這些努力的最終回報是有機會可以佔領或至少可以影響三個重要的市場:家庭自動化、家庭娛樂和購物。
雖然可能沒有太多人願意和他們的冰箱交談,但不可否認的是,生活方式在發生巨大改變。正如同智能手機改變了生活的方方面面,語音人工智能設備也在變革着我們的居家生活。為什麼需要從牀上爬起來去鎖門,或者是在大冷天還要去手動開啓車上的暖風呢?Alexa或是它的“親戚”們就能幫你做這些事了。
當話語遇見AI
基於語音的人工智能技術之所以如此吸引消費者,是因為它滿足了人類的要求:它按照人類的交流方式進行交流和思考,而使我們不再需要在鍵盤或屏幕上打字。
但這樣的技術同時也很難打造。人類在説話時完全不考慮規律性。相反,我們打斷自己的話。我們的思維時常反反覆覆。我們還常常莫名其妙地説出一些隻言片語,有時點頭有時搖頭,甚至有時支支吾吾説不出話。對於人類,有時明明是在胡説八道,我們仍相信自己説的話有道理。
數千名亞馬遜員工正在努力應對這一挑戰,這包括在其位於西雅圖、加州森尼維爾和馬薩諸塞州劍橋等地研究中心的研究人員們。即便如此,亞馬遜最近還在為1100個分佈在各個部門的、和Alexa相關的工作崗位進行招聘,其中包括215個機器學習專家職位。在公司位於劍橋的辦公室召開的一次會議上,經過詢問Alexa的首席科學家Rohit Prasad關於為什麼他需要這麼多的人,以及他的研究團隊何時才能完全建成等問題。Prasad回答説:“你的問題在我聽來簡直太好笑了。我已經從事了20年的語音技術研究工作,絕大多數時候,我們取得進展的速度都非常緩慢。然而,在過去的五年裏出現了很多難逢的良機。”
發明一個真正奏效的語音激活式人工智能系統是一個非常複雜且尚未被攻克的難題。在過去,語言科學家們在試圖一次性確定雜亂語句的具體含義時遇到了困難。而現在,新的機器學習方法另覓蹊徑,以期待能解決這一問題:他們在一開始時就着手處理那些不完美的詞語搭配,繼而通過臨時性的猜測快速調整這些搭配。
Prasad表示:“問題的關鍵是具備處理大量用户數據的能力,並可以從之前的錯誤中吸取教訓。隨着Alexa同用户相處的時間增加,它收集到的數據會越來越多,它也隨之變得越來越聰明。伴隨着這些進步,越來越多的機會出現,隨之而來也需要越來越多的人力。”這也就是為什麼需要招聘這麼多人的原因。
“讓我給你舉個例子,”Prasad説,“如果你問‘阿黛爾的第一張專輯是什麼’?答案應該是《19》。如果你説‘播放它’,那麼Alexa就可以獲得足夠多的信息,並開始播放那張專輯。但如果有一些對話式的玩笑夾雜其間會怎麼樣呢?如果你先問一下專輯是哪一年出版的,它賣了多少張,又會發生什麼呢?如果進行了上述對話,最後用一個具有困惑性的‘播放它’結束,那麼早期版本的Alexa可能就會被難住。而現在這項技術可以遵循一種思維方式,這使得它至少在部分時間可以意識到‘播放它’中的‘它’仍然意味着專輯《19》。”
這種改進來自於機器學習技術對於此前數千次類似交流的反思,在這些交流中Alexa被搞糊塗過。系統瞭解了用户真正想聽的是哪首歌曲,以及具體是在之前對話的什麼地方出現了那首歌曲的名字。麻省理工學院口語系統小組的負責人James Glass説:“一開始你需要做一些關於人們如何提要求的假設,然後收集數據,對你的模型進行調整。”Glass表示,這種機器學習方法得到了廣泛的認可,但如果想讓它發揮作用,那需要的數據則遠遠超過了大學研究人員所能掌握的。
隨着Alexa的使用量激增,亞馬遜現在擁有了一個巨大的人機對話數據庫——這讓它在改進語音技術方面擁有了一定的優勢,而谷歌長期以來一直憑藉其文本搜索查詢獲得的數據進行這樣的改進。外部數據也是有幫助的:例如,2016年一個龐大的歌詞數據庫被載入了Alexa中,這可以幫助確保當客户提出想聽“drove my Chevy to the levee” (歌曲《American Pie》中的歌詞)時,系統可以自動播放歌手Don McLean的名曲《American Pie》。
Prasad團隊的一個最新項目凸顯了這一方法的靈活性。這一項目致力於破解用户在何時會重新提及他們之前提過的要求。提示方式可能千差萬別:有些人常説“不,不,不”,但另一些人偏向於使用“停止那個”,也有人喜歡嘗試不同的表達,比如“等一下,實際上,我是想這麼做”。但Alexa不需要解碼所有的話語。大規模的樣本數據和半監督式機器學習使系統能夠勾畫出一組可能的否定性語言標記,之後它可以在這些表達出現變化時,從這組標記中找到一個易於理解的新的請求方式。
除了將Alexa打造成一個更好的聽眾之外,亞馬遜的人工智能專家還在使用大量的數據來讓它成為一個更好的演講者,對機器合成女聲的話語節奏進行調整,以使其可以更好地被使用。傳統的語音合成依靠的是將眾多被記錄下的人類語言片段進行融合。雖然這種技術可以產生一種相當自然的聲音,但它並不能表達竊竊私語、諷刺或其他類型的話語模式,而這些模式在人類交談中會被使用到。為了繼續加強Alexa對於從活潑的對話到深沉的朗誦等不同類型話語的把控能力,亞馬遜的機器學習算法採取了不同以往的方法去訓練Alexa,使其能夠掌握或急切或焦慮等聽起來很逼真的聲音,那聽起來就像是專業的播音員發出的。
據悉,亞馬遜擁有自己的有聲讀物出版機構Audible,這對這項研究有所幫助。
如何幫助更多人
語音人工智能技術最熱情的使用者是那些無法輕易在手機或平板電腦上打字的人。據外媒報道,費城的Inglis公司為殘疾人提供住房和其他服務,其首席執行官Gavin Kerr在8個居民住宅中安裝了亞馬遜Echo和Dot設備。他希望在先期試點測試完成後,最終可以為所有300座住宅全部配備這樣的設備。“這對當地居民來説是一個難以置信的好消息,”Kerr説,“他們會過得更舒服。因為這使得他們可以‘獨立’”。
據悉,Kerr公司的服務對象是數百名患有多發性硬化症或其他身體衰弱狀況的人。對於那些卧牀不起或坐着輪椅的人來説,夠不到牆上的温度控制器是非常痛苦的。“他們因為身體問題,很難調節室內室温,”Kerr解釋道。“而72華氏度的房間對他們來説可能一會覺得熱,一會覺得冷”。由於行動障礙,他們很難讓室温保持舒適,特別是在沒有全天候護理人員的情況下。
在對Alexa進行一些小改動後,它就可以為那些語言功能嚴重受限的人羣提供服務了。Kerr提到了一個快四十歲男人的故事,這名男士想要離開長期護理機構,重返日常生活。Kerr回憶道:“他告訴我們,我永遠都無法説出Alexa的指令。”於是我們問他:“你能説什麼呢?然後我們重新修改了軟件,這樣Alexa就可以根據他的情況工作了。現在當他想打開廚房燈時,他可以説‘媽媽’,當他想打開浴室燈時,他可以説‘約翰’。”
儘管Inglis公司為新的Echo用户提供了四個小時的培訓,但通常是靠新用户是自己探索發現的。將新的Echo從包裝盒裏拿出來,包裝上會特別説明一些常見的功能,比如播放音樂、設置鬧鐘或更新購物清單。對產品有良好了解的用户可以通過他們筆記本或智能手機進入Alexa的控制界面,以修改設置,尋找新的應用程序,或者瞭解如何讓一款應用最好地發揮作用。
六月,在一篇閲讀量很高的博客中,微軟的產品經理Darren Austin寫道,Alexa取得的更大的成功在於它能夠緩解過於忙碌的生活帶來的壓力,它是一個可以隨時幫助你的好伴侶。他説:“通過簡單的提問,Alexa可以解決因為不確定性而帶來的負面情緒和人們對遺忘的恐懼。”他説用户們喜歡隨時給Alexa出一些難題,或者將自己的願望告訴它,而它就是一個隨時都可以跟你互動的好夥伴。
Alexa的總經理Rob Pulciani通常會每週或更頻繁地查看關於Alexa和Dot用户最常用語言的總體數據統計。通常情況下,這一列表的頂部是對於音樂、新聞、天氣、交通和遊戲的請求。然而,今年春天,列表上卻出現了一個新晉“熱詞”。這個熱門短語就是“Alexa,幫我放鬆一下。”
當用户發出這個請求時,他們會聽到一系列令人情緒舒緩的聲音:小鳥唧唧喳喳地叫着,遠處的海浪衝擊着海岸,或是貨運列車隆隆地穿過黑夜。如果用户要求,這樣的聲音可以持續播放幾個小時。當這些應用程序在2015年第一次出現在Alexa的平台上時,Pulciani覺得這只是小眾人羣的“怪癖好”。但這些應用很快就獲得了大批追隨者,壓力纏身的成年人會聽着這些聲音入睡。父母們會把它們變成搖籃曲的替代品。
當Pulciani發現這一點之後,他和他的同事們在幾周內對Alexa的內部結構進行了調整,以使新的Echo買家可以迅速發現這些撫慰人心的聲音,在他們要求系統推薦新技能以供嘗試時,這一功能會被推薦給他們。
下一個目標:持續性對話
在研究中,谷歌、蘋果、微軟和亞馬遜的人工智能平台顯示出了不同的優勢。其中,谷歌助理在大範圍搜索指令上表現最出色。而蘋果的Siri和微軟的Cortana在其他一些方面天賦異稟。但在購物指令方面,Alexa表現最佳。
具備與用户進行一場合理的、持續多分鐘的對話將會是語音人工智能技術的終極目標。這樣宏偉目標的實現要求機器具備非常強的意圖識別能力,即便是説話人沒有提出明確的要求。如果一個人説“我幾周沒去健身房了”,那他的朋友可能會猜出來他想要談談自己面對的壓力或者是與自尊心相關的話題。對於人工智能軟件來説,這一關卻很難過。對於話題的突然轉換,或者隱晦的暗示,人工智能也很難理解。
為了加強其與新一代人工智能和語音技術研究人員的聯繫,亞馬遜在一年前邀請了世界各地十幾所大學工程專業的學生,讓他們製造能進行20分鐘對話的語音機器人。在今年11月截止之前,取得最大進展的學校將獲得50萬美元的獎金。
研究人員在用一個週末的時間測試了6個這樣的機器人,對他們提出各種問題,包括簡單的請求和較為複雜的開放式觀點陳述,而後者可能會有很多種回覆方式。
一個機器人問:“你最近看了什麼電影嗎?”這是個良好的開局。
“是的,”研究人員回答,“我們看了《隱藏人物》。”
對於這部講述NASA早年曆史,風格深刻而辛辣的電影,機器人並沒有做出與報刊影評類似的評論。相反,這個社交機器人回覆説:“我覺得《隱藏人物》對數學問題的處理上沒有太多説服力。”
這可不是研究人員對這部電影的觀點,但對一個人工智能程序來説,這樣的回應似乎很可愛,也很合理。之後的交談很快結束了,但至少人機之間擁有了一個短暫而美好的瞬間。可惜的是,其他機器人都無法做到這一點。最令人困惑的一個回答是“你喜歡吃路邊攤嗎?”而研究人員想跟他談的話題和網站有關。但當人類可能是説到了機器人的侷限性時,這一話題似乎有點尖鋭,卻得到了驢唇不對把嘴地反問“你們能進行集體協商嗎?”
幾天後,當研究人員向亞馬遜公司的Prasad詢問他對社交機器人的看法時,他卻表示並不為智能機器人早期的挫折而感到失望。“這是一個非常重要的領域,”Prasad告訴我。“而在這些領域Alexa可以繼續提升,變得更智能。”
但這比下圍棋或象棋要難多了。因為在這些遊戲中,即使有很多可能的動作,但你知道遊戲最終的目標是什麼。而在對話中,你可能甚至都不知道對方想要達到什麼目的。當Alexa最終能夠解決這個問題時,我們就能實現真正的交流了。
以下為網友評論:
網友“ESO搬磚工程師”:這才是科技公司應有的樣子
網友“火星你妹啊”:亞馬遜那個界面是真遜