「技術闢謠」Facebook機器人發明語言系誤讀 專家訪談還原真相
1新智元報道
最近 Facebook 的一個 AI 項目火了,而且火得不要太好——稍微上網一搜就能看到:
AI 機器人發展出自己的語言,Facebook 的工程師們慌了
Facebook AI 發明出人類不能理解的語言,擔心失控項目已被關閉
難道我們人類造出了一個怪物?
還有一家英國小報引用一位機器人學教授的話,説這一事件表明,如果類似的技術被用於軍事機器人,將“非常危險,並且可能是致命的”。
更多的新聞延伸到未來的機器人革命、殺人機器人、惡意的人工智能,各種各樣的有關人類滅絕的想象。所有這些,無不引用 Facebook 兩個聊天機器人這樣一段對話:
Bob:I can i i everything else ..............
Alice:balls have zero to me to me to me to me to me to me to me to me to
Bob:you i everything else .............
Alice:balls have a ball to me to me to me to me to me to me to me to me
有圖有“真相”:
看上去恐怖嗎?
一篇報道引發的慘案:AI 發明了自己的語言??
這一切的起因是,上月中,FastCo Design 網站針對 Facebook 利用“生成對抗網絡”開發對話談判軟件的努力做了一篇報道。這篇報道引用的兩個 bot,其設計的目的是證明:“具有不同目標(端到端訓練神經網絡實現)的對話智能體,能夠從頭到尾地與其他 bot 或人類進行談判,並達成一個共同的決策或結果”。
兩個 bot 針對給定的話題(例如書籍,帽子,球,都是一些無害的物體),討論如何分割成雙方都同意的部分,除此以外並不做其他事情。
這樣做的目的,是開發一個可以從人類的互動中學會談判交易的聊天機器人,它能夠非常流暢地進行對話,終端用户甚至不會意識到他們在與機器人對話。
就這麼簡單。
然而,FASTCO 的報道寫道,“FAIR 的談判智能體利用強化學習和對話推演(dialog rollouts),表現與人類談判相當……這證明 FAIR 的 bot 不僅能講英語,並且對要講什麼也是有過思考的。”
更要命的是,文章引用了專業人士的評價——“智能體會脱離人類可以理解的語言,發明自己的代碼語言。”那篇文章引用 FAIR 訪問研究員 Dhruv Batra 的話説,“就好比我説 5 遍 ‘the’ 這個單詞,你會理解為我想要 5 個這個東西。這與人類發明簡略表達的方式並沒有太大不同。”
於是事情一發不可收拾。
Facebook 研究人員親自闢謠:我根本不是那個意思
在繼續討論前,我們先來看 FAIR 訪問研究員 Dhruv Batra 自己的澄清。
Dhruv Batra 是 FAIR 研究員,也是對話模型那篇論文作者之一,他在自己的 Facebook 主頁回應道:
我剛從 CVPR 回來,就發現我的 FB/Twitter 的時間流充滿了這些説 Facebook 的研究員開發的 AI 智能體發展出自己的語言,描述各種世界末日景象的文章。
我不想針對某篇具體的報道,或者對某個斷章取義的引用提出具體的回應,但我認為這樣的報道只是為了賺眼球,非常不負責任。
AI 智能體發展出自己的語言這種説法可能令人震驚,或讓這個領域之外的人感到意外,但這是發展了很多年的 AI 的一個子領域,相關研究文獻可以追溯到幾十年前。
簡單地説,環境中的智能體試圖解決一個任務時,通常會找到一種方式來最大限度地提高回報(reward)。分析這個回報函數並改變實驗中的參數,與“關閉 AI 項目”完全不是一回事!如果這能一樣的話,每個 AI 研究者在停止某個機器的工作時都在“關閉AI項目”。
Batra 希望大家都閲讀一下他們的研究論文或者 FAIR 博客上的介紹文章,並閲讀各個研究團體有關多智能體語言出現的文獻。
業內討論:參數沒調好,對話跑崩了
用户“蔡曦”結合報道中提到的 Facebook 論文《Deal or No Deal?End-to-End Learning for Negotiation Dialogues》,做了比較詳細的分析。
論文的大致流程是,用人類的對話作為數據集,訓練一個端到端的模型,模仿人類進行物物交換的談判對話,例如:
論文用 5808 組人類對話作為訓練集,526 組對話作為測試集,分別用兩種不同的模型(Likelihood Model 和 Goal-based Model)和不同的訓練方法(一種是用 RNN 作簡單的監督學習,另一種是用監督學習先作預訓練,再用強化學習來微調模型),在 PyTorch 上跑對話模型。
結果是,直接用簡單的相似度導向(Likelihood-based)的監督學習產生的對話與人類的語言(英語)最接近。
而運用目的導向策略(Goal-based)的強化學習模型情況下,當更改相關參數後就會產生雜亂無章的對話。注意:這並不代表產生了一種新的語言並且兩個 agent 相互理解,只是基於訓練時輸入的英文單詞的錯誤組合而已!
一位不願透露姓名的業內人士對新智元表示:這就是訓練失誤的模型。做失敗的東西也能拿出來吹,有些媒體的做法確實欠妥。當然,這一波是國外媒體先如此報道的。還是希望這個領域的媒體多些理性,不要看到是 Facebook 或者谷歌的研究就吹。
聚焦研究:論文並沒有關於“AI 發展出自己語言”的表述
再來仔細看 Facebook AI Research 的論文——需要指出,Facebook 研究人員並沒有在論文中表示其 AI 發展出了自己的語言(developed their own language)。
至於“吹不吹”,還是需要在理解的基礎上進行判斷。Facebook AI 這條新聞出來這麼久,還沒有多少新聞在報道時真正聚焦研究本身,這或許也是炒作甚囂塵上的一個原因。
FAIR 進行研究的目的是讓智能體學習談判。
談判既是語言也是推理問題,在談判時你需要有一個意圖,然後在口頭(或文本)上實現。由此進行的對話同時包含了合作和對抗的要素,這就要求 AI 需要了解並制定長期規劃,並生成話語以實現其目標。
FAIR 研究人員在開發這種擁有長期規劃能力的對話 AI 方面進行了一種創新,他們稱之為“dialog rollouts”。
Dialog rollouts 能讓 AI 收到輸入後,推算出(roll out)多種模擬的對話,直到每段對話的結束,然後從中選擇結果最好(也即預期獎勵最大)的對話路線來進行。
下面是示意圖,選擇得分為 9 的最下面那條路線,顯然結果最好(能夠拿到 3 頂帽子)。
實際上,類似的思路也被用於遊戲環境中的規劃問題,但 Facebook 研究人員表示,這種方法此前還從未被用於語言研究,原因是可以選擇的行動數量過於巨大。
為了提高效率,FAIR 研究人員首先生成了一小部分備選的表述(utterance),然後重複模擬未來的整個對話,從而估算這種表述成功的程度。FAIR 開發的這種模型,預測準確率足夠高,從而在好幾個方面極大提升了談判策略:
更努力地談判(Negotiating harder):新的智能體能與人類進行更長時間的對話,不會那麼快就成交。模型會一直談判一直談判,直到達成協議。
有策略地談判(Intelligent maneuvers):在一些案例中,智能體在最開始會對自己不感興趣的東西裝作很感興趣,之後把這些東西放棄,顯得自己做出了妥協——人在談判時也常常使用這種策略。FAIR 研究人員表示,這不是編程實現的,而是 bot 自己觀察後認為這是一種實現目的的好方法。
生成新的句子(Producing novel sentences):神經網絡往往傾向於重複訓練數據中見過的句子,但在這項研究中,模型在必要時生成了新的句子。
從 Facebook 官博上給出的例子(見下),這個談判 AI 開發還是成功的:
AI 用人類不懂的方式溝通非常正常,難的是讓 AI“説人話”
現在,Facebook 確實關閉了這個對話項目,但並不是因為他們對創造出可能不受控制的智能體感到恐慌。在 FastCo 的報道中,FAIR 另一名研究員 Mike Lewis 説,他們決定關閉對話,因為“我們感興趣的是做能夠與人類對話的 bot”,而不是 bot 互相間能夠很有效率地進行對話,“我們要求 bot 相互之間的對話要能夠被人理解”。
但在這個媒體浮誇的時代,新聞報道所做的可能與這些機器人並沒什麼不同,這個故事從關注機器學習技術的短期實現潛力,演變成製造恐慌的末日故事。
實際上,正如 Dhruv Batra 所説,AI 之間“交流”是非常普通的一個現象,只要你把兩個機器學習設備放在一起,並讓它們相互學習,都會出現這樣的現象。值得一提的是,假如 bot 之間簡略的“語言”可以解釋,出來的對話也就能夠理解,並且完全不像之前的那麼可怕。
這類機器學習技術可能讓智能設備或系統更高效地相互交流。如果説這些成果引出一些問題,就是一旦這樣的系統出錯,debug 會非常不容易!但這完全不是説人工智能脱離了人類的控制。
上海交通大學教授、斯坦福 AI Lab 博士後盧策吾在接受新智元採訪時表示,這件事情告訴我們,沒有很 solid 和 novel 的工作,PR 需謹慎,可能對自己和機構都是副作用。研究計算機是否能(非監督地)獨立產生自己的語言,這件事情本身是非常有意義的科學探索,因為這是檢驗計算機是否理解人類高級語義和抽象概念的好方法。
他也建議大家有興趣的話,可以看一下Noam Chomsky 的經典討論,這樣更能把語言產生這件事的高度提高一下。
“這就像一個與世隔絕的部落,AI 獨立產生了自己語言,雖然符號表達和我們不一樣,但是我們一翻譯,發現它們有和我們一樣的高級語義,比如“朋友”,“愛情”等等,我會説他們真的理解這些概念,具有人類的高級智能。”盧策吾告訴新智元。
目前,計算機能識別“貓”,“狗”,“汽車”,但計算機真的理解這個概念嗎?盧策吾認為不一定,更多是像模式識別(pattern recognition)。“例如,有一輛外形奇怪的車,在訓練集合裏沒出現過,計算機馬上就掛了,因為計算機沒有‘什麼是車’這個概念,而是記下一般情況下車的長相。”盧策吾説:“這樣就看出,目前計算機沒有真正全面地理解人類概念,還是比較低級別的 AI。如果計算機真的理解人類概念,其對現實世界的改造威力將會大上好幾個量級。”
盧策吾教授研究組的一個 topic 是讓計算機看大量視頻,然後(非監督地)獨立發明詞彙。目前結果應該説是“非常崩潰的”,計算機只能推斷出一些“顯而易見”的概念。
“我們發現第 1242 號詞彙(pattern)好像是對應‘走’的意思——其實這是很低級別語義,沒什麼意思——更深刻概念就根本抓不到,還在探索中,探索路上經常被打擊。分享一下我們一些比較崩潰的研究經歷,就是想説,計算機獨立發明語言是一件非常艱難的事情。但這是窺探強人工智能的一個好工具,我相信逐步一點點推進還是有可能的。”
參考資料
Facebook 研究人員 Dhruv Batra 的澄清:https://www.facebook.com/dhruv.batra.dbatra/posts/1943791229195215?pnref=story
知乎用户周曦的回答:https://www.zhihu.com/question/61296365/answer/186652596
Facebook 官博論文介紹:https://code.facebook.com/posts/1686672014972296/deal-or-no-deal-training-ai-bots-to-negotiate/
Gizmodo 事件回顧:http://gizmodo.com/no-facebook-did-not-panic-and-shut-down-an-ai-program-1797414922
點擊閲讀原文可查看職位詳情,期待你的加入~
對於一心想“擴大收入”的Facebook來説,擁有12億月活用户的Messenger一直對其存在致命誘惑。
7月上旬,Facebook不僅宣佈要在全球測試Messenger廣告,而在昨日(25日)更是有上游供應鏈傳出消息,稱Facebook正在研發一款帶有15寸觸屏的智能音箱,坊間分析此款產品會更強調社交屬性。玩社交玩到爐火純青的Facebook,一直都在緊盯如何盤活Messenger這12億用户,以期創造更多的廣告收入。
近日,Facebook的Messenger和虛擬助手“M”的首席開發者Kemal El Moajahid直接向外媒CNBC表示,稱他們發現這樣一個現象,即人們在移動端的APP上花的時間越來越少。基於此,“如果你想通過手機更好的觸及消費者,就必須考慮Messenger的使用。”
眾所周知,越來越多的數字媒體用户對頻繁出現在他們社交媒體上的信息流廣告感到厭煩。去年7月,Facebook的CFO Dave Wehner還特別提到了這一問題。他指出:“一個網站或平台上的廣告數量到了一定階段,對整體業務增長的助力將持續減弱,特別是到了2017年中期。”
所以,隨着Facebook的主營信息流廣告接近超量,該公司正在嘗試通過其他產品獲取廣告收入。而另一方面來説,Messenger的增長空間依然很大,越來越多的用户越發脱離不了對該款聊天應用的使用。根據eMarketer預測,2018年在即時通訊應用上將有超過20億的用户,其中80%皆來自智能手機客户端。
El Moajahid説:“現在,人們在Messenger上花了太多的時間,甚至可以泡上一整天,事實上大家都想讓自己的生活遠離它。”“對他們來説,使用這些服務無需再下載額外的應用,將是一項巨大的附加zhu'yao值。”
總的來説,Facebook對Messenger的業務佈局主要從以下三大領域切入:
客户服務
El Moajahid認為,對於客户服務而言,手機已經過時了,因為人們在談話時不能實現多任務處理。但是,郵件又很慢,單獨開發一個實時聊天程序的成本又太高。並且,很多公司都在使用的在線表單,客户認真填寫的少之又少。
在這種情況下,“用户體驗並不非常愉快,而且用户轉移率也很高。”El Moajahid對此表示,“Messenger更具對話性”,從而能更好的適用客服工作。
目前,Facebook正試圖説服企業將這些工作轉移到Messenger平台上,因為已經有7000萬家企業入駐Facebook平台。
同時,在即時聊天程序中創建AI機器人是一件相對容易的事情,而且人們要問的大多數問題於機器人而言都足夠簡單去理解。El Moajahid解釋説。對於機器人暫時無法處理的複雜請求,人類可以隨時介入。
雷鋒網瞭解到,目前像Globe和Rogers這樣的電信運營商已經將客户支持服務遷移至Messenger平台上。現在Sephora也允許客户通過Facebook Messenger平台修改預訂訂單。
社交體驗
另一方面,Facebook也在努力整合其他公司的聊天機器人,以便用户在使用其他功能時不必離開正在使用的APP。
舉個例子,Messenger用户可以添加Spotify的歌曲。而歌曲剪輯之後可以直接在該平台上播放,雖然用户必須離開這一APP,挑轉至Spotify才能聽到完整的版本。
現階段而言,Facebook主要基於人氣程度和其他因素來決定某些機器人的展示與否,但是,顯而易見該功能將在未來得到持續的使用。
值得注意的是,Facebook也在加碼AI助手的投入——虛擬助手“M”。該虛擬助手於2015年首次亮相,並在今年的F8大會上得到了大幅優化,加入了一項新功能——M Suggestions。如雷鋒網此前報道:
“M Suggestions 能對用户正在進行的特定任務進行識別,然後在聊天窗口跳出來提供建議。舉個例子,當你和朋友約飯,它可能會跳出來提供餐廳推薦。”
“M 根據使用場景提供的建議包括制定計劃、約會提醒、收發紅包、點單、位置分享,甚至是表情圖。用户使用 M 的次數越多,它會越智能,建議越精準。”
圖/雷鋒網
M功能最先在美國推出,現在已擴及墨西哥和西班牙。就在上個月,它還推出了雙語版本。
與前一板塊一樣,一些業務已經和M功能有了整合案例。如當用户輸入“食譜”,M會彈出Food Network的頁面,讓你瀏覽食譜相關訊息。預計未來幾個月會陸續有合作伙伴加入整合的陣營。
“對於用户而言,這是挖掘功能和改善對話方式的一種愉快而有效的方式。” El Moujahid表示。
廣告業務
説到Messenger的業務機會,廣告板塊自然不得不提。事實上,這也是Messenger在傳統營銷領域一直關注的重點。7月中旬,Messenge在其主頁上正式推出基於圖像的廣告形式。據瞭解,該形式的廣告可以將Facebook的廣告鏈接到Messenger的即時消息,其中還包括髮送優惠券。
同時,企業也能向之前和其有過聯繫的客户發送消息。如果客户先向企業發送消息,那麼後者在24小時內向前者發送的消息即為免費。若超過24小時,企業則只能發送一條免費消息。之後若還想再次發送,則需先支付再發送。El Moujahid表示,此舉對於重新定位客户和讓他們產生購買行為是有效用的。
Via CNBC,雷鋒網編譯
(2017-07-27)
編者按:提到人工智能,我們首先會想到機器人,雖然很智能,卻無法像人類一樣遊刃有餘地處理各種問題,比如談判。談判可謂説是一場博弈,倘若機器人都無法與人類進行深度交流,又談何用於談判領域呢?那麼機器人需要如何改進才能達到這樣的效果呢?
Facebook的人工智能實驗室近期發佈了一篇關於聊天機器人用於談判的文章,結合文章,本文從以下四點進行了分析:1)核心技術是在談判記錄數據庫的基礎上訓練機器的神經網絡;2)關鍵創新是增加了“對話部署”功能。3)當前問題是突破聊天機器人單一訓練的場景限制;4)舉例説明實現談判功能的可預見性。
本文來源The Verge,作者James Vincent。由億歐編譯。
聊天機器人將會是AI驅動未來的重要組成部分,但它們大部分達不到預期效果。要想讓聊天機器人達到一個新水平並且真正為人所用,它們就需要被賦予新的技能,比如記憶力和推理能力。幸運的是,為它們添加這些新的認知能力指日可待。
Facebook是該領域最大的玩家之一。憑藉多年的努力,他們終於推出了自己的chatbot助手M,並且構建出一個用於教授chatbot的開源框架。如今,人工智能FAIR實驗室的研究人員展示了一套新的訓練方法,可以讓chatbots代替用户進行協商。
這項工作的範圍有限,僅關注單一的談判方案,但這為未來製造更強大的機器人指明瞭方向。這項研究產生了兩個特別有趣的結果。首先,在測試階段,機器人常常被誤認為是人類;其次,在無人操作的情況下,機器人開發了一項微妙的談判策略,類似於博弈論的元素,特別像囚徒困境。
這項研究的核心技術是在談判記錄數據庫的基礎上訓練機器的神經網路。在這種情況下,談判場景是“多議題交涉”,談判中那些通過“Mechanical Turk”系統招募的人類參與者分別被分配一些議題項目,每位參與者都與真人進行對話,並進行不同的評價,以此來儘可能得獲取積分。
這項研究完成了神經網絡的大題部分,但其關鍵創新是增加了他們所謂的“對話部署”。實質上,這意味着要求機器人提前思考,來模擬未來談判的場景,並選擇最佳的行動方式以獲得他們想要的。研究員Michael Lewis説:“這些技術通常用於玩象棋或打賭一類的遊戲,這是我們首次試圖將它們引入對話領域”。
研究人員表示,與這一領域的類似研究相比,加入“對話部署”模塊可謂是一個“大改進”。機器經過進行訓練之後,在“Mechanical Turk”系統協商中能應答如流。該文章的合作作者Dhruv Batra説:“大多數情況下,人們並沒有意識到他們正在和機器人交談。而且,我們最好的機器模型能得到與人類相近的分數。目前來看,當然達不到更好,但肯定不會十分糟糕。”
機器人甚至學會了如何用欺騙彼此作為談判的方法。例如,機器人發現積極地討論一個他們並不感興趣的話題,直到最後才妥協,才不得不承認他們並不太懂這個話題,也不失為一種很好的策略。Batra説:“將這些策略與遊戲理論的基本原理相比較,這個程序化的策略是機器人自己優化後,所帶來的一項高回報。”
這些機器人可以交談,但不健談
然而,我們不能被這項研究搞得忘乎所以。如上所述,機器人在談判中可持續的時間並不比人類長。而且,研究人員只能在這個特定的場景下訓練這些機器。他們也不知道能否將這些技能轉移到其他類型的談判中。
來自於微軟公司旗下的AI公司Maluuba的研究員Kaheer Suleman表示,這個技術是一個“良好的進步”,但不是“一個突破”。他指出,使用“Mechanical Turk”系統來收集訓練數據是一項限制因素,因為這意味着機器人被訓練的句子將是相當基本的。而那些來自於“Mechanical Turk”系統的人們只想儘快完成這些任務,所以他們在使用語言方面不會有太多的藝術性。
當然這篇文章也證實,機器人使用非常簡單的語言來交流。比如説,“我想要書和帽子,你得到球”。在這句簡單的語言中,語法沒有多大的差別,只是數值編碼不同(即你想要多少個球)。研究人員指出,這是對人工合成語言常見的批評,我們不能僅僅因為機器人可以產生可讀的句子,就忽略句子本身也是一種機器這一事實。
即使我們面臨各種問題,但是談判機器人的未來還是值得我們深思。該領域是一個快速發展的領域,大型科技公司可以獲得大量的用户數據,從而有助於其改進。雖然我們現在還不確定FAIR研究室何時研發出真正的產品,但其研究團隊已經設想出各種各樣的應用。
他們表示,這樣的聊天機器人可以用於諸如談判價格和安排會議時間等任務,用户可以把他們的喜好編入到程序裏,以實現他們自己想要的協商結果。Batra説:“這就像,‘別跟我説話,去跟我的機器人交談。我的機器人會全力配合你。’”這是一個相當美好的願景,但是儘管很多科技公司一直努力,目前仍沒有取得多大的成功。
業內其他人士擔心,這種即將到來的現象不會受消費者的青睞。Trim公司是一家致力於研發幫助人們管理資金的機器人的公司,其CEO Thomas Smyth認為這種技術將極大地造福企業。如果人工智能的關鍵在於數據,那麼誰能更容易地收集相關數據呢?大公司?還是消費者?答案顯而易見。
Smyth説:“這將受益於那些經常進行談判的用户羣體。而且,很明顯,這些公司將利用這項技術在談判中最大限度地發揮自己的優勢。”FAIR研究室實際上已經公開了他們的神經網絡研究成果,允許任何人使用這些數據,但在開發出更強大的機器人之前,數據收集仍然是瓶頸所在。
但實現這一點還是有希望的。Trim公司目前研發出一個能與Comcast(美國最大的有線系統公司)關於用户的有限電視賬單進行協商的聊天機器人。Smyth強調,這個機器人的成功部分是由於Comcast公司遵循嚴格的腳本。如果你知道正確的説話方式,它們就會給你你想要的。其他機器人也成功地完成了與其他收費機構模式化的協商。例如:一個名叫DoNotPay的聊天機器人在紐約和倫敦為用户撤銷了16萬張停車罰單。
因此,即使談判機器人仍然處於基礎研發階段,處理事情比較單一和死板,但這並不妨礙它們將成為一個完美的機器人客服。
本文作者申達,億歐專欄作者;轉載請註明作者姓名和“來源:億歐”;文章內容系作者個人觀點,不代表億歐對觀點贊同或支持。
(2017-07-12)
雷鋒網 AI 科技評論按:目前人們對聊天機器人的認識還在調戲微軟小冰的階段,可以明顯感覺到小冰不是很關心上下文之間的關聯。而且在我們的觀念裏,聊天機器人也沒辦法真的理解人類所説的話,沒辦法跟人類討論事情、明確地達到什麼共同目標。
不過,Facebook的人工智能研究機構FAIR剛剛開源並公開發表的聊天機器人就開始擁有了跟人類進行協商談判、進行討價還價的能力。通過監督學習+強化學習,這個聊天機器人不僅能理解字詞和語義的對應關係,還能針對自己的目標制定策略,跟別人進行協商討論達成一致。
以下為雷鋒網 AI 科技評論根據FAIR文章進行的詳細介紹。
生活的每一天裏,我們一睜眼就要不停地跟別人協商事情。要麼是討論看哪個電視台,要麼是説服家裏小孩吃蔬菜,或者買東西的時候討價還價。這幾件事的共同點是,都需要複雜的交流和講理能力,而這些能力很難在計算機裏見到。
發展到現在,聊天機器人方面的研究已經可以形成聊天系統,它能進行簡短對話,能完成訂餐館這樣的簡單任務。但是讓機器人跟人進行有意義的對話還是很難的,因為這需要機器人把它對對話的理解和它對世界的知識進行組合,然後再生成一句能幫它達到自己的目標的句子。
今天,Facebook FAIR的研究員們開源並公開發表的聊天機器人有了一項新能力,這個新能力就是協商。
有着不同目標的人類之間會產生衝突,然後通過協商達成一種大家共同認可的妥協,現在研究員們證明了聊天機器人也可以做到這些。具有不同目標的聊天機器人(具體實現是端到端訓練的神經網絡)在一段從頭到尾的協商中,可以跟其它聊天機器人或者人類一起做出共同的決定或者達到共同的目標。
任務:多種類討價還價
FAIR的研究員們研究了一種多種類討價還價任務下的協商任務。給兩個智能體展示同一組物體(比如2本書,1個帽子,3個籃球),為了能把東西分給它們,就需要教它們協商自己分到的數目。
每個智能體都有自己的價值函數,它代表了智能體對每種物體的關心程度如何(比如在智能體1看來每個籃球值3分)。然後,就像生活中一樣,每個智能體都沒法確切知道別的智能體的價值函數,只能從對話中進行推測(如果對方説他想要籃球,那在他看來籃球的分值肯定比較高)。
FAIR的研究員們設計了很多類似這樣需要協商的情境,而且始終不會讓兩個智能體同時達成自己最滿意的分法。以及,如果拒絕協商(或者如果10輪對話以後還沒達成一致),那麼兩個智能體都會得0分。簡單説,進行協商是關鍵,如果還協商到了一個好的結果那就得分更高。
對話推演(Dialog Rollouts)
協商是一個語言性和講理性的綜合問題,其中的參與者要先形成自己的意圖,還要能用語言表達出來。合作和對抗的元素都會出現在這些對話中,這就需要智能體們理解並形成長期計劃,然後據此進行表達以便達到自己的目標。
為了建立這種有長期計劃能力的對話智能體,FAIR研究員們有一個核心的技術創新,他們把這個點子叫做“對話推演”(dialog rollouts)。
如果聊天機器人可以建立對談者的虛擬模型然後“提前考慮”,或者預感到未來對話的可能方向,它們就可以選擇避開沒有信息量的、引發困惑的或者糟糕的來回討論,轉而向着成功一些的方向去。
具體來説,FAIR開發出了對話推演這樣的新穎技術,一個使用這種技術的智能體可以一直模擬未來的對話到結尾,這樣它就可以選出可以在未來帶來最高收益的話語。
類似的方法已經在遊戲環境中得到過應用,但是用來解決語言問題還是第一次,因為可選擇的行動數目要多多了。為了提高效率,研究員們首先生成了一組數量不多的話語可供選擇,然後為了估計這些話語是否成功,他們對其中的每一條都反覆模擬完整的後續對話。這個模型的預測準確率足夠高,也要歸功於這項技術從以下幾個方面顯著提升了協商水平:
協商時候更努力:這些新的智能體能跟人類進行更長的對話,代價是對價碼的接受會慢一點。相比人類有時候不達成一致就走掉了,這個實驗中的模型會一直協商到取得成功的結果為止。
智能化的應對:有時候會出現這樣的狀況,智能體一開始會假裝對沒什麼價值的東西感興趣,就為了後來可以放棄它們來表現出自己在“妥協”,這確實是一個人類經常使用的談判技巧。這種行為可不是研究員們設計給它們的,而是智能體在想辦法達成目標的過程中自己發現的談判方法。
產生新穎的句子:儘管神經網絡模型可以很輕鬆地從訓練數據中重複一些句子,這項研究也展示出在有必要的時候模型也能自己生成一些句子。
建立及評價一個協商數據集
為了能夠訓練協商智能體以及做大規模量化評估,FAIR團隊用眾包的方法建立了一個人和人之間協商對話的數據集。其中參與的人看到了一組東西和每個東西的價值,然後要商量他們之間怎麼分這些東西。然後研究員們就用這些對話訓練出了一個能模仿人類行為進行協商的循環神經網絡(RNN)。在對話中的任何時刻,這個模型都會猜測人類在這種狀況下會説什麼。
在以前目標導向的對話研究中,模型都是完全由人類的語言和決定進行“端到端”訓練得到的,這意味着這種方法可以方便地用在其它任務中。
為了讓模型不僅僅停留在對人類的模仿,FAIR的研究員們接下來讓模型轉而向完成協商的目標發展。為了讓模型達到目標,研究員們讓模型自己跟自己進行了上千輪協商,並且用到了強化學習在得到好的結果的時候獎勵模型。為了避免讓算法生成自己的一套語言,模型同時也要訓練生成類人的語言。
為了評價這些協商智能體,FAIR讓它們上網跟人類聊天。之前的大多數研究都在避免跟真人聊天,或者研究的是難度更低的領域,這都是因為對各種各種的人類語言進行回答需要訓練複雜的模型。
有意思的是,在FAIR的實驗中,多數人都沒發現跟他們聊天的不是真人,而是機器人,説明機器人已經學會如何在這個領域流暢地用英文進行對話了。FAIR最優秀的協商機器人就運用了強化學習和對話推演,它的表現已經可以跟人類談判員相提並論。它達成的交易裏,較好一些的和糟糕一些的差不多多,這也説明了FAIR的聊天機器人不僅會説英語,而且還能智能地考慮應該説什麼。
用於聊天機器人的強化學習
監督學習可以模仿人類用户的動作,但是它沒法具體表現出達成目標的意志。FAIR團隊選了另一種方法,他們先用監督學習進行預訓練,然後用強化學習的方法結合評價指標對模型進行微調。以結果來説,他們用監督學習學到了如何把語言文字和意思相對應,然後用強化學習幫助判斷説什麼語句。
在增強學習中,智能體會試着根據自己與另一個智能體之間的對話優化自己的參數。不過同時這另一個智能體也可以是一個人,所以FAIR就用了一個訓練過的監督學習模型來模仿人類。這個模仿人類的模型是固定不變的,因為研究者們發現如果兩個模型的參數都可以優化的話,它們之間的對話就會偏離人類的語言,演化出一種它們自己的談判語言。在每一場對話結束以後,智能體都會根據自己談成的結果得到獎勵。這種獎勵是用智能體整個過程裏的所有語言輸出運用策略梯度進行反向傳播得到的,目的是為了讓智能體有更高的可能性選擇會有更高獎勵的動作。
期待更高發展
對Facebook來説這是一項突破性的研究,對整個研究領域和機器人開發者來説,這是建立能講道理、交談、協商的機器人的重大進展,而這幾項都是建立個性化數字助理的重要組成部分。
對FAIR的研究人員而言,他們也希望與其它的研究人員繼續共同討論研究成果、共同分析想要解決的問題。他們也期待更多有才幹的人投入想法和精力,推動這個領域進一步發展。
via
Deal or no deal? Training AI bots to negotiate
,雷鋒網 AI 科技評論編譯
(2017-06-16)
2016 年是聊天機器人接管硅谷的一年,不過只有一個問題:這些聊天機器人不知道怎麼聊天。
圖 | 雖然2016年各種聊天機器人紛紛湧現,但它們其實不怎麼會聊天
然而,對話技術仍然落後。
最近幾年,Facebook,谷歌和微軟等公司使用了深度神經網絡,已經能可靠地識別圖片中的人臉和物體,也能識別智能手機上的語音指令,還可以在不同語言間完成翻譯工作。
但是,打造一個真正的對話機器人仍然讓人摸不着頭腦。這需要大量不同的人工智能技術,研究人員仍然在試圖找到整合這些技術的方法,或者,他們得先確定這些技術是不是真有效。
考慮到這些困難,Facebook 研究人員團隊建立了一個新的框架,讓多個聊天機器人變得更健談——這可以為人工智能技術提供多種對話技術的訓練場。
Facebook的研究人員Jason Weston説:“您需要了解機器學習方法可以解決哪些問題,解決不了哪些問題,這樣我們才能知道如何改進它。我不認為只訓練一個任務就可以讓我們做出一台智能機器。”
Facebook給對話機器人準備的訓練場叫ParlAI,這個研究對話的平台很適合 Facebook 的中央智能實驗室,在那裏有不少説法語的研究人員。為了可以利用無數新出現的技術,Facebook 正在與世界各地共享 ParlAI 這個開源工具。
除了 ParlAI 軟件外,Facebook 還提供了多種公開的數據集,讓研究人員可以訓練自己的智能體(agent)。該系統還與亞馬遜的 Mechanical Turk 服務(在線零售商的眾包勞動力平台)相關聯,讓研究人員可以測試對話機器人,讓它們與真人交談。反過來,這些測試將產生更多的數據,創造出對話機器人開發的良性循環。
開放平台
Facebook 的最新舉措只是大量加快對話人工智能技術進步的努力之一。所有的大型互聯網用户——從谷歌到亞馬遜,微軟和IBM,都在向着這個方向發展。所有人都希望從根本上改變人們與機器交互的方式。
今年 1 月,微軟收購了加拿大創業公司Maluuba。這家公司專門從事對話性人工智能技術的研究。 亞馬遜正在努力建立自己的數據集,用於訓練對話機器人,這將是Alexa平台成功的關鍵。 近兩年來,Facebook一直在使用名為Facebook M的實驗數字助理收集一些特別複雜的數據。
為了做出可以真正和人交談的機器人,每個公司都採取了略微不同的方向。Facebook關注可以從現有對話和其他數據集中學習的神經網絡,而Maluuba專長於強化學習技術,機器人通過極端的嘗試和錯誤學習。
但這些方法並不是相互競爭的關係。最終的成功將來自不同技術的組合。負責監督IBM內部一個自然語言研究實驗室的Yunyao Li表示:“我們不會使用只有一種機器學習方法的系統來解決所有問題。“相反,我們在正確的時刻使用正確的機器學習方法。”
這種混合方法是推動ParlAI創建的思想。訓練場可以推進神經網絡研究,強化學習以及任何可能有用的東西。它旨在推動新技術的發展,這些技術不僅屬於一家公司,而是來自整個AI研究人員的世界。最終目標是將各種方法結合到可以真正聊天的聊天機器人。
巴黎出生的研究者Yann LeCun負責Facebook的AI實驗室。他表示,通過讓ParlAI開源,Facebook再次釋放出信號,希望可以幫助所有人向相同的目標前進,而不是獨自完成目標。
(2017-05-16)