DeepMind開腦洞用桌遊訓練AI，7人博弈模型勝率可達32.5%

2020-06-16 由時愛蘭發佈於科技

智東西（公眾號：zhidxcom）編 | 董温淑

智東西6月15日消息，近日，谷歌旗下人工智能公司DeepMind訓練出一個會打7人棋類桌遊的AI模型。

訓練AI模型參與複雜遊戲已經不是新鮮事。早在2016年，DeepMind研發的AlphaGo就曾在圍棋對弈中擊敗韓國國手李世石。近些年來，還有一些研究用國際象棋、撲克等遊戲訓練AI模型。

現有研究中用到的圍棋、國際象棋、撲克等遊戲都是雙人蔘與的零和博弈遊戲。在現實中，人類往往通過更多人的協作完成任務。比如，在完成合同談判、與客户互動等任務時，人類需要考慮團隊成員中每個人的情況，而現有AI模型還缺乏這方面能力。

為了解決這個問題，DeepMind研究人員引入經典7人棋類桌遊《外交風雲（Diplomacy）》訓練AI模型，提升其協作能力。《外交風雲》是美國棋類遊戲設計大師Allan B.Calhamer於1959年設計的遊戲，屬於戰棋及談判類遊戲，遊戲過程中玩家需要進行高度的互動。

研究結果顯示，經過訓練，AI模型在《外交風雲》遊戲中的勝率最高可以達到32.5%。相比之下，用監督學習方法訓練的代理勝率最高為16.3%。

這項研究發表在學術網站arXiv上，論文標題為《用最佳應對策略的迭代學會應用無媒體外交（Learning to Play No-Press Diplomacy with Best Response Policy Iteration）》。

論文鏈接：

《外交風雲》遊戲在一張歐洲地圖上進行，這張地圖被劃分為34個“省份”。遊戲玩家可以建造自己的“軍隊”，用於保護自己現有的地盤，或用於攻佔其他玩家的地盤。玩家控制的省份越多、地盤越大，遊戲勝算就越大。

為了取勝，玩家之間可以結成聯盟，共同對抗其他玩家。另外，玩家之間互相牽制，如果一個玩家想要移動自己的軍隊，需要與其他玩家進行協調，雙方共同進行移動。

▲《外交風雲》遊戲示意圖

DeepMind研究人員用《外交風雲》遊戲研究多代理環境下的學習策略交互問題。研究人員規定採用“無媒體（No Press）”變量，即不允許代理之間進行明確的交流。

由於7個玩家各自選擇動作，遊戲的組合行動非常多。根據論文，每回合的遊戲樹（遊戲可以進行的總次數）大小約為10^900，有10^21～10^64個合法的聯合行動。

為了使代理能在遊戲中掌握規律，研究人員採用了一種最佳響應策略迭代算法（BRPI，Best Response Policy Iteration）。

根據該方法，一回合遊戲結束後，代理會“記住”這次遊戲的經驗，並預測下一回閤中可能出現的情況，在下一回閤中選用更有可能獲勝的新策略。

具體而言，每回合遊戲結束後，代理會記錄在這次遊戲中應用的神經網絡策略和值函數，並把這些記錄“存”到遊戲數據集裏。初始神經網絡策略和值函數採用人類的遊戲數據。

在下一回合遊戲中，一個改進操作模塊（improvement operator）會根據之前的記錄，部署一個能打敗之前策略的策略。

神經網絡策略和值函數會預測改進操作模塊可能選擇的行為和遊戲結果，相應地做出調整，以增加遊戲獲勝的可能性。

本研究選用3種BRPI算法進行研究，這3種算法分別是：

1、迭代最佳響應算法（IBR，Iterated Best Response），IBR算法類似於在自我遊戲中應用的標準單代理策略迭代方法，這種方法在雙人零和博弈遊戲中比較流行。

2、虛擬應用策略迭代算法-1（FPPI-1，Fictitious Play Policy Iteration-1），FPPI-1算法類似於神經虛擬自我對弈算法（NFSP）。NFSP算法中，一個玩家由Q-學習網絡和監督式學習網絡組成。

3、虛擬應用策略迭代算法-2（FPPI-2，Fictitious Play Policy Iteration-2），FPPI-2算法在這3種算法中最為複雜，只預測最新的最佳響應，並記錄平均歷史檢查點，以提供當前的經驗策略。

為了評估BRPI算法的性能，研究人員比較了3種BRPI算法和3種基線模型的表現。基線模型分別是：監督學習模型SL、DipNet強化學習模型A2C、研究人員訓練的監督學習算法SL（ours）。

然後，研究人員使6種模型依次進行1v6遊戲，並記錄被選出玩家的平均勝率。

結果顯示，FPPI-2代理的表現最佳，其平均勝率在12.7%到32.5%之間。其中，FPPI-2代理對戰6個A2C代理時的平均勝率最高，為32.5%。相比之下，基線模型的勝率最高為16.3%。

研究人員還比較了3種BRPI算法與DipNet強化學習算法的勝率。下圖中，實線代表1個BRPI代理對戰6個DipNet代理的勝率，點線代表1個DipNet代理對戰6個BRPI代理的勝率。可以看出，BRPI代理的勝率更高。

接下來，研究人員混合採用不同BRPI算法，訓練出一個新的基線模型，比較3種BRPI算法與新基線模型的勝率。下圖中，實線代表1個BRPI代理對戰6個新基線模型的勝率，點線代表1個新基線模型對戰6個BRPI代理的勝率。可以看出，新基線模型的勝率穩步提高。

本項研究中，DeepMind探索了使AI模型完成多人協作任務的可能性。數據顯示，在《外交風雲》遊戲中，AI模型的勝率最高可達32.5%，優於基線模型的表現。

目前，該AI模型處於較為初級的階段，還有很大的提升空間。根據論文，在未來，研究人員將進行更多嘗試，比如使代理能夠推理其他人的動機、使代理以互惠的方式完成任務等。如果能夠實現這些功能，該代理的應用範圍或能擴展到商業、經濟、後勤等領域，幫助人類提升工作效率。

文章來源：VentureBeat、arXiv