楠木軒

跟AI打王者榮耀你能贏幾局?騰訊AI絕悟升級完全體

由 時愛蘭 發佈於 科技

智東西(公眾號:zhidxcom)

作者 | 心緣

編輯 | 漠影

智東西11月28日消息,今日騰訊宣佈,由騰訊AI Lab和王者榮耀聯合研發的策略協作型AI“絕悟”推出升級版本——“絕悟完全體” 。

從11月28日至30日,“絕悟完全體”將限時三天對公眾開放體驗,只要你是榮耀黃金I及以上段位,進入王者榮耀“絕悟挑戰”,就能跟AI正面PK。

紅方AI 鎧大局觀出色,繞後蹲草叢扭轉戰局

這可是難得的實戰教學機會,要知道,未滿三歲的AI“絕悟”,每天都會深度模仿KPL職業玩家數據並進行大量自我對戰,訓練強度高達人類幾百年的訓練量。

在20個關卡中,“絕悟”的能力將不斷提升,並接受5v5組隊挑戰,玩家可以從與“絕悟”的對戰中,感受到AI在複雜策略、團隊協作與微觀操作方面的強大實力,如果通關還能獲得榮譽稱號獎勵。

絕悟AI能力演進圖:從MOBA新手玩家到職業頂尖水平

AI“絕悟”水平如何呢?在今年5月1日至5月5日期間,AI“絕悟”與頂尖玩家對抗了642047局,勝率高達97.7%。

而最新開放的AI“絕悟完全體”有兩大特點:一是英雄池數量逾100個,掌握所有英雄全部技能;二是優化了禁選英雄博弈策略,能綜合自身技能與對手情況等多重因素派出最優英雄組合。

與該版本相關的強化學習研究已被AI頂級學術會議NeurIPS 2020,監督學習研究已被頂級期刊TNNLS收錄。

強化學習相關研究被NeurIPS 2020收錄

一、掌握100+英雄,完全解禁英雄池

在王者榮耀中,如果每個職業都有4個紫色熟練度英雄,就能解鎖“全能高手”稱號。但因練習時間和精力限制,很少有人能精通所有英雄。

而在技術團隊的努力下,一年之內,AI“絕悟”掌握的英雄數量從1增加至超過100個,完全解禁英雄池,可應對高達10^15的英雄組合數變化。

多英雄組合絕非易事,在對戰中,因為地圖龐大且信息不完備,不同的10個英雄組合有不同的策略規劃、技能應用、路徑探索及團隊協作方式,使決策難度幾何級增加。不僅如此,多英雄組合還帶來“災難性遺忘”問題,模型可能邊學邊忘。

為應對此類問題,技術團隊先採用引入“老師分身”模型,每個AI老師在單個陣容上訓練至精通,再引入一個AI學生模仿學習所有的AI老師,最終讓“絕悟”掌握了所有英雄的所有技能。

為了讓AI用每個英雄都能達到頂尖水平,技術團隊重點做了三項突破:

其一,構建了一個最佳神經網絡模型,讓模型適配MOBA類任務、表達能力強、還能對英雄操作精細建模。

神經網絡架構

模型綜合了大量AI方法的優勢,在時序信息上引入長短時記憶網絡(LSTM)優化部分可觀測問題,在圖像信息上選擇卷積神經網絡(CNN)編碼空間特徵,用注意力方法強化目標選擇,用動作過濾方法提升探索效率,用分層動作設計加快訓練速度,用多頭值估計方法降低估計方差等。

其二,研究出了拓寬英雄池,讓絕悟掌握所有英雄技能的訓練方法CSPLCurriculum Self-Play Learning,課程自對弈學習)。

這是一種讓AI從易到難的漸進式學習方法:

CSPL的訓練流程圖

第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練,得到多組“教師分身”模型。

第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中。

第三步是隨機陣容的強化訓練,在蒸餾後的大模型裏,隨機挑選陣容繼續強化訓練和微調。通過多種傳統和新穎技術方法的結合,實現了在大的英雄池訓練,同時還能不斷擴展的目標。

用CSPL方法擴展英雄池有明顯優勢

其三,搭建了大規模訓練平台騰訊開悟,依託項目積累的算法經驗、脱敏數據及騰訊雲的算力資源,為訓練所需的大規模運算保駕護航。

開悟平台已於今年8月對18所高校開放(aiarena.tencent.com),為科研人員提供技術與資源支持。

二、AI教練排兵佈陣,做出最優選英雄策略

光有AI“絕悟”這樣的頂尖選手還不夠,對於團戰而言,一個能排兵佈陣的AI教練很重要,也就是在遊戲禁選英雄(BP)環節的最優策略。

簡單的做法是選擇貪心策略,即選擇當前勝率最高的英雄,但王者榮耀上百個英雄之間相互存在促進或剋制的關係,只按勝率選擇可能會被對手抓住漏洞,怎麼樣最大化己方優勢、弱化對手優勢是個難題。

受圍棋AI算法的啓發,團隊使用蒙特卡洛樹搜索(MCTS)和神經網絡結合的自動BP模型。

MCTS方法包括了選擇、擴張、模擬和反向傳播四個步驟,會不斷迭代搜索,估算出可選英雄的長期價值。因為其中模擬部分最耗時,研究團隊用估值神經網絡替代該環節,加快了搜索速度,就能又快又準地選出具備最大長期價值的英雄。

絕悟vs人類BP測試

要提到的是,圍棋等棋牌類遊戲結束就能確定勝負,但BP結束只到確定陣容,還未對戰,所以勝負未分。因此研究團隊利用絕悟自對弈產生的超過3000萬條對局數據,訓練出一個陣容勝率預測器,用來預測陣容的勝率。進一步的,勝率預測器得到的陣容勝率被用來監督訓練估值網絡。

除了常見的單輪BP,AI教練還學會了王者榮耀 KPL賽場上常見的多輪BP賽制,該模式下不能選重複英雄,對選人策略要求更高。團隊因此引入多輪長週期判定機制,在BO3/BO5賽制中可以全局統籌、綜合判斷,做出最優BP選擇。

訓練後的BP模型在對陣基於貪心策略的基準方法時,能達到近70%勝率,對陣按位置隨機陣容的勝率更接近90%。

三、監督學習AI智能體達到業餘頂尖高手水平

研究團隊同時研發了基於監督學習的AI系統,使得“絕悟”同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。相關技術成果曾在2018年12月公開亮相對戰人類玩家。

多任務神經網絡模型架構

具體而言,研究人員設計了一套適用於MOBA遊戲的特徵和標籤,將AI智能體的行動過程歸納為層級多分類問題,並提出一種同時建模大局觀和微操策略的端到端監督學習方法來解決該問題,同時提出了分場景採樣的數據預處理方法來進一步增進AI能力。

經大量實驗,該AI智能體達到高分段人類玩家水平,這也是監督學習AI智能體首次在MOBA遊戲達到人類業餘頂尖高手水平。

團隊對於監督學習的研發一直在持續進行中。今年11月14日起開放的絕悟第1到19級,就有多個關卡由監督學習訓練而成。雖然在理論上,監督學習訓練出的AI表現會遜於強化學習的結果,但此類研究極具研究與應用價值,相關技術成果還入選了頂級期刊TNNLS 。

監督學習相關研究被TNNLS收錄

論文鏈接:https://arxiv.org/abs/2011.12582

研究方法論上看,監督學習對於AI智能體的研發有很高的價值。

首先,監督學習是通常是研發遊戲AI的第一步,很多遊戲直接藉助監督學習就能使AI智能體達到人類高手水平。

第二,它能複用為強化學習的策略網絡,如AlphaGo就是監督學習結合強化學習。

第三,它還能縮短強化學習探索時間,比如 DeepMind的星際爭霸AI AlphaStar就用監督學習做強化訓練的隱含狀態。

在應用方面,它更是具有諸多優點。比如訓練快,在16張GPU卡上只需幾天,而強化學習則需幾個月;拓展能力強,能完成全英雄池訓練;因使用真實玩家的脱敏數據,配合有效採樣,產出的AI行為上會更接近人類。

長遠來看,監督學習和強化學習的結合,將是推動走向通用AI問題的一個重要組合。

結語:遊戲AI的目標不止是戰勝人類

遊戲AI的研究歷史已有數十年,從Atari系列、象棋、圍棋、德州撲克,到星際爭霸2、Dota 2、王者榮耀等,複雜的策略遊戲已經成為研究AI多智能體競爭協作策略的重要高地。

作為一款國民級多人協作遊戲,王者榮耀在設計上具有高複雜度、高挑戰性,滿足了對高水平AI+遊戲的研究需求。

短期來看,AI研究既能為遊戲職業選手提供數據、戰略與協作方面的實時分析與建議,以及不同強度和級別的專業陪練;又能優化玩家體驗,比如對惡意玩家行為的建模來識別惡意行為,或在局後通過AI技術的精彩場景自動剪輯及智能教學體系建設,帶給玩家更多樂趣。

長期來看,AI在複雜策略遊戲中發展出的方法論,或給機器人實時決策等現實問題帶來啓發,有望移植到醫療、自動駕駛等更多智能場景,並推動AI研發向終極目標“通用AI”繼續邁進。

最後,人類玩家加油,找出AI漏洞,然後幫包括“絕悟”在內的各種策略類AI變得更強。