騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

AI 王者「絕悟」升級了,能達到精通金庸武俠裏所有武功的那種水平。

今天,騰訊宣佈,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本“絕悟完全體”。

這一升級的背後,則是騰訊策略協作型 AI 算法能力的進一步提升,與之相關的研究也已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

英雄池完全解禁

在王者榮耀中,若每個職業都有 4 個紫色熟練度英雄,就能解鎖“全能高手”稱號。但受到練習時間與精力限制,很少有人能精通所有英雄,但「絕悟」做到了。

那麼,王者再進化,將有多強?

據瞭解,「絕悟」一年內掌握的英雄數從 1 增加到 100+,王者榮耀英雄池也實現了完全解禁,不但掌握了所有英雄的全部技能,能應對高達 10 的 15 次方的英雄組合數變化,甚至還“自帶軍師”,可做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優英雄組合。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

目前,“絕悟完全體”已在王者榮耀 App 限時開放,玩家都可與之對戰,親身體驗 AI 在複雜策略、團隊協作與微觀操作方面的強大能力。

11 月 14-30 日,「絕悟」在 20 個關卡的能力將不斷提升,最強的 20 級於 11 月 28 日開放,接受 5v5 組隊挑戰。

AI 教練的田忌賽馬術

AI+遊戲研究,是騰訊攻克 AI 的終極研究難題,也是通用人工智能(AGI)的關鍵一步。

騰訊技術團隊的長期目標不僅是讓“絕悟”學會所有英雄的技能,而且每個英雄都要達到頂尖水平,可以根據陣型排列組合打出制勝局。

但難點就在於,「絕悟」的不同英雄會共享一個模型參數,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。對戰中,因為地圖龐大且信息不完備,不同的 10 個英雄組合有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加。

同時不可忽略的是“災難性遺忘”問題,模型容易邊學邊忘,這也長期困擾着開發者。

畢竟,一場比賽勝負的關鍵不僅在於擁有頂尖選手,排兵佈陣的教練也非常重要。

基於此,技術團隊為「絕悟」找了一個能排兵佈陣的 AI 教練,也就是在遊戲 BP 環節(禁選英雄)的最優策略。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

【絕悟 vs 人類 BP 測試】

受到圍棋 AI 算法的啓發,研究團隊創新地採用了蒙特卡洛樹搜索(MCTS)和神經網絡結合的自動 BP 模型,能夠又快又準地選出具備最大長期價值的英雄。

具體來講,先採用引入“老師分身”模型,每個 AI 老師在單個陣容上訓練至精通,再引入一個 AI 學生模仿學習所有的 AI 老師。

最終,「絕悟」掌握了所有英雄的全部技能,正所謂“少林有七十二藝,功夫既有不同,練習之法,亦必各異。學者苟能盡之,則無敵於世矣。”

「絕悟」手握強兵善用兵

自然,團隊的長期目標,就是要讓「絕悟」手握強兵,且每個英雄都能達到頂尖水平,因此技術上有了三項重點突破:

首先,團隊構建了一個最佳神經網絡模型,讓模型適配 MOBA 類任務、表達能力強、還能對英雄操作精細建模。

模型綜合了大量 AI 方法的優勢,如:

  • 在時序信息上引入長短時記憶網絡(LSTM)優化部分可觀測問題;

  • 在圖像信息上選擇卷積神經網絡(CNN)編碼空間特徵;

  • 用注意力(Attention)方法強化目標選擇;

  • 用動作過濾(Action Mask)方法提升探索效率;

  • 用分層動作設計加快訓練速度;

  • 用多頭值估計(Multi-Head Value)方法降低估計方差。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

其次,團隊研究出了拓寬英雄池,讓「絕悟」掌握所有英雄技能的訓練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學習)。

根據下圖可以看出,使用 CSPL 方法擴展英雄池有明顯優勢。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

據悉,這是一種讓 AI 從易到難的漸進式學習方法——第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練;第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中;第三步是隨機陣容的強化訓練,在蒸餾後的大模型裏,隨機挑選陣容繼續強化訓練和微調。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

最後,團隊搭建了大規模訓練平台騰訊開悟(aiarena.tencent.com),依託項目積累的算法經驗、脱敏數據及騰訊雲的算力資源,為訓練所需的大規模運算保駕護航。

2020 年 8 月,開悟平台對 18 所高校開放,未來希望為更多科研人員提供技術與資源支持,深化課題研究。

早在 2018 年 12 月的 KPL 秋季總決賽中,「絕悟」就曾公開亮相對戰人類玩家。

當時,團隊研發了監督學習(SL)方法,針對大局觀和微操策略同時建模,使得「絕悟」同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

但其實,團隊對於監督學習的研發一直在進行——今年 11 月 14 日起開放的絕悟第 1 到 19 級,就有多個關卡由監督學習訓練而成。

理論上,監督學習訓練出的 AI 表現遜於強化學習的結果,但這一方向極具研究與應用價值,相關成果也入選了頂刊 TNNLS 。

騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁

如今,「絕悟」前有強兵,後有軍師,不折不扣的一代宗師終於練成了。

雷鋒網雷鋒網雷鋒網

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2065 字。

轉載請註明: 騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁 - 楠木軒