清華打造足球AI：首次實現同時控制10名球員完成比賽，勝率94.4%

2021-11-10 由問成風釋出於體育

“只見4號球員在隊友的配合下迅速攻破後防，單刀直入，一腳射門，球，進了！”

觀眾朋友們大家好，您現在看到的是谷歌AI足球比賽的現場，場上身著黃色球衣的是來自清華大學的AI球員。

這屆清華AI可不一般，他們在艱苦訓練之下，不僅有個人能力突出的明星球員，也有世界上最強最緊密的團隊合作。

在多項國際比賽中所向披靡，奪得冠軍。

“Oh，現在7號接過隊友傳來的助攻，臨門一腳，球又進了！”

言歸正傳，以上其實是清華大學在足球遊戲中打造的一個強大的多智慧體強化學習AI——TiKick。

在多項國際賽事中奪得冠軍則是指，TiKick在單智慧體控制和多智慧體控制上均取得了SOTA效能，並且還是首次實現同時操控十個球員完成整個足球遊戲。

這支強大的AI團隊是如何訓練出來的呢？

從單智慧體策略中進化出的多智慧體足球AI

在此之前，先簡單瞭解一下訓練所用的強化學習環境，也就是這個足球遊戲：Google Research Football（GRF）。

它由谷歌於2019年釋出，提供基於物理的3D足球模擬，支援所有主要的比賽規則，由智慧體操控其中的一名或多名足球運動員與另一方內建AI對戰。

在由三千步組成的上下半場比賽中，智慧體需要不斷決策出移動、傳球、射門、盤球、剷球、衝刺等19個動作完成進球。

在這樣的足球遊戲環境中進行強化學習難度有二：

一是因為多智慧體環境，也就是一共10名球員（不含守門員）可供操作，演算法需要在如此巨大的動作空間中搜索出合適的動作組合；

二是大家都知道足球比賽中一場進球數極少，演算法因此很難頻繁獲得來自環境的獎勵，訓練難度也就大幅增大。

而清華大學此次的目標是控制多名球員完成比賽。

他們先從Kaggle在2020年舉辦的GRF世界錦標賽中，觀摩了最終奪得冠軍的WeKick團隊數萬場的自我對弈資料，使用離線強化學習方法從中學習。

這場錦標賽只需控制場中的一名球員進行對戰。

如何從單智慧體資料集學習出多智慧體策略呢？

直接學習WeKick中的單智慧體操作並複製到每個球員身上顯然不可取，因為這樣大家都只會自顧自地去搶球往球門衝，根本就不會有團隊配合。

又沒有後場非活躍球員動作的資料，那怎麼辦？

他們在動作集內添加了第二十個動作：build-in，並賦予所有非活躍球員此標籤(比賽中若選用build-in作為球員的動作，球員會根據內建規則採取行動)。

接著採用多智慧體行為克隆(MABC)演算法訓練模型。

對於離線強化學習來說，最核心的思想是找出資料中質量較高的動作，並加強對這些動作的學習。

所以需在計算目標函式時賦予每個標籤不同的權重，防止球員傾向於只採用某個動作作為行動。

這裡的權重分配有兩點考慮：

一是從資料集中挑選出進球數較多的比賽、只利用這些高質量的資料來訓練，由於獎勵較為密集，模型能夠加速收斂並提高效能。

二是訓練出Critic網路給所有動作打分，並利用其結果計算出優勢函式，然後給予優勢函式值大的動作較高的權重，反之給予較低的權重。

此處為了避免梯度爆炸與消失，對優勢函式做出了適當的裁剪。

最終的分散式訓練架構由一個Learner與多個Worker構成。

其中Learner負責學習並更新策略，而Worker負責蒐集資料，它們透過gRPC進行資料、網路引數的交換與共享。

Worker可以利用多程序的方式同時與多個遊戲環境進行互動，或是透過I/O同步讀取離線資料。

這種並行化的執行方式，也就大幅提升了資料蒐集的速度，從而提升訓練速度（5小時就能達到別的分散式訓練演算法兩天才能達到的同等效能）。

另外，透過模組化設計，該框架還能在不修改任何程式碼的情況下，一鍵切換單節點除錯模式和多節點分散式訓練模式，大大降低演算法實現和訓練的難度。

94.4%的獲勝率和場均3分的淨勝分

在多智慧體（GRF）遊戲上的不同演算法比較結果中，TiKick的最終演算法（+AW）以最高的獲勝率（94.4%）和最大的目標差異達到了最佳效能。

TrueSkill（機器學習中競技類遊戲的排名系統）得分也是第一。

TiKick與內建AI的對戰分別達到了94.4%的勝率和場均3分的淨勝分。

將TiKick與GRF學術場景中的基線演算法進行橫向比較後發現，TiKick在所有場景下都達到了最佳效能和最低的樣本複雜度，且差距明顯。

與其中的基線MAPPO相比還發現，在五個場景當中的四個場景都只需100萬步就能達到最高分數。

作者介紹

一作黃世宇，清華大學博士生，研究方向為計算機視覺、強化學習和深度學習的交叉領域。曾在華為諾亞方舟實驗室、騰訊AI、卡內基梅隆大學和商湯工作。

共同一作也是來自清華大學的陳文澤。

此外，作者還包括來自國防科技大學的Longfei Zhang、騰訊AI實驗室的Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清華大學的Chen Ting。

通訊作者為清華大學的朱軍教授。

論文地址：

https://arxiv.org/abs/2110.04507

專案地址：

https://github.com/TARTRL/TiKick

參考連結：https://zhuanlan.zhihu.com/p/421572915

— 完 —

量子位 QbitAI · 頭條號簽約

版權宣告：本文源自網路，於，由楠木軒整理釋出，共 2110 字。

轉載請註明：清華打造足球AI：首次實現同時控制10名球員完成比賽，勝率94.4% - 楠木軒

幾個易損傷寶寶脊柱的動作，家長常做卻對娃傷害很大，附正確做法

釋出於: 健康2021-12-07標籤: 寶寶脊柱家長動作

照顧小寶寶又難又累，這應該是不少新手家長的心聲吧。累的是，新生寶寶的吃喝拉撒睡，完全都需要大人來照顧完成。難的是，照顧寶寶完全沒經驗，邊學習邊照顧，一個小細節做不好都可能坑娃。就比如“對寶寶脊柱的保護

雙星閃耀！他們如何創造中國滑雪新紀錄

釋出於: 體育2021-12-07標籤: 小鳴愛凌中國動作

時間來到2021年最後一個月北京冬奧會已不再是遙遠的名詞中國冰雪運動傳來振奮人心的訊息谷愛凌、蘇翊鳴在國際雪聯世界盃斯廷博特站雙雙斬獲冠軍！中國選手一日雙冠的精彩表現創下了多個“第一”

(走近冬奧)谷愛凌：當年滑雪隊裡唯一的女孩，如今正在書寫歷史

釋出於: 體育2021-12-07標籤: 谷愛凌動作北京冬奧會女孩

　　新華社北京12月7日電題：谷愛凌：當年滑雪隊裡唯一的女孩，如今正在書寫歷史　　新華社記者趙建通、董意行、鄭直　　僅三個星期，學會一個自由式滑雪超高難度動作，成為首個完成它的女運動員，還藉此動作拿

每天讓寶寶堅持這個動作，不但可以鍛鍊頸部，還可以提高智力

釋出於: 健康2021-12-07標籤: 寶寶時候動作媽媽

當寶寶出生之後，爸爸媽媽每天都在很仔細的觀察寶寶，看著寶寶學會坐、學會站、學會走路。當寶寶很小的的時候，家長就要開始鍛鍊寶寶抬頭的動作了，可能很多媽媽不理解為什麼要這麼早鍛鍊寶寶這樣呢？抬頭又對寶寶有

追光|雙星閃耀！他們如何創造中國滑雪新紀錄

釋出於: 體育2021-12-07標籤: 小鳴愛凌中國動作

時間來到2021年最後一個月北京冬奧會已不再是遙遠的名詞中國冰雪運動傳來振奮人心的消息穀愛凌、蘇翊鳴在國際雪聯世界盃斯廷博特站雙雙斬獲冠軍！中國選手一日雙冠的精彩表現創下了多個“第一”首先要說的當屬愛

從滑雪愛好者成長為世界盃冠軍蘇翊鳴期待在冬奧賽場為國爭光

釋出於: 體育2021-12-07標籤: 蘇翊鳴冠軍世界盃動作

在上週結束的2021-2022賽季自由式滑雪大跳臺世界盃美國斯廷博特站比賽中，中國17歲小將蘇翊鳴以155.25分奪得男子單板滑雪大跳臺冠軍，這是中國男選手首奪該專案世界盃賽冠軍，蘇翊鳴也成為站在該項

6個月前寶寶，還不會幾個動作，當心“運動發育遲緩”，快查查

釋出於: 健康2021-12-06標籤: 寶寶能力動作美國兒科學會育兒百科

不少家長聽說過“6個月是寶寶成長的分水嶺”，因為到了這個月左右，寶寶會經歷幾個“人生第一次”：第一次自己坐起來；第一次嘗試母乳或配方奶以外的其他食物；第一次經歷發燒；長出第一顆乳牙……所以到了這個月齡

瞰冬奧·人物 | 谷愛凌大跳臺短板是如何練成的

釋出於: 體育2021-12-06標籤: 谷愛凌跳臺動作洛桑冬青奧會

過去一週，中國冰雪大跳臺專案橫空出現了兩個奪金點。在自由式滑雪大跳臺世界盃美國站比賽中，17歲小將蘇翊鳴拿下男子單板大跳臺冠軍；谷愛凌拿下女子自由式滑雪大跳臺新賽季首秀。大跳臺一向是谷愛凌的弱項，但她

新冬奧·人物｜《智取威虎山》裡的“小栓子”滑出了一塊世界金牌

釋出於: 體育2021-12-06標籤: 蘇翊鳴智取威虎山動作單板

　他，4歲開始滑雪，7歲開始專業訓練，16歲已經拿過數不清的冠軍和世界冠軍；他，廣為人知是因為一部電影《智取威虎山》，裡面古靈精怪的小栓子打動觀眾；他說：我的下一個目標，是2022冬奧會冠軍！他是中國

手越靈活的寶寶，大腦越聰明小嬰兒的媽媽一定要看

釋出於: 健康2021-12-06標籤: 寶寶動作突觸之間自我意識

剛出生的寶寶能自然握住放在她掌心的東西，這是寶寶最原始的手部動作的反應，叫做“抓握反射”。後天透過各種刺激和練習，寶寶的手部動作越來越精細，越來越複雜。一連串手部動作的發展，又不斷刺激著大腦，啟用

走近冬奧|谷愛凌賽季首秀奪冠！高難動作創造歷史

釋出於: 體育2021-12-05標籤: 谷愛凌動作約翰娜·基利美國斯廷博特站

　　新華社北京12月5日電北京時間5日，在2021-2022賽季自由式滑雪大跳臺世界盃美國斯廷博特站比賽中，中國選手谷愛凌以184.25分的總成績奪得女子組冠軍，並創造了女子選手在自由式滑雪比賽中完

首戰大跳臺世界盃摘金谷愛凌冬奧目標“三金王”？

釋出於: 體育2021-12-05標籤: 谷愛凌斯汀伯特坡面障礙動作

體壇週報全媒體記者宮珂冬奧賽季世界盃首秀，谷愛凌再次書寫了新紀錄。在美國斯汀伯特，第一次出戰國際雪聯自由式滑雪大跳臺世界盃的谷愛凌便把冠軍收入囊中，她還在決賽第三跳中成功挑戰了兩週空翻轉體14

谷愛凌新賽季首場決賽奪冠，完成高難度動作成歷史第一人

釋出於: 體育2021-12-05標籤: 谷愛凌動作最後一次機會美國斯廷博特站

北京時間12月5日凌晨，在2021/22賽季國際雪聯自由式滑雪大跳臺世界盃美國斯廷博特站比賽中，中國選手谷愛凌發揮出色，以總分184.25分獲得大跳臺冠軍，賽季首秀即拿下首金。此次比賽中，谷愛凌首次完

谷愛凌賽季首秀即奪冠完成兩週空翻轉體1440度創歷史

釋出於: 體育2021-12-05標籤: 谷愛凌動作最後一次機會美國斯廷博特站

人民網北京12月5日電 (記者胡雪蓉)北京時間12月5日凌晨，在2021/2022賽季自由式滑雪大跳臺世界盃美國斯廷博特站比賽中，18歲的中國選手谷愛凌上演賽季首秀，最終她以總分184.25分奪冠

一夜兩金！谷愛凌、蘇翊鳴世界盃雙雙登頂

釋出於: 體育2021-12-05標籤: 谷愛凌蘇翊鳴斯廷博特動作

北京時間5日凌晨，單板滑雪和自由式滑雪世界盃美國斯廷博特站落下帷幕。中國年輕選手在比賽中連創歷史，17歲的蘇翊鳴和18歲的谷愛凌分別獲得男子單板及女子自由式滑雪冠軍，雙雙收穫1000個世界盃積分。蘇翊