近日,網路上出現一幕網球名將 “費德勒” 同“小威廉姆斯”同場競技的情景,網球愛好者們紛紛驚掉了下巴。
這場男女單打的破天荒對戰,是如何發生的呢?
DeepTech 幾經輾轉,摸清了這件事的來龍去脈,原來是一名來自斯坦福大學計算機專業的博士生——張浩天,他和團隊使用 AI 技術生成了上面的場景。好奇之下,DeepTech 聯絡到了他本人。
張浩天介紹,該專案的名稱為 Vid2Player,可以讓你操控選手並實時生成接近真實的比賽影片。除了能讓費德勒同小威對戰,它還有很多有趣的功能。
溫網破天荒地被取消,多少球迷斷供,Vid2Player 或許不失為一條新的 “解渴” 路徑。
網球冠軍的弟子
事情的起因很簡單。
“我個人對影片理解與生成非常感興趣,尤其是利用已有的大規模影片資料,比如在 YouTube 平臺,來解決現實中遇到的問題。”張浩天說。
此前他曾做過一個專案,是使用 AI 技術去分析、理解過去十年來美國主要的三家有線電視網路(CNN、FOX News、MSNBC)的影片資料中出現的人物及內容。由於是嚴肅的報道內容,不太適合將影片生成技術應用其中,這讓他非常遺憾。
所以在立項之初,他就決定挑選一個適合於做影片生成的領域,後來便選中了體育賽事類影片。
原因有三。首先,體育比賽中包含豐富的人類肢體動作及與相關道具的互動,而且運動員天然遵守比賽規則,有更強的規律性及約束性,這非常適合於做影片生成;其二,這一類素材在網路上非常容易獲取;其三,體育賽事的受眾很廣,因此未來該技術的應用前景更加多元。
至於為什麼選擇網球,張浩天笑稱,他的博士導師 Kayvon Fatahalian 在卡內基梅隆大學讀本科階段,曾經是美國大學生網球聯賽(NCAA)的男子單打冠軍,是非常優秀的運動員,選擇網球或多或少受他的影響。
圖 | Kayvon Fatahalian@2000(張浩天提供)
Vid2Player 從立項到論文定稿,大概經歷了一年時間。
它更多地是基於計算機圖形學(Computer Graphics)來展開,其中用到的最經典的方法是影片紋理(Video Texture)技術,該技術歷史悠久,可以追溯到 “拳皇” 時代。
張浩天解釋道,根據使用者指定的輸入,比如想要放一個“大招”,程式可以選擇對應的影片片段來播放,玩家就可以看到他控制的角色做出了對應的動作。
“我們使用影片中的已有片段來呈現展示內容,會讓生成的影片顯得更加真實。而假如這個專案使用純 AI 技術,就意味著運動員全部由模型透過神經網路生成,目前這類技術尚未成熟,生成的影片可能存在模糊、動作不連貫等問題。”
AI 技術在 Vid2Player 的應用主要是負責決策運動員的行為。
AI 會根據當前雙方球員的位置及球的軌跡等資訊,決定運動員接球的擊打方式、落點以及擊打後運動員恢復準備狀態的位置。
他們根據原始比賽影片中運動員的歷史資料為每一名網球名將訓練了這樣一個模型來負責控制角色的行為和規則。
以上兩種技術分別負責運動員的外觀和行為,再加上一個掌控全域性的網球回合狀態機(shot cycle state machine)——運動員擊球前跑位、擊球、擊球后跑位,週而復始執行,一場完整的網球比賽就此生成。
圖 | 張浩天,2017 年畢業於清華大學,後到斯坦福大學繼續求學(張浩天提供)
自由 “操控” 網球名將
張浩天說,為了最終實現 Vid2Player,我們需要對從網路下載的影片進行必要的標註工作。
首先,預先逐幀框選出兩個運動員的位置,然後標註遮罩(semantic mask)及姿勢的關鍵點。
另外,還需要知道球的軌跡,相當於在每一幀標註出球的位置。這裡有兩個很關鍵的時刻——球被運動員擊打的時刻和位置、球被擊打出之後,落地反彈的時刻和位置。
最後,還要對現有影片中網球場地進行三維重建,將 2D 資訊轉換成 3D 的格式。
值得注意的是,目前每次擊球的時間都需要人為手工進行標註。張浩天解釋道,由於擊球的瞬間球速很快,並且球體很小,他們的 AI 暫時不能很好地定位捕捉,這裡的確有待改進。
除此之外,以上絕大部分的標註工作都可以透過計算機模型自動生成。包括張浩天在內的 Vid2Player 兩名主力成員,本次共處理標註了 20 個小時左右的網球比賽素材。
此外,為了讓輸出的網球比賽更加貼近真實場景,他們做了很多的工作。
圖 | 自然化處理,去掉因光線產生的陰影
圖 | 自然化處理,在不同場次中,運動員的著裝會發生變化,需要進行統一
圖 | 因為攝像機的關係,需要將畫面不完整的部分補全,例如上圖的小腿部分
表現層處理完畢之後,需要加入控制層的邏輯。張浩天說,之後,你可以像玩遊戲一樣實時操控一方運動員,改變他的跑位及擊球位置。
Vid2Player 中訓練的運動員模型可以實現自動針對對方的弱勢手、高難度接球、近網的位置截擊等等技術動作。
圖 | AI控制下運動員完成了一次漂亮的網前截擊
圖 | 有無行為模型對比圖
比如上圖,當程式的行為模型介入之後,成功“扭曲現實”,給出更加符合網球策略的擊球方案。
加入狀態機的邏輯之後,網球賽中的每個回合都被分解,迴圈往復序列。
圖 | 紅色點為球的落點,藍色點為運動員擊球后站位,這兩者都由運動員模型進行決策
在這些基礎之上,可以做一些非常有意思的事情,比如可以編輯已有的網球比賽。
下面這個例子是費德勒在 2019 年溫網決賽痛失賽點的一個經典失誤,利用 Vid2Player 可以改變費德勒擊球的落點,這一小小的改變足以扭轉歷史,讓費天王拿下 2019 溫網冠軍!
圖 | 原始影片,球落到了白線之外
圖 | AI 生成影片,球落到了白線之內
你還可以改變對戰雙方的運動員,前提是該運動員處於影片集合當中。
比如開頭的費德勒同小威廉姆斯的同場競技,甚至你還可以請費德勒自己同自己對局。
圖 | 費德勒 VS 費德勒
張浩天還發給 DeepTech 一則影片,在其中他們限制了費德勒和納達爾只能用正手打球。
如果你願意,甚至可以錄製一些原始的素材,經由 Vid2Player 處理,生成同費德勒對戰的影片。
應用前景
當 DeepTech 問及是否考慮未來將 Vid2Player 應用到遊戲當中,張浩天回答道:“現在主流的遊戲同我們採用完全不同的技術路線,一般情況下如果遊戲廠商要做一款真人網球遊戲,他們必須讓運動員穿著採集器來建立 3D 模型,而 Vid2Player 目前是以純二維的方式來解決問題。”
“我們更多地是從影片生成的角度,解決了生成真人網球影片的問題。理論上,這個解決方案也適用於乒乓球和羽毛球的單打比賽中。”
“目前 Vid2Player 所能做的其實比較有限,未來我們考慮讓它能夠相容更多種的運動和模式。拿籃球運動來舉例,屆時我們希望它不再需要人類幫助定義狀態機,而是讓 AI 自己學會區分不同的狀態,如傳球、投籃、格擋等等。”
影片生成比影象生成要難得多,張浩天說。在影象生成領域,利用 GAN 已經能夠生成很真實的影象,如人臉等。
圖 | 由 StyleGAN 生成的虛擬人像,可以看到已經非常近似於真人
但影片生成領域,純 AI 的模型還很難生成任意的高畫素、逼真的影片。
其原因在於,影片的複雜度較影象要高很多,當加入時間的維度之後,空間大小暴漲。需要無限的模型容量以及無限的訓練資料,才可能有一個通用的 AI 生成影片模型。
他說,以目前的硬體和算力水平,這個問題尚無法解決。目前影片生成領域可以使用 AI 解決換臉的問題,原因在於臉部其實是一個非常強的約束條件,相比之下,至今還沒有一款公開、通用且成熟的能夠生成人體全身動作的 AI 模型。
“所以,我們的出發點不是一個通用的影片生成模型,而是專注於生成某領域的影片模型。Vid2Player 因此而誕生,它其實融合了兩個領域的技術,一是影片生成,二是統計學意義上的體育影片分析。”
張浩天描述道,體育影片分析的商業前景廣闊,已經有很多公司在做相關的資料探勘的工作,比如籃球運動員的罰球命中率、搶籃板數等就是來自於此。再比如 Vid2Player 中用到的預測網球落點的技術,也是關鍵、且非常熱門的技術。
“但是此前沒有人將這兩個領域結合到一起,某種程度上我們做了一件前人沒做過的事。希望未來這項技術可以應用到體育新聞解說或體育教學的視覺化中,為受眾提供一種全新的體驗。”
【來源:DeepTech深科技】
宣告:轉載此文是出於傳遞更多資訊之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯絡,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]