近日,網絡上出現一幕網球名將 “費德勒” 同“小威廉姆斯”同場競技的情景,網球愛好者們紛紛驚掉了下巴。
這場男女單打的破天荒對戰,是如何發生的呢?
DeepTech 幾經輾轉,摸清了這件事的來龍去脈,原來是一名來自斯坦福大學計算機專業的博士生——張浩天,他和團隊使用 AI 技術生成了上面的場景。好奇之下,DeepTech 聯繫到了他本人。
張浩天介紹,該項目的名稱為 Vid2Player,可以讓你操控選手並實時生成接近真實的比賽視頻。除了能讓費德勒同小威對戰,它還有很多有趣的功能。
温網破天荒地被取消,多少球迷斷供,Vid2Player 或許不失為一條新的 “解渴” 路徑。
網球冠軍的弟子
事情的起因很簡單。
“我個人對視頻理解與生成非常感興趣,尤其是利用已有的大規模視頻數據,比如在 YouTube 平台,來解決現實中遇到的問題。”張浩天説。
此前他曾做過一個項目,是使用 AI 技術去分析、理解過去十年來美國主要的三家有線電視網絡(CNN、FOX News、MSNBC)的視頻數據中出現的人物及內容。由於是嚴肅的報道內容,不太適合將視頻生成技術應用其中,這讓他非常遺憾。
所以在立項之初,他就決定挑選一個適合於做視頻生成的領域,後來便選中了體育賽事類視頻。
原因有三。首先,體育比賽中包含豐富的人類肢體動作及與相關道具的交互,而且運動員天然遵守比賽規則,有更強的規律性及約束性,這非常適合於做視頻生成;其二,這一類素材在網絡上非常容易獲取;其三,體育賽事的受眾很廣,因此未來該技術的應用前景更加多元。
至於為什麼選擇網球,張浩天笑稱,他的博士導師 Kayvon Fatahalian 在卡內基梅隆大學讀本科階段,曾經是美國大學生網球聯賽(NCAA)的男子單打冠軍,是非常優秀的運動員,選擇網球或多或少受他的影響。
圖 | Kayvon Fatahalian@2000(張浩天提供)
Vid2Player 從立項到論文定稿,大概經歷了一年時間。
它更多地是基於計算機圖形學(Computer Graphics)來展開,其中用到的最經典的方法是視頻紋理(Video Texture)技術,該技術歷史悠久,可以追溯到 “拳皇” 時代。
張浩天解釋道,根據用户指定的輸入,比如想要放一個“大招”,程序可以選擇對應的視頻片段來播放,玩家就可以看到他控制的角色做出了對應的動作。
“我們使用視頻中的已有片段來呈現展示內容,會讓生成的視頻顯得更加真實。而假如這個項目使用純 AI 技術,就意味着運動員全部由模型通過神經網絡生成,目前這類技術尚未成熟,生成的視頻可能存在模糊、動作不連貫等問題。”
AI 技術在 Vid2Player 的應用主要是負責決策運動員的行為。
AI 會根據當前雙方球員的位置及球的軌跡等信息,決定運動員接球的擊打方式、落點以及擊打後運動員恢復準備狀態的位置。
他們根據原始比賽視頻中運動員的歷史數據為每一名網球名將訓練了這樣一個模型來負責控制角色的行為和規則。
以上兩種技術分別負責運動員的外觀和行為,再加上一個掌控全局的網球回合狀態機(shot cycle state machine)——運動員擊球前跑位、擊球、擊球后跑位,週而復始運行,一場完整的網球比賽就此生成。
圖 | 張浩天,2017 年畢業於清華大學,後到斯坦福大學繼續求學(張浩天提供)
自由 “操控” 網球名將
張浩天説,為了最終實現 Vid2Player,我們需要對從網絡下載的視頻進行必要的標註工作。
首先,預先逐幀框選出兩個運動員的位置,然後標註遮罩(semantic mask)及姿勢的關鍵點。
另外,還需要知道球的軌跡,相當於在每一幀標註出球的位置。這裏有兩個很關鍵的時刻——球被運動員擊打的時刻和位置、球被擊打出之後,落地反彈的時刻和位置。
最後,還要對現有視頻中網球場地進行三維重建,將 2D 信息轉換成 3D 的格式。
值得注意的是,目前每次擊球的時間都需要人為手工進行標註。張浩天解釋道,由於擊球的瞬間球速很快,並且球體很小,他們的 AI 暫時不能很好地定位捕捉,這裏的確有待改進。
除此之外,以上絕大部分的標註工作都可以通過計算機模型自動生成。包括張浩天在內的 Vid2Player 兩名主力成員,本次共處理標註了 20 個小時左右的網球比賽素材。
此外,為了讓輸出的網球比賽更加貼近真實場景,他們做了很多的工作。
圖 | 自然化處理,去掉因光線產生的陰影
圖 | 自然化處理,在不同場次中,運動員的着裝會發生變化,需要進行統一
圖 | 因為攝像機的關係,需要將畫面不完整的部分補全,例如上圖的小腿部分
表現層處理完畢之後,需要加入控制層的邏輯。張浩天説,之後,你可以像玩遊戲一樣實時操控一方運動員,改變他的跑位及擊球位置。
Vid2Player 中訓練的運動員模型可以實現自動針對對方的弱勢手、高難度接球、近網的位置截擊等等技術動作。
圖 | AI控制下運動員完成了一次漂亮的網前截擊
圖 | 有無行為模型對比圖
比如上圖,當程序的行為模型介入之後,成功“扭曲現實”,給出更加符合網球策略的擊球方案。
加入狀態機的邏輯之後,網球賽中的每個回合都被分解,循環往復串行。
圖 | 紅色點為球的落點,藍色點為運動員擊球后站位,這兩者都由運動員模型進行決策
在這些基礎之上,可以做一些非常有意思的事情,比如可以編輯已有的網球比賽。
下面這個例子是費德勒在 2019 年温網決賽痛失賽點的一個經典失誤,利用 Vid2Player 可以改變費德勒擊球的落點,這一小小的改變足以扭轉歷史,讓費天王拿下 2019 温網冠軍!
圖 | 原始視頻,球落到了白線之外
圖 | AI 生成視頻,球落到了白線之內
你還可以改變對戰雙方的運動員,前提是該運動員處於視頻集合當中。
比如開頭的費德勒同小威廉姆斯的同場競技,甚至你還可以請費德勒自己同自己對局。
圖 | 費德勒 VS 費德勒
張浩天還發給 DeepTech 一則視頻,在其中他們限制了費德勒和納達爾只能用正手打球。
如果你願意,甚至可以錄製一些原始的素材,經由 Vid2Player 處理,生成同費德勒對戰的視頻。
應用前景
當 DeepTech 問及是否考慮未來將 Vid2Player 應用到遊戲當中,張浩天回答道:“現在主流的遊戲同我們採用完全不同的技術路線,一般情況下如果遊戲廠商要做一款真人網球遊戲,他們必須讓運動員穿着採集器來建立 3D 模型,而 Vid2Player 目前是以純二維的方式來解決問題。”
“我們更多地是從視頻生成的角度,解決了生成真人網球視頻的問題。理論上,這個解決方案也適用於乒乓球和羽毛球的單打比賽中。”
“目前 Vid2Player 所能做的其實比較有限,未來我們考慮讓它能夠兼容更多種的運動和模式。拿籃球運動來舉例,屆時我們希望它不再需要人類幫助定義狀態機,而是讓 AI 自己學會區分不同的狀態,如傳球、投籃、格擋等等。”
視頻生成比圖像生成要難得多,張浩天説。在圖像生成領域,利用 GAN 已經能夠生成很真實的圖像,如人臉等。
圖 | 由 StyleGAN 生成的虛擬人像,可以看到已經非常近似於真人
但視頻生成領域,純 AI 的模型還很難生成任意的高像素、逼真的視頻。
其原因在於,視頻的複雜度較圖像要高很多,當加入時間的維度之後,空間大小暴漲。需要無限的模型容量以及無限的訓練數據,才可能有一個通用的 AI 生成視頻模型。
他説,以目前的硬件和算力水平,這個問題尚無法解決。目前視頻生成領域可以使用 AI 解決換臉的問題,原因在於臉部其實是一個非常強的約束條件,相比之下,至今還沒有一款公開、通用且成熟的能夠生成人體全身動作的 AI 模型。
“所以,我們的出發點不是一個通用的視頻生成模型,而是專注於生成某領域的視頻模型。Vid2Player 因此而誕生,它其實融合了兩個領域的技術,一是視頻生成,二是統計學意義上的體育視頻分析。”
張浩天描述道,體育視頻分析的商業前景廣闊,已經有很多公司在做相關的數據挖掘的工作,比如籃球運動員的罰球命中率、搶籃板數等就是來自於此。再比如 Vid2Player 中用到的預測網球落點的技術,也是關鍵、且非常熱門的技術。
“但是此前沒有人將這兩個領域結合到一起,某種程度上我們做了一件前人沒做過的事。希望未來這項技術可以應用到體育新聞解説或體育教學的可視化中,為受眾提供一種全新的體驗。”
【來源:DeepTech深科技】
聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]