還記得哈利波特的“隱身斗篷”嗎?
披上斗篷的哈利波特瞬間隱身,毫無痕跡。
現在只需要一個AI算法,你也可以擁有這件“AI隱身衣”。
視頻『擦除』,這個AI就夠了在視頻後期處理中,經常會遇到一項難搞的需求:如何把一個人/物從視頻中完美剔除?雖然Ps技術已經很普及,但也很難處理視頻問題。
而現在,只需要一個名為光流邊緣引導(Flow-edge Guided)的AI修復算法,這項耗時又費力的工作分分鐘就可以搞定。
至於效果怎麼樣?我們直接看演示圖。
上一秒還在路上行駛的汽車,下一秒好像從未出現過。
背景也被高度還原,看不出一點痕跡,比如下圖女孩消失後,鞦韆依然還在。
另外,它也能處理更復雜的場景和物體,比如還有漂浮在海上的帆船,正在跨越欄杆的賽馬選手。
如此完美的視頻處理效果,也讓網友驚呼:現實版《真相捕捉》,視頻可能再也不是可靠的證據。
研究人員表明,這款AI算法在視頻物體移除、去水印和畫面擴展方面均達到了目前的最佳SOTA。而且它還剛剛還被ECCV 2020頂會收錄。
ECCV全稱歐洲計算機視覺國際會議(European Conference on Computer Vision),是計算機視覺三大會議之一,每兩年舉辦一次,論文錄取率僅為27%。
光流邊緣引導修復算法這項“隱身”AI修復技術,主要採用的是光流邊緣引導修復算法。
與現有方法相比,該算法能夠更精準的識別目標物體的運動邊界。
現有算法主要通過相鄰幀的局部流連接傳播色彩,這種方式不能保證所有視頻在刪除目標物體後,其背景都能恢復原貌,因此,很容易留下偽影。
該算法通過引入非局部流連接(Non-local Flow Connections)解決了這個問題,並使得視頻內容能夠在運動邊界上傳播。
通過在DAVIS數據集上的驗證,其可視化和定量結果都表明,該算法具有更好的性能。
具體來説,它主要是通過以下幾個方面的改進實現了最終的效果:
光流邊緣(Flow edges):補全分段光滑流。(圖1b)
非局部流(Non-local flow):連接不能通過傳遞流(transitive flow)到達的區域。(圖1C)
無縫融合(Seamless blending):通過在梯度域中執行融合操作避免結果中的可見接縫(圖1d)。
內存效率(Memory efficiency),處理4K分辨率的視頻,其他方法由於GPU內存需求過大而無法實現。
以下是實現過程的完整架構圖,圖1a部分是模型的輸入源,由彩色視頻和二進制的掩碼視頻兩部分構成其中,被遮罩的像素稱為缺失區域,代表需要合成的部分。
圖1:算法模型概覽
(1)光流補全(Flow completion)
計算相鄰幀之間的正向和反向流以及一組非相鄰幀,並補全這些流場中的缺失區域。(缺失區域的值往往為零,白色)
由於邊緣通常是流映射中最顯著的特徵,因此首先完成邊緣的提取,然後,再以補全之後的邊緣為導向,逐步完成分段平滑流。
(2) 時間傳播(Temporal propagation):
接下來,沿着流的軌跡為每個丟失像素傳播一組候選像素。從鏈接前向和後向的流向量得到兩個候選點,直到到達一個已知像素。
這一過程利用的是非局部流向量:通過檢查三個時間間隔的幀來獲得另外三個候選幀,對於每個候選者,估計一個置信分數以及一個二進制有效性指標。
如圖,綠色區域代表缺失部分,黃色、橙色和棕色線分別代表第一個非局部幀、當前幀和第三個非局部幀的掃描線。
通過跟蹤流動軌跡(黑色虛線)達到缺失區域的邊緣,可以獲得藍色像素的局部候選對象。但由於人腿部運動形成的流動障礙,無法獲取紅色像素的候選對象。
在這裏研究人員藉助於連接到時間距離幀的非局部流,獲得了紅色像素的額外非局部鄰域,並還原了腿部覆蓋的真實背景。
(3) 融合(Fusion)
使用置信加權平均值(A Confidence-weighted Average)將每個缺失像素的候選像素與有效候選像素進行融合(至少一個)。這一過程在梯度域內進行,以避免可見的彩色接縫(圖2d)。
如果在此過程之後仍有缺失的像素,且無法通過時間傳播來填充,將採用一個關鍵幀,使用單個圖像完成技術來填充它。
最後將整個過程不斷迭代輸入,並將結果傳播到視頻的其餘部分,以便在下一次迭代中加強時間一致性。
與先進算法相比,性能最佳論文中,研究人員利用DAVIS數據集,與其他六種現有方法進行了比較,並進一步評估了PSNR,SSIM和LPIPS三項指標。
由於內存限制,並不是所有的方法都能處理960×512的分辨率,所以將其縮小到了720×384,並報告了兩種分辨率的數值。結果顯示,在這三個指標上,本次研究算法性能表現最佳(紅色加粗數據)。
另外,在光流補全方面,與最新進的Diffusion和徐瑞(商湯)的算法相比,該方法也能更好地呈現鋭利且平滑的運動邊界。
此外,在修復任務(前三列)和對象移除任務(後三列)方面,也有視覺上也有更好的體現。
關於作者這篇論文由四位研究人員合力完成,包括弗吉尼亞大學的Chen Gao和Jia-Bin Huang,以及Facebook的Ayush Saraf和Johannes Kopf。其中,Chen Gao是本篇論文的一作。
Chen Gao是弗吉尼亞大學的一名在讀博士,專攻計算攝影和計算機視覺領域,研究重點是圖像/視頻操作和場景理解。在此之前,曾就讀於密歇根大學和俄勒岡州立大學。
2019年夏季,Johannes Kopf博士的幫助下,Chen Gao成為了Facebook Seattle的一名研究實習生,並且與其團隊成員合作完成了這篇論文,此外,他還是Google的研究實習生,與Shi Yichang Chang和Lai Wei-Sheng Li都有過深度合作。
最後,該團隊表示會在近期將這項技術開源。
引用鏈接:雷鋒網雷鋒網雷鋒網
項目主頁:http://chengao.vision/FGVC/
項目論文:http://chengao.vision/FGVC/files/FGVC.pdf