楠木軒

驚現視頻Ps!物體移除,去水印,簡直毫無痕跡,這個超強AI算法剛剛登上了ECCV 2020

由 梁丘憐翠 發佈於 科技

還記得哈利波特的“隱身斗篷”嗎?

披上斗篷的哈利波特瞬間隱身,毫無痕跡。

現在只需要一個AI算法,你也可以擁有這件“AI隱身衣”。

視頻『擦除』,這個AI就夠了

在視頻後期處理中,經常會遇到一項難搞的需求:如何把一個人/物從視頻中完美剔除?雖然Ps技術已經很普及,但也很難處理視頻問題。

而現在,只需要一個名為光流邊緣引導(Flow-edge Guided)的AI修復算法,這項耗時又費力的工作分分鐘就可以搞定。

至於效果怎麼樣?我們直接看演示圖。

上一秒還在路上行駛的汽車,下一秒好像從未出現過。

背景也被高度還原,看不出一點痕跡,比如下圖女孩消失後,鞦韆依然還在。

另外,它也能處理更復雜的場景和物體,比如還有漂浮在海上的帆船,正在跨越欄杆的賽馬選手。

如此完美的視頻處理效果,也讓網友驚呼:現實版《真相捕捉》,視頻可能再也不是可靠的證據。

研究人員表明,這款AI算法在視頻物體移除、去水印和畫面擴展方面均達到了目前的最佳SOTA。而且它還剛剛還被ECCV 2020頂會收錄。

ECCV全稱歐洲計算機視覺國際會議(European Conference on Computer Vision),是計算機視覺三大會議之一,每兩年舉辦一次,論文錄取率僅為27%。

光流邊緣引導修復算法

這項“隱身”AI修復技術,主要採用的是光流邊緣引導修復算法。

與現有方法相比,該算法能夠更精準的識別目標物體的運動邊界。

現有算法主要通過相鄰幀的局部流連接傳播色彩,這種方式不能保證所有視頻在刪除目標物體後,其背景都能恢復原貌,因此,很容易留下偽影。

該算法通過引入非局部流連接(Non-local Flow Connections)解決了這個問題,並使得視頻內容能夠在運動邊界上傳播。

通過在DAVIS數據集上的驗證,其可視化和定量結果都表明,該算法具有更好的性能。

具體來説,它主要是通過以下幾個方面的改進實現了最終的效果:

  • 光流邊緣(Flow edges):補全分段光滑流。(圖1b)

  • 非局部流(Non-local flow):連接不能通過傳遞流(transitive flow)到達的區域。(圖1C)

  • 無縫融合(Seamless blending):通過在梯度域中執行融合操作避免結果中的可見接縫(圖1d)。

  • 內存效率(Memory efficiency),處理4K分辨率的視頻,其他方法由於GPU內存需求過大而無法實現。

以下是實現過程的完整架構圖,圖1a部分是模型的輸入源,由彩色視頻和二進制的掩碼視頻兩部分構成其中,被遮罩的像素稱為缺失區域,代表需要合成的部分。


圖1:算法模型概覽

(1)光流補全(Flow completion)

計算相鄰幀之間的正向和反向流以及一組非相鄰幀,並補全這些流場中的缺失區域。(缺失區域的值往往為零,白色)

由於邊緣通常是流映射中最顯著的特徵,因此首先完成邊緣的提取,然後,再以補全之後的邊緣為導向,逐步完成分段平滑流。

(2) 時間傳播(Temporal propagation):

接下來,沿着流的軌跡為每個丟失像素傳播一組候選像素。從鏈接前向和後向的流向量得到兩個候選點,直到到達一個已知像素。

這一過程利用的是非局部流向量:通過檢查三個時間間隔的幀來獲得另外三個候選幀,對於每個候選者,估計一個置信分數以及一個二進制有效性指標。

如圖,綠色區域代表缺失部分,黃色、橙色和棕色線分別代表第一個非局部幀、當前幀和第三個非局部幀的掃描線。

通過跟蹤流動軌跡(黑色虛線)達到缺失區域的邊緣,可以獲得藍色像素的局部候選對象。但由於人腿部運動形成的流動障礙,無法獲取紅色像素的候選對象。

在這裏研究人員藉助於連接到時間距離幀的非局部流,獲得了紅色像素的額外非局部鄰域,並還原了腿部覆蓋的真實背景。

(3) 融合(Fusion)

使用置信加權平均值(A Confidence-weighted Average)將每個缺失像素的候選像素與有效候選像素進行融合(至少一個)。這一過程在梯度域內進行,以避免可見的彩色接縫(圖2d)。

如果在此過程之後仍有缺失的像素,且無法通過時間傳播來填充,將採用一個關鍵幀,使用單個圖像完成技術來填充它。

最後將整個過程不斷迭代輸入,並將結果傳播到視頻的其餘部分,以便在下一次迭代中加強時間一致性。

與先進算法相比,性能最佳

論文中,研究人員利用DAVIS數據集,與其他六種現有方法進行了比較,並進一步評估了PSNR,SSIM和LPIPS三項指標。

由於內存限制,並不是所有的方法都能處理960×512的分辨率,所以將其縮小到了720×384,並報告了兩種分辨率的數值。結果顯示,在這三個指標上,本次研究算法性能表現最佳(紅色加粗數據)。

另外,在光流補全方面,與最新進的Diffusion和徐瑞(商湯)的算法相比,該方法也能更好地呈現鋭利且平滑的運動邊界。

此外,在修復任務(前三列)和對象移除任務(後三列)方面,也有視覺上也有更好的體現。

關於作者

這篇論文由四位研究人員合力完成,包括弗吉尼亞大學的Chen Gao和Jia-Bin Huang,以及Facebook的Ayush Saraf和Johannes Kopf。其中,Chen Gao是本篇論文的一作。

Chen Gao是弗吉尼亞大學的一名在讀博士,專攻計算攝影和計算機視覺領域,研究重點是圖像/視頻操作和場景理解。在此之前,曾就讀於密歇根大學和俄勒岡州立大學。

2019年夏季,Johannes Kopf博士的幫助下,Chen Gao成為了Facebook Seattle的一名研究實習生,並且與其團隊成員合作完成了這篇論文,此外,他還是Google的研究實習生,與Shi Yichang Chang和Lai Wei-Sheng Li都有過深度合作。

最後,該團隊表示會在近期將這項技術開源。

引用鏈接:雷鋒網雷鋒網雷鋒網

項目主頁:http://chengao.vision/FGVC/

項目論文:http://chengao.vision/FGVC/files/FGVC.pdf