驚現視頻Ps！物體移除，去水印，簡直毫無痕跡，這個超強AI算法剛剛登上了ECCV 2020

2020-09-07由梁丘憐翠發佈於科技

還記得哈利波特的“隱身斗篷”嗎？

披上斗篷的哈利波特瞬間隱身，毫無痕跡。

現在只需要一個AI算法，你也可以擁有這件“AI隱身衣”。

視頻『擦除』，這個AI就夠了

在視頻後期處理中，經常會遇到一項難搞的需求：如何把一個人/物從視頻中完美剔除？雖然Ps技術已經很普及，但也很難處理視頻問題。

而現在，只需要一個名為光流邊緣引導（Flow-edge Guided）的AI修復算法，這項耗時又費力的工作分分鐘就可以搞定。

至於效果怎麼樣？我們直接看演示圖。

上一秒還在路上行駛的汽車，下一秒好像從未出現過。

背景也被高度還原，看不出一點痕跡，比如下圖女孩消失後，鞦韆依然還在。

另外，它也能處理更復雜的場景和物體，比如還有漂浮在海上的帆船，正在跨越欄杆的賽馬選手。

如此完美的視頻處理效果，也讓網友驚呼：現實版《真相捕捉》，視頻可能再也不是可靠的證據。

研究人員表明，這款AI算法在視頻物體移除、去水印和畫面擴展方面均達到了目前的最佳SOTA。而且它還剛剛還被ECCV 2020頂會收錄。

ECCV全稱歐洲計算機視覺國際會議（European Conference on Computer Vision），是計算機視覺三大會議之一，每兩年舉辦一次，論文錄取率僅為27%。

光流邊緣引導修復算法

這項“隱身”AI修復技術，主要採用的是光流邊緣引導修復算法。

與現有方法相比，該算法能夠更精準的識別目標物體的運動邊界。

現有算法主要通過相鄰幀的局部流連接傳播色彩，這種方式不能保證所有視頻在刪除目標物體後，其背景都能恢復原貌，因此，很容易留下偽影。

該算法通過引入非局部流連接（Non-local Flow Connections）解決了這個問題，並使得視頻內容能夠在運動邊界上傳播。

通過在DAVIS數據集上的驗證，其可視化和定量結果都表明，該算法具有更好的性能。

具體來説，它主要是通過以下幾個方面的改進實現了最終的效果：

光流邊緣（Flow edges）：補全分段光滑流。（圖1b）
非局部流（Non-local flow）：連接不能通過傳遞流（transitive flow）到達的區域。（圖1C）
無縫融合（Seamless blending）：通過在梯度域中執行融合操作避免結果中的可見接縫（圖1d）。
內存效率（Memory efficiency），處理4K分辨率的視頻，其他方法由於GPU內存需求過大而無法實現。

以下是實現過程的完整架構圖，圖1a部分是模型的輸入源，由彩色視頻和二進制的掩碼視頻兩部分構成其中，被遮罩的像素稱為缺失區域，代表需要合成的部分。

圖1：算法模型概覽

（1）光流補全（Flow completion）

計算相鄰幀之間的正向和反向流以及一組非相鄰幀，並補全這些流場中的缺失區域。（缺失區域的值往往為零，白色）

由於邊緣通常是流映射中最顯著的特徵，因此首先完成邊緣的提取，然後，再以補全之後的邊緣為導向，逐步完成分段平滑流。

（2）時間傳播（Temporal propagation）：

接下來，沿着流的軌跡為每個丟失像素傳播一組候選像素。從鏈接前向和後向的流向量得到兩個候選點，直到到達一個已知像素。

這一過程利用的是非局部流向量：通過檢查三個時間間隔的幀來獲得另外三個候選幀，對於每個候選者，估計一個置信分數以及一個二進制有效性指標。

如圖，綠色區域代表缺失部分，黃色、橙色和棕色線分別代表第一個非局部幀、當前幀和第三個非局部幀的掃描線。

通過跟蹤流動軌跡（黑色虛線）達到缺失區域的邊緣，可以獲得藍色像素的局部候選對象。但由於人腿部運動形成的流動障礙，無法獲取紅色像素的候選對象。

在這裏研究人員藉助於連接到時間距離幀的非局部流，獲得了紅色像素的額外非局部鄰域，並還原了腿部覆蓋的真實背景。

（3）融合（Fusion）

使用置信加權平均值（A Confidence-weighted Average）將每個缺失像素的候選像素與有效候選像素進行融合（至少一個）。這一過程在梯度域內進行，以避免可見的彩色接縫（圖2d）。

如果在此過程之後仍有缺失的像素，且無法通過時間傳播來填充，將採用一個關鍵幀，使用單個圖像完成技術來填充它。

最後將整個過程不斷迭代輸入，並將結果傳播到視頻的其餘部分，以便在下一次迭代中加強時間一致性。

與先進算法相比，性能最佳

論文中，研究人員利用DAVIS數據集，與其他六種現有方法進行了比較，並進一步評估了PSNR，SSIM和LPIPS三項指標。

由於內存限制，並不是所有的方法都能處理960×512的分辨率，所以將其縮小到了720×384，並報告了兩種分辨率的數值。結果顯示，在這三個指標上，本次研究算法性能表現最佳（紅色加粗數據）。

另外，在光流補全方面，與最新進的Diffusion和徐瑞（商湯）的算法相比，該方法也能更好地呈現鋭利且平滑的運動邊界。

此外，在修復任務（前三列）和對象移除任務（後三列）方面，也有視覺上也有更好的體現。

關於作者

這篇論文由四位研究人員合力完成，包括弗吉尼亞大學的Chen Gao和Jia-Bin Huang，以及Facebook的Ayush Saraf和Johannes Kopf。其中，Chen Gao是本篇論文的一作。

Chen Gao是弗吉尼亞大學的一名在讀博士，專攻計算攝影和計算機視覺領域，研究重點是圖像/視頻操作和場景理解。在此之前，曾就讀於密歇根大學和俄勒岡州立大學。

2019年夏季，Johannes Kopf博士的幫助下，Chen Gao成為了Facebook Seattle的一名研究實習生，並且與其團隊成員合作完成了這篇論文，此外，他還是Google的研究實習生，與Shi Yichang Chang和Lai Wei-Sheng Li都有過深度合作。

最後，該團隊表示會在近期將這項技術開源。

引用鏈接：雷鋒網雷鋒網雷鋒網

項目主頁：http://chengao.vision/FGVC/

項目論文：http://chengao.vision/FGVC/files/FGVC.pdf