AI視頻摳圖有多強？無需「綠幕」，也可達影視級效果！

今天一大早就被網友們安利了一個熱門AI項目。

聽説，它可以帶你周遊世界，還能讓AngelaBaby多拍幾部電視劇。

這是啥情況？？

仔細一瞭解，原來是一款AI視頻摳圖神器，一大早就衝上了GitHub熱榜。

官方介紹説，這個AI神器可以讓視頻處理變得非常簡單且專業，不用「綠幕」，也能達到逼真、毫無違和感的合成效果。

果然，打工人的“周遊世界”只有AI能實現了[淚目]。

其實，視頻摳圖AI已經出現過不少，但這一款確實讓人覺得很驚豔。先來看下它演示Demo。

你能看出公路背景和大海背景的視頻，哪一個是AI合成的嗎？

連撩起的頭髮都看不出一點破綻。

而且就算瘋狂跳舞也沒有影響合成效果。

再來看下它背後的摳圖細節，不僅精確到了頭髮，甚至還包括浮起的碎髮......

動態效果也是如此，瘋狂甩頭也能實時捕捉細節。

這項超強AI摳圖神器來自香港城市大學和商湯科技聯合研究團隊，論文一作還是一位在讀博士生張漢科。

接下來，我們來看下它背後的技術原理。

目標分解網絡MODNet

關鍵在於，這個AI採用了一種輕量級的目標分解網絡MODNet（ Matting Objective Decomposition Network），它可以從不同背景的單個輸入圖像中平滑地處理動態人像。

簡單的説，其功能就是視頻人像摳圖。

我們知道，一些影視作品尤其是古裝劇，必須要對人物的背景進行後期處理。為了達到逼真的合成效果，拍攝時一般都會採用「綠幕」做背景。因為綠色屏幕可以使高質量的Alpha 蒙版實時提取圖像或視頻中的人物。

另外，如果沒有綠屏的話，通常採用的技術手段是光照處理法，即使預定義的Trimap作為自然光照算法輸入。這種方法會粗略地生成三位圖：確定的（不透明）前景，確定的（透明）背景以及介於兩者之間的未知（不透明）區域。

如果使用人工註釋三位圖不僅昂貴，而且深度相機可能會導致精度下降。因此，針對以上不足，研究人員提出了目標分解網絡MODNet。

如圖所示，MODNet由三個相互依賴的分支S、D和F構成。它們分別通過一個低分辨率分支來預測人類語義（SP）、一個高分辨率分支來聚焦縱向的邊界細節（DP），最後一個融合分支來預測Alpha Matte （αp）。

具體如下：

語義估計（Semantic Estimation）：採用MobileNetV2[35]架構，通過編碼器（即MODNet的低分辨率分支）來提取高層語義。
細節預測（Detail Prediction）：處理前景肖像周圍的過渡區域，以I，S（I）和S的低層特徵作為輸入。同時對它的卷積層數、信道數、輸入分辨率三個方面進行了優化。
語義細節融合（Semantic-Detail Fusion）：一個融合了語義和細節的CNN模塊，它向上採樣S（I）以使其形狀與D（I，S（I））相之相匹配，再將S（I）和D（I，S（I））連接起來預測最終αp。

另外，基於以上底層框架，該研究還提出了一種自監督策略SOC（Sub-Objectives Consistency）和幀延遲處理方法OFD（One-Frame Delay )。

其中，SOC策略可以保證MODNet架構在處理未標註數據時，讓輸出的子目標之間具有一致性；OFD方法在執行人像摳像視頻任務時，可以在平滑視頻序列中預測Alpha遮罩。如下圖：

實驗評估

在開展實驗評估之前，研究人員創建了一個攝影人像基準數據集PPM-100（Photographic Portrait Matting）。

它包含了100幅不同背景的已精細註釋的肖像圖像。為了保證樣本的多樣性，PPM-100還被定義了幾個分類規則來平衡樣本類型，比如是否包括整個人體；圖像背景是否模糊；是否持有其他物體。如圖：

PPM-100中的樣圖具有豐富的背景和人物姿勢。因此可以被看做一個較為全面的基準。

那麼我們來看下實驗結果：

圖中顯示，MODNet在MSE（均方誤差）和MAD（平均值）上都優於其他無Trimap的方法。雖然它的性能不如採用Trimap的DIM，但如果將MODNet修改為基於Trimap的方法—即以Trimap作為輸入，它的性能會優於基於Trimap的DIM，這也再次表明顯示MODNet的結構體系具有優越性。

此外，研究人員還進一步證明了MODNet在模型大小和執行效率方面的優勢。

其中，模型大小通過參數總數來衡量，執行效率通過NVIDIA GTX1080 Ti GPU上超過PPM-100的平均參考時間來反映（輸入圖像被裁剪為512×512）。結果如圖：

上圖顯示，MODNet的推理時間為15.8ms（63fps），是FDMPA（31fps）的兩倍。雖然MODNet的參數量比FDMPA稍多，但性能明顯更好。

需要注意的是，較少的參數並不意味着更快的推理速度，因為模型可能有較大的特徵映射或耗時機制，比如，注意力機制（Attention Mechanisms）。

總之，MODNet提出了一個簡單、快速且有效實時人像摳圖處理方法。該方法僅以RGB圖像為輸入，實現了場景變化下Alpha 蒙版預測。此外，由於所提出的SOC和OFD，MODNet在實際應用中受到的域轉移問題影響也較小。

不過遺憾的是，該方法不能處理複雜的服裝和模糊的運動視頻，因為這些內容不涵蓋在訓練數據集內。下一階段，研究人員會嘗試通過附加子目標（例如光流估計）的方法來解決運動模糊下的視頻摳圖問題。

更多論文內容可參見：https://arxiv.org/pdf/2011.11961.pdf

引用鏈接：

https://www.youtube.com/watch?v=PqJ3BRHX3Lc&feature;=youtu.be

https://github.com/ZHKKKe/MODNet

https://syncedreview.com/2020/11/26/do-we-really-need-green-screens-for-high-quality-real-time-human-matting/

https://www.reddit.com/r/MachineLearning/comments/k1sttd/r_do_we_really_need_green_screens_for_highquality/

雷鋒網雷鋒網雷鋒網