AI生成肖像畫，精細到毛髮！北大校友最新研究收割2.8k星標，還登上了ICPR 2020

2020-12-03由諸葛寒香發佈於科技

“只要思想不滑坡，辦法總比困難多，乾巴得！”

打工人的一天終於要結束了！拖着疲憊的身軀準備下班，卻聽到同事小A還在給自己打氣。

只見他迅速打開電腦，打開百度、打開知乎豆瓣微博微信......

都輸入了同一行字：肖像畫簡易教程......

還以為他要幹什麼驚天動地的大事！原來是想給女神古力娜扎（Gulnazar）畫一幅肖像畫。

年輕人就是年輕人，還有精力追星。

可還沒等我離開，他卻哭了—"世上無難事，只要肯放棄”，哇的一聲！

也是難為他了。無文藝細胞的理工男一枚，沒學過畫兒，也沒畫過畫兒，現在還想給女神畫一幅肖像畫兒，看這頭秀髮哪是一個小白能畫出來的。

“這哪是簡易教程，構圖、劃線、起形.....看的我頭都大了，效果還只是這樣。”

聽着小A絮絮叨叨、絮絮叨叨的吐槽，不禁想起了當年的自己，作為一個呆萌理工男也少不了做過同樣的蠢事。

“你不知道有很多APP，只要輸入照片就可以一秒生成嗎？”我忍不住説到。

小A呆住了。

“不過，看來你的要求還挺高，這樣，給你推薦一個高階版神器吧”。我迅速發了一張樣圖給他：

（別問我為什麼可以迅速，問就是早有預謀）[讓我看看]

“先看整體感覺，是不是一股藝術氣息撲面而來？再看看神情，輕輕皺眉都能捕捉到位，再看看這頭髮，濃密柔和自然，還根根分明，一看就是專業水準.....%￥#%@#”，不知不覺又暴露了推銷老司機的本質....

“贊、太贊、非常贊！一句話，這是用的什麼神器？”

“我發給你，就是用的這款AI工具...........%￥#%@#，它的研發者還是我們北大....”

話還沒説完，小A就把他的成果圖發給了我。

“太棒了，沒想到如此輕鬆就搞定了！”只見他邊説邊合上電腦、裝進書包，穿上外套，大步走向了門口，這速度像極了我平常下班的樣子......

最後還不忘轉身朝我比了一串串小芯芯......

我呆住了。“先走的不應該是我嗎？”，“等等，我話還沒説完！”。

“算了，這班我不下了”。

除了他，相信大家對這項AI工具的背後原理「一定」非常感興趣，那麼我就來給大家詳細介紹一下。

北大校友出品：顯著性目標檢測工具

這款AI工具叫U^∧2-Net（U Square Net），最近火到不行！

不僅登上了GitHub熱榜，收割了2.8k星標，還被頂會ICPR 2020 選中。更關鍵是，這項研究的一作還是北大校友——秦雪彬。

相信不少開發者朋友對這個名字非常熟悉，他之前提出邊界感知顯著目標檢測網絡 BASNet，被用來做了很多好玩的工具，比如『隔空複製粘貼』——AR Cut & Paste

https://twitter.com/cyrildiagne/status/1256916982764646402

只要手機掃一掃，書本、花盆、雜誌人物，你能看到的任何現實物體，只需10s統統都可以被“粘貼”到電腦裏。

這項研究在Reddit上短短几個小時，就獲得了近5K點贊量，之後累計瀏覽量超過了500萬。

秦雪彬以前在北京大學讀碩士，現在是加拿大阿爾伯塔大學的一名在讀博士。他對計算機視覺技術非常感興趣，尤其是目標物體檢測。最近推出的這款U^2-Net深度網絡架構，同樣是一個目標檢測工具。

之前的BASNet網絡被用來做“複製粘貼”測試，效果很好。這次，他就用U^2-Net做了一個生成肖像畫測試，結果也火了。

再來感受下精細到毛髮的生成效果。

目標檢測是計算機視覺和數字圖像處理的一個重要分支。計算機視覺對於目標運動的分析大致分為三個層次：圖像分割，目標檢測；目標跟蹤；目標識別與描述。其中，目標檢測是最基礎且關鍵的環節。

2006 年，自深度學習三大巨頭Hinton、Bengio、Lecun 提出卷積神經網絡（CNN），並應用於圖像處理以來，目標檢測技術得到顯著性改善，尤其是隨着全卷積神經網絡（FCN）的提出，目標檢測任務逐步達到最佳SOAT。

在今年的MICCAI 2020（國際醫學圖像計算與計算機介入）大會上，U^2-Net憑藉出色的性能表現，在甲狀腺結節分割比賽中獲得第六名。

接下來，我們説説它是如何做到的。

任何AI處理過程都分為三個階段：輸入目標——模型訓練——輸出結果。要想達到高質量的生成效果，除了考驗模型精度外，當然輸入源也很重要。這一點也是我們所能控制的。

對於U^2-Net而言，高質量的照片源可以獲得更多細節，所以在上傳照片時要注意以下幾點：

照片中人頭區域應接近或大於512x512像素。
照片整體大小最好達到960x1280像素。
背景要儘量清晰、無干擾。

如圖，秦雪彬還親自示範做了説明。

接下來是最關鍵的目標檢測模型（SOD）。

U^∧2-Net模型：嵌套式雙層U型結構

先來看一組與現有最先進SOD模型的比較。

其中紅色星標代表U^∧2模型（176.3 MB），它在相對小的模型尺寸下，表現出了最高性能。（藍色星標為4.7 MB的U^∧2）

之所以達到如此性能，是因為U^∧2擁有兩層嵌套式U型結構，其中的ReSidual U-Block（RSU）中混合了大小不同的接收域，能夠從不同尺度捕獲更多語境信息。另外，由於這些RSU塊中使用了池化操作，因此可以深度捕獲更多細節，同時不會顯著增加計算成本。

最關鍵的是，這種結構體系能夠讓模型從頭訓練深層網絡，而無需使用圖像分類任務的架構。

現在大多數SOD 網絡設計都存在這樣一個問題：即專注於利用現有的基礎網絡提取深度特徵，例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但這些主幹網絡最初都是為圖像分類任務設計的。

它們提取代表語義含義的特徵，而不是代表局部性細節或全局對照信息，這對於顯著性目標檢測至關重要，並且這些網絡通常需要在 ImageNet 數據上進行預訓練，效率比較低。相比之下，U∧2-Net可以有效地避免上述問題。

U^∧2-Net架構

接下來詳細介紹其中的Block結構、網絡監督策略以及訓練損失。

ReSidual U-Block

在圖像信息提取中，1×1或3×3的小型卷積濾波器是最常用的特徵提取元件。因為它所需內存小且計算效率高。但該元件接收域太小，無法捕獲全局信息，因此解決方法只能是採用擴張卷積（Dilated Convolution）的方法來擴大接收域。

然而在原始分辨率的特徵圖上進行多次擴張卷積（尤其是在初始階段），會耗費大量的計算和內存資源。

為了降低計算成本，同時又能捕獲全局信息，研究人員採用了金字塔池化模塊（Pyramid Scene Parseing Network，PSPNet）。該模塊在下采樣特徵映射上使用小核濾波器，而不是在原始尺寸的特徵映射上使用擴張卷積的方法。

但通過直接上採樣和級聯將不同尺度的特徵融合，可能會導致高分辨率特徵的退化。因此，研究人員受到受U型網絡結構的啓發，提出了一種全新的ReSidual U-block：RSU，來捕獲階段內的多尺度特徵。如圖：

從測試數據來看，RSU計算開銷確實相對較小。與PLN（普通卷積塊）、RES（剩餘塊）、DSE（密集塊）、INC（初始化塊）相比，所耗費的GFLOPS浮點數最低。（GFLOPS ，全稱Giga Floating-point Operations Per Second，即每秒10億次的浮點運算數，常作為GPU性能參數）。

Supervision策略

在訓練過程中，研究人員採用了類似於HED的深度監督。

其中，訓練損失（Training Loss）定義為：

每個項L使用標準二進制交叉熵來計算損失：

在訓練過程，等式（1）讓總體損失最小化；在測試過程，選擇融合輸出的l_fuse作為最終的顯著性圖。

比較實驗：全尺寸最佳SOTA

在論文中，研究人員將U2模型與其他20多種現有最先進的模型進行了比較。

其中，各模型採用訓練數據集是DUTS-TR，它含10553張圖像，是目前用於目標檢測的最大和最常用的數據集；採用的基準數據集分別為DUT-OMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD六種。

先來看下定性比較的結果：

紅色、綠色和藍色分別表示最佳、第二和第三性能

從表3、表4來看，U^∧2-Net在DUT-OMRON、HKU-IS以及ECSSD三個基準數據集上展現了極大先進性，五個評估指標都達到了最佳SOTA。

其中，在DUTS-TE上，U^∧2-Net總體性能僅次於PoolNet；在PASCAL-S上，U^∧2-Net性能僅略低於AFNet、CPD和PoolNet。此外，在邊界質量評估指標（RelaxF^b_β）方面，U^∧2-Net性能位居第二。

在SOD數據集上， U^∧2-Net在整體性能方面也僅此於PoolNet。更重要的是，U^∧2-Net模型大小隻有4.7 MB，是在顯著性目標檢測領域型號最小的，而且與其他型號相比，它的參數量也少的多。

定性比較結果：比較了七種SOTA模型，如圖：

可以看出，U^∧2-Net能夠處理不同類型的目標，並均產生了精準的識別結果。

比如，第4行圖像充分展示它在分割由大結構和薄結構組成的目標時的性能；在第六行復雜的圖像結構下，產生了近乎完美的結果。

總之，U^∧2-Net模型能夠處理全尺寸和小尺寸圖像的各種場景，與其他模型相比，能夠產生更高精度的顯著目標檢測結果。

好了。就這樣，希望瞭解更多論文內容的可以戳這裏：https://arxiv.org/pdf/2005.09007.pdf

等了一個小時的滴滴準時到了！

加油，打工人！

相關地址：

https://github.com/NathanUA/U-2-Net

https://github.com/yiranran/APDrawingGAN

https://webdocs.cs.ualberta.ca/~xuebin/

雷鋒網雷鋒網雷鋒網