華為視覺34篇論文入圍計算機視覺頂會,為華為雲EI服務構建競爭力

國際計算機視覺和模式識別大會(CVPR)一直是計算機視覺領域最重要的會議之一。受到新冠肺炎疫情影響,CVPR 2020改為6月14-19日舉行虛擬線上會議。本次大會共收錄了來自全球的1470篇論文。華為視覺研究團隊此次為業界貢獻了34篇高質量的論文,其中包括7篇口頭報告論文(注:華為視覺團隊在CVPR 2020上發表34篇論文的完整列表,請參見文末附錄)。

華為公司非常重視人工智能研究,並將其作為“構建萬物互聯的智能世界”的重點攻關對象。計算機視覺作為圖像處理的基本工具,在華為公司的多項業務場景中扮演着舉足輕重的角色。2018年6月,田奇教授全職加入華為諾亞方舟實驗室,擔任計算視覺研究首席科學家,帶領華為視覺團隊多次在頂級國際視覺會議上取得了優異的成績。

2020年3月,田奇開始擔任華為雲人工智能領域首席科學家,主導華為雲人工智能領域技術規劃和提供技術支撐,並且代表華為公司正式發佈《華為視覺計劃》,着眼當前業界最為關心的三大基礎問題,即如何從海量數據中挖掘有效信息、如何設計高效的視覺識別模型,以及如何表達並存儲知識。《華為視覺計劃》分為六大子計劃:與數據相關的數據冰山計劃數據魔方計劃;與模型相關的模型摸高計劃模型瘦身計劃;以及與知識相關的萬物預視計劃虛實合一計劃

圖:構成《華為視覺計劃》的六大子計劃

(參見官網:https://www.huaweicloud.com/ascend/cvplan)

《華為視覺計劃》對業界的核心問題進行了梳理,為華為雲人工智能領域的核心技術進行了規劃,結合華為雲平台豐富的實際應用場景,對先進的人工智能技術進行落地驗證及應用。

截至2020年Q1,華為雲EI企業智能可提供60種服務、160項功能,其中包括基於計算機視覺技術的文字識別、圖像識別、內容審核、視頻分析、人臉人體識別等多個大類的數十種服務,以及多模態AI應用開發套件HiLens,服務於物流、園區、互聯網、醫療、金融等眾多行業。

華為視覺研究團隊本次入圍CVPR2020的34篇論文涵蓋遷移學習、半監督學習、網絡架構搜索、模型算子優化、知識蒸餾、對抗樣本生成等前沿領域。展示了華為在計算機視覺領域強大的人才儲備、科研底藴和創新能力。接下來將從數據-模型-知識三大基礎問題出發介紹華為CVPR2020代表性工作。

華為入選CVPR 2020的部分代表性論文介紹

[數據挖掘] Cross-domain Detection via Graph-induced Prototype Alignment

本文提出了一種跨域的學習方法,能夠利用基於圖匹配提升跨域遷移的效果。這本身是一個極具挑戰性的問題,因為域間的分佈差異會大大提升算法的難度。本方法的核心是構建一個兩階段的對齊算法:第一階段(實例級)用於挖掘物體內部不同部件之間的相對關係,而第二階段(類別級)用於挖掘不同物體之間的相對關係。整體算法被稱為Graph-induced Prototype Alignment(GPA),它能夠與不同的物體檢測框架相結合。在Faster R-CNN的基礎上,算法在不同數據集間的遷移檢測任務上,為基線算法提供了顯著的性能提升。該算法已經開源:https://github.com/ChrisAllenMing/GPA-detection

[數據挖掘] Learning to Select Base Classes for Few-shot Classification

近年來,小樣本學習越來越吸引研究人員的關注。人們提出了許多方法來進行從基類到新類的學習,但是很少有人研究怎樣去進行基類的選擇,或者是否不同的基類會導致學習到的模型具有不同的泛化能力。在這個工作中,我們提出一個簡單但是有效的準則,相似比,來衡量小樣本模型的泛化能力。我們把基類選擇問題轉化為相似比的子模函數優化問題。我們進一步通過對不同優化方法的上界進行理論分析,來尋找適合某一特定場景的優化方法。在ImageNet, Caltech256和CUB-200-2011等數據集上進行的大量實驗驗證了提出的方法在基類選擇上的有效性。

[數據挖掘] Noise-aware Fully Webly Supervised Object Detection

本文提出了一個新的訓練物體檢測器的方法,它僅需要網上圖像級別的標籤,而無需任何其它的監督信息。這是一項極具挑戰的任務,因為網絡上的圖像級標籤噪聲極大,會導致訓練出來的檢測器性能很差。我們提出了一個端到端的框架,它能在訓練檢測器的同時減少有噪標籤的負面影響,其中的結合弱監督檢測的殘差學習結構能將背景噪聲分解併為乾淨數據建模。此外,我們提出的Bagging-Mixup學習方案可以抑制來自錯誤標註圖像的噪聲,同時保持訓練數據的多樣性。我們利用在照片共享網站的搜索獲得的圖像訓練檢測器,在流行的基準數據集上進行評估。大量的實驗表明,我們的方法明顯優於現有的方法。

[數據挖掘] Gradually Vanishing Bridge for Adversarial Domain Adaptation

在無監督的領域適應中,豐富的領域特性給學習領域不變特徵帶來了巨大挑戰。但是,在現有解決方案中,領域差異被直接最小化,在實際情況中難以實現較好的差異消除。一些方法通過對特徵中對領域不變部分和領域專屬部分進行顯式建模來減輕難度,但是這種顯式構造的方法在所構造的領域不變特徵中容易殘留領域專屬特徵。本文在生成器和鑑別器上都使用了減弱式橋樑(GVB)機制。在生成器上,GVB不僅可以降低總體遷移難度,而且可以減少領域不變特徵中殘留的領域專屬特徵的影響。在鑑別器上,GVB有助於增強鑑別能力,並平衡對抗訓練過程。三個具有挑戰性的數據集上的實驗表明,GVB方法優於強大的競爭對手,並且可以與其他領域適應的對抗方法實現很好地協作。這一項目已經開源:https://github.com/cuishuhao/GVB。

[模型優化] SP-NAS: Serial-to-Parallel Backbone Search for Object Detection

我們使用神經網絡結構搜索自動設計針對於目標檢測任務的主幹網絡,以彌合分類任務和檢測任務之間的差距。我們提出了一個名為SP-NAS的兩階段搜索算法(串行到並行的搜索)。串行搜索階段旨在通過“交換,擴展,重點火”的搜索算法在特徵層次結構中找到具有最佳感受野比例和輸出通道的串行序列;並行搜索階段會自動搜索並將幾個子結構以及先前生成的主幹網絡組裝到一個更強大的並行結構的主幹網絡中。我們在多個檢測數據集上可達到SOTA結果,在ECP的公開的行人檢測排行榜上達到第一名的頂級性能(LAMR:0.055)。

[模型優化] Revisit Knowledge Distillation: A teacher-free Framework

知識蒸餾(KD)的成功通常歸因於由教師模型提供的類別之間相似性的信息。在這項工作中,我們觀察到:1)除了教師可以提高學生的性能外,學生還可以通過逆轉程序來提高教師性能; 2)未充分訓練的教師網絡仍然可以提高學生的水平。為了解釋這些觀察,我們提供了KD和標籤平滑規則化之間關係的分析,證明1)KD是一種學習的標籤平滑正則化,2)標籤平滑正則化等價於利用虛擬教師模型來做KD,並進一步提出了一種新穎的無教師知識蒸餾(Tf-KD)框架。在沒有任何額外計算成本的情況下,該框架比公認的基線模型提高了0.65%。代碼位於 https://github.com/yuanli2333/Teacher-free-Knowledge-Distillation。

[模型優化] GhostNet: More Features from Cheap Operations

論文提出了一個全新的Ghost模塊,旨在通過廉價操作生成更多的特徵圖。基於一組原始的特徵圖,作者應用一系列線性變換,以很小的代價生成許多能從原始特徵發掘所需信息的“幻影”特徵圖(Ghost feature maps)。該Ghost模塊即插即用,通過堆疊Ghost模塊得出Ghost bottleneck,進而搭建輕量級神經網絡——GhostNet。在ImageNet分類任務,GhostNet在相似計算量情況下Top-1正確率達75.7%,顯著高於MobileNetV3的75.2%。相關代碼已開源:https://github.com/huawei-noah/ghostnet

[模型優化] AdderNet: Do We Really Need Multiplications in Deep Learning?

和乘法操作相比,加法操作對於計算機來説具有更少的計算代價。本論文提出了加法神經網絡,通過將卷積中計算特徵和卷積核的互相關替換為L1距離,卷積運算中的乘法可以被完全替換為更為輕量的加法計算。我們提出了針對加法神經網絡特殊的反向傳播和學習率調整技巧以提升加法神經網絡的表達能力和準確率。實驗表明,我們提出的加法神經網絡可以使用ResNet-50網絡在ImageNet數據集上達到74.9%的Top-1準確率和91.7%的Top-5準確率,並且在卷積計算中不包含任何的乘法。相關代碼已開源:https://github.com/huawei-noah/addernet

[知識抽取] SketchyCOCO: Image Generation from Freehand Scene Sketches

本文提出了首個從場景級手繪草圖自動生成圖像的方法。我們的模型允許通過手繪草圖指定合成目標,從而實現可控的圖像生成。本文的關鍵貢獻在於設計了EdgeGAN,它是一個屬性矢量橋接的生成對抗網絡,能夠支持高質量的物體級別的圖像內容生成,而無需使用徒手草圖作為訓練數據。我們建立了一個名為SketchyCOCO的大型數據集,用於評估所提出的解決方案。在物體級別和場景級別圖像生成任務上,我們在SketchyCOCO上測試了我們的方法。 通過定量和定性的結果、視覺評估和消融實驗,我們驗證了該方法能夠從各種手繪草圖中生成逼真的複雜場景圖像。

[知識抽取] Creating Something from Nothing: Unsupervised Knowledge Distillation for Cross-modal Hashing

本文提出了一種利用“無中生有”的監督方式,用於跨模態哈希編碼。現存的跨模態哈希編碼分為有監督和無監督兩類,前者通常精度更高,但依賴於圖像級標註信息,以生成相似度矩陣。本方法創新性地提出,利用無監督的哈希方法產生圖像特徵,並利用圖像特徵計算相似度矩陣,從而繞開了對監督信號的需求,在不增加標註代價的情況下,提升了跨模態哈希編碼的精度,超過了所有無監督的編碼方法。本文還分析了圖像特徵和文本特徵在相似度計算中的作用,並且討論了這種方法在類似場景中的應用。

[知識抽取] Transformation GAN for Unsupervised Image Synthesis and Representation Learning

本文提出了一種新的自監督對抗生成網絡模型,與現有的模型不同,新的模型既通過預測投影變換參數的自監督方式約束生成圖片,又使用編碼器提取到的特徵來約束生成網絡中間層的特徵,從而更充分地利用自監督信息以提升性能。在新提出的模型中,我們使用中間特徵匹配的方式約束生成網絡的中間特徵與自監督編碼器的中間特徵包含相似的語義信息。同時,我們提出了一種新的“特徵-變換”匹配的約束,即:要求生成特徵具有與自監督提取特徵相似的“特徵-變換”映射關係。上圖顯示了模型完整的訓練過程:對於全局判別網絡D,我們訓練D在分辨生成圖片與真實圖片的同時,能夠預測出施加在真實圖上的投影變換的參數;而在生成網絡的訓練中,我們首先通過對抗訓練約束生成特徵與自監督提取特徵包含相似的語義信息。同時,我們訓練T網絡去近似真實圖片變換前後所提取到的特徵之間的映射關係,並約束生成特徵具有相似的“特徵-變換”映射關係。本文提出的方法在無監督圖片生成的任務上獲得了比有監督對比模型更好的性能(FID)。

[知識抽取] Unsupervised Model Personalization while Preserving Privacy and Scalability: An Open Problem

本工作研究無監督模型個性化的任務,可適應到連續演進以及無標籤的用户數據。考慮服務器與許多資源受限的邊緣設備進行交互的實際場景,它對規模化和數據隱私性有較高的要求。我們從持續學習的角度來看待這個問題,提出了對偶用户自適應框架。在服務器端增量式地學習多個專家模型,並在用户端以無監督方式根據用户先驗對專家模型進行聚合;從領域自適應角度來進行局部用户自適應,通過調整批歸一化使模型適應到用户數據進行自適應更新。大量的實驗表明數據驅動的局部自適應具有良好表現,只需用户先驗和模型而不需要用户原始數據也可進行模型局部自適應。

附錄:華為在CVPR 2020的完整論文列表

(以下論文以作者姓氏排序)

[1] Francesca Babiloni, Marras Ioannis, Gregory Slabaugh, Stefanos Zafeiriou, TESA: Tensor Element Self-Attention via Matricization, CVPR 2020.

[2] Hanting Chen, Yunhe Wang, Chunjing Xu, Boxin Shi, Chao Xu, Qi Tian, Chang Xu, AdderNet: Do We Really Need Multiplications in Deep Learning? CVPR 2020 (Oral).

[3] Hanting Chen, Yunhe Wang, Han Su, Yehui Tang, Chunjing Xu, Boxin Shi, Chao Xu, Qi Tian, Chang Xu, Frequency Domain Compact 3D Convolutional Neural Networks, CVPR 2020.

[4] Hao Chen, Kunyang Sun, Zhi Tian, Chunhua Shen, Yongming Huang, Youliang Yan, BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation, CVPR 2020 (Oral).

[5] Shuhao Cui, Shuhui Wang, Junbao Zhuo, Liang Li, Qingming Huang, Qi Tian, Towards Discriminability and Diversity: Batch Nuclear-norm Maximization on Output under Label Insufficient Situations, CVPR 2020 (Oral).

[6] Shuhao Cui, Shuhui Wang, Junbao Zhuo, Chi Su, Qingming Huang, Qi Tian, Gradually Vanishing Bridge for Adversarial Domain Adaptation, CVPR 2020.

[7] Matthias De Lange, Xu Jia, Sarah Parisot, Ales Leonardis, Gregory Slabaugh, Tinne Tuytelaars, Unsupervised Model Personalization while Preserving Privacy and Scalability: An Open Problem, CVPR 2020.

[8] Chengying Gao, Qi Liu, Qi Xu, Limin Wang, Jianzhuang Liu, Changqing Zou, SketchyCOCO: Image Generation from Freehand Scene Sketches, CVPR 2020 (Oral).

[9] Guoqiang Gong, Xinghan Wang, Yadong Mu, Qi Tian, Learning Temporal Co-Attention Models for Unsupervised Video Action Localization, CVPR 2020 (Oral).

[10] Jianyuan Guo, Kai Han, Yunhe Wang, Chao Zhang, Zhaohui Yang, Han Wu, Xinghao Chen, Chang Xu, Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection, CVPR 2020.

[11] Tianyu Guo, Chang Xu, Jiajun Huang, Yunhe Wang, Boxin Shi, Chao Xu, Dacheng Tao, On Positive-Unlabeled Classification in GAN, CVPR 2020.

[12] Kai Han, Yunhe Wang, Jianyuan Guo, Chunjing Xu, Qi Tian, Chang Xu, GhostNet: More Features from Cheap Operations, CVPR 2020.

[13] Daniel Hernandez-Juarez, Sarah Parisot, Benjamin Busam, Ales Leonardis, Gregory Slabaugh, Steven McDonagh, A Multi-Hypothesis Approach to Color Constancy, CVPR 2020.

[14] Hengtong Hu, Lingxi Xie, Richang Hong, Qi Tian, Creating Something from Nothing: Unsupervised Knowledge Distillation for Cross-Modal Hashing, CVPR 2020.

[15] Takashi Isobe, Xu Jia, Songjiang Li, Shanxin Yuan, Gregory Slabaugh, Chunjing Xu, Ya-Li Li, Shengjing Wang, Qi Tian, Video Super-resolution with Temporal Group Attention, CVPR 2020.

[16] Chenhan Jiang, Hang Xu, Wei Zhang, Xiaodan Liang, Zhenguo Li, SP-NAS: Serial-to-Parallel Backbone Search for Object Detection, CVPR 2020.

[17] Aoxue Li, Weiran Huang, Xu Lan, Jiashi Feng, Zhenguo Li, Liwei Wang, Boosting few-shot learning with adaptive margin loss, CVPR 2020.

[18] Yutian Lin, Lingxi Xie, Yu Wu, Chenggang Yan, Qi Tian, Unsupervised Person Re-identification via Softened Similarity Learning, CVPR 2020.

[19] Lin Liu, Xu Jia, Jianzhuang Liu, Qi Tian, Joint Demosaicing and Denoising with Self Guidance, CVPR 2020.

[20] Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang, ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network, CVPR 2020 (Oral).

[21] Sean Moran, Pierre Marza, Steven McDonagh, Sarah Parisot, Gregory Slabaugh, Deep Local Parametric Filters for Image Enhancement, CVPR 2020.

[22] Yucheng Shi, Yahong Han, Qi Tian, Polishing Decision-based Adversarial Noise with a Customized Sampling, CVPR 2020.

[23] Yehui Tang, Yunhe Wang, Yixing Xu, Hanting Chen, Chunjing Xu, Boxin Shi, Chao Xu, Qi Tian, Chang Xu, A Semi-Supervised Assessor of Neural Architectures, CVPR 2020.

[24] Jiayu Wang, Wengang Zhou, Guo-Jun Qi, Zhongqian Fu, Qi Tian, Houqiang Li, Transformation GAN for Unsupervised Image Synthesis and Representation Learning, CVPR 2020.

[25] Xinyu Wang, Yuliang Liu, Chunhua Shen, Chun Chet Ng, Canjie Luo, Lianwen Jin, Chee Seng Chan, Anton van den Hengel, Liangwei Wang, On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering, CVPR 2020.

[26] Jun Wei, Shuhui Wang, Zhe Wu, Chi Su, Qingming Huang, Qi Tian, Label Decoupling Framework for Salient Object Detection, CVPR 2020.

[27] Minghao Xu, Hang Wang, Bingbing Ni, Qi Tian, Wenjun Zhang, Cross-domain Detection via Graph-induced Prototype Alignment, CVPR 2020 (Oral).

[28] Jinrui Yang, Wei-Shi Zheng, Qize Yang, Yingcong Chen, Qi Tian, Spatial-Temporal Graph Convolutional Network for Video-based Person Re-identification, CVPR 2020.

[29] Zhaohui Yang, Yunhe Wang, Xinghao Chen, Boxin Shi, Chao Xu, Chunjing Xu, Qi Tian, Chang Xu, CARS: Continuous Evolution for Efficient Neural Architecture Search, CVPR 2020.

[30] Li Yuan, Francis E.H.Tay, Guilin Li, Tao Wang, Jiashi Feng, Revisit Knowledge Distillation: a Teacher-free Framework, CVPR 2020 (Oral).

[31] Li Yuan, Tao Wang, Xiaopeng Zhang, Francis Tay, Zequn Jie, Wei Liu, Jiashi Feng, Central Similarity Hashing for Efficient Image and Video Retrieval, CVPR 2020.

[32] Rufeng Zhang, Zhi Tian, Chunhua Shen, Mingyu You, Youliang Yan, Mask Encoding for Single Shot Instance Segmentation, CVPR 2020.

[33] Bolun Zheng, Shanxin Yuan, Gregory Slabaugh, Ales Leonardis, Image Demoireing with Learnable Bandpass Filters, CVPR 2020.

[34] Linjun Zhou, Peng Cui, Xu Jia, Shiqiang Yang, Qi Tian, Learning to Select Base Classes for Few-shot Classification, CVPR 2020.

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 10718 字。

轉載請註明: 華為視覺34篇論文入圍計算機視覺頂會,為華為雲EI服務構建競爭力 - 楠木軒