田奇：華為機器視覺研究計劃與進展丨CCF-GAIR 2020

華為雲人工智能領域首席科學家、IEEE Fellow 田奇

2020 年 8 月 7 日，第五屆全球人工智能與機器人峯會（CCF-GAIR 2020）在深圳正式開幕。

CCF-GAIR 2020 峯會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）聯合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協辦。

作為中國最具影響力和前瞻性的前沿科技活動之一，CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智能•城市物聯」專場上，華為雲人工智能領域首席科學家、IEEE Fellow田奇博士登台發表精彩演講，分享了華為在人工智能領域的理解與實踐。

田奇介紹了華為在人工智能領域的十大願景，華為為了實現這個戰略目標，從中梳理出深耕基礎研究、打造全棧方案、投資開放生態和人才培養、解決方案增強、內部效率提升五大方向，以此打造無所不及的AI，構建萬物互聯的智能世界。

華為計算機視覺基礎研究以數據高效和能耗高效為核心，覆蓋從2D視覺到3D視覺的技術和應用，主要包含底層視覺、語義理解、三維視覺、數據生成、視覺計算、視覺多模態等方面。在此方向上，華為將基礎研究進一步聚焦到數據、模型和知識三大挑戰：

1、數據上，如何從海量的數據中挖掘有用的信息。田奇以生成數據訓練和不同模態數據對齊這兩個應用場景為例，介紹了華為如何使用知識蒸餾與自動數據擴增結合的方法讓AI模型高效地挖掘數據中的有用信息。

2、模型上，怎樣設計高效的視覺模型。田奇認為在深度學習年代，視覺模型主要包含神經網絡模型設計和神經網絡模型加速兩個場景。具體地，田奇介紹了華為如何通過局部連接思路解決網絡冗餘問題、如何加入邊正則化思想來解決局部連接帶來的不穩定性等等。

3、知識上，如何定義視覺預訓練模型、如何通過虛擬環境學習知識、如何表達並存儲知識。為了實現華為打造通用視覺模型的目標，田奇認為推理預測是從視覺感知到認知的關鍵步驟。雖然預訓練方法目前在視覺領域的應用還不成熟，但是近期自監督學習的成果為視覺通用模型的發展注入了新活力，這也將成為常識學習的必經之路。

基於三大挑戰，田奇提出華為視覺六大研究計劃：數據冰山計劃、數據魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預視計劃、虛實合一計劃，來幫助每一位AI開發者。

以下是田奇博士的大會演講全文，雷鋒網作了不改變原意的整理與編輯：

尊敬的各位嘉賓、各位老師、各位朋友，大家下午好！我是田奇，現任華為雲人工智能領域首席科學家。非常感謝大會的邀請，很榮幸能在這裏為大家介紹華為計算機視覺計劃。

首先，我會簡單介紹一下華為人工智能的研究背景和在計算機視覺領域的基礎研究。然後，我會從模型、數據和知識三個核心點出發，來重點介紹華為視覺六大研究計劃。最後，我會介紹一下華為雲人工智能在人才培養方面的理念。

近年來，AI的發展如火如荼，正在改變各行各業。華為預計：到2025年左右，97%的大企業都會上雲，其中77%的企業雲服務都會涉及到AI。

因此，在雲上，AI是一個關鍵的競爭點。如果把大企業的智能化升級比作一個賽道，那麼AI、IoT、5G就是提高發展速度和商業高度的重要引擎。

以前我們的董事長徐直軍闡述過華為在人工智能領域的十大願景，這裏我簡單介紹幾點。

過去，長達數年的分析時間，未來會是分鐘級的訓練耗時；

過去，需要天量的資源消耗，未來將是高性能的計算；

過去，計算主要集中在雲端，未來主要是雲端+終端；

過去，是大量的人工標註，未來將是自動標註、半自動標註的舞台；

過去，專業人員才能用AI，未來是面向普通人的一站式開發平台。

基於這樣的願景，華為的AI發展戰略就是打造無所不及的AI，構建萬物互聯的智能世界。

華為將從以下五個方向進行研究或者投資。

第一：深耕基礎研究，在計算機視覺、自然語言處理、決策推理等領域，構築數據高效、能耗高效、安全可信、自動自治的機器學習的基礎能力。

第二：打造全棧方案，面向雲、邊、端等全場景，全棧的解決方案，提供充裕的、經濟的算力資源。

第三：投資開放生態和人才培養，將面向全球，持續與學術界、產業界和行業夥伴進行廣泛的合作。

第四：把AI的思維和技術引入現有的產品和服務，實現更大的價值、更強的競爭力。

第五：提升內部的運營效率。

華為雲Cloud&AI;的定位就是圍繞鯤鵬、昇騰和華為雲構建生態，打造黑土地，成為數字世界的底座。為了實現這個目標，華為雲提出了一雲兩翼雙引擎+開放的生態目標。

就像這架飛機一樣，雙引擎是基於鯤鵬和昇騰構建的基礎芯片架構；兩翼是計算以及數據存儲和機器視覺；一雲是華為雲，提供安全可靠的混合雲，成為生態夥伴的黑土地，為世界提供普惠的算力。開放的生態是指硬件開放、軟件開源，使能我們的合作伙伴。

華為雲主要面向八大行業使能AI技術。到2019年底，我們已經提供了60種服務、170多種功能，所涉及的行業包括：城市、互聯網、家庭、車聯網、物流、金融、園區、製造等等。

以上是對華為AI的簡單介紹，下面將介紹我們在計算機視覺領域的一些基礎研究。

眾所周知，人類對外部世界的感知80%以上來自於視覺信號。近年來，隨着視覺終端設備的不斷普及，如何讓機器像人類一樣擁有感知視覺信號的能力是計算機視覺的終極目標。

計算機視覺已在智能汽車、智能手機、無人機、智能眼鏡等諸多行業得到了廣泛應用。

總的來説，視覺研究可以分以下幾個部分：

首先是基礎理論，例如統計學習、優化方法、深度學習技術等；

接下來考慮底層視覺，如超分辨、圖象增強、去模糊、去噪聲、去反光等等；

再到中高層的語義理解，包括場景理解、物體分類與檢測、人臉、手勢、人體姿態的識別、分割和分組等等。

除了二維視覺以外，三維視覺的研究也有着極其重要的地位，包括三維重建、點雲處理和分析、景深感知分析等等。

同時，在人工智能時代，數據生成的方法研究也是一項有價值的任務。在一些工業場景中，視覺計算藉助海量算力來做一些神經網絡架構搜索的研究，以及模型壓縮與量化。

最後是視覺與其他模態的結合，比如視覺與語言的結合，視覺與圖形學結合，這都是計算機視覺領域的一些基礎性的研究課題。

華為的基礎研究就是圍繞底層視覺、語義理解、三維視覺、數據生成、視覺計算、視覺+多模態等方面，構建數據高效、能耗高效的機器學習能力。

華為對底層視覺的研究涉及諸多方面，這些技術有着廣泛應用場景，比如，為了提升手機端的圖片質量，我們對照片進行超分辨和去噪處理，並提出了一系列有針對性的算法以面對從Raw域到sRGB域去噪，來提高照片的清晰度。

在語義理解方面，由於圖像視頻包括豐富的語義信息，如何有效理解並分析它們是一項富有挑戰性的課題。以下舉幾個例子來説明：

挑戰之一：同一內容的視覺特徵的差異性。比如説擁抱這個動作，雖然是內容相同，但視覺表徵可能非常不同，我們稱其為類內差異性。

挑戰之二：不同內容的視覺特徵十分相似，我們稱其為類間相似性。比如上圖的兩個男子，從圖像上看，他們的視覺特徵非常相似。但是放到場景中，一個是在排隊，一個是在對話，這直觀地解釋了不同類間具有很高的類間相似性。

挑戰之三：如何區分正常事件與異常事件。比如一羣人在晨跑和一羣人在鬥毆，這往往會造成邊界模糊。

對於3D視覺而言，雖然三維數據比二維數據攜帶着更豐富的信息，但與之而來的是諸多挑戰。

比如在醫學領域，獲取具有精準標註的醫療數據，往往需要專家的協助，這是困難並且昂貴的；同時，因為一些醫療影像通常是在一些很細微的地方有差異，所以區分正常樣本和異常樣本的難度非常大；此外，視頻數據也存在大量的冗餘，如何去除冗餘並提取有效信息也很具挑戰性。

最後，準確檢測和追蹤物體也極具挑戰並值得進一步探索。

數據生成同樣是一個熱門研究方向。我們認為數據是視覺算法研究的保障和基石，在深度學習時代，大多數場景數據的收集越來越昂貴，所以數據生成具有直接的應用價值。

比如在安防企業中基於姿態的行人數據生成；在無人駕駛中街景數據的生成以及人臉數據的生成等。但目前該領域仍存在一些挑戰：

挑戰之一：通過人機交互對人臉特徵的選擇與標註需要大量的人力成本；

挑戰之二：如何生成高質量的圖像以及視頻數據仍是巨大挑戰；

挑戰之三：生成數據同質化嚴重，數據多樣性有待提高；

挑戰之四：算法複雜度也制約着數據生成的性能，特別是視頻數據生成這類對算力有着較高要求的任務。

下一個基礎研究是視覺計算，我們認為視覺計算是深度學習算法應用落地的關鍵一環。

它主要集中在兩個方面：一個是模型的壓縮與加速，這對機器視覺在端側的部署具有重大的意義；另一個就是神經網絡架構設計。

但是視覺計算目前仍然面臨一些挑戰。第一，邊緣計算缺乏統一的平台，用户調用不便；第二，缺乏針對其它特定視覺任務的網絡壓縮與加速的算法；第三，網絡結構搜索在性能和搜索的效率上都有待進一步提高。

最後一個研究領域是視覺與多模態。真實世界的數據是多模態的，比如在自動駕駛中，除了攝像頭的輸入，還有激光雷達的點雲數據；在圖片、視頻的描述中，從圖片、視頻到文字的映射等。

它們存在的挑戰，包括數據融合的問題、數據對齊的問題、數據異質性的問題、主觀性和不確定性的問題、還有協作方面的問題，都有待研究。

以上是華為計算機視覺基礎研究的一些方向，下面介紹一下我們從這些基礎研究中，進一步提出的華為視覺研究計劃。

我們認為計算機視覺實際上面臨三大挑戰：從數據到模型、到知識。從數據來講，舉個例子，每分鐘上傳到YouTube的視頻數據已經超過500小時，如何從這些海量的數據中挖掘有用的信息，這是第一個挑戰。

從模型來講，人類能夠識別的物體類別已經超過2萬類，計算機如何藉助於深度神經網絡來構建識別高效的視覺識別模型，這是第二個挑戰。

從知識來講，在計算機視覺裏面如何表達並存儲知識，這是第三個挑戰。

因此我們提出的第一個研究方向：如何從海量的數據中挖掘有效的信息？有兩個主要應用場景，一是如何利用生成數據訓練模型；第二是如何對齊不同模態的數據。

深度學習主要是監督學習的範式，需要大量人工標註的數據，而人工標註的成本越來越高，比如無人駕駛，數據標註成本可能成百上千萬，因此華為也花了很大的人力物力來研究數據生成技術。

我們把數據生成技術主要分為三類：第一類是數據擴增；第二類是利用生成對抗網絡GAN來合成更多的數據；第三種方法是利用計算機圖形學技術來生成虛擬場景，從而生成我們所需要的虛擬數據。

在這三方面，華為在ICLR20、CVPR2018和CVPR2019都有一些相關論文發表，數據生成主要應用的領域在智慧城市、智能駕駛方面。

在這裏，介紹一個我們最新的工作。我們提出知識蒸餾與自動數據擴增結合的方法，在不使用額外數據的情況下，可以達到業界領先精度：在ImageNet-1000 Top-1準確率為85.8%。之前幾年都是谷歌最強，它在ImageNet-1000上最高精度是85.5%。

數據的第二方面是多模態學習。例如無人駕駛有圖像、GPS、激光雷達信息。相對於單模態，多模態具有天然的互補性，因此是場景理解的主要手段。

當然也面臨很多挑戰，比如多模態的信息表示、融合、對齊、協同學習等等。我們認為多模態學習是未來機器視覺的主流方式，在自動駕駛、智能多媒體方面有着廣泛應用前景。

在多模態學習方面，介紹一個我們在2019年的ACM多媒體會議上獲得最佳論文提名的工作，該工作主要是面對電商(服裝)設計了一個人機對話系統。

具體而言，系統會依據用户需求生成不同的模態響應，使用一個統一模型以編碼不同形式領域信息。最後在圖像選擇、文本響應都取得了很好的結果，右邊的二維碼是相關論文的鏈接。

第二個研究方向是：怎樣設計高效的視覺識別模型？同樣有兩個應用場景，第一個是在深度學習時代，如何設計神經網絡模型。第二是如何加速神經網絡的計算。

在神經網絡設計方面有很多優秀的模型誕生，從2012年的AlexNet到VGGNet、GoogleNet、MobileNet，然而，手工網絡模型設計進入瓶頸期。

2018年以來，自動網絡架構搜索進入快速發展的階段，包括今年華為的PC-DARTS在業界都取得了很好的效果。但是自動網絡架構搜索真能替代手工經驗嗎？

主要面臨以下幾個挑戰：第一是搜索空間需要人工經驗定義；第二是待搜的算子也是人工設計的；第三是它相比手工設計的網絡可遷移性比較差，抗攻擊能力也比較差。

在這裏介紹一下我們在ICLR2020提出的一個目前業界搜索速度最快的自動網絡架構搜索技術PC-DARTS，它主要包含兩個思想：一是採用局部連接的思想，隨機地選擇1/K的通道進行連接，可以解決冗餘的問題；另一個是提出了邊正則化的思想以保證網絡穩定。

圖片展示了這是Darts系列方法首次在ImageNet上完成的搜索，相較於之前的模型，搜索的效果更好，速度更快。右邊二維碼是相關論文鏈接。

模型的另外一個研究方向是模型加速以及小型化。

對於早期的ResNet、DenseNet到最新的EfficientNet，由於雲側大模型無法適配端側的有限算力，所以自2016年以來，業界提出了眾多模型小型化的解決方案。

然而這些方法在實際應用中存在各種問題。比如，低比特量化精度受限；在實現的時候，如果用混合比特來表示響應和權重，這種混合比特的網絡實現對硬件並不友好；此外，新型的算子也並沒有得到一些充分的驗證。

在CVPR2020，我們作了一個口頭報告。該報告介紹了一個新型算子加速卷積網絡，該算子的核心思想是在CNN中採用加法計算替代乘法運算。

從原理上講，我們是用曼哈頓距離取代夾角距離。該方法用加法代替乘法運算，同時用8比特的整數計算，對硬件實現更加友好，功耗更低。

在ImageNet數據集上的結果表明，加法網絡達到了基本媲美乘法網絡的效果。雖然精度大概損失1%到2%，但其在功耗上具有顯著優勢。此外，二維碼展示了開源代碼以及論文鏈接。

第三個研究方向是通用智能，我們稱其為知識抽取。可簡要概括為兩個場景，第一個是如何定義通用的視覺模型，打造我們的視覺預訓練模型；第二是如何通過虛擬環境來學習、表達和存儲知識。

我們的目標是構建一個通用視覺模型，類似於自然語言處理領域存在的預訓練模型BERT、GPT-3，可以為下游的任務提供高效的初始化，滿足系統所需要的泛化性和魯棒性。

就監督學習和強化學習而言，監督學習需要海量的樣本，模型無法泛化到不同的任務；而強化學習需要海量的試錯，同樣缺少可重複性、可複用性以及系統需要的魯棒性。

雖然強化學習在一些遊戲中，例如圍棋、星際爭霸等取得很好的效果，但是在一些簡單的任務比如搭積木，效果就比較差。所以我們認為要學會推理預測，才能實現從視覺感知到認知。

從當下研究主流來看，自監督學習是成為常識學習的必經之路，但是目前的自監督學習缺乏有效的預訓練任務，其在視覺領域的應用還不成熟。

上圖展示了我們在CVPR2019通過自監督學習來學習完成拼圖遊戲。具體而言，拼圖遊戲把一個圖像分成3×3的9個小塊，再把它的位置隨機打亂，通過自監督學習來恢復圖像原始的構成。

該任務能改進自監督學習性能，使網絡能夠處理任意拼圖佈局，從而更好地學習空間上下文提供的語義信息。我們把它在ImageNet上學習的結果遷移到別的地方，同樣也取得了很好的結果。左下角二維碼是我們的開源代碼鏈接。

最後一個研究方向是構造虛擬場景來學習常識？因為深度學習需要大量的數據標註，這存在諸多問題：首先是標註成本特別高；其次是數據標註存在一個致命的問題，即知識表達不準確。

比如在無人駕駛場景中，我們有許多像素級分割的標註，但是並不知道這樣的標註對無人駕駛的識別任務是最有效的，這一點難以證明。

第三是基於數據標註，必然導致常識的缺失，而人類對外部世界的認識很多依賴於常識。

我們在CVPR2019上提出用計算機圖形學的技術生成虛擬場景，從虛擬場景中學習模型控制無感知的機械臂。

具體而言，我們只需要一個攝像頭和一台計算機即可以控制沒有裝備其它感知設備的機械臂以完成複雜的搬運動作。因為這是從虛擬的環境中搜集的數據，因此標註的代價幾乎為零。

此外，利用域遷移算法，所以幾乎沒有性能損失。如果融合強化學習，還能實現其它的多種任務，右邊二維碼是相關的代碼和論文。

基於以上對數據、模型和知識方面的總結，我們提出了華為的視覺研究計劃，希望能夠助力每一位AI開發者。

我們的計劃包括六個子計劃，與數據相關的是數據冰山計劃、數據魔方計劃；與模型相關的是模型摸高計劃、模型瘦身計劃；與知識抽取相關的則是萬物預視計劃，也就是我們的通用預訓練模型計劃，此外還有虛實合一計劃。

關於數據冰山計劃，我們希望用數據生成方法真正代替手工標註。我們共有三個研究子課題，第一個子課題是希望數據的生成質量更高。

第二個研究課題是數據生成的點石成金計劃，我們希望生成的數據能夠自動挑選高質量的數據，讓模型隨着生成數據的變多而真正的變好。

第三個課題是通用自動數據生成，我們希望根據不同的任務自動生成它所需的數據，讓數據生成具備普惠的能力。

第二個數據計劃是魔方計劃，關注多模態數據量化、對齊、融合策略的研究，構建下一代的智能視覺。

模型摸高計劃考慮雲側大模型，刷新各類視覺任務性能上限。這包含了三個子課題：第一個是全空間網絡架構搜索，希望不受算子、搜索網絡的限制，真正實現自主自治，真正自動搜索。

第二個是新型算子搜索，希望設計與芯片相關的算子，讓算子從複用到創造。

第三個是搜索模型的普適能力提升，之前提到搜索設計的模型與手工設計的模型相比普適性較差，我們希望將來的網絡搜索能夠真正的安全可用。

模型瘦身計劃則針對端側小模型，助力各種芯片完成複雜推理。其同樣包含三個子課題：第一個小課題是自動搜索小型化，將硬件的約束融入自動設計，比如説功耗、時延的約束等。

第二個小課題研究低比特網絡量化，尤其是一比特網絡量化，追求極致的性能。

第三是構建新型的加法網絡，探索高效計算的新途徑。

最後兩個計劃跟知識相關，第一個是萬物預視計劃，主要目標是定義預訓練任務以構建通用的視覺模型。

第二個是虛實合一計劃，其主要目標是解決數據標註瓶頸的問題，希望在虛擬的場景下不通過數據標註，直接訓練智能行為本身。

該領域早期的研究並不多，如何定義知識，如何構築虛擬世界，如何模擬用户行為，如何在虛擬的場景中保證智能體的安全，比如説在虛擬的場景中做無人駕駛的訓練，相信這是真正通向通用人工智能的一個有益的方向。

我們的視覺研究計劃歡迎全球的AI研究者加入我們，這是基於昇騰AI計算平台，加速計算機視覺基礎研究。

最後介紹一下我們的研究進展，以及華為雲AI培養人才的理念。華為雲AI希望打造一支世界一流的AI研究團隊，主要從開放、創新、培養六個字踐行，我們需要打造的是一個具有華為特色的人工智能軍團。

眾所周知，在計算機視覺領域有三大頂會：CVPR、ECCV和ICCV。CVPR一年一次，ECCV和ICCV每兩年一次。CVPR在本領域的會議中排名第一，在所有的計算機和非計算機學科中排名第10，具有廣泛的影響力。

我們希望在各種頂會中取得更好的成績，2019年我們的視覺團隊在國際頂會發表論文60多篇，今年的CVPR有34篇論文，基礎研究的論文發表已經躋身國際國內第一集團。

我們大量的工作也是通過我們的實習生和高校老師聯合完成的，比如説P-DARTS，去年這項工作已經被納入微軟的開源平台，作為標準算法進行提供。

第二個是CenterNet，也是單階段性能最強的目標檢測算法之一，在GitHub開源收穫了很高的評價。還有一個是AdderNet提出了全新的神經網絡計算架構，為下一代芯片架構指出了新方向。

第二方面是開放，我們希望與頂級的高校老師合作，華為的視覺團隊過去1-2年中有100多位C9高校和其它的高校的實習生，他們不僅做出了傑出的貢獻，而且也形成了與高校之間有力的紐帶。

第三是從培養的角度出發，視覺團隊製作了計算機視覺精品課程，同時也撰寫了計算機視覺白皮書，希望下一步成為AI系列教材，最後對內外部宣講。

最後把我們半年來的視覺領域的進展與各位分享一下，我們的目標是希望在各項視覺基礎任務中打造性能最強的計算模型，積極投入D+M生態建設。

在全監督學習方面，把全空間、網絡架構搜索和數據擴增技術結合，在ImageNet達到85.8%的精度，打破谷歌三年的壟斷。

另外，在自研的數據增強技術方面，在MS-COCO這樣一個業界具有挑戰的測試集，目前不管是單模型還是多模型，我們都達到業界第一，其中多模型達到58.8%的檢測精度，也打破了微軟多年的壟斷。

在多模態學習方面，目前在自動駕駛數據集Nuscenes Challenge上取得業界第一的檢測精度，擊敗來自全球92支隊伍並大幅度領先第二名達3.1%。

最後，在弱監督方面，我們在2020年的圖象識別競賽WebVision達到業界第一的精度。在無監督方面，我們在無標籤ImageNet-1000數據集上達到了業界領先的75.5%的精度，大大超過了Facebook保持的71.1%的精度。

未來希望我們的無監督學習能逼近甚至超越監督學習的極限。

以上就是華為視覺計劃的一些介紹和進展，謝謝大家。雷鋒網雷鋒網雷鋒網