田奇：華為機器視覺研究計劃與進展丨CCF-GAIR 2020

華為雲人工智慧領域首席科學家、IEEE Fellow 田奇

2020 年 8 月 7 日，第五屆全球人工智慧與機器人峰會（CCF-GAIR 2020）在深圳正式開幕。

CCF-GAIR 2020 峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）聯合承辦，鵬城實驗室、深圳市人工智慧與機器人研究院協辦。

作為中國最具影響力和前瞻性的前沿科技活動之一，CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智慧•城市物聯」專場上，華為雲人工智慧領域首席科學家、IEEE Fellow田奇博士登臺發表精彩演講，分享了華為在人工智慧領域的理解與實踐。

田奇介紹了華為在人工智慧領域的十大願景，華為為了實現這個戰略目標，從中梳理出深耕基礎研究、打造全棧方案、投資開放生態和人才培養、解決方案增強、內部效率提升五大方向，以此打造無所不及的AI，構建萬物互聯的智慧世界。

華為計算機視覺基礎研究以資料高效和能耗高效為核心，覆蓋從2D視覺到3D視覺的技術和應用，主要包含底層視覺、語義理解、三維視覺、資料生成、視覺計算、視覺多模態等方面。在此方向上，華為將基礎研究進一步聚焦到資料、模型和知識三大挑戰：

1、資料上，如何從海量的資料中挖掘有用的資訊。田奇以生成資料訓練和不同模態資料對齊這兩個應用場景為例，介紹了華為如何使用知識蒸餾與自動資料擴增結合的方法讓AI模型高效地挖掘資料中的有用資訊。

2、模型上，怎樣設計高效的視覺模型。田奇認為在深度學習年代，視覺模型主要包含神經網路模型設計和神經網路模型加速兩個場景。具體地，田奇介紹了華為如何透過區域性連線思路解決網路冗餘問題、如何加入邊正則化思想來解決區域性連線帶來的不穩定性等等。

3、知識上，如何定義視覺預訓練模型、如何透過虛擬環境學習知識、如何表達並存儲知識。為了實現華為打造通用視覺模型的目標，田奇認為推理預測是從視覺感知到認知的關鍵步驟。雖然預訓練方法目前在視覺領域的應用還不成熟，但是近期自監督學習的成果為視覺通用模型的發展注入了新活力，這也將成為常識學習的必經之路。

基於三大挑戰，田奇提出華為視覺六大研究計劃：資料冰山計劃、資料魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預視計劃、虛實合一計劃，來幫助每一位AI開發者。

以下是田奇博士的大會演講全文，雷鋒網作了不改變原意的整理與編輯：

尊敬的各位嘉賓、各位老師、各位朋友，大家下午好！我是田奇，現任華為雲人工智慧領域首席科學家。非常感謝大會的邀請，很榮幸能在這裡為大家介紹華為計算機視覺計劃。

首先，我會簡單介紹一下華為人工智慧的研究背景和在計算機視覺領域的基礎研究。然後，我會從模型、資料和知識三個核心點出發，來重點介紹華為視覺六大研究計劃。最後，我會介紹一下華為雲人工智慧在人才培養方面的理念。

近年來，AI的發展如火如荼，正在改變各行各業。華為預計：到2025年左右，97%的大企業都會上雲，其中77%的企業雲服務都會涉及到AI。

因此，在雲上，AI是一個關鍵的競爭點。如果把大企業的智慧化升級比作一個賽道，那麼AI、IoT、5G就是提高發展速度和商業高度的重要引擎。

以前我們的董事長徐直軍闡述過華為在人工智慧領域的十大願景，這裡我簡單介紹幾點。

過去，長達數年的分析時間，未來會是分鐘級的訓練耗時；

過去，需要天量的資源消耗，未來將是高效能的計算；

過去，計算主要集中在雲端，未來主要是雲端+終端；

過去，是大量的人工標註，未來將是自動標註、半自動標註的舞臺；

過去，專業人員才能用AI，未來是面向普通人的一站式開發平臺。

基於這樣的願景，華為的AI發展戰略就是打造無所不及的AI，構建萬物互聯的智慧世界。

華為將從以下五個方向進行研究或者投資。

第一：深耕基礎研究，在計算機視覺、自然語言處理、決策推理等領域，構築資料高效、能耗高效、安全可信、自動自治的機器學習的基礎能力。

第二：打造全棧方案，面向雲、邊、端等全場景，全棧的解決方案，提供充裕的、經濟的算力資源。

第三：投資開放生態和人才培養，將面向全球，持續與學術界、產業界和行業夥伴進行廣泛的合作。

第四：把AI的思維和技術引入現有的產品和服務，實現更大的價值、更強的競爭力。

第五：提升內部的運營效率。

華為雲Cloud&AI;的定位就是圍繞鯤鵬、昇騰和華為雲構建生態，打造黑土地，成為數字世界的底座。為了實現這個目標，華為雲提出了一雲兩翼雙引擎+開放的生態目標。

就像這架飛機一樣，雙引擎是基於鯤鵬和昇騰構建的基礎晶片架構；兩翼是計算以及資料儲存和機器視覺；一雲是華為雲，提供安全可靠的混合雲，成為生態夥伴的黑土地，為世界提供普惠的算力。開放的生態是指硬體開放、軟體開源，使能我們的合作伙伴。

華為雲主要面向八大行業使能AI技術。到2019年底，我們已經提供了60種服務、170多種功能，所涉及的行業包括：城市、網際網路、家庭、車聯網、物流、金融、園區、製造等等。

以上是對華為AI的簡單介紹，下面將介紹我們在計算機視覺領域的一些基礎研究。

眾所周知，人類對外部世界的感知80%以上來自於視覺訊號。近年來，隨著視覺終端裝置的不斷普及，如何讓機器像人類一樣擁有感知視覺訊號的能力是計算機視覺的終極目標。

計算機視覺已在智慧汽車、智慧手機、無人機、智慧眼鏡等諸多行業得到了廣泛應用。

總的來說，視覺研究可以分以下幾個部分：

首先是基礎理論，例如統計學習、最佳化方法、深度學習技術等；

接下來考慮底層視覺，如超分辨、圖象增強、去模糊、去噪聲、去反光等等；

再到中高層的語義理解，包括場景理解、物體分類與檢測、人臉、手勢、人體姿態的識別、分割和分組等等。

除了二維視覺以外，三維視覺的研究也有著極其重要的地位，包括三維重建、點雲處理和分析、景深感知分析等等。

同時，在人工智慧時代，資料生成的方法研究也是一項有價值的任務。在一些工業場景中，視覺計算藉助海量算力來做一些神經網路架構搜尋的研究，以及模型壓縮與量化。

最後是視覺與其他模態的結合，比如視覺與語言的結合，視覺與圖形學結合，這都是計算機視覺領域的一些基礎性的研究課題。

華為的基礎研究就是圍繞底層視覺、語義理解、三維視覺、資料生成、視覺計算、視覺+多模態等方面，構建資料高效、能耗高效的機器學習能力。

華為對底層視覺的研究涉及諸多方面，這些技術有著廣泛應用場景，比如，為了提升手機端的圖片質量，我們對照片進行超分辨和去噪處理，並提出了一系列有針對性的演算法以面對從Raw域到sRGB域去噪，來提高照片的清晰度。

在語義理解方面，由於影象影片包括豐富的語義資訊，如何有效理解並分析它們是一項富有挑戰性的課題。以下舉幾個例子來說明：

挑戰之一：同一內容的視覺特徵的差異性。比如說擁抱這個動作，雖然是內容相同，但視覺表徵可能非常不同，我們稱其為類內差異性。

挑戰之二：不同內容的視覺特徵十分相似，我們稱其為類間相似性。比如上圖的兩個男子，從影象上看，他們的視覺特徵非常相似。但是放到場景中，一個是在排隊，一個是在對話，這直觀地解釋了不同類間具有很高的類間相似性。

挑戰之三：如何區分正常事件與異常事件。比如一群人在晨跑和一群人在鬥毆，這往往會造成邊界模糊。

對於3D視覺而言，雖然三維資料比二維資料攜帶著更豐富的資訊，但與之而來的是諸多挑戰。

比如在醫學領域，獲取具有精準標註的醫療資料，往往需要專家的協助，這是困難並且昂貴的；同時，因為一些醫療影像通常是在一些很細微的地方有差異，所以區分正常樣本和異常樣本的難度非常大；此外，影片資料也存在大量的冗餘，如何去除冗餘並提取有效資訊也很具挑戰性。

最後，準確檢測和追蹤物體也極具挑戰並值得進一步探索。

資料生成同樣是一個熱門研究方向。我們認為資料是視覺演算法研究的保障和基石，在深度學習時代，大多數場景資料的收集越來越昂貴，所以資料生成具有直接的應用價值。

比如在安防企業中基於姿態的行人資料生成；在無人駕駛中街景資料的生成以及人臉資料的生成等。但目前該領域仍存在一些挑戰：

挑戰之一：透過人機互動對人臉特徵的選擇與標註需要大量的人力成本；

挑戰之二：如何生成高質量的影象以及影片資料仍是巨大挑戰；

挑戰之三：生成資料同質化嚴重，資料多樣性有待提高；

挑戰之四：演算法複雜度也制約著資料生成的效能，特別是影片資料生成這類對算力有著較高要求的任務。

下一個基礎研究是視覺計算，我們認為視覺計算是深度學習演算法應用落地的關鍵一環。

它主要集中在兩個方面：一個是模型的壓縮與加速，這對機器視覺在端側的部署具有重大的意義；另一個就是神經網路架構設計。

但是視覺計算目前仍然面臨一些挑戰。第一，邊緣計算缺乏統一的平臺，使用者呼叫不便；第二，缺乏針對其它特定視覺任務的網路壓縮與加速的演算法；第三，網路結構搜尋在效能和搜尋的效率上都有待進一步提高。

最後一個研究領域是視覺與多模態。真實世界的資料是多模態的，比如在自動駕駛中，除了攝像頭的輸入，還有鐳射雷達的點雲資料；在圖片、影片的描述中，從圖片、影片到文字的對映等。

它們存在的挑戰，包括資料融合的問題、資料對齊的問題、資料異質性的問題、主觀性和不確定性的問題、還有協作方面的問題，都有待研究。

以上是華為計算機視覺基礎研究的一些方向，下面介紹一下我們從這些基礎研究中，進一步提出的華為視覺研究計劃。

我們認為計算機視覺實際上面臨三大挑戰：從資料到模型、到知識。從資料來講，舉個例子，每分鐘上傳到YouTube的影片資料已經超過500小時，如何從這些海量的資料中挖掘有用的資訊，這是第一個挑戰。

從模型來講，人類能夠識別的物體類別已經超過2萬類，計算機如何藉助於深度神經網路來構建識別高效的視覺識別模型，這是第二個挑戰。

從知識來講，在計算機視覺裡面如何表達並存儲知識，這是第三個挑戰。

因此我們提出的第一個研究方向：如何從海量的資料中挖掘有效的資訊？有兩個主要應用場景，一是如何利用生成資料訓練模型；第二是如何對齊不同模態的資料。

深度學習主要是監督學習的正規化，需要大量人工標註的資料，而人工標註的成本越來越高，比如無人駕駛，資料標註成本可能成百上千萬，因此華為也花了很大的人力物力來研究資料生成技術。

我們把資料生成技術主要分為三類：第一類是資料擴增；第二類是利用生成對抗網路GAN來合成更多的資料；第三種方法是利用計算機圖形學技術來生成虛擬場景，從而生成我們所需要的虛擬資料。

在這三方面，華為在ICLR20、CVPR2018和CVPR2019都有一些相關論文發表，資料生成主要應用的領域在智慧城市、智慧駕駛方面。

在這裡，介紹一個我們最新的工作。我們提出知識蒸餾與自動資料擴增結合的方法，在不使用額外資料的情況下，可以達到業界領先精度：在ImageNet-1000 Top-1準確率為85.8%。之前幾年都是谷歌最強，它在ImageNet-1000上最高精度是85.5%。

資料的第二方面是多模態學習。例如無人駕駛有影象、GPS、鐳射雷達資訊。相對於單模態，多模態具有天然的互補性，因此是場景理解的主要手段。

當然也面臨很多挑戰，比如多模態的資訊表示、融合、對齊、協同學習等等。我們認為多模態學習是未來機器視覺的主流方式，在自動駕駛、智慧多媒體方面有著廣泛應用前景。

在多模態學習方面，介紹一個我們在2019年的ACM多媒體會議上獲得最佳論文提名的工作，該工作主要是面對電商(服裝)設計了一個人機對話系統。

具體而言，系統會依據使用者需求生成不同的模態響應，使用一個統一模型以編碼不同形式領域資訊。最後在影象選擇、文字響應都取得了很好的結果，右邊的二維碼是相關論文的連結。

第二個研究方向是：怎樣設計高效的視覺識別模型？同樣有兩個應用場景，第一個是在深度學習時代，如何設計神經網路模型。第二是如何加速神經網路的計算。

在神經網路設計方面有很多優秀的模型誕生，從2012年的AlexNet到VGGNet、GoogleNet、MobileNet，然而，手工網路模型設計進入瓶頸期。

2018年以來，自動網路架構搜尋進入快速發展的階段，包括今年華為的PC-DARTS在業界都取得了很好的效果。但是自動網路架構搜尋真能替代手工經驗嗎？

主要面臨以下幾個挑戰：第一是搜尋空間需要人工經驗定義；第二是待搜的運算元也是人工設計的；第三是它相比手工設計的網路可遷移性比較差，抗攻擊能力也比較差。

在這裡介紹一下我們在ICLR2020提出的一個目前業界搜尋速度最快的自動網路架構搜尋技術PC-DARTS，它主要包含兩個思想：一是採用區域性連線的思想，隨機地選擇1/K的通道進行連線，可以解決冗餘的問題；另一個是提出了邊正則化的思想以保證網路穩定。

圖片展示了這是Darts系列方法首次在ImageNet上完成的搜尋，相較於之前的模型，搜尋的效果更好，速度更快。右邊二維碼是相關論文連結。

模型的另外一個研究方向是模型加速以及小型化。

對於早期的ResNet、DenseNet到最新的EfficientNet，由於雲側大模型無法適配端側的有限算力，所以自2016年以來，業界提出了眾多模型小型化的解決方案。

然而這些方法在實際應用中存在各種問題。比如，低位元量化精度受限；在實現的時候，如果用混合比特來表示響應和權重，這種混合比特的網路實現對硬體並不友好；此外，新型的運算元也並沒有得到一些充分的驗證。

在CVPR2020，我們作了一個口頭報告。該報告介紹了一個新型運算元加速卷積網路，該運算元的核心思想是在CNN中採用加法計算替代乘法運算。

從原理上講，我們是用曼哈頓距離取代夾角距離。該方法用加法代替乘法運算，同時用8位元的整數計算，對硬體實現更加友好，功耗更低。

在ImageNet資料集上的結果表明，加法網路達到了基本媲美乘法網路的效果。雖然精度大概損失1%到2%，但其在功耗上具有顯著優勢。此外，二維碼展示了開原始碼以及論文連結。

第三個研究方向是通用智慧，我們稱其為知識抽取。可簡要概括為兩個場景，第一個是如何定義通用的視覺模型，打造我們的視覺預訓練模型；第二是如何透過虛擬環境來學習、表達和儲存知識。

我們的目標是構建一個通用視覺模型，類似於自然語言處理領域存在的預訓練模型BERT、GPT-3，可以為下游的任務提供高效的初始化，滿足系統所需要的泛化性和魯棒性。

就監督學習和強化學習而言，監督學習需要海量的樣本，模型無法泛化到不同的任務；而強化學習需要海量的試錯，同樣缺少可重複性、可複用性以及系統需要的魯棒性。

雖然強化學習在一些遊戲中，例如圍棋、星際爭霸等取得很好的效果，但是在一些簡單的任務比如搭積木，效果就比較差。所以我們認為要學會推理預測，才能實現從視覺感知到認知。

從當下研究主流來看，自監督學習是成為常識學習的必經之路，但是目前的自監督學習缺乏有效的預訓練任務，其在視覺領域的應用還不成熟。

上圖展示了我們在CVPR2019透過自監督學習來學習完成拼圖遊戲。具體而言，拼圖遊戲把一個影象分成3×3的9個小塊，再把它的位置隨機打亂，透過自監督學習來恢復影象原始的構成。

該任務能改進自監督學習效能，使網路能夠處理任意拼圖佈局，從而更好地學習空間上下文提供的語義資訊。我們把它在ImageNet上學習的結果遷移到別的地方，同樣也取得了很好的結果。左下角二維碼是我們的開原始碼連結。

最後一個研究方向是構造虛擬場景來學習常識？因為深度學習需要大量的資料標註，這存在諸多問題：首先是標註成本特別高；其次是資料標註存在一個致命的問題，即知識表達不準確。

比如在無人駕駛場景中，我們有許多畫素級分割的標註，但是並不知道這樣的標註對無人駕駛的識別任務是最有效的，這一點難以證明。

第三是基於資料標註，必然導致常識的缺失，而人類對外部世界的認識很多依賴於常識。

我們在CVPR2019上提出用計算機圖形學的技術生成虛擬場景，從虛擬場景中學習模型控制無感知的機械臂。

具體而言，我們只需要一個攝像頭和一臺計算機即可以控制沒有裝備其它感知裝置的機械臂以完成複雜的搬運動作。因為這是從虛擬的環境中搜集的資料，因此標註的代價幾乎為零。

此外，利用域遷移演算法，所以幾乎沒有效能損失。如果融合強化學習，還能實現其它的多種任務，右邊二維碼是相關的程式碼和論文。

基於以上對資料、模型和知識方面的總結，我們提出了華為的視覺研究計劃，希望能夠助力每一位AI開發者。

我們的計劃包括六個子計劃，與資料相關的是資料冰山計劃、資料魔方計劃；與模型相關的是模型摸高計劃、模型瘦身計劃；與知識抽取相關的則是萬物預視計劃，也就是我們的通用預訓練模型計劃，此外還有虛實合一計劃。

關於資料冰山計劃，我們希望用資料生成方法真正代替手工標註。我們共有三個研究子課題，第一個子課題是希望資料的生成質量更高。

第二個研究課題是資料生成的點石成金計劃，我們希望生成的資料能夠自動挑選高質量的資料，讓模型隨著生成資料的變多而真正的變好。

第三個課題是通用自動資料生成，我們希望根據不同的任務自動生成它所需的資料，讓資料生成具備普惠的能力。

第二個資料計劃是魔方計劃，關注多模態資料量化、對齊、融合策略的研究，構建下一代的智慧視覺。

模型摸高計劃考慮雲側大模型，重新整理各類視覺任務效能上限。這包含了三個子課題：第一個是全空間網路架構搜尋，希望不受運算元、搜尋網路的限制，真正實現自主自治，真正自動搜尋。

第二個是新型運算元搜尋，希望設計與晶片相關的運算元，讓運算元從複用到創造。

第三個是搜尋模型的普適能力提升，之前提到搜尋設計的模型與手工設計的模型相比普適性較差，我們希望將來的網路搜尋能夠真正的安全可用。

模型瘦身計劃則針對端側小模型，助力各種晶片完成複雜推理。其同樣包含三個子課題：第一個小課題是自動搜尋小型化，將硬體的約束融入自動設計，比如說功耗、時延的約束等。

第二個小課題研究低位元網路量化，尤其是一位元網路量化，追求極致的效能。

第三是構建新型的加法網路，探索高效計算的新途徑。

最後兩個計劃跟知識相關，第一個是萬物預視計劃，主要目標是定義預訓練任務以構建通用的視覺模型。

第二個是虛實合一計劃，其主要目標是解決資料標註瓶頸的問題，希望在虛擬的場景下不透過資料標註，直接訓練智慧行為本身。

該領域早期的研究並不多，如何定義知識，如何構築虛擬世界，如何模擬使用者行為，如何在虛擬的場景中保證智慧體的安全，比如說在虛擬的場景中做無人駕駛的訓練，相信這是真正通向通用人工智慧的一個有益的方向。

我們的視覺研究計劃歡迎全球的AI研究者加入我們，這是基於昇騰AI計算平臺，加速計算機視覺基礎研究。

最後介紹一下我們的研究進展，以及華為雲AI培養人才的理念。華為雲AI希望打造一支世界一流的AI研究團隊，主要從開放、創新、培養六個字踐行，我們需要打造的是一個具有華為特色的人工智慧軍團。

眾所周知，在計算機視覺領域有三大頂會：CVPR、ECCV和ICCV。CVPR一年一次，ECCV和ICCV每兩年一次。CVPR在本領域的會議中排名第一，在所有的計算機和非計算機學科中排名第10，具有廣泛的影響力。

我們希望在各種頂會中取得更好的成績，2019年我們的視覺團隊在國際頂會發表論文60多篇，今年的CVPR有34篇論文，基礎研究的論文發表已經躋身國際國內第一集團。

我們大量的工作也是透過我們的實習生和高校老師聯合完成的，比如說P-DARTS，去年這項工作已經被納入微軟的開源平臺，作為標準演算法進行提供。

第二個是CenterNet，也是單階段效能最強的目標檢測演算法之一，在GitHub開源收穫了很高的評價。還有一個是AdderNet提出了全新的神經網路計算架構，為下一代晶片架構指出了新方向。

第二方面是開放，我們希望與頂級的高校老師合作，華為的視覺團隊過去1-2年中有100多位C9高校和其它的高校的實習生，他們不僅做出了傑出的貢獻，而且也形成了與高校之間有力的紐帶。

第三是從培養的角度出發，視覺團隊製作了計算機視覺精品課程，同時也撰寫了計算機視覺白皮書，希望下一步成為AI系列教材，最後對內外部宣講。

最後把我們半年來的視覺領域的進展與各位分享一下，我們的目標是希望在各項視覺基礎任務中打造效能最強的計算模型，積極投入D+M生態建設。

在全監督學習方面，把全空間、網路架構搜尋和資料擴增技術結合，在ImageNet達到85.8%的精度，打破谷歌三年的壟斷。

另外，在自研的資料增強技術方面，在MS-COCO這樣一個業界具有挑戰的測試集，目前不管是單模型還是多模型，我們都達到業界第一，其中多模型達到58.8%的檢測精度，也打破了微軟多年的壟斷。

在多模態學習方面，目前在自動駕駛資料集Nuscenes Challenge上取得業界第一的檢測精度，擊敗來自全球92支隊伍並大幅度領先第二名達3.1%。

最後，在弱監督方面，我們在2020年的圖象識別競賽WebVision達到業界第一的精度。在無監督方面，我們在無標籤ImageNet-1000資料集上達到了業界領先的75.5%的精度，大大超過了Facebook保持的71.1%的精度。

未來希望我們的無監督學習能逼近甚至超越監督學習的極限。

以上就是華為視覺計劃的一些介紹和進展，謝謝大家。雷鋒網雷鋒網雷鋒網