高文院士：城市大腦的「痛點」與「突破」丨CCF-GAIR 2020

2020-08-08由完顏翠琴發佈於科技

2020 年 8 月 7 日，第五屆全球人工智能與機器人峯會（CCF-GAIR 2020）於深圳正式拉開帷幕。

CCF-GAIR 2020 峯會由中國計算機學會（CCF）主辦，香港中文大學（深圳）、雷鋒網聯合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協辦。

從 2016 年的學產結合，2017 年的產業落地，2018 年的垂直細分，2019 年的人工智能 40 週年，峯會一直致力於打造國內人工智能和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平台。

本次峯會之上，中國工程院院士、鵬城實驗室主任高文教授在線上為與會者們帶來了一場精彩紛呈的開場報告。

高文教授介紹，城市大腦1.0是一個以雲計算為核心的系統，由於系統各部分之間沒有很好的分工協調機制，使得系統成本高、響應速度慢、數據的可利用性低。

在他看來，城市大腦2.0是一個端邊雲分工協調的混合系統架構，可以有效解決城市大腦1.0的大部分問題。

城市大腦2.0的核心在於數字視網膜及其標準化，它相較城市大腦1.0具備四大方面的性能提升：

1、它有先進視頻編碼技術：節省存儲和帶寬50%以上；

2、它可以定製ASIC邊緣計算：節省雲計算資源90%以上；

3、它能在原始圖像上特徵提取：低延時和高精度；

4、它還可以做標準化特徵的提取，存儲和複用：顯著提升信息密度和價值。

以下是高文院士線上演講的精彩內容，雷鋒網作了不改變原意的整理與編輯：

今天我與大家分享的演講主題叫做“城市大腦2.0，邊端雲合理分工的人工智能賦能系統”。

先談談第一個話題：城市大腦1.0。

城市大腦是現有智慧城市中的一個核心繫統，它將算力及數據匯聚到一起，加上算法就可能產生出非常好的結果。

譬如，基於互聯網的數據、政務的數據、社會的數據，把它們集中到一起，提供一個雲計算服務，就可以提升政府效率、加速企業創新。

智慧城市系統之中，彙集了各類各樣的數據，其中有90%左右的數據都與圖像、視頻相關聯，如何處理好圖像和視頻數據，在城市大腦系統中是非常關鍵的要素。

現有的系統中，數據基本以圖像與視頻兩種形式進入:

第一種模式：攝像頭就是一個簡單的傳感器，捕捉到圖像或者視頻以後，進行一個編碼壓縮，傳送給雲端，雲端將它存儲起來。

也可能將它解碼之後進行分析，識別出人臉、車輛，或者進行交通數據的分析等等，這是一種信息或者數據感知的模式。

另一種模式叫做智能終端，在攝像頭這一端就把人臉或者車牌等信息識別出來，識別出來的信息被傳送到雲端，直接可以進行分析使用。

這兩種模式是目前城市大腦中數據使用的主要模式，當然這兩種模式都多多少少存在一些問題。

如果僅僅作為一個感知終端，後面如果需要調用，除了解碼以外，還要進行特徵提取等工作，需要大量的計算程序，這些計算非常耗費雲計算算力資源。另外，智能終端還無法識別出未被指定的人或物。

所以，我們我們需要一個更好的系統，這個系統不僅雲上算力資源需求不多且可以完成一些未經規定的動作。

現在的城市大腦1.0，它是一個具有海量數據的系統，但是這個海量數據並不等於大數據，因為90%的海量數據都是沒有結構化的，只是進行了一個簡單的編碼壓縮。

另外，這些數據的價值也比較低，它不是結構化的，你無法在上面進行分析，這也是為什麼很多智慧城市的視頻數據，一段時間之後就被覆蓋了。

怎麼才能改變這個現狀呢？其實問題的實質就是現有的城市大腦裏的數據表達是不到位的。

為什麼不到位呢？如果你只是感知數據後，將編碼壓縮送到雲端，它還是一個非結構化的數據；如果你把它識別出來是張三、李四，或者車牌號多少，雖然它已經結構化了，但是它是過度結構化的，對於沒有規定的任務就無法執行了。

所以我們需要一種泛化能力更強的數據表達，這個數據的表達是一個機緣表達，用這些機緣既可以完成現有的任務，也可以完成現在還沒有定義的一些任務。

當然這些數據表達想要得到一個比較好的結果，整個系統就必須做得好。所以我們現在考慮城市大腦應該有一套評測的指標，包括系統的智力、性能（響應時間、併發、吞吐）、效率（耗電多大）等等。

如果某套系統可以通過評測，那就代表這套系統比較智能化了。

城市大腦1.0系統的弊端在於：它的智能代價比較高，要麼是造價高、要麼就是耗電高。

我們希望城市大腦變得更智能，或者效率更高，怎麼辦呢？我們希望把現有的城市大腦1.0升級到2.0。

一個可能的做法就是要合理分工，我們把原來的傳感網絡和雲合併的機器變成邊端雲協同的機器，雲上只需要配備最低的算力，一部分計算放置於邊緣，一部分計算分配給終端，這樣組合起來使得整個系統最優化。

系統到底應該怎麼升級，或者這個結構做成什麼樣比較好，我們先來看看人的視覺系統是怎麼運行的。

人的視覺系統是非常合理的、能效比非常高的系統。比如説我們每天只消耗相當於20瓦電燈泡的能耗就能做很多的事情。

人的視覺系統為何可以做到如此的低功耗、高效率？人的視覺系統主要由三部分組成，包括眼睛、視覺通路和大腦的視覺眼，這三部分分工非常嚴密。

比如説大腦有了一個刺激信號，通過神經通路傳到大腦不同的視覺眼，不同的視覺眼分工做不同的響應，就可以完成很多事情，比如説感知、決策等。

不同的感知路徑或者不同任務的複雜度，其實人的響應度是不一樣的。（見PPT）這是1992年一張研究的示意圖，你可以看到當你給一個人下了一個指令説“你給我按一下綠色按鈕”，這個執行是需要經過一定延遲的，比如説視網膜有35毫秒的延遲，從視網膜到下一個環節又有30毫秒的延遲，最後到了肌肉、手指頭動作下去，大概有250毫秒的延遲，這個延遲就告訴我們，對不同的任務，我們整個視覺通道和腦的處理分工是非常嚴密的，使得簡單的任務可以響應很快，複雜的任務響應很慢，分工合作，這樣的系統就能做到能量最優化。

視覺系統最前端是視網膜，它的結構是由感光細胞、雙極細胞和神經節細胞三類細胞組成的。

數字視網膜裏面，大概有1.2億到1.26億個感光細胞，其中有錐狀細胞核桿狀細胞，錐狀細胞有600多萬個，桿狀細胞有1.2億個，它們可以感知光線的強弱等等。

這些感光細胞通過雙極細胞，最後匯聚到神經節細胞，進到神經纖維、視覺通道，通過大腦進行傳輸。

神經節細胞的數量只有差不多100萬個，換句話説從視網膜到視神經，它已經有一個差不多125：1的減縮，這個減縮我們可以把它理解成視覺信號的壓縮，或者特徵壓縮。

所以我們在視網膜和大腦之間已經有一個壓縮，這個壓縮應該説對整個大腦有效的工作其實是起到非常關鍵作用的。

當然它不僅僅是一個壓縮，它和後面的感知是緊密相關的，比如根據你任務的簡單和複雜程度，它們提取的視覺特徵也不一樣，簡單的任務就會優先採取相關的策略，複雜的任務，它就把相關的信息往後傳。

一個生物識別系統的簡化模型，從視網膜到大腦，信息進來以後經過一個特徵的編碼壓縮，特徵提取出來以後向後傳輸，傳到智能主體（腦），所以在視網膜這一端是一個定製的輕量級的計算，通過視神經這樣一個有限帶寬的通信送到智能體。

這樣一個簡化模型，對視覺通道是有很大作用的，所以大腦上有一個通用計算，這裏我們可以把它整個特徵的類別分為結構特徵和行為特徵，這個模型是經過自然進化，最後產生出這樣一個優勝劣汰找到的答案。

這個答案告訴我們仿生視網膜的架構，它有非常好的能量優化的特點，這個特點可以給我們提供一個很好的借鑑，如果我們想把整個城市大腦也做得能量優化或者能量高效化，就可以按照這樣的構造來進行結構。

所以從視網膜傳到大腦之間，它是一個特徵壓縮，我們叫做特徵編碼，當然這個編碼和現在傳統的圖像編碼並不一樣，它是一個特徵壓縮編碼的東西送到大腦中去。

另外，現在我們城市大腦裏面不能僅傳特徵，也要傳壓縮圖像，因為有的時候我們還需要用人眼去確認一些東西，所以壓縮圖像也還是要傳的，這就使得我們現在城市大腦裏的架構和真人的視覺系統並不完全一樣，我們是兩個綜合或者綁定的系統。

有了這樣一個借鑑，下面我們就看城市大腦2.0到底應該怎麼樣來設計。

很顯然它必須是一個邊、端、雲合理分工的系統，這個系統我們經過了一段時間思索以後，2018年我們就投出一篇論文，這篇論文最後是在2018年5月份網絡出版，最後正式是在2018年8月份在《中國科學》上發表，我們把邊、端、雲結合的最核心的技術叫做數字視網膜，它是整個城市大腦2.0裏面一個基本架構，我們把它叫做仿生視網膜的計算架構。

數字視網膜現在形成了有8個特徵的定義，這8個特徵原則上分成三大組。

第一組特徵的定義是和時空有關的，一個數字視網膜的終端必須要有全局統一的時空ID，包括全網統一的時間和精確的地理位置，比如説GPS或者北斗的位置，有了這個東西之後，城市大腦就很容易同步，或者很容易可以對標。

第二組特徵簡單來説是視頻編碼+特徵編碼+聯合優化，這是所有的攝像頭都應該支持的一個工作，當前絕大部分攝像頭只支持視頻編碼。

視頻編碼很容易理解，就是為了存儲和離線觀看影像重構。

特徵編碼是為了模式識別和場景理解的緊湊特徵表達，聯合優化是因為現在在城市大腦裏面它有兩個碼流，一個是視頻編碼壓縮流，一個是特徵編碼壓縮流，這兩個碼流會捆綁到一起進行傳輸，所以我們要有一個優化策略，把這個帶寬到底分多少給視頻編碼、分多少給特徵編碼，這樣通過一個聯合優化，使得整個系統是最優的。

第三組特徵，簡單來説就是模型可更新、注意可調節、軟件可定義。

什麼叫模型可更新呢？因為我們現在必須要考慮怎麼樣支持神經元網絡，不同的模型升級了，你要可以實時更新。

注意可調整是説，現在的攝像頭是沒有注意的，你把這個東西指到哪兒，景深設定到哪兒，它就在那兒，當然可以通過人工遠程調節它，可以拉近、拉遠等等，但是它不是自動的，我們希望它能做到自動的注意可調節。

最後一個特徵就是軟件可定義，這一點大家很容易理解，系統要想升級，可以通過軟件定義的方法，對系統自動升級。這三個特點如果具備，終端就可以做得非常智能。

當然，要想把數字視網膜技術全部用起來，這裏面有一些使能技術。

第一個是視頻編碼，現在做城市大腦、監控系統都離不開視頻編碼，攝像頭裏面都有一個視頻編碼芯片，視頻編碼芯片用的標準，最早期是H.264，或者用AVS的編碼標準，最近開始使用H.265或者AVS2的標準，未來不久就會用上H.266和AVS3的標準，這個標準差不多每10年就會更新一代，效率每10年就會提高一倍。

為什麼能夠做到編碼壓縮？一個視頻是一個圖像序列，圖像序列裏面包含了很多數據的冗餘，基本上有三大類冗餘：一類是和空間冗餘有關的，一類是和時間冗餘有關的，另外一類是和編碼冗餘有關的。

所以現在整個視頻編碼裏面用的算法，我們一般把它叫做混合視頻編碼架構，這個混合就把剛才三種主流的冗餘用不同的算法去掉。

比如説為了去除空間冗餘，一般我們採用正交變換，比如説DCP變換等等正交變換把它去除掉。為了去除時間上的冗餘，就是幀和幀上的冗餘，一般我們會採取預測編碼，比如説各種各樣的濾波器，把幀間的冗餘去除掉。

為了使得編碼的分配最符合熵的定義，我們使用信息熵編碼來去除編碼上的冗餘，這三個冗餘都去除乾淨了，整個視頻流裏就可以壓得很小，只有有用的信息、有用的數據甩出去，這些冗餘都被擠壓掉了，這是視頻編碼。

要想把視頻編碼做得好，算法要做得很精，隨着時間的推移，我們可以用計算、帶寬把這些東西一點點都去除掉。

當然，這些年我們除了不停地優化算法之外，我們還提出了一種背景建模的技術，使得編碼效率在原有的技術上又可以提高一倍。

這裏有很詳細的一些數據測試作為依據，而且這些東西都已經發表論文，比如2014年我們在TIP發表了一篇論文，裏面有這樣一些研究結果。

AVS2在2016年已經成為我國的標準，同時它也是IEEE1857標準的第四部分。現在我們做AVS3的時候，就是IEEE1857的第10部分。

AVS標準是在2019年3月份第一版就發佈了，H.266一直到今年7月份第一版才發佈，我們超前了H.266有一年三個月，這是有史以來第一次。

AVS3這個標準去年3月份第一版發佈以後，去年9月份海思就把芯片做出來了，在阿姆斯特丹的一次廣電展上，這款芯片一經面市，引起了很大的轟動。

它可以支持AVS3、8K解碼，是120幀的，這個芯片現在已經裝配在很多4K、8K電視、機頂盒等等。

第二個使能技術就是特徵編碼，這是非常關鍵的一個使能技術，這個技術裏面它的標準有兩部分核心的內容，一部分叫CDVS，一部分叫CDVA，這兩部分現在也都是國際標準MPEG-7裏面的兩部分，一個是第13部分，一個是第15部分。

為什麼要做視覺特徵的壓縮呢？因為根據不同的特徵，提取出來的特徵數據可能很大，如果不壓縮的話，搞不好特徵數據比圖像本身都大，所以要麼你就傳個圖像過去，要傳特徵的話數據太大，所以就要對它進行特徵壓縮。

怎麼進行壓縮？原來有不同的考慮，如果是先把圖像編碼傳過去，再提取特徵，再進行識別，和先把特徵提取出來，然後把特徵傳過去再識別，這兩個其實有一個剪刀差，可能有時候識別率會先差百分之二三十。

就是説先壓縮了以後，可能有一些比較有用的特徵丟了，因為所謂編碼壓縮，它是保留公共部分，把一些非公共的、非常見的東西壓縮掉了，而非常見的部分恰恰可能是特徵，所以你把這個打磨掉以後，它的識別率可能就下來了，所以我們是先提特徵，再在雲端技術識別這樣一個技術策略。

當然先提特徵，怎麼樣提的特徵體量比較小，我們初期是採用手工作業的策略，當然手工特徵怎麼支持深度學習，這是另外一個問題，後面我們做了第一版以後，又專門做了一個面向深度學習的編碼壓縮的框架，這個主要是給小視頻來做的，有了這兩個部分以後，基本上可以應對圖像特徵編碼和視頻特徵編碼這兩個需求。

圖像特徵編碼就是CDVS，視頻特徵編碼就是CDVA。CDVS是手工特徵的，裏面使用的是一個類SIFT的特徵集，SIFT大家都知道，當你給的比特數據比較少的時候，它就給一些比較宏觀的特徵。

基於這樣的思路，用這種類SIFT，我們提出了一個特徵表達的標準，然後來看它的性能，經過幾年的時間，這個性能越提越高，最後把它固定下來。

CDVS實際深是從2012年2月份就開始做，到了2015年6月份就做完了，就完全凍結掉了，最後成為國際標準，所以差不多花了4年的時間把它做出來。

CDVA是在2015年做完以後，標準化組織團隊就馬上轉向利用深度學習去做視頻分析特徵壓縮的問題，也是花了差不多兩年多、三年的時間慢慢把它做出來，這個是可以對深度網絡的短視頻，用它做特徵的提取、做表達，後面每次這個特徵的性能都會有所提高，對不同的網絡，它的特徵的檢出和特徵識別的效率也都在逐步提高，所以每次提高的趨勢。

第三個使能技術，我們把它叫做聯合優化。所謂聯合優化，就是在視頻編碼和特徵編碼之間，我要找到一個最優的結合點，使得這兩個流捆綁到一起的時候，腦力分配是最優的，上面這個流是視頻壓縮流，下面這個流是特徵壓縮流，這樣送到雲裏，它倆合起來是最優的。

怎麼能夠做到最優呢？因為各自的優化模型都是有的，比如現在我們看到的這些是上面這部分，它是一個視頻編碼優化的流程，上面的虛線是視頻編碼，下面的虛線是特徵編碼，這兩個編碼在右端，我們是合成一個流，就是視頻和特徵流。

這一個流我們怎麼樣優化呢？我們要設置一個聯合優化流程，把它放到一起去優化。視頻編碼的優化模型叫RBO，RBO就是給定碼率損失最小的優化模型，它的優化曲線就是右下角這個曲線。在識別特徵表達這一塊，它是有一個RAO，就是給定碼率，讓你精確度最高的優化模型。

這個優化模型給的曲線是反過來的，所以我們把這兩個需要優化的東西給它放到一個優化函數里面表達出來，就是這張圖的表達，根據這個東西我們聯合求解一個優化的解，這就是第三個使能技術。

第四個使能技術是深度學習模型編碼的使能技術，就是通過多模型的重用，通過模型壓縮更新來做。這是深度學習怎麼樣去通過重用去使得整個模型的重用精度更高。

這個重用既包括現有模型的重複使用，也根據目標模型訓練所得到的提升，使得優化做得更好。

這樣一個多模型重用，如果是在學習體系裏面把它用好的話，它的性能就可以提高得比較好，所以怎麼樣使得這個多模型編碼壓縮，使得在重用當中可以快速地更新一個模型，就使得這個性能不停地提升，這兩個就是模型編碼的主要動機，有了這個就可以使得當你模型訓練完了以後，壓縮完了以後就可以快速推到終端去升級你的模型。

上面這些使能技術，最後它要彙總到一個芯片裏面，這個芯片現在在北大杭州研究院下面的一家公司做出來了，第一個數字視網膜的芯片叫GV9531，剛才説的三組8個特性，這個芯片全都是支持的。

這個芯片目前也已經做成了板卡，比如説有4顆芯片的卡、16顆芯片的卡，這些板卡已經可以支持邊緣端，一下支持上百路甚至幾百路的攝像頭數字視網膜特徵提取的傳輸。

除了數字視網膜本身以外，現在配合人工智能技術的推進，也在推動中國的一些AI技術的國家標準，包括神經網絡模型表示與壓縮的標準、城市級大數據彙集關聯的規範和標準，包括這些標準研究開發的路線圖，什麼時候要把哪個標準提出來完成等等。

數字視網膜簡單來説是三個編碼流合併的系統，當然前兩個是最主要的，就是視頻流和特徵流，這兩個流時時刻刻都是彙集到一起進行傳輸的，第三個是模型編碼，只是在模型需要壓縮的時候，從雲端推到邊緣端或者終端上，進行一些增量的更新。

有了數字視網膜，就相當於城市大腦邊緣或者是終端方面就可以做得更高效，效能比更高，這樣就可以使得雲端的算力不需要那麼多，或者説雲端的響應可以更精確、速度更快，這樣就使得城市大腦可以做得更好一些。

為了配合這個工作，現在城市大腦包括一些中台怎麼考慮、業務支撐怎麼考慮，應用怎麼考慮，現在在鵬城實驗室都有一些比較完整的設計和規劃。所以整體來説，我們把城市大腦2.0裏面的數字視網膜也可以簡稱為雲腦視網膜，這個可以利用鵬城雲腦的算力去提升它的能力。

鵬城雲腦到現在為止已經投入了幾十億元去打造，鵬城雲腦只有100P的算力，雖然説只有100P的算力，這也是到目前為止國內作為AI訓練算力最大的一套系統。

後面還會有更強的系統，現在我們有一個原型，可以有數據進來，對數據進行標註、採集，可以進行訓練，訓練完了以後就可以用剛才這些和芯片有關的系統進行提取，然後可以分析和識別。

這個原型系統，一般的邊緣用的，甚至在雲端大數據服務裏面用的東西，現在都在逐步進入系統，上面會有各種各樣的參考軟件，去配合硬件的東西，最上面是開源的算法訓練，有這些東西之後，將來在鵬城雲腦上就會對城市大腦進行比較強有力的支持。

現在已經有一些演示驗證的案例，比如説對系統驗證，比如説對深圳交警提供的一些數據進行視頻的驗證，另外還可以進行視頻的追蹤等等。

在光明區也進行了一些實際驗證，對於停車、擁堵等問題都可以很好地分析和發現。

這就是城市大腦2.0到現在為止的一些情況。

總結一下，城市大腦1.0是一個以雲計算為核心的系統，由於系統各個部分分工協調不太好，所以系統成本比較高，響應速度慢，數據的可利用度比較低。借鑑人的視覺系統，比如説人的視網膜、視覺通道、大腦分工非常協調，非常合理。

城市大腦2.0就是借鑑這樣一個系統提出的一個體系架構，這個體系架構要想把它做出來，需要數字視網膜這樣一套思路、技術及其標準化，現在這些思路、技術、標準化都逐步到位。

數字視網膜這套系統上了以後，可以使得現有的城市大腦1.0在編碼方面節省50%的存儲和帶寬，在雲資源的耗費上，比現有的可以節省90%以上的雲計算的算力資源。

而且它對於圖像特徵的提取和分析延遲比較低、精度比較高，所以它有很多好處，這是數字視網膜希望帶給城市大腦2.0的一個好處。

當然這個系統要想完善，可能還需要一點時間，還需要在更多的地方去做實驗驗證，等這些技術都成熟了，標準全都到位了，甚至城市大腦2.0真正運營起來，對中國的城市化、智能城市等等方面會有一個比較大的貢獻。所以也希望大家多關注、多提比較好的建議和意見。

今天我要講的內容就是這麼多，謝謝大家。雷鋒網雷鋒網雷鋒網

温馨提示：大會現場票已磬，應觀眾強烈需求，現新增少許第三天 8 個專場通票，請於 8 月 8 號 14: 00 前申請搶座：https://gair.leiphone.com/gair/free/s/5f28d5ae607bf