暗物智能CEO林倞：五層認知架構，重塑多模態人機互動產業化｜CCF-GAIR 2020

2020 年 8 月 7 日，第五屆全球人工智能與機器人峯會（CCF-GAIR 2020）在深圳正式開幕。

CCF-GAIR 2020 峯會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）聯合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協辦。

作為中國最具影響力和前瞻性的前沿科技活動之一，CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智能•城市物聯」專場上，暗物智能聯合創始人&CEO;林倞博士，分享了暗物智能在人工智能前沿技術與產業化方面的思考與實踐。

林倞指出，目前很多成功的人工智能應用大部分還是依賴於大數據計算泛式，需要針對各種複雜的場景收集多樣化的數據，使得其成本一直居高不下；另一方面，這些算法對噪聲比較敏感。因此，林倞認為，即便對於被廣泛研究和應用的感知層的智能，尤其是計算機視覺，目前系統還有很大的侷限性，一是成本問題，二是穩定性、魯棒性並沒有達到或真正超越人的水平。

其次，林倞認為，視覺跟語言的大部分理解是依靠想象和推測的，並不是依靠大數據的感知，因而AI系統自下而上的感知智能和自上而下的認知智能不可分割，必須統一在一個計算過程中。

最後，大量實驗表明，目前AI的智力水平不足12個月大的嬰兒，無法推測他人意圖，缺乏可解釋性。這引出林倞的第三個觀點，認知人工智能必須要理解人的意圖，懂因果，可解釋。

基於這些情況，林倞介紹提出的五層認知架構，通過統一的人工智能操作系統和具有場景定義、任務描述能力的編程語言，實現高自然度人機交互。進一步的，林倞介紹該架構在教育行業的應用實踐以及在遊戲、金融等相關行業的拓展。

以下是林倞現場演講的全部內容，雷鋒網作了不改變原意的編輯與整理：

林倞：非常感謝CCF-GAIR平台，我在2017年就作為嘉賓參加過論壇的分享，三年之後再來又見到很多老朋友。這次我主要從人工智能技術發展的角度來談談產業化的新機遇，特別是目前備受關注的認知推理技術；另一方面，我也着重介紹跨模態AI能力在產業中的實踐落地。

圖1. 人工智能發展現狀

首先，現在的人工智能發展到什麼階段了呢？根據阿里巴巴達摩院2020年的科技趨勢報告，人工智能在“聽、説、看”等感知智能領域已經達到或超越了人類水準，但在需要外部知識、邏輯推理或者領域遷移等認知智能領域還處於初級階段。對於這個趨勢的判斷我認為是對的，但是從技術及產業應用的角度來看，其實並沒有這麼樂觀。

圖2. 大數據-小任務的研究範式

以計算機視覺為例，目前大部分成功的AI/CV應用是依賴於大數據統計的研究範式。前沿的自監督/無監督以及神經網絡搜索等算法，本質上還是依賴於大規模標註/未標註的數據，擬合數以億計的參數，學習網絡的結構以及其模型參數（參考於圖2）。另外，為了使得學習得到的模型能夠泛化到不同場景，需要為每一類物體，蒐集大量的例子（涵蓋各種形狀、攝像頭視角、材質、顏色、花紋、光照條件、遮擋等）並進行人工標註，每當遇到新樣例或者新物體出現的時候，則一直重複這個過程，這也導致人工智能的應用成本居高不下。現有很多公司宣稱在一些任務上指標達到驚人的99%，或者説已經達到甚至超過人類，基本都是通過這種方式實現的。

圖3.行人重識別隨機噪聲干擾系統

圖4.干擾前後行人再識別系統召回圖像示例

我們再看另一個例子，我們今年發表在CVPR上的工作，在行人再識別(Person Re-ID)問題中驗證AI模型的魯棒性 (如圖3)。我們在訓練好的行人再識別的模型中隨機地增加干擾信號並觀察其對性能的影響。我們發現，目前宣稱達到或者超越人類的行人再識別算法，其精度從宣稱的99%降到1.4%，降幅超過90%。如圖4所示，我們可視化部分干擾前後的檢索圖像，綠色框是在加入干擾之前目前行人再識別系統給出的最相似圖像，其相似度是非常高的，但是在加入干擾之後，則召回的都是在外觀特徵上差異非常大的圖像。

上述例子説明，即使是對於感知層的任務，例如計算機視覺，目前的AI/CV 算法的應用依舊存在較大的侷限性。其一是成本非常高，其二是算法的穩定性和魯棒性遠沒有達到人類的水平。

我們再看一個比較有趣的例子。1944年Heider-Simmel提出了一個著名的著名的視覺認知實驗：給定一個抽象的動圖，把三個幾何體帶入進行想象，大的三角形表示男人，小三角形表示女人，小圓點代表小孩，我們需要從動圖中思考，他們在哪裏？發生了什麼？根據這些幾何體簡單的運動，人類可以從中感受到豐富的人物、性格、意圖等社會屬性。這説明人類基於自身認知，可以根據簡單的視覺信息推理出背後更豐富的邏輯和因果信息。

另一方面，通過腦科學研究發現，人的大腦皮層感知區和認知推理區域是不可分割的，其中，大概有1%的區域處理客觀的視覺感知，而有10倍於此的區域根據視覺感知的信息進行自頂而下的推理。由此可見，人類對視覺和語言的理解，大部分是依賴於想象和推測，而不是依靠於大數據感知。因此，我認為，感知智能和認知智能不可分割，必須統一在一個計算過程中。人腦是這樣，未來的AI系統也是如此。

圖5. 基於知識圖的精細化物體識別和視覺問答推理

基於上述觀察和討論，目前產學各界提出一個新的研究思路：在深度表達學習的基礎上，引入知識圖譜以及基於圖的推理，就能進一步實現認知智能。現有的很多白皮書以及產業報告都認同這個研究思路，我們團隊基於這個研究思路也做了非常多嘗試，例如，我們團隊把知識圖推理和深度表達學習結合在一起，實現精細化的物體識別和大規模物體檢測，論文分別發表於IJCAI 2018和NIPS 2018；也通過構建常識規則庫，促進視覺問答推理任務。儘管這些方法採用了更接近人類的認知模式，也取得不錯的效果，這類系統還是距離我們理想中的認知AI有較大的差距。

早期神經和心理學實驗表明，12個月大的嬰兒就能夠理解父母或者親人的意圖，也能通過手指的方式去表達意圖。而這種能力是目前的AI系統所欠缺的：既無法理解人類或者服務對象的意圖，也無法解釋識別或者決策背後的目的和邏輯。所以如何實現高自然度的人機協同與互動一直是困擾我們的難題，在產業應用中落地起來也很不容易。

美國國防高級研究計劃局(Defense Advanced Research Projects Agency，DARPA)發佈XAI計劃(如圖6)，計劃指出，目前人工智能研究是通過大數據的學習來實現，當我們得到AI的結果後，對於為什麼會有這樣的結果、什麼時候會更好、什麼時候會失敗、我們能不能信賴AI等一系列問題，用户並不知曉。也就是説，目前的人工智能系統，遠沒有達到可解釋和可信賴的階段。針對這些問題，我們團隊已經開展了較長時間的研究了，其實DARPA展示未來的“Explainable Model”(圖6下半部分)就是DMAI創始人朱松純教授的研究成果。該模型不僅可以預測任務的結果，還可以進一步知道得到該結果的原因、知道在什麼情況下模型可以成功預測以及什麼情況下會錯誤預測等,相關的工作發表在去年的《科學》子刊上。這也引出了第三個觀點，認知人工智能必須要理解人的意圖，懂因果，可解釋。

圖6. 可解釋可信賴的人工智能系統

圖7. 暗物智能科技公司團隊成員

這裏順便介紹一下我們團隊，由朱松純教授領銜創立的暗物智能科技DMAI， 2017年底在美國洛杉磯成立，2018年搬遷至廣州，目前在中國廣州和美國洛杉磯都有研發中心。公司致力於推進“小數據、大任務”的研究範式，探索人工智能在認知層面的新突破，實現真正的高自然度的人機交互和協同。

圖8. DMAI陪伴機器人原型系統

圖8是我們公司研發的第一個陪伴機器人原型系統，這個樣機於2017年底研發出第一個版本，可以通過豐富的方式跟人交互，能看到、能聽懂、能回覆、甚至能知道計算數學背後的因果邏輯，並且跟用户進行多種方式的交互。目前這個產品已經通過多種形式和渠道在中國和美國市場逐步落地應用了。

圖9. DMAI五層認知架構

在這樣的人機交互協作的背後，就是DMAI提出的五層認知架構，如圖9所示。最底層是IoT物聯網層，包括傳感器和控制部件，主要實現音視頻信息獲取以及交互指令輸出和執行；往上第二層是感知層，包括基於機器學習的音視頻多模態分析，可以分析包括人臉人體屬性/行為、手勢動作、物體類別、語音轉錄信息等；第三層是進一步的推理調度層，包括場景和任務定義、任務調度和規劃、以及邏輯推理等相關算法；第四層是知識和意圖建模層，為第三層的邏輯推理和任務調度提供額外的知識支撐；第五層則是更高的人類常識和社會價值層。基於這個架構，我們打造了相應的人工智能操作系統及編程語言，並且延展出在不同的應用場景中的產品和解決方案。

圖10. DMAI新一代人工智能操作系統

首先，從操作系統角度來説，底層的Windows、Linux、Android，他們管理的是計算機的資源，包括軟件和硬件，提供的是計算機的圖形化服務。而對於人工智能操作系統來説，其主要的目的是針對特定領域任務，實現不同類型的AI能力的自動化調度，例如集成調度視覺、語音、文字以及相關運動控制等AI能力(資源)，在特定的應用場景下實現多模態的人機協作與交互，比如虛擬教師、個人助理方面的應用中都有很多這類場景。

圖11. DMAI描述知識、任務、價值體系的AI編程語言

除了調度系統本身以外，怎麼去定義一個領域的任務以及實現一個任務的流程，是另外一個難題。為此，我們做了另外一件事情，設計一個描述知識、任務、價值體系的AI編程語言DMPL。目前的人工智能系統一直在強調算法、算力、以及數據，我們認為更重要的是場景以及面向場景的任務，如果拋開場景和任務談AI算法，是不切實際的。假如我需要描述一個場景或者任務，可以通過DMPL編程語言以及我們的開發平台，把場景和任務相關的模型、場景、價值以及流程定義且描述出來，最後部署集成到人工智能操作系統，通過調度操作系統的調度和智能分析算法運行。

綜上所述，為推進高自然度人機協作為導向的人工智能，實現小數據、大任務的研究範式，我們研發和設計了兩個基礎平台：第一個是具有調度能力的綜合人工智能能力的平台；第二個是能定義場景、描述任務的編程語言。我們平台可以支持多平台的部署方式，計算能力可以根據實際需要放在雲上或者端上，實現雲端融合的計算，以支撐不同的應用。

在平台研發和設計過程中，我們也一直在探索怎麼把認知人工智能及多模態人工交互技術應用於具體的產業實踐中。針對這個問題，我們公司選擇的賽道是教育，特別是自適應、個性化的陪伴型教育。通過廣泛的調研和分析，我們對教育行業有以下幾點的總結：

第一，教育對真正的強交互人工智能提出了很大的挑戰，教育行業的核心是能夠像老師一樣教育和輔導學生，幫助老師提高教學效率和協助提高學生的學習興趣和效能，這需要依託於高自然度強交互的AI能力。對此，我們研發學齡前兒童個性化、自適應的陪伴式學習，該產品已經在美國落地了，就是陪小孩學習英語和數學的桌面機器人；

第二，教育對高度智能化認知推理智能提出了很大挑戰，針對中小學生的自動化講題、輔導和批改可以更大程度降低老師和家長的工作負擔，對提升學生學習積極性也有很大幫助。對此，我們研發集講題、附到和批改為一體的學習服務平台，通過構建中小學知識體系，並基於該知識體系研發類腦推理系統，實現全自動、標準化、自適應地題目批改和講解；

第三，現在的線上教育行業發展非常快，如何針對多模態音視頻信息，有效分析老師和學生教學情況，形成對教情學情的分析，對規範化和促進線上教學，至關重要。為此，我們研發AI互動在線教育平台，該平台融合多模態AI技術，打造全方位、跨平台的AI可視化教學分析系統。

接下來我們詳細闡述，如何把我們的人工智能操作系統和編程語言應用到上述教育行業幾個垂直化的產業實踐：

我們第一款產品是諳心學伴，如圖12，這是一款家庭陪伴教育終端，這款產品目前在美國亞馬遜賣了數萬套，是美國排名第一的電子類教育產品，該產品用到豐富的多模態分析算法，包括人臉識別、人臉表情/屬性分析、道具/卡片識別、以及語音識別等，其中和核心模塊和軟件也通過與企業合作的形式逐步在國內市場展開銷售。我們在產品開發和體驗過程中看到，人工智能操作系統並不是針對單點AI算法非常高的識別率，例如，對道具的識別做到99.0%或99.5%實際上沒有太明顯的區別，關鍵是以任務為導向，智能化地調度各個AI算法，把用户體驗做到極致。為了切實推進產品化落地，我們也投入了很多成本做非核心AI能力的產品，包括原創生產很多動畫內容，以及設計很多認知啓發、思維引導的體驗。這是我們的第一個例子，通過人機交互的方式改善幼兒語言學、啓蒙學的教學。

圖12. DMAI諳心學伴，家庭陪伴教育終端

我們公司第二款產品是針對中小學教育市場，集解題、講題、輔導、批改為一體的學習服務平台。為此，我們首先對中小學教育知識體系進行結構化建模，其次，我們研究教學過程的理解和描述，並設計類腦運算的系統，做到在不依賴於題庫的情況下自動化推理其解題過程。圍繞教學任務，我們還研究中英文和公式的識別和結構化解析、語音識別理解以及針對高自然度語音合成等智能算法。其次，該平台還支持智能講題，通過動畫提示、語音/文字引導等多種方式，協助學生梳理其解析思路和邏輯。最後，該平台在一些易錯點和難點上實現個性化講解和附到，即根據學生的掌握情況，自適應選擇解題和講題過程，實現自適應教學。基於強交互AI的自動化解析和講題，可以降低老師和家長的工作負擔，以及彌補優質師資缺失的問題，是AI進入教育產業的核心價值。

圖13. DMAI集解題、講題、輔導、批改為一體的學習服務平台

我們看到很多講AI的應用，雖然有很多刷臉、支付、安全類的，但並沒有解決太多的問題，幾十年來沒有這些東西也沒什麼，不能刷臉可以用指紋，可以用密碼。但是AI真正能體現價值，能替代人部分智能的能力，或者説延展人的能力，這才是最有價值的，我們覺得關注智慧城市，應該關注它的主體，關注每一個人，所以我們公司一直希望提升人類的福祉，以智慧生活為導向。

因此，我們公司除了在教育行業落地以外，我們也基於認知AI的能力形成綜合的AI解決方案，並在金融、遊戲和電競等方向做了延展。今年，我們跟一家主板上市企業吉比特做了一個案例：遊戲NPC智腦平台。該平台以人工智能操作系統和編程語言為基礎，具體場景任務定義和智能算法調度的能力，使得“智腦”NPC具有更加擬人化的思考、交互、和行動能力。具體地，NPC以生存目標為驅動，會因價值觀而異，能自主思考和行動，自主選擇演化路線，能夠理解人類語言並與玩家進行自動化交互。這是我們今年做的初步嘗試，我覺得未來以認知推理和多模態分析為基礎的人工智能技術，會應用在很多領域的應用場景。雷鋒網雷鋒網雷鋒網

圖14. 基於強認知AI的能力輸出和行業拓展