暗物智能CEO林倞：五层认知架构，重塑多模态人机互动产业化｜CCF-GAIR 2020

2020 年 8 月 7 日，第五届全球人工智能与机器人峰会（CCF-GAIR 2020）在深圳正式开幕。

CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。

作为中国最具影响力和前瞻性的前沿科技活动之一，CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。在大会第二天的「视觉智能•城市物联」专场上，暗物智能联合创始人&CEO;林倞博士，分享了暗物智能在人工智能前沿技术与产业化方面的思考与实践。

林倞指出，目前很多成功的人工智能应用大部分还是依赖于大数据计算泛式，需要针对各种复杂的场景收集多样化的数据，使得其成本一直居高不下；另一方面，这些算法对噪声比较敏感。因此，林倞认为，即便对于被广泛研究和应用的感知层的智能，尤其是计算机视觉，目前系统还有很大的局限性，一是成本问题，二是稳定性、鲁棒性并没有达到或真正超越人的水平。

其次，林倞认为，视觉跟语言的大部分理解是依靠想象和推测的，并不是依靠大数据的感知，因而AI系统自下而上的感知智能和自上而下的认知智能不可分割，必须统一在一个计算过程中。

最后，大量实验表明，目前AI的智力水平不足12个月大的婴儿，无法推测他人意图，缺乏可解释性。这引出林倞的第三个观点，认知人工智能必须要理解人的意图，懂因果，可解释。

基于这些情况，林倞介绍提出的五层认知架构，通过统一的人工智能操作系统和具有场景定义、任务描述能力的编程语言，实现高自然度人机交互。进一步的，林倞介绍该架构在教育行业的应用实践以及在游戏、金融等相关行业的拓展。

以下是林倞现场演讲的全部内容，雷锋网作了不改变原意的编辑与整理：

林倞：非常感谢CCF-GAIR平台，我在2017年就作为嘉宾参加过论坛的分享，三年之后再来又见到很多老朋友。这次我主要从人工智能技术发展的角度来谈谈产业化的新机遇，特别是目前备受关注的认知推理技术；另一方面，我也着重介绍跨模态AI能力在产业中的实践落地。

图1. 人工智能发展现状

首先，现在的人工智能发展到什么阶段了呢？根据阿里巴巴达摩院2020年的科技趋势报告，人工智能在“听、说、看”等感知智能领域已经达到或超越了人类水准，但在需要外部知识、逻辑推理或者领域迁移等认知智能领域还处于初级阶段。对于这个趋势的判断我认为是对的，但是从技术及产业应用的角度来看，其实并没有这么乐观。

图2. 大数据-小任务的研究范式

以计算机视觉为例，目前大部分成功的AI/CV应用是依赖于大数据统计的研究范式。前沿的自监督/无监督以及神经网络搜索等算法，本质上还是依赖于大规模标注/未标注的数据，拟合数以亿计的参数，学习网络的结构以及其模型参数（参考于图2）。另外，为了使得学习得到的模型能够泛化到不同场景，需要为每一类物体，搜集大量的例子（涵盖各种形状、摄像头视角、材质、颜色、花纹、光照条件、遮挡等）并进行人工标注，每当遇到新样例或者新物体出现的时候，则一直重复这个过程，这也导致人工智能的应用成本居高不下。现有很多公司宣称在一些任务上指标达到惊人的99%，或者说已经达到甚至超过人类，基本都是通过这种方式实现的。

图3.行人重识别随机噪声干扰系统

图4.干扰前后行人再识别系统召回图像示例

我们再看另一个例子，我们今年发表在CVPR上的工作，在行人再识别(Person Re-ID)问题中验证AI模型的鲁棒性 (如图3)。我们在训练好的行人再识别的模型中随机地增加干扰信号并观察其对性能的影响。我们发现，目前宣称达到或者超越人类的行人再识别算法，其精度从宣称的99%降到1.4%，降幅超过90%。如图4所示，我们可视化部分干扰前后的检索图像，绿色框是在加入干扰之前目前行人再识别系统给出的最相似图像，其相似度是非常高的，但是在加入干扰之后，则召回的都是在外观特征上差异非常大的图像。

上述例子说明，即使是对于感知层的任务，例如计算机视觉，目前的AI/CV 算法的应用依旧存在较大的局限性。其一是成本非常高，其二是算法的稳定性和鲁棒性远没有达到人类的水平。

我们再看一个比较有趣的例子。1944年Heider-Simmel提出了一个著名的著名的视觉认知实验：给定一个抽象的动图，把三个几何体带入进行想象，大的三角形表示男人，小三角形表示女人，小圆点代表小孩，我们需要从动图中思考，他们在哪里？发生了什么？根据这些几何体简单的运动，人类可以从中感受到丰富的人物、性格、意图等社会属性。这说明人类基于自身认知，可以根据简单的视觉信息推理出背后更丰富的逻辑和因果信息。

另一方面，通过脑科学研究发现，人的大脑皮层感知区和认知推理区域是不可分割的，其中，大概有1%的区域处理客观的视觉感知，而有10倍于此的区域根据视觉感知的信息进行自顶而下的推理。由此可见，人类对视觉和语言的理解，大部分是依赖于想象和推测，而不是依靠于大数据感知。因此，我认为，感知智能和认知智能不可分割，必须统一在一个计算过程中。人脑是这样，未来的AI系统也是如此。

图5. 基于知识图的精细化物体识别和视觉问答推理

基于上述观察和讨论，目前产学各界提出一个新的研究思路：在深度表达学习的基础上，引入知识图谱以及基于图的推理，就能进一步实现认知智能。现有的很多白皮书以及产业报告都认同这个研究思路，我们团队基于这个研究思路也做了非常多尝试，例如，我们团队把知识图推理和深度表达学习结合在一起，实现精细化的物体识别和大规模物体检测，论文分别发表于IJCAI 2018和NIPS 2018；也通过构建常识规则库，促进视觉问答推理任务。尽管这些方法采用了更接近人类的认知模式，也取得不错的效果，这类系统还是距离我们理想中的认知AI有较大的差距。

早期神经和心理学实验表明，12个月大的婴儿就能够理解父母或者亲人的意图，也能通过手指的方式去表达意图。而这种能力是目前的AI系统所欠缺的：既无法理解人类或者服务对象的意图，也无法解释识别或者决策背后的目的和逻辑。所以如何实现高自然度的人机协同与互动一直是困扰我们的难题，在产业应用中落地起来也很不容易。

美国国防高级研究计划局(Defense Advanced Research Projects Agency，DARPA)发布XAI计划(如图6)，计划指出，目前人工智能研究是通过大数据的学习来实现，当我们得到AI的结果后，对于为什么会有这样的结果、什么时候会更好、什么时候会失败、我们能不能信赖AI等一系列问题，用户并不知晓。也就是说，目前的人工智能系统，远没有达到可解释和可信赖的阶段。针对这些问题，我们团队已经开展了较长时间的研究了，其实DARPA展示未来的“Explainable Model”(图6下半部分)就是DMAI创始人朱松纯教授的研究成果。该模型不仅可以预测任务的结果，还可以进一步知道得到该结果的原因、知道在什么情况下模型可以成功预测以及什么情况下会错误预测等,相关的工作发表在去年的《科学》子刊上。这也引出了第三个观点，认知人工智能必须要理解人的意图，懂因果，可解释。

图6. 可解释可信赖的人工智能系统

图7. 暗物智能科技公司团队成员

这里顺便介绍一下我们团队，由朱松纯教授领衔创立的暗物智能科技DMAI， 2017年底在美国洛杉矶成立，2018年搬迁至广州，目前在中国广州和美国洛杉矶都有研发中心。公司致力于推进“小数据、大任务”的研究范式，探索人工智能在认知层面的新突破，实现真正的高自然度的人机交互和协同。

图8. DMAI陪伴机器人原型系统

图8是我们公司研发的第一个陪伴机器人原型系统，这个样机于2017年底研发出第一个版本，可以通过丰富的方式跟人交互，能看到、能听懂、能回复、甚至能知道计算数学背后的因果逻辑，并且跟用户进行多种方式的交互。目前这个产品已经通过多种形式和渠道在中国和美国市场逐步落地应用了。

图9. DMAI五层认知架构

在这样的人机交互协作的背后，就是DMAI提出的五层认知架构，如图9所示。最底层是IoT物联网层，包括传感器和控制部件，主要实现音视频信息获取以及交互指令输出和执行；往上第二层是感知层，包括基于机器学习的音视频多模态分析，可以分析包括人脸人体属性/行为、手势动作、物体类别、语音转录信息等；第三层是进一步的推理调度层，包括场景和任务定义、任务调度和规划、以及逻辑推理等相关算法；第四层是知识和意图建模层，为第三层的逻辑推理和任务调度提供额外的知识支撑；第五层则是更高的人类常识和社会价值层。基于这个架构，我们打造了相应的人工智能操作系统及编程语言，并且延展出在不同的应用场景中的产品和解决方案。

图10. DMAI新一代人工智能操作系统

首先，从操作系统角度来说，底层的Windows、Linux、Android，他们管理的是计算机的资源，包括软件和硬件，提供的是计算机的图形化服务。而对于人工智能操作系统来说，其主要的目的是针对特定领域任务，实现不同类型的AI能力的自动化调度，例如集成调度视觉、语音、文字以及相关运动控制等AI能力(资源)，在特定的应用场景下实现多模态的人机协作与交互，比如虚拟教师、个人助理方面的应用中都有很多这类场景。

图11. DMAI描述知识、任务、价值体系的AI编程语言

除了调度系统本身以外，怎么去定义一个领域的任务以及实现一个任务的流程，是另外一个难题。为此，我们做了另外一件事情，设计一个描述知识、任务、价值体系的AI编程语言DMPL。目前的人工智能系统一直在强调算法、算力、以及数据，我们认为更重要的是场景以及面向场景的任务，如果抛开场景和任务谈AI算法，是不切实际的。假如我需要描述一个场景或者任务，可以通过DMPL编程语言以及我们的开发平台，把场景和任务相关的模型、场景、价值以及流程定义且描述出来，最后部署集成到人工智能操作系统，通过调度操作系统的调度和智能分析算法运行。

综上所述，为推进高自然度人机协作为导向的人工智能，实现小数据、大任务的研究范式，我们研发和设计了两个基础平台：第一个是具有调度能力的综合人工智能能力的平台；第二个是能定义场景、描述任务的编程语言。我们平台可以支持多平台的部署方式，计算能力可以根据实际需要放在云上或者端上，实现云端融合的计算，以支撑不同的应用。

在平台研发和设计过程中，我们也一直在探索怎么把认知人工智能及多模态人工交互技术应用于具体的产业实践中。针对这个问题，我们公司选择的赛道是教育，特别是自适应、个性化的陪伴型教育。通过广泛的调研和分析，我们对教育行业有以下几点的总结：

第一，教育对真正的强交互人工智能提出了很大的挑战，教育行业的核心是能够像老师一样教育和辅导学生，帮助老师提高教学效率和协助提高学生的学习兴趣和效能，这需要依托于高自然度强交互的AI能力。对此，我们研发学龄前儿童个性化、自适应的陪伴式学习，该产品已经在美国落地了，就是陪小孩学习英语和数学的桌面机器人；

第二，教育对高度智能化认知推理智能提出了很大挑战，针对中小学生的自动化讲题、辅导和批改可以更大程度降低老师和家长的工作负担，对提升学生学习积极性也有很大帮助。对此，我们研发集讲题、附到和批改为一体的学习服务平台，通过构建中小学知识体系，并基于该知识体系研发类脑推理系统，实现全自动、标准化、自适应地题目批改和讲解；

第三，现在的线上教育行业发展非常快，如何针对多模态音视频信息，有效分析老师和学生教学情况，形成对教情学情的分析，对规范化和促进线上教学，至关重要。为此，我们研发AI互动在线教育平台，该平台融合多模态AI技术，打造全方位、跨平台的AI可视化教学分析系统。

接下来我们详细阐述，如何把我们的人工智能操作系统和编程语言应用到上述教育行业几个垂直化的产业实践：

我们第一款产品是谙心学伴，如图12，这是一款家庭陪伴教育终端，这款产品目前在美国亚马逊卖了数万套，是美国排名第一的电子类教育产品，该产品用到丰富的多模态分析算法，包括人脸识别、人脸表情/属性分析、道具/卡片识别、以及语音识别等，其中和核心模块和软件也通过与企业合作的形式逐步在国内市场展开销售。我们在产品开发和体验过程中看到，人工智能操作系统并不是针对单点AI算法非常高的识别率，例如，对道具的识别做到99.0%或99.5%实际上没有太明显的区别，关键是以任务为导向，智能化地调度各个AI算法，把用户体验做到极致。为了切实推进产品化落地，我们也投入了很多成本做非核心AI能力的产品，包括原创生产很多动画内容，以及设计很多认知启发、思维引导的体验。这是我们的第一个例子，通过人机交互的方式改善幼儿语言学、启蒙学的教学。

图12. DMAI谙心学伴，家庭陪伴教育终端

我们公司第二款产品是针对中小学教育市场，集解题、讲题、辅导、批改为一体的学习服务平台。为此，我们首先对中小学教育知识体系进行结构化建模，其次，我们研究教学过程的理解和描述，并设计类脑运算的系统，做到在不依赖于题库的情况下自动化推理其解题过程。围绕教学任务，我们还研究中英文和公式的识别和结构化解析、语音识别理解以及针对高自然度语音合成等智能算法。其次，该平台还支持智能讲题，通过动画提示、语音/文字引导等多种方式，协助学生梳理其解析思路和逻辑。最后，该平台在一些易错点和难点上实现个性化讲解和附到，即根据学生的掌握情况，自适应选择解题和讲题过程，实现自适应教学。基于强交互AI的自动化解析和讲题，可以降低老师和家长的工作负担，以及弥补优质师资缺失的问题，是AI进入教育产业的核心价值。

图13. DMAI集解题、讲题、辅导、批改为一体的学习服务平台

我们看到很多讲AI的应用，虽然有很多刷脸、支付、安全类的，但并没有解决太多的问题，几十年来没有这些东西也没什么，不能刷脸可以用指纹，可以用密码。但是AI真正能体现价值，能替代人部分智能的能力，或者说延展人的能力，这才是最有价值的，我们觉得关注智慧城市，应该关注它的主体，关注每一个人，所以我们公司一直希望提升人类的福祉，以智慧生活为导向。

因此，我们公司除了在教育行业落地以外，我们也基于认知AI的能力形成综合的AI解决方案，并在金融、游戏和电竞等方向做了延展。今年，我们跟一家主板上市企业吉比特做了一个案例：游戏NPC智脑平台。该平台以人工智能操作系统和编程语言为基础，具体场景任务定义和智能算法调度的能力，使得“智脑”NPC具有更加拟人化的思考、交互、和行动能力。具体地，NPC以生存目标为驱动，会因价值观而异，能自主思考和行动，自主选择演化路线，能够理解人类语言并与玩家进行自动化交互。这是我们今年做的初步尝试，我觉得未来以认知推理和多模态分析为基础的人工智能技术，会应用在很多领域的应用场景。雷锋网雷锋网雷锋网

图14. 基于强认知AI的能力输出和行业拓展