多模态学习，带来AI全新应用场景？

2020-07-07由聊素丽发布于科技

图片来源@视觉中国

文丨脑极体

新的AI技术发展趋势有哪些？多模态学习技术一定是其中之一。

最近，刚刚宣布“自立门户”的微软AI明星产品小冰改名为“红棉小冰”。殊不知2014年诞生的这一个AI对话机器人已经在5年时间里更新到了第七代了，据称能力上正在“无限接近人类”。现在的小冰，不仅是那个会作诗的机器人了，她还会唱歌作曲、阅读朗诵、撰写新闻，甚至去年还办了一个虚拟7位画家的个人画展。多模态识别技术正是小冰越来越像人一样沟通表达的关键之一。

多模态技术同样也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺推出的“只看TA”功能，优酷视频正在使用的视频帧、人脸帧的图向量检索，都离不开多模态识别技术的支持。而像京东淘宝等电商平台的“拍照购”、“拍立淘”的搜索技术背后也都是在计算机视觉技术下，使用了图像、文本和高层语义属性等多模态下的信息融合，才实现高精度的“以图搜图”功能。百度提出的“多模态深度语义理解”，则让AI实现从“看清听清”到“看懂听懂”的进化。

可以说，人工智能在通向人的智能的道路上，多模态学习就是一个绕不开的发展方向。因为人类本身就是一个多模态学习的典范。

现在，多模态学习技术正在带来众多全新的应用场景。关注AI技术和应用发展趋势的你，想必也想了解下多模态学习的来龙去脉，以及在这些新应用场景中的技术现状与问题。而这些问题也是本文重点探讨的内容。

“多模态学习”，正式认识下

模态（Modality），虽然不是我们的日常用语，但却十分容易理解。

我们每一天都会接触到各种不同来源和形式的信息。正如我们有视觉、听觉、嗅觉和触觉等，那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等，这每一种信息的形式就可以称作一种模态。

模态的范围要比我们的感知能力更宽泛。除了视觉、听觉获得的模态信息，我们也可以利用传感器获得诸如雷达、红外线等不同感应数据的模态信息。

此外，模态的类型定义也可以非常宽泛，比如我们可以把两种不同的语言当做是两种模态，把不同结构下采集的数据，也可以当做两种模态。比如，仅仅一个视频内容数据，就是一个高维度、多模态的数据信息，其中包含了标题、简介、评论、字幕等文本信息，也有视频帧的图像、声音，以及连贯动作视频片段的视觉、声音信息。

多模态学习，从上世纪70年代就已经起步，几经发展，现在正进入到机器学习特别是深度学习的阶段。通常称为多模态机器学习（Multi-Modal Machine Learning ，MMML），试图通过机器学习的方法实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。

当前，多模态学习主要研究方向有多模态表示学习、模态间映射，多模态对齐、融合、协同学习等。

多模态表示学习，研究如何将多个模态数据所蕴含的语义信息数值化为实值向量，通俗理解就是对多个模态的数据进行相关性编码，让不同模态建立起映射关系。按多模态表示共享的方式，主要分为公共表示学习和特异性表示学习，后者由于是分别学习不同模态的特征，可以应用于诸如零次学习、模态间映射、跨模态检索等任务中。

模态间映射，研究如何将某一特定模态数据中的信息映射至另一模态。例如，给定一幅图像，通过机器学习得到这副图像的描述，或者给定一段文字，生成一幅匹配的图像。类似于我们学习中遇到的“看图说话”和“以题作画”的问题。模态间映射早已可以应用于语音合成、图像视频描述以及跨模态检索等应用中。

此外，多模态对齐，主要研究如何识别不同模态之间的部件、元素的对应关系，以促进学习到的多模态表示更加精确，例如将电影画面、口型、语音、字幕的自动对齐；多模态融合，主要致力于不同模态间的模型与特征的整合，以获得更全面的特征，提高模型鲁棒性，并且保证模型在某些模态缺失时仍能有效工作；而多模态协同学习，主要考虑如何从信息丰富模态上学习的知识迁移到信息匮乏的模态，使各个模态的学习互相辅助。典型的方法包括多模态的零样本学习、领域自适应等。

近两年，随着机器学习的模型的飞速进展，多模态学习中出现的映射质量问题、对齐的匹配度量以及融合噪声干扰等问题，都在实现很好的优化解决，为多模态的落地应用做好了准备。

多模态学习，正在丰富哪些应用场景？

通过以上解释可以知道，其实很多我们熟知的AI技术都可以归类到模态学习当中。比如，像机器翻译，通过输入的一种A语言即时翻译为另一种B语言，其实质就是一种模态之间的映射转化。类似的还有唇读识别和语音翻译，也就是分别将唇部视觉和语音信息转换为文本信息。

在图像识别中，会应用到一种“图片语义分割”，即尝试给图片的不同像素区域对应到每一种类型标签，实现视觉和词汇的对应。这就是多模态对齐在空间维度的应用。

当然，基于多模态数据的丰富表示以及映射、对齐和融合的应用，可以将目前AI的三种主要感知模态——语音交互、机器视觉、传感器智能进行多模态组合，产生全新的应用场景。

在语音交互上，“多模态深度语义理解”技术正在为其带来更深度的应用场景。

对于前几年的智能音箱，我们都有这样的感触，那就是语音交互只能完成简单的搜索，一旦多聊几句，就发现机器人要么只有万能的“套路”公式，要么就“答非所问”。这一问题的根源就是人工智能无法更好的理解对话者的深层涵义，也没有灵活的应答机制和内容。此外，也更难理解人的语气、情绪这类情感模态信息，当然因为没有视觉感知，更不可能去理解人的表情、动作、姿态等信息。

多模态深度语义理解可以极大改善这类语音交互的语义理解难题。比如，其中一个应用场景是智能汽车的数字座舱，正在从原本单一的车载语音识别，实现融合视觉、语音、车内外场景图像的多模态识别的转变。

在实际的语音交互中，车载智能助手不仅可以实现语音的识别，也可以通过摄像头识别人的表情神态、动作，比如识别疲劳驾驶、分心、发热等状况，以进行即时的语音提醒。语音交互也可以更加以人类的自然语言进行交互，而不必要使用生硬的指令型语言。

而在以机器视觉为主的应用中，多模态学习技术也带来新的应用可能。

以电商平台购物为例，用户的一大痛点就是看到一些“心水”的好物或者同款，但不知道名字，通过拍照识别和检索，将为用户提供最便捷的推荐服务。另外，在电商的智能客服，用户也希望能够通过简单对话或者发送图片、视频的方式处理订单问题。在这些场景中，跨模态检索和映射转化技术就得到了深度应用。

比如，在商品推荐和信息流广告中，就需要结合海量商品图像与对应的商品语义属性，学习图像语义特征表达，以提高符合用户需求的商品推荐度。而与智能客服进行的多轮对话中，融入视觉到语言的跨模态转换技术，可以自动实现对用户上传的图片或视频进行自动应答。

在传感器智能上，多模态识别技术可以应用到大量的物联网设备场景中。通过在大量的智能设备中增加视觉、温度、湿度和光线传感器，来实现多模态的智能交互。比如在智能空调中，加入语音交互、视觉识别指令，结合传感器判断屋内温度和湿度，可以根据屋内人数、位置等因素来实现更精准的控温方案。而现在更多智能大屏应用，也在将机器视觉、语音交互和一些智能传感器引入到智能硬件中，实现对屋内光线的调节、音量、观看者状态（离得是否太近，是否有未成年人）等因素的智能识别和调节。

而近期，华为推出的一款针对办公场景的智慧屏幕，可以根据视频会议中的发言对象进行视角跟踪，将摄像头跟踪、焦点人物识别和身份识别结合起来。

正如开始列举的，多模态学习技术更主要的应用还是集中在语音和视觉的多模态识别上。在爱奇艺的“只看TA”的功能中，除了人脸识别要区分是真人还是卡通人物，还要对人体信息，甚至还有微表情、身体语言等识别，多模态技术成为视频场景中不可缺少的技术支撑。而在未来的聊天机器人或者智能助手上，多模态学习将帮助智能机器人综合处理图像、声音和文字信息，同时可以进行综合模态，甚至包括情感等特征信息的输出与表达。

技术尚在中途，未来仍需努力

不过，我们仍然需要指出的是，尽管多模态学习技术已经有诸多的应用场景，但其技术实现仍然有诸多不足，也会有一些场景仍然是“伪多模态”的技术应用状态，导致一些场景体验仍然不能“尽如人意”。

现在的多模态技术的结合多为“松耦合”状态，各个模态可以一起工作，但耦合之下还不够十分紧密。也就是现在更多实现的是两种模态信息的转化和融合。而一旦多种模态数据增加，耦合也会增多，冲突也就会增加，产生各种噪声。比如，对于聊天机器人，如何在回复的声音、文本中增加情感特征，就是一件非常困难的事情。因此，我们遇到的一批智能机器人都很容易是冷冰冰的客服腔调，以致于我们确实不好识别对方是真人还是机器人

多模态技术主要还是采用已标注的多模态数据来生成深度学习模型，这导致这些模型在真实场景下的泛化能力受到很大限制。现有的多模态技术更多要与知识图谱结合，融入专家、常识等知识，利用数据和知识的联合来让多模态技术建立其“智能”的作用。

此外，正如一位专家指出的，当前的多模态技术还是属于狭隘的单任务学习，整个训练和测试的过程都是在封闭和静态的环境下进行，这就和真实世界中开放动态的应用场景存在一定的差异性。这距离人类在真实场景中的泛化的多模态感知相距甚远。

未来为提高多模态的泛化感知能力，可以利用元学习的方式来让模型自己学会如何认知新的多模态知识，实现适用于开放动态场景并具备终生学习能力的多模态模型。

而在推动AI的推理能力上，在多模态模型训练的过程中，可以引入自监督、自学习的推理性任务，“强迫”多模态模型进行推理和思考，这也能在一定程度上让机器去慢慢学会推理。

通过多模态学习技术实现AI的推理，看起来难度极大，这一假设还需要未来更多实验和验证。

总的来说，多模态技术已经在试图“复制”人类在日常生活中的各类场景，尽可能把人类的感知信息进行分析处理和整合，并实现更全面综合的理解，也能结合“数据”和“知识”给出相应的回应。但这距离真正的人类级别的智能还有质的差别。

当然，人们对多模态技术的发展前景仍然看好，相比于只侧重单一模态的技术，多模态技术所构建的智能应用场景将更多样化，也与我们普通人期待的智能生活更近一些。

更何况，多模态技术仍处在“襁褓状态”，我们应该留给它足够长的成长时间，等待美好发生。