不同网络组成的算法,如何解决跨模态信号的定位问题

全文共2538字,预计学习时长8分钟

不同网络组成的算法,如何解决跨模态信号的定位问题

图源:unsplash

本文是对于论文《在视觉场景中定位声源方法》的总结,研究视觉场景和识别声源之间的对应关系是计算机视觉基础领域的新问题。这篇文章提出了视觉线索与声源定位的一种新方法。

视觉场景由丰富的声音信息组成,这些信息包含各种中间线索,有助于定义特定场景中的声音来源。如图所示,发动机和人所在的空间会产生相应声音,这些区域的输出结果所对应的热图具有更高活性。

不同网络组成的算法,如何解决跨模态信号的定位问题

定位过程概述

该模型的主要目标是实现相应声音信号和视频的同步操作,因此,考虑到由视频和音频剪辑组成数据的海量性,可以设计一个无监督模型。

不同网络组成的算法,如何解决跨模态信号的定位问题

网络架构

该模型的体系结构由two-stream网络组成,其中每个网络有助于涉及声音和视觉数据的模态。根据先前的情况所设计的模型完全是基于对视频的无监督观察,即通过注意力机制学习声源定位。

但是这种方法所获结果说服力不高,因为无监督学习方法很难仅基于相关性进行声源区分。为了解决这一问题,有人指出,先验知识和巧妙监督有助于显著改善结果。

文章讨论的一些要点如下:

1.借助听觉信息的注意力机制引入学习框架。

2.提出了一种统一的端到端深卷积神经网络结构,该结构能够适应无监督、半监督和完监督的学习。

3.创建一个基于声源定位的新数据集,提供监督信息,便于定量和定性分析。

事不宜迟,让我们看一下由不同网络组成的算法,以及它如何解决跨模态信号的定位问题。

不同网络组成的算法,如何解决跨模态信号的定位问题

验证算法

设计的神经网络主要包括三个模块:声音网络、视觉网络和注意模型。

声音网络

网络需要10层并以原始波形作为输入以开发高端信号。第一个conv层(至第8层)与SoundNet类似,随后是1000个过滤器,接着是通过滑动窗口跨时间轴的平均池化。平均池化之后获得的输出记为“fs”,这保留了合理的声音概念。

为了包含更高级别的声音信号,第9层和第10层由ReLU和全连接层组成。第10 层FC的输出是512-D,记为“h”。这个“h”用于与来自视觉网络的特征交互,主要捕获与视觉信号相关的信息。

视觉网络

视觉网络由图像特征提取器和定位模块组成。由于第一部分参考了SoundNet,该网络很大程度上是受到VGG-16模型的启发来提取特征。输入大小为H x W的彩色视频帧之后,获得由512-D激活向量组成的临时输出。

不同网络组成的算法,如何解决跨模态信号的定位问题

图源:unsplash

视觉网络“fv”的最终输出是在视觉特征“z”经过两个{ReLU-FC}块之后计算出来的。这里的“z”是512-D向量(v)与“h”交互时生成的置信图。

定位网络

不同网络组成的算法,如何解决跨模态信号的定位问题

注意力模型计算公式

对于每个位置i∈{1,····,M},注意力机制‘gatt’通过给定的声音嵌入h和vi之间的相互作用从而生成正权重αi,其中αi是注意力的度量。注意αi可以解释为grid i,可能是与声音上下文相关正确位置的概率。

不同网络组成的算法,如何解决跨模态信号的定位问题

无监督学习的损失

三网融合

其中T (·)表示三元网络,(x, x , x−)表示三元网络查询(正样本和负样本)。为了施加d

无监督损失函数

其中:

尽管这种无监督学习方法表现良好,但它可能导致问题,即当模型观察到比声源区域占据更大区域的事物时,如果没有任何监督反馈,就很难建立真正的因果关系。这导致模型偏向于某种语义无关的输出。

半监督学习的损失

针对无监督学习所面临的上述问题,文章提出了一种简单的解决方法,即在半监督环境下利用监督信号提供先验知识。

为此,半监督损失包含监督加法,其形式与以下式子相似:

半监督损失函数

其中LU和LS分别表示无监督损失和有监督损失,αGT表示地面真值(或参考值)注意图,而λ(·)是控制数据监督类型的函数。无监督损失LU与上述相同,而LS可以是MSE或交叉熵损失。

其中‘i’表示注意图的位置索引,(αGT,i)是二进制值。利用该公式,根据每个样本的αGT,可以很容易地将损失调整为有监督或无监督类型。

不同网络组成的算法,如何解决跨模态信号的定位问题

实验结果与定性分析

语义不匹配的结果

在建立新的声源定位数据集后,文章评估了模型以便开展进一步分析。如前所述,模型在无监督模式下运行时会生成语义上不匹配的结果,如上图所示,无监督方法的声音显示具有方向性混乱。

数据集

不同网络组成的算法,如何解决跨模态信号的定位问题

声源定位数据集

为了提高无监督方法的准确性,必须考虑的数据集应包含注释。为此,文章创建了一个新的数据集,该数据集不仅以更简单的方式提升了评估,而且还为训练监督模型提供了注释。

三个主题注释是按照通用指令完成的,比如——听20秒、在生成声音的帧上绘制边界框并将边界框标记为对象或环境。处理注释后, “环境/非对象”图像-声音对得以消除。

结果与分析

来自无监督网络的定性声音定位结果

在识别不同情况下的行为结果时,定位响应是一个主要因素。上图显示了基于注释的数据集中图像-声音对的定位结果。由图可知,即使在空间信息杂乱情况之下,该模型也能够识别声源。

不同网络组成的算法,如何解决跨模态信号的定位问题

交互式声源定位

在各种声源组成的场景中,模型进行交互工作以显示图像哪部分生成了声音。如上图所示,在涉及瀑布的场景中,定位响应根据给定的声音上下文而改变。

对于包含引擎(发动机)和人员的帧,当引擎发生声音时,该区域将高亮显示。同样,当声源来自于人类时,包含人的区域也会高亮显示。

不同网络组成的算法,如何解决跨模态信号的定位问题

网络注释和人工注释之间的定位比较

在以无监督方式训练网络的情况下,人工标注的定位性能如上图所示。由此可得:尽管没有利用先验知识,该模型的表现与人类感知一致。

不同网络组成的算法,如何解决跨模态信号的定位问题

不同学习方法对声音定位结果影响的定性

最后这张图显示了不同方法之间的比较,正如预期,有监督的学习方法使用地面真值能更准确地定位对象。还应注意的是,文章提出的半监督模型通过合并有监督和无监督数据,能达到理想结果。

本文提出了一个新问题的解决方案,并在此基础上建立了一个新的基准数据集,可用于多模态检索、基于声音的显著性或表示学习领域。值得注意的是,当需要少量的人类参与时,无监督网络的性能可能会更好。

这也可能意味着,按照传统的可学习性定义,使用无监督数据标记任务时,该任务本身存在问题。但是正如结果所示——可以通过少量的人为监督来解决此问题,这有助于基于声音的表示学习机制。

不同网络组成的算法,如何解决跨模态信号的定位问题

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

版权声明:本文源自 网络, 于,由 楠木轩 整理发布,共 1205 字。

转载请注明: 不同网络组成的算法,如何解决跨模态信号的定位问题 - 楠木轩