不同網絡組成的算法，如何解決跨模態信號的定位問題

全文共2538字，預計學習時長8分鐘

圖源：unsplash

本文是對於論文《在視覺場景中定位聲源方法》的總結，研究視覺場景和識別聲源之間的對應關係是計算機視覺基礎領域的新問題。這篇文章提出了視覺線索與聲源定位的一種新方法。

視覺場景由豐富的聲音信息組成，這些信息包含各種中間線索，有助於定義特定場景中的聲音來源。如圖所示，發動機和人所在的空間會產生相應聲音，這些區域的輸出結果所對應的熱圖具有更高活性。

定位過程概述

該模型的主要目標是實現相應聲音信號和視頻的同步操作，因此，考慮到由視頻和音頻剪輯組成數據的海量性，可以設計一個無監督模型。

網絡架構

該模型的體系結構由two-stream網絡組成，其中每個網絡有助於涉及聲音和視覺數據的模態。根據先前的情況所設計的模型完全是基於對視頻的無監督觀察，即通過注意力機制學習聲源定位。

但是這種方法所獲結果説服力不高，因為無監督學習方法很難僅基於相關性進行聲源區分。為了解決這一問題，有人指出，先驗知識和巧妙監督有助於顯著改善結果。

文章討論的一些要點如下：

1.藉助聽覺信息的注意力機制引入學習框架。

2.提出了一種統一的端到端深卷積神經網絡結構，該結構能夠適應無監督、半監督和完監督的學習。

3.創建一個基於聲源定位的新數據集，提供監督信息，便於定量和定性分析。

事不宜遲，讓我們看一下由不同網絡組成的算法，以及它如何解決跨模態信號的定位問題。

驗證算法

設計的神經網絡主要包括三個模塊：聲音網絡、視覺網絡和注意模型。

聲音網絡

網絡需要10層並以原始波形作為輸入以開發高端信號。第一個conv層（至第8層）與SoundNet類似，隨後是1000個過濾器，接着是通過滑動窗口跨時間軸的平均池化。平均池化之後獲得的輸出記為“fs”，這保留了合理的聲音概念。

為了包含更高級別的聲音信號，第9層和第10層由ReLU和全連接層組成。第10 層FC的輸出是512-D，記為“h”。這個“h”用於與來自視覺網絡的特徵交互，主要捕獲與視覺信號相關的信息。

視覺網絡

視覺網絡由圖像特徵提取器和定位模塊組成。由於第一部分參考了SoundNet，該網絡很大程度上是受到VGG-16模型的啓發來提取特徵。輸入大小為H x W的彩色視頻幀之後，獲得由512-D激活向量組成的臨時輸出。

圖源：unsplash

視覺網絡“fv”的最終輸出是在視覺特徵“z”經過兩個{ReLU-FC}塊之後計算出來的。這裏的“z”是512-D向量（v）與“h”交互時生成的置信圖。

定位網絡

注意力模型計算公式

對於每個位置i∈{1，····，M}，注意力機制‘gatt’通過給定的聲音嵌入h和vi之間的相互作用從而生成正權重αi，其中αi是注意力的度量。注意αi可以解釋為grid i，可能是與聲音上下文相關正確位置的概率。

無監督學習的損失

三網融合

其中T (·)表示三元網絡，(x, x , x−)表示三元網絡查詢（正樣本和負樣本）。為了施加d

無監督損失函數

其中：

儘管這種無監督學習方法表現良好，但它可能導致問題，即當模型觀察到比聲源區域佔據更大區域的事物時，如果沒有任何監督反饋，就很難建立真正的因果關係。這導致模型偏向於某種語義無關的輸出。

半監督學習的損失

針對無監督學習所面臨的上述問題，文章提出了一種簡單的解決方法，即在半監督環境下利用監督信號提供先驗知識。

為此，半監督損失包含監督加法，其形式與以下式子相似：

半監督損失函數

其中LU和LS分別表示無監督損失和有監督損失，αGT表示地面真值（或參考值）注意圖，而λ（·）是控制數據監督類型的函數。無監督損失LU與上述相同，而LS可以是MSE或交叉熵損失。

其中‘i’表示注意圖的位置索引，(αGT,i)是二進制值。利用該公式，根據每個樣本的αGT，可以很容易地將損失調整為有監督或無監督類型。

實驗結果與定性分析

語義不匹配的結果

在建立新的聲源定位數據集後，文章評估了模型以便開展進一步分析。如前所述，模型在無監督模式下運行時會生成語義上不匹配的結果，如上圖所示，無監督方法的聲音顯示具有方向性混亂。

數據集

聲源定位數據集

為了提高無監督方法的準確性，必須考慮的數據集應包含註釋。為此，文章創建了一個新的數據集，該數據集不僅以更簡單的方式提升了評估，而且還為訓練監督模型提供了註釋。

三個主題註釋是按照通用指令完成的，比如——聽20秒、在生成聲音的幀上繪製邊界框並將邊界框標記為對象或環境。處理註釋後， “環境/非對象”圖像-聲音對得以消除。

結果與分析

來自無監督網絡的定性聲音定位結果

在識別不同情況下的行為結果時，定位響應是一個主要因素。上圖顯示了基於註釋的數據集中圖像-聲音對的定位結果。由圖可知，即使在空間信息雜亂情況之下，該模型也能夠識別聲源。

交互式聲源定位

在各種聲源組成的場景中，模型進行交互工作以顯示圖像哪部分生成了聲音。如上圖所示，在涉及瀑布的場景中，定位響應根據給定的聲音上下文而改變。

對於包含引擎（發動機）和人員的幀，當引擎發生聲音時，該區域將高亮顯示。同樣，當聲源來自於人類時，包含人的區域也會高亮顯示。

網絡註釋和人工註釋之間的定位比較

在以無監督方式訓練網絡的情況下，人工標註的定位性能如上圖所示。由此可得：儘管沒有利用先驗知識，該模型的表現與人類感知一致。

不同學習方法對聲音定位結果影響的定性

最後這張圖顯示了不同方法之間的比較，正如預期，有監督的學習方法使用地面真值能更準確地定位對象。還應注意的是，文章提出的半監督模型通過合併有監督和無監督數據，能達到理想結果。

本文提出了一個新問題的解決方案，並在此基礎上建立了一個新的基準數據集，可用於多模態檢索、基於聲音的顯著性或表示學習領域。值得注意的是，當需要少量的人類參與時，無監督網絡的性能可能會更好。

這也可能意味着，按照傳統的可學習性定義，使用無監督數據標記任務時，該任務本身存在問題。但是正如結果所示——可以通過少量的人為監督來解決此問題，這有助於基於聲音的表示學習機制。

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載，請後台留言，遵守轉載規範