不同網路組成的演算法，如何解決跨模態訊號的定位問題

全文共2538字，預計學習時長8分鐘

圖源：unsplash

本文是對於論文《在視覺場景中定位聲源方法》的總結，研究視覺場景和識別聲源之間的對應關係是計算機視覺基礎領域的新問題。這篇文章提出了視覺線索與聲源定位的一種新方法。

視覺場景由豐富的聲音資訊組成，這些資訊包含各種中間線索，有助於定義特定場景中的聲音來源。如圖所示，發動機和人所在的空間會產生相應聲音，這些區域的輸出結果所對應的熱圖具有更高活性。

定位過程概述

該模型的主要目標是實現相應聲音訊號和影片的同步操作，因此，考慮到由影片和音訊剪輯組成資料的海量性，可以設計一個無監督模型。

網路架構

該模型的體系結構由two-stream網路組成，其中每個網路有助於涉及聲音和視覺資料的模態。根據先前的情況所設計的模型完全是基於對影片的無監督觀察，即透過注意力機制學習聲源定位。

但是這種方法所獲結果說服力不高，因為無監督學習方法很難僅基於相關性進行聲源區分。為了解決這一問題，有人指出，先驗知識和巧妙監督有助於顯著改善結果。

文章討論的一些要點如下：

1.藉助聽覺資訊的注意力機制引入學習框架。

2.提出了一種統一的端到端深卷積神經網路結構，該結構能夠適應無監督、半監督和完監督的學習。

3.建立一個基於聲源定位的新資料集，提供監督資訊，便於定量和定性分析。

事不宜遲，讓我們看一下由不同網路組成的演算法，以及它如何解決跨模態訊號的定位問題。

驗證演算法

設計的神經網路主要包括三個模組：聲音網路、視覺網路和注意模型。

聲音網路

網路需要10層並以原始波形作為輸入以開發高階訊號。第一個conv層（至第8層）與SoundNet類似，隨後是1000個過濾器，接著是透過滑動視窗跨時間軸的平均池化。平均池化之後獲得的輸出記為“fs”，這保留了合理的聲音概念。

為了包含更高級別的聲音訊號，第9層和第10層由ReLU和全連線層組成。第10 層FC的輸出是512-D，記為“h”。這個“h”用於與來自視覺網路的特徵互動，主要捕獲與視覺訊號相關的資訊。

視覺網路

視覺網路由影象特徵提取器和定位模組組成。由於第一部分參考了SoundNet，該網路很大程度上是受到VGG-16模型的啟發來提取特徵。輸入大小為H x W的彩色影片幀之後，獲得由512-D啟用向量組成的臨時輸出。

圖源：unsplash

視覺網路“fv”的最終輸出是在視覺特徵“z”經過兩個{ReLU-FC}塊之後計算出來的。這裡的“z”是512-D向量（v）與“h”互動時生成的置信圖。

定位網路

注意力模型計算公式

對於每個位置i∈{1，····，M}，注意力機制‘gatt’透過給定的聲音嵌入h和vi之間的相互作用從而生成正權重αi，其中αi是注意力的度量。注意αi可以解釋為grid i，可能是與聲音上下文相關正確位置的機率。

無監督學習的損失

三網融合

其中T (·)表示三元網路，(x, x , x−)表示三元網路查詢（正樣本和負樣本）。為了施加d

無監督損失函式

其中：

儘管這種無監督學習方法表現良好，但它可能導致問題，即當模型觀察到比聲源區域佔據更大區域的事物時，如果沒有任何監督反饋，就很難建立真正的因果關係。這導致模型偏向於某種語義無關的輸出。

半監督學習的損失

針對無監督學習所面臨的上述問題，文章提出了一種簡單的解決方法，即在半監督環境下利用監督訊號提供先驗知識。

為此，半監督損失包含監督加法，其形式與以下式子相似：

半監督損失函式

其中LU和LS分別表示無監督損失和有監督損失，αGT表示地面真值（或參考值）注意圖，而λ（·）是控制資料監督型別的函式。無監督損失LU與上述相同，而LS可以是MSE或交叉熵損失。

其中‘i’表示注意圖的位置索引，(αGT,i)是二進位制值。利用該公式，根據每個樣本的αGT，可以很容易地將損失調整為有監督或無監督型別。

實驗結果與定性分析

語義不匹配的結果

在建立新的聲源定位資料集後，文章評估了模型以便開展進一步分析。如前所述，模型在無監督模式下執行時會生成語義上不匹配的結果，如上圖所示，無監督方法的聲音顯示具有方向性混亂。

資料集

聲源定位資料集

為了提高無監督方法的準確性，必須考慮的資料集應包含註釋。為此，文章建立了一個新的資料集，該資料集不僅以更簡單的方式提升了評估，而且還為訓練監督模型提供了註釋。

三個主題註釋是按照通用指令完成的，比如——聽20秒、在生成聲音的幀上繪製邊界框並將邊界框標記為物件或環境。處理註釋後， “環境/非物件”影象-聲音對得以消除。

結果與分析

來自無監督網路的定性聲音定位結果

在識別不同情況下的行為結果時，定位響應是一個主要因素。上圖顯示了基於註釋的資料集中影象-聲音對的定位結果。由圖可知，即使在空間資訊雜亂情況之下，該模型也能夠識別聲源。

互動式聲源定位

在各種聲源組成的場景中，模型進行互動工作以顯示影象哪部分生成了聲音。如上圖所示，在涉及瀑布的場景中，定位響應根據給定的聲音上下文而改變。

對於包含引擎（發動機）和人員的幀，當引擎發生聲音時，該區域將高亮顯示。同樣，當聲源來自於人類時，包含人的區域也會高亮顯示。

網路註釋和人工註釋之間的定位比較

在以無監督方式訓練網路的情況下，人工標註的定位效能如上圖所示。由此可得：儘管沒有利用先驗知識，該模型的表現與人類感知一致。

不同學習方法對聲音定位結果影響的定性

最後這張圖顯示了不同方法之間的比較，正如預期，有監督的學習方法使用地面真值能更準確地定位物件。還應注意的是，文章提出的半監督模型透過合併有監督和無監督資料，能達到理想結果。

本文提出了一個新問題的解決方案，並在此基礎上建立了一個新的基準資料集，可用於多模態檢索、基於聲音的顯著性或表示學習領域。值得注意的是，當需要少量的人類參與時，無監督網路的效能可能會更好。

這也可能意味著，按照傳統的可學習性定義，使用無監督資料標記任務時，該任務本身存在問題。但是正如結果所示——可以透過少量的人為監督來解決此問題，這有助於基於聲音的表示學習機制。

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範