背景

聲音和圖像是視頻中最重要的兩類基礎(chǔ)信息，能反映視頻中出現(xiàn)的主要內(nèi)容。以往大量的視頻內(nèi)容分析研究都是基于聲音和視覺(jué)特征來(lái)展開，其中很多研究工作會(huì)基于聲音視覺(jué)多模態(tài)特征來(lái)進(jìn)行語(yǔ)義建模。人們清楚地意識(shí)到聲音和視覺(jué)特征直接存在著某種對(duì)應(yīng)關(guān)系，因?yàn)楫?dāng)某種語(yǔ)義內(nèi)容在視頻中出現(xiàn)時(shí)，其相應(yīng)的視覺(jué)圖像和聲音必然相伴出現(xiàn)，那么該如何利用這個(gè)對(duì)應(yīng)關(guān)系來(lái)幫助我們進(jìn)行視頻語(yǔ)義內(nèi)容分析與識(shí)別呢？

讓我們先來(lái)看看當(dāng)前機(jī)器學(xué)習(xí)與視頻分析研究的痛點(diǎn)。機(jī)器學(xué)習(xí)按照對(duì)樣本的標(biāo)注要求不同可分為有監(jiān)督和無(wú)監(jiān)督兩大類。隨著深度學(xué)習(xí)的興起，基于大量標(biāo)注樣本訓(xùn)練的深度網(wǎng)絡(luò)模型在各領(lǐng)域中都取得了遠(yuǎn)超其它模型的準(zhǔn)確率，確立了主流地位。但是這一方法最大的缺點(diǎn)是需要大量的標(biāo)注樣本，樣本標(biāo)注是一項(xiàng)很高成本的工作，需要耗費(fèi)大量的人力資源，使人工智能成為真正基于“人工”的智能。在視頻內(nèi)容分析領(lǐng)域，為了達(dá)到識(shí)別視頻內(nèi)容的目的，也需要對(duì)視頻進(jìn)行大量的樣本標(biāo)注，這些標(biāo)注包括目標(biāo)、語(yǔ)義在時(shí)間空間上出現(xiàn)的位置、類別標(biāo)簽等，非常繁瑣。如何能夠減少對(duì)標(biāo)注數(shù)據(jù)的依賴一直是一個(gè)機(jī)器學(xué)習(xí)的重要研究方向。

回到先前的問(wèn)題，既然視頻中的視覺(jué)和聲音之間存在著對(duì)應(yīng)關(guān)系，那么是否可以用這個(gè)對(duì)應(yīng)關(guān)系來(lái)解決數(shù)據(jù)的標(biāo)注問(wèn)題，從而減少對(duì)人工標(biāo)注的依賴呢？DeepMind大膽的提出了這一設(shè)想，通過(guò)視覺(jué)和聲音的對(duì)應(yīng)實(shí)現(xiàn)它們之間的互標(biāo)注，不需要人工標(biāo)注，就可以獲得大量的帶有自標(biāo)注對(duì)應(yīng)關(guān)系的聲音視覺(jué)樣本，提供給深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練，從而實(shí)現(xiàn)視頻中相關(guān)事件的檢測(cè)識(shí)別。

方法

1540455999859b7947c71c8

數(shù)據(jù)

以上網(wǎng)絡(luò)通過(guò)如下的方式產(chǎn)生正負(fù)樣本對(duì)：負(fù)樣本對(duì)來(lái)自于兩段不同視頻中隨機(jī)選取的圖像幀和聲音片段，正樣本對(duì)來(lái)自于聲音片段和同一視頻中對(duì)應(yīng)該聲音時(shí)間中點(diǎn)處的圖像幀。訓(xùn)練數(shù)據(jù)集規(guī)模為40萬(wàn)段時(shí)長(zhǎng)為10秒的視頻，來(lái)自于Flickr-SoundNet和Kinetics-Sounds數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

15404559963591c914eb0d8

154045599801135808fe0c8

作者還給出了訓(xùn)練聲音視覺(jué)對(duì)應(yīng)網(wǎng)絡(luò)中得到的視覺(jué)子網(wǎng)絡(luò)和聲音子網(wǎng)絡(luò)模型在視覺(jué)分類和聲音分類任務(wù)中的性能，并與現(xiàn)有算法進(jìn)行了比較。在聲音分類benchmark數(shù)據(jù)集ESC-50和DCASE上本文的聲音子網(wǎng)絡(luò)取得了最好的結(jié)果，如表2所示。圖像分類在benchmark數(shù)據(jù)集ImageNet上本文的視覺(jué)子網(wǎng)絡(luò)取得了與當(dāng)前最好的自監(jiān)督學(xué)習(xí)算法相同的結(jié)果，如表3所示。

1540455996666443d1b9635

1540455997609c368b67ebf

通過(guò)以上網(wǎng)絡(luò)和學(xué)習(xí)方式，究竟學(xué)到了什么內(nèi)容？作者給出了直觀的實(shí)例，選取視覺(jué)子網(wǎng)絡(luò)pool4層響應(yīng)最高的各類的5個(gè)樣本（圖3），并將對(duì)應(yīng)的conv_2層響應(yīng)熱力圖顯示出來(lái)（圖4），可見網(wǎng)絡(luò)能夠在視覺(jué)概念相關(guān)區(qū)域獲得高響應(yīng)，表明學(xué)習(xí)是有效的，并且該網(wǎng)絡(luò)對(duì)聲音源具有定位能力。

結(jié)論與討論

本文利用聲音視覺(jué)對(duì)應(yīng)關(guān)系提出了一種深度網(wǎng)絡(luò)，可免除對(duì)樣本的標(biāo)注，通過(guò)自監(jiān)督學(xué)習(xí)，實(shí)現(xiàn)視頻內(nèi)容的檢測(cè)分類。實(shí)驗(yàn)表明其在聲音分類上的效果超越其他算法，在圖像分類上的效果與以往最佳自監(jiān)督算法持平。

本文算法在聲音分類上的優(yōu)異表現(xiàn)表明，視覺(jué)特征在聲音特征的相關(guān)性使其在描述聲音特征中起到了幫助作用。同時(shí)本文算法在圖像分類上的表現(xiàn)也表明聲音特征對(duì)圖像特征描述也存在有效的幫助。目前視覺(jué)特征僅采用了聲音片段對(duì)應(yīng)的圖像序列中的一個(gè)采樣幀作為輸入，尚無(wú)法完全反映聲音和圖像之間在時(shí)間上的對(duì)應(yīng)關(guān)系，如能利用聲音對(duì)應(yīng)的整個(gè)圖像序列作為視覺(jué)輸入，將可能進(jìn)一步利用聲音和視覺(jué)之間的并發(fā)性，提升模型效果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴