色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

張康康 ? 2018-10-25 19:44 ? 次閱讀

作者 | Video++極鏈科技AI實(shí)驗(yàn)室張奕

整理 | 包包

背景

聲音和圖像是視頻中最重要的兩類基礎(chǔ)信息,能反映視頻中出現(xiàn)的主要內(nèi)容。以往大量的視頻內(nèi)容分析研究都是基于聲音和視覺(jué)特征來(lái)展開,其中很多研究工作會(huì)基于聲音視覺(jué)多模態(tài)特征來(lái)進(jìn)行語(yǔ)義建模。人們清楚地意識(shí)到聲音和視覺(jué)特征直接存在著某種對(duì)應(yīng)關(guān)系,因?yàn)楫?dāng)某種語(yǔ)義內(nèi)容在視頻中出現(xiàn)時(shí),其相應(yīng)的視覺(jué)圖像和聲音必然相伴出現(xiàn),那么該如何利用這個(gè)對(duì)應(yīng)關(guān)系來(lái)幫助我們進(jìn)行視頻語(yǔ)義內(nèi)容分析與識(shí)別呢?

讓我們先來(lái)看看當(dāng)前機(jī)器學(xué)習(xí)與視頻分析研究的痛點(diǎn)。機(jī)器學(xué)習(xí)按照對(duì)樣本的標(biāo)注要求不同可分為有監(jiān)督和無(wú)監(jiān)督兩大類。隨著深度學(xué)習(xí)的興起,基于大量標(biāo)注樣本訓(xùn)練的深度網(wǎng)絡(luò)模型在各領(lǐng)域中都取得了遠(yuǎn)超其它模型的準(zhǔn)確率,確立了主流地位。但是這一方法最大的缺點(diǎn)是需要大量的標(biāo)注樣本,樣本標(biāo)注是一項(xiàng)很高成本的工作,需要耗費(fèi)大量的人力資源,使人工智能成為真正基于“人工”的智能。在視頻內(nèi)容分析領(lǐng)域,為了達(dá)到識(shí)別視頻內(nèi)容的目的,也需要對(duì)視頻進(jìn)行大量的樣本標(biāo)注,這些標(biāo)注包括目標(biāo)、語(yǔ)義在時(shí)間空間上出現(xiàn)的位置、類別標(biāo)簽等,非常繁瑣。如何能夠減少對(duì)標(biāo)注數(shù)據(jù)的依賴一直是一個(gè)機(jī)器學(xué)習(xí)的重要研究方向。

回到先前的問(wèn)題,既然視頻中的視覺(jué)和聲音之間存在著對(duì)應(yīng)關(guān)系,那么是否可以用這個(gè)對(duì)應(yīng)關(guān)系來(lái)解決數(shù)據(jù)的標(biāo)注問(wèn)題,從而減少對(duì)人工標(biāo)注的依賴呢?DeepMind大膽的提出了這一設(shè)想,通過(guò)視覺(jué)和聲音的對(duì)應(yīng)實(shí)現(xiàn)它們之間的互標(biāo)注,不需要人工標(biāo)注,就可以獲得大量的帶有自標(biāo)注對(duì)應(yīng)關(guān)系的聲音視覺(jué)樣本,提供給深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)視頻中相關(guān)事件的檢測(cè)識(shí)別。

方法


1540455999859b7947c71c8



數(shù)據(jù)

以上網(wǎng)絡(luò)通過(guò)如下的方式產(chǎn)生正負(fù)樣本對(duì):負(fù)樣本對(duì)來(lái)自于兩段不同視頻中隨機(jī)選取的圖像幀和聲音片段,正樣本對(duì)來(lái)自于聲音片段和同一視頻中對(duì)應(yīng)該聲音時(shí)間中點(diǎn)處的圖像幀。訓(xùn)練數(shù)據(jù)集規(guī)模為40萬(wàn)段時(shí)長(zhǎng)為10秒的視頻,來(lái)自于Flickr-SoundNet和Kinetics-Sounds數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

15404559963591c914eb0d8


154045599801135808fe0c8


作者還給出了訓(xùn)練聲音視覺(jué)對(duì)應(yīng)網(wǎng)絡(luò)中得到的視覺(jué)子網(wǎng)絡(luò)和聲音子網(wǎng)絡(luò)模型在視覺(jué)分類和聲音分類任務(wù)中的性能,并與現(xiàn)有算法進(jìn)行了比較。在聲音分類benchmark數(shù)據(jù)集ESC-50和DCASE上本文的聲音子網(wǎng)絡(luò)取得了最好的結(jié)果,如表2所示。圖像分類在benchmark數(shù)據(jù)集ImageNet上本文的視覺(jué)子網(wǎng)絡(luò)取得了與當(dāng)前最好的自監(jiān)督學(xué)習(xí)算法相同的結(jié)果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通過(guò)以上網(wǎng)絡(luò)和學(xué)習(xí)方式,究竟學(xué)到了什么內(nèi)容?作者給出了直觀的實(shí)例,選取視覺(jué)子網(wǎng)絡(luò)pool4層響應(yīng)最高的各類的5個(gè)樣本(圖3),并將對(duì)應(yīng)的conv_2層響應(yīng)熱力圖顯示出來(lái)(圖4),可見網(wǎng)絡(luò)能夠在視覺(jué)概念相關(guān)區(qū)域獲得高響應(yīng),表明學(xué)習(xí)是有效的,并且該網(wǎng)絡(luò)對(duì)聲音源具有定位能力。



結(jié)論與討論

本文利用聲音視覺(jué)對(duì)應(yīng)關(guān)系提出了一種深度網(wǎng)絡(luò),可免除對(duì)樣本的標(biāo)注,通過(guò)自監(jiān)督學(xué)習(xí),實(shí)現(xiàn)視頻內(nèi)容的檢測(cè)分類。實(shí)驗(yàn)表明其在聲音分類上的效果超越其他算法,在圖像分類上的效果與以往最佳自監(jiān)督算法持平。

本文算法在聲音分類上的優(yōu)異表現(xiàn)表明,視覺(jué)特征在聲音特征的相關(guān)性使其在描述聲音特征中起到了幫助作用。同時(shí)本文算法在圖像分類上的表現(xiàn)也表明聲音特征對(duì)圖像特征描述也存在有效的幫助。目前視覺(jué)特征僅采用了聲音片段對(duì)應(yīng)的圖像序列中的一個(gè)采樣幀作為輸入,尚無(wú)法完全反映聲音和圖像之間在時(shí)間上的對(duì)應(yīng)關(guān)系,如能利用聲音對(duì)應(yīng)的整個(gè)圖像序列作為視覺(jué)輸入,將可能進(jìn)一步利用聲音和視覺(jué)之間的并發(fā)性,提升模型效果。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8459

    瀏覽量

    133371
  • 視頻分析
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10895
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    美報(bào)告:中國(guó)芯片研究論文全球領(lǐng)先

    論文方面同樣表現(xiàn)出色。 報(bào)告數(shù)據(jù)顯示,2018年至2023年間,全球發(fā)布約47.5萬(wàn)篇與芯片設(shè)計(jì)和制造相關(guān)的論文。其中34%的論文有來(lái)自中國(guó)機(jī)構(gòu)的作者參與,15%的論文有美國(guó)作者參與
    的頭像 發(fā)表于 03-05 14:32 ?232次閱讀

    DeepMind創(chuàng)始人預(yù)計(jì)年內(nèi)有AI設(shè)計(jì)藥物進(jìn)入臨床試驗(yàn)

    近日,英國(guó)人工智能公司DeepMind的創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)透露,預(yù)計(jì)在今年年底前,將有人工智能(AI)設(shè)計(jì)的藥物進(jìn)入臨床試驗(yàn)階段。
    的頭像 發(fā)表于 01-24 15:46 ?1712次閱讀

    谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind

    近日,谷歌正緊鑼密鼓地推進(jìn)其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領(lǐng)英頁(yè)面上的透露,谷歌已將AI Studio團(tuán)隊(duì)整體轉(zhuǎn)移至DeepMind
    的頭像 發(fā)表于 01-13 14:40 ?317次閱讀

    商湯科技徐立論文再獲“時(shí)間檢驗(yàn)獎(jiǎng)”

    十幾年前的論文為何還能獲獎(jiǎng)?因?yàn)榻?jīng)過(guò)了時(shí)間的檢驗(yàn)。
    的頭像 發(fā)表于 12-12 10:23 ?257次閱讀

    NVIDIA Research在ECCV 2024上展示多項(xiàng)創(chuàng)新成果

    在米蘭舉行的歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議 (ECCV) 上,NVIDIA Research 展示了多項(xiàng)突破性的創(chuàng)新成果,共發(fā)表了 14 篇論文
    的頭像 發(fā)表于 11-19 15:07 ?440次閱讀

    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析

    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析
    的頭像 發(fā)表于 11-13 01:03 ?427次閱讀
    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件<b class='flag-5'>淺析</b>

    Nullmax視覺(jué)感知能力再獲國(guó)際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

    日前,歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議 ECCV 2024公布論文錄用結(jié)果,Nullmax感知團(tuán)隊(duì)的目標(biāo)檢測(cè)論文《SimPB: A Single Model for 2D and 3D Object Detection from Mult
    的頭像 發(fā)表于 09-02 14:07 ?518次閱讀

    地平線科研論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024

    近日,地平線兩篇論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024,自動(dòng)駕駛算法技術(shù)再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?1058次閱讀
    地平線科研<b class='flag-5'>論文</b>入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)<b class='flag-5'>ECCV</b> 2024

    ERAY (FlexRay) 模塊卡在INTEGRATION_LISTEN狀態(tài),為什么?

    的配置(我將附上 ErayDemo 和我的項(xiàng)目)。 通過(guò)調(diào)試,我得出結(jié)論:兩個(gè)模塊都卡在 INTEGRATION_LISTEN 狀態(tài)。 電氣連接圖片:
    發(fā)表于 07-24 06:54

    谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會(huì)議

    谷歌DeepMind一篇中了頂流新生代會(huì)議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項(xiàng)研究。開源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?692次閱讀
    谷歌<b class='flag-5'>DeepMind</b>被曝抄襲開源成果,<b class='flag-5'>論文</b>還中了頂流會(huì)議

    寬帶數(shù)控延時(shí)線芯片的研制論文

    電子發(fā)燒友網(wǎng)站提供《寬帶數(shù)控延時(shí)線芯片的研制論文.pdf》資料免費(fèi)下載
    發(fā)表于 07-02 17:26 ?15次下載

    谷歌DeepMind發(fā)布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日發(fā)布了人工智能模型AlphaFold的最新版本——AlphaFold 3,這一革命性的工具將在藥物發(fā)現(xiàn)和疾病治療領(lǐng)域發(fā)揮巨大作用。
    的頭像 發(fā)表于 05-10 11:26 ?704次閱讀

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病機(jī)制,進(jìn)而開發(fā)出更高效的治療藥物。
    的頭像 發(fā)表于 05-10 09:35 ?488次閱讀

    谷歌將在Pixel Tablet平板上引入&quot;Look and Sign&quot;功能,提升用戶體驗(yàn)

    現(xiàn)階段,谷歌已在Nest Hub Max采用“Look and Talk”(看并說(shuō)話)功能,用戶可在特定區(qū)域直視該設(shè)備,無(wú)需喚醒詞“OK Google”,便能實(shí)現(xiàn)語(yǔ)音指令。
    的頭像 發(fā)表于 04-18 15:36 ?433次閱讀

    谷歌DeepMind推出SIMI通用AI智能體

    近日,谷歌的DeepMind團(tuán)隊(duì)發(fā)布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是一個(gè)通用人工智能智能體,能夠在多種3D虛擬環(huán)境
    的頭像 發(fā)表于 03-18 11:39 ?1154次閱讀
    主站蜘蛛池模板: 二色AV天堂在线 | 亚洲精品成人AV在线观看爽翻 | 久久久久琪琪精品色 | 女性性纵欲派对 | 大陆女人内谢69XXXORG | 久久99re8热在线播放 | 手机毛片在线观看 | 日本美女论坛 | 中文字幕无码乱人伦蜜桃 | 亚洲AV久久无码精品热九九 | 国产精品JIZZ在线观看A片 | 青青青青青青青草 | 午夜性伦鲁啊鲁免费视频 | 91精品专区 | 美女快播第一网 | 99国产精品久久人妻无码 | 超碰人人澡人人胔 | 午夜精品久久久久久久爽牛战 | 久久视频这里只精品6国产 久久视频在线视频观品15 | 成人AV无码一二二区视频免费看 | 含羞草影院AE在线观看 | 欧美性猛交xxxxxxxx软件 | 久久国产精品高清一区二区三区 | 国产亚洲精品成人AV久久 | 动漫美女无衣 | 伊人久久亚洲综合天堂 | 无码内射成人免费喷射 | 精品无码国产自产在线观看水浒传 | 午夜福利网国产A | 国内精品欧美久久精品 | 亚洲国产亚综合在线区尤物 | 怡红院美国分院一区二区 | 亚洲国产精麻豆 | 国产第一页浮力影院 | 大香伊人中文字幕精品 | [高清无码] 波多野结衣| 午夜伦理:伦理片 | 97人妻AV天天澡夜夜爽 | 被滋润的艳妇疯狂呻吟白洁老七 | 亚洲精品视频在线观看视频 | 少妇第一次交换 |