色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

張康康 ? 2018-10-25 19:44 ? 次閱讀

作者 | Video++極鏈科技AI實驗室張奕

整理 | 包包

背景

聲音和圖像是視頻中最重要的兩類基礎信息,能反映視頻中出現的主要內容。以往大量的視頻內容分析研究都是基于聲音和視覺特征來展開,其中很多研究工作會基于聲音視覺多模態特征來進行語義建模。人們清楚地意識到聲音和視覺特征直接存在著某種對應關系,因為當某種語義內容在視頻中出現時,其相應的視覺圖像和聲音必然相伴出現,那么該如何利用這個對應關系來幫助我們進行視頻語義內容分析與識別呢?

讓我們先來看看當前機器學習與視頻分析研究的痛點。機器學習按照對樣本的標注要求不同可分為有監督和無監督兩大類。隨著深度學習的興起,基于大量標注樣本訓練的深度網絡模型在各領域中都取得了遠超其它模型的準確率,確立了主流地位。但是這一方法最大的缺點是需要大量的標注樣本,樣本標注是一項很高成本的工作,需要耗費大量的人力資源,使人工智能成為真正基于“人工”的智能。在視頻內容分析領域,為了達到識別視頻內容的目的,也需要對視頻進行大量的樣本標注,這些標注包括目標、語義在時間空間上出現的位置、類別標簽等,非常繁瑣。如何能夠減少對標注數據的依賴一直是一個機器學習的重要研究方向。

回到先前的問題,既然視頻中的視覺和聲音之間存在著對應關系,那么是否可以用這個對應關系來解決數據的標注問題,從而減少對人工標注的依賴呢?DeepMind大膽的提出了這一設想,通過視覺和聲音的對應實現它們之間的互標注,不需要人工標注,就可以獲得大量的帶有自標注對應關系的聲音視覺樣本,提供給深度網絡進行訓練,從而實現視頻中相關事件的檢測識別。

方法


1540455999859b7947c71c8



數據

以上網絡通過如下的方式產生正負樣本對:負樣本對來自于兩段不同視頻中隨機選取的圖像幀和聲音片段,正樣本對來自于聲音片段和同一視頻中對應該聲音時間中點處的圖像幀。訓練數據集規模為40萬段時長為10秒的視頻,來自于Flickr-SoundNet和Kinetics-Sounds數據集。

實驗結果

15404559963591c914eb0d8


154045599801135808fe0c8


作者還給出了訓練聲音視覺對應網絡中得到的視覺子網絡和聲音子網絡模型在視覺分類和聲音分類任務中的性能,并與現有算法進行了比較。在聲音分類benchmark數據集ESC-50和DCASE上本文的聲音子網絡取得了最好的結果,如表2所示。圖像分類在benchmark數據集ImageNet上本文的視覺子網絡取得了與當前最好的自監督學習算法相同的結果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通過以上網絡和學習方式,究竟學到了什么內容?作者給出了直觀的實例,選取視覺子網絡pool4層響應最高的各類的5個樣本(圖3),并將對應的conv_2層響應熱力圖顯示出來(圖4),可見網絡能夠在視覺概念相關區域獲得高響應,表明學習是有效的,并且該網絡對聲音源具有定位能力。



結論與討論

本文利用聲音視覺對應關系提出了一種深度網絡,可免除對樣本的標注,通過自監督學習,實現視頻內容的檢測分類。實驗表明其在聲音分類上的效果超越其他算法,在圖像分類上的效果與以往最佳自監督算法持平。

本文算法在聲音分類上的優異表現表明,視覺特征在聲音特征的相關性使其在描述聲音特征中起到了幫助作用。同時本文算法在圖像分類上的表現也表明聲音特征對圖像特征描述也存在有效的幫助。目前視覺特征僅采用了聲音片段對應的圖像序列中的一個采樣幀作為輸入,尚無法完全反映聲音和圖像之間在時間上的對應關系,如能利用聲音對應的整個圖像序列作為視覺輸入,將可能進一步利用聲音和視覺之間的并發性,提升模型效果。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8424

    瀏覽量

    132765
  • 視頻分析
    +關注

    關注

    0

    文章

    30

    瀏覽量

    10853
收藏 人收藏

    評論

    相關推薦

    NVIDIA Research在ECCV 2024上展示多項創新成果

    在米蘭舉行的歐洲計算機視覺國際會議 (ECCV) 上,NVIDIA Research 展示了多項突破性的創新成果,共發表了 14 篇論文。
    的頭像 發表于 11-19 15:07 ?327次閱讀

    技術科普 | 芯片設計中的LEF文件淺析

    技術科普 | 芯片設計中的LEF文件淺析
    的頭像 發表于 11-13 01:03 ?283次閱讀
    技術科普 | 芯片設計中的LEF文件<b class='flag-5'>淺析</b>

    Nullmax視覺感知能力再獲國際頂級學術會議認可

    日前,歐洲計算機視覺國際會議 ECCV 2024公布論文錄用結果,Nullmax感知團隊的目標檢測論文《SimPB: A Single Model for 2D and 3D Object Detection from Mult
    的頭像 發表于 09-02 14:07 ?436次閱讀

    地平線科研論文入選國際計算機視覺頂會ECCV 2024

    近日,地平線兩篇論文入選國際計算機視覺頂會ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發表于 07-27 11:10 ?940次閱讀
    地平線科研<b class='flag-5'>論文</b>入選國際計算機視覺頂會<b class='flag-5'>ECCV</b> 2024

    ERAY (FlexRay) 模塊卡在INTEGRATION_LISTEN狀態,為什么?

    的配置(我將附上 ErayDemo 和我的項目)。 通過調試,我得出結論:兩個模塊都卡在 INTEGRATION_LISTEN 狀態。 電氣連接圖片:
    發表于 07-24 06:54

    谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會議

    谷歌DeepMind一篇中了頂流新生代會議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項研究。開源的那種。
    的頭像 發表于 07-16 18:29 ?607次閱讀
    谷歌<b class='flag-5'>DeepMind</b>被曝抄襲開源成果,<b class='flag-5'>論文</b>還中了頂流會議

    寬帶數控延時線芯片的研制論文

    電子發燒友網站提供《寬帶數控延時線芯片的研制論文.pdf》資料免費下載
    發表于 07-02 17:26 ?0次下載

    谷歌DeepMind發布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日發布了人工智能模型AlphaFold的最新版本——AlphaFold 3,這一革命性的工具將在藥物發現和疾病治療領域發揮巨大作用。
    的頭像 發表于 05-10 11:26 ?606次閱讀

    谷歌DeepMind推出新一代藥物研發AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發AI模型,這一創新技術將為科學家們提供前所未有的幫助,使他們能更精確地理解疾病機制,進而開發出更高效的治療藥物。
    的頭像 發表于 05-10 09:35 ?403次閱讀

    谷歌將在Pixel Tablet平板上引入&quot;Look and Sign&quot;功能,提升用戶體驗

    現階段,谷歌已在Nest Hub Max采用“Look and Talk”(看并說話)功能,用戶可在特定區域直視該設備,無需喚醒詞“OK Google”,便能實現語音指令。
    的頭像 發表于 04-18 15:36 ?366次閱讀

    谷歌DeepMind推出SIMI通用AI智能體

    近日,谷歌的DeepMind團隊發布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是一個通用人工智能智能體,能夠在多種3D虛擬環境
    的頭像 發表于 03-18 11:39 ?991次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據報道,谷歌公司的DeepMind團隊近期發布了AI模型Genie,此模型擁有多達110億個參數,能夠依據用戶提供的圖片及提示詞創建出相當完整的2D游戲場景。
    的頭像 發表于 02-27 14:53 ?800次閱讀

    谷歌DeepMind資深AI研究員創辦AI Agent創企

    近日,剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創辦了一家名為“AI Agent”的創企。Ioannis Antonoglou常駐倫敦,此前曾擔任谷歌DeepMind的首席開發人員,自去年9月份以來,他是第4位離開谷歌Gemini
    的頭像 發表于 02-04 10:02 ?809次閱讀

    谷歌DeepMind科學家欲建AI初創公司

    據知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創公司的事宜。
    的頭像 發表于 01-22 14:41 ?513次閱讀

    淺析配電能源管理系統在鋼鐵行業的應用

    電子發燒友網站提供《淺析配電能源管理系統在鋼鐵行業的應用.docx》資料免費下載
    發表于 01-11 16:15 ?0次下載
    主站蜘蛛池模板: 高H各种PLAY全肉NP| 国产AV午夜精品一区二区入口| xx69中国| 精品无码久久久久久久动漫 | 日韩AV无码一区二区三区不卡毛片| 人人模人人干| 甜性涩爱免费下载| 播色屋97超碰在人人| 欧美日韩精品一区二区三区四区| 2020美女视频黄频大全视频| 久久这里只有精品2| 三级网址在线| 亚洲中文字幕乱码熟女在线| 97人妻精品全国免费视频| 旧里番6080在线观看| 中文字幕在线观看国产| 国产精品黄色大片| 十分钟免费观看高清视频大全| 尤蜜网站在线进入免费| 粉嫩AV国产一区二区福利姬| 日本XXXXZZX片免费观看| 草柳最新地址| 无限资源在线观看播放| 黑丝美女被人操| 一个人看www| 国产伊人自拍| 亚洲欧美日韩中字视频三区| 古代荡女丫鬟高H辣文纯肉| 涩涩在线观看免费视频| 国产亚洲精品久久精品录音| 亚洲人美女肛交真人全程| 久久九九青青国产精品| 亚洲国产欧美日韩在线一区| 好爽好深太大了再快一点| 一个人免费播放高清在线观看| 美女被免费喷白浆视频| 亚洲精品成人无码区一在线观看 | 亚洲欧美中文日韩视频| 蜜桃传媒在线观看入口| 帝王被大臣们调教高肉| 蜜桃日本免费观看MV|