色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型時(shí)代下,普通科研人怎么辦?

3D視覺(jué)工坊 ? 來(lái)源:計(jì)算機(jī)視覺(jué)工坊 ? 2023-05-24 16:00 ? 次閱讀

眾所周知,隨著ChatGPT的爆火,AI全面進(jìn)入大模型時(shí)代,NLP、CV大有統(tǒng)一之勢(shì),回顧發(fā)布的各種大模型,Google BARD,openAI的GPT,Meta的SAM,百度的文心一言等等,這些基本都是有實(shí)力有技術(shù)的大公司引領(lǐng)著來(lái)研究的,但是作為一名普通的高校科研工作者,我們大多數(shù)基本上是沒(méi)有這么多資源算力去開(kāi)發(fā)這樣的大模型的,但是大模型在各個(gè)方向效果精度幾乎是碾壓,導(dǎo)致很多領(lǐng)域方向就消失了,很多研究生也是很焦慮,可能在申的論文以及畢業(yè)答辯時(shí)肯定會(huì)comment你的性能差距大模型這么多,還有研究的必要嗎?

所以,大模型時(shí)代下,作為一名普普通通,沒(méi)有很多資源算力的科研人如何繼續(xù)研究呢?

最近在arXiv上刷到一篇文章,也許能提供一些思路。

論文名稱(chēng):

AV-SAM: Segment Anything Model Meets Audio-VisualLocalization and Segmentation

論文地址:

https://arxiv.org/abs/2305.01836

ae217f76-fa05-11ed-90ce-dac502259ad0.png

主要內(nèi)容:

首先,Segment Anything Model(SAM)大模型是Meta提出的一種CV大模型,在1100萬(wàn)張圖像中的10億個(gè)masks上進(jìn)行訓(xùn)練,并且在各種分割任務(wù)上具有很強(qiáng)的零樣本性能,它在打破分割邊界方面取得了重大進(jìn)展,極大地促進(jìn)了計(jì)算機(jī)視覺(jué)基礎(chǔ)模型的發(fā)展,這個(gè)視覺(jué)基礎(chǔ)模型由三個(gè)主要組件組成:圖像編碼器、提示編碼器和掩碼解碼器。

ae271e36-fa05-11ed-90ce-dac502259ad0.png

ae2f286a-fa05-11ed-90ce-dac502259ad0.png

SAM的項(xiàng)目地址:https://github.com/facebookresearch/segment-anything

我們普通科研人如果想重新設(shè)計(jì)訓(xùn)練這樣一個(gè)大模型顯然不現(xiàn)實(shí),那么這篇論文的作者另辟蹊徑,雖然大模型的泛化性很好,在很多任務(wù)上做的不錯(cuò),但是不可能面面俱到,往往是大而不精的,這篇論文就利用已經(jīng)預(yù)訓(xùn)練好的SAM大模型去做更具體的下游任務(wù)——視聽(tīng)定位和分割。

視聽(tīng)定位和分割:

視聽(tīng)定位和分割是以熱圖或掩模的方式預(yù)測(cè)視頻中單個(gè)聲源的位置。

所以,這篇arXiv的論文提出了一個(gè)簡(jiǎn)單而有效的基于SAM大模型的視聽(tīng)定位和分割框架,即AV-SAM,它可以生成與音頻相對(duì)應(yīng)的發(fā)聲對(duì)象掩碼。具體而言,利用SAM中預(yù)先訓(xùn)練的圖像編碼器的視覺(jué)特征,把它和音頻特征逐像素視聽(tīng)融合來(lái)聚合跨模態(tài)表示,然后將聚合的跨模態(tài)特征輸入到提示編碼器和掩碼解碼器以生成最終的視聽(tīng)分割掩碼。

方向主要包括:3D視覺(jué)領(lǐng)域各細(xì)分方向,比如相機(jī)標(biāo)定|三維點(diǎn)云|三維重建|視覺(jué)/激光SLAM|感知|控制規(guī)劃|模型部署|3D目標(biāo)檢測(cè)|TOF|多傳感器融合|AR|VR|編程基礎(chǔ)等。

Methods

ae3ad5c0-fa05-11ed-90ce-dac502259ad0.png

給定圖像和音頻,目標(biāo)是預(yù)測(cè)圖像上聲音對(duì)象的像素掩碼。主要由兩個(gè)模塊組成,像素級(jí)視聽(tīng)融合和視聽(tīng)掩碼解碼器。

讓表示聽(tīng)覺(jué)和視覺(jué)數(shù)據(jù)對(duì),T、F分別表示音頻頻譜圖的時(shí)間和頻率維度。

首先使用雙流編碼器和投影頭對(duì)音頻和視覺(jué)輸入進(jìn)行編碼,分別表示為,音頻編碼器計(jì)算全局音頻特征,視覺(jué)編碼器為每s階段生成多尺度空間級(jí)特征。

為了解決視聽(tīng)分割問(wèn)題,引入了逐像素視聽(tīng)融合模塊來(lái)對(duì)多尺度空間級(jí)視覺(jué)特征和全局音頻表示進(jìn)行編碼,以更新輸入到SAM的掩碼解碼器。在跨模態(tài)融合之后,第s階段的視聽(tīng)特征被更新為:

其中,表示全局音頻表示ai的復(fù)制版本,該復(fù)制版本在第s階段重復(fù)次。這里表示1×1×1的卷積。通過(guò)這種特殊的視聽(tīng)融合,推動(dòng)學(xué)習(xí)到的視覺(jué)標(biāo)記嵌入與全局音頻特征有區(qū)別地對(duì)齊。

利用逐像素視聽(tīng)融合的優(yōu)勢(shì),使用多尺度特征圖的最后階段更新SAM中預(yù)訓(xùn)練圖像編碼器的原始視覺(jué)特征。然后這些更新的多級(jí)特征圖被傳遞到SAM中的掩碼解碼器和提示編碼器,以生成最終的輸出掩碼,以像素級(jí)標(biāo)注Y作為監(jiān)督,將預(yù)測(cè)和標(biāo)簽之間的二進(jìn)制交叉熵(BCE)作為損失:

實(shí)驗(yàn):

在VGG-Sound中使用144k對(duì)的子集進(jìn)行訓(xùn)練,并在Flickr SoundNet測(cè)試集上用250對(duì)聲音對(duì)象的視聽(tīng)對(duì)測(cè)試模型。

使用在ImageNet上預(yù)訓(xùn)練的ResNet50通過(guò)特征圖的雙線性插值來(lái)生成偽掩碼。

對(duì)于輸入視覺(jué)幀,分辨率調(diào)整為1024×1024。對(duì)于輸入音頻,使用長(zhǎng)度為3s的對(duì)數(shù)頻譜圖,采樣率為22050Hz。

使用輕量級(jí)的ResNet18作為音頻編碼器,并使用SAM發(fā)布的權(quán)重初始化視覺(jué)模型。該模型使用128的batch size,學(xué)習(xí)率為1e?4的Adam優(yōu)化器進(jìn)行了100個(gè)epochs的訓(xùn)練。

ae4386ac-fa05-11ed-90ce-dac502259ad0.png

與SAM相比,在兩個(gè)基準(zhǔn)的所有指標(biāo)方面都取得了最佳結(jié)果。

這表明了逐像素視聽(tīng)融合對(duì)聚合跨模態(tài)輸入的重要性。

ae4b7808-fa05-11ed-90ce-dac502259ad0.png

同時(shí)進(jìn)行了消融研究以證明SAM凍結(jié)和微調(diào)預(yù)訓(xùn)練重量的效果。

在表2中凍結(jié)/微調(diào)每個(gè)模塊(掩碼解碼器、提示編碼器、圖像編碼器)參數(shù)。

ae5482f4-fa05-11ed-90ce-dac502259ad0.png

可以觀察到,對(duì)掩碼解碼器進(jìn)行微調(diào)會(huì)增加視聽(tīng)分割的結(jié)果,表明視聽(tīng)掩碼解碼器在從聚合的跨模態(tài)特征生成準(zhǔn)確掩碼方面的優(yōu)勢(shì)。同時(shí)微調(diào)提示編碼器也提高了視覺(jué)聲源在所有指標(biāo)方面的分割性能。

總結(jié):

本篇是一篇基于大模型來(lái)做研究的文章,針對(duì)大模型在視聽(tīng)定位和分割上不夠魯棒準(zhǔn)確的問(wèn)題,設(shè)計(jì)模塊去聚合跨模態(tài)表示,顯著提高了在這一具體任務(wù)上的性能。這也許可以給我們普通科研工作者一些啟發(fā),如果我們不能重新研究設(shè)計(jì)訓(xùn)練大模型情況下,我們可以在有限的資源算力下用大模型做一些具體的下游任務(wù),擴(kuò)展大模型的應(yīng)用點(diǎn),用他們已經(jīng)預(yù)訓(xùn)練好的模型權(quán)重去做更具體的任務(wù),原始的大模型不可能面面俱到,其中很多點(diǎn)還是可以去做的。思考大模型如何在自己的研究方向上發(fā)揮它的價(jià)值,如何融合進(jìn)自己的研究。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1163

    瀏覽量

    41672
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3770

    瀏覽量

    137047
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3480

    瀏覽量

    49947

原文標(biāo)題:大模型時(shí)代下,普通科研人怎么辦?

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Altium Designer找不到元件怎么辦

    請(qǐng)問(wèn)一各位,我在Altium Designer里面繪制電路圖時(shí)找不到marvell公司的88e1111芯片的元件,不知道該怎么辦?網(wǎng)上到處都是比較全的元件庫(kù),下下來(lái)也沒(méi)見(jiàn)怎么個(gè)全法,所以請(qǐng)教一各位有沒(méi)有關(guān)于Marvell 公
    發(fā)表于 07-19 11:34

    模型轉(zhuǎn)換失敗怎么辦

    模型轉(zhuǎn)換失敗怎么辦
    發(fā)表于 09-18 08:41

    ADL5205官網(wǎng)上沒(méi)有spice模型 ,不能仿真怎么辦

    ADL5205官網(wǎng)上沒(méi)有spice模型 ,不能仿真怎么辦?有沒(méi)有大神用這個(gè)做過(guò)單端輸入的設(shè)計(jì)? 求教一
    發(fā)表于 11-17 08:32

    諾基亞n70白屏怎么辦

    諾基亞n70白屏怎么辦
    發(fā)表于 09-01 15:58 ?3664次閱讀
    諾基亞n70白屏<b class='flag-5'>怎么辦</b>

    主板壞了怎么辦

    主板壞了怎么辦? 大家用組裝機(jī)的朋友,常遇到主板壞了,不懂的常不知如何處理,其實(shí)有些故障是很容易排除的,現(xiàn)在這個(gè)時(shí)代,將主板拿出去
    發(fā)表于 05-22 08:54 ?1.2w次閱讀

    顯示桌面沒(méi)了怎么辦

    顯示桌面沒(méi)了怎么辦 我的windows xp的顯示桌面的圖標(biāo)沒(méi)有了怎么辦。下載一個(gè)放到系統(tǒng)目
    發(fā)表于 01-18 19:00 ?3912次閱讀

    筆記本風(fēng)扇噪音很大怎么辦

    筆記本風(fēng)扇噪音很大怎么辦 教,我的筆記本的風(fēng)扇噪音很大,怎么辦?  可以嘗試一給風(fēng)扇加一點(diǎn)“油”——鐘表油!首先
    發(fā)表于 01-21 10:51 ?1932次閱讀

    文件或目錄損壞怎么辦

    文件或目錄損壞怎么辦 我的D盤(pán)分區(qū)是NTFS格式的,但現(xiàn)在變成RAW。而且雙擊D盤(pán)就提示:無(wú)法訪問(wèn)D:/ 文件或目錄損壞且無(wú)法讀取。怎么辦
    發(fā)表于 02-25 10:16 ?1187次閱讀

    電池?fù)Q新無(wú)法可依怎么辦

    電池壞了怎么辦?修。修不好怎么辦?換。
    發(fā)表于 03-19 11:23 ?1482次閱讀

    linux無(wú)法識(shí)別U盤(pán)怎么辦

    linux無(wú)法識(shí)別U盤(pán)怎么辦
    發(fā)表于 05-19 09:08 ?1.7w次閱讀
    linux無(wú)法識(shí)別U盤(pán)<b class='flag-5'>怎么辦</b>

    linuxtelnet不能使用怎么辦

     linuxtelnet不能使用怎么辦?yum安裝方式處理
    發(fā)表于 05-26 09:34 ?5978次閱讀
    linux<b class='flag-5'>下</b>telnet不能使用<b class='flag-5'>怎么辦</b>

    鍵槽滾鍵了怎么辦

    鍵槽滾鍵了怎么辦
    發(fā)表于 03-07 16:37 ?7次下載

    電機(jī)過(guò)熱怎么辦

    電機(jī)過(guò)熱怎么辦?WAYON維安PPTC有方案
    的頭像 發(fā)表于 11-01 15:08 ?1033次閱讀
    電機(jī)過(guò)熱<b class='flag-5'>怎么辦</b>?

    pcb鉆孔偏孔了怎么辦

    pcb鉆孔偏孔了怎么辦
    的頭像 發(fā)表于 11-22 11:10 ?4286次閱讀
    pcb鉆孔偏孔了<b class='flag-5'>怎么辦</b>?

    風(fēng)機(jī)軸磨損怎么辦

    電子發(fā)燒友網(wǎng)站提供《風(fēng)機(jī)軸磨損怎么辦.docx》資料免費(fèi)下載
    發(fā)表于 01-07 11:04 ?0次下載
    主站蜘蛛池模板: 日韩爽爽影院在线播放 | 亚洲人女同志video | 人体内射精一区二区三区 | H揉捏娇喘乳叫床NP调教视频 | 亚洲精品色情APP在线下载观看 | 亚洲国产综合久久久无码色伦 | 草柳最新地址 | 久久国产精品永久网站 | 直插下身完整的欧美版 | 久久这里只精品国产99re66 | 大学生一级毛片免费看 | 日日干夜夜爽 | 一本道无码字幕在线看 | 欧美精品AV精品一区视频 | 掀开奶罩边躁狠狠躁软学生 | 女人高潮被爽到呻吟在线观看 | 久久视频精品3线视频在线观看 | 久久久久久91香蕉国产 | aaa在线观看视频高清视频 | 门鱼电影完整版免费版 | 亚洲中文字幕无码一去台湾 | av在线不卡中文网 | 色综合欧美色综合七久久 | 高清欧美一区二区三区 | 国产成人 免费观看 | 欧美精品熟妇乱 | 精品无码人妻一区二区免费AV | 亚洲国产区中文在线观看 | 亚洲精品www久久久久久 | 91久久综合精品国产丝袜长腿 | 一级毛片西西人体44rt高清 | 四库影院永久国产精品 | 色婷婷亚洲精品天天综合影院 | 9LPORM原创自拍达人 | 2020国产成人精品视频人 | 性满足久久久久久久久 | 亚洲精品一本之道高清乱码 | 一二三四在线播放免费观看中文版视频 | 精品国产免费观看久久久 | 人人碰国产免费线观看 | 国产精品青草久久福利不卡 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品