色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

地平線ViG基于視覺(jué)Mamba的通用視覺(jué)主干網(wǎng)絡(luò)

地平線HorizonRobotics ? 來(lái)源:地平線HorizonRobotics ? 2025-01-08 09:33 ? 次閱讀

ViG基于視覺(jué)Mamba的通用視覺(jué)主干網(wǎng)絡(luò)

Vision Mamba的成功預(yù)示著將視覺(jué)表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺(jué)序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺(jué)序列表征學(xué)習(xí)結(jié)構(gòu)在高清圖像上展示了顯著的效率優(yōu)勢(shì),但在更為常見(jiàn)的分辨率,仍略遜于Transformer和CNN。

為了進(jìn)一步推進(jìn)線性復(fù)雜度視覺(jué)序列表征學(xué)習(xí)的效率,我們結(jié)合當(dāng)今時(shí)代計(jì)算設(shè)備的硬件特性去設(shè)計(jì)結(jié)構(gòu),將自然語(yǔ)言序列建模中硬件計(jì)算更為友好的門控線性注意力模塊GLA引入到視覺(jué)表征學(xué)習(xí)中,進(jìn)一步設(shè)計(jì)參數(shù)高效的雙向建模、長(zhǎng)短上下文的動(dòng)態(tài)門控機(jī)制和硬件感知的雙向算子設(shè)計(jì)。通過(guò)以上設(shè)計(jì),我們提出的ViG模型在各種任務(wù)上,精度、參數(shù)量、效率均優(yōu)于主流的Transformer和CNN模型。

? 論文鏈接:

https://arxiv.org/abs/2405.18425

? 本工作已被AAAI 2025收錄。

Vision Mamba的成功預(yù)示著將視覺(jué)表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺(jué)序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺(jué)序列表征學(xué)習(xí)結(jié)構(gòu)在高清圖像上展示了顯著的效率優(yōu)勢(shì),但在更為常見(jiàn)的分辨率,仍略遜于Transformer和CNN。

為了進(jìn)一步推進(jìn)線性復(fù)雜度視覺(jué)序列表征學(xué)習(xí)的效率,我們結(jié)合當(dāng)今時(shí)代計(jì)算設(shè)備的硬件特性去設(shè)計(jì)結(jié)構(gòu),將自然語(yǔ)言序列建模中對(duì)硬件計(jì)算更為友好的門控線性注意力模塊(Gated Linear Attention, GLA)引入到視覺(jué)表征學(xué)習(xí)中,并且進(jìn)一步設(shè)計(jì)參數(shù)高效的雙向建模,長(zhǎng)短上下文的動(dòng)態(tài)門控機(jī)制和硬件感知的雙向算子設(shè)計(jì)。通過(guò)以上設(shè)計(jì),我們提出的ViG模型在各種任務(wù)上,精度、參數(shù)量、效率均優(yōu)于主流的Transformer和CNN模型。

背景介紹

Transformer的自注意力(Self-Attention, SA)機(jī)制需要對(duì)歷史所有的輸入進(jìn)行交互,導(dǎo)致計(jì)算量隨著輸入序列長(zhǎng)度呈現(xiàn)二次方增長(zhǎng):

bb11340c-ccdf-11ef-9310-92fbcf53809c.png

bb2ab1a2-ccdf-11ef-9310-92fbcf53809c.png

而線性注意力(Linear Attention, LA)機(jī)制則將注意力機(jī)制中的softmax算子替換為簡(jiǎn)單的矩陣相乘,從而能夠通過(guò)矩陣乘法的結(jié)合律,先進(jìn)行KV的計(jì)算從而將計(jì)算量壓縮為線性:

bb46be4c-ccdf-11ef-9310-92fbcf53809c.png

bb5eb38a-ccdf-11ef-9310-92fbcf53809c.pngbb76051c-ccdf-11ef-9310-92fbcf53809c.png ? 線性門控注意力(Gated Linear Attention, GLA)機(jī)制則進(jìn)一步引入門控機(jī)制控制對(duì)歷史信息的遺忘和更新從而提高了原有線性注意力機(jī)制的表征能力: ?

bb9b95ca-ccdf-11ef-9310-92fbcf53809c.png

方法概述

雙向門控注意力機(jī)制

bbb23dde-ccdf-11ef-9310-92fbcf53809c.png

bbcdaf2e-ccdf-11ef-9310-92fbcf53809c.png

GLA原是用于處理一維時(shí)序信號(hào)如文本,圖片作為二維信號(hào),在一維序列表達(dá)上具有多向的特點(diǎn),針對(duì)這一特點(diǎn),我們?cè)谠璆LA的設(shè)計(jì)中,通過(guò)僅僅引入雙向門控設(shè)計(jì)bbd8d124-ccdf-11ef-9310-92fbcf53809c.png,便能夠極大地提升對(duì)視覺(jué)信號(hào)的空間表征能力。 ? 我們提出的BiGLA算子將前向和反向的視覺(jué)序列壓縮到固定大小的隱狀態(tài)bbf1f5fa-ccdf-11ef-9310-92fbcf53809c.pngbbf1f5fa-ccdf-11ef-9310-92fbcf53809c.png中去。 ?

硬件感知的雙向算子設(shè)計(jì)

為了進(jìn)一步提升效率,我們?cè)O(shè)計(jì)了一個(gè)硬件感知的雙向?qū)崿F(xiàn),將BiGLA的前向掃描和后向掃描合并到一個(gè)Triton算子中,無(wú)需實(shí)例化反向序列,只需要維護(hù)一個(gè)單向視覺(jué)序列,便能夠進(jìn)行多向掃描和融合,從而大幅減小顯存占用,并提升硬件運(yùn)行速度。

bc1e3bec-ccdf-11ef-9310-92fbcf53809c.png

長(zhǎng)短上下文的動(dòng)態(tài)門控制機(jī)

BiGLA算子中雙向隱狀態(tài)bbf1f5fa-ccdf-11ef-9310-92fbcf53809c.pngbbf1f5fa-ccdf-11ef-9310-92fbcf53809c.png是沿著一維視覺(jué)序列進(jìn)行長(zhǎng)上下文全局壓縮,為了進(jìn)一步加強(qiáng)對(duì)圖片二維空間細(xì)節(jié)的感知,我們引入了短上下文的卷積門控設(shè)計(jì): ?

bc5e0f42-ccdf-11ef-9310-92fbcf53809c.png

結(jié)構(gòu)設(shè)計(jì)

圍繞上述的基礎(chǔ)ViG模塊我們進(jìn)一步搭建兩個(gè)結(jié)構(gòu)變種:類似于Vision Transformer的樸素直筒結(jié)構(gòu)ViG和類似于CNN的層次化金字塔結(jié)構(gòu)ViG-H。

bc6f5248-ccdf-11ef-9310-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果

bc8511c8-ccdf-11ef-9310-92fbcf53809c.png

上圖顯示我們提出的ViG和ViG-H在參數(shù)量和精度的權(quán)衡上打敗了先進(jìn)的基于Transformer和CNN的模型。特別值得注意的是,我們基礎(chǔ)ViG模塊同時(shí)具備全局感受野和線性復(fù)雜度,這是之前CNN,基于原始注意力機(jī)制Transformer和基于窗口化注意力機(jī)制Transformer所達(dá)不到的。

bc9c0f36-ccdf-11ef-9310-92fbcf53809c.png

上圖兩個(gè)表格也是顯示我們?cè)谒俣壬夏軌蚝彤?dāng)前先進(jìn)模型在224x224的圖片輸入上匹配。通過(guò)綜合對(duì)比我們可以看到,ViG-S 與 DeiT-B精度相當(dāng)并且速度快了一倍,但只用了其27%的參數(shù)和20%的計(jì)算量。當(dāng)分辨率增加到1024時(shí),ViG-T相較于基于Transformer的DeiT-T將計(jì)算量縮減5.2倍,GPU顯存節(jié)省90%,速度快了3.8倍,精度更是高了20.7%。這些結(jié)果證實(shí)了ViG作為一個(gè)高效且可縮放的基礎(chǔ)視覺(jué)骨干網(wǎng)絡(luò)的廣闊潛力。

下圖則是進(jìn)一步顯示了,我們隨著分辨率增大而凸顯的性能優(yōu)勢(shì),即隨著輸入圖片分辨率的增大,ViG計(jì)算量更低,顯存占用更少,速度更快,精度更高。

bcc17514-ccdf-11ef-9310-92fbcf53809c.png

路線圖也充分展示了設(shè)計(jì)的有效性。

bccca628-ccdf-11ef-9310-92fbcf53809c.png

我們的雙向設(shè)計(jì)只引入了2%的參數(shù)量便得到了11.1精度的提升,同時(shí)我們?cè)O(shè)計(jì)的硬件感知實(shí)現(xiàn)減少了19%的推理代價(jià)和13%的顯存占用,使其更加適合低算力場(chǎng)景的部署運(yùn)行。

總結(jié)和展望

本工作提出的 ViG 方法在高效視覺(jué)序列建模領(lǐng)域展現(xiàn)了重要的創(chuàng)新性和實(shí)際應(yīng)用價(jià)值。通過(guò)引入雙向門控線性注意力 (BiGLA) 和二維門控局部注入機(jī)制,ViG 有效彌補(bǔ)了現(xiàn)有方法在全局感知能力和局部細(xì)節(jié)捕獲上的不足,實(shí)現(xiàn)了兼具高效性與準(zhǔn)確性的視覺(jué)表示學(xué)習(xí)。這一方法不僅在圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割等任務(wù)中表現(xiàn)卓越,還顯著提升了模型在高分辨率場(chǎng)景下的性能與資源利用效率。

尤其值得注意的是,ViG 的硬件感知優(yōu)化設(shè)計(jì)充分結(jié)合了計(jì)算設(shè)備的硬件特性,大幅降低了內(nèi)存占用和計(jì)算成本。通過(guò)在多種任務(wù)中的驗(yàn)證,ViG 展現(xiàn)了出色的精度、參數(shù)效率、顯存優(yōu)化和推理速度,為未來(lái)高清視覺(jué)信號(hào)處理以及基于大型語(yǔ)言模型 (LLM) 的多模態(tài)序列表征學(xué)習(xí)提供了強(qiáng)有力的技術(shù)支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7581

    瀏覽量

    88936
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3265

    瀏覽量

    48917
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    353

    瀏覽量

    22247
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    346

    瀏覽量

    14969

原文標(biāo)題:更快、更強(qiáng)!地平線ViG,基于視覺(jué)Mamba的通用視覺(jué)主干網(wǎng)絡(luò)

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    地平線楊銘:從無(wú)形視覺(jué)到有形芯片

    本文中,地平線聯(lián)合創(chuàng)始人、美國(guó)西北大學(xué)楊銘博士,來(lái)和大家分享“在芯片上加速神經(jīng)網(wǎng)絡(luò)用于視覺(jué)任務(wù)的挑戰(zhàn)”。
    的頭像 發(fā)表于 07-20 09:31 ?4285次閱讀

    地平線RDK系列再升級(jí),NodeHub驚喜發(fā)布

    7月25日,“地平線2023機(jī)器人開(kāi)發(fā)者創(chuàng)享日”在深圳成功舉辦。活動(dòng)現(xiàn)場(chǎng),地平線官宣了一系列重要發(fā)布:全新地平線RDK系列機(jī)器人開(kāi)發(fā)者套件正式上線,機(jī)器人操作系統(tǒng)TogetheROS.Bot?2.0版發(fā)布,應(yīng)用中心NodeHub
    發(fā)表于 07-26 09:01 ?964次閱讀
    <b class='flag-5'>地平線</b>RDK系列再升級(jí),NodeHub驚喜發(fā)布

    地平線發(fā)布中國(guó)首款嵌入式人工智能視覺(jué)芯片

    地平線終于發(fā)布了AI 芯片,兩顆面向計(jì)算機(jī)視覺(jué)的處理器,分別用于無(wú)人駕駛和智能攝像頭
    的頭像 發(fā)表于 12-21 09:33 ?4734次閱讀

    地平線旭日X3派試用體驗(yàn)】開(kāi)箱篇硬件介紹

    地平線旭日X3是夢(mèng)寐以求的開(kāi)發(fā)板,上圖,地平線是一家細(xì)心的公司,包裝都做得這么精致。還帶個(gè)散熱片。接口:一個(gè)CSI的相機(jī)接口,板載USB有3個(gè),包含1個(gè)USB3.0和2個(gè)USB2.0,這里是一個(gè)板載
    發(fā)表于 07-26 19:13

    主干網(wǎng),主干網(wǎng)系統(tǒng)結(jié)構(gòu)是什么?

    主干網(wǎng),主干網(wǎng)系統(tǒng)結(jié)構(gòu)是什么? 主干網(wǎng)是通過(guò)橋接器與路由器把不同的子網(wǎng)或LAN連接起來(lái)形成單個(gè)總線或環(huán)型拓?fù)浣Y(jié)構(gòu),這種網(wǎng)通常采用光纖做主干
    發(fā)表于 03-20 14:38 ?6391次閱讀

    地平線發(fā)布中國(guó)首款嵌入式AI視覺(jué)芯片

    地平線發(fā)布了中國(guó)第一代嵌入式AI視覺(jué)芯片,人工智能已上升為國(guó)家戰(zhàn)略,成為了國(guó)際科技競(jìng)爭(zhēng)的制高點(diǎn)。國(guó)務(wù)院曾提出到2020年,中國(guó)AI技術(shù)將大世界一級(jí)水平,2025年AI將成為中國(guó)產(chǎn)業(yè)的主要驅(qū)動(dòng)力。在人工智能發(fā)展過(guò)程中數(shù)據(jù)、場(chǎng)景、人才和計(jì)算力會(huì)是核心。
    發(fā)表于 12-16 11:28 ?1379次閱讀

    基于主干網(wǎng)的DNS流量檢測(cè)設(shè)計(jì)

    面對(duì)ISP主干網(wǎng),為了檢測(cè)威脅其管理域內(nèi)用戶安全的僵尸網(wǎng)絡(luò)、釣魚(yú)網(wǎng)站以及垃圾郵件等惡意活動(dòng),實(shí)時(shí)監(jiān)測(cè)流經(jīng)主干網(wǎng)邊界的DNS交互報(bào)文。并從域名的依賴性和使用位置兩個(gè)方面刻畫(huà)DNS活動(dòng)行為模式,而后
    發(fā)表于 12-26 19:13 ?0次下載
    基于<b class='flag-5'>主干網(wǎng)</b>的DNS流量檢測(cè)設(shè)計(jì)

    地平線發(fā)布了首款嵌入式人工智能視覺(jué)芯片,助力人工智能應(yīng)用的加速落地

    20日下午,地平線發(fā)布了中國(guó)首款嵌入式人工智能視覺(jué)芯片,它的兩個(gè)系列“征程”和“旭日”將圍繞智能駕駛、智慧城市、智能商業(yè)三大應(yīng)用場(chǎng)景落地。
    發(fā)表于 07-03 09:14 ?786次閱讀

    地平線攜手全志科技助推AI視覺(jué)邊緣計(jì)算商用落地

    2018安博會(huì)上,地平線與全志科技宣布達(dá)成戰(zhàn)略合作,聯(lián)合推出了面向行業(yè)應(yīng)用開(kāi)發(fā)的集成了AI芯片與算法的嵌入式視覺(jué)人工智能一站式解決方案,該解決方案基于雙方共同推出的旭日X1600系列智能識(shí)別模組。
    的頭像 發(fā)表于 10-25 15:11 ?4971次閱讀

    比亞迪與地平線正式宣布達(dá)成定點(diǎn)合作

    比亞迪與地平線正式宣布達(dá)成定點(diǎn)合作,比亞迪將在其部分車型上搭載地平線高性能、大算力自動(dòng)駕駛芯片征程5,打造更具競(jìng)爭(zhēng)力的行泊一體方案,實(shí)現(xiàn)高等級(jí)自動(dòng)駕駛功能。按照計(jì)劃,搭載地平線征程5的比亞迪車型最早
    的頭像 發(fā)表于 05-07 17:16 ?2859次閱讀

    地平線GitLab使用指導(dǎo)

    地平線開(kāi)發(fā)者社區(qū)致力于連接地平線和開(kāi)發(fā)者,為大家提供前沿技術(shù)內(nèi)容和豐富的技術(shù)活動(dòng),打造更好的開(kāi)發(fā)者文化和氛圍,共建開(kāi)源生態(tài)
    的頭像 發(fā)表于 11-04 14:18 ?787次閱讀
    <b class='flag-5'>地平線</b>GitLab使用指導(dǎo)

    旭日,從地平線升起——地平線旭日X3派開(kāi)箱試用

    地平線旭日X3派,開(kāi)啟你的嵌入式開(kāi)發(fā)之旅
    的頭像 發(fā)表于 11-08 15:22 ?1672次閱讀
    旭日,從<b class='flag-5'>地平線</b>升起——<b class='flag-5'>地平線</b>旭日X3派開(kāi)箱試用

    地平線正式開(kāi)源Sparse4D算法

    地平線將業(yè)內(nèi)領(lǐng)先的純視覺(jué)自動(dòng)駕駛算法——Sparse4D系列算法開(kāi)源,推動(dòng)行業(yè)更多開(kāi)發(fā)者共同參與到端到端自動(dòng)駕駛、稀疏感知等前沿技術(shù)方向的探索中。目前,Sparse4D算法已在GitHub平臺(tái)上線,開(kāi)發(fā)者可關(guān)注地平線GitHub
    的頭像 發(fā)表于 01-23 10:18 ?799次閱讀

    地平線科研論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024

    近日,地平線兩篇論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024,自動(dòng)駕駛算法技術(shù)再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?940次閱讀
    <b class='flag-5'>地平線</b>科研論文入選國(guó)際計(jì)算機(jī)<b class='flag-5'>視覺(jué)</b>頂會(huì)ECCV 2024

    地平線Journey 3的電源設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《地平線Journey 3的電源設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 09-04 10:48 ?0次下載
    <b class='flag-5'>地平線</b>Journey 3的電源設(shè)計(jì)
    主站蜘蛛池模板: 娇小老少配xxxxx| 胸大的姑娘中文字幕视频| 欧美亚洲日韩一道免费观看| 日本xxxxxxx| 亚洲AV国产精品无码精| 最近高清日本免费| 公和熄洗澡三级中文字幕| 护士WC女子撒尿| 欧美肥胖女人bbwbbw视频| 甜性涩爱快播| 中文字幕天堂久久精品| 高清国产在线播放成人| 久久青青草原| 视频一区亚洲视频无码| 曰本真人00XX动太图| 高H高肉强J短篇NP| 久久国产精品久久国产精品| 日本视频中文字幕一区二区| 夜夜精品视频一区二区| 东日韩二三区| 久久精品亚洲| 色欲人妻无码AV专区| 最近中文字幕完整版免费高清| 国产精品点击进入在线影院高清| 久久精品国产欧美成人| 少妇精品久久久一区二区三区| 在线 | 果冻国产传媒61国产免费| 大香交伊人| 久久中文字幕无码A片不卡 | 国产精品无需播放器| 蜜柚在线观看免费高清官网视频 | 天海翼精品久久中文字幕| 97成人碰碰在线人妻少妇| 国内精品不卡一区二区三区| 青青青青青青青草| 在线精品国精品国产不卡| 国产精品网红女主播久久久| 欧美日韩亚洲第一区在线| 在线视频一区二区三区在线播放| 国产精品久久久久久久久久免费 | 野花4在线观看|