Vision Transformer(ViT)正在席卷計(jì)算機(jī)視覺領(lǐng)域,提供令人難以置信的準(zhǔn)確性、復(fù)雜現(xiàn)實(shí)場(chǎng)景下強(qiáng)大的解決方案,以及顯著提升的泛化能力。這些算法對(duì)于推動(dòng)計(jì)算機(jī)視覺應(yīng)用的發(fā)展發(fā)揮了關(guān)鍵作用,而 NVIDIA 則通過(guò) NVIDIA TAO Toolkit 和 NVIDIA L4 GPU,使應(yīng)用集成ViT 變得輕而易舉。
ViT 的不同之處
ViT 是一種將原本用于自然語(yǔ)言處理的 Transformer 架構(gòu)應(yīng)用于視覺數(shù)據(jù)的機(jī)器學(xué)習(xí)模型。相比基于 CNN 的同類模型具有一些優(yōu)勢(shì),并能夠并行處理大規(guī)模輸入的數(shù)據(jù)。CNN 采用的是局部操作,因而缺乏對(duì)圖像的全局理解;而 ViT 則以并行和基于自注意的方式來(lái)有效地處理圖像,使得所有圖像塊之間能夠相交互,從而提供了長(zhǎng)程依賴和全局上下文的能力。
圖 1 展示了 ViT 模型中的圖像處理流程。輸入圖像被分為較小的固定尺寸的圖塊,之后這些圖塊被展平并轉(zhuǎn)換為一系列的標(biāo)記 (tokens) 。這些標(biāo)記連同位置編碼一起被輸入到 Transformer 編碼器中,該編碼器由多個(gè)自注意力和前饋神經(jīng)網(wǎng)絡(luò)組成。
圖 1. 包含位置編碼器和編碼器的 ViT 模型處理圖像
通過(guò)自注意力機(jī)制,每個(gè)標(biāo)記或圖塊與其他標(biāo)記進(jìn)行交互,以決定哪些標(biāo)記是重要的。這有助于模型捕捉標(biāo)記之間的關(guān)系和依賴,并學(xué)習(xí)哪些標(biāo)記是更重要的。
例如在有一只鳥的圖像中,模型會(huì)更關(guān)注重要的特征,比如眼睛、鳥嘴和羽毛等,而不是背景。這使得訓(xùn)練更加高效,增強(qiáng)了對(duì)圖像損壞和噪聲情況的魯棒性,并在未見過(guò)的物體上表現(xiàn)出更優(yōu)越的泛化能力。
為何 ViT 對(duì)計(jì)算機(jī)
視覺應(yīng)用至關(guān)重要
真實(shí)世界的環(huán)境具有多樣且復(fù)雜的視覺模式。與 CNN 不同,ViT 憑借自身的可擴(kuò)展性和適應(yīng)性,能夠處理各種任務(wù),而且無(wú)需針對(duì)具體的任務(wù)調(diào)整架構(gòu)。
圖 2. 各種不完美和嘈雜的
現(xiàn)實(shí)數(shù)據(jù)給圖像分析帶來(lái)了難題
在下面的視頻中,我們比較了基于 CNN 和 ViT 的模型的噪聲視頻。在任何情況下,ViT 模型表現(xiàn)都優(yōu)于 CNN 模型。
視頻 1. 了解 SegFormer,這是一個(gè)
結(jié)合高效率和穩(wěn)健語(yǔ)義分割能力的 ViT 模型
將 ViT 與 TAO Toolkit 5.0 集成
TAO 是一個(gè)低代碼 AI 工具包,用于構(gòu)建和加速視覺 AI 模型,可用于輕松地構(gòu)建和集成 ViT 到應(yīng)用和 AI 工作流程中。用戶可以通過(guò)簡(jiǎn)單的界面和配置文件快速開始訓(xùn)練 ViT,無(wú)需深入了解模型架構(gòu)。
TAO Toolkit 5.0 提供幾種常用于計(jì)算機(jī)視覺任務(wù)的先進(jìn) ViT,包括:
全注意力網(wǎng)絡(luò)(FAN)
FAN 是由 NVIDIA 研究團(tuán)隊(duì)開發(fā)的一系列基于 Transformer 架構(gòu)的神經(jīng)網(wǎng)絡(luò)主干模型。該系列模型在對(duì)抗各種干擾方面達(dá)到了當(dāng)前技術(shù)水平的最佳程度,如表格 1 所示。這些主干模型能夠輕松適應(yīng)新的領(lǐng)域,對(duì)抗噪聲和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 數(shù)據(jù)集上所達(dá)到的準(zhǔn)確率,無(wú)論是干凈版本還是經(jīng)過(guò)干擾處理后的版本。
表 1. FAN 模型的大小和準(zhǔn)確性
全局上下文 Vision Transformer (GC-ViT)
GC-ViT 是 NVIDIA 研究部門開發(fā)的一種具有極高準(zhǔn)確性和計(jì)算效率的新型架構(gòu)。該架構(gòu)解決了 Vision Transformer 中缺乏歸納偏置的問(wèn)題。通過(guò)使用局部自注意力機(jī)制,GC-ViT 在參數(shù)較少的情況下在 ImageNet 上取得更好的結(jié)果,同時(shí)結(jié)合全局自注意力,可以實(shí)現(xiàn)更好的局部和全局空間交互。
表 2. GC-ViT 模型的大小和準(zhǔn)確性
帶有改進(jìn)后去噪錨框的檢測(cè) Transformer(DINO)
DINO 是最新一代的檢測(cè)變換器(DETR),其訓(xùn)練收斂速度比其他 ViT 和 CNN 更快。在 TAO 工具套件中,DINO 十分靈活,可以與傳統(tǒng) CNN(例如 ResNets)和基于 Transformer 的骨干網(wǎng)絡(luò)(如 FAN)和 GC-ViT 等相結(jié)合。
圖 3. DINO 與其他模型的準(zhǔn)確性比較
Segformer
Segformer 是一個(gè)輕量級(jí)且具有魯棒性的基于 Transformer 的語(yǔ)義分割模型。其解碼器由輕量級(jí)的多頭感知層組成。它避免使用大多 Transformer 使用的位置編碼,可在不同分辨率下進(jìn)行高效推理。
使用 NVIDIA L4 GPU
高效驅(qū)動(dòng) Transformer
NVIDIA L4 GPU 是為未來(lái)的視覺 AI 工作負(fù)載而打造的。它們采用 NVIDIA Ada Lovelace 架構(gòu),旨在加速具有變革性的 AI 技術(shù)。
L4 GPU 擁有高達(dá) FP8 485 TFLOPs 的計(jì)算能力,適于運(yùn)行 ViT 工作負(fù)載。相較更高精度的計(jì)算方式,FP8 的低精度計(jì)算可以減輕內(nèi)存壓力,還可以顯著提升 AI 的處理速度。
L4 是一款多功能、節(jié)能高效的設(shè)備,具有單槽、低調(diào)的外形,非常適合用于視覺 AI 部署(包括在邊緣位置)。
您可以觀看Metropolis Developer Meetup(https://info.nvidia.com/metropolis-meetup-june2023.html),了解有關(guān) ViT、NVIDIA TAO Toolkit 5.0 以及 L4 GPU 的更多信息。
點(diǎn)擊“閱讀原文”,或掃描下方海報(bào)二維碼,在 8 月 8日聆聽NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場(chǎng)發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術(shù),包括屢獲殊榮的研究,OpenUSD 開發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。
原文標(biāo)題:使用 Vision Transformer 和 NVIDIA TAO,提高視覺 AI 應(yīng)用的準(zhǔn)確性和魯棒性
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3780瀏覽量
91185
原文標(biāo)題:使用 Vision Transformer 和 NVIDIA TAO,提高視覺 AI 應(yīng)用的準(zhǔn)確性和魯棒性
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論