近日,NVIDIA 發(fā)布了 Jetson 生成式 AI 實驗室(Jetson Generative AI Lab),使開發(fā)者能夠通過 NVIDIA Jetson 邊緣設(shè)備在現(xiàn)實世界中探索生成式 AI 的無限可能性。不同于其他嵌入式平臺,Jetson 能夠在本地運行大語言模型(LLM)、視覺 Transformer 和 stable diffusion,包括在 Jetson AGX Orin 上以交互速率運行的 Llama-2-70B 模型。

圖 1. 領(lǐng)先的生成式 AI 模型在
Jetson AGX Orin 上的推理性能
如要在 Jetson 上快速測試最新的模型和應(yīng)用,請使用 Jetson 生成式 AI 實驗室提供的教程和資源?,F(xiàn)在,您可以專注于發(fā)掘生成式 AI 在物理世界中尚未被開發(fā)的潛力。
本文將探討可以在 Jetson 設(shè)備上運行和體驗到的振奮人心的生成式 AI 應(yīng)用,所有這些也都在實驗室的教程中予以了說明。
邊緣生成式 AI
在快速發(fā)展的 AI 領(lǐng)域,生成式模型和以下模型備受關(guān)注:
-
能夠參與仿照人類對話的 LLM。
-
使 LLM 能夠通過攝像機感知和理解現(xiàn)實世界的視覺語言模型(VLM)。
-
可將簡單的文字指令轉(zhuǎn)換成驚艷圖像的擴散模型。
這些在 AI 領(lǐng)域的巨大進步激發(fā)了許多人的想象力。但是,如果您去深入了解支持這種前沿模型推理的基礎(chǔ)架構(gòu),就會發(fā)現(xiàn)它們往往被“拴”在云端,依賴其數(shù)據(jù)中心的處理能力。這種以云為中心的方法使得某些需要高帶寬、低延遲的數(shù)據(jù)處理的邊緣應(yīng)用在很大程度上得不到開發(fā)。
視頻 1. NVIDIA Jetson Orin 為邊緣帶來強大的生成式 AI 模型
在本地環(huán)境中運行 LLM 和其他生成式模型這一新趨勢正在開發(fā)者社群中日益盛行。蓬勃發(fā)展的在線社區(qū)為愛好者提供了一個討論生成式 AI 技術(shù)最新進展及其實際應(yīng)用的平臺,如 Reddit 上的 r/LocalLlama。在 Medium 等平臺上發(fā)表的大量技術(shù)文章深入探討了在本地設(shè)置中運行開源 LLM 的復(fù)雜性,其中一些文章提到了利用 NVIDIA Jetson。
Jetson 生成式 AI 實驗室是發(fā)現(xiàn)最新生成式 AI 模型和應(yīng)用,以及學(xué)習(xí)如何在 Jetson 設(shè)備上運行它們的中心。隨著該領(lǐng)域快速發(fā)展,幾乎每天都有新的 LLM 出現(xiàn),并且量化程序庫的發(fā)展也在一夜之間重塑了基準,NVIDIA 認識到了提供最新信息和有效工具的重要性。因此我們提供簡單易學(xué)的教程和預(yù)構(gòu)建容器。
而實現(xiàn)這一切的是 jetson-containers,一個精心設(shè)計和維護的開源項目,旨為 Jetson 設(shè)備構(gòu)建容器。該項目使用 GitHub Actions,以 CI/CD 的方式構(gòu)建了 100 個容器。這些容器使您能夠在 Jetson 上快速測試最新的 AI 模型、程序庫和應(yīng)用,無需繁瑣地配置底層工具和程序庫。
通過 Jetson 生成式 AI 實驗室和 jetson-containers,您可以集中精力使用 Jetson 探索生成式 AI 在現(xiàn)實世界中的無限可能性。
演示
以下是一些振奮人心的生成式 AI 應(yīng)用,它們在 Jetson 生成式 AI 實驗室所提供的 NVIDIA Jetson 設(shè)備上運行。
stable-diffusion-webui

圖 2. Stable Diffusion 界面
A1111 的 stable-diffusion-webui 為 Stability AI 發(fā)布的 Stable Diffusion 提供了一個用戶友好界面。您可以使用它執(zhí)行許多任務(wù),包括:
-
文本-圖像轉(zhuǎn)換:根據(jù)文本指令生成圖像。
-
圖像-圖像轉(zhuǎn)換:根據(jù)輸入圖像和相應(yīng)的文本指令生成圖像。
-
圖像修復(fù):對輸入圖像中缺失或被遮擋的部分進行填充。
-
圖像擴展:擴展輸入圖像的原有邊界。
網(wǎng)絡(luò)應(yīng)用會在首次啟動時自動下載 Stable Diffusion v1.5 模型,因此您可以立即開始生成圖像。如果您有一臺 Jetson Orin 設(shè)備,就可以按照教程說明執(zhí)行以下命令,非常簡單。
git clone https://github.com/dusty-nv/jetson-containers
cd jetson-containers
./run.sh$(./autotagstable-diffusion-webui)
有關(guān)運行 stable-diffusion-webui 的更多信息,參見 Jetson 生成式 AI 實驗室教程。Jetson AGX Orin 還能運行較新的 Stable Diffusion XL(SDXL)模型,本文開頭的主題圖片就是使用該模型生成的。
text-generation-webui
圖 3. 在 Jetson AGX Orin上與 Llama-2-13B 互動聊天
Oobabooga 的 text-generation-webui 也是一個基于 Gradio、可在本地環(huán)境中運行 LLM 的常用網(wǎng)絡(luò)接口。雖然官方資源庫提供了各平臺的一鍵安裝程序,但 jetson-containers 提供了一種更簡單的方法。
通過該界面,您可以輕松地從 Hugging Face 模型資源庫下載模型。根據(jù)經(jīng)驗,在 4 位量化情況下,Jetson Orin Nano 一般可容納 70 億參數(shù)模型,Jetson Orin NX 16GB 可運行 130 億參數(shù)模型,而 Jetson AGX Orin 64GB 可運行驚人的 700 億參數(shù)模型。
現(xiàn)在很多人都在研究 Llama-2。這個 Meta 的開源大語言模型可免費用于研究和商業(yè)用途。在訓(xùn)練基于 Llama-2 的模型時,還使用了監(jiān)督微調(diào)(SFT)和人類反饋強化學(xué)習(xí)(RLHF)等技術(shù)。有些人甚至聲稱它在某些基準測試中超過了 GPT-4。
Text-generation-webui 不但提供擴展程序,還能幫助您自主開發(fā)擴展程序。在以下 llamaspeak 示例中可以看到,該界面可以用于集成您的應(yīng)用,還支持多模態(tài) VLM,如 Llava 和圖像聊天。

圖 4. 量化的 Llava-13B VLM 對圖像查詢的響應(yīng)
有關(guān)運行 text-generation-webui 的更多信息,參見 Jetson 生成式 AI 實驗室教程:https://www.jetson-ai-lab.com/tutorial_text-generation.html
llamaspeak

圖 5. 使用 Riva ASR/TTS 與
LLM 進行 Llamaspeak 語音對話
Llamaspeak 是一款交互式聊天應(yīng)用,通過實時 NVIDIA Riva ASR/TTS 與本地運行的 LLM 進行語音對話。Llamaspeak 目前已經(jīng)成為 jetson-containers 的組成部分。
如果要進行流暢無縫的語音對話,就必須盡可能地縮短 LLM 第一個輸出標記的時間。Llamaspeak 不僅可以縮短這一時間,還能在此基礎(chǔ)上處理對話中斷的情況,這樣當(dāng) llamaspeak 在對生成的回復(fù)進行 TTS 處理時,您就可以開始說話了。容器微服務(wù)適用于 Riva、LLM 和聊天服務(wù)器。

圖 6. 流式 ASR/LLM/TTS 管道
到網(wǎng)絡(luò)客戶端的實時對話控制流
Llamaspeak 具備響應(yīng)式界面,可從瀏覽器麥克風(fēng)或連接到 Jetson 設(shè)備的麥克風(fēng)傳輸?shù)脱舆t音頻流。有關(guān)自行運行的更多信息,參見 jetson-containers 文檔:https://github.com/dusty-nv/jetson-containers/tree/master/packages/llm/llamaspeak
NanoOWL
Open World Localization with Vision Transformers(OWL-ViT)是一種由 Google Research 開發(fā)的開放詞匯檢測方法。該模型使您能夠通過提供目標對象的文本提示進行對象檢測。
比如在檢測人和車時,使用描述該類別的文本提示系統(tǒng):
prompt = “a person, a car”
這種監(jiān)測方法很有使用價值,無需訓(xùn)練新的模型,就能實現(xiàn)快速開發(fā)新的應(yīng)用。為了解鎖邊緣應(yīng)用,我們團隊開發(fā)了一個名為 NanoOWL 的項目,使用 NVIDIA TensorRT 對該模型進行優(yōu)化,從而在 NVIDIA Jetson Orin 平臺上獲得實時性能(在 Jetson AGX Orin 上的編碼速度約為 95FPS)。該性能意味著您可以運行遠高于普通攝像機幀率的 OWL-ViT。
該項目還包含一個新的樹形檢測管道,能夠加速 OWL-ViT 模型與 CLIP 相結(jié)合,從而實現(xiàn)任何級別的零樣本檢測和分類。比如,在檢測人臉時對快樂或悲傷進行區(qū)分,請使用以下提示:
prompt = “[a face (happy, sad)]”
如果要先檢測人臉,再檢測每個目標區(qū)域的面部特征,請使用以下提示:
prompt = “[a face [an eye, a nose, a mouth]]”
將兩者組合:
prompt = “[a face (happy, sad)[an eye, a nose, a mouth]]”
這樣的例子數(shù)不勝數(shù)。這個模型在某些對象或類的可能更加精準,而且由于開發(fā)簡單,您可以快速嘗試不同的組合并確定是否適用。我們期待著看到您所開發(fā)的神奇應(yīng)用!
Segment Anything 模型

圖 8. Segment Anything 模型(SAM)的 Jupyter 筆記本
Meta 發(fā)布了 Segment Anything 模型(SAM),這個先進的圖像分割模型能夠精確識別并分割圖像中的對象,無論其復(fù)雜程度或上下文如何。
其官方資源庫中也設(shè)有 Jupyter 筆記本,以實現(xiàn)輕松檢查模型的影響,同時 jetson-containers 也提供了一個內(nèi)置 Jupyter Lab 的便捷容器。
NanoSAM
圖 9. 實時追蹤和分割電腦鼠標的 NanoSAM
Segment Anything(SAM)是能將點轉(zhuǎn)化成分割掩碼的神奇模型。遺憾的是,它不支持實時運行,這限制了其在邊緣應(yīng)用中發(fā)揮作用。
為了克服這一局限性,我們最近發(fā)布了一個新的項目 NanoSAM,能夠?qū)?SAM 圖像編碼器提煉成一個輕量級模型,我們也使用 NVIDIA TensorRT 對該模型進行優(yōu)化,從而在 NVIDIA Jetson Orin 平臺上實現(xiàn)了實時性能的應(yīng)用?,F(xiàn)在,您無需接受任何額外的培訓(xùn),就可以輕松地將現(xiàn)有的邊界框或關(guān)鍵點檢測器轉(zhuǎn)化成實例分割模型。
Track Anything 模型
正如該團隊的論文:https://arxiv.org/abs/2304.11968所述,Track Anything 模型(TAM)是“Segment Anything 與視頻的結(jié)合”。在其基于 Gradio 的開源界面上,您可以點擊輸入視頻的某一個幀,來指定待追蹤和分割的任何內(nèi)容。TAM 模型甚至還具備通過圖像修補去除追蹤對象的附加功能。

圖 10. Track Anything 界面
NanoDB
視頻 2. Hello AI World -
NVIDIA Jetson 上的實時多模態(tài) VectorDB
除了在邊緣對數(shù)據(jù)進行有效的索引和搜索外,這些矢量數(shù)據(jù)庫還經(jīng)常與 LLM 配合使用,在超出其內(nèi)置上下文長度(Llama-2 模型為 4096 個標記)的長期記憶上實現(xiàn)檢索增強生成(RAG)。視覺語言模型也使用相同的嵌入作為輸入。

圖 11. 以 LLM/VLM 為核心的架構(gòu)圖
有了來自邊緣的所有實時數(shù)據(jù)以及對這些數(shù)據(jù)的理解能力,AI 應(yīng)用就成為了能夠與真實世界互動的智能體。想要在您自己的圖像和數(shù)據(jù)集上嘗試使用 NanoDB ,了解更多信息,請參見實驗室教程:https://www.jetson-ai-lab.com/tutorial_nanodb.html
總結(jié)
正如您所見,激動人心的生成式 AI 應(yīng)用正在涌現(xiàn)。您可以按照這些教程,在 Jetson Orin 上輕松運行體驗。如要見證在本地運行的生成式 AI 的驚人能力,請訪問 Jetson 生成式 AI 實驗室:https://www.jetson-ai-lab.com/
如果您在 Jetson 上創(chuàng)建了自己的生成式 AI 應(yīng)用并想要分享您的想法,請務(wù)必在 Jetson Projects 論壇:https://forums.developer.nvidia.com/c/agx-autonomous-machines/jetson-embedded-systems/jetson-projects/78上展示您的創(chuàng)作。
歡迎參加我們于北京時間 2023 年 11 月 8 日周三凌晨 1-2 點舉行的網(wǎng)絡(luò)研討會,深入了解本文中討論的多項主題并進行現(xiàn)場提問!
在本次研討會中,您將了解到:
-
開源 LLM API 的性能特點和量化方法
-
加速 CLIP、OWL-ViT 和 SAM 等開放詞匯視覺轉(zhuǎn)換器
-
多模態(tài)視覺代理,向量數(shù)據(jù)庫和檢索增強生成
-
通過 NVIDIA Riva ASR/NMT/TTS 實現(xiàn)多語言實時對話和會話
掃描下方二維碼,馬上報名參會!

原文標題:利用 NVIDIA Jetson 實現(xiàn)生成式 AI
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關(guān)注
關(guān)注
22文章
3893瀏覽量
92602
原文標題:利用 NVIDIA Jetson 實現(xiàn)生成式 AI
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
研華NVIDIA Jetson Orin Nano系統(tǒng)支持Super Mode

NVIDIA Omniverse擴展至生成式物理AI領(lǐng)域
NVIDIA推出多個生成式AI模型和藍圖
NVIDIA 推出高性價比的生成式 AI 超級計算機

NVIDIA推出全新生成式AI模型Fugatto
NVIDIA助力Amdocs打造生成式AI智能體
NVIDIA AI助力SAP生成式AI助手Joule加速發(fā)展
NVIDIA在加速計算和生成式AI領(lǐng)域的創(chuàng)新
全新NVIDIA NIM微服務(wù)將生成式AI引入數(shù)字環(huán)境
NVIDIA攜手Meta推出AI服務(wù),為企業(yè)提供生成式AI服務(wù)
NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

HPE 攜手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成式 AI 變革
NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革
NVIDIA宣布全面推出 NVIDIA ACE 生成式 AI 微服務(wù)
NVIDIA數(shù)字人技術(shù)加速部署生成式AI驅(qū)動的游戲角色

評論