NVIDIA 在 2019 年 NVIDIA GPU 技術(shù)大會(huì) (GTC) 上宣布推出Jetson Nano開(kāi)發(fā)者套件,這是一款售價(jià) 99 美元的計(jì)算機(jī),現(xiàn)已面向嵌入式設(shè)計(jì)師、研究人員和 DIY 制造商提供,在緊湊、易于使用的平臺(tái)中提供現(xiàn)代 AI 的強(qiáng)大功能完全的軟件可編程性。Jetson Nano 通過(guò)四核 64 位 ARM CPU 和 128 核集成 NVIDIA GPU 提供 472 GFLOPS 的計(jì)算性能。它還包括采用高效、低功耗封裝的 4GB LPDDR4 內(nèi)存,具有 5W/10W 電源模式和 5V DC 輸入,如圖 1 所示。
新發(fā)布的JetPack 4.2 SDK為基于 Ubuntu 18.04 的 Jetson Nano 提供了完整的桌面 Linux 環(huán)境,具有加速圖形,支持 NVIDIA CUDA Toolkit 10.0,以及 cuDNN 7.3 和 TensorRT 5 等庫(kù)。SDK 還包括本地安裝流行的能力TensorFlow、PyTorch、Caffe、Keras 和 MXNet 等開(kāi)源機(jī)器學(xué)習(xí) (ML) 框架,以及 OpenCV 和 ROS 等計(jì)算機(jī)視覺(jué)和機(jī)器人開(kāi)發(fā)框架。
與這些框架和 NVIDIA 領(lǐng)先的 AI 平臺(tái)的完全兼容性使得將基于 AI 的推理工作負(fù)載部署到 Jetson 比以往任何時(shí)候都更加容易。Jetson Nano 為各種復(fù)雜的深度神經(jīng)網(wǎng)絡(luò) (DNN) 模型帶來(lái)實(shí)時(shí)計(jì)算機(jī)視覺(jué)和推理。這些功能支持多傳感器自主機(jī)器人、具有智能邊緣分析的物聯(lián)網(wǎng)設(shè)備和先進(jìn)的人工智能系統(tǒng)。甚至遷移學(xué)習(xí)也可以使用 ML 框架在 Jetson Nano 上本地重新訓(xùn)練網(wǎng)絡(luò)。
Jetson Nano 開(kāi)發(fā)套件的尺寸僅為 80x100mm,具有四個(gè)高速 USB 3.0 端口、MIPI CSI-2 攝像頭連接器、HDMI 2.0 和 DisplayPort 1.3、千兆以太網(wǎng)、M.2 Key-E 模塊、MicroSD 卡插槽、和 40 針 GPIO 接頭。端口和 GPIO 接頭開(kāi)箱即用,可與各種流行的外圍設(shè)備、傳感器和即用型項(xiàng)目配合使用,例如NVIDIA 在 GitHub 上開(kāi)源的 3D 打印深度學(xué)習(xí)JetBot 。
開(kāi)發(fā)套件從可移動(dòng)的 MicroSD 卡啟動(dòng),該卡可以通過(guò)任何帶有 SD 卡適配器的 PC 進(jìn)行格式化和映像。該開(kāi)發(fā)套件可通過(guò) Micro USB 端口或 5V DC 筒形插孔適配器方便地供電。攝像頭連接器與經(jīng)濟(jì)實(shí)惠的 MIPI CSI 傳感器兼容,包括基于 8MP IMX219 的模塊,可從 Jetson 生態(tài)系統(tǒng)合作伙伴處獲得。還支持 Raspberry Pi 攝像頭模塊 v2,其中包括 JetPack 中的驅(qū)動(dòng)程序支持。表 1 顯示了關(guān)鍵規(guī)格。
該開(kāi)發(fā)套件圍繞 260 針 SODIMM 式系統(tǒng)級(jí)模塊 (SoM) 構(gòu)建,如圖 2 所示。SoM 包含處理器、內(nèi)存和電源管理電路。Jetson Nano 計(jì)算模塊尺寸為 45x70mm,將于 2019 年 6 月開(kāi)始發(fā)貨,售價(jià)為 129 美元(以 1000 單位為單位),供嵌入式設(shè)計(jì)人員集成到生產(chǎn)系統(tǒng)中。量產(chǎn)計(jì)算模塊將包括 16GB eMMC 板載存儲(chǔ)和增強(qiáng)型 I/O,帶有 PCIe Gen2 x4/x2/x1、MIPI DSI、附加 GPIO 和 12 個(gè) MIPI CSI-2 通道,用于連接多達(dá)三個(gè) x4 攝像頭或四個(gè)攝像頭在 x4/x2 配置中。Jetson 的統(tǒng)一內(nèi)存子系統(tǒng)在 CPU、GPU 和多媒體引擎之間共享,提供精簡(jiǎn)的 ZeroCopy 傳感器攝取和高效的處理管道。
深度學(xué)習(xí)推理基準(zhǔn)
Jetson Nano 可以運(yùn)行各種高級(jí)網(wǎng)絡(luò),包括流行 ML 框架的完整原生版本,如 TensorFlow、PyTorch、Caffe/Caffe2、Keras、MXNet 等。這些網(wǎng)絡(luò)可用于構(gòu)建自主機(jī)器和復(fù)雜的人工智能系統(tǒng),通過(guò)實(shí)現(xiàn)強(qiáng)大的功能,如圖像識(shí)別、對(duì)象檢測(cè)和定位、姿勢(shì)估計(jì)、語(yǔ)義分割、視頻增強(qiáng)和智能分析。
圖 3 顯示了來(lái)自在線可用模型的推理基準(zhǔn)測(cè)試的結(jié)果。有關(guān)在Jetson Nano 上運(yùn)行這些基準(zhǔn)測(cè)試的說(shuō)明,請(qǐng)參閱此處。推理使用批量大小 1 和 FP16 精度,使用 JetPack 4.2 中包含的 NVIDIA 的TensorRT加速器庫(kù)。Jetson Nano 在很多場(chǎng)景下都獲得了實(shí)時(shí)性能,并且能夠處理多個(gè)高清視頻流。
圖 3. 使用 Jetson Nano 和 TensorRT 的各種深度學(xué)習(xí)推理網(wǎng)絡(luò)的性能,使用 FP16 精度和批量大小 1
表 2 提供了完整結(jié)果,包括 Raspberry Pi 3、英特爾神經(jīng)計(jì)算棒 2 和 Google Edge TPU Coral 開(kāi)發(fā)板等其他平臺(tái)的性能:
由于內(nèi)存容量有限、網(wǎng)絡(luò)層不受支持或硬件/軟件限制,DNR(未運(yùn)行)結(jié)果頻繁出現(xiàn)。固定功能神經(jīng)網(wǎng)絡(luò)加速器通常支持相對(duì)狹窄的用例集,硬件支持專(zhuān)用層操作,需要網(wǎng)絡(luò)權(quán)重和激活以適應(yīng)有限的片上緩存,以避免顯著的數(shù)據(jù)傳輸損失。它們可能會(huì)依靠主機(jī) CPU 來(lái)運(yùn)行硬件不支持的層,并且可能依賴(lài)于支持框架的縮減子集(例如 TFLite)的模型編譯器。
Jetson Nano 靈活的軟件和完整的框架支持、內(nèi)存容量和統(tǒng)一的內(nèi)存子系統(tǒng),使其能夠以全高清分辨率運(yùn)行無(wú)數(shù)不同的網(wǎng)絡(luò),包括同時(shí)在多個(gè)傳感器流上的可變批量大小。這些基準(zhǔn)代表了流行網(wǎng)絡(luò)的樣本,但用戶(hù)可以將各種模型和自定義架構(gòu)部署到具有加速性能的 Jetson Nano。Jetson Nano 不僅限于 DNN 推理。其 CUDA 架構(gòu)可用于計(jì)算機(jī)視覺(jué)和數(shù)字信號(hào)處理 (DSP),使用包括 FFT、BLAS 和 LAPACK 操作在內(nèi)的算法以及用戶(hù)定義的 CUDA 內(nèi)核。
多流視頻分析
Jetson Nano 可實(shí)時(shí)處理多達(dá) 8 個(gè)高清全動(dòng)態(tài)視頻流,并可部署為網(wǎng)絡(luò)視頻錄像機(jī) (NVR)、智能攝像機(jī)和物聯(lián)網(wǎng)網(wǎng)關(guān)的低功耗邊緣智能視頻分析平臺(tái)。NVIDIA 的DeepStream SDK使用 ZeroCopy 和 TensorRT 優(yōu)化端到端推理管道,以在邊緣和本地服務(wù)器上實(shí)現(xiàn)終極性能。下面的視頻展示了 Jetson Nano 同時(shí)在八個(gè) 1080p30 流上執(zhí)行對(duì)象檢測(cè),同時(shí)基于 ResNet 的模型以全分辨率和每秒 500 兆像素 (MP/s) 的吞吐量運(yùn)行。
圖 4 中的框圖顯示了一個(gè)示例 NVR 架構(gòu),該架構(gòu)使用 Jetson Nano 通過(guò)深度學(xué)習(xí)分析通過(guò)千兆以太網(wǎng)攝取和處理多達(dá) 8 個(gè)數(shù)字流。該系統(tǒng)可以解碼 500 MP/s 的 H.264/H.265 和編碼 250 MP/s 的 H.264/H.265 視頻。
圖 4. 具有 Jetson Nano 和 8x 高清攝像頭輸入的參考 NVR 系統(tǒng)架構(gòu)
計(jì)劃在 2019 年第二季度發(fā)布對(duì) Jetson Nano 的 DeepStream SDK 支持。請(qǐng)加入DeepStream 開(kāi)發(fā)人員計(jì)劃以接收有關(guān)即將發(fā)布的版本的通知。
噴氣機(jī)器人
NVIDIAJetBot是一個(gè)新的開(kāi)源自主機(jī)器人套件,它提供了所有軟件和硬件計(jì)劃,以低于 250 美元的價(jià)格構(gòu)建一個(gè)人工智能驅(qū)動(dòng)的深度學(xué)習(xí)機(jī)器人。硬件材料包括 Jetson Nano、IMX219 8MP 攝像頭、3D 打印機(jī)箱、電池組、電機(jī)、I2C 電機(jī)驅(qū)動(dòng)器和配件。
該項(xiàng)目通過(guò) Jupyter 筆記本為您提供易于學(xué)習(xí)的示例,介紹如何編寫(xiě) Python 代碼來(lái)控制電機(jī)、訓(xùn)練 JetBot 檢測(cè)障礙物、跟蹤人和家庭物體等物體,以及訓(xùn)練 JetBot 跟蹤地板周?chē)穆窂?。通過(guò)擴(kuò)展代碼和使用 AI 框架,可以為 JetBot 創(chuàng)建新功能。
JetBot也有可用的ROS 節(jié)點(diǎn),為那些希望集成基于 ROS 的應(yīng)用程序和功能(如 SLAM 和高級(jí)路徑規(guī)劃)的人支持 ROS Melodic。包含 JetBot ROS 節(jié)點(diǎn)的 GitHub 存儲(chǔ)庫(kù)還包括 Gazebo 3D 機(jī)器人模擬器模型,允許在虛擬環(huán)境中開(kāi)發(fā)和測(cè)試新的 AI 行為,然后再部署到機(jī)器人上。Gazebo 模擬器生成合成相機(jī)數(shù)據(jù)并在 Jetson Nano 上運(yùn)行。
你好人工智能世界
Hello AI World提供了一種很好的方式來(lái)開(kāi)始使用 Jetson 并體驗(yàn) AI 的力量。只需幾個(gè)小時(shí),您就可以在帶有 JetPack SDK 和 NVIDIA TensorRT 的 Jetson Nano 開(kāi)發(fā)人員套件上啟動(dòng)并運(yùn)行一組深度學(xué)習(xí)推理演示,用于實(shí)時(shí)圖像分類(lèi)和對(duì)象檢測(cè)(使用預(yù)訓(xùn)練模型)。本教程側(cè)重于與計(jì)算機(jī)視覺(jué)相關(guān)的網(wǎng)絡(luò),包括實(shí)時(shí)攝像頭的使用。您還可以使用 C++ 編寫(xiě)自己的易于理解的識(shí)別程序??捎玫纳疃葘W(xué)習(xí) ROS 節(jié)點(diǎn)將這些識(shí)別、檢測(cè)和分割推理功能與ROS集成用于集成到先進(jìn)的機(jī)器人系統(tǒng)和平臺(tái)中。這些實(shí)時(shí)推理節(jié)點(diǎn)可以輕松放入現(xiàn)有的 ROS 應(yīng)用程序中。
想要嘗試訓(xùn)練自己的模型的開(kāi)發(fā)人員可以遵循完整的“兩天演示”教程,該教程涵蓋了圖像分類(lèi)、對(duì)象檢測(cè)和語(yǔ)義分割模型的重新訓(xùn)練和自定義遷移學(xué)習(xí)。遷移學(xué)習(xí)微調(diào)特定數(shù)據(jù)集的模型權(quán)重,避免從頭開(kāi)始訓(xùn)練模型。遷移學(xué)習(xí)在連接了 NVIDIA 離散 GPU 的 PC 或云實(shí)例上執(zhí)行最為有效,因?yàn)橛?xùn)練需要比推理更多的計(jì)算資源和時(shí)間。
然而,由于 Jetson Nano 可以運(yùn)行 TensorFlow、PyTorch 和 Caffe 等完整的訓(xùn)練框架,它還可以為那些可能無(wú)法使用另一臺(tái)專(zhuān)用訓(xùn)練機(jī)并愿意等待更長(zhǎng)時(shí)間等待結(jié)果的人使用遷移學(xué)習(xí)進(jìn)行重新訓(xùn)練。表 3 突出顯示了使用 PyTorch 使用 Jetson Nano 在 200,000 張圖像、22.5GB 的 ImageNet 子集上訓(xùn)練 Alexnet 和 ResNet-18 從兩天到演示教程的遷移學(xué)習(xí)的一些初步結(jié)果:
每個(gè) epoch 的時(shí)間是完全通過(guò) 200K 圖像的訓(xùn)練數(shù)據(jù)集所需的時(shí)間。分類(lèi)網(wǎng)絡(luò)可能只需要 2-5 個(gè) epoch 即可獲得可用結(jié)果,生產(chǎn)模型應(yīng)在離散 GPU 系統(tǒng)上進(jìn)行更多 epoch 的訓(xùn)練,直到達(dá)到最大準(zhǔn)確度。但是,Jetson Nano 通過(guò)讓網(wǎng)絡(luò)在一夜之間重新訓(xùn)練,使您能夠在低成本平臺(tái)上試驗(yàn)深度學(xué)習(xí)和 AI。并非所有自定義數(shù)據(jù)集都可能與此處使用的 22.5GB 示例一樣大。因此,圖像/秒表示 Jetson Nano 的訓(xùn)練性能,每個(gè) epoch 的時(shí)間隨數(shù)據(jù)集的大小、訓(xùn)練批次大小和網(wǎng)絡(luò)復(fù)雜度而縮放。其他模型也可以通過(guò)增加訓(xùn)練時(shí)間在 Jetson Nano 上重新訓(xùn)練。
面向所有人的人工智能
Jetson Nano 的計(jì)算性能、緊湊的占用空間和靈活性為開(kāi)發(fā)人員創(chuàng)建人工智能驅(qū)動(dòng)的設(shè)備和嵌入式系統(tǒng)帶來(lái)了無(wú)限的可能性。
關(guān)于作者
Dustin 是 NVIDIA Jetson 團(tuán)隊(duì)的一名開(kāi)發(fā)人員推廣員。Dustin 擁有機(jī)器人技術(shù)和嵌入式系統(tǒng)方面的背景,喜歡在社區(qū)中提供幫助并與 Jetson 合作開(kāi)展項(xiàng)目。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4979瀏覽量
102994 -
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128893 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7488瀏覽量
87854
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論