NVIDIA 發(fā)布了JetPack 3.1,這是用于 Jetson TX1 和 TX2 的生產(chǎn) Linux 軟件版本。隨著對 TensorRT 2.1 和 cuDNN 6.0 的升級,JetPack 3.1 為視覺引導(dǎo)導(dǎo)航和運(yùn)動控制等實(shí)時應(yīng)用提供了高達(dá) 2 倍的深度學(xué)習(xí)推理性能提升,這些應(yīng)用受益于加速的批量大小 1。改進(jìn)的功能使 Jetson 能夠部署比以往任何時候都更強(qiáng)大的智能,實(shí)現(xiàn)一代自主機(jī)器,包括送貨機(jī)器人、遠(yuǎn)程呈現(xiàn)和視頻分析。為了進(jìn)一步推動機(jī)器人技術(shù)的發(fā)展,NVIDIA 最近推出的 Isaac Initiative 是一個端到端平臺,用于在該領(lǐng)域訓(xùn)練和部署高級 AI。
邊緣的人工智能
今年春天早些時候,當(dāng) NVIDIA 推出Jetson TX2時,事實(shí)上的邊緣計算平臺在功能上得到了顯著提升。如圖 1 中的 Wave Glider 平臺所示,位于網(wǎng)絡(luò)邊緣的遠(yuǎn)程物聯(lián)網(wǎng) (IoT) 設(shè)備經(jīng)常會遇到網(wǎng)絡(luò)覆蓋、延遲和帶寬下降的情況。雖然物聯(lián)網(wǎng)設(shè)備通常用作將數(shù)據(jù)中繼到云的網(wǎng)關(guān),但邊緣計算通過訪問安全的板載計算資源重新構(gòu)建了物聯(lián)網(wǎng)的可能性。NVIDIA 的 Jetson 嵌入式模塊在 Jetson TX1 上以 1 TFLOP/s 的速度提供服務(wù)器級性能,并在 10W 的功率下將 Jetson TX2 上的 AI 性能提高一倍。
噴氣背包 3.1
JetPack 3.1 with Linux For Tegra (L4T) R28.1 是 Jetson TX1 和 TX2 的生產(chǎn)軟件版本,具有長期支持 (LTS)。TX1 和 TX2 的 L4T 板級支持包 (BSP) 適用于客戶產(chǎn)品化,其共享的 Linux 內(nèi)核 4.4 代碼庫提供了兩者之間的兼容性和無縫移植。從 JetPack 3.1 開始,開發(fā)人員可以在 TX1 和 TX2 上訪問相同的庫、API 和工具版本。
除了從 cuDNN 5.1 升級到 6.0 以及對 CUDA 8 的維護(hù)更新之外,JetPack 3.1 還包括用于構(gòu)建流應(yīng)用程序的最新視覺和多媒體 API。您可以將 JetPack 3.1 下載到您的主機(jī) PC,以使用最新的 BSP 和工具刷新 Jetson。
使用 TensorRT 2.1 進(jìn)行低延遲推理
JetPack 3.1 中包含最新版本的 TensorRT,因此您可以在 Jetson 上部署優(yōu)化的運(yùn)行時深度學(xué)習(xí)推理。TensorRT 通過網(wǎng)絡(luò)圖優(yōu)化、內(nèi)核融合和半精度 FP16 支持提高了推理性能。TensorRT 2.1 包括關(guān)鍵功能和增強(qiáng)功能,例如多權(quán)重批處理,可進(jìn)一步提高 Jetson TX1 和 TX2 的深度學(xué)習(xí)性能和效率并減少延遲。
批量大小 1 的性能已顯著提高,從而將 GoogLeNet 的延遲降低到 5 毫秒。對于延遲敏感的應(yīng)用程序,批量大小 1 提供最低延遲,因為每個幀一到達(dá)系統(tǒng)就會被處理(而不是等待批量處理多個幀)。如圖 2 所示,在 Jetson TX2 上,使用 TensorRT 2.1 在 GoogLeNet 和 ResNet 圖像識別推理方面的吞吐量是 TensorRT 1.0 的兩倍。
圖 2:使用 Jetson TX2 Max-Q 和 Max-P 功率曲線的 GoogLeNet 和 ResNet-50 的推理吞吐量。TensorRT 2.1 在 GoogleLeNet 和 ResNet 上提供兩倍的推理吞吐量。
表 2 中的延遲顯示隨著批量大小 1 的成比例減少。使用 TensorRT 2,Jetson TX2 在 Max-P 性能配置文件中實(shí)現(xiàn)了 5ms 的 GoogLeNet 延遲,在 Max-Q 效率配置文件中實(shí)現(xiàn)了 7ms 的延遲。ResNet-50 在 Max-P 中具有 12.2ms 的延遲,在 Max-Q 中具有 15.6ms 的延遲。ResNet 通常用于提高圖像分類的準(zhǔn)確性,超越 GoogLeNet,使用 TensorRT 2.1 可將運(yùn)行時性能提高 2 倍以上。借助 Jetson TX2 的 8GB 內(nèi)存容量,即使在 ResNet 等復(fù)雜網(wǎng)絡(luò)上也可以實(shí)現(xiàn)高達(dá) 128 的大批量。
減少的延遲允許深度學(xué)習(xí)推理方法用于需要近實(shí)時響應(yīng)的應(yīng)用程序,例如高速無人機(jī)和水面車輛的防撞和自主導(dǎo)航。
自定義圖層
通過用戶插件 API 支持自定義網(wǎng)絡(luò)層,TensorRT 2.1 能夠運(yùn)行最新的網(wǎng)絡(luò)和擴(kuò)展支持的功能,包括殘差網(wǎng)絡(luò) (ResNet)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)、你只看一次 (YOLO) 和更快-RCNN(區(qū)域卷積神經(jīng)網(wǎng)絡(luò))。自定義層在用戶定義的 C++ 插件中實(shí)現(xiàn),這些插件實(shí)現(xiàn)IPlugin了如下代碼中的接口。
#include "NvInfer.h" 使用 , *緩沖區(qū));
IPlugin您可以使用與上述代碼類似的自定義來構(gòu)建自己的共享對象。在用戶enqueue()函數(shù)內(nèi)部,您可以使用 CUDA 內(nèi)核實(shí)現(xiàn)自定義處理。TensorRT 2.1 使用這種技術(shù)來實(shí)現(xiàn)Faster-RCNN插件以增強(qiáng)對象檢測。此外,TensorRT 為長短期記憶 (LSTM)單元和門控循環(huán)單元 (GRU)提供了新的 RNN 層,以改進(jìn)基于記憶的時序序列識別。開箱即用地提供這些強(qiáng)大的新層類型可加速您在嵌入式邊緣應(yīng)用程序中部署高級深度學(xué)習(xí)應(yīng)用程序。
NVIDIA 艾薩克計劃
隨著邊緣 AI 功能的快速增長,NVIDIA 推出了 Isaac Initiative 以推進(jìn)機(jī)器人技術(shù)和 AI 的最新發(fā)展。Isaac是一個端到端機(jī)器人平臺,用于開發(fā)和部署智能系統(tǒng)到現(xiàn)場,包括模擬、自主導(dǎo)航堆棧和用于部署的嵌入式 Jetson。為了開始開發(fā)自主 AI,Isaac 支持圖 3 所示的機(jī)器人參考平臺。這些由 Jetson 提供動力的平臺包括無人機(jī)、無人地面車輛 (UGV)、無人水面車輛 (USV) 和人類支持機(jī)器人 (HSR)。參考平臺提供了一個由 Jetson 驅(qū)動的基礎(chǔ),可以在現(xiàn)場進(jìn)行實(shí)驗,并且該計劃將隨著時間的推移而擴(kuò)展,以包括新的平臺和機(jī)器人。
開始部署 AI
JetPack 3.1 包括 cuDNN 6 和 TensorRT 2.1。它現(xiàn)在可用于 Jetson TX1 和 TX2。憑借將單批次推理的低延遲性能提高一倍,并支持具有自定義層的新網(wǎng)絡(luò),Jetson 平臺比以往任何時候都更有能力進(jìn)行邊緣計算。
關(guān)于作者
Dustin 是 NVIDIA Jetson 團(tuán)隊的一名開發(fā)人員推廣員。Dustin 擁有機(jī)器人技術(shù)和嵌入式系統(tǒng)方面的背景,喜歡在社區(qū)中提供幫助并與 Jetson 合作開展項目。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28384瀏覽量
206919 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4979瀏覽量
102994
發(fā)布評論請先 登錄
相關(guān)推薦
評論