NVIDIA 推出了 Jetson TX1,這是一款小型 Linux 系統級模塊,專為視覺計算中要求苛刻的嵌入式應用而設計。微型 Jetson TX1(圖 1)專為世界各地的開發人員和制造商而設計,可在現場部署 teraflop 級超級計算性能的板載平臺。在 Jetson TX1 開發人員套件、一流的開發人員社區和包括 Jetpack、Linux For Tegra R23.1、CUDA Toolkit 7、cuDNN 和 VisionWorks 在內的軟件生態系統的支持下,Jetson 使世界各地的機器都具備實現高級水平所需的眾所周知的大腦。當今世界的自治。
針對對計算機視覺和動態傳感感興趣的開發人員,Jetson TX1 的信用卡占用空間和低功耗意味著它適合部署具有受限尺寸、重量和功率 (SWaP) 的板載嵌入式系統。Jetson TX1 在與 Caffe 的深度學習分類中超越了英特爾高端酷睿 i7-6700K Skylake 的性能,在僅消耗一小部分功率的同時,實現了十倍以上的 perf-per-watt。
Jetson 提供卓越的效率,同時為敏捷原型設計和產品開發保持對開發人員友好的環境,消除了通常與部署功率受限的嵌入式系統相關的額外工作量。Jetson TX1 的小尺寸模塊使世界各地的開發人員能夠將 Tegra 部署到嵌入式應用程序中,范圍從自主導航到深度學習驅動的推理和分析。
Jetson TX1 模塊
Jetson TX1 圍繞 NVIDIA 的 20nm Tegra X1 SoC 構建,具有 1024-GFLOP Maxwell GPU、64 位四核 ARM Cortex-A57 和硬件 H.265 編碼器/解碼器,尺寸為 50x87mm,并具有性能和功能。板載組件包括 4GB LPDDR4、16GB eMMC 閃存、802.11ac WiFi、藍牙 4.0、千兆以太網,并接受 5.5V-19.6VDC 輸入(圖 2)。外圍接口包括多達六個 MIPI CSI-2 攝像頭(在雙 ISP 上)、2x USB 3.0、3x USB 2.0、PCIe gen2 x4 + x1、獨立 HDMI 2.0/DP 1.2 和 DSI/eDP 1.4、3x SPI、4x I2C 、3x UART、SATA、GPIO 等。毋庸置疑,Jetson TX1 在許多算法和集成挑戰面前屹立不倒。
圖 2. Jetson TX1 框圖。外部的塊表示載體上的典型路由。
Jetson 模塊使用 400 針板對板連接器(圖 3)與開發人員套件的參考載板或在您的產品化過程中設計的定制板連接。Tegra 的芯片級功能和 I/O 緊密映射到模塊的引腳。該引腳將向后兼容 Jetson 模塊的未來版本。Jetson TX1 帶有一個集成熱傳遞板(圖 3),額定溫度在 -25°C 和 80°C 之間,用于連接被動或主動冷卻解決方案。除了訪問Devtalk上活躍且開放的開發社區外,請咨詢 NVIDIA 的嵌入式開發人員專區以獲取詳盡的文檔和詳細的機電規范。
圖 3. 從左到右:Jetson TX1 模塊的頂部、底部(帶連接器)和帶有 TTP 的完整組件。
Jetson TX1 在空閑時僅消耗 1 瓦或更低的功率,在典型的 CUDA 負載下大約為 8-10 瓦,在模塊被充分利用時(例如在游戲和最苛刻的視覺例程期間)的 TDP 高達 15 瓦。Jetson TX1 可通過其自動調節器基于工作負載或通過明確的用戶命令來控制內核并指定時鐘頻率,從而提供出色的動態功率調節。四個 ARM A57 內核在 102 MHz 和 1.9 GHz 之間自動擴展,內存控制器在 40MHz 和 1.6GHz 之間自動擴展,Maxwell GPU 在 76 MHz 和 998 MHz 之間自動擴展。Jetson TX1 的 Maxwell GPU 擁有 256 個具有 5.3 計算能力和動態并行性的 CUDA 內核,其 FP16 的額定速度高達 1024 GFLOPS。當與三個 MIPI CSI x4 攝像頭或六個 CSI x2 攝像頭支持高達 1200 兆像素/秒的速度相結合時,與硬件 H.265 編碼器和解碼器、集成 WiFi 和 HDMI 2.0 一起,Jetson TX1 為全 4K 視頻處理做好了準備。Jetson TX1 模塊零售價為 299 美元,供貨期為 5 年。除了發布生態系統工具外,NVIDIA 還提供了 Jetson TX1 開發者套件來幫助用戶立即開始使用。
Jetson TX1 開發者套件
NVIDIA 的 Jetson TX1 開發人員套件包括您開始在 Jetson 上進行開發所需的一切。包括預裝模塊,Jetson TX1 開發套件(圖 4)包含一個參考 mini-ITX 載板、5MP MIPI CSI-2 攝像頭模塊、兩個 2.4/5GHz 天線、一個有源散熱器和風扇、一個丙烯酸基板、和一個 19VDC 電源磚。
Jetson TK1 開發人員套件上的 PCIe 通道從模塊路由到載體上的 PCIe x4 桌面插槽,以便于原型設計,此外還有用于無線電的帶有 PCIe x1 的 M.2-E 夾層。NVIDIA在Embedded Developer Zone上提供,與 5MP CSI-2 攝像頭模塊一起共享參考載體的原理圖和設計文件,包括路由和信號完整性指南。Jetpack 捆綁的板卡軟件支持提供了簡單的刷寫和設備配置。開箱即用的 Jetson TX1 開發人員套件提供臺式 PC 的體驗,但采用小型嵌入式外形,僅消耗一小部分功率。Jetson TX1 開發者套件可預訂立即以 599 美元的價格發貨,11 月 16 日在美國發貨,12 月 20 日在歐洲和亞太地區發貨。
選定的研究人員有機會在 Jetson TX1 開發人員套件發布前進行了審查。麻省理工學院教授 Sertac Karaman 博士和他的自主機器人實驗室親自使用新套件,從之前的 Jetson TK1 設置升級了他們的自動駕駛RACECAR。圖 5 顯示了他們的自動駕駛汽車。
除了由 Jetson TX1 提供動力的自動 RACECAR 之外,Karaman 博士在麻省理工學院的實驗室也支持其他利用 Jetson 實現自動駕駛的項目。他們與麻省理工學院媒體實驗室的“有說服力的電動汽車”(PEV) 的改變地點小組合作,他們的自動駕駛三輪車在城市環境中提供行人和包裹的自動運輸,并且還由 Jetson 提供動力。利用該生態系統,麻省理工學院的學生快速制作了他們的項目原型,并受益于 Jetson TX1 提供的靈活開發環境和性能。
Tegra R23.1 的 Jetpack 和 Linux
Jetson 的軟件生態系統非常廣泛,Jetpack 簡化了軟件配置和部署。Jetpack 自動化 Jetson 上的安裝過程,以包含所有用于開發的工具和驅動程序。Jetpack 2.0 為 Jetson TX1 提供。此版本的 Jetpack 捆綁了 Linux For Tegra (L4T) R23.1、Tegra System Profiler 2.4 和 Graphics Debugger 2.1、PerfKit 4.5.0 和 OpenCV4Tegra。L4T R23.1 附帶 U-Boot 和 Linux 3.10.64 aarch64 內核,以及 Ubuntu 14.04armhf文件系統。L4T 的最新改進包括gstreamer1.6 擴展,支持 H.265 的硬件、改進nvgstcapture的用于測試相機模塊的示例,以及對 WiFi 和藍牙的集成支持。
L4T R23.1 包括對完整桌面 OpenGL 4.5 的支持,除了模擬之外,還提供完整的 Linux 游戲/VR 體驗。還提供了 OpenGL ES 3.1。此版本包括 OpenCV4Tegra 2.14.12.3,使用戶能夠從標準 OpenCV 接口透明地利用 NEON SIMD 擴展。有關 OpenCV 的視頻教程系列可通過Embedded Developer Zone獲得。
CUDA 7 和 cuDNN/Caffe
Jetpack 2.0 包括 CUDA Toolkit 7.0 版,支持 16 位浮點 (FP16)。CUDA 7.0 釋放了 Jetson TX1 的集成 Maxwell GPU。Maxwell 具有 Compute Capability 5.3,支持動態并行和更高性能的 FP16。動態并行在嵌入式應用程序中的許多用途包括點云處理和樹分區、并行路徑規劃和成本估計、粒子過濾、RANSAC、求解器等等。
Jetson 軟件生態系統的亮點之一是基于 CUDA 構建的令人難以置信的深度學習工具包,它為 Jetson 提供了板載推理和在該領域應用推理的能力。包括 NVIDIA 的 cuDNN 庫,被包括 Caffe 在內的多個深度學習框架采用。
我們使用 Caffe AlexNet 圖像分類器運行功率基準測試,將 Jetson TX1 與 Intel Core i7-6700K Skylake CPU 進行比較。該表顯示了結果。在文章“推理:GPU 加速深度學習的下一步”中閱讀有關這些結果的更多信息。
硅谷工業無人機開發商 Kespry Designs 正在使用 Jetson TX1 上的深度學習來為建筑工地提供推理,以跟蹤設備和材料的資產。這消除了資產管理和現場后勤規劃中繁瑣的人力密集型工作。由于 Jetson TX1 的低 SWaP 和計算能力,Kespry 計劃將處理遷移到無人機上,而不是在數據中心離線,從而縮短檢查和分類等任務的響應時間。請參閱圖 6 中有關它們的簡短視頻。
Kespry 在短短幾周內就在 Jetson TX1 開發套件上開發了他們的概念驗證。該原型使用經過訓練的 Caffe 模型來識別和計算不同類別的建筑設備。使用 Jetson TX1,Kespry 現在正在他們的無人機上實時部署這個以前離線的過程。Jetson 能夠轉移曾經在車載移動平臺上的數據中心執行的資源密集型任務,從而關閉響應循環并提高快速反應能力,為 Kespry 等公司創造新的機會。
視覺工廠
Jetson TX1 標志著 VisionWorks 的第一個版本通過 Jetpack 2.0 和嵌入式開發者專區可供開發人員使用。VisionWorks 建立在 Khronos Group 的用于節能視覺處理的 OpenVX 標準之上,使用經過調整的 CUDA 內核提供針對 Tegra 高度優化的原語和構建塊。圖 7 顯示了我們在 Jetson TX1 上運行的基準測試結果,分析了 VisionWorks 和 OpenCV 之間的差異。
圖 5. 基準測試展示了 VisionWorks 與在 Jetson TX1 CPU 和 GPU 上運行的 OpenCV 相比的大幅加速。
VisionWorks 比僅上游 CPU 的 OpenCV 快 10 倍以上,比具有 NEON 擴展的 OpenCV4Tegra 快 4.5 倍,比 OpenCV 的 GPU 模塊快 1.6 倍。總體計算機視覺分數是從 OpenCV 和 VisionWorks 之間所有重疊基元的幾何平均性能中收集的。每個基元都是在 720p 和更大的圖像尺寸以及參數參數的所有排列中測量的。
除了 50 多個過濾、變形和圖像增強基元外,VisionWorks 還提供了許多更高級別的構建塊,例如 LK 光流、立體塊匹配 (SBM)、霍夫線和圓以及哈里斯 (角)特征檢測和跟蹤。VisionWorks 提供了 OpenVX 1.1 的完整實現。開發人員可以利用 VisionWorks 部署已針對 Jetson 進行調整的相機就緒算法和視覺管道。
Jetson TX1:豐富的開發平臺
NVIDIA Jetson 生態系統擁有豐富的工具和支持,可讓您使用 Jetson TX1 研發應用程序和產品。在更大的方案中,用于加速計算、深度學習、計算機視覺和圖形的 NVIDIA 軟件工具包可從數據中心移植到工作站到嵌入式 SoC(圖 8),允許企業用戶無縫擴展和部署他們的應用程序到設備場地。使用 Jetson,開發人員可以利用 NVIDIA 的共享架構和節能技術輕松靈活地推出高性能嵌入式系統。
圖 6. Jetson 利用 NVIDIA 生態系統提供前所未有的可擴展性和對開發人員友好的支持。
Jetson TX1 擅長托管核心處理能力以及學習驅動的推理和推理,代表了為您的設備提供下一波自主性的終極性能和效率。
關于作者
Dustin 是 NVIDIA Jetson 團隊的一名開發人員推廣員。Dustin 擁有機器人技術和嵌入式系統方面的背景,喜歡在社區中提供幫助并與 Jetson 合作開展項目。您可以在NVIDIA 開發者論壇或GitHub 上找到他。
審核編輯:郭婷
-
機器人
+關注
關注
211文章
28384瀏覽量
206919 -
NVIDIA
+關注
關注
14文章
4979瀏覽量
102994
發布評論請先 登錄
相關推薦
評論