“在加速計算領域深耕 25 年,英偉達致力于在 GPU 加速計算領域勇當先鋒,解決普通計算機無法解決的問題。我們為當代的愛因斯坦、達芬奇和米開朗琪羅們打造計算機,為在座的各位打造計算機”NVIDIA GTC CHINA 2019 大會開始,英偉達創始人兼 CEO 黃仁勛為本次活動打下注腳。
2019 年 12 月 18 日,NVIDIA GTC CHINA 2019 主題大會在蘇州國際會議中心召開,本屆 GTC CHINA 也以有超過 6100 人參會的規模創有史以來之最。
當前時代,隨著摩爾定律的終結,GPU 加速計算正在逐漸成為未來發展方向,英偉達在此深耕 25 年之久,通過軟件堆棧優化,多 GPU 和多節點系統實現高效的計算加速。截止到現在,英偉達已經售出 15 億塊 GPU,均采用和兼容 CUDA 架構。
英偉達致力如此,旨在通過出色的芯片性能和全棧優化實現摩爾定律加速。
黃仁勛表示,僅在去年,我們就發布了 500 多個 SDK 和庫,其中既有全新內容,也有更新版本。為了提高 GPU 性能,深度學習訓練在 3 年內提高 4 倍,深度學習推理在 1 年內提高 2 倍。
在后面的演講中,黃仁勛談到了 AI 變革新動向,以及英偉達在自動駕駛、游戲和醫療以及建筑等新領域多個行業的新進展。英偉達將 GPU、深度專業知識、計算堆棧、算法和生態系統知識集于一身,立足 CUDA 架構,布局多樣化市場。
自動駕駛領域:自主機器平臺 DRIVE AGX Orin
現場,英偉達發布用于自動駕駛和機器人的高度先進的軟件定義平臺——DRIVE AGX Orin。
Orin 可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經網絡,能夠支持從 L2 級到 L5 級完全自動駕駛汽車開發的兼容架構平臺,助力 OEM 開發大型復雜的軟件產品系列。由于 Orin 和 Xavier 均可通過開放的 CUDA、TensorRT API 及各類庫進行編程,因此開發者能夠在一次性投資后使用跨多代的產品。
Orin 平臺內置全新 Orin 系統級芯片,晶體管數量達到 170 億個,集成 NVIDIA 新一代 GPU 架構和 Arm Hercules CPU 內核以及全新深度學習和計算機視覺加速器,每秒可運行 200 萬億次計算,幾乎是 NVIDIA 上一代 Xavier 系統級芯片性能的 7 倍。此外,Orin 可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經網絡,并且達到了 ISO 26262 ASIL-D 等系統安全標準。NVIDIA DRIVE AGX Orin 計劃于 2022 年開始投產。
在汽車領域,黃仁勛還宣布,英偉達將在 NVIDIA GPU Cloud (NGC) 容器注冊上,向交通運輸行業開源 NVIDIA DRIVE 自動駕駛汽車開發深度神經網絡。如今,NVIDIA 向自動駕駛汽車開發者開源其預訓練 AI 模型和訓練代碼。通過一套 NVIDIA AI 工具,NVIDIA 生態系統內的開發者們可以自由擴展和自定義模型,從而提高其自動駕駛系統的穩健性與能力。
現場,英偉達宣布和滴滴合作,滴滴將在數據中心使用 NVIDIA GPU 訓練機器學習算法,并采用 NVIDIA DRIVE 為其 L4 級自動駕駛汽車提供推理能力。為了訓練這些深度神經網絡,滴滴將采用 NVIDIA GPU 數據中心服務器。在云計算方面,滴滴還將構建領先的 AI 基礎架構,并推出計算型、渲染型和游戲型 vGPU 云服務器。(詳情見下方鏈接:英偉達與滴滴合作詳情)
計算圖優化編譯器:重磅發布 TensorRT 7
TensorRT 是一種計算圖優化編譯器,以深度學習為框架,以訓練得到的模型為輸入,尋找計算圖中可以融合的節點和邊,從而減少計算和內存訪問。TensorRT 7 是繼去年 GTC 大會發布 TensorRT 5 之后的升級版本,彌補了 TensorRT 5 僅支持 CNN 的不足。
TensorRT 7 支持各種類型的 RNN,Transformer 和 CNN。相比 TRT5 只支持 30 種模型,TRT 7 能夠支持多達 1000 種不同的計算變換和優化。TRT 7 能夠融合水平和垂直方向的運算,可以為開發者設計的大量 RNN 配置自動生成代碼,逐點融合 LSTM 單元,甚至可跨多個時間步長進行融合,并盡可能做自動低精度推理。此外,英偉達在 TensorRT 7 中引入一個內核生成功能,用任何 RNN 可生成一個優化的內核。
同時,會話式 AI 是 TensorRT 7 強大功能的典型代表,一套端到端會話式 AI 的流程可能由二三十種模型組成,用到 CNN、RNN、Transformer、自編碼器、NLP 等多種模型結構。推理會話式 AI,CPU 的推理延遲是 3 秒,現在使用 TensorRT 7 在 T4 GPU 上推理僅 0.3s 就完成,比 CPU 快 10 倍。
游戲領域新進展
游戲業務撐起英偉達的半壁江山。這句話在英偉達 2020 財年 Q3 財報可以印證,英偉達第三季度收入達 30.1 億美元,其中游戲業務為 16.6 億美元。
現場,黃仁勛宣布了 6 款支持 RTX 的游戲,為《暗影火炬》《project X》《無限法則》《軒轅劍柒》《鈴蘭計劃》《邊境》,表明 RTX 技術的開發者數量飆升。
除此之外,英偉達還創造出了 Max-Q 設計,將超高的 GPU 能效和總體系統優化集于一身,可以用于輕薄的高性能筆記本電腦。
同時,隨著云計算的普及,云游戲也將越來越普及。黃仁勛在 GTC China 2019 上也宣布,英偉達與騰訊游戲合作推出 START 云游戲服務,該服務已從今年初開始進入測試階段。RTX GPU 是英偉達去年最重磅的發布,可以看到其在持續推動這項技術更多的應用。(相關詳情請點擊鏈接查看:英偉達與騰訊合作詳情)
機器人領域:NVIDIA ISAAC 機器人 SDK
面向機器人領域,黃仁勛宣布推出全新 NVIDIA Isaac 機器人 SDK,大大加快開發和測試機器人的速度,使機器人能通過仿真獲得由 AI 驅動的感知和訓練功能,從而可以在各種環境和情況下對機器人進行測試和驗證,并節省成本。
Isaac SDK 包括 Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構建的深度神經網絡模型、算法、庫、驅動程序和 API),用于室內物流的參考應用程序,并引入 Isaac Sim 訓練機器人,可將所生成的軟件部署到在現實世界中運行的真實機器人中。其中,基于攝像頭的感知深度神經網絡有對象檢測、自由空間分割、3D 姿態估計、2D 人體姿態估計等模型。(詳細內容請點擊鏈接:ISAAC 機器人 SDK 詳情)
其他領域進展
云渲染平臺:現場,黃仁勛宣布瑞云云渲染平臺將配備 NVIDIA RTX GPU,首批 5000 片 RTX GPU 將在 2020 年上線。其中超過 85%的中國電影工作室都是瑞云的客戶,《戰狼 2》、《哪吒》和《流浪地球》就是出自其手,堪稱全亞洲最大的云渲染平臺。
建筑行業(AEC):黃仁勛還發布了面向 AEC 的 Omniverse 開放式 3D 設計協作平臺,本地和云端均支持在 AEC 工作流中增加實時協作功能,將支持 Autodest REVIT、Trimble SketchUP 和 McNeel Rhino 等主流 AEC 應用。NVIDIA Omniverse 是一個面向 3D 制作流程的協作平臺,基于 Pixar 公司的 Universal Scene Description 技術,并由 NVIDIA RTX 提供支持。
推薦系統 AI:AI 技術如今在數據分析和挖掘、高性能計算中發揮著更加重要的作用,英偉達已經推出了面向訓練、云端、終端、自動駕駛的 AI 平臺。AI 對于擁有大量數據的科技公司尤為重要,比如推薦系統,如果沒有推薦系統,人們無法從上萬億次網頁檢索、幾十億淘寶商品、幾十億抖音視頻、各種新聞中找到自己需要的內容。因此,一個能夠深度理解每一個用戶,在正確時間給出正確的推薦的推薦系統極為關鍵。
百度和阿里巴巴的推薦系統都在使用英偉達 AI 技術。
百度 AIBox 推薦系統采用英偉達 AI,100 多個推薦模型被使用在百度的眾多應用中。這個系統基于英偉達 Telsa v100 GPU,利用這些 TB 級的數據集去創建一個模型、在 GPU 上訓練這些數據,然后把它放到 GPU 的內存當中去訓練這種 TB 級別的數據,GPU 訓練成本只有 CPU 的十分之一,并且支持更大規模的模型訓練。
阿里巴巴搭建的推薦系統采用了英偉達的 T4 GPU,推薦系統的吞吐量得到了大幅提升。面對每秒幾十億次的推薦請求,CPU 速度只有 3 QPS,英偉達 GPU 則提升到了 780 QPS,提升百倍。(詳情請點擊下方鏈接:英偉達與阿里巴巴合作詳情)
NVIDIA Parabricks 基因組分析工具包:此外,英偉達還發布了基于 CUDA 加速的 NVIDIA Parabricks 基因組分析工具包,可與用于發現變異并能產生與行業標準 GATK 最佳實踐流程一致的結果,實現 30-50 倍的加速。英偉達正在與華大基因合作,使用 CUDA 的生命科學超級計算機,以每天 60 個基因組的超大吞吐量改變著全基因組測序,同時還降低了成本。
會后媒體采訪環節,英偉達自主機器產品管理部門主管 Murali Gopalakrishna 及英偉達企業市場兼開發者計劃全球副總裁 Greg Estes 介紹了英偉達在自主機器和深度學習學院(DLI)方面的進展。
針對英偉達自主機器平臺,Murali Gopalakrishna 介紹道:“英偉達自主機器平臺——NVIDIA Jetson 模塊可提供不同性能和價格水平的加速計算功能,以滿足多種自主應用程序的需求。Jetson 系列包含 Jetson Nano 模塊、Jetson TX2 模塊、Jetson Xavier NX 模塊以及 Jetson AGX Xavier 模塊等產品。
從制造到建筑,從醫療到配送,NVIDIA Jetson 平臺均能提供無與倫比的性能、能效和易開發性。每個系統都是一個完備的模塊化系統 (SOM),具備 CPU、GPU、PMIC、DRAM 和閃存,可節省開發時間和資金。Jetson 還具備可擴展性。只需選擇適合應用場合的 SOM,即能夠以此為基礎構建自定義系統,滿足特定的應用需求。”
DLI 部分,Greg Estes 表示,DLI 提供 AI、加速計算和加速數據科學方面的應用開發實踐培訓,以期解決實際應用方面的問題。基于云端 GPU 平臺,開發者、數據科學家、研究人員和院校師生可以獲取和豐富相關的實踐經驗,并獲得全球開發者培訓證書,為職業發展提供有力證明。所有課程可以長期、多次、反復學習和實驗。
個人學習可以從“在線自主培訓”開始。團體或企業培訓可以從“講師指導的培訓班”開始學習。DLI 同時為大學師生提供更多的培訓資源和支持。
寫在最后
可以看到,英偉達在本屆活動上大秀 AI、汽車、游戲、HPC 能力,同時宣布多個領域的朋友圈等生態進展。
作為迄今 AI 深度學習紅利的最大受益者,英偉達以高性能的軟硬件和系統為基礎,持續豐富其 AI 和自動駕駛生態,不斷尋找核心場景加速落地。
在“AI 復興”時代,英偉達在致力于成為“AI 引擎”的道路上馳騁著。
評論
查看更多