NVIDIA 作為一家全棧式 AI 計算平臺的賦能者,致力于推動全球性的人工智能和科學計算的發展,通過推廣高性能技術應用為社會發展做出積極貢獻。尤其在國內高等教育領域,十多年來 NVIDIA 一直努力為眾多高校提供培養下一代加速計算技術人才的 CUDA 教學相關資源。CUDA 編程技術人員現在已經成為業界在高性能計算及 AI 開發及應用領域內的主流技術支撐。
為了能夠讓與加速計算相關的高校學生能夠及時了解最新的 CUDA 編程技術的發展與變化,我們發起了 CUDA 線上訓練營公益活動,以增加學生學習及體驗最新技術的機會,同時拉近教學與市場應用的距離。幾年來的活動實施效果得到了業界的肯定與認可,CUDA 線上訓練營的教材被應用到了高校的教材里面,甚至被采納作為教學實驗課。
2023 NVIDIA &創樂博 CUDA 線上訓練營由 NVIDIA 發起,由創樂博冠名贊助,旨在幫助初學者學習如何在 GPU 上快速加速代碼,掌握 CUDA 編程的基本概念和技能。
NVIDIA 工程師將通過為期 5 天的時間,系統性地介紹 ARM 嵌入式平臺的特色,以及在該平臺上如何實現 CUDA 并行加速計算。通過四大模塊的學習,并搭配豐富的線上實驗環節,讓學生們掌握基于Arm 的 Jetson 開發環境和 GPU 異構計算原理,了解 CUDA 編程模型,包括線程組織和 CUDA 存儲單元,以及如何利用共享存儲單元優化應用等。每次課程介紹完,會提供相應的編程實例,讓學生在實際操作中理解概念。
訓練營的最終目標是幫助學習者建立對 GPU 編程的信心,為此,還將建立專門的 CUDA 學習線上微信群。邀請 CUDA 編程專家在線回答同學們的問題,輔導同學們進行線上實驗。
高效學習 GPU 編程
職業生涯快人一步!
?
報名須知
報名時間:即日起– 7月23日
訓練營時間:7月24日– 7月28日
線上結業考試時間:7月29日09:00 AM – 12:00 AM
報名鏈接:識別海報二維碼或點擊閱讀原文。
報名后請添加微信號【社區助教】:gpusupport,確認報名費繳納事宜;同時助教會拉您進入相應的微信群。
?
招生要求
?本課程需要學員具備一定的 C/C++ 程序設計基礎。
?收費班:
主辦方提供 Jetson 云平臺,參加者無需準備開發環境,只需要通過自己普通電腦的瀏覽器遠程訪問 Jetson 計算平臺進行學習。為了確保學習效果,將對每位參加者收取 100 元的報名費。完成了每日的學習打卡任務,將原路退回 100 元。
此班級只針對在校學生。
人數限制 100 名。
?旁聽班:自己準備 GPU 電腦,自行安裝 CUDA 環境。
此班級面向所有開發者。
人數無上限。
?兩個班級都會安排上機考試,通過考試,可以獲得結業證書。
?
課程亮點
?介紹高性能計算基礎編程模型 CUDA 的基本編程原理。?在結合 Arm CPU 和 GPU 的實驗平臺上完成動手實踐。?內容和應用相結合,將介紹如何利用 CUDA 完成光影渲染、信號處理、深度學習的網絡搭建等熱門案例。?6次實驗課, 幾千行實驗代碼, 讓學生在動手實驗的過程中了解GPU加速的原理和方法。?完成課程結業測試,NVIDIA 企業開發者社區將頒發結業證書和紀念徽章。 ?指導老師
何琨(Ken He)
NVIDIA 企業級開發者社區高級經理,擁有多年的 GPU 和人工智能開發經驗。自 2017 年加入 NVIDIA 開發者社區以來,完成過上百場培訓,幫助上萬個開發者了解人工智能和 GPU 編程開發。在計算機視覺,高性能計算領域完成過多個獨立項目。并且,在機器人和無人機領域,有過豐富的研發經驗。對于圖像識別,目標的檢測與跟蹤完成過多種解決方案。曾經參與 GPU 版氣象模式 GRAPES,是其主要研發者。
李奕澎
NVIDIA 企業開發者社區經理,擁有 4 年數據分析建模開發經驗,3 年人工智能自然語言處理開發經驗。在自動語音識別、自然語言處理、自然語言理解等技術有著豐富的實戰經驗與見解。
?訓練營日程安排
Day1 - 7月24日
910 開營
NVIDIAGPU 應用市場總監侯宇濤致辭
創樂博 介紹
1.Jetson 開發環境介紹,Linux 系統簡介(1.1 理論課+實驗課)
介紹實驗平臺,介紹 Linux 編譯的基本技巧,介紹基本的開發環境
實驗課:Makefile 文件編寫規范
2. GPU 架構及異構計算
介紹 GPU 架構以及異構計算的基本原理
介紹 GPU 硬件平臺
介紹基于 Jetson的嵌入式平臺 GPU 架構和編程模型之間的關系
最新的 GPU 應用領域,GPU 在現代計算機科學中的通用性
3. CUDA 編程模型 — 初識 CUDA
CUDA 程序的編譯
GPU 線程的調用
GPU和 CPU 的通訊
使用多個線程的核函數
使用線程索引
多維網絡
網格與線程塊
利用 NVProf 查看程序執行情況
實驗課內容:編寫程序 HelloCUDA,并且利用 NVCC 編譯。編寫 VectorAdd 多線程程序,和多維網絡線程程序,并用 nvprof 來測試不同設置情況下運行速度。
Day2- 7月25日
930(1100 午休)
4. CUDA 編程模型 — CUDA 存儲單元的使用與錯誤檢測
設備初始化
GPU 的存儲單元
GPU 存儲單元的分配與釋放
數據的傳輸
數據與線程之間的對應關系
CUDA 應用程序運行時的錯誤檢測
CUDA 中的事件
利用事件進行計時
實驗課內容:編寫 MatrixMul 程序,體驗線程和數據的對應關系
留課后作業
5. 多種 CUDA 儲存單元詳解
CUDA 中的存儲單元種類
CUDA 中的各種存儲單元的使用方法
CUDA中的各種存儲單元的適用條件
6. 利用共享存儲單元優化應用
共享存儲單元詳解
共享內存的 Bankconflict
利用共享存儲單元進行矩陣轉置和矩陣乘積
實驗課內容:編寫 Shared Memory 優化過的矩陣乘法
介紹 sharedmemory 原理,介紹利用 sharedmemory優化的多種案例
矩陣轉置
Day3- 7月26日
930(1100 午休)
7. CUDA 編程模型 — 原子操作
CUDA 中的原子操作
原子操作的適用場景
利用原子操作優化程序
規越算法的實驗
8. 基于 ARM 平臺的 Jetson Nano存儲單元調用
基于 ARM 平臺的 Jetson Nano 的存儲單元特點
統一內存的基本概念
如何更有效的利用 Jetson 的存儲單元
實驗課內容:編寫 MatrixMul 程序,體驗統一內存的使用方法
介紹基于 Jetson 平臺的共享存儲單元的特點,介紹 Jetson 平臺 SoC DRAM memory 的應用
Day4- 7月27日
930(1100 午休)
9. CUDAstream
CUDA 流的基本概念
默認流與非默認流
利用 CUDA 流重疊計算和數據傳輸
實驗課內容:體驗利用流來減少運行時間
介紹 CUDAstream,介紹利用 stream 分割處理的加速方案,介紹利用 stream 處理超大數據的加速方案
10. CUDA 加速庫介紹:Thrust,cuBLAS,cuFFT,CV-CUDA
cuBLAS 介紹
cuFFT 介紹
Thrust 介紹
CV-CUDA 介紹
完成多種庫(開源項目)的實例應用
Day5 - 7月28日:線上答疑
Day6 - 7月29日:線上課程結業考試
?
關于考核
1. 完成所有的理論和上機實驗,并完成小程序打卡。
2. 完成課后線上答題。
3. 所有課程結束后完成三個考題,每個考題為完成一段程序,由易到難。
三組都完成的視為合格
考試時間:7月29日 09:00 Am—12:00 Am
?教材資源
訓練營教材:《CUDA ON ARM PLATFORM訓練營》自編教材
參考書目:樊哲勇《 CUDA 編程:基礎與實踐》清華大學出版社出版時間:2020-10-01
NVIDIA 官方文檔:CUDA C++ Best Practices Guide
(https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html#abstract)
NVIDIA 官方文檔:CUDA Programming Guide(https://docs.nvidia.com/cuda/#programming-guides)
立即掃描下方二維碼報名,學生報名僅限 100 席,先到先得!
原文標題:開發者活動 | 2023 NVIDIA & 創樂博 CUDA 線上訓練營火熱報名中
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3780瀏覽量
91219
原文標題:開發者活動 | 2023 NVIDIA & 創樂博 CUDA 線上訓練營火熱報名中
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論