Nsight Compute 的這一版本擴展了現有的重播模式,提供了范圍重播的高要求功能。 Range Replay 捕獲并重放分析應用程序中 CUDA API 調用和內核啟動的完整范圍。度量與整個范圍相關聯,而不是單個內核。這允許該工具在不序列化的情況下執行內核,并支持出于正確性或性能原因而需要并發運行的評測內核。范圍由起點和終點標記組成;并包括所有 CUDA API 調用和從任何 CPU 線程在這些標記之間啟動的內核。
范圍標記可以使用以下任一方法定義:
分析器啟動/停止 API
NVTX 系列圖 1 。范圍回放可視化:捕獲范圍后,每個過程都會收集整個范圍的性能信息。
記憶分析
在 A100 上評測時,內存分析部分中的一個新二級緩存收回策略表可以幫助您了解各種 緩存逐出策略 的訪問次數和達到的命中率。在同一部分中,二級緩存表現在有一個新的 ECC 行,用于顯示通過在 GPU 上啟用硬件糾錯代碼而創建的流量。
圖 2 。內存工作負載分析表的改進: ECC 和二級緩存逐出策略信息。
引導分析
Nsight Compute 現在通過在打開報表時在摘要和詳細信息頁面之間動態選擇,可以更輕松地在多結果集合中選擇初始分析目標。規則被擴展以檢測非融合浮點指令作為優化機會。最后,但并非最不重要的一點是,當觸發未恢復的內存訪問規則時,它們會顯示一個包含五個最有價值實例的表,從而更容易在源頁面上檢查和解決它們。
圖 3 。打開多結果報告現在會顯示摘要頁面,允許您對結果進行排序并決定優化順序。
圖 4 。這兩種未恢復的內存訪問規則都以更簡潔、更有序的格式呈現結果。
其他改進
進一步的改進包括 Occupancy Calculator 自動更新。源頁面中 Register Dependency 列還有一個新的“執行的線程指令”度量和注冊名工具提示,以及 NVLink 更新。
關于作者
Chaitrali Joshi 是 NVIDIA 的產品營銷經理,專注于電信 5G 系統的設計和開發。她對網絡空間有著深入的了解,是移動通信系統和云棧方面的專家。在英特爾之前,她是一名領導,向開發人員宣傳電信技術和邊緣計算技術。她獲得了加利福尼亞大學計算機科學碩士學位,戴維斯專注于軟件定義的網絡和多址邊緣計算( MEC )。
Jackson Marusarz 是 NVIDIA 計算開發工具的產品經理。他關注如何使用工具使所有開發人員能夠輕松高效地評測、調試和優化 CUDA 代碼。杰克遜擁有 Boulder 科羅拉多大學計算機工程碩士學位。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5026瀏覽量
103280 -
gpu
+關注
關注
28文章
4754瀏覽量
129083 -
代碼
+關注
關注
30文章
4803瀏覽量
68760
發布評論請先 登錄
相關推薦
評論