資料介紹
作者:安平博,Xilinx高級工程師;來源:AI加速微信公眾號
Schedule是和硬件體系結構相關的一些列優化,Halide在其文章中對其做了以下定義:
1 When and where should be the value at each coordinate in each function be computed?
2 Where should they be stored?
3 How long are values cached and communicated across multiple consumers, and when are they independently recomputed by each?
第一條是描述了數據計算順序對性能的影響,第二條是數據的存儲位置對性能影響,最后一條是多線程處理過程中,不同線程數據應該如何進行交互。
參考文章:https://zhuanlan.zhihu.com/p/94846767,常用的shcedule有:
1 cache_read
將數據存儲到片上緩存,減少訪問數據時間。
2 cache_write
將結果寫入片上緩存,然后再寫入片外緩存。當然這里的片上和片外并不是絕對的概念,也可以理解為不同層次的存儲結構。
3 set_scope
為數據指定存儲位置,相比于cache_read和cache_write提供了更靈活的指定數據存儲方式。本質上是相同的。
4 storage_align
在我看的文章中,storage_align是針對GPU shared memory的一個優化,目的是為了減少同一個bank的訪問沖突。在GPU中shared memory被分割成多個bank,這些bank可以被獨立線程同時訪問。Storage_align就是為了將數據和bank大小匹配,減少bank conflict的發生。AI芯片中也有類似的問題,只有盡量減少bank沖突的發生,才能最大化并行計算。
5 compute_at
不懂CUDA,所以對文章中的代碼不是很理解,但是從其解釋看,對于多次循環的計算(或者多維計算),可以通過并行計算來降維。
6 compute_inline
將獨立操作轉化為內聯函數,有點類似FPGA上的流水線計算。轉化成內聯函數從上層層面減少了stage。在FPGA中也有類似問題,可以將具有相同迭代的多條指令放在一起執行。
7 compute_root
Compute_at的反操作。
8 fuse
將多個循環iter融合為一個iter。
9 split
Fuse的反操作,將一次循環迭代拆分為多次。
10 reorder
調整循環計算迭代順序。
11 tile
Tile也是將循環迭代進行拆分,拆分多次計算。是split+reorder。
12 unroll
將循環展開,增加并發執行。
13 vectorize
將循環迭代替換成ramp,可以通過SIMD指令實現數據批量計算,也就是單指令多數據計算。這在AI加速中會很常用,每條指令都是多數據計算的。
14 bind
CUDA中使用的優化方法,將iter綁定到不同線程,實現并發計算。
15 parallel
實現多設備并行.
16 pragma
可以在代碼中人為添加編譯注釋,人為干預編譯優化。HLS中就是通過這樣的方式來實現c的硬件編程的。
17 prefetch
將數據計算和load后者store數據重疊起來,在FPGA中是很常見優化方法。
18 tensorize
將tensor作為一個整體匹配硬件的計算核心,比如一個卷積運算就可以實現在FPGA上的一個匹配。
文章https://zhuanlan.zhihu.com/p/166551011 是通過官網的一個例子來介紹schedule的。在這個例子中,首先利用te的節點表達式建立了計算函數,然后調用create_schedule來創建schedule實例,然后再調用lower函數實現schedule優化。代碼如下:
# declare a matrix element-wise multiply A = te.placeholder((m, n), nam) B = te.placeholder((m, n), nam) C = te.compute((m, n), lambda i, j: A[i, j] * B[i, j], nam) s = te.create_schedule([C.op]) # lower will transform the computation from definition to the real # callable function. With argument `simple_mode=True`, it will # return you a readable C like statement, we use it here to print the # schedule result. print(tvm.lower(s, [A, B, C], simple_mode=True))
我這里依然延續上一章的內容,看代碼中關于schedule的處理。
在上一章我們在codegen生成中,通過以下調用鏈轉到了schedule的處理。Codegen -> VisitExpr(CallNode* op) -> relay.backend._CompileEngineLower -> LowerInternal。LowerInternal函數為:
如果是外部定義的編譯器,就只是建立cache_node節點和cache_func。如果是使用內部編譯器,就會調用CreateSchedule建立schedule。接下來調用鏈為CreateSchedule -> ScheduleGetter.create -> te::create_schedule -> Schedule。create_schedule函數調用在文件re/schedule.h和te/schedule_lang.cc中。
create_schedule中主要有兩件工作:
1 創建ReadGraph,獲取post-dfs順序的算符圖。
2 初始化stage。
TVM中引入了stage的概念,一個op相當于一個stage,schedule優化是對stage的一個更改,可以增加,刪減,更改其特性等。
通過createReadGraph可以遍歷op圖,返回op和其依賴的tensor列表。和遍歷有關的主要函數為:
Op -> InputTensors -> PostOrderVisit -> IRApplyVisit,在IRApplyVisit中定義了VisitExpr和VisitStmt函數用于遍歷節點。
Stmt節點通常是節點中的主體實現,PrimExpr是TIR中節點的一個簡單表達式。比如if節點:
ReadGraph創建完成后,通過PostDFSOrder來獲取post-dfs列表,其函數具體實現在graph.cc中,
通過不斷迭代來進行深度優先搜索。
接下來是對stage進行初始化。
首先對postorder中的所有op初始化一個stage對象。我們看以下stage的定義:
Stage類中主要定義了set_scope, compute_at, compute_root, bind, split, fuse等幾種優化算法。同時定義了StageNode,在StageNode中定義了和優化相關的變量,包括op,iter變量等。看一下stage初始化代碼:
關鍵的幾個變量lef_iter_vars,all_iter_vars,這些有什么作用還需要深入看優化函數的代碼。我們看幾個schedule函數,先看一個最簡單的:compute_inline。代碼只有一行:
(*this)->attach_type = kInline
對于標記了kInline的節點,在lower的時候會進行處理。應該會將其直接和調用的節點結合,合并兩個op。
再看fuse函數,其代碼為:
IterVar表示計算中坐標軸,比如一個兩級循環,每級循環就是一個axis。從代碼中看出,fuse函數會對輸入的所有axis進行合并,用fused變量替換合并后的axis。
這塊代碼比較抽象,先熟悉以下流程,之后再深入讀一下。
- spring-schedule-admin(SSA)SpringSchedule管理插件
- 使用TVM在android中進行Mobilenet SSD部署
- 單片機學習(五)LCD1602和矩陣鍵盤的使用
- 基于LSTM網絡的在線學習課程推薦模型 6次下載
- 基于成對學習和圖像聚類的肺癌亞型識別 4次下載
- 基于預訓練模型和長短期記憶網絡的深度學習模型 19次下載
- 3小時學習神經網絡與深度學習課件下載 0次下載
- 在線學習的交互網絡模型和質量評價方法 11次下載
- 深度模型中的優化與學習課件下載 3次下載
- 電機學第五版電子書 0次下載
- Linux內核進程調度schedule深入理解的詳細資料說明 5次下載
- TVM學習(二):算符融合
- TVM學習(四)codegen
- TVM學習(三)編譯流程
- PSIM仿真入門學習-課件下載 186次下載
- SemiDrive X9 AI 開發環境搭建 175次閱讀
- 計算機視覺的五大技術 878次閱讀
- 人工智能深度學習的五大模型及其應用領域 2161次閱讀
- TVM編譯器的整體架構和基本方法 1825次閱讀
- 超詳細的嵌入式學習路線圖 3287次閱讀
- 編譯器中的圖論算法是什么 727次閱讀
- TVM學習之從relay到TOPI 1368次閱讀
- 從五個方面詳談機器學習和深度學習的區別 1.6w次閱讀
- 在云計算成功使用AI所需的五種機器學習技能 1403次閱讀
- 深度學習模型小型化處理的五種方法 4096次閱讀
- 學習電子應該學習什么?學習的順序應該是怎么樣的 9221次閱讀
- 人工智能明年的五個重要發展方向的預測概述 3183次閱讀
- 區塊鏈學習,五個基礎課程介紹 1.4w次閱讀
- 將TVM用于移動端常見的ARM GPU,提高移動設備對深度學習的支持能力 1w次閱讀
- 如何區分深度學習與機器學習 1891次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1491次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 95次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 4次下載 | 免費
- 8基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537793次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多