學(xué)芯片技術(shù)的機(jī)會(huì)來了!斯坦福大學(xué)2018秋季學(xué)期推出《機(jī)器學(xué)習(xí)硬件加速器》課程,深入介紹機(jī)器學(xué)習(xí)系統(tǒng)中設(shè)計(jì)訓(xùn)練和推理加速器的架構(gòu)技術(shù)。課程涵蓋經(jīng)典的ML算法,用于ML模型推理和訓(xùn)練的加速器設(shè)計(jì)等,超多專業(yè)材料和PPT,是本領(lǐng)域不可多得的專業(yè)課程。
本課程將深入介紹用于在機(jī)器學(xué)習(xí)系統(tǒng)中設(shè)計(jì)訓(xùn)練和推理加速器的架構(gòu)技術(shù)。本課程將涵蓋經(jīng)典的ML算法,如線性回歸和支持向量機(jī),以及DNN模型,如卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。我們將考慮這些模型的訓(xùn)練和推理,并討論諸如batch size、精度、稀疏度和壓縮等參數(shù)對(duì)這些模型精度的影響。我們將介紹用于ML模型推理和訓(xùn)練的加速器設(shè)計(jì)。學(xué)生將熟悉使用并行性、局部性和低精度來實(shí)現(xiàn)ML中使用的核心計(jì)算內(nèi)核的硬件實(shí)現(xiàn)技術(shù)。為了設(shè)計(jì)高效節(jié)能的加速器,學(xué)生們將建立直覺,在ML模型參數(shù)和硬件實(shí)現(xiàn)技術(shù)之間進(jìn)行權(quán)衡。學(xué)生將閱讀最近的研究論文并完成一個(gè)設(shè)計(jì)項(xiàng)目。
主講教師:
Kunle Olukotun
Kunle Olukotun是斯坦福大學(xué)電氣工程和計(jì)算機(jī)科學(xué)的Cadence設(shè)計(jì)系統(tǒng)教授,自1991年以來一直在該系任教。Olukotun以領(lǐng)導(dǎo)Stanford Hydra研究項(xiàng)目而著名,該項(xiàng)目開發(fā)了首批支持thread-level speculation的芯片多處理器。
Ardavan Pedram
Ardavan Pedram是斯坦福大學(xué)電氣工程系研究助理,與Kunle Olukotun教師合作的Pervasive Prallelism Laboratory (PPL)項(xiàng)目的成員。
特邀講師:
Boris Ginsburg, NVIDIA
Robert Schreiber, Cerebras Systems
Mikhail Smelyanskiy, Facebook
Cliff Young, Google
課程安排和閱讀材料
第1課:簡(jiǎn)介,摩爾定律和Dennard Scaling定律后硬件加速器的作用
閱讀:暗硅(Dark Silicon)有用嗎? Hennessy Patterson第7.1-7.2章
https://ieeexplore.ieee.org/document/6241647/
第2課:經(jīng)典ML算法:回歸、SVM
閱讀:TABLA:基于統(tǒng)一模板的加速統(tǒng)計(jì)機(jī)器學(xué)習(xí)的架構(gòu)
https://www.cc.gatech.edu/~hadi/doc/paper/2015-tr-tabla.pdf
第3課:線性代數(shù)基礎(chǔ)和加速線性代數(shù)BLAS運(yùn)算
20世紀(jì)的技術(shù):收縮陣列和MIMD,CGRAs
閱讀:為什么選擇收縮架構(gòu)?
www.eecs.harvard.edu/~htk/publication/1982-kung-why-systolic-architecture.pdf
高性能GEMM的剖析
https://www.cs.utexas.edu/users/pingali/CS378/2008sp/papers/gotoPaper.pdf
第4課:評(píng)估性能、能效、并行性,局部性、內(nèi)存層次,Roofline模型
閱讀:Dark Memory and Accelerator-Rich System Optimization in the Dark Silicon Era
https://arxiv.org/abs/1602.04183
第5課:真實(shí)世界的架構(gòu):將其付諸實(shí)踐
加速GEMM:定制,GPU,TPU1架構(gòu)及其GEMM性能
閱讀:Google TPU
https://arxiv.org/pdf/1704.04760.pdf
Codesign Tradeoffs
https://ieeexplore.ieee.org/document/6212466/
NVIDIA Tesla V100
images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
第6課:神經(jīng)網(wǎng)絡(luò):MLP和CNN推理
閱讀:IEEE proceeding
Brooks’s book (Selected Chapters)
第7課:加速CNN的推理:實(shí)踐中的阻塞(Blocking)和并行(Parallelism)
DianNao, Eyeriss, TPU1
閱讀:一種阻塞卷積神經(jīng)網(wǎng)絡(luò)的系統(tǒng)方法
https://arxiv.org/abs/1606.04209
Eyeriss:用于卷積神經(jīng)網(wǎng)絡(luò)的節(jié)能數(shù)據(jù)流的空間架構(gòu)
https://people.csail.mit.edu/emer/papers/2016.06.isca.eyeriss_architecture.pdf
Google TPU (see lecture 5)
第8課:使用Spatial建模神經(jīng)網(wǎng)絡(luò),分析性能和能量
閱讀:Spatial:一種應(yīng)用程序加速器的語言和編譯器
http://arsenalfc.stanford.edu/papers/spatial18.pdf
第9課:訓(xùn)練:SGD,反向傳播,統(tǒng)計(jì)效率,batch size
閱讀:去年的NIPS workshop:Graphcore
https://supercomputersfordl2017.github.io/Presentations/SimonKnowlesGraphCore.pdf
第10課:DNN的彈性:稀疏性和低精度網(wǎng)絡(luò)
閱讀:EIE:壓縮深度神經(jīng)網(wǎng)絡(luò)的高效推斷機(jī)(Efficient Inference Engine)
https://arxiv.org/pdf/1602.01528.pdf
Flexpoint of Nervana
https://arxiv.org/pdf/1711.02213.pdf
Boris Ginsburg:卷積網(wǎng)絡(luò)的Large Batch訓(xùn)練
https://arxiv.org/abs/1708.03888
LSTM Block Compression by Baidu?
第11課:低精度訓(xùn)練
閱讀:HALP:High-Accuracy Low-Precision Training
https://arxiv.org/abs/1803.03383
Ternary or binary networks
See Boris Ginsburg's work (lecture 10)
第12課:分布式和并行系統(tǒng)訓(xùn)練:Hogwild!,異步和硬件效率
閱讀:Deep Gradient compression
https://arxiv.org/abs/1712.01887
Hogwild!:一種并行化隨機(jī)梯度下降的Lock-Free 方法
https://people.eecs.berkeley.edu/~brecht/papers/hogwildTR.pdf
大規(guī)模分布式深度網(wǎng)絡(luò)
https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf
第13課:FPGA和CGRAs:Catapult,Brainwave, Plasticine
Catapult
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/Cloud-Scale-Acceleration-Architecture.pdf
Brainwave
https://www.microsoft.com/en-us/research/uploads/prod/2018/03/mi0218_Chung-2018Mar25.pdf
Plasticine
dawn.cs.stanford.edu/pubs/plasticine-isca2017.pdf
第14課:ML基準(zhǔn):DAWNbench,MLPerf
DawnBench
https://cs.stanford.edu/~matei/papers/2017/nips_sysml_dawnbench.pdf
MLPerf
https://mlperf.org/
第15課:Project presentations
更多閱讀材料:https://cs217.github.io/readings
課程PPT:https://cs217.github.io/lecture_slides
第一課對(duì)深度學(xué)習(xí)的發(fā)展、摩爾定律、Dennard Scaling、相關(guān)理論方法等做了較為詳盡的介紹,非常干貨,下面附上第一課的PPT。
深度學(xué)習(xí)的挑戰(zhàn):深度學(xué)習(xí)存在理論嗎?
-
加速器
+關(guān)注
關(guān)注
2文章
796瀏覽量
37838 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132558
原文標(biāo)題:斯坦福2018秋季課程大放送!深入淺出帶你玩轉(zhuǎn)機(jī)器學(xué)習(xí)加速
文章出處:【微信號(hào):gh_ecbcc3b6eabf,微信公眾號(hào):人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論