在本屆Hot Chips大會上,AI 仍是主角,但 AI芯片設計已經不是主角,從一個新穎的話題變為了成熟的工程。本文作者姚頌是賽靈思 AI 業務高級總監、原深鑒科技聯合創始人,他用近萬字洋洋灑灑分享了對這次大會的觀察與思考,必須收藏細讀!
2019 年 8 月 19 日到 21 日,第 31 屆 Hot Chips 大會在斯坦福大學成功舉辦。從 2016 年開始,這是我參加的第四屆 Hot Chips。在之前的三屆 Hot Chips,有兩次我作為演講者參與(2016 年與 2018 年),有一年作為展商參與(2017 年),這一次是第一次沒有任何任務來參加 Hot Chips,終于可以安心地聽取報告、進行學習。
而在之前 Hot Chips TPC meeting 剛結束時,已經從幾位技術委員會的成員那里聽說今年的競爭異常激烈,Xilinx 的同事 Ralph Wittig 更是評論,這一屆 Hot Chips 的論文質量是他覺得過去十年中最好的,讓人不由得對本次 Hot Chips 充滿期待。
本次大會確實是有非常多非常扎實的工作,也展現了整個處理器與高性能芯片領域行業的趨勢與變化。本系列文章將介紹我在 Hot Chips 大會上的幾點觀察與思考,涵蓋以下幾點內容:
Cerebras 其實是在幫大家追求心中的夢想,祝福,但也存在挑戰;
AI 仍是主角,但 AI 芯片設計已經不是主角,從一個新穎的話題變為了成熟的工程;
異構是大勢所趨,無論賽靈思還是英偉達,都在持續前進;
安全是一個越來越重要的話題;
FPGA 在各種不同應用中扮演著重要角色;
集成電路工藝演進:未來越來越難,但一定會有突破。
文章也將介紹一些 Hot Chips 會議上發生的趣事。未經特別說明,圖片均來自于本人在 Hot Chips 拍攝的照片。
本文作者姚頌是賽靈思 AI 業務高級總監、原深鑒科技聯合創始人
No.1Cerebras: 會議最大熱點
本屆 Hot Chips 最大的亮點,毫無疑問是 Cerebras 的wafer-scale engine (WSE)。我們通常的芯片,一片 wafer 可以切出幾十到上萬片不等的芯片,而為了追求極致的性能、最大的片上存儲,Cerebras 選擇了一條極端的路線,讓整片 wafer 就是一片芯片。當 Cerebras 的聯合創始人 Sean Lie 拿出樣品實物的時候,會場里響起了掌聲,這也是本次大會唯一一次不是在報告開始與結束時候禮節性的掌聲。
WSE 芯片,由 12x7=84 個 die 組成,共有 40 萬個為深度學習優化的計算核,片上存儲達到了驚人的 18GB,超過了很多電腦的內存大小。這樣一顆芯片,在我眼里是有特殊的美感的:如同看到長城和金字塔,這樣在技術水平極其低下時,似乎人類無法實現的杰作;也如同看到了蒸汽朋克電影中的龐然大物,復古而雄偉;又如同最為精密和復雜的機械表,無數精巧的結構讓人感嘆。這是在大的范式沒有改變的情況,當前工程技術可以做到的極限了。
Cerebras 的報告是極少數全篇沒有任何性能數字的報告,只有一句話 “It’s working”。這樣一篇論文能夠被 Hot Chips 錄用來進行報告,足見其受到的關注和重視。而我個人有一個習慣,除了認真聽別人說做了什么,更會去想他們沒說什么。而在這次,他們只說了 “It’s working”,而并沒有說 “It’s working well”,也許就是在暗示些什么。
Cerebras 的 WSE 芯片仍然是有非常多待解決的問題的:
(1) 這樣一片芯片,盡管做了很多的容錯設計,其良品率怎樣,仍然是一個疑問;
(2) 傳說中 15kw 甚至 50kw 的功耗,怎樣去實現良好的散熱;
(3) 整個芯片由 12x7 個 die 組成,die 之間的通信是與臺積電聯合研發的新型工藝,其效果如何;
這樣許許多多的問題,都值得追問下去,而在報告現場,盡管 PPT 上有相關的頁來闡述是用怎樣的思路來解決,但是 Sean 基本上是一帶而過,沒有介紹任何細節,這也不由得不讓人猜測,在這些地方,可能仍然存在著非常多的技術問題需要解決。
對于我個人來說,我非常佩服 Cerebras 的 CEO Andrew Feldman 這樣一位有魄力、有遠見的成功的連續創業者:他曾經做過四個公司,都以上市或者并購成功退出。我也非常佩服包括 Sean Lie 在內的 Cerebras 的工程師,勇于挑戰最極致的技術路線。任何一條技術路線走通都非常不容易,希望 Cerebras 能夠一個一個解決路上的技術難題,這不僅僅是 Cerebras 一家公司的事情,也是所有有技術信仰的芯片行業工程師與研究者的共同心聲 —— 大家沒有機會和財力去做這樣一件激動人心的事情,希望你們能做好!
No.2AI 芯片從火熱到理性
Cerebras 是本次報告最大的亮點,也是被大家關注最多的 “AI 芯片” 的代表。然而,實際上本次大會,AI 芯片的設計本身,已經不是被大家關注的重點了 —— 更進一步說,實際上從 2017 年到現在的兩年間,純數字電路的 AI 芯片的發展已經幾乎停滯了,除了 sparsity 和 low-bit(比如 1bit 網絡,或者 tenary 網絡),在 AI 芯片,很少聽到新的題材了。
本次大會特斯拉的報告,也充分體現了這一點:許多人最開始對于特斯拉的報告 “Compute and redundancy solution for Tesla’s Full Self driving computer” 充滿期待,因為這是少有的可能能介紹完整自動駕駛系統設計的報告,而結果卻令人失望:整個報告花了 80% 的時間,在介紹底層架構怎樣設計,卷積計算的流程如何,指令集如何設計,pooling 單元如何設計,而在介紹這些設計的時候,許多抬頭聽報告的人,都將視線轉向了筆記本電腦或者手機。另一個更直觀的體現是,在報告結束后的 Q&A 環節,提問者的問題都在關注在自動駕駛系統中,兩片特斯拉自動駕駛芯片是如何配合的,如果真的發生了錯誤,是如何進行糾錯的,而沒有人再去拘泥于底層架構設計。
此次 Hot Chips 仍然有不少 “AI 芯片” 的報告,阿里,華為,Cerebras,Habana(一家以色列不錯的創業公司),Tesla,nVidia,Xilinx,Intel,Princeton,然而,每一項工作都是在底層架構設計之外,還有更大的亮點:
阿里實現的應用是少見的 text-to-speech,從文本到聲音合成,而不是傳統的 CNN 和 LSTM 加速;華為的達芬奇芯片做了 logic die 與 HBM 的直接堆疊,而不是傳統高帶寬芯片的 2.5D interposer 的模式,Cerebras芯片是最極端的 wafer-scale 芯片,Tesla是帶有冗余設計的自動駕駛系統,nVidia是 NoC+NoP 的可擴展架構,Xilinx是全新的 Versal 芯片與擁有更多可編程性的 AI engine 一起,Princeton的研究工作是用 SRAM 做 in-memory computing。
此次 Hot Chips 大會的情況也充分說明,AI 芯片的技術噱頭時代已經過去,越來越多的人在考慮,怎樣去改變當前的范式,用更新的底層技術去實現更好的性能;是否能夠真的做出可量產的芯片,之后怎樣去和應用更好的融合,實現一個整體好用的系統。在單純數字芯片模式下,單純新的體系結構的創新,已經無法帶來任何新的機會了 —— 我們必須進一步向前看。
No.3 異構計算:大勢所趨
異構計算,Heterogeneous Computing, 不是一個新鮮的話題,然而真正出現大量使用的異構計算平臺,卻是從近幾年的事情了。異構最重要的涵義,是系統由多種不同功能的部分組成,讓每個部分做它最擅長的事情,而不是用統一的平臺來做所有的事情。
異構計算的興起,與 AI 芯片的興起,本質上都有一個核心原因,摩爾定律的放緩甚至結束(摩爾定律的話題也是一個稍有爭議的話題,在 Philip Wong 教授的 Keynote 中,他認為摩爾定律 “well live”,這一點我們在下個部分中再討論)。
在過去幾十年,芯片性能的增長,過半是由于制造工藝的進步帶來的。在上圖AMD CEO Lisa Su的報告中,也可以看到對于 GPU,過去十年性能進步最重要的因素,也還是制造工藝的進步,占到了 40%。而隨著摩爾定律的放緩,由制造工藝帶來的進步越來越小,我們必須更多地依賴微架構(也即圖中占比 17% 的 Microarchitecture 部分)和系統層面的進步來實現整體的進步。而這其中,最直接的方式,就是設計 Domain-specific architecture(DSA),放棄一部分通用性,來獲得更大的性能提升。通常而言,越專用,通用性越差,越容易取得更好的性能。
也正因為此,我們看到了 GPU 在圖像渲染上碾壓 CPU,我們看到了在不同通用性層次支持深度學習的各類 DPU/NPU/NNP/MLU/DLA/VPU。比如,我們可以選擇支持各類機器學習算法、而不僅僅是深度學習的 MLU,也可以選擇只支持深度學習推理的 DPU,而如今又出現了不少專注在深度學習訓練的專用芯片。
(在 2017 年 3 月 GTIC 會議報告的 PPT 截圖)
2018 年 3 月份在智東西組織的 GTIC 大會上,我曾經講過一個和 nVidia VP of BD,Jeff Herbst 的小故事。在 2017 年 Hot Chips 期間,我約著去拜訪了 Jeff,也一起吃了個晚餐。在聊到對于 AI 芯片未來產品時候,我說 “I bet that you will sell a chip with no GPU in two years”,我打賭英偉達會在兩年內賣一顆沒有 GPU 的芯片。但是沒想到其實英偉達的新產品來得如此之快:在 2018 年 2 月的 CES,英偉達 CEO 黃仁勛就公布了面向自動駕駛的 Drive Xavier 芯片,號稱 30T 算力,30W 功耗。但是當我們認真的看 PPT 上的數字時候會發現,這 30T 算力,有 10TOPS INT8 來自于 DLA,有 20TOPS 來自于 Tensor Core,都不是傳統的 GPU。GPU 部分只有 512 個 CUDA core,只有 1.3 CUDA TFLOPS。也就是說,這個 GPU 的算力幾乎可以忽略不計,可能只是用來做大屏幕顯示的。在我和 Jeff 見面僅僅半年之后,遠沒有到兩年,nVidia 就已經開始推出幾乎沒有 GPU 的芯片了,而似乎許多人沒有注意到 —— 這也充分說明了軟件接口的重要性,當 nVidia 把所有的都做成兼容 CUDA,再加上上層的 Library 和各類 Framework 進行封裝,大家已經關注不到底層的改變了。
(HotChips 31 現場 nVidia 的報告)
在這次 Hot Chips 大會上介紹的Turing GPU,雖然還掛著 GPU 的名字,其實也已經是一顆異構計算芯片,不僅僅是傳統那些 SIMD 單元,總共由 Turing SM, RT Core,與 Tensor Core 三個部分組成。報告人 John Burgess 介紹,傳統做光線追蹤,對于每一條光線,要反復花費數千個時鐘周期,才能正確計算和物體的交界點在哪里,而一次渲染會有非常多條光線要計算,因此他們才想要設計 RT Core 來專門解決光線追蹤的問題。這就是典型的異構與 DSA 解決問題的方式:為一個計算復雜的任務設計專用加速器,用異構的系統來做整體的計算。
(HotChips 31 現場 Xilinx 的報告)
而異構計算一個特別極致的案例就是 Xilinx 本次介紹的Versal,Xilinx 的第一款 ACAP 產品。Versal 上同時有兩個 arm A72 核,兩個 arm R5 核,可編程邏輯也即 FPGA,還有 AI Engine 與 DSP Engine!這樣一顆芯片,可以將應用做非常細致的拆分,AI 部分在 AI Engine 上,信號處理部分在 DSP Engine 上,主控和通用計算部分在兩個不同的 CPU,其他需要加速但不能很好利用 AI Engine 與 DSP Engine 的部分在中間的可編程邏輯上。這種感覺就很 “分而治之”,又很像經濟學上的 “價格歧視”—— 同樣的產品,為不同購買力的人群分別制訂他們能接受的最高價格,整體獲得的收益會更大。在這里,我們是,同樣一顆芯片,但是為不同應用分別劃出專用的一塊區域,去實現最好的性能。
毫無疑問,越來越異構化的芯片會是大勢所趨。但是,實際上,背后依然有非常多的問題,比如,系統與應用層面的考慮,比如,軟件編程的問題。當 DSA 越來越專用,必須去考慮整個芯片是否合適于使用的應用,必須有更多和行業結合的軟件,而不僅僅只是像原來一樣提供一個通用的平臺而已。而復雜異構系統的編程開發,在業界依舊是一個沒有完全解決好的問題。對于這樣一顆異構芯片,我怎么去找到每個部分是否適合某個任務,是手動地劃分任務、為不同部分單獨編程再拼到一起,還是統一的軟件界面去編程、之后自動映射?還有很多問題需要去解決。
No.4安全,是一個越來越重要的話題
在 2018 年初,CPU 行業曝出了兩個巨大的安全漏洞,“Spectre” 和 “Meltdown”,其核心原因是因為為了追求更好的性能,CPU 做了很多的優化工作,比如分支跳轉預測,和亂序執行,而不是順序的一條一條執行指令,執行到了再去內存里讀取數據。而近幾年也有一個很大的趨勢,就是原來僅僅用在支付等場景的 https 協議,開始被越來越多的使用,大部分主流網站,比如常用的百度,微博,等等,已經全站都是 https 化了。哪怕我不是一個安全方面的專家,但是我也能感受到,各方面的因素,讓 “安全” 這兩個詞變得越來越重要:我們希望在云計算上運行的任務是安全的,我們希望存儲在云端的數據是安全,我們希望與服務器的通信是安全的。
(HotChips 31 Tutorial來自微軟 Azure 團隊的報告)
(HotChips 31 Tutorial來自 AWS 團隊的報告)
在本次 Hot Chips 大會,我們明顯也看出了各家互聯網公司與芯片公司對于安全的重視,并且把加密變成了產品流程中的重要一環。如上兩圖,在微軟的 tutorial 中,微軟介紹了自己正在開發了Corsica 芯片,將文件的壓縮解壓縮與加解密做到了一起。AWS 的Nitro 項目中,也開發了自己的安全芯片。而在 Intel 的Optane 項目中,加解密也已經融合到了存儲一體。
可以想象,未來的存儲一定是和加解密融合到一體的。我們也可以猜想,平頭哥是不是也會做阿里自己的安全芯片?
No.5兩個彩蛋
在 Hot Chips 會場拍攝的兩張照片,總計將四位大咖拍攝進去了,大家都認出來了嗎?
No.6 黃漢森報告回顧:摩爾定律沒有終結
“在互聯網領域,阿里、騰訊像兩座大山橫貫在路上,利用其強大的資金、技術與產品能力、渠道、用戶等等優勢阻擋住了無數的創業公司。許多成長起來的后起之秀,都是找到自己的途徑去規避巨頭的最強點:京東自建物流,拼多多充分發掘下沉市場,今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領域,我們終于也有了類似的感受,但許多企業還做著想正面直接挑戰巨頭的計劃。而先進工藝下芯片的制造成本,也成了創業公司很難邁過去的一道坎。”
在Hot Chips 31 大會觀察與思考系列文章的最后部分,我想結合 Philip Wong 老師的 Keynote,一起討論一下集成電路制造工藝演進的問題,也想談一下我自己關于制造工藝對于 AI 芯片創業企業的影響。
在去年 8 月,斯坦福大學著名教授 Philip Wong(黃漢森,以下簡稱黃教授)確認加入臺積電,擔任研究副總裁,在業界傳為佳話,讓大家覺得又是一例產學研結合的典型案例。黃教授多年來在存儲領域有非常深的建樹,也在碳納米管器件領域有著深入的研究,他的加盟毫無疑問說明 TSMC 會在存儲方面更下功夫。
黃教授一上來便拋出了他最重要的主題,他說:
“Moore’s law is not dead, is not slowing, is even not ill. It’s well alive!”
(摩爾定律沒有終結,也沒有放緩,更沒有生病。摩爾定律活得好好的?。?/p>
在之后,他介紹了臺積電在工藝節點演進上的路線圖與展望,并且闡述了三條他認為可以繼續延續摩爾定律的技術路徑:
1. 系統集成的方式,如用 interposer 的方式將 SoC 與 DRAM 可以集成在一起,如 SiP,如 Chiplet;
2. 更進一步存儲與計算的集成,比如直接將存儲與計算部分在垂直方向上進行堆疊,采用更細致和極致的堆疊方案 N3XT;
3. 新的底層材料和技術,比如碳納米管。
特別地,他強調了半導體技術的演進,總是被不斷變化的應用需求所引領的,如上個世紀 80 年代到 2000 年的 PC / 互聯網,到 21 世紀至今的移動互聯網,在新的時代我們也會更多的去關注 AI 與 5G 的底層需求。
No.7制造工藝之于 AI 芯片
黃老師有理有據地闡述了他的觀點:摩爾定律很健康!然而俗話說 “屁股決定腦袋” ,他這樣說,我們就無從知道,有多少比例的原因是他正在臺積電擔任集團研究副總裁。
如在 AMD CEO Lisa Su 的報告中,就已經畫出來了工藝演進的曲線,可以看到 10nm 與 7nm 工藝的發展速度已經很大程度上偏離了原來的 projection。雖然系統級封裝,利用 Interposer 方式將 HBM 與計算部分集成到一起,大大提升了存儲帶寬,但是這并不是集成密度的提升。
而芯片制造工藝對于行業影響最大的,并不只是放緩,其制造成本也有非常大的影響:對于晶圓廠和 Fabless 設計公司均是這樣。
對于晶圓廠來說,7nm 等先進工藝生產線動輒數十億美金的投資是一筆巨大的負擔。于是我們看到,在 2018 年 8 月,第二梯隊的晶圓廠聯電、Global Foundries 先后宣布放棄 7nm 工藝。在整個市場上,擁有最先進生產工藝的代工廠,只剩下了臺積電、Intel 和三星。
對于 Fabless 的芯片設計公司,問題同樣巨大。對于臺積電 28nm、16nm、7nm 的芯片來說,要完成一顆芯片的量產,其 IP 購買、MPW、量產的成本在數百萬美金,千萬美金,億美金以上 —— 如果考慮人員成本、設備成本等等的,這個數字還會高上不少。這就導致只有出貨量極大、收入極高的幾家大廠能夠負擔得起最先進工藝。比如大家耳熟能詳的聯發科,如今也只能先使用著臺積電的 12nm,而不能像高通和海思一樣使用 7nm 工藝。
先進制造工藝的成本問題,對于 AI 芯片創業公司也有很大影響。一般的 AI 芯片創業公司,可能只能負擔得起 28nm 工藝,或者說最開始只敢用 28nm 工藝進行嘗試。融資足夠多的 AI 創業企業才能嘗試得起 16nm 工藝的生產費用。在全球數十家 AI 芯片創業公司當中,我只聽說過有一家敢于去使用 7nm。
如地平線在周五發布的征程二代芯片,就是使用的臺積電 28nm 工藝(雖然 28nm HPC + 是多次改進的版本,不展開詳細介紹),這也是大部分嵌入式 / 終端 AI 芯片目前選擇的制造工藝;在 Hot Chips 上吸引了眾多眼球的 Cerebras 與 Habana,均采用的 16nm 工藝 —— 而這也是迫不得已,因為他們的應用場景在云端,必須追求極限的高性能,所以必須使用能負擔得起的最好的工藝,也必須選擇 HBM 或者更加極端的存儲方案(如 Cerebras 使用的 Wafer-scale engine,采用 18GB SRAM,單片成本據說在 100 萬美金左右)。
這就導致一個巨大的問題:CPU 與 GPU 的競爭中,CPU 并不能憑借制造工藝的優勢,來彌補通用性帶來的性能不足,因為二者并無制造工藝上的代差,對于特定應用,性能差距本來也很大;而大公司與 AI 芯片創業公司之間財力的差距,導致大公司的芯片可以選擇更先進的制造工藝,而 AI 芯片創業公司卻只能負擔得起相對成熟的工藝。這樣的話,即便在體系結構設計上,AI 芯片創業公司的芯片在特定任務上有數倍的優勢,也可能被制造工藝的差別給抹平。大公司可以通過制造工藝的碾壓,獲得更好的性能,再通過其通用性和原有的渠道、用戶生態的優勢,賣出更多的芯片來收回成本。
在互聯網領域,阿里、騰訊像兩座大山橫貫在路上,利用其強大的資金、技術與產品能力、渠道、用戶等等優勢阻擋住了無數的創業公司。許多成長起來的后起之秀,都是找到自己的途徑去規避巨頭的最強點:京東自建物流,拼多多充分發掘下沉市場,今日頭條用推薦引擎取代搜索引擎。在 AI 芯片領域,我們終于也有了類似的感受,但許多企業還做著想正面直接挑戰巨頭的計劃。而先進工藝下芯片的制造成本,也成了創業公司很難邁過去的一道坎。
沒有機會了嗎?也不是。發掘巨頭沒有覆蓋到,但是有潛力的新市場,也許機會正在打開,如拼多多一般;用新的底層技術,如存內計算,去獲得數量級的提升,而不是在原來傳統數字芯片上硬拼,就好像抖音用短視頻取代了長視頻與圖片文字的社區;在具體的領域,去做整個系統與產品層面的優化,而不只是做芯片,提供更好的服務,就如昨晚在朋友圈刷屏的 ZAO,從 DeepFake 單個算法出發,做成了細節考慮充分的完整應用;利用好不同地區之間的政策與文化的差異性,就好像滴滴在中國擊敗了 Uber。
誰能夠跨過這道門檻,真正和巨頭們掰一掰呢?我個人看好華為與阿里平頭哥。前者有足夠多的資源,也可以排在世界前幾的的研發實力與工程能力,軟硬件都非常強,有機會在市場終于被做大之后進場收割;后者,在有足夠多的資源和很強的技術能力外,還有明確的應用以及長期的集團戰略,也能在其看重的領域掀起波浪。而對于創業企業,找到與巨頭的差異性,無論是細分市場、系統集成度、地區政策差異、還是底層技術變革,強化優勢,再拿到足夠多的資源,我相信也希望能夠跑出幾家在各自領域擁有相當地位的公司。
劉慈欣在《流浪地球》里寫過一個著名的謎語:“你在平原上走著走著,突然迎面遇到一堵墻,這墻向上無限高,向下無限深,向左無限遠,向右無限遠,這墻是什么?”
對于 AI 芯片創業企業來說,眼前這墻真的很大,但也不是無限大。
-
處理器
+關注
關注
68文章
19259瀏覽量
229653 -
集成電路
+關注
關注
5387文章
11530瀏覽量
361646 -
AI芯片
+關注
關注
17文章
1879瀏覽量
34992
原文標題:姚頌萬字長文:Hot Chips不容錯過,史上最大芯片&摩爾定律
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論