本文來自計算機體系結構專家王逵。他認為,“摩爾定律結束之后,性能提升一萬倍”不會是科幻,而是發生在我們眼前的事實。
2008年,《三體2:黑暗森林》里寫到:
真的很難,你冬眠后不久,就有六個新一代超級計算機大型研究項目同時開始,其中三個是傳統結構的,一個是非馮結構的,另外兩個分別是量子和生物分子計算機研究項目。但兩年后,這六個項目的首席科學家都對我說,我們要的計算能力根本不可能實現。量子計算機項目是最先中斷的,現有的物理理論無法提供足夠的支持,研究撞到了智子的墻壁上。緊接著生物分子計算機項目也下馬了,他們說這只是一個幻想。最后停止的是非馮結構計算機,這種結構其實是對人類大腦的模擬,他們說我們這只蛋還沒有形成,不可能有雞的。最后只有三個傳統結構計算機項目還在運作,但很長時間沒有任何進展。
好在我們要的計算機還是出現了,它的性能是你冬眠時最強計算機的一萬倍。傳統結構?傳統結構,能從摩爾定律這個檸檬里又榨出這么多汁來,計算機科學界都很吃驚。但這次,親愛的,這次真的到頭了
那是我讀計算機體系結構專業博士的最后一年,當時我對此嗤之以鼻:摩爾定律怎么可能還有那么多油水可以榨。工藝極限近在眼前,不用智子出手,摩爾定律就會死翹翹了;傳統結構更是沒戲,CPU的架構已經被研究到頭了,從2000年后,幾乎沒有搗鼓出啥新東西。
所以,這個“一萬倍”,真的是好科幻好科幻啊。
回顧三體2出版之后的這九年,工藝進展步履維艱,微架構亮點寥寥,CPU的性能每一代都是擠牙膏。一切都好像在印證我悲觀的預期——計算機硬件的性能,好像真的提升不上去了。
但是,從去年開始,“科幻”般的事件相繼降臨:
2016年3月,AlphaGo戰勝李世石,它使用了1202個CPU和176個GPU
2016年4月,NVidia發布Pascal架構,峰值性能達到11TFLOPS/s,黃仁勛在接受新智元專訪時表示,半導體技術迭代在放緩,但GPU Pascal架構比上一代性能在兩年內提升了近十倍,因此可以說我們正處在一個“超級摩爾定律”時代。
今年5月11日,NVidia發布Volta架構,峰值性能達到120TFLOPS/s
今年5月11日,Google公布TPU二代,峰值性能達到180TFLOPS/s,且可以通過Google Cloud訪問
今年5月23日AlphaGo重出江湖并且毫無懸念地戰勝了柯潔;24日,DeepMind CEO 哈薩比斯和AlphaGo項目總負責人David Silver 在新聞發布會上接受媒體采訪時表示,AlphaGo實際上是在谷歌云端的單一一臺機器上運行的,此機器建立于二代TPU之上(據說這臺機器使用了4塊TPU)
在摩爾定律已經嚴重減速甚至失效的今天,我們實實在在地看到了算力的大幅度提升,而且這場算力的軍備競賽還在繼續!
而我,也改變了自己悲觀的預期,相信在不遠的將來,“摩爾定律結束之后,性能提升一萬倍”,將不會是科幻,而是發生在我們眼前的事實。
這是不是太瘋狂了?設計計算機硬件的技術宅男們,憑什么做到這一點?憑TPU所代表的技術路線以及新的商業模式。且聽我慢慢道來。
為什么CPU是低效的
在解釋憑什么能做到“摩爾定律之后一萬倍”之前,我們先聊聊為什么CPU和GPU無法擔此重任。
如果你問我,CPU最大的特點是什么?我會說:它給程序員一個假象,讓你感覺訪問大容量的內存任何一個位置的延遲都是相同的,而且和做一次加法的延遲差不多,近乎為0。
制造這個假象非常困難。要知道CPU所采用的Logic生產線,同內存用的Memory生產線,有天壤之別。簡單地說,由于某種底層的物理定律,Memory產線無法實現CPU所需要的高速度,Logic產線無法實現內存所需要的大容量。更糟糕的是,Memory制程相對于Logic制程還越來越慢,從1986年到2000年,Logic每年提速55%,而Memory只有10%。
何為“快”“慢”?口語中的“快”,可以指延遲小(從開始到結束間隔的時間短),也可以指帶寬大(單位時間內通過的量大),說“高鐵快”,指前者,說“網速快”,指后者。內存的帶寬其實增長得還湊合,486時代CPU跑100MHz,SDRAM內存帶寬為100MT/s;如今CPU達到2GHz~3GHz,DDR4內存帶寬3200MT/s。雖然內存帶寬有了幾十倍的提升,但從發出讀請求到內存條返回數據的延遲,這二十年來只減小了兩倍多。
且不說外行人,很多初級程序員都不知道內存的延遲如此糟糕,即使是資深程序員,在大多數時候,也可以在編碼中忽略它,為什么?這都是CPU的功勞。CPU使用了很多復雜的技術來隱藏內存的延遲,例如:
CPU使用非常大量的片上存儲來做cache(緩存),把程序經常訪問的數據放在片上,這樣就不必訪問內存了
CPU用復雜的技術猜測程序即將訪問哪些數據,用預取的方式,提前把這些數據從內存中搬運到片上
當某一段程序由于等待內存數據而卡住無法執行時,CPU用亂序的方式,執行接下來的片段
使用超線程技術,當一個程序因為等待內存數據而卡住時,選擇另外一個程序來執行
CPU的硅片上,絕大多數面積都是用來制造“內存訪問近乎零延遲”這一假象的,真正用來做運算的邏輯,所占面積甚至不到1%——這就是它低效的根源。
CPU誕生于Logic和Memory的速度差不多的年代,那個時候,程序員就已經習慣于假設“內存訪問近乎零延遲”,為了保證對軟件的兼容,CPU多年來不惜一切代價維持這一假象。積重難返,時至今日,軟件已經無法通過CPU來充分利用集成電路制造工藝所提供的澎湃動力。
為什么GPU是低效的
再用一句話來總結GPU最大的特點:它給程序員一個假象,讓你感覺GPU上面有數十萬個小程序在運行,彼此相安無事。
GPU的架構,簡單地說,就是把類似CPU超線程的技術用到極致來隱藏內存訪問的超長延遲。GPU里面有數千個小核心,每個都可以看成是個小CPU,與此同時,它同時運行最多數十萬個小程序,大多數程序會因為等待訪存而卡住,真正在小CPU上執行的程序只有數千個。
因為同時在工作的小核心有數千個,GPU比起CPU,單位時間內完成的運算量大多了。但它也有軟肋,那就是:這數十萬個小程序,彼此之間根本不可能相安無事,它們會搶存儲帶寬,搶得很兇。GPU要付出的管理代價相當高:
要做復雜的緩存,以備一塊從顯存取來的數據被很多小核心使用
訪存接口只有8個,能發出訪存請求的小核心確有數千個,必須分析它們發出的請求,把訪問相鄰地址的請求捏在一起作為一個請求送給顯存
訪存帶寬必須做得遠高于CPU,才能喂飽數千個小核心
數千個小核心上,每個時鐘周期所運行的小程序都可能不一樣,每個小程序的上下文都要保留,以備將來喚醒。為了存儲上下文所付出的片上Memory的面積,堪比CPU上的龐大緩存
相對于CPU,GPU制造假象的能力稍遜一籌,稍有經驗的GPU程序員,都明白要盡可能讓GPU上并行跑的數十萬小程序在訪存時呈現一定的規律,否則GPU的效率會大打折扣。
GPU的定位,不單單是圖形加速,而是所有的有海量數據并行運算的應用,因此它必須非常通用,不能對其上運行的數十萬個小程序做限制。事實上,這數十萬的小程序每個都可以任意訪問到顯存的所有位置,而且訪問的位置各不相同,在這種情況下,GPU也要保證功能的正確性,哪怕跑得慢些。管理和組織這數十萬個不受限制的小程序所付出的硅片面積代價和內存帶寬的代價,是GPU低效的根源。
為什么FPGA只是過渡方案
CPU和GPU的架構都有非常沉重的歷史包袱,體現在:
它們都有很強的通用性,不能僅僅只針對某個領域做優化
它們都有很強的兼容性,過去編寫的程序必須能夠運行
它們都有穩定而龐大的程序員隊伍,這些程序員的思維方式不加改變的話,它們就不能放棄提供那些“假象”
這些也是非常偉大而甜蜜的包袱,正因為背負著它們,CPU和GPU廠商才能在它們既有的市場里呼風喚雨,并且把競爭者擋在門外。
如果扔掉這些包袱,設計全新的架構,就可以做到:
僅僅針對某個領域做優化
不考慮對過去軟件的兼容
用全新的方式對其編程,不拘泥于之前的思維定勢
這樣設計出的架構,對其目標領域,性能指標會大幅度超越CPU和GPU這類通用架構。原因非常淺顯易懂,通用性和最優化無法兩全。歷史上已有先例,當計算化學領域和天體物理領域對計算性能的需求無法被滿足時,分別有科學家們為它們開發出了專用的Anton和Grape-DR計算機。只不過它們的專業性太強,不為大眾所知。
如今,當CPU和GPU的架構已經無法滿足人工智能應用對速度、功耗和成本的需求時,尋找新的架構成為了大家共同的選擇。在尋找新架構的過程中,FPGA起到了開路先鋒的作用。
FPGA是什么?如果說CPU和GPU是在架構級別做到“通用”的話,FPGA就是在更低一級的電路級做到了“通用”。通過硬件描述語言對FPGA編程后,它可以模擬任何一種芯片的架構,包括CPU和GPU的架構,通俗地說,FPGA是一種可編程的“萬能芯片”。它非常適合探索性的、小批量的產品。
我們已經看到了很多的FPGA方案,實現了比GPU更好的速度、功耗或成本的指標。但是,FPGA依然無法擺脫“通用就無法最優”這一規律的制約。它之所以還能體現出相當的優勢,是因為在一個軟硬件系統中,算法的影響遠大于硬件架構,而硬件架構的影響又遠大于電路——在電路級別做“通用”付出的代價,比起在架構級別做“通用”的代價,還是小得多了。
一旦FPGA給某個專用架構趟出路來之后,它就會退居幕后,讓位給更專用的ASIC。
TPU代表了未來的方向
這次同柯潔對陣的AlphaGo,采用了Google自研的第二代TPU。TPU的特點是:
僅僅針對線性代數做優化
不兼容CPU或GPU的程序
用全新的方式對其編程
用ASIC而非FPGA的方式來實現
深度學習所使用算法,絕大多數可以被映射為底層的線性代數運算。TPU(Tensor Processing Unit)中的Tensor,就是線性代數中的基本數據類型。線性代數運算有兩大特點:Tensor的流動非常規整且可預期;計算密度很高,即每個數據都會歷經非常多次的計算。這兩大特點使得線性代數運算特別適合做硬件加速——所有用來制造“假象”的邏輯都不再必要,每個晶體管都可以用做有意義的運算或存儲。
TPU上無法運行CPU上跑的Java或C++程序,也無法運行GPU上的CUDA程序。雖然尚未有公開信息,但它的編程方式非常可能是這樣:TensorFlow把神經網絡用一種中間格式表示出來,然后這種中間格式被編譯器轉換為TPU上獨特的程序。這種中間格式被稱為TensorFlow XLA,它也將是TensorFlow支持其它線性代數加速器的工具。
Google之所以選擇ASIC而非FPGA,與其說是它的眼光好,不如說是它的魄力強。內行人都知道ASIC效能遠超FPGA,但仍然有很多人不敢選擇ASIC,為什么?自己做ASIC的風險太大:周期長,投入多,門檻高。一旦芯片做錯,就和石頭無異,落個血本無歸。當年Apple決定自己做芯片時,并沒有直接組建隊伍,而是收購了P.A. Semi;這么多年后,成果赫赫,但依然不敢在Mac電腦中使用自研的CPU來淘汰Intel的芯片。而Google在短短幾年內,組建了隊伍,設計了合理的架構,做出了能work的芯片,并且敢于在自己的云上部署自己的產品,只能說一聲“服!”
Google是一家偉大的公司,在它發布MapReduce、GFS和BigTable的論文之前,這些東西被普遍認為是不可能完成的。相信很多人在看到裝備TPU的AlphaGo戰勝柯潔之前,也會認為TPU是不可能完成的。歷史證明,Google能做的事情,別人起碼可以模仿個七八分。現在大家應該相信,在一個足夠重要應用領域中,完全可以把優化和定制做到晶體管級別,而不是只做到某種現成的芯片架構的級別。這不但可行,而且必要,因為你不這么做,競爭對手也會這么做。
硬件的開源時代
摩爾定律的通俗表示是:每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。過去三十年,拜摩爾定律所賜,我們見證了超過百萬倍的性價比提升。未來我們所能看到的這一萬倍,也應該按照“單位成本所能買到的電腦性能”來計算。
CPU和GPU這種通用架構,它們的歷史包袱不僅僅導致了優化難以開展,還導致了:一、壟斷導致的超額利潤;二、過度復雜所帶來的研發成本上升。于是,芯片的價格居高不下。
未來,當特定領域的定制芯片大行其道時,這些芯片的價格也將顯著降低。原因在于:一、不再有壟斷;二、沒有歷史包袱所帶來的研發成本;三、開源所帶來的研發成本降低。
硬件開源過去有過嘗試,但無大成,原因是多種多樣的。但從長遠角度看,所有的基礎設施,被廣大廠商共享的,最終都會走向開源的路子。如果說Intel的CPU是大地(所有的優化不能做到比它更加底層),那么Linux、Python和PHP就是大地之上最底層的基礎設施,它們是開源的;如果說GPU+CUDA是大地,那么各種深度學習的框架就是最底層的基礎設施,它們也都是開源的。如果未來晶體管是大地,那么毫無疑問芯片的架構也會出現各種開源方案。
這一切才剛剛開始。這個月NVidia做了兩件有趣的事:贊助了開源CPU架構RISCV在上海舉辦的workshop;宣布Xavier自動駕駛芯片中的針對線性代數的硬件加速模塊DLA將開源。大廠支持開源,絕不是搞慈善,而是為了扼殺競爭對手,贏得業界事實標準的控制權。但開源的后果,必然是降低設計門檻,降低整個行業的研發成本。
我們的星辰大海:從應用到晶體管的全棧優化
對于從事計算機體系結構專業的同仁而言,這是最好的時代,半導體制造的先進工藝進展緩慢,但軟件的各種應用需求還在不斷涌現,軟硬件接口逐漸模糊,成熟工藝的成本不斷下降。為了優化特定應用,做深入到晶體管級的全棧優化成為一個現實的選項。只要正確地設計專用架構,使用成熟工藝也可以輕松超越GPU和CPU這種通用架構,哪怕它們采用最先進的制造工藝。
這是一個全新的世界,以往的利益格局和設計思想都將被打破,誰也無法預知將會發生怎樣的興衰變遷。但這就是我們的星辰大海,一起來探索和歷險吧!
王逵,北京大學本碩博,自從大三讀了Hennessy和Patterson的書之后,就掉進了計算機體系結構的坑,至今也沒有爬出來。前后總共做了14年的CPU,從基礎軟件、芯片架構,到物理實現都攢了點經驗。2016年加入比特大陸,從事人工智能加速芯片的設計和實現工作。
評論
查看更多