就在剛才,美國(guó)超算確認(rèn)登頂世界第一。
北京時(shí)間 6 月 25 日下午 15:00 左右,在德國(guó)法蘭克福召開的全球超算大會(huì)(ISC2018)公布了“超級(jí)計(jì)算機(jī)500強(qiáng)”(TOP500)最新榜單,其中,美國(guó)超算“Summit”排名第一,中國(guó)超算“神威·太湖之光”位列第二,第三名則是來自美國(guó)的“Sierra”。
在上一屆的榜單中,中國(guó)超算“神威·太湖之光”和“天河 2 號(hào)”分別位列 TOP500 第一、第二,美國(guó)的超算“Titan”則名列第五,也是 20 年來美國(guó)首次跌出該榜單的前三名。而這一次,美國(guó)重回全球超算霸主地位。
圖丨最新全球超算 TOP 500 榜單前 10 名
圖丨上一屆全球超算 TOP 500 榜單前 10 名
美國(guó)憑借著進(jìn)入半導(dǎo)體產(chǎn)業(yè)早,相關(guān)技術(shù)積累深厚,多年來一直壟斷著 Top 500 超算冠軍,不僅算力高超,就連超算的數(shù)量也占據(jù)絕對(duì)優(yōu)勢(shì),不過最近 10 年來中國(guó)超算技術(shù)奮起直追,入圍 Top 500 的超算越來越多,甚至最近 5 年 10 屆 Top 500 冠軍都是中國(guó)超算,入圍 Top 500 的超算數(shù)量也超過美國(guó),直到美國(guó)前不久推出的 Summit 超算,才終于在算力反超中國(guó)的神威·太湖之光,成功奪回 Top 500 冠軍之位。
但除了中美以外,日本和其他國(guó)家也都積極推動(dòng)超算的發(fā)展,日本最近公布的新版 Kyu 超算架構(gòu),基于 Arm 架構(gòu),其理論性能遠(yuǎn)超太湖之光,甚至能輕松壓制美國(guó)的 Summit 超算,不過該架構(gòu)仍在測(cè)試階段,還未量產(chǎn),最快也要 2018 下半年才有機(jī)會(huì)挑戰(zhàn) Top 500。
現(xiàn)在問題來了,各國(guó)在超算領(lǐng)域激烈競(jìng)爭(zhēng)到底有什么意義呢? 答案是超算非常實(shí)用,但對(duì)大國(guó)來說,擁有超算帶來的軟實(shí)力、象征意義也很重要。
就實(shí)用范圍而言,超算就是什么都能算,不只能夜觀天象,揭開宇宙的奧秘,還能把天有不測(cè)的風(fēng)云抓出規(guī)律,告訴我們明天出門要不要帶傘;而在基礎(chǔ)產(chǎn)業(yè)推動(dòng)方面,比如說材料的合成、礦產(chǎn)的探勘,超算扮演著極為重要的地位,美國(guó)從石油輸入國(guó)轉(zhuǎn)而成為產(chǎn)出國(guó)部分也是超算之助;超算甚至能代替神算出生命的奧秘,解析那些藏在我們身體里面的最神秘的法則,或者是組合出全新的生命型態(tài);超算幫助我們研發(fā)新藥,代替神農(nóng)嘗百草;流行的社群網(wǎng)絡(luò)分析,從大的社會(huì)風(fēng)向,到小的個(gè)人人格特征定位也是超算在行的工作;面對(duì)金融體系的科技化,網(wǎng)絡(luò)化,以及區(qū)塊鏈化,這些都需要龐大的算力在背后推動(dòng);另外,軍事與武器研發(fā)更需要超算之助。
而就象征意義而言,因?yàn)樗懔?duì)于人類社會(huì)的影響越來越深,擁有足夠的算力,不只代表對(duì)整體社會(huì)的發(fā)展脈絡(luò)更能有效控制,讓國(guó)家能夠更有效率的管理與發(fā)展,讓人民更幸福,同時(shí),算力也代表了國(guó)家所能投入的資源及技術(shù)力,某種程度上也等同于國(guó)力的展現(xiàn),而這也是各國(guó)每年都拼盡全力一較算力高低的原因之一。
Top 500名單的更新,美國(guó)重回算例榜首,但明顯損失份額
而每年固定時(shí)間都會(huì)公布排名的全球超算 Top 500 名單也已經(jīng)公布,從名單中可以看出,美國(guó)的 Summit 架構(gòu)已經(jīng)確定成為今年上半年 Top 500 超算的榜首,但與此同時(shí),中國(guó)超算的份額又再度增加,較去年底的比重增加了 0.8%,達(dá)到 41.2%,美國(guó)則是再度衰退,僅剩 24.8%。
圖|雖然美國(guó)奪回超算榜首,但中國(guó)超算占 Top 500 比重達(dá)歷史新高
除了榜首的 Summit 超算以外,第三名的 Sierra 超算使用的是與 Summit 類似的 Power 架構(gòu)+NVIDIA GPU,相較第二名的太湖之光,僅用了不到 1 成的核心就能輸出其 8 成的計(jì)算性能,明顯是走高能效路線。另外,日本超算幾乎清一色使用英特爾的平臺(tái)搭配 GPU 或 Xeon Phi 輔助加速器,自有架構(gòu)可能要等待年底才會(huì)現(xiàn)身。
能耗是另一個(gè)值得關(guān)注的重點(diǎn),Green 500 名單亦有重要意義
日本仍毫不意外的占據(jù)了 Green 500 前 10 大的絕對(duì)多數(shù),排名第一的 Shoubu System B 的能效表現(xiàn)已經(jīng)達(dá)到每瓦 18.4G Flops,創(chuàng)下了歷史新高。
另外,由于 Summit 超算使用基于 14nm 工藝的 Power 架構(gòu)加上基于 12nm 的NVIDIA GPU,在每瓦能效表現(xiàn)方面要明顯比使用 28nm 工藝芯片的太湖之光更有優(yōu)勢(shì),才用類似架構(gòu)的第 3 名超算架構(gòu)也有類似的能效表現(xiàn)。
CPU 仍是超算主角,GPU滲透率雖持續(xù)增加但挑戰(zhàn)仍大
過去很長(zhǎng)一段時(shí)間,超算主要架構(gòu)是以 RISC 芯片為主,而后轉(zhuǎn)往 X86,但隨著深度學(xué)習(xí)等 AI 計(jì)算的需求增加,GPU 在超算架構(gòu)中所占的份量越來越吃重,去年底公布的 Top 500 超算中就有將近 90 款超算平臺(tái)使用 GPU 來進(jìn)行加速,這些超算架構(gòu)也都屬于性能領(lǐng)先群。
雖然 GPU 或其他計(jì)算加速架構(gòu)的引入越來越多,但是純 CPU 的超算架構(gòu)仍占將近 8 成,而各國(guó)在 CPU 架構(gòu)的推陳出新,也證明了這個(gè)傳統(tǒng)架構(gòu)在超算領(lǐng)域仍然還有很大的發(fā)揮空間,不僅效能不輸給 GPU 加速,甚至能耗表現(xiàn)也能有一流的表現(xiàn)。
圖|在 Top 500 排名中已經(jīng)有超過98款超算采用 NVIDIA 的 GPU 架構(gòu),較 2017 年底的 87 款增加了 11 款。
雖然 GPU 已經(jīng)在很多計(jì)算領(lǐng)域證明了自己的價(jià)值,但是在超算平臺(tái)上,CPU 仍是絕對(duì)主流的架構(gòu),占了將近 8 成。不只是英特爾的 X86 CPU,MIPS、Arm,甚至是 Power 架構(gòu)等傳統(tǒng) RISC 架構(gòu),以及中國(guó)自有的申威核心,都證明面對(duì)超算環(huán)境,也能輸出不下于 GPU 的性能,當(dāng)然,應(yīng)用到超算中的 CPU 架構(gòu)已經(jīng)不是純粹的 CPU,更多包含了許多輔助的數(shù)學(xué)計(jì)算核心,甚至英特爾才剛推出的神經(jīng)網(wǎng)絡(luò)處理器就整合了 FPGA 架構(gòu),這些架構(gòu)也都證明了自己的效能和效率都不下于 GPU,雖然 NVIDIA 的 GPU 架構(gòu)在服務(wù)器當(dāng)中擁有崇高的地位,但是在超算領(lǐng)域仍是挑戰(zhàn)者。
神威·太湖之光將退役架構(gòu)改造成一流超算架構(gòu)
中國(guó)的神威?太湖之光,采用了純 CPU 計(jì)算架構(gòu)的組合,不使用英特爾的處理芯片,也不使用目前火熱的 GPU 計(jì)算架構(gòu),但其達(dá)到的算力卻超越除了 Summit 超算以外的其他架構(gòu)的組合,不過在能耗方面略顯弱勢(shì)。
太湖之光所使用的申威 26010 在單一芯片中整合了超過 260 個(gè)核心,在整個(gè)超算系統(tǒng)中使用了 40960 顆芯片,核心數(shù)量高達(dá) 10649600 個(gè),單純就數(shù)量而言,比上次排名第 4 的日本曉光 (Gyoukou) 超算少,但持續(xù)輸出性能遠(yuǎn)遠(yuǎn)超過同為中國(guó)產(chǎn)的超算平臺(tái)第 2 名天河二將近 3 倍之多,更是日本曉光超算性能的 4 倍。
圖|申威架構(gòu)雖非原創(chuàng),但在研究人員的巧手下化身中國(guó)自有高效能超算核心
申威 26010 處理器架構(gòu)來源是出自于已經(jīng)退出市場(chǎng)的 DEC Alpha 微架構(gòu),不過在經(jīng)過研發(fā)人員的徹底改造之后,轉(zhuǎn)而變成類似 IBM Power 微架構(gòu)的芯片,成為針對(duì)大規(guī)模平行計(jì)算環(huán)境優(yōu)化的高效率計(jì)算架構(gòu),單芯片 260 個(gè)核心同時(shí)運(yùn)作的功耗只有 15.371 W。雖然其技術(shù)出處并非原創(chuàng),但是在超算這種大規(guī)模計(jì)算環(huán)境中得以凸顯其優(yōu)勢(shì),甚至超越了以英特爾與 NVIDIA 為主流組合的眾多超算架構(gòu)。
但是申威 26010 架構(gòu)因?yàn)檫^于特化,其單核心的效率非常低,甚至比英特爾的 Atom 和主流 Arm 架構(gòu)還要低,也不適合用在主流的一般消費(fèi)性計(jì)算上。其優(yōu)勢(shì)在于強(qiáng)大的互聯(lián)與協(xié)同工作能力,突破過去超算架構(gòu)在計(jì)算芯片數(shù)量達(dá)到一定程度時(shí),計(jì)算效能的增長(zhǎng)就會(huì)逐步降低的傳統(tǒng)天險(xiǎn)。
不過申威架構(gòu)在太湖之中也不是完全沒有后顧之憂。目前太湖之光使用的光纖互聯(lián)技術(shù)還是來自美國(guó),而且是屬于上一代的技術(shù),雖然能在中國(guó)超算中發(fā)揚(yáng)光大,但也代表這方面的技術(shù)還是受制于人。
MIPS 與 Arm 助力日本主打最高能效比的自有架構(gòu)
從 2017 年底的 Top 500 的排名當(dāng)中,我們可以看到日本的超算架構(gòu)雖然性能不是最優(yōu),但是在能耗方面,前 10 大能耗比最高的超算平臺(tái)中,日本就占了 7 個(gè),而今年 Top 500 性能排第 359 名的 Shoubu System B,在能耗排名中也高達(dá)第 1 名,相較之下,太湖之光雖然性能第 2,但能耗方面僅拿到第 23 名,換算每瓦雖然也算是很靠前的 6GFlops,但日本 Shoubu System B 則是達(dá)到每瓦 18.4GFlops 的驚人程度。
然而到 2018 上半年的排名,日本仍維持混用英特爾、NVIDIA 以及自有 PEZY 計(jì)算架構(gòu)的混合計(jì)算型態(tài),雖然最佳排名是 AI Bridging Cloud Infrastructure (ABCI) 的第 5 名,性能仍然離榜首有段距離,但多款超算的能效表現(xiàn)仍成功在 Green 500 排名中的前 10 名拿下 6 個(gè)席次。
與太湖之光不同的是,日本的超算架構(gòu)并沒有堅(jiān)持自有路線,由 PEZY Computing 所打造的芯片架構(gòu)主要還是作為輔助計(jì)算之用。最新的 SC2 整合了 2,048 個(gè)內(nèi)核以及每個(gè)內(nèi)核 8 路 SMT 支持,總共 16,384 個(gè)線程,是其前身的兩倍。PEZY-SC2 是 2017 年底幫助日本多款超算打進(jìn)頂級(jí) Green500 超算能效排名的最大背后功臣,通過 PEZY-SC2 與英特爾與 NVIDIA 芯片的混搭使用,達(dá)到更高層次的能效表現(xiàn)。
圖|以個(gè)別芯片為單位來比較,二代 PEZY 核心在互聯(lián)與功耗控制能力方面仍略勝太湖之光的申威架構(gòu)一籌
日本自有的 PEZY 核心包含了 6 個(gè) P-Class P6600 MIPS(MIPS64R6) 處理器,并擁有 128 個(gè)稱為 city 的輔助計(jì)算單元。相較之下,舊版 PEZY-SC 僅依靠 2 個(gè)輕量級(jí)的 ARM926 內(nèi)核,成為性能的最大瓶頸。SC2 擁有 40 MIB 共享最后緩存,不僅可以在所有處理核心區(qū)塊共享,還可以通過 MIPS 內(nèi)核共享。為了進(jìn)一步提高性能,MIPS 內(nèi)核和 PEZY 內(nèi)核現(xiàn)在共享相同的地址空間,從而減少數(shù)據(jù)傳輸開銷。值得注意的是,通過使用功能強(qiáng)大的 MIPS 內(nèi)核以及異構(gòu)計(jì)算核心,PEZY Computing 在與其他計(jì)算架構(gòu)搭配之后,在成本與能耗方面達(dá)到世界一流水平。
雖然初代 PEZY 核心因?yàn)?Arm 架構(gòu)的落后而表現(xiàn)不佳,但日本也沒有放棄 Arm 架構(gòu)超算潛力的挖掘。
由富士通所推出,曾幫助日本奪得 Top 500 超算第一名的 Kyo 核心,就從 SPARC 轉(zhuǎn)向Arm 架構(gòu)。前不久富士通宣佈推出自主研發(fā)的 ARMv8 SVE(可伸縮矢量擴(kuò)展) 的新款 Kyo 超算芯片,使用了512bit 浮點(diǎn)運(yùn)算單元,每個(gè)節(jié)點(diǎn)使用 48 核+2 輔助核,IO 及計(jì)算節(jié)點(diǎn)則是 48 核+4 輔助核結(jié)構(gòu)。而其效能評(píng)估是目前仍佔(zhàn)據(jù)超算 Top 500 第 10 名的 Kyo超算的 100 倍,而功耗只增加了 3 倍。
通過新版的 Kyo 的推出,富士通可望扭轉(zhuǎn)近年日本超算核心在性能落后中美的狀況,不僅理論性能超越中國(guó)太湖之光 10 倍以上,也能壓倒美國(guó) Summit 超算的算力表現(xiàn)。
圖|由富士通研發(fā)的新一代 Kyo 超算平臺(tái)誓言要讓日本重回 Top 500 超算榜首
IDM Power 架構(gòu)協(xié)同 NVIDIA 的純美國(guó)芯重回 Top 500 榜首
帶領(lǐng)美國(guó)重回超算 Top 500 榜首的Summit 超算中,包括了 4,608 個(gè)服務(wù)主機(jī),搭載了超過 9,000 個(gè) IBM 的 22 核心 Power9 處理器和超過 27,000 個(gè) NVIDIA Tesla V100 GPU。采用的 IBM Power 9 架構(gòu),可以說是完全針對(duì) NVIDIA 的 GPU 架構(gòu)優(yōu)化而來,其采用的 NVLINK 2.0 規(guī)格可帶來高達(dá) 300GB/s 的頻寬表現(xiàn),很大程度上解決了資料傳輸過程的瓶頸,且因?yàn)?NVLIN 支援了快取一致性設(shè)計(jì),也同時(shí)能夠有效提升 GPU 的計(jì)算性能。
然而Power 架構(gòu)的優(yōu)勢(shì)還不止于此,根據(jù)官方資料,IBM Power 9 的最大 I/O 頻寬是 Intel x86 處理器的 9.5 倍,可支援存儲(chǔ)器容量是 2.6 倍,高效能核心數(shù)量為 x86 的 2 倍,存儲(chǔ)器頻寬則是 x86 的 1.8 倍。更重要的是,通過 NVLINK 2.0,CPU 與 GPU 之間的互連頻寬達(dá)到 X86 服務(wù)器目前使用的 PCIe 3.0 的 9 倍,大大舒緩了 GPU 等待資料傳輸所造成的計(jì)算能力浪費(fèi)。
圖|通過與 NVIDIA 的緊密合作,IBM 的 Power 架構(gòu)在超算領(lǐng)域成功重奪眾人目光
Power 9 也不是指標(biāo)對(duì)了 NVIDIA 的計(jì)算架構(gòu)作優(yōu)化,事實(shí)上,它針對(duì)的是所有平臺(tái),Summit 中使用的 Power9 AC922 服務(wù)器采用的是 OpenCAPI 技術(shù)。OpnCAPI 是 IBM 與 AMD、Google、Mellanox、Micron、Xilinx 等行業(yè)巨頭聯(lián)合發(fā)布一種全新的“OpenCAPI”(開放式一致性加速器界面) 標(biāo)準(zhǔn),由此推動(dòng)一致性高性能總線界面,滿足高性能異構(gòu)計(jì)算的需求。
不過基于 Power 架構(gòu)+NVIDIA 美國(guó)芯組合的 Summit 超算還只是剛開始,美國(guó)目前已經(jīng)決定要提高下一期先進(jìn)計(jì)算領(lǐng)域的預(yù)算達(dá) 39%,期望能通過資本投入的增加,繼續(xù)維持其在超算地位的領(lǐng)先。
潛力架構(gòu):英特爾的 Nervana 平臺(tái)
雖然在此次 Top 500 名單中沒有太多表現(xiàn),但英特爾的 Nervana 在計(jì)算上的潛力仍不容忽視。
目前英特爾在超算領(lǐng)域其實(shí)面對(duì)的挑戰(zhàn)越來越多,不只是 IBM 的 Power 架構(gòu),中國(guó)的申威,甚至連行將就木的 MIPS 也都把英特爾的架構(gòu),而過去總被認(rèn)為只能在移動(dòng)計(jì)算領(lǐng)域的 Arm,如今也成為 Kyo 的架構(gòu)核心,其能效表現(xiàn)更把目前的英特爾遠(yuǎn)遠(yuǎn)拋在腦后。
如果繼續(xù)維持現(xiàn)有的 CPU 計(jì)算架構(gòu),那么英特爾早晚會(huì)被超算架構(gòu)所淘汰,而英特爾自然也不能夠坐以待斃。前幾年收購(gòu) Altera 與 Nervana 也將迎來開花結(jié)果。
英特爾其實(shí)鉆研專用加速計(jì)算架構(gòu)已經(jīng)有相當(dāng)久的歷史,其成果包含 Xeno Phi 系列,該架構(gòu)采用的是龐大數(shù)量的小核心所組合起來的單一芯片架構(gòu),其實(shí)與申威、PEZY 的作法相當(dāng)類似,但是成本高,而能效也沒有特別出色,導(dǎo)致使用率一直無法有效提高,Xeon Phi 最新架構(gòu) Lake Crest 雖然性能較就款已有成長(zhǎng),但相較起對(duì)手的成長(zhǎng)幅度,已經(jīng)有明顯落后的趨勢(shì),因此英特爾今年改端出基于與 Altera FGPA 架構(gòu)作異質(zhì)整合,代號(hào)為 Spring Crest 的新一代 Nervana 神經(jīng)網(wǎng)絡(luò)處理器,根據(jù)英特爾給的數(shù)據(jù),該神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能已經(jīng)是 Lake Crest 架構(gòu) Xeon Phi 的 3 倍以上。
過去 Xeon Phi 在 Top 500 超算中的應(yīng)用比例遠(yuǎn)低于 NVIDIA,主要還是性能價(jià)格比較弱,及針對(duì)目前已經(jīng)成為主流的 AI 加速應(yīng)用的生態(tài)完整度還是有落差,英特爾期望能通過結(jié)合 Nervana、Altera 以及既有優(yōu)勢(shì) CPU 技術(shù)的 Spring Crest 架構(gòu),確保其在服務(wù)器領(lǐng)域的優(yōu)勢(shì)地位能夠維持下去。
其他挑戰(zhàn)者
當(dāng)然,目前還有更多計(jì)算架構(gòu)仍在發(fā)展中,比如說量子計(jì)算、光子計(jì)算,甚至是光量子計(jì)算,這種性能超越傳統(tǒng)計(jì)算從百倍到百萬倍的新架構(gòu)預(yù)計(jì)也會(huì)對(duì)未來的超算架構(gòu)產(chǎn)生一定的影響。
尤其是在能耗方面,傳統(tǒng)半導(dǎo)體架構(gòu)帶來的熱和運(yùn)作能耗是難以解決的問題,這也導(dǎo)致超算的持續(xù)運(yùn)作維持成本可能要高于建構(gòu)成本,若運(yùn)作成本持續(xù)攀高,恐怕會(huì)限制未來超算的發(fā)展空間。而這也是超算排名有了依照絕對(duì)性能排名的 Top 500,還要另外有以能耗比例為比較基準(zhǔn)的 Green 500 的原因。
超算競(jìng)爭(zhēng)的背后是個(gè)別國(guó)家基礎(chǔ)科學(xué)發(fā)展的擘劃,但也成為推動(dòng)人類成長(zhǎng)的動(dòng)力
為何發(fā)展超算如此重要?超算的性能可以衡量一個(gè)國(guó)家的技術(shù)實(shí)力,但這是個(gè)狹義的衡量標(biāo)準(zhǔn),因?yàn)樗俣戎皇怯?jì)算性能的要素之一。另一個(gè)重要元素在于軟件,軟件可以賦予計(jì)算機(jī)生命,通過軟件的發(fā)展,我們就可以把算力分散到各種產(chǎn)業(yè),協(xié)助產(chǎn)業(yè)的發(fā)展。
圖|超算代表的是一個(gè)國(guó)家對(duì)自己技術(shù)根基的投入程度,和國(guó)力的展現(xiàn)
前面也提到,目前從基礎(chǔ)科學(xué)、材料、生醫(yī)、金融、航天、軍事,甚至未來的宇宙理論與太空探勘發(fā)展,都需要龐大算力的支持,過去土法煉鋼,或分頭進(jìn)擊的方式已經(jīng)沒有效率可言,而通過國(guó)家力量的投入,超算已經(jīng)形成未來推動(dòng)人類視野發(fā)展的最大武器。
目前超算的算力競(jìng)爭(zhēng)很多還是出自于期望借相關(guān)發(fā)展來提高對(duì)核心技術(shù)的掌握與對(duì)基礎(chǔ)科研的支持,從而幫助各自產(chǎn)業(yè)的發(fā)展,雖然出自私心,但其實(shí)也在相當(dāng)程度上共同推動(dòng)了人類社會(huì)的發(fā)展。
-
半導(dǎo)體產(chǎn)業(yè)
+關(guān)注
關(guān)注
6文章
509瀏覽量
34331 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
461瀏覽量
41942 -
超算
+關(guān)注
關(guān)注
1文章
115瀏覽量
9070
原文標(biāo)題:最新“全球超算500強(qiáng)”今宣布:美國(guó)時(shí)隔五年重奪榜首,中國(guó)位列第二!
文章出處:【微信號(hào):Anxin-360ic,微信公眾號(hào):芯師爺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論