Aurora是Intel近年來參與的最受期待和最引人注目的項目之一,它是對Intel整個系統(tǒng)組合的大膽投注。預(yù)計這臺機器將是首臺峰值性能達到2 exaflops(2x10^18)浮點運算每秒的超級計算機。
作為位于伊利諾伊州阿貢國家實驗室的Aurora超級計算機的首席架構(gòu)師和首席研究員,Olivier Franza在實現(xiàn)這一最具雄心的科學(xué)儀器中發(fā)揮了領(lǐng)導(dǎo)作用,更不用說它還是世界上最大的GPU集群了。
這給了Franza一些壓力,他是Intel的22年資深員工,2016年作為系統(tǒng)硬件架構(gòu)師加入Aurora項目,并監(jiān)督向基于GPU的機器的轉(zhuǎn)變,于2021年成為首席架構(gòu)師。
Franza解釋說:“首席架構(gòu)師負責(zé)根據(jù)客戶的高級要求定義超級計算機的整體系統(tǒng)架構(gòu)。有一些基本的要求,如總體性能指標(biāo)和功率范圍,但也有如RAS——可靠性、可用性、可維護性——這些對構(gòu)建可擴展系統(tǒng)至關(guān)重要的內(nèi)在特性。”
他的職責(zé)還包括從節(jié)點到機架到完整系統(tǒng)的系統(tǒng)拓撲的細節(jié),包括其網(wǎng)絡(luò)結(jié)構(gòu)和存儲組件。
路線圖樞軸為塑造未來產(chǎn)品提供了機會
初始規(guī)劃開始時,Aurora作為美國能源部贊助的系統(tǒng),其設(shè)計由一系列Intel技術(shù)組成。然而,Intel產(chǎn)品路線圖的變化,特別是Xeon Phi和Omnipath產(chǎn)品家族的結(jié)束,需要重新開始。當(dāng)Intel制定了構(gòu)建數(shù)據(jù)中心GPU的計劃時,F(xiàn)ranza參與了Intel? 數(shù)據(jù)中心GPU Max系列(代號Ponte Vecchio)的設(shè)計討論。
從這個角度看,Aurora不僅僅是一個獨立的系統(tǒng)。相反,它幫助塑造了Intel整體的策略和產(chǎn)品組合,以在最高級別解決規(guī)模和性能問題。
Franza表示:“我們將所有Aurora系統(tǒng)級的要求融入到組件級。”
例如,Intel Xeon CPU Max系列與高帶寬內(nèi)存的架構(gòu)和概念,起初是由一些來自Intel Xeon Phi平臺的特性產(chǎn)生的,這是第一個集成了高帶寬和高容量的創(chuàng)新內(nèi)存架構(gòu)的產(chǎn)品。
此外,對高性能的需求進一步推動了所有子系統(tǒng)的進步,從計算刀片的熱機械解決方案到其高密度物理集成,到存儲。
Franza表示:“Intel構(gòu)建了一個全新的存儲概念,DAOS(分布式異步對象存儲)。” 這是一個開源軟件生態(tài)系統(tǒng),用于在傳統(tǒng)硬件上實現(xiàn)高速存儲。“Aurora將是第一個使用它的系統(tǒng),而且是迄今為止最大的。”
從設(shè)計組件到將數(shù)千個系統(tǒng)連接在一起
Aurora項目推動了系統(tǒng)級思考和Intel內(nèi)部各個業(yè)務(wù)部門之間的廣泛合作,以及與阿貢科學(xué)家和項目的另一個主要合作伙伴惠普企業(yè)的工程師的合作。
Franza表示:“讓整個團隊齊心協(xié)力、交付像Aurora這樣的機器,對我們許多人來說,是一生中只有一次的經(jīng)歷。”
盡管工程師們在六月份安裝了最后的刀片,但Franza仍在夜間繼續(xù)進行該項目,因為系統(tǒng)正經(jīng)過測試、穩(wěn)定和驗證的階段。
他為一個大團隊提供指導(dǎo),該團隊正在進行系統(tǒng)啟動、驗證、穩(wěn)定、優(yōu)化和使全系統(tǒng)性能工作負載啟用的工作。最值得注意的是High Performance Linpack(HPL)基準測試,該測試確定了世界上的頂級系統(tǒng),由半年度Top500名單認證。
Franza每天早上參加每日站會,仔細檢查每個節(jié)點的夜間運行,并制定第二天和未來工作的計劃。每天下午,一個每日總結(jié)會議總結(jié)了進展和障礙。工作永無止境;機器始終運行。
他解釋說:“我們采取逐步方法,在大規(guī)模上進行驗證和穩(wěn)定。” “你從刀片開始,然后移到機架,然后是多個機架,然后從那里擴展。”
Aurora 由 10,624 個計算刀片組成,在 166 個機架上擁有 63,744 個 Intel Max 系列 GPU(GPU 數(shù)量比世界上任何其他系統(tǒng)都多)和 21,248 個 Intel Xeon Max CPU。
他說:“它的大小相當(dāng)于四個網(wǎng)球場,聽起來很多,對吧?” “但只有當(dāng)你真正去看它時,你才會意識到這個項目的巨大規(guī)模。”
Franza必須確保這個龐大的系統(tǒng)是穩(wěn)定的、功能正常的和高效的。這是一個艱巨的任務(wù),但終點即將到來。
他說:“走在過道上,所有的燈都亮著,感覺到機器正在運行是令人印象深刻的,顯然也是非常有成就感的。” “這是一個顯而易見的成就。”
“一生一次”的努力,塑造科學(xué)的超級計算機
使他繼續(xù)前進的是建造“一個非凡的機器”的機會,這將為有影響力的研究提供動力。他引用了Aurora在癌癥研究方面的巨大潛力作為項目將造福我們所有人的一個領(lǐng)域。
他說:“我認為這是使我們非常自豪的一件事。”
Aurora不僅將致力于解決世界上最復(fù)雜的科學(xué)和工程問題,它還將是一個理想的平臺,用于運行生成式AI并將其應(yīng)用于研究。“它將啟用計劃中最大的大型語言模型,即1萬億參數(shù)的Aurora GenAI項目,增強、啟用并簡化科學(xué)家的生活,”Franza說。
但他最享受的是團隊合作和友情。
他說:“這是一個持續(xù)的努力,需要很大的毅力。” “核心團隊保持了馬拉松的心態(tài),直到結(jié)束都不結(jié)束。我們需要那種能夠長時間有效地關(guān)注某件極具挑戰(zhàn)性的事情的人。最后,所取得的成就是很少有人可以說他們?nèi)〉眠^的。”
文章來源:半導(dǎo)體行業(yè)觀察
審核編輯 黃宇
-
英特爾
+關(guān)注
關(guān)注
61文章
9955瀏覽量
171709 -
gpu
+關(guān)注
關(guān)注
28文章
4730瀏覽量
128905
發(fā)布評論請先 登錄
相關(guān)推薦
評論