超算,是計算產業的明珠,是人類探索未知的航船。超算的發展與變化,不僅代表著各個國家與地區間的科技競爭力,更將作為趨勢風向標,影響整個數字化體系的走向。
在目前階段,超算與AI計算的融合是大勢所趨。為了將AI模型與AI計算融入超算體系,一輪新的超算變革正在醞釀發生。與此同時,一個關鍵問題也顯露了出來:我們是否需要配合AI大模型風潮,打造全新且獨立的存儲體系?
在超算領域擁有廣泛聲譽的橡樹嶺國家實驗室(Oak Ridge National Laboratory),已經就這個問題給出了明確的答案:需要。
日前,我們在橡樹嶺實驗室發布的面向2027年構建下一代數據中心相關計劃中已經看到,其明確提出了應對十億到百億級大模型的引入,除了需要面向傳統HPC場景的PFS(Parallel file system 并行文件系統),還需要單獨設立AOS(AI-optimized storage AI 優化存儲)存儲系統,并給出了相關的詳細品類定義與規格約束。
這個信息為何重要?其又將如何影響計算與存儲產業的持續發展?
讓我們共同來解讀一下,這個智能時代的存力信標。
科學之巔的超算答案
不久之前,諾蘭導演的電影《奧本海默》在全球熱映,其中對曼哈頓工程的描繪讓人印象深刻。
事實上,曼哈頓工程的影響遠不止于影片介紹的范圍。成立于1934年,隸屬于美國能源部的橡樹嶺國家實驗室,原本就屬于曼哈頓工程的一部分。作為美國乃至全球最具代表性的國家實驗室,其存在目的是攻克當下最嚴峻的科學難題,開發具有跨時代意義的技術。
從上世紀40年代開發核反應堆,到率先在完成中子散射開展材料的相關研究,再到為半導體產業提供了一系列信息與相關技術。橡樹嶺國家實驗室可謂在每個階段都深度參與了信息時代的重大科學發現,被譽為人類科學之巔。
時間來到今天,橡樹嶺國家實驗室最具盛名的能力就是超算。在的2022年全球超算Top500名單中,橡樹嶺國家實驗室的Frontier超級計算機系統奪得第一。其憑借1.102 Exaflop/s的HPL分數,成為人類有史以來第一臺“E級超算”計算機。也就是說,Frontier實現了斷代式的驚人算力,其超算性能大于排在它身后的468個超算體系之和。同時,Frontier還是全球AI計算能力最強的計算體系之一,其AI計算能力已經投身到了智能交通、智能醫療等領域的探索中。
由此可見,橡樹嶺國家實驗室在超算領域擁有極強的先進性,堪稱廣義超算領域的絕對權威。而在打造Frontier為代表的超算體系過程中,實驗室也正以更加深邃的目光,望向AI計算與存儲的前沿探索之路。
他們給出的AI存力答案,顯然可以被更多超算體系,乃至數字化建設整體所參考。
對AI存力底座的明確定義
長久以來,我們都知道AI專項算力的重要性。那么是否需要在存儲領域構建AI專項存力呢?這一直是個業界激烈爭論的問題。而橡樹嶺國家實驗室的答案,或許可以起到一錘定音的效果。在其發布的面向2027構建下一代數據中心方案中,明確提出了面對大模型的引入,除了需要面向傳統超算場景的存儲體系之外,要單獨設立AOS(AI-optimized storage)品類。這也就是說,要建設傳統超算業務和面向AI業務負載的兩套I/O存儲系統——PFS和AOS,即構建更適應、更匹配AI負載的專項存儲。
這是因為橡樹嶺國家實驗室已經意識到,未來超算將面臨著越來越多的AI處理任務。這不僅僅需要算力系統的提升,更需要單獨針對存儲系統進行升級。因此對AI工作負載定制全新的存儲子系統至關重要。
兩套I/O存儲系統相比較的話,很容易找到區別。
傳統的PFS,更多是針對單一POSIX文件命名空間,整體業務的I/O較大,并且更多針對大文件進行運算處理,更強調集群聚合帶寬,對小文件的創建或讀取性能要求并不高。
而相較于PFS,AI應用折射到AOS負載上的文件更加復雜,大小不一,并且數據密集型分析占據了更大比重,在全流程中會產生大量的數據或元數據隨機讀寫情況。這就需要存儲系統既具備高達千萬級的IOPS與OPS、又擁有十TB/s級別的超高帶寬來進行高速順序讀寫。
簡而言之,新的AI負載會帶來巨大的存儲性能需求,這是傳統PFS系統所謂無法負擔的。只有存儲性能極大升級,才能讓AI算力利用率提升,整個模型的訓練效率升級。
其次,極為重要的一點在于AI場景下計算節點故障率高,平均要達到天級甚至小時級就出現故障,因此需要頻繁的斷點續訓,并且還有可能需要很多階段性的模型數據與窗體數據定期保存。因此與傳統的超算任務相比,AI任務需要存儲具有更大的容量以及更高的效率。
接下來,我們還要看到共享存儲的必要性。橡樹嶺國家實驗室要求計算任務在任何計算節點都可以隨機訪問任何一個文件,從而確保AI任務在任何節點訪問時性能具有強一致性。
除此之外,AOS還具備在底層文件系統與AOS之間的高效并行數據傳輸能力,從而確保文件的跨層調度能力。
為了保護珍貴的AI數據資產,AOS對存儲可靠性的要求也提升了很多。由于各種AI訓練大量采用分布式,需要在單點故障后依舊保持數據高可用、任務不中斷。這需要滿足跨節點的EC(Erasure Coding)能力,不像一些傳統并行文件系統僅可做到節點內EC,當節點宕機后就會出現數據丟失、數據完整性受損,并且對于故障后的數據重構的性能速度,也規定了相關時長。
最后,AOS還需要具備本地數據的清洗與處理的能力,包含敏感信息去除、隱私信息過濾,甚至轉碼、去重等工作,從而簡化數據預訓練工作,提升AI任務的整體效率。
總結來說,橡樹嶺國家實驗室已經明確提出,AI大模型浪潮不僅需要專項算力,還需要專項存力。傳統的并行文件系統已經無法滿足AI任務的需求,AI存儲的門檻正在變得更高,定義正在更加清晰明確。
由橡樹嶺國家實驗室的超算探索出發,AI存力的概念將影響到整個產業。
存儲發展的時代信標
橡樹嶺國家實驗室的發現,可以說是一個時代信標,它將輻射到更廣泛的區域,給存儲產業的升級發展提出明確信號。
首先,業界可以由此凝結成一個共識:AI需要專業算力,也需要專業存儲。AI存力概念將成為大模型時代主導存儲產業的骨干。
其次,我們可以看到超算領域將首先得到啟示。在全球各個國家與地區,超算都是國之利器,是科技競賽的關鍵節點。而在超算與AI水乳交融的發展趨勢下,超算場景必須積極引入AI存力升級,設置專業的外置存儲,并且積極踐行以存強算,通過存儲升級來提升AI算力利用率。比如將AI大模型密集型計算之前,為了降低計算通信開銷比,可以將一部分數據預處理下沉到存儲層完成,以此節省AI算力。最終可以通過存儲來提升超算體系的先進性與自主性。
接下來,我們還可以看到這一趨勢將釋放到超算場景之外。在AI大模型走入千行百業的進程中,各個領域都需要考慮存儲是否能夠適配AI模型與算力系統。適時進行存儲升級,實現存、算、AI的相輔相成,是智能化發展過程中的關鍵。
這些啟示,對于中國存儲產業的發展,尤有至關重要的意義。
存力勃發,時代之選
在大模型發展中,存力是前提條件,也是產業支柱。尤其對應到中國在實現科技自立自強,推進數實融合的大勢當中。AI浪潮恰好是一個絕佳契機,可以以最低成本,最高價值實現存儲產業的全面升級更新。
從目前全球主流趨勢來看,存儲升級對AI發展的助力是多方位、全面性的。是一個高吞吐、可共享、大容量、高可靠的存儲系統,是產業智能化、經濟智能化發展的關鍵。
在這個趨勢下,中國存力建設有以下幾個機遇需要緊緊把握:
1.擴大存力規模,提升先進存儲占比。
隨著AI大模型的崛起,以及AI深入到超算、大型政企數字化等場景,會有更多企業傾向于進行本地化的AI訓練與相關數據存儲。這個過程中,既需要擴大存力整體規模,也需要提升以全閃存為代表的先進存儲占比,以此來滿足智能化發展所需。
2.提升存儲技術創新,應對AI時代的數據復雜性。
AI帶來了數據復雜性與應用流程多樣性等一系列挑戰,因此存儲的先進性必須得到進一步提升。比如說,在建設數據湖的過程中,多數據中心、多業務系統的數據歸集緩慢且復雜,跨業務的數據倒換的低效且繁瑣,都給存儲帶來了考驗。因此,存儲需要提升協議互通能力、數據跨域調度、跨系統可視化數據管理等能力。以存儲技術創新,應對AI時代的一系列技術挑戰。
3.提升存儲安全與運維能力,確保AI發展無憂。
AI大模型不僅帶來了數據的復雜性,還帶來了一系列全新的安全隱患,以及愈加復雜的存儲運維管理壓力。因此,存儲需要積極踐行主動安全、自動運維等能力,從而確保AI體系的健康發展。
在這些努力的堅持不懈下,AI存力將得到極大發展。就像我們知道AI算力即生產力,AI存力也將在未來成為生產力釋放的關鍵,成為產業智能化的引擎。
總結起來,一項產業升級與技術發展,首先需要找到信標,讀懂趨勢。如果說此前我們對于AI專項存儲的定義與發展還有爭議,那么橡樹嶺國家實驗室對未來數據中心的定義,就是為這一爭論畫下了句號。
依靠其在超算領域,乃至全球科研界的地位,首先我們可以看到AI存儲本身的絕對必要性。其次可以對AI存儲的定義、門檻與發展規范提出詳細的要求。由此一來,我們可以在越來越多的證據下,清楚地看到AI大模型時代存儲升級的必然。
AI存力的價值,在頂級實驗室的論證與探索中可以證明;在存儲產業多年來走向自主化、先進化的發展腳步中可以證明;在每一次AI訓練之后,模型開發者對存儲價值的慨嘆中可以證明。
抓住AI機遇,促使存力勃發,是時代之選,更是時代之幸。
-
存儲
+關注
關注
13文章
4298瀏覽量
85802 -
AI
+關注
關注
87文章
30746瀏覽量
268896 -
超算
+關注
關注
1文章
115瀏覽量
9070 -
大模型
+關注
關注
2文章
2425瀏覽量
2645 -
存力
+關注
關注
0文章
23瀏覽量
80
發布評論請先 登錄
相關推薦
評論