在10月29日由中國電子工業標準化技術協會舉辦的數據存儲專業委員會(簡稱“數據存儲專委會”)成立大會上,匯聚了產業界代表、專委會成員及多位院士專家,共逾百人,共同探討了數據存儲產業的發展,并見證了數據存儲專業委員會的正式成立。會上,中國工程院院士、數據存儲專委會名譽會長鄭緯民發表了題為“AI存儲:人工智能大模型的基石”的主旨演講。
鄭緯民院士指出,人工智能進入大模型時代展現出兩大特征:一是基礎大模型邁入多模態時代,實現了從單一文本到圖片、視頻等多模態信息的綜合應用;二是大模型已在金融、醫療、智能制造等多個領域得到實際應用。
針對大模型的四個關鍵環節,鄭緯民院士詳細闡述了存儲在大模型訓練和推理應用中所面臨的挑戰及相關技術:
首先,數據獲取階段,大模型訓練需要海量的原始數據,這些數據需被存儲設備妥善保存。隨著大模型從單模態向多模態發展,產生了數以百億計的小文件,這對文件系統的目錄擴展性、讀寫速度以及存儲的低延遲和高可擴展性提出了更高要求。
其次,數據預處理階段,由于原始數據質量參差不齊,存在大量重復和低質量數據,因此需要進行預處理以提升數據質量。以ChatGPT4級別的大模型為例,其訓練過程可能需要1萬塊A100顯卡耗時11個月,其中數據預處理可能占據一半以上的時間,這與數據存儲的性能密切相關。
再次,模型訓練階段,大規模訓練系統(如10萬塊顯卡組成的系統)的可靠性難以保證,頻繁出現故障,導致集群可用度低下。為了快速恢復訓練,需要依賴高性能的存儲系統來快速讀取CheckPoint數據。華為與清華大學MADSys實驗室聯合開發的高性能AI存儲系統在此方面表現出色,曾在國際權威機構MLPerf Storage基準評測中獲得第一名,性能密度是第二名的兩倍。
最后,模型推理階段,這是與AI應用最直接相關的環節。更高效的人工智能需要處理更多數據、使用更大模型以及更長的上下文窗口,但這同時也帶來了極重的推理負載。模型參數以及推理過程中產生的KV-Cache需要巨大的存儲空間。為此,國內優秀的大模型應用Kimi與清華大學MADSys實驗室共同推出了Mooncake分離式推理架構,通過保存共享的KV-Cache,采用以存換算的策略大幅提升系統吞吐。
鄭緯民院士強調,模型推理過程是一個復雜的存儲系統工程,關鍵在于存儲容量大、傳輸速度快以及性價比高。清華大學MADSys實驗室聯合華為數據存儲、9#AISoft、阿里云、面壁、趨境等公司共同開發的高性能內存型長記憶存儲系統即將開源發布,該系統能夠實現大范圍全局共享與持久化KV-Cache,以存換算,共同構建大模型時代下的高性能內存型長記憶存儲系統生態。
最后,鄭緯民院士總結指出,AI存儲是人工智能大模型的基石,貫穿于大模型生命周期的每一個環節。通過以存強算、以存換算,先進的AI存儲能夠提升訓練集群的可用度,降低推理成本,提升用戶體驗。
-
存儲
+關注
關注
13文章
4297瀏覽量
85801 -
AI
+關注
關注
87文章
30734瀏覽量
268893 -
人工智能
+關注
關注
1791文章
47184瀏覽量
238266
發布評論請先 登錄
相關推薦
評論