浪潮信息正式發布大模型智算軟件棧 OGAI。OGAI (Open GenAI Infra)"元腦生智",是為大模型業務提供AI算力系統環境部署、算力調度保障及模型開發管理能力的全棧全流程的智算軟件棧。OGAI由浪潮信息基于大模型自身實踐與服務客戶的專業經驗而開發,旨在為大模型研發與應用創新全力打造高效生產力,加速生成式AI產業創新步伐。
大模型是當前通用人工智能產業發展創新的核心技術。目前國內已發布的生成式AI模型超過了100個,"百模爭秀"的格局初現。但大模型從研發到應用的各環節中,依然面臨諸多挑戰,如大模型算力的系統全棧問題、兼容適配問題、性能優化問題等。
OGAI是浪潮信息從當前大模型算力建設、模型開發和應用落地的實際需求出發,秉承全棧全流程、算力充分釋放、實戰驗證提煉的設計原則打造而成。OGAI由5層架構組成,從L0到L4分別對應基礎設施層的智算中心OS、系統環境層的PODsys、調度平臺層的AIStation、模型工具層的YLink和多模納管層的MModel。
L0層智算中心OS:面向大模型算力服務的智能算力運管平臺,滿足多租戶以裸金屬為主的彈性AI算力運管需求。其中,高效的裸金屬服務支持分鐘級部署上千規模裸金屬節點并按需進行彈性擴展,實現異構計算芯片、IB、RoCE高速網絡、高性能存儲等環境一鍵獲取,并實現計算、網絡、數據隔離以保障業務安全。
L1層PODsys:開源、高效、兼容、易用的智算集群系統環境部署方案。聚焦智算集群部署場景,從OS、驅動到系統監控可視化、資源調度等集群系統環境要素全面覆蓋,選用最穩定和廣泛兼容的軟件版本,通過一系列腳本工具簡化部署過程,縮短算力上線周期,并可向企業用戶提供實施安裝服務和集群性能校準的專家服務。
L2層AIStation:面向大模型開發的商業化人工智能算力調度平臺。針對大模型訓練中常見的訓練中斷難題,可實現訓練異常快速定位,斷點自動續訓:通過快速定位芯片、網卡、通訊設備異常或故障,實現全局訓練暫停保持,熱備算力自動彈性替換,健康節點快速CheckPoint讀取,實現斷點自動續訓。
L3層YLink:面向大模型數據治理、預訓練、微調的高效工具鏈。聚焦于大模型的數據治理、預訓練、微調等開發過程,集成了浪潮信息在大模型研發中的自研工具和開源工具,如數據處理工具包(Y-DataKit)、大模型訓練工具包(Y-TrainKit)和大模型微調工具包(Y-FTKit)等等,通過這些多樣且完善的工程化、自動化工具,加速大模型的訓練和開發效率。
L4層MModel:提供多模型接入、服務、評測等功能的納管平臺。核心組件包括數據集管理、模型納管和評測,可以方便開發者和研究人員更好地管理多版本、多類型的基礎大模型與任務模型,并通過多樣化的評測數據集與評測任務,對多個模型進行生成準確率、推理延遲、推理穩定性等指標進行全面評估。
浪潮信息高級副總裁、AI&HPC總經理劉軍表示:"OGAI提供完善的工程化、自動化工具軟件堆棧,將幫助更多企業順利跨越大模型研發應用門檻,充分釋放大模型創新生產力。浪潮信息將通過智算系統軟硬件高度協同進行持續創新,持續培育繁榮元腦生態,推動實現‘助百模,智千行',加速生成式AI產業創新。"
審核編輯:湯梓紅
-
浪潮
+關注
關注
1文章
458瀏覽量
23851 -
AI
+關注
關注
87文章
30728瀏覽量
268892 -
大模型
+關注
關注
2文章
2423瀏覽量
2645
發布評論請先 登錄
相關推薦
評論