去年年底,ChatGPT誕生,憑借強大、精準的自然語言理解和生成能力,令全球用戶為之一震。
自此,各行各業紛紛投身大模型研發競賽,掀起新一輪技術創新熱潮。金融行業更是如此。如何構筑面向大模型時代的新型算力和存力基礎設施,實現大模型能力向金融領域的遷移,成為金融機構熱議的話題。
金融大模型 在哪些場景有用武之地?
作為AI新基建,大模型在金融行業有著廣泛的應用場景。
在前臺,智能客服,是AI在金融領域最常見的應用方向之一。還記得鋼鐵俠電影里的AI管家賈維斯(Jarvis)么?金融大模型將大幅提升客戶經理的專業水平和服務能力,大幅降低客戶經理的運營成本,讓每個人都擁有類似Jarvis的24小時在線的專業客戶經理。
在中臺,AI大模型有機會改變金融機構內知識獲取、內容創作、會議與溝通、代碼開發與測試的方式,提升內部辦公效率,甚至引發研發測試模式變革,全方位提升金融機構內部運營效率。
在后臺,大模型將成為智能科技底座的標配,大幅降低智能技術應用的門檻,只需少量標注數據就可以讓智能技術覆蓋廣泛的場景。
總之,AI大模型在內容生成與創作、信息摘要與總結、知識理解與問答、自然交互與對話等方面具備非常出色的能力,在金融行業有廣泛的應用前景。
萬卡規模、萬億參數,大模型有“高門檻”
大模型的快速迭代,需要高效算力和存儲基礎設施的加持。
一方面,算力是大模型的引擎。語言類、視覺類模型容量和相應的算力需求都在快速擴大,金融大模型發展的背后是龐大的算力支撐。如果用“算力當量”(PetaFlops/s-day,PD),即每秒千萬億次的計算機完整運行一天消耗的算力總量,來對人工智能任務所需算力總量進行度量,大模型訓練需要幾百甚至幾千PD的算力支持,也意味著需要巨大的算力成本。
算力是大模型發展核心要素
例如,OpenAI 在2020 年推出的 GPT-3,對算力的需求至少要上萬顆A100 GPU,一次模型訓練總算力消耗約3,640PD的算力。又如,浪潮信息推出的“源”中文語言大模型有近2500億個模型參數,算力消耗達4000PD。再如,當前GPT-4和PaLM-2的算力當量已經達到GPT-3的數十倍。這還不算,谷歌正在開發的下一代多模態大模型Gemini,其訓練量碾壓GPT-4,達到后者5倍。
快速攀升的AI算力消耗,有限的IT預算,讓大多數金融機構陷入兩難境地:想做大模型,但資源匱乏、成本壓力大、人才稀缺;不做大模型,又只能坐看機會錯失。
對此,分而治之或許是一種可行的辦法。所謂分,就是把大模型分為通用大模型和行業大模型。金融機構不用自己打造通用大模型,而是基于第三方的通用大模型,在此基礎上專注打造行業大模型。根據信通院發布的《行業大模型標準體系及能力架構研究報告》,通用大模型缺乏專業知識和行業數據,而且構建和訓練成本很高,難以實現商用。為更好解決特定行業為題,行業大模型應運而生。行業大模型可以滿足特定場景需求,更好地為行業提供優質的服務,促進行業智能化轉型升級。
浪潮信息AI服務器產品專家郭磊表示,“金融機構可以集中資源在行業大模型上,不是‘在一千米的地上挖一米深的溝’,而是‘在一米的地方挖一千米深’”。
大模型訓練四個階段
具體來看,大模型訓練的第一階段是無監督預訓練階段,訓練周期往往持續數十天到數月,需要數千張GPU卡同時計算,算力消耗巨大,訓練時間非常長,訓練出來的模型是基礎語言模型。金融機構可以通過使用開源平臺或者第三方合作(如浪潮信息的“源”大模型),獲得基礎語言能力。第二到第四階段是有監督精調階段、獎勵模型訓練和強化學習,這3個階段需要數十張乃至上百張GPU卡同時計算,算力消耗的規模和訓練時長相比第一階段都有明顯下降,所以金融機構可以在這三個階段進行訓練,打造有金融行業優勢的大模型。
另一方面,大模型光有算力遠遠不夠,還取決于數據規模和數據質量。
大模型的優勢在于海量信息的搜集、提取和分析能力,這是人類難以企及的。
大模型參數規模的進化
近幾年,通用大模型的參數量快速增長。2016年OpenAI發布Gym強化學習平臺,2018年GPT-1問世,模型參數為1.17億,經過不斷迭代,GPT-4參數規模達到1.76萬億。Google從2017年發布Transformer(6500萬參數)架構以來,陸續發布BERT(2018年,3億參數)、T5(2019年,110億參數),參數規模逐步提高。近期,Google發布通才模型PaLM-E,這是全球最大的視覺語言模型,包含5620億參數。
在垂直行業,金融大模型的數據集在通用大模型基礎上還需包含諸如金融研報、股票、基金、銀行、保險等方向的專業知識,通過在訓練過程中加入大量金融對話數據并針對金融領域進行特定的預訓練調優,提升其在金融垂直領域的表現。
同時,多模態、跨模態成為常態,金融大模型的數據類型變得更加豐富。其中無監督數據,即原始數據,數據格式可以是網頁、文本或語音數據;有監督數據,即經過標注的數據,格式可以為json或Query。此外,為了給投資者提供實時市場輿情和風險預測等服務,金融機構還要高效處理金融行業新聞、股票交易,乃至社交評論等金融數據。這些巨量、多模態、實時的金融數據新需求、新特征,傳統集中式存儲難以應對,需要彈性、靈活的新型分布式存儲架構來支撐。
由此可見,隨著金融大模型的演進,整個數據中心的架構都會發生改變,從AI服務器、到存儲、再到網絡的全棧方案都需要適應大模型時代的需求。
基礎設施 如何“存得下、算得快、傳得穩”
只有數據“存得下”、算力“算得快”、網絡“傳得穩”,數字基礎設施才能充分發揮數據要素價值,推動大模型應用落地,帶動新業態繁榮發展。
對此,浪潮信息基于智慧計算戰略,從算力、算法、數據、互聯四方面推進產品創新,為大模型打造強大底座。
算力方面,浪潮信息通過千億參數規模的大模型創新實踐,已在算力集群構建、算力調度部署、算法模型開發等方面,構建起全棧領先的大模型算力系統解決方案,助力大模型訓練開發。其中最新一代融合架構的 AI 訓練服務器 NF5688G7 采用 Hopper 架構的 GPU, 較上代平臺大模型實測性能提升近 7 倍,同時支持最新的液冷解決方案,可實現更低的集群能耗比與運行成本,PUE 小于 1.15, 以一個 4000 卡的智算中心為例,每年可節電 620 萬度、降碳 1700 噸。
存儲方面,浪潮信息生成式AI存儲解決方案用一套AS13000融合存儲支撐生成式AI的全階段應用,提供全閃、混閃、帶庫、光盤四種介質,支持文件、對象、大數據、視頻、塊多種協議。結合AIGC數據處理的五個階段:數據采集、準備、訓練、推理和歸檔,浪潮信息由同一套存儲提供端到端的數據流支持,滿足文本、音頻、圖像、視頻、代碼等多模態數據的存儲和處理需求。
浪潮信息存儲產品
在集群高速互聯層面,浪潮信息基于原生 RDMA 實現整個集群的全線速組網,并對網絡拓撲進行優化,可以有效消除混合計算的計算瓶頸,確保集群在大模型訓練時始終處于最佳狀態。
當前,國有大行、股份制銀行以及部分城商行,均已經開展或計劃開展金融大模型研發,AI算力和數據基建將迎來高速發展。根據IDC預測,未來5年中國智能算力規模的年復合增長率將達52%,分布式存儲增速將達到中國市場增速的2倍。大模型時代,金融機構需要以AI的場景、架構為抓手,結合各行的數據特點,打造新一代智算基礎設施。
-
存儲
+關注
關注
13文章
4328瀏覽量
85942 -
浪潮
+關注
關注
1文章
463瀏覽量
23892
原文標題:金融行業迎來大模型時代,存算基建成決勝關鍵
文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論