【導讀】大模型時代,玩家如何掘金?最近,這套大模型智算軟件棧OGAI,竟吸引了國內幾十家參與「百模大戰」的企業圍觀。 中國企業,能否趕超OpenAI? 大模型爆火之后,許多人都在追問這樣的問題。 然而,這個領域的中美差異性,決定了這一事實:美國現在的格局,未必就是中國未來的格局。 美國可能只有少數的大模型企業,而中國,或許會呈現百花齊放的新格局,并不會是只剩下少數幾個大模型,其他人在它們的基礎上去做應用和開發。 從十年維度來看,如今的GPT-4還只是一個baby,而今天的我們,只是剛剛打開生成式AI的一扇門而已。
在這個大模型狂飆的時代,英偉達CEO黃仁勛有一句名言,「the more you buy,the more you save!」 「如果你能將一個價值50億美元的數據中心的訓練時間縮短一半,那么節省下來的費用就超過了所有芯片的成本。」
大模型,怎樣才能玩得起
但問題在于,面對如此高的門檻,究竟哪些玩家才能玩得起? 目前,大模型研發已進入萬卡時代,一家企業如果想自己擁有大模型,至少需要幾十億投資。 然而,即便是買下來之后,緊接著還會面臨建不了的問題。 此前的云計算是把一臺機器拆分成很多容器,而現在的大模型需要多臺機器集群的集中力量,在較長時間內完成海量計算任務。 如何保證低時延海量數據交換?如何讓多臺機器均衡計算,避免冷熱不均?如果硬件出現故障,算法需要重新跑一遍,又怎么辦?
瓶頸之下,算力利用率變得尤為重要
不可否認,對于大模型的研發來說,最大的挑戰之一,就是對龐大的算力基礎設施的需求。 然而,訓練大模型的算力平臺并不是算力的簡單堆積,隨著模型的規模越來越大,單卡算力與模型總算力需求之間存在著巨大的差異。 與此同時,雖然隨著硬件的改進FLOPs的成本得到了部分改善,但大模型的持續升級使得總成本一直在增加。 目前,GPT-4、PaLM-2的算力當量,已經達到了GPT-3的數十倍,相當于上萬顆業界性能領先的NVIDIA Hopper架構的GPU芯片組成的AI集群,訓練超過1個月的時間。 算力平臺的構建之所以這么難,是因為它不止是服務器、存儲、 網絡等硬件設備的集成,也有諸多設備軟硬件兼容性和性能調教上的know-how。 而對于企業來說,由于缺乏工程實踐的經驗,進一步限制了硬件計算能力的發揮。這不僅讓本就匱乏的算力資源雪上加霜,更是無法快速地提升模型質量來應對狂卷的競爭。
從數據到算法再到RLHF,過程冗長
在算法開發層面,PB級數據的爬取、清洗、過濾和質檢,大規模預訓練的算法設計、性能優化和失效管理,都面臨著重重難題。 DeepMind的研究表明,想要把一個大模型訓練充分,每個參數的訓練量要達到20個token。因此,當前的很多千億規模的大模型還需要多用10倍的數據進行訓練,模型性能才能達到比較好的水平。 目前,國內大模型產業數據集主要還是簡體中文加上少量英文為主,數據集的單詞量在100億級。相比之下,訓練GPT模型的單詞量級為5700億。也就是說,單從規模上來看就是1:57的差距。 不僅如此,從設計指令微調數據集,到優化RLHF,整個開發鏈十分冗長,這更需要背后有諸多工程化工具。
模型訓練:周期長、效率低,斷點問題嚴峻
另外,大模型的訓練過程,也比傳統的分布式訓練復雜,訓練周期長達數月。 而集群計算效率低、故障頻發且處理復雜,會導致訓練中斷后不能及時恢復,從而會降低成功率,也會使訓練成本 居高不下。 從工程角度來看,這是一個非常復雜的流程,其中的硬件、系統、軟件、驅動等等都必須相互適配,才能起跑。 期間,各個部分都需要能穩定持續運轉,才能保障模型訓練的效率。一旦出現問題,都會讓整個訓練過程停擺。 比如,Meta就曾在訓練OPT-175B模型的日志中提到,幾乎整個訓練過程都要面對不停地重啟和中斷。
在訓練完成到30%左右處,Meta的訓練日志顯示,在兩個星期的時間段內因為硬件、基礎設施或實驗穩定性問題而重新啟動了40多次! 絕大多數重新啟動都是由于硬件故障以及缺乏提供足夠數量的「緩沖」節點來替換壞節點的能力。通過云接口更換一臺機器可能需要幾個小時。
在維護日志中,Meta的訓練人員記錄到:
總而言之,解決基礎設施問題占據了團隊最后兩周的大部分時間,因為這些硬件問題可能會在一天中的任何時間導致訓練中斷幾個小時。
雖然我們充分意識到這些問題會在這種規模的訓練過程中反復出現,但考慮到在2021年底之前完成一個175B模型訓練全部工作時間非常緊迫,我們別無選擇,只能通過不停重啟的方式,看看如果沒有額外的訓練工具的幫助我們能走多遠。?
在找到一個加速重啟的方案并安排了更多的人手24小時輪值維護之后,Meta依然還是要面對硬件層面的各種問題。 內部訓練進度的圖表顯示,接下來的兩周之內,最長的3次連續訓練時間長度只有2.8天,2天,1.5天。
不難看出,就連強如Meta這樣的團隊,都會或多或少地受到上述挑戰的困擾。 因此,對于還處在探索階段的國內大模型產業來說,就更加需要一套能夠保障其生產力的AI基礎設施。 正如浪潮信息人工智能與高性能應用軟件部AI架構師Owen ZHU所說:「以前都認為,買服務器就像買手機、買電腦一樣,只要開機就能用了;但實際上隨著算力需求持續變大,事情變得越來越復雜,實際上買回去也不一定能用得起來。」
OGAI:你可能要踩的坑,他們都替你踩過了
為了切實地解決這些問題,近日,浪潮信息正式發布發布了大模型智算軟件棧OGAI(Open GenAI Infra)——「元腦生智」。 面對各種以大模型為核心的生成式AI開發與應用場景,OGAI都提供了全棧全流程的軟件,包括集群系統環境部署、算力調度保障、大模型開發管理等。 為了充分釋放智算集群的能力,OGAI在每個層次上都對性能和穩定性進行了相應的優化,包括服務器BIOS的調教、大規模集群組網性能、算力調度策略等。 同時,也融合了浪潮信息在MLPerf性能評測、服務客戶實際需求、開發源大模型的實踐經驗。 如此一來,就可以大幅降低大模型算力系統的使用門檻、優化大模型的研發效率。無論是生產,還是應用,都得到了保障。 總之,你可能會踩的坑,浪潮信息都提前幫你踩過了。
具體而言,OGAI由5層架構組成,從L0到L4分別對應基礎設施層的智算中心OS、系統環境層的PODsys、調度平臺層的AIStation、模型工具層的YLink和多模納管層的MModel。 值得注意的是,OGAI軟件棧的使用非常靈活。從L0到L4層的設計和實現,都是分層的。也就是說,你并不一定要用到L0到L4整體的方案去開發大模型。 因為每一層都是分層解耦的,需要哪一層的實現或對應的功能,就只用那一層就可以了。
L0層智算中心OS:面向大模型算力服務的智能算力運管平臺,滿足多租戶以裸金屬為主的彈性AI算力運管需求。
其中,高效的裸金屬服務可以在幾分鐘內部署規模達上千的裸金屬節點,并按照需求進行擴容,能夠一鍵獲取異構計算芯片、IB、RoCE高速網絡、高性能存儲等環境,同時實現計算、網絡和數據的隔離,確保業務的安全性。
L1層PODsys:開源、高效、兼容、易用的智算集群系統環境部署方案。
這一層可以全面覆蓋AI集群的部署場景,包括系統環境,從OS、驅動到系統監控可視化、資源調度等。值得一提的是,這是浪潮信息首創的一個開源項目。
下載地址:https://podsys.ai/ PODsys集成了數十個智算集群部署所需的驅動程序、軟件和其他安裝包,并提供了一系列腳本工具來簡化部署過程,而用戶只需執行兩個簡單的命令就能完成整個集群的部署。 就拿模型整套流程中的一環「驅動」來說,不管是上層調優,還是底層調優。 在過去就像是開盲盒一樣,對于客戶來說A可能適用,而對B并非適用,由此所帶來的成本是巨大的。
舉個栗子,某互聯網客戶A在使用AI集群,在對面向推薦場景的AI大模型進行訓練時,卻發現服務器中的CPU到GPU之間的通信帶寬和存儲到服務器之間的通信帶寬沒法同時跑滿。 帶來的結果就是,模型數據不能及時從存儲讀取,進而導致GPU空閑和訓練性能低下。 面對這一難題,客戶A的算法團隊用了幾個月的時間也沒有攻克。 浪潮信息的AI團隊介入后,發現客戶的場景中,大模型對數據讀取IO的需求遠超一般的AI模型訓練情況,從而導致針對普通模型訓練的服務器配置在推薦場景中出現了不適配的情況。 針對這一特殊的需求,基于自身經驗,浪潮信息團隊對CPU BIOS中的mps等多個選項配置進行了針對性的的修改優化,很好的解決了這一問題。 再比如在環境配置中,也會遇到一些意想不到問題。 為了滿足大模型算力需求,某互聯網客戶B購買多臺高端的AI服務器,并沿用之前的使用習慣進行了操作系統和環境的部署。 然而,在運行大模型訓練任務時發現,GPU掉卡,OOM等錯誤頻頻出現,導致開發人無法正常使用設備。 觸發這一故障警報的主要原因就是,客戶B操作系統配置中的部分pcie相關參數和當前GPU設備的需求不兼容。 對此,浪潮信息向客戶提供了正確的配置參數之后,很快解決了這個問題。 可以看出,大模型算力平臺并非是簡單算力堆積,還需要解決訓練推理效率,系統穩定性等一系列工程問題。 就像Owen ZHU談到的一樣,當智算中心的規模從十幾臺服務器擴展到幾百臺,使用難度便會呈指數級上升。 L1層PODsys就像初始化操作系統預裝的驅動程序,能夠高效部署AI系統,而不用重新開發組件。 它恰恰為AI集群部署提供一個完美的解決方案,即「將工程經驗總結成一套工具鏈式的回答。」
L2層AIStation:面向大模型開發的商業化人工智能算力調度平臺。
這一層主要針對大模型訓練中常見的「訓練中斷」難題,能夠訓練異常快速定位,斷點自動續訓。 AIStation的核心能力,可以歸結為以下3個方面:1. 在開發環境和作業管理方面AIStation實現了計算、存儲、網絡等訓練環境的自動化配置,同時允許用戶自定義基本的超參數,只需簡單幾步,就能完成大模型分布式訓練。 并且,AIStation還集成了主流的大模型訓練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案,實現了秒級構建運行環境。 這樣的優勢在于,能夠幫助開發者在大規模集群環境下便捷地提交分布式任務。 然后,調度系統根據分布式任務對GPU算力的需求,通過多種親和性調度策略,大大降低構建分布式訓練任務技術門檻。 比如,英偉達開發的基于PyTorch框架Megatron-LM能夠在AIStation上實現快速部署,訓練全程都有保障。
2. 在大規模算力調度方面能夠制定合理的作業執行計劃,以最大限度地利用資源,滿足訓練任務的時延和吞吐需求。 AIStation優化調度系統性能,實現了上千POD極速啟動和環境就緒。 另外,針對大模型訓練通信要求高的場景,AIStation提供集群拓撲感知能力。通過聯合優化,AIStation在千卡集群中能實現90%以上的分布式計算擴展。 比如,就拿GPT-4來說,在大約25000個A100GPU上訓練90-100天,算力利用率為32%至36%。 而浪潮信息所打造的「源1.0」訓練算力效率則達到了44.8%。
3. 在訓練穩定保障方面健壯性與穩定性是高效完成大模型訓練的必要條件。 利用AIStation內置的監控全面的監控系統和智能運維模塊,可以快速定位芯片、網卡、通訊設備異常或故障。 進一步,通過對訓練任務進行暫停保持,然后從熱備算力中進行自動彈性替換異常節點,最后利用健康節點進行快速checkpoint讀取,讓大模型斷點自動續訓成為可能。 比如,之前提到Meta在訓練OPT-175B模型時反復遇到的訓練中斷問題。 AIStation就能提供一整套的解決方案,避免類似情況的發生,或者將訓練中斷造成的影響控制到最小。
L3層YLink:面向大模型數據治理、預訓練、微調的高效工具鏈。
針對大模型開發的2個核心環節——數據處理和模型訓練。浪潮信息在YLink中集成了大模型研發中所需的自研工具和開源工具,如數據處理工具包(Y-DataKit)、大模型訓練工具包(Y-TrainKit)和大模型微調工具包(Y-FTKit)。 這些多樣且完善的工程化、自動化工具,大大加速了大模型的訓練和開發效率。
首先是數據的處理。 在LLM出現以前,鮮少有人能預見它背后巨大的想象力。它被視為大模型落地的入場券,軍備競賽中的護城河,AI界的戰略資源。 GPT-3.5的文本語料多達45TB,而GPT-4在GPT-3和GPT-3.5訓練數據集的基礎上,又增加了多模態數據。 想訓練出強大的大語言模型,就需要依托充足的高質量數據。數據的數量、質量、多樣性乃至清洗能力,都是影響大模型性能的關鍵要素。 在YLink工具鏈中,數據生成工具DataGen、數據抽取工具FileQA、數據采集工具Gather、格式轉換工具Transform、數據清洗工具Purify,大大方便了開發者的數據處理過程。 這樣,數據源和元數據被采集、處理后,就被轉換成模型訓練所需的數據,也就是得到了「煉丹」的原材料。 在有了「足夠高質量」的標注數據之后,就可以進一步為「足夠穩定」的模型邏輯推理能力提供支撐了。 接下來,針對大模型的預訓練過程,YLink提供了數據處理工具Gather、Transform和Purity以及基于業界主流大模型分布式訓練框架NVIDIA Megatron和MS DeepSpeed的大規模分布式預訓練參考流程。
ChatGPT能火爆全球,關鍵的原因之一,是「它能像人一樣思考。這背后的原因,就是基于人類反饋的強化學習(RLHF)」。 在微調類ChatGPT模型過程中,主要會涉及三個階段:有監督微調(SFT)、獎勵模型(RM)訓練和獎勵模型上的近端策略優化(PPO)。 在SFT階段,模型通過模仿人類標注的對話示例來學習通用的類人對話;在獎勵模型訓練過程中,模型會根據人類反饋來比較不同回復的偏好;在PPO階段,根據獎勵模型的反饋更新模型,通過探索(exploration)和利用(exploitation)發現最優策略。 同樣的,對于模型微調這個階段來說,數據質量也至關重要。 現在,有了YLink在數據和訓練上提供的全方位支持,我們就可以輕松煉丹了。
L4層MModel:提供多模型接入、服務、評測等功能的納管平臺。
對于客戶來說,不論是開發大模型,還是調用第三方模型再用數據微調訓練,都會遇到一個問題,即不會只用到一個模型。 鑒于當前AI領域各種模型的豐富度,他們會選擇把多家模型進行比對,以找到更適合自己的最優解。 而這當中需要經歷一個必不可少的過程,涉及到如何管理多模型,如何下載,如何根據自身場景對模型進行自動化評測。 對此,浪潮信息提供了多模型納管方案,其核心組件包括數據集管理、模型納管和評測,可以方便開發者和研究人員更好地管理多版本、多類型的基礎大模型與任務模型。 并且,通過多樣化的評測數據集與評測任務,它可以對多個模型進行生成準確率、推理延遲、推理穩定性等指標的全面評估。 這樣,開發者就可以快速部署和應用模型,并且,多模型的納管可以讓我們在保證模型權重、數據集安全的前提下,對外提供API服務。
大模型掘金的「秘密武器」
不難看出,OGAI不僅可以保障大模型訓練時算力供應的可持續性,而且還充分考慮到了硬件、軟件、算法、框架層面引發的訓練中斷、失效的問題,進而幫助企業順利跨越大模型研發應用門檻。 這些能力和基礎的背后,是來自浪潮信息在30余年深耕硬件行業的積累之上,在AI服務器產品,算力系統優化方面的先發優勢。 一方面,率先布局AIGC領域的浪潮信息,是國內為數不多具備了千億大模型工程實踐經驗的企業。這使得浪潮信息對于開發大模型的整套流程了如指掌。 未來客戶在AIGC工程領域中要踩的坑,浪潮信息已經提前替客戶踩了;必須要面對的技術難題,浪潮信息已經提前解決了。客戶借助浪潮信息推出的OGAI解決方案,讓自己能站在巨人的肩膀上,落地產品和服務。
基于千億級大模型的工程實踐,浪潮信息對于如何高效調度千卡規模的算力,以及保障訓練任務的長期穩定運行已經有了豐富的經驗。 具體來說,在訓練數據層面,浪潮信息的AI團隊逐步建立了完整的從公開數據爬取到數據清洗、格式轉化、數據質量評估的完整流程和工具鏈。 通過自研海量數據過濾系統(MDFS),建立從數據采集、粗濾、質量分類、精濾的全自動化的端到端數據工作流程,通過清洗866TB海量數據,獲得5TB高質量中文數據集。 在模型訓練層面,浪潮信息通過對云原生的調度系統進行了改造,大幅加速其啟動速度,并重點解決了RDMA網絡在容器中的接入和適配優化,較好地構建了一套能夠滿足大模型需求的算力調度系統。 另一方面,除了親自搭建和研發的經驗之外,浪潮信息還在服務客戶的過程中,解決了各種不同體量、不同賽道的企業在實踐中遇到的問題。 在集群架構及軟硬件層面,解決了諸多如CUDA初始化失敗、GPU掉卡、 p2p Bandwidth Latency延遲過高、NCCL通信性能低,GPU direct RDMA未使能等問題。
2022年以來,浪潮信息的AI團隊協助多個客戶把大模型訓練的GPU峰值效率從30%左右提升到50%。從而大幅加速了模型訓練過程。 比如,將系統工程經驗,應用于智算中心算力系統,全面優化了集群架構、高速互聯網絡和算力調度等等。「通過合理設計張量并行、流水并行和數據并行,精準調整模型結構和訓練過程的超參數,千億參數規模的大模型訓練算力效率可達至53.5%」。 此外,網易伏羲中文預訓練大模型「玉言」,也在浪潮信息的助力下登頂中文語言理解權威測評基準CLUE分類任務榜單,并在多項任務上超過人類水平。 基于豐富的經驗積累,浪潮信息能夠快速挖掘出客戶的痛點,并將需求與現有技術進行有效整合。 最大程度地解決未來客戶會的遇到的問題,滿足各個賽道不同客戶在AI工程領域的不同需求。而這,便是OGAI解決方案正在實現的。 大模型的發展,猶如黑暗森林里的一束光,讓整個產業高效邁入AGI。 站在未來10年看如今百模爭霸的時代,加快產業進度,就是核心關鍵。 浪潮信息高級副總裁劉軍表示,浪潮信息的初心即是「探索前沿技術,讓算力充分賦能大模型訓練,以及背后的產業落地化」。 今時火熱的AIGC產業機遇中,浪潮信息必然會留下濃墨重彩的一筆。
-
gpu
+關注
關注
28文章
4733瀏覽量
128908 -
算力
+關注
關注
1文章
969瀏覽量
14796 -
大模型
+關注
關注
2文章
2436瀏覽量
2661
原文標題:全球GPU缺口超40萬張!算力之困,中國大模型有解了
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論