亚洲mv国产精品mv日本mv,中文字幕在线观看免费视频,天堂视频在线

當(dāng)前語(yǔ)言大模型的參數(shù)量已達(dá)千億以上，訓(xùn)練數(shù)據(jù)集的規(guī)模也達(dá)到了TB級(jí)別。業(yè)界典型的自然語(yǔ)言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力當(dāng)量”（PetaFlops/s-day，PD），即每秒千萬(wàn)億次的計(jì)算機(jī)完整運(yùn)行一天消耗的算力總量來(lái)表征大模型的算力需求，具有1750億參數(shù)的GPT-3模型的訓(xùn)練算力需求為3640PetaFlop/s-day。

參數(shù)量為2457億的源1.0大模型訓(xùn)練算力消耗為4095Peta-Flop/s-day。大模型的高效訓(xùn)練通常需要具備千卡以上高算力AI 芯片構(gòu)成的AI服務(wù)器集群支撐。在全球科技企業(yè)加大投入生成式AI研發(fā)和應(yīng)用的大背景下，配置高算力AI芯片的AI服務(wù)器需求也不斷高漲。

2019年OCP成立OAI小組，對(duì)更適合超大規(guī)模深度學(xué)習(xí)訓(xùn)練的AI加速卡形態(tài)進(jìn)行了定義，目的是為了支持更高功耗、更大互連帶寬AI加速卡的物理和電氣形態(tài)，同時(shí)為了解決多元AI加速卡形態(tài)和接口不統(tǒng)一的問(wèn)題。隨后，為了進(jìn)一步促進(jìn)OAI生態(tài)的建立，OAI小組在OAM的基礎(chǔ)上統(tǒng)一了AI加速卡基板OAI-UBB設(shè)計(jì)規(guī)范。OAI-UBB規(guī)范以8張OAM為一個(gè)整體，進(jìn)一步定義了8xOAM的Baseboard的主機(jī)接口、供電方式、散熱方式、管理接口、卡間互連拓?fù)洹cale Out方式。

2019年底，OCP正式發(fā)布了OAI-UBB1.0設(shè)計(jì)規(guī)范，并隨后推出了基于OAI-UBB1.0規(guī)范的開(kāi)放加速硬件平臺(tái)，無(wú)需硬件修改即可支持不同廠商的OAM產(chǎn)品。

面向生成式AI的大模型算力系統(tǒng)的構(gòu)建是一項(xiàng)復(fù)雜的系統(tǒng)工程，基于上述設(shè)計(jì)原則，以提高適配部署效率、提高系統(tǒng)穩(wěn)定性、提高系統(tǒng)可用性為目標(biāo)，進(jìn)一步歸納總結(jié)出開(kāi)放加速規(guī)范AI服務(wù)器的設(shè)計(jì)方法。

面向AIGC的計(jì)算系統(tǒng)交付模式不再是單一服務(wù)器，絕大多數(shù)情況最終部署的形式是包含計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備，軟件、框架、模型組件，機(jī)柜、制冷、供電、液冷基礎(chǔ)設(shè)施等在內(nèi)的一體化高集成度算力集群。

（1）系統(tǒng)架構(gòu)

為滿足大模型訓(xùn)練模型參數(shù)規(guī)模的不斷增大給模型訓(xùn)練帶來(lái)的計(jì)算、存儲(chǔ)、通信等方面的挑戰(zhàn)，系統(tǒng)架構(gòu)設(shè)計(jì)將賦能AI服務(wù)器節(jié)點(diǎn)和服務(wù)器集群以超大規(guī)模集群互連的大模型訓(xùn)練能力。OAM 是 OCP-OAI 小組制定的 AI加速模塊接口規(guī)范，現(xiàn)已發(fā)布 OAM v1.5 規(guī)范，OAM 模塊承擔(dān)起單個(gè) GPU 節(jié)點(diǎn)的 AI 加速計(jì)算能力，通過(guò)符合 UBB v1.5 base 規(guī)范的基板完成OAM間的 7P × 8 FC（Fully Connect，全互連）、6P × 8 HCM（Hybrid cubic mesh，混合立方互連）等高速互連拓?fù)鋵?shí)現(xiàn)多OAM數(shù)據(jù)低延時(shí)共享，利用RDMA網(wǎng)絡(luò)部署等優(yōu)化通過(guò)OSFP/QSFP-DD線纜實(shí)現(xiàn)對(duì)外拓展完成集群互連，突破了服務(wù)器集群在GPU計(jì)算資源、通信效率上的瓶頸，最大程度發(fā)揮OAM計(jì)算性能并降低通信帶寬限制。OAM模塊透過(guò) PCIe Switch 通過(guò)4條PCIe x 16與高性能CPU建立起高速高帶寬數(shù)據(jù)通道，并支持搭配32條RDIMM或LRDIMM內(nèi)存，以最大程度的保障OAM與CPU之間的數(shù)據(jù)通信處理需求。

（2）OAM模塊

OAM規(guī)范由OCP-OAI建立，定義了開(kāi)放硬件計(jì)算加速模塊的結(jié)構(gòu)形態(tài)及互連接口，簡(jiǎn)化了OAM模塊間高速通信鏈路互連，以此促進(jìn)跨加速器通信的可擴(kuò)展性。CPU與OAM 間的連接是透過(guò) PCIe Switch 上行與CPU 4條PCIe x16帶寬完成，極大程度增加CPU與OAM之間的數(shù)據(jù)通信數(shù)量，避免大數(shù)據(jù)量AI訓(xùn)練場(chǎng)景中CPU與OAM間數(shù)據(jù)通信出現(xiàn)瓶頸。支持節(jié)點(diǎn)內(nèi)及節(jié)點(diǎn)間OAMP2P高速互連，OAM之間全互連拓?fù)涓纳屏硕郞AM數(shù)據(jù)共享的延遲情況，為計(jì)算提供更高效的性能。

（3）UBB基板

UBB基板能夠承載支持8個(gè)OAM模塊，形成一個(gè)AI加速計(jì)算子系統(tǒng)。UBB尺寸為16.7×21英寸，搭配UBB的機(jī)型可以放置于19英寸或21英寸機(jī)柜之中。UBB基板上的8個(gè)OAM模塊通過(guò)可以通過(guò)OAM設(shè)計(jì)規(guī)范中的不同互連拓?fù)溥M(jìn)行互連。UBB鏈路可以被拆分為×8鏈路，如果所有7個(gè)端口對(duì)配置成×16將無(wú)法完成對(duì)外拓展，因此為實(shí)現(xiàn)節(jié)點(diǎn)對(duì)外拓展形成互連集群，UBB基板將互連鏈路限制在×8以內(nèi)，并默認(rèn)設(shè)計(jì)端口1的后半部分（×8，通常稱為1H端口）被用作對(duì)外拓展端口。

4）硬件設(shè)計(jì)

UBB基板及OAM硬件設(shè)計(jì)應(yīng)遵從UBB規(guī)范及OAM規(guī)范中的各項(xiàng)硬件規(guī)范、電氣規(guī)范、時(shí)序規(guī)范等。遵從UBB規(guī)范中對(duì)OAM布局的規(guī)范。

OAM 互連拓?fù)鋼p耗評(píng)估標(biāo)準(zhǔn)。對(duì) OAM 互連所涉及的56Gbps PAM信號(hào)進(jìn)行信號(hào)完整性設(shè)計(jì)，包括高速走線參考平面設(shè)計(jì)、高噪聲電源區(qū)域走線、過(guò)孔stub及層面規(guī)劃、走線間距、過(guò)孔間串?dāng)_控制等。OAM之間互連信號(hào)，整體損耗在基頻處要求在30dB 以內(nèi)，其中OAM 的 TX & RX 模組損耗需控制在 8dB 以內(nèi) ， C a b l e 拓撲要求QSFP-DD assembly 線纜損耗在5dB以內(nèi)，PCB 損耗根據(jù)拓?fù)渚唧w計(jì)算即可。

（5）散熱設(shè)計(jì)

風(fēng)冷散熱：服務(wù)器節(jié)點(diǎn)風(fēng)冷散熱使用高效能風(fēng)扇墻設(shè)計(jì)，并采用側(cè)邊防回流設(shè)計(jì)以增大相同風(fēng)扇轉(zhuǎn)速下的系統(tǒng)風(fēng)量。采用導(dǎo)風(fēng)罩設(shè)計(jì)的基礎(chǔ)上增加OAM、CPU區(qū)域多風(fēng)道隔離設(shè)計(jì)，能夠結(jié)合區(qū)域感溫能力實(shí)現(xiàn)分區(qū)散熱。風(fēng)扇全部支持熱插拔，支持N+1轉(zhuǎn)子冗余，支持風(fēng)扇速度智能調(diào)節(jié)。針對(duì)UBB基板及OAM模塊，進(jìn)行散熱器性能的熱阻值參數(shù)設(shè)計(jì)。

（6）系統(tǒng)管理

OAM模塊的系統(tǒng)管理方面的設(shè)計(jì)包含提供資產(chǎn)信息、規(guī)范寄存器，并支持滿足FW更新、帶外監(jiān)控要求功能。資產(chǎn)信息提供對(duì)OAM模塊PN、SN、FW版本等信息的訪問(wèn)；寄存器信息提供對(duì)電壓、功耗、溫度、ECC狀態(tài)及錯(cuò)誤、外設(shè)錯(cuò)誤、PCIe錯(cuò)誤、Memory錯(cuò)誤等信息的訪問(wèn)；帶外監(jiān)控提供溫度、功耗、OAM模塊信息、異常告警、OAM狀態(tài)、卡復(fù)位等功能。

（7）故障診斷

故障診斷功能包含OAM卡內(nèi)部Uncorrect able Error、PCIe 總線錯(cuò)誤、ESL 連接異常、卡丟失等功能。通過(guò)BMC可監(jiān)控系統(tǒng)PCIeSwitch模塊、UBB基板及OAM模塊的ECC狀態(tài)及錯(cuò)誤、外設(shè)錯(cuò)誤、PCIe錯(cuò)誤、Memory錯(cuò)誤等。支持鏈路級(jí)別的高級(jí)故障診斷功能，通過(guò)全時(shí)監(jiān)測(cè)PCIe Switch運(yùn)行日志獲取OAM卡故障信息。

（8）軟件平臺(tái)

針對(duì)大模型開(kāi)發(fā)過(guò)程中存在的調(diào)度難、部署慢、效率低、集群異常等問(wèn)題，構(gòu)建具備高性能、高可靠、可擴(kuò)展的AI算力資源統(tǒng)一管理和人工智能作業(yè)調(diào)度平臺(tái)，通過(guò)計(jì)算資源池化和容器化技術(shù)，屏蔽底層硬件差異，以標(biāo)準(zhǔn)算力模式面向用戶直接提供計(jì)算資源，并通過(guò)適應(yīng)性策略及敏捷框架對(duì)算力進(jìn)行精準(zhǔn)調(diào)度配給。

本文來(lái)自“開(kāi)放加速規(guī)范AI服務(wù)器設(shè)計(jì)指南（2023）”，以上分享了系統(tǒng)架構(gòu)、OAM模塊、UBB基板、硬件設(shè)計(jì)、散熱設(shè)計(jì)、系統(tǒng)管理、故障診斷、軟件平臺(tái)；集群網(wǎng)絡(luò)與存儲(chǔ)、整機(jī)柜、液冷、制冷、運(yùn)維等相關(guān)規(guī)范詳情，請(qǐng)下指南原文。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
9203

瀏覽量
85528
AI

AI

+關(guān)注

關(guān)注
87

文章
30996

瀏覽量
269293
計(jì)算系統(tǒng)

計(jì)算系統(tǒng)

+關(guān)注

關(guān)注
0

文章
42

瀏覽量
10290
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15409
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2476

瀏覽量
2794

原文標(biāo)題：開(kāi)放加速AI服務(wù)器規(guī)范設(shè)計(jì)（2023）

文章出處：【微信號(hào)：AI_Architect，微信公眾號(hào)：智能計(jì)算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

RISC-V走向開(kāi)放服務(wù)器規(guī)范

RISC-V International目前正在起草一份可以標(biāo)準(zhǔn)化RISC-V服務(wù)器芯片和系統(tǒng)開(kāi)發(fā)的規(guī)范，RISC-V International是一個(gè)處理指令集架構(gòu)開(kāi)發(fā)的組織。

發(fā)表于 08-10 09:39 ?715次閱讀

RISC-V走向<b class='flag-5'>開(kāi)放</b><b class='flag-5'>服務(wù)器</b><b class='flag-5'>規(guī)范</b>

ChatGPT熱潮引發(fā)AI服務(wù)器爆單

、FPGA、ASIC等加速芯片，利用CPU與加速芯片的組合可以滿足高吞吐量互聯(lián)的需求，為自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等AI應(yīng)用場(chǎng)景提供強(qiáng)大的算力支持，支撐AI算法訓(xùn)練和推理。 ?

發(fā)表于 02-22 01:13 ?2026次閱讀

OPC服務(wù)器開(kāi)發(fā)的幾種方法

簡(jiǎn)要介紹了OPC DA 規(guī)范，描述了OPC DA（數(shù)據(jù)訪問(wèn)）服務(wù)器開(kāi)發(fā)的三種方法：使用MFC 的COM 庫(kù)函數(shù)開(kāi)發(fā)OPC 服務(wù)器、通過(guò)ATL 開(kāi)發(fā)OPC

發(fā)表于 05-26 15:00 ?26次下載

OPC服務(wù)器開(kāi)發(fā)的幾種方法

簡(jiǎn)要介紹了OPC DA規(guī)范，描述了OPC DA（數(shù)據(jù)訪問(wèn)）服務(wù)器開(kāi)發(fā)的三種方法：使用MFC的COM庫(kù)函數(shù)開(kāi)發(fā)OPC服務(wù)器、通過(guò)ATL開(kāi)發(fā)OPC服務(wù)器

發(fā)表于 07-20 16:47 ?29次下載

淺析AI服務(wù)器與普通服務(wù)器的區(qū)別

隨著大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的成熟與在各行各業(yè)的應(yīng)用，在人工智能時(shí)代，AI服務(wù)器這個(gè)新興名詞也頻繁的出現(xiàn)在人們的視線范圍內(nèi)，有人預(yù)測(cè)在人工智能時(shí)代，AI服務(wù)器將會(huì)廣泛的應(yīng)用于各個(gè)

發(fā)表于 01-23 17:27 ?4049次閱讀

服務(wù)器的開(kāi)關(guān)電源規(guī)范設(shè)計(jì)標(biāo)準(zhǔn)

是SS規(guī)范。SS！（ Server System Infrastructure）規(guī)范是 Intel聯(lián)合一些主要的AI架構(gòu)服務(wù)器生產(chǎn)商推出的新型服務(wù)器

發(fā)表于 12-24 08:00 ?16次下載

AI服務(wù)器的應(yīng)用場(chǎng)景有哪些？

關(guān)鍵詞:人工智能、高性能計(jì)算、HPC、GPU、CPU、服務(wù)器、人工智能服務(wù)器、人工智能工作站、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、液冷散熱、冷板式液冷、水冷工作站、液冷服務(wù)器、AI

發(fā)表于 01-30 10:06 ?2780次閱讀

一文解析AI服務(wù)器技術(shù) AI服務(wù)器和傳統(tǒng)通用服務(wù)器的區(qū)別

AI服務(wù)器和傳統(tǒng)通用服務(wù)器在設(shè)計(jì)方案上主要區(qū)別在于對(duì)高性能計(jì)算資源、內(nèi)存和存儲(chǔ)、網(wǎng)絡(luò)連接（PCB）、電源管理等。AI服務(wù)器為應(yīng)對(duì)

發(fā)表于 04-14 10:41 ?1.1w次閱讀

AI服務(wù)器與傳統(tǒng)服務(wù)器的區(qū)別是什么？

AI 服務(wù)器確實(shí)是整個(gè)服務(wù)器市場(chǎng)的一部分，但它們是專門為基于云的 AI 模型訓(xùn)練或推理而設(shè)計(jì)的。在規(guī)格方面，廣義的AI

發(fā)表于 06-21 12:40 ?1935次閱讀

《開(kāi)放加速規(guī)范AI服務(wù)器設(shè)計(jì)指南》發(fā)布，應(yīng)對(duì)生成式AI算力挑戰(zhàn)

》面向生成式AI應(yīng)用場(chǎng)景，進(jìn)一步發(fā)展和完善了開(kāi)放加速規(guī)范AI服務(wù)器的設(shè)計(jì)理論和設(shè)計(jì)

發(fā)表于 08-14 09:49 ?786次閱讀

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?589次閱讀

ai服務(wù)器是什么架構(gòu)類型

AI服務(wù)器，即人工智能服務(wù)器，是專門為人工智能應(yīng)用設(shè)計(jì)的高性能計(jì)算服務(wù)器。AI服務(wù)器的架構(gòu)類型有

發(fā)表于 07-02 09:51 ?1096次閱讀

AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

AI服務(wù)器，即人工智能服務(wù)器，是一種專門設(shè)計(jì)用于運(yùn)行和加速人工智能（AI）算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及，

發(fā)表于 07-17 16:34 ?1701次閱讀

什么是AI服務(wù)器？AI服務(wù)器的優(yōu)勢(shì)是什么？

AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器，它采用異構(gòu)形式的硬件架構(gòu)，通常搭載GPU、FPGA、ASIC等加速芯片，利用CPU與加速芯片

發(fā)表于 09-21 11:43 ?901次閱讀

GPU加速云服務(wù)器怎么用的

GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合，通過(guò)云服務(wù)提供商的平臺(tái)，用戶可以根據(jù)需求靈活租用帶有GPU資源的虛擬機(jī)實(shí)例。那么，GPU加速

發(fā)表于 12-26 11:58 ?71次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

開(kāi)放加速規(guī)范AI服務(wù)器的設(shè)計(jì)方法

評(píng)論

RISC-V走向開(kāi)放服務(wù)器規(guī)范

ChatGPT熱潮引發(fā)AI服務(wù)器爆單

OPC服務(wù)器開(kāi)發(fā)的幾種方法

OPC服務(wù)器開(kāi)發(fā)的幾種方法

淺析AI服務(wù)器與普通服務(wù)器的區(qū)別

服務(wù)器的開(kāi)關(guān)電源規(guī)范設(shè)計(jì)標(biāo)準(zhǔn)

AI服務(wù)器的應(yīng)用場(chǎng)景有哪些？

一文解析AI服務(wù)器技術(shù) AI服務(wù)器和傳統(tǒng)通用服務(wù)器的區(qū)別

AI服務(wù)器與傳統(tǒng)服務(wù)器的區(qū)別是什么？

《開(kāi)放加速規(guī)范AI服務(wù)器設(shè)計(jì)指南》發(fā)布，應(yīng)對(duì)生成式AI算力挑戰(zhàn)

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

ai服務(wù)器是什么架構(gòu)類型

AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

什么是AI服務(wù)器？AI服務(wù)器的優(yōu)勢(shì)是什么？

GPU加速云服務(wù)器怎么用的