中文字幕亚洲精品第1页,孕交videossexo孕妇,外遇的妻子2在线观看

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）萬(wàn)卡集群是指由一萬(wàn)張及以上的加速卡（包括GPU、TPU及其他專(zhuān)用AI加速芯片）組成的高性能計(jì)算系統(tǒng)，主要用于加速人工智能模型的訓(xùn)練和推理過(guò)程。這種集群的構(gòu)建旨在解決大模型訓(xùn)練對(duì)算力需求的巨大增長(zhǎng)問(wèn)題，尤其是現(xiàn)在模型參數(shù)量從百億級(jí)、千億級(jí)邁向萬(wàn)億級(jí)。

國(guó)內(nèi)外企業(yè)積極構(gòu)建萬(wàn)卡集群

目前，在國(guó)際上，包括微軟、Google、Meta等AI領(lǐng)域的巨頭，都已落子超萬(wàn)卡集群的項(xiàng)目部署。如Meta于2022年推出了擁有16000張算卡的超級(jí)集群中心；Google于2023年推出了一個(gè)擁有2.6萬(wàn)張算卡的Compute Engine A3；而持有OpenAI的微軟更是傳出正在進(jìn)行百萬(wàn)規(guī)模算卡集群的籌建。

不只是國(guó)際廠(chǎng)商，國(guó)內(nèi)廠(chǎng)商也在此前大量采購(gòu)GPU推進(jìn)萬(wàn)卡集群建設(shè)。尤其在今年以來(lái)，三大運(yùn)營(yíng)商也相繼公布了對(duì)超萬(wàn)卡集群的部署。

近日，在中國(guó)移動(dòng)算力網(wǎng)絡(luò)大會(huì)上，中國(guó)移動(dòng)副總經(jīng)理高同慶宣布，今年將商用哈爾濱、呼和浩特、貴陽(yáng)的三個(gè)萬(wàn)卡集群，總規(guī)模近6萬(wàn)張GPU卡，充分滿(mǎn)足大模型集中訓(xùn)練的需求。

今年1月，中國(guó)電信宣布將在上海規(guī)劃建設(shè)1.5萬(wàn)張卡規(guī)模的算力集群，其總算力超4500P，這也將是國(guó)內(nèi)首個(gè)超大規(guī)模國(guó)產(chǎn)算力液冷集群。中國(guó)聯(lián)通表示，在今年內(nèi)將在上海臨港國(guó)際云數(shù)據(jù)中心，建成中國(guó)聯(lián)通首個(gè)萬(wàn)卡集群。

除了運(yùn)營(yíng)商之外，2023年，螞蟻集團(tuán)宣布已建成萬(wàn)卡異構(gòu)算力集群。此外，包括字節(jié)跳動(dòng)、阿里、百度、華為及科大訊飛等在內(nèi)的互聯(lián)網(wǎng)和AI頭部企業(yè)均在發(fā)力萬(wàn)卡集群的建設(shè)。

另外，今年5月20日，網(wǎng)宿科技與航錦科技正式簽署戰(zhàn)略合作協(xié)議，雙方圍繞NVIDIA最新一代萬(wàn)卡集群（L20 cluster AIDC）項(xiàng)目建立戰(zhàn)略合作關(guān)系，共同開(kāi)展智算中心建設(shè)、相關(guān)技術(shù)研發(fā)、市場(chǎng)拓展等工作，旨在打造高效、智能、綠色的算力基礎(chǔ)設(shè)施，承載千行百業(yè)的大模型訓(xùn)練及推理需求。

網(wǎng)宿科技是全球領(lǐng)先的信息基礎(chǔ)設(shè)施平臺(tái)服務(wù)提供商，專(zhuān)注于邊緣計(jì)算、云分發(fā)、云安全、云計(jì)算、云服務(wù)及綠色數(shù)據(jù)中心業(yè)務(wù)。航錦科技是由武漢市國(guó)資委控股的上市企業(yè)，控股子公司超擎數(shù)智作為AI算力和網(wǎng)絡(luò)整體解決方案提供商，是NVIDIA Compute（GPU）、Networking（網(wǎng)絡(luò)）的雙Elite精英級(jí)合作伙伴。

構(gòu)建萬(wàn)卡集群面臨的挑戰(zhàn)

萬(wàn)卡集群的建設(shè)和維護(hù)面臨諸多挑戰(zhàn)，首先是GPU的供應(yīng)，由于全球超萬(wàn)卡集群的建設(shè)都處于起步階段，部署模式都以英偉達(dá)GPU及配套設(shè)備為主。目前國(guó)內(nèi)在獲得英偉達(dá)旗艦高性能GPU方面受限，同時(shí)，國(guó)產(chǎn)AI芯片相比于英偉達(dá)GPU在性能上存在一定差距。

其次，在大模型場(chǎng)景下，算力需要大規(guī)模集中式訓(xùn)練，單個(gè)GPU無(wú)法完全容納整個(gè)模型訓(xùn)練，需要采用分布式訓(xùn)練。這會(huì)帶來(lái)GPU之間互聯(lián)帶寬受限或AI服務(wù)器之間網(wǎng)絡(luò)互聯(lián)帶寬有限的問(wèn)題。此外，卡數(shù)量增多后，過(guò)熱、故障也會(huì)一定比例出現(xiàn)，模型訓(xùn)練成本會(huì)增加。

當(dāng)然，目前各企業(yè)正在積極解決這些問(wèn)題。如越來(lái)越多國(guó)產(chǎn)的AI芯片已經(jīng)開(kāi)始在集群的建設(shè)中得到使用，包括華為、海光、寒武紀(jì)、摩爾線(xiàn)程等公司。

如為了支撐千卡乃至超萬(wàn)卡的大規(guī)模算力集群，摩爾線(xiàn)程于2023年推出了首個(gè)國(guó)內(nèi)產(chǎn)千卡千億模型訓(xùn)練平臺(tái)——夸娥智算集群，該模型深度參與中國(guó)移動(dòng)大模型訓(xùn)練與推理環(huán)節(jié)，可以為大模型訓(xùn)練提供穩(wěn)定、高效、高兼容的算力支撐。

摩爾線(xiàn)程相關(guān)負(fù)責(zé)人此前談到，百卡或更小規(guī)模都是實(shí)驗(yàn)性的，千卡才是大集群的基本單元，只有千卡及以上才能滿(mǎn)足一些基礎(chǔ)模型的算力需求，這也是推出夸娥智算集群的目標(biāo)設(shè)定。

另外，浪潮信息董事長(zhǎng)彭震日前談到，芯片算力并非是AI發(fā)展不起來(lái)的直接原因，更多的其實(shí)是系統(tǒng)問(wèn)題。他認(rèn)為，對(duì)于服務(wù)器廠(chǎng)商而言，當(dāng)前已經(jīng)不能再局限于提供單一硬件產(chǎn)品，而是要綜合性解決方案，這些解決方案可能包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、安全等方面。

浪潮信息希望從算力層提供一個(gè)平臺(tái)，支撐多元算力入駐。對(duì)于芯片企業(yè)而言，只需要專(zhuān)注在芯片本身而不需要研究互聯(lián)帶寬問(wèn)題。

據(jù)了解，目前不少服務(wù)器廠(chǎng)商也在學(xué)習(xí)英偉達(dá)的NVlink，NVlink提供一種高效可擴(kuò)展的芯片通信間協(xié)議，允許所有GPU同時(shí)全速實(shí)時(shí)通信，就好像整個(gè)系統(tǒng)是單個(gè)GPU一樣。在今年4月的GTC大會(huì)上，英偉達(dá)還宣布NVlink更新到第五代，包括可擴(kuò)展至576個(gè)GPU，能夠解決萬(wàn)億參數(shù)混合專(zhuān)家模型通信瓶頸。

新華三集團(tuán)高級(jí)副總裁、云與計(jì)算存儲(chǔ)產(chǎn)品線(xiàn)總裁徐潤(rùn)安此前也談到算力互聯(lián)。在他看來(lái)，過(guò)去，大家的目標(biāo)可能是做更強(qiáng)算力的單顆芯片，現(xiàn)在會(huì)從另一個(gè)角度努力，怎樣將芯片做成更大集群，同時(shí)使得集群的通信效果更高，集群的處理能力更強(qiáng)。

新華三希望做更加開(kāi)放的平臺(tái)，做上游GPU廠(chǎng)商合作伙伴的最佳選擇，利用自身網(wǎng)絡(luò)優(yōu)勢(shì)，對(duì)網(wǎng)絡(luò)通信的理解，幫助更多GPU廠(chǎng)商，將算力互聯(lián)互通實(shí)現(xiàn)得更好。新華三提供的科學(xué)計(jì)算算力調(diào)度平臺(tái)傲飛3.0，實(shí)現(xiàn)了跨集群統(tǒng)一管理，將訓(xùn)練任務(wù)進(jìn)行切分，將合適的子任務(wù)放在合適的近端或遠(yuǎn)端模塊集群實(shí)現(xiàn)。

寫(xiě)在最后

當(dāng)前，萬(wàn)卡集群式應(yīng)對(duì)大模型背景下算力需求的重要解決方案之一，對(duì)于推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用具有重要意義。可以看到，國(guó)內(nèi)外都在積極推進(jìn)萬(wàn)卡集群的建設(shè)。然而，在國(guó)內(nèi)，萬(wàn)卡集群的建設(shè)并不容易，首先是AI芯片性能及軟件生態(tài)存在差距，其次是萬(wàn)卡集群建設(shè)存在芯片間、卡之間、集群間的互聯(lián)問(wèn)題，這些都還需要持續(xù)去解決。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算力

算力

+關(guān)注

關(guān)注
1

文章
964

瀏覽量
14793
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2423

瀏覽量
2640

評(píng)論

相關(guān)推薦

國(guó)產(chǎn)千卡GPU集群完成大模型訓(xùn)練測(cè)試，極具高兼容性和穩(wěn)定性

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）隨著人工智能技術(shù)的快速發(fā)展，對(duì)于計(jì)算能力的需求日益增長(zhǎng)。特別是在大模型訓(xùn)練方面，對(duì)算力的需求更是呈現(xiàn)指數(shù)級(jí)增長(zhǎng)

發(fā)表于 06-11 07:50 ?3245次閱讀

國(guó)產(chǎn)千<b class='flag-5'>卡</b>GPU<b class='flag-5'>集群</b>完成大<b class='flag-5'>模型</b>訓(xùn)練測(cè)試，極具高兼容性和穩(wěn)定性

星凡星啟,全面助力算力集群建設(shè)

，同時(shí)地面建設(shè)100個(gè)地基訓(xùn)推一體化算力節(jié)點(diǎn)，建成后總算力預(yù)計(jì)將達(dá)到80000P。“星算計(jì)劃”打造的地面

發(fā)表于 12-10 11:36 ?245次閱讀

性能提升近一倍！壁仞科技攜手無(wú)問(wèn)芯穹，在千卡訓(xùn)練集群等領(lǐng)域取得技術(shù)新突破

隨著智能算力需求的倍增，到2024年，千卡算力集群已

發(fā)表于 11-05 18:45 ?596次閱讀

【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

國(guó)慶前就收到《大模型時(shí)代的基礎(chǔ)架構(gòu)》一書(shū)，感謝電子發(fā)燒友論壇。歡度國(guó)慶之余，今天才靜下心來(lái)體驗(yàn)此書(shū)，書(shū)不厚，200余頁(yè)，彩色圖例，印刷精美！當(dāng)初申請(qǐng)此書(shū)，主要是看到副標(biāo)題“大模型算力

發(fā)表于 10-08 10:40

大模型時(shí)代的算力需求

現(xiàn)在AI已進(jìn)入大模型時(shí)代，各企業(yè)都爭(zhēng)相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能，是一個(gè)極為重要的問(wèn)題，帶著這個(gè)極為重要的問(wèn)

發(fā)表于 08-20 09:04

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu)：大模型算力中心建設(shè)指南

工作日內(nèi)未聯(lián)系，視為放棄本次試用評(píng)測(cè)資格！書(shū)籍介紹大模型是近年來(lái)引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ)，是針對(duì)其需求設(shè)計(jì)的算力及基礎(chǔ)架

發(fā)表于 08-16 18:33

億鑄科技談大算力芯片面臨的技術(shù)挑戰(zhàn)和解決策略

隨著人工智能技術(shù)的飛速發(fā)展，算力已成為推動(dòng)產(chǎn)業(yè)變革的關(guān)鍵力量，但大模型的快速發(fā)展，參數(shù)的爆發(fā)，對(duì)于算力需

發(fā)表于 08-07 10:03 ?740次閱讀

從千卡集群卡到萬(wàn)卡集群，燧原科技打造更好的AI算力底座

：WAIC 2024）上，不僅有國(guó)內(nèi)各大模型廠(chǎng)商同場(chǎng)競(jìng)技，也有豐富的算力基礎(chǔ)設(shè)施展示，其中包括專(zhuān)注人工智能領(lǐng)域云端算力產(chǎn)品的燧原科技。 ?

發(fā)表于 07-07 09:45 ?2296次閱讀

摩爾線(xiàn)程與無(wú)問(wèn)芯穹宣布完成基于GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)

摩爾線(xiàn)程聯(lián)合無(wú)問(wèn)芯穹宣布，雙方已在本周正式完成基于國(guó)產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)。

發(fā)表于 05-27 10:44 ?474次閱讀

摩爾線(xiàn)程張建中：以國(guó)產(chǎn)算力助力數(shù)智世界，滿(mǎn)足大模型算力需求

摩爾線(xiàn)程創(chuàng)始人兼CEO張建中在會(huì)上透露，為了滿(mǎn)足國(guó)內(nèi)對(duì)AI算力的迫切需求，他們正在積極尋求與國(guó)內(nèi)頂尖科研機(jī)構(gòu)的深度合作，共同推動(dòng)更大規(guī)模的AI智算集

發(fā)表于 05-10 16:36 ?950次閱讀

中國(guó)移動(dòng)將商用三個(gè)自主可控萬(wàn)卡集群

中國(guó)移動(dòng)在近日舉辦的2024年算力網(wǎng)絡(luò)大會(huì)上宣布了重要計(jì)劃。據(jù)中國(guó)移動(dòng)副總經(jīng)理高同慶透露，公司今年將正式商用三個(gè)具有完全自主控制權(quán)的萬(wàn)卡集群

發(fā)表于 05-06 10:21 ?569次閱讀

北京：規(guī)劃建設(shè)支撐萬(wàn)億級(jí)參數(shù)大模型訓(xùn)練需求的超大規(guī)模智算集群

”局面，集中建設(shè)一批智算單一大集群，到2025年，本市智算供給規(guī)模達(dá)到45EFLOPS，2025-2027年根據(jù)人工智能大模型發(fā)展需要和國(guó)家

發(fā)表于 04-29 08:26 ?319次閱讀

中國(guó)電信規(guī)劃在上海建設(shè)首個(gè)國(guó)產(chǎn)超大規(guī)模算力液冷集群

中國(guó)電信規(guī)劃建設(shè)首個(gè)國(guó)產(chǎn)超大規(guī)模算力液冷集群人工智能技術(shù)的快速發(fā)展催生了巨大的算力

發(fā)表于 02-22 18:48 ?1326次閱讀

上海電信攜手徐匯區(qū)，發(fā)布人工智能公共算力服務(wù)產(chǎn)品，擬建算力平臺(tái)

根據(jù)計(jì)劃，2024年上半年，上海市徐匯區(qū)將規(guī)劃建設(shè)總算力超過(guò)四千五百PFLOPS（即每秒千萬(wàn)億次）的15000卡智算集群，該

發(fā)表于 01-24 09:50 ?664次閱讀

算力網(wǎng)絡(luò)面臨三大挑戰(zhàn)

2024年，以AIGC為代表的人工智能技術(shù)將進(jìn)一步激發(fā)算力需求，算力網(wǎng)絡(luò)、智算中心、超

發(fā)表于 01-12 10:39 ?1092次閱讀