大模型訓(xùn)練如何應(yīng)對GPU萬卡互聯(lián)難題

近日，字節(jié)跳動聯(lián)合北京大學(xué)的研究團(tuán)隊發(fā)表了一篇論文《將大型語言模型訓(xùn)練擴(kuò)展至超過10，000塊GPU》，提出一個用于訓(xùn)練大語言模型的生產(chǎn)系統(tǒng)，解決在萬卡集群上訓(xùn)練大模型時面臨的效率和穩(wěn)定性挑戰(zhàn)。

該論文介紹了系統(tǒng)的設(shè)計、實現(xiàn)和部署。此外，文中還提到了萬卡以上的集群規(guī)模遇到的問題及其解決方案。

01、萬卡集群的兩大挑戰(zhàn)

大模型時代，算力就是生產(chǎn)力。大模型的背后意味著巨大的計算資源，模型大小和訓(xùn)練數(shù)據(jù)大小是決定模型能力的關(guān)鍵因素。市場的主力玩家們利用數(shù)萬個GPU構(gòu)建大型人工智能集群，以訓(xùn)練LLM。但當(dāng)GPU集群達(dá)到萬卡規(guī)模，如何實現(xiàn)高效率、高穩(wěn)定的訓(xùn)練？

第一個挑戰(zhàn)是實現(xiàn)大規(guī)模的高效率訓(xùn)練。模型浮點運算利用率（MFU）是實際吞吐量與假設(shè)最大吞吐量之比，是評估模型訓(xùn)練效率的通用指標(biāo)，可以直接反映端到端的訓(xùn)練速度。為了訓(xùn)練LLM，需要將模型分布為多個GPU上，并且GPU之間需進(jìn)行大量通信以推動進(jìn)展。除了通信之外，如操作符優(yōu)化、數(shù)據(jù)預(yù)處理和GPU內(nèi)存消耗等因素對MFU也有著顯著影響。

第二個挑戰(zhàn)是在大規(guī)模上實現(xiàn)訓(xùn)練的高穩(wěn)定性，即在整個過程中保持高效率訓(xùn)練。在大模型訓(xùn)練中，穩(wěn)定性十分重要。失敗和延遲雖是大模型訓(xùn)練中的常態(tài)，但其故障成本非常高。如何縮短故障恢復(fù)時間至關(guān)重要，一個掉隊者不僅會影響自己的工作，還會拖慢數(shù)萬個GPU的整個作業(yè)。

為了應(yīng)對這些挑戰(zhàn)，字節(jié)跳動提出MegaScale（超大規(guī)模）系統(tǒng)，并已部署在自家的數(shù)據(jù)中心。那么字節(jié)是如何解決上述問題的呢？

02、如何實現(xiàn)大模型的高效訓(xùn)練？

想要在不損害模型準(zhǔn)確性的情況下處理急劇增加的計算需求，需要采用最先進(jìn)的算法優(yōu)化、通信策略、數(shù)據(jù)流水線管理以及網(wǎng)絡(luò)性能調(diào)優(yōu)技術(shù)。下文深入探討了用于優(yōu)化大型模型訓(xùn)練的方法，以實現(xiàn)大規(guī)模的高效率訓(xùn)練。

算法優(yōu)化

在算法層面進(jìn)行了一些優(yōu)化，在不影響準(zhǔn)確性的前提下，提高訓(xùn)練效率。主要包括并行transformer塊、滑動窗口注意力（SWA）和LAMB優(yōu)化器。

并行transformer塊：采用transformer塊的并行版本，代替標(biāo)準(zhǔn)的序列化公式。這種方法使得注意力塊和MLP塊的計算可以并行執(zhí)行，從而減少了計算時間。先前的研究表明，這種修改不會降低具有數(shù)千億參數(shù)的模型的質(zhì)量。

滑動窗口注意力（SWA）是一種稀疏注意力機制，它在輸入序列中的每個標(biāo)記周圍使用固定大小的窗口，比全自注意力更高效。通過堆疊此類窗口注意力層，模型能夠有效地捕獲輸入數(shù)據(jù)中廣泛的上下文信息，同時創(chuàng)建大感受野，從而在不影響準(zhǔn)確性的情況下加快訓(xùn)練速度。

LAMB優(yōu)化器：大規(guī)模的高效訓(xùn)練通常受到批量大小限制的阻礙。特別是，增加批量大小可能會對模型收斂產(chǎn)生不利影響。LAMB優(yōu)化器能夠使BERT的訓(xùn)練批量大小擴(kuò)展到64K，而不影響準(zhǔn)確性。

3D并行中的通信重疊

3D并行指張量并行、流水線并行和數(shù)據(jù)并行。

在數(shù)據(jù)并行中有兩個主要通信操作：all-gather操作和reduce-scatter操作。在3D并行中，單個設(shè)備可能承載多個模型塊。重疊是基于模型塊實現(xiàn)的，以最大化帶寬利用。all-gather操作在模型塊的前向傳遞之前觸發(fā)，reduce-scatter操作在它的后向傳遞之后開始。這導(dǎo)致第一個all-gather操作和最后一個reduce-scatter操作無法隱藏。受到PyTorch FSDP的啟發(fā)，初始的all-gather操作在每次迭代的開始時被預(yù)取，允許它與數(shù)據(jù)加載操作重疊，有效地將減少了通信時間。

在流水線并行中，MegaScale使用交錯1F1B調(diào)度方法，以實現(xiàn)通信的重疊。在熱身階段，前向傳遞僅依賴于其先前的接收。我們解耦了通常一起實現(xiàn)的發(fā)送和接收，通過打破這種依賴關(guān)系，使得發(fā)送操作能夠與計算重疊。在張量/序列并行中，介紹了融合通信和計算等優(yōu)化策略，以及將GEMM內(nèi)核分成小塊并與通信進(jìn)行流水線執(zhí)行。

高效操作符

盡管在MegatronLM中已經(jīng)對GEMM操作符進(jìn)行了優(yōu)化，但其他操作符中還有進(jìn)一步增強的機會。注意力部分采用了FlashAttention-2，改進(jìn)了不同線程塊和warp之間的工作分配。LayerNorm和GeLU由先前實現(xiàn)中的細(xì)粒度內(nèi)核組成。通過將這些內(nèi)核融合在一起，減少了與啟動多個內(nèi)核相關(guān)的開銷，并有助于優(yōu)化內(nèi)存訪問模式，從而實現(xiàn)更好的性能。

數(shù)據(jù)流水線優(yōu)化

數(shù)據(jù)預(yù)處理和加載經(jīng)常被忽視。然而，這些操作在每個訓(xùn)練步驟開始時會產(chǎn)生不可忽視的GPU空閑時間。優(yōu)化這些操作對于訓(xùn)練過程的效率至關(guān)重要。

異步數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理不在關(guān)鍵路徑上。因此，當(dāng)GPU工作器在每個訓(xùn)練步驟結(jié)束同步梯度時，可以開始后續(xù)步驟的數(shù)據(jù)預(yù)處理，這就隱藏了預(yù)處理的開銷。

消除冗余數(shù)據(jù)加載器。在分布式訓(xùn)練的典型數(shù)據(jù)加載階段，每個GPU工作器都配備了自己的數(shù)據(jù)加載器，負(fù)責(zé)將訓(xùn)練數(shù)據(jù)讀入CPU內(nèi)存，然后轉(zhuǎn)發(fā)到GPU。這導(dǎo)致工作線程之間為爭奪磁盤讀取帶寬，因此產(chǎn)生了瓶頸。我們觀察到，在LLM訓(xùn)練設(shè)置中，同一臺機器內(nèi)的GPU工作器處于相同的張量并行組。因此，它們每次迭代的輸入本質(zhì)上是相同的?；谶@一觀察，我們采用了兩層樹狀的方法，在每臺機器上使用一個專用的數(shù)據(jù)加載器將訓(xùn)練數(shù)據(jù)讀入共享內(nèi)存。隨后，每個GPU工作器負(fù)責(zé)將必要的數(shù)據(jù)復(fù)制到自己的GPU內(nèi)存中。這就消除了冗余讀取，并顯著提高了數(shù)據(jù)傳輸?shù)男省?/p>

集體通信群初始化

在分布式訓(xùn)練中，初始化階段涉及在GPU工作器之間建立NVIDIA集體通信庫（NCCL）通信組。由于這種開銷在小規(guī)模場景中相對較小，因此默認(rèn)使用torch.distributed。隨著GPU數(shù)量擴(kuò)展到超過一萬個，naive實現(xiàn)引入的開銷變得無法忍受。

torch.distributed初始化時間過長有兩個原因。第一個問題在于同步步驟，其中每個進(jìn)程在初始化特定通信組結(jié)束時參與了一個屏障操作。這個屏障使用TCPStore，以單線程、阻塞的讀寫方式操作。可以用非阻塞和異步的Redis替換TCPStore。第二個問題與全局屏障的不慎使用有關(guān)。每個進(jìn)程在初始化其相應(yīng)的通信組后執(zhí)行一個全局屏障。我們精心設(shè)計了通信組的初始化順序，以最小化全局屏障的需求，降低了時間復(fù)雜度。

在未經(jīng)優(yōu)化的情況下，2048張GPU的集群初始化時間是1047秒，優(yōu)化后可降至5秒以下；萬卡GPU集群的初始化時間則可降至30秒以下。

網(wǎng)絡(luò)性能調(diào)優(yōu)

分析了3D并行中機器間的流量，并設(shè)計了技術(shù)方案來提高網(wǎng)絡(luò)性能。包括網(wǎng)絡(luò)拓?fù)湓O(shè)計、減少ECMP哈希沖突、擁塞控制和重傳超時設(shè)置。

網(wǎng)絡(luò)拓?fù)?。我們的?shù)據(jù)中心網(wǎng)絡(luò)是基于Broadcom Tomahawk 4芯片構(gòu)建的高性能交換機。每個Tomahawk芯片的總帶寬為25.6Tbps，具有64×400Gbps端口。三層交換機以CLOS類似的拓?fù)溥B接，以連接超過10000個GPU。每層交換機的下行鏈路和上行鏈路的帶寬比為1:1。也就是說，32個端口用于下行，32個端口用于上行。該網(wǎng)絡(luò)以較小的直徑提供了高帶寬，每個節(jié)點都可以在有限的跳數(shù)內(nèi)與其他節(jié)點通信。

減少ECMP哈希沖突。我們精心設(shè)計了網(wǎng)絡(luò)拓?fù)?，并調(diào)度網(wǎng)絡(luò)流量以減少ECMP哈希沖突。首先，在機架ToR交換機上把上行與下行鏈路分開，一個 400G 下行鏈路端口通過特定的 AOC 電纜分為兩個 200G 下行鏈路端口，有效降低沖突率。

擁塞控制。在分布式訓(xùn)練中大規(guī)模使用默認(rèn)的DCQCN協(xié)議時，all-to-all通信可能會導(dǎo)致?lián)砣?a target="_blank">PFC級別的提高。過度使用PFC可能會導(dǎo)致頭部阻塞（HoL），從而降低網(wǎng)絡(luò)吞吐量。為了緩解這些問題，我們開發(fā)了一個結(jié)合了Swift和DCQCN原理的算法，該算法將往返時間（RTT）的精確測量與顯式擁塞通知（ECN）的快速擁塞響應(yīng)能力相結(jié)合。這種方法顯著提高了吞吐量，并最小化了與PFC相關(guān)的擁塞。

重傳超時設(shè)置。NCCL中的參數(shù)可以設(shè)置以控制重傳定時器和重試次數(shù)。我們調(diào)整這些參數(shù)以在鏈路抖動時快速恢復(fù)。為了進(jìn)一步減少恢復(fù)時間，我們在NIC上啟用了adap_retrans功能。此功能支持在較短的時間間隔內(nèi)進(jìn)行重傳，當(dāng)鏈路抖動周期較短時，有助于更快地恢復(fù)傳輸過程。

03、容錯性

隨著訓(xùn)練集群擴(kuò)展到超過數(shù)萬個GPU，軟件和硬件故障幾乎是不可避免的。我們?yōu)長LM訓(xùn)練設(shè)計了一個健壯的訓(xùn)練框架，實現(xiàn)了自動故障識別和快速恢復(fù)，在最小的人為干預(yù)和對正在進(jìn)行的訓(xùn)練任務(wù)最小影響的情況下實現(xiàn)容錯性。

如上圖所示，在接收到訓(xùn)練任務(wù)后，驅(qū)動程序進(jìn)程會與自定義的Kubernetes接口進(jìn)行交互，以便分配計算資源并為每個執(zhí)行器啟動相應(yīng)的Pod。一個執(zhí)行器管理一個節(jié)點。執(zhí)行器完成初始化任務(wù)后將在每個GPU上創(chuàng)建訓(xùn)練進(jìn)程，并啟動一個健壯的訓(xùn)練守護(hù)進(jìn)程，定期向驅(qū)動程序發(fā)送heartbeat以便實時檢測異常并預(yù)警。當(dāng)檢測到異常狀態(tài)或在預(yù)定時間內(nèi)未收到狀態(tài)報告時，會觸發(fā)故障恢復(fù)程序，將暫停所有正在進(jìn)行的訓(xùn)練任務(wù)，并命令它們自我檢查診斷。

一旦識別出問題節(jié)點，驅(qū)動程序?qū)⑾騅ubernetes提交要被封鎖的節(jié)點的IP地址，以及在這些節(jié)點上運行的Pod信息，Kubernetes將驅(qū)逐故障節(jié)點，并用健康節(jié)點替換。此外，還有一個用戶界面可以手動刪除問題節(jié)點?；謴?fù)過程完成后，驅(qū)動程序會從最新的checkpoint恢復(fù)訓(xùn)練。我們優(yōu)化了checkpoint和恢復(fù)過程，以最小化訓(xùn)練進(jìn)度的損失。

為了增強對訓(xùn)練穩(wěn)定性和性能的監(jiān)控，開發(fā)了一個精度達(dá)到毫秒級的監(jiān)控系統(tǒng)。采用不同級別的監(jiān)控來跟蹤各種指標(biāo)。此外，文中還講述了如何實現(xiàn)checkpoint快速恢復(fù)、訓(xùn)練故障排除，以及MegaScale部署和運營的經(jīng)驗，感興趣的可下載論文查閱。

04、結(jié)論

本文深入探討了MegaScale的設(shè)計、實現(xiàn)和部署。通過算法-系統(tǒng)協(xié)同設(shè)計，MegaScale優(yōu)化了訓(xùn)練效率。在12288個GPU上訓(xùn)練一個175B LLM模型時，MegaScale實現(xiàn)了55.2%的MFU，比Megatron-LM提高了1.34倍。

我們強調(diào)在整個訓(xùn)練過程中需要容錯，并實現(xiàn)了一個定制的健壯訓(xùn)練框架，以自動定位和修復(fù)故障。此外，還提供了一套全面的監(jiān)控工具，用于深入觀察系統(tǒng)組件和事件，便于復(fù)雜異常的根本原因識別。我們相信，我們的工作不僅為那些從事LLM訓(xùn)練的人提供了實用的見解，也為這個快速發(fā)展的領(lǐng)域的未來研究鋪平了道路。

審核編輯：黃飛

閱讀全文

gpu(126396) gpu(126396)
數(shù)據(jù)中心(69510) 數(shù)據(jù)中心(69510)
人工智能(230280) 人工智能(230280)
Transformer(5893) Transformer(5893)
大模型(940) 大模型(940)

AI訓(xùn)練勢起，GPU要讓位了？

電子發(fā)燒友網(wǎng)報道（文/周凱揚）人工智能在進(jìn)化的過程中，最不可或缺的便是模型和算力。訓(xùn)練出來的通用大模型省去了重復(fù)的開發(fā)工作，目前不少大模型都為學(xué)術(shù)研究和AI開發(fā)提供了方便，比如華為的盤古、搜狗

2021-12-18 06:51:00

2840

AI模型是如何訓(xùn)練的？訓(xùn)練一個模型花費多大？

電子發(fā)燒友網(wǎng)報道（文/李彎彎）在深度學(xué)習(xí)中，經(jīng)常聽到一個詞“模型訓(xùn)練”，但是模型是什么？又是怎么訓(xùn)練的？在人工智能中，面對大量的數(shù)據(jù)，要在雜亂無章的內(nèi)容中，準(zhǔn)確、容易地識別，輸出需要的圖像/語音

2022-10-23 00:19:00

24539

英偉達(dá) H100 vs 蘋果M2 大模型訓(xùn)練，哪款性價比更高？

訓(xùn)練和微調(diào)大型語言模型對于硬件資源的要求非常高。目前，主流的大模型訓(xùn)練硬件通常采用英特爾的CPU和英偉達(dá)的GPU。然而，最近蘋果的M2 Ultra芯片和AMD的顯卡進(jìn)展給我們帶來了一些新的希望。

2023-07-28 16:11:01

2174

應(yīng)對醫(yī)療智能化設(shè)計難題，ADI有何應(yīng)對之策？

為克服智能化設(shè)計難題、搶占智能醫(yī)療市場先機，ADI公司亞太區(qū)醫(yī)療行業(yè)市場經(jīng)理王勝為大家分享了ADI的應(yīng)對之策？ADI公司從技術(shù)層面而言，憑借其傳感器技術(shù)，模擬及混合信號處理技術(shù)，無線傳輸以及數(shù)據(jù)處理技術(shù)一直致力于提供具有差異化及競爭優(yōu)勢的產(chǎn)品以應(yīng)對智能化設(shè)計難題。

2013-05-23 10:11:32

1233

一文詳解知識增強的語言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很多問題，如知識量有限、受訓(xùn)練數(shù)據(jù)長尾分布影響魯棒性不好

2022-04-02 17:21:43

8837

基于不同量級預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個字符的語料經(jīng)過預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對于一個預(yù)訓(xùn)練模型，對于不同量級下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

1354

大模型訓(xùn)練為什么不能用4090顯卡，GPU訓(xùn)練性能和成本對比

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內(nèi)、模型的層間、訓(xùn)練數(shù)據(jù)三個維度上對 GPU 進(jìn)行劃分。三個并行度乘起來，就是這個訓(xùn)練任務(wù)總的 GPU 數(shù)量。

2023-09-15 11:16:21

13132

盤點國產(chǎn)GPU在支持大模型應(yīng)用方面的進(jìn)展

，近些年國內(nèi)也有不少GPU企業(yè)在逐步成長，雖然在大模型的訓(xùn)練和推理方面，與英偉達(dá)GPU差距極大，但是不可忽視的是，不少國產(chǎn)GPU企業(yè)也在AI的訓(xùn)練和推理應(yīng)用上找到位置。 ? ? 景嘉微 ? 景嘉微是國產(chǎn)GPU市場的主要參與者，目前已經(jīng)完成JM5、JM7和J

2024-03-29 00:27:00

2677

國產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

不斷推出新品，產(chǎn)品也逐漸在各個領(lǐng)域取得應(yīng)用，而且在大模型的訓(xùn)練和推理方面，也有所建樹。 ? 國產(chǎn)GPU在大模型上的應(yīng)用進(jìn)展 ? 電子發(fā)燒友此前就統(tǒng)計過目前國內(nèi)主要的GPU廠商，也介紹了這些廠商主要的產(chǎn)品及產(chǎn)品發(fā)布、量產(chǎn)進(jìn)展情況?？梢钥吹?/div>

2024-04-01 09:28:26

1902

大模型時代，國產(chǎn)GPU面臨哪些挑戰(zhàn)

，國產(chǎn)GPU在不斷成長的過程中也存在諸多挑戰(zhàn)。 ? 在大模型訓(xùn)練上存在差距 ? 大語言模型是基于深度學(xué)習(xí)的技術(shù)。這些模型通過在海量文本數(shù)據(jù)上的訓(xùn)練，學(xué)習(xí)語言的語法、語境和語義等多層次的信息，用于理解和生成自然語言文本。大語言模型是

2024-04-03 01:08:00

1550

GPU上OpenVINO基準(zhǔn)測試的推斷模型的默認(rèn)參數(shù)與CPU上的參數(shù)不同是為什么？

在 CPU 和 GPU 上推斷出具有 OpenVINO? 基準(zhǔn)的相同模型： benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m

2023-08-15 06:43:46

GPU編程的平臺模型、執(zhí)行模型、內(nèi)存模型及編程模型

GPU編程--OpenCL四大模型

2019-04-29 07:40:44

GPU虛擬化在哪里發(fā)生？

GPU虛擬化在哪里發(fā)生？它是否出現(xiàn)在GRID卡中，然后將vGPU呈現(xiàn)給管理程序然后呈現(xiàn)給客戶？或者，GPU的虛擬化和調(diào)度是否真的發(fā)生在管理程序上安裝的GRID管理器軟件？是否使用了SR-IOV？我

2018-09-28 16:45:15

萬物互聯(lián)時代，智慧農(nóng)業(yè)發(fā)展難題如何解決？

萬物互聯(lián)時代，智慧農(nóng)業(yè)發(fā)展難題如何解決？農(nóng)業(yè)是人類的生存之本，是經(jīng)濟(jì)穩(wěn)定快速發(fā)展的重要基礎(chǔ)。一直以來人類在農(nóng)業(yè)上的探索就沒有停止過，農(nóng)業(yè)也從過去的人力為主，變成了現(xiàn)在的機械為主，人類賦予了農(nóng)業(yè)智慧

2018-01-31 11:09:11

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么解決？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class="flag-6" style="color: red">GPU

上漲，因為事實表明，它們的 GPU 在訓(xùn)練和運行深度學(xué)習(xí)模型方面效果明顯。實際上，英偉達(dá)也已經(jīng)對自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型，之前它是一家純粹做 GPU 和游戲的公司，現(xiàn)在除了作為一家云 GPU 服務(wù)

2024-03-21 15:19:45

GBDT算法原理和模型訓(xùn)練

)，其中y取值1或-1（代表二分類的類別標(biāo)簽），這也是GBDT可以用來解決分類問題的原因。模型訓(xùn)練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Mali GPU支持tensorflow或者caffe等深度學(xué)習(xí)模型嗎

Mali GPU 支持tensorflow或者caffe等深度學(xué)習(xí)模型嗎？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU運行？我希望把訓(xùn)練

2022-09-16 14:13:01

Nvidia GPU風(fēng)扇和電源顯示ERR怎么解決

問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候，如果機器鎖屏一段時間再打開的時候鼠標(biāo)非常卡頓，或者說顯示界面非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，訓(xùn)練模型的GPU沒有問題，但是

2021-12-30 06:44:30

Pytorch模型訓(xùn)練實用PDF教程【中文】

本教程以實際應(yīng)用、工程開發(fā)為目的，著重介紹模型訓(xùn)練過程中遇到的實際問題和方法。在機器學(xué)習(xí)模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

labview可以調(diào)用在python上訓(xùn)練好的分類模型么？

能否直接調(diào)用訓(xùn)練好的模型文件？

2021-06-22 14:51:03

labview調(diào)用深度學(xué)習(xí)tensorflow模型非常簡單，附上源碼和模型

本帖最后由 wcl86 于 2021-9-9 10:39 編輯 `labview調(diào)用深度學(xué)習(xí)tensorflow模型非常簡單，效果如下，附上源碼和訓(xùn)練過的模型：[hide][/hide

2021-06-03 16:38:25

　　華為云深度學(xué)習(xí)服務(wù)，讓企業(yè)智能從此不求人

模型收斂的情況下，最大集群規(guī)模只支持10塊GPU。這意味著在進(jìn)行數(shù)據(jù)運算時，即時使用更多的GPU，計算效果也只相當(dāng)于10塊GPU的能力，這樣訓(xùn)練的時間將更加的漫長?！　　　《A為云的深度學(xué)習(xí)

2018-08-02 20:44:09

【Sipeed M2 Dock開發(fā)板試用體驗】之家貓檢測模型訓(xùn)練篇

準(zhǔn)備開始為家貓做模型訓(xùn)練檢測，要去官網(wǎng)https://maix.sipeed.com/home 注冊帳號，文章尾部的視頻是官方的，與目前網(wǎng)站略有出路，說明訓(xùn)練網(wǎng)站的功能更新得很快。其實整個的過程

2022-06-26 21:19:40

【米爾百度大腦EdgeBoard邊緣AI計算盒試用連載】第四篇基于針對EdgeBoard的EasyDL分類模型訓(xùn)練實例

` EasyDL網(wǎng)站可以免費生成針對EdgeBoard板卡FZ5的離線訓(xùn)練模型SDK，該SDK可以完美與FZ5硬件契合，最重要的是——free(免費)。下面就是針對FZ5生成模型SDK的實例——圖片

2021-03-23 14:32:35

你了解在單GPU上就可以運行的Transformer模型嗎

一定的了解，在這篇文章中我們無法一一介紹。盡管transformer模型可以產(chǎn)生非常好的結(jié)果，被用于越來越多的長序列，例如11k大小的文本，許多這樣的大型模型只能在大型工業(yè)計算平臺上訓(xùn)練，在單個GPU

2022-11-02 15:19:41

醫(yī)療模型人訓(xùn)練系統(tǒng)是什么？

醫(yī)療模型人訓(xùn)練系統(tǒng)是為滿足廣大醫(yī)學(xué)生的需要而設(shè)計的。我國現(xiàn)代醫(yī)療模擬技術(shù)的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產(chǎn)品都源于國外，雖然對于模擬人仿真已經(jīng)出現(xiàn)一些產(chǎn)品，但那些產(chǎn)品只是就模擬人的某一部分，某一個功能實現(xiàn)的仿真，沒有一個完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候，沒有問題，過一會再訓(xùn)練出現(xiàn)非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風(fēng)扇和電源報錯：解決方案自動風(fēng)扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測實現(xiàn)輸出模型中的表情或性別gradcam

CV：基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測實現(xiàn)輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

基于RKNN程序開發(fā)和模型轉(zhuǎn)換的NPU簡要說明

/16bit 運算，運算性能高達(dá) 3.0TOPS。相較于 GPU 作為 AI 運算單元的大型芯片方案，功耗不到 GPU 所需要的 1%?？芍苯蛹虞d Caffe / Mxnet / TensorFlow 模型

2022-05-31 11:10:20

大數(shù)據(jù)與萬物互聯(lián)如何定義未來？

大數(shù)據(jù)與萬物互聯(lián)重新定義未來

2021-02-23 06:20:34

如何使用eIQ門戶訓(xùn)練人臉檢測模型？

我正在嘗試使用 eIQ 門戶訓(xùn)練人臉檢測模型。我正在嘗試從 tensorflow 數(shù)據(jù)集 (tfds) 導(dǎo)入數(shù)據(jù)集，特別是 coco/2017 數(shù)據(jù)集。但是，我只想導(dǎo)入 wider_face。但是，當(dāng)我嘗試這樣做時，會出現(xiàn)導(dǎo)入程序錯誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

如何進(jìn)行高效的時序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

現(xiàn)有的圖數(shù)據(jù)規(guī)模極大，導(dǎo)致時序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要格外長的時間，因此使用多GPU進(jìn)行訓(xùn)練變得成為尤為重要，如何有效地將多GPU用于時序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為一個非常重要的研究議題。本文提供了兩種方式來

2022-09-28 10:37:20

怎樣使用PyTorch Hub去加載YOLOv5模型

導(dǎo)出格式進(jìn)行推理，包括自定義訓(xùn)練模型。有關(guān)導(dǎo)出模型的詳細(xì)信息，請參閱TFLite、ONNX、CoreML、TensorRT 導(dǎo)出教程。專業(yè)提示：在GPU 基準(zhǔn)測試中， TensorRT可能比

2022-07-22 16:02:42

怎樣去應(yīng)對高速互聯(lián)測試的挑戰(zhàn)？

如何使用寬頻率范圍矢量網(wǎng)絡(luò)分析儀去應(yīng)對高速互聯(lián)測試的挑戰(zhàn)？

2021-04-30 07:25:40

探索一種降低ViT模型訓(xùn)練成本的方法

（1 GPU）和時間（24小時）資源下從頭開始訓(xùn)練ViT模型。首先，提出了一種向ViT架構(gòu)添加局部性的有效方法。其次，開發(fā)了一種新的圖像大小課程學(xué)習(xí)策略，該策略允許在訓(xùn)練開始時減少從每個圖像中提

2022-11-24 14:56:31

智能家居解決各平臺互聯(lián)互通仍是一個難題

智能家居解決各平臺互聯(lián)互通仍是一個難題

2021-05-21 07:09:14

深度融合模型的特點

深度融合模型的特點，背景深度學(xué)習(xí)模型在訓(xùn)練完成之后，部署并應(yīng)用在生產(chǎn)環(huán)境的這一步至關(guān)重要，畢竟訓(xùn)練出來的模型不能只接受一些公開數(shù)據(jù)集和榜單的檢驗，還需要在真正的業(yè)務(wù)場景下創(chuàng)造價值，不能只是為了PR而

2021-07-16 06:08:20

用S3C2440訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法

嵌入式設(shè)備自帶專用屬性，不適合作為隨機性很強的人工智能深度學(xué)習(xí)訓(xùn)練平臺。想象用S3C2440訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法都會頭皮發(fā)麻，PC上的I7、GPU上都很吃力，大部分都要依靠服務(wù)器來訓(xùn)練。但是一旦算法訓(xùn)練

2021-08-17 08:51:57

算法原理與模型訓(xùn)練

2019-01-25 15:02:15

英偉達(dá)GPU卡多卡互聯(lián)NVLink，系統(tǒng)累積的公差，是怎么解決的？是連接器吸收的？

英偉達(dá)不斷推出GPU卡，并且實現(xiàn)多卡互聯(lián)NVLink，實際整個系統(tǒng)會累積到一個較大的公差，而目前市面上已有的連接器只能吸收較少的公差，這個是怎么做到匹配的呢？

2022-03-05 16:17:06

請問K510設(shè)備什么時候可以支持線上模型訓(xùn)練？

目前官方的線上模型訓(xùn)練只支持K210，請問K510什么時候可以支持

2023-09-13 06:12:13

請問Mali GPU的并行化計算模型是怎樣構(gòu)建的？

Mali T604 GPU的結(jié)構(gòu)是由哪些部分組成的？Mali T604 GPU的編程特性有哪些？Mali GPU的并行化計算模型是怎樣構(gòu)建的？基于Mali-T604 GPU的快速浮點矩陣乘法并行化該如何去實現(xiàn)？

2021-04-19 08:06:26

龍哥手把手教你學(xué)視覺-深度學(xué)習(xí)YOLOV5篇

：【tensorflow篇】訓(xùn)練：intelcpu或gpu：N卡1060，20系列可用，30系列顯卡不可用調(diào)用：intelcpu【yolov4篇】訓(xùn)練：gpu：N卡1060，20系列可用，30系列顯卡不可用（后續(xù)課程

2021-09-03 09:39:28

比谷歌快46倍！GPU助力IBM Snap ML，40億樣本訓(xùn)練模型僅需91.5秒

在為這樣的大規(guī)模應(yīng)用部署GPU加速時，出現(xiàn)了一個主要的技術(shù)挑戰(zhàn)：訓(xùn)練數(shù)據(jù)太大而無法存儲在GPU上可用的存儲器中。因此，在訓(xùn)練期間，需要有選擇地處理數(shù)據(jù)并反復(fù)移入和移出GPU內(nèi)存。為了解釋應(yīng)用程序的運行時間，研究人員分析了在GPU內(nèi)核中花費的時間與在GPU上復(fù)制數(shù)據(jù)所花費的時間。

2018-03-26 10:29:15

4301

基于虛擬化的多GPU深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架

針對深度神經(jīng)網(wǎng)絡(luò)在分布式多機多GPU上的加速訓(xùn)練問題，提出一種基于虛擬化的遠(yuǎn)程多GPU調(diào)用的實現(xiàn)方法。利用遠(yuǎn)程GPU調(diào)用部署的分布式GPU集群改進(jìn)傳統(tǒng)一對一的虛擬化技術(shù)，同時改變深度神經(jīng)網(wǎng)絡(luò)在分布式

2018-03-29 16:45:25

TPU和GPU的帶寬模型

帶寬模型最大的限制就是這些計算是針對特定矩陣大小的，計算的難度在各種尺寸之間都不同。例如，如果你的batch size是128，那么GPU的速度會比TPU稍快一點。如果batch size小于128

2018-10-21 09:20:34

4007

如何利用Google Colab的云TPU加速Keras模型訓(xùn)練

云TPU包含8個TPU核，每個核都作為獨立的處理單元運作。如果沒有用上全部8個核心，那就沒有充分利用TPU。為了充分加速訓(xùn)練，相比在單GPU上訓(xùn)練的同樣的模型，我們可以選擇較大的batch尺寸?？俠atch尺寸定為1024（每個核心128）一般是一個不錯的起點。

2018-11-16 09:10:03

10102

GPU如何訓(xùn)練大批量模型？方法在這里

深度學(xué)習(xí)模型和數(shù)據(jù)集的規(guī)模增長速度已經(jīng)讓 GPU 算力也開始捉襟見肘，如果你的 GPU 連一個樣本都容不下，你要如何訓(xùn)練大批量模型？通過本文介紹的方法，我們可以在訓(xùn)練批量甚至單個訓(xùn)練樣本大于 GPU

2018-12-03 17:24:01

677

GPU，解決汽車駕駛輔助系統(tǒng)難題的最優(yōu)選擇

幾乎任何類型的密集并行計算難題都可以用GPU去解決。從這個層面來看，GPU是這類應(yīng)用的最佳選擇。

2019-03-04 15:01:24

2115

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤點

正如我們在本文中所述，ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長期依賴語言建模數(shù)據(jù)集Wikitext之一）上訓(xùn)練，從而得到新數(shù)據(jù)集，通過這種方式使其不會忘記之前學(xué)過的內(nèi)容。

2019-04-04 11:26:26

23213

算法 | 超Mask RCNN速度4倍,僅在單個GPU訓(xùn)練的實時實例分割算法

YOLACT——Real-time Instance Segmentation提出了一種簡潔的實時實例分割全卷積模型，速度明顯優(yōu)于以往已有的算法，而且就是在一個 GPU 上訓(xùn)練取得的！

2019-06-11 10:34:57

6981

關(guān)于語言模型和對抗訓(xùn)練的工作

本文把對抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個階段，對抗訓(xùn)練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進(jìn)行對抗，在下游任務(wù)上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

1821

如何讓PyTorch模型訓(xùn)練變得飛快？

讓我們面對現(xiàn)實吧，你的模型可能還停留在石器時代。我敢打賭你仍然使用32位精度或GASP甚至只在一個GPU上訓(xùn)練。我明白，網(wǎng)上都是各種神經(jīng)網(wǎng)絡(luò)加速指南，但是一個checklist都沒有（現(xiàn)在

2020-11-27 10:43:52

1509

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性，以及工業(yè)應(yīng)用對推理性能的要求，大規(guī)模預(yù)訓(xùn)練模型往往不能簡單直接地被應(yīng)用于NLP業(yè)務(wù)中。本文將為

2020-12-31 10:17:11

2229

一個GPU訓(xùn)練一個130億參數(shù)的模型

。這些大模型的出現(xiàn)讓普通研究者越發(fā)絕望：沒有「鈔能力」、沒有一大堆 GPU 就做不了 AI 研究了嗎？在此背景下，部分研究者開始思考：如何讓這些大模型的訓(xùn)練變得更加接地氣？也就是說，怎么用更少的卡訓(xùn)練更大的模型？為了解決這個問題，來自微軟、加州大學(xué)默塞德分校的研究

2021-02-11 09:04:00

2187

基于預(yù)訓(xùn)練模型和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

作為模型的初始化詞向量。但是，隨機詞向量存在不具備語乂和語法信息的缺點;預(yù)訓(xùn)練詞向量存在¨一詞-乂”的缺點，無法為模型提供具備上下文依賴的詞向量。針對該問題，提岀了一種基于預(yù)訓(xùn)練模型BERT和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)

2021-04-20 14:29:06

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

3539

NVIDIA GPU助力提升模型訓(xùn)練和推理性價比

，其中的模型數(shù)量達(dá)數(shù)千個，日均調(diào)用服務(wù)達(dá)到千億級別。無量推薦系統(tǒng)，在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計算，是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點： 訓(xùn)練是基于參數(shù)

2021-08-23 17:09:03

4514

多模態(tài)圖像-文本預(yù)訓(xùn)練模型

在某一方面的智能程度。具體來說是，領(lǐng)域?qū)＜胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集，然后在其上訓(xùn)練及評價相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強的模型，往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。近期預(yù)訓(xùn)練模型的

2021-09-06 10:06:53

3383

NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

深度學(xué)習(xí)是推動當(dāng)前人工智能大趨勢的關(guān)鍵技術(shù)。在 MATLAB 中可以實現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計、訓(xùn)練和部署全流程開發(fā)和應(yīng)用。聯(lián)合高性能 NVIDIA GPU 加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷。

2022-02-18 13:31:44

1732

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

1870

NVIDIA Modulus為數(shù)字雙胞胎開發(fā)ML模型框架

　　訓(xùn)練引擎 Modulus 接受所有輸入，并利用 PyTorch 和 TensorFlow 來訓(xùn)練生成的模型 cuDNN 進(jìn)行 GPU 加速，利用 Magnum IO 進(jìn)行多 GPU /多節(jié)點縮放。

2022-04-14 14:58:46

1026

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1196

如何更高效地使用預(yù)訓(xùn)練語言模型

本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

958

如何在GPU資源受限的情況下訓(xùn)練transformers庫上面的大模型

自BERT出現(xiàn)以來，nlp領(lǐng)域已經(jīng)進(jìn)入了大模型的時代，大模型雖然效果好，但是畢竟不是人人都有著豐富的GPU資源，在訓(xùn)練時往往就捉襟見肘，出現(xiàn)顯存out of memory的問題，或者訓(xùn)練時間非常非常的久

2022-08-31 18:16:05

1971

NVIDIA GPU加速潞晨科技Colossal-AI大模型開發(fā)進(jìn)程

通過 NVIDIA GPU 加速平臺，Colossal-AI 實現(xiàn)了通過高效多維并行、異構(gòu)內(nèi)存管理、大規(guī)模優(yōu)化庫、自適應(yīng)任務(wù)調(diào)度等方式，更高效快速部署 AI 大模型訓(xùn)練與推理。

2022-10-19 09:39:39

1164

AI模型是如何訓(xùn)練的？訓(xùn)練一個模型花費多大？

2022-10-23 00:20:03

7403

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。如果要教一個剛學(xué)會走路的孩子什么是獨角獸，那么我們首先應(yīng)

2023-04-04 01:45:02

1057

推特并入X公司馬斯克還買了10000個GPU要訓(xùn)練大模型

。另外，還有一個特別有意思的是，馬斯克才呼吁暫停?ChatGPT 的訓(xùn)練，馬上就轉(zhuǎn)身就下場買了10000個GPU要訓(xùn)練大模型。根據(jù)最新的數(shù)據(jù)統(tǒng)計顯示，馬斯克的身價為1876億美元，是全球第二大富豪，也是美國首富。美國首富買一些GPU不算什么。毛毛雨啦。據(jù)

2023-04-12 14:19:28

702

利用OpenVINO?部署HuggingFace預(yù)訓(xùn)練模型的方法與技巧

作為深度學(xué)習(xí)領(lǐng)域的 “github”，HuggingFace 已經(jīng)共享了超過 100,000 個預(yù)訓(xùn)練模型

2023-05-19 15:57:43

514

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。

2023-05-25 17:10:09

618

PyTorch教程13.5之在多個GPU上進(jìn)行訓(xùn)練

電子發(fā)燒友網(wǎng)站提供《PyTorch教程13.5之在多個GPU上進(jìn)行訓(xùn)練.pdf》資料免費下載

2023-06-05 14:18:52

芯片“新王”手創(chuàng)造的GPU制造龍頭——英偉達(dá)

當(dāng)chatgpt掀起一股新的ai大規(guī)模模型熱潮時，提供基本計算能力的nvidia是最大的受惠者之一，而nvidia的gpu產(chǎn)品幾乎沒有能夠替代大規(guī)模模型訓(xùn)練的東西。

2023-06-05 10:58:42

1118

PyTorch教程-13.5。在多個 GPU 上進(jìn)行訓(xùn)練

實驗室在 SageMaker Studio Lab 中打開筆記本到目前為止，我們討論了如何在 CPU 和 GPU 上高效地訓(xùn)練模型。在13.3 節(jié)中，我們甚至展示了深度學(xué)習(xí)框架如何允許人們在它們

2023-06-05 15:44:33

733

天數(shù)智芯通用GPU產(chǎn)品為大模型時代提供強大算力底座

，全面介紹了天數(shù)智芯基于自研通用GPU的全棧式集群解決方案及其在支持大模型上的具體實踐。天數(shù)智芯產(chǎn)品線總裁鄒翾鄒翾指出，順應(yīng)大模型的發(fā)展潮流，天數(shù)智芯依托通用GPU架構(gòu)，從訓(xùn)練和推理兩個角度為客戶提供支撐，全力打造高性

2023-06-08 22:55:02

1000

天數(shù)智芯天垓100率先完成百億級參數(shù)大模型訓(xùn)練

的Aquila語言基礎(chǔ)模型，使用代碼數(shù)據(jù)進(jìn)行繼續(xù)訓(xùn)練，穩(wěn)定運行19天，模型收斂效果符合預(yù)期，證明天數(shù)智芯有支持百億級參數(shù)大模型訓(xùn)練的能力。在北京市海淀區(qū)的大力支持下，智源研究院、天數(shù)智芯與愛特云翔共同合作，聯(lián)手開展基于自主通用GPU的

2023-06-12 15:23:17

588

基于預(yù)訓(xùn)練模型和語言增強的零樣本視覺學(xué)習(xí)

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進(jìn)一步提升怎么讓能力更好？可以引入其他知識，即其他的預(yù)訓(xùn)練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

299

沐曦基于曦云C500發(fā)布國產(chǎn)首臺GPU千億參數(shù)大模型訓(xùn)推一體機

首臺GPU千億參數(shù)大模型訓(xùn)推一體機由數(shù)字寧夏倡議發(fā)起技術(shù)攻關(guān)，基于沐曦最新發(fā)布的曦云C500旗艦GPU芯片提供的算力支持、智譜華章的AI大模型以及優(yōu)刻得靈活的算力部署方案，共同打造國內(nèi)模型能力、算力支持及解決方案領(lǐng)先的國有自主知識產(chǎn)權(quán)的AI大模型訓(xùn)練推理一體機

2023-08-21 14:41:20

2660

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種常用的深度學(xué)習(xí)算法，廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等諸多領(lǐng)域。CNN

2023-08-21 16:42:00

966

訓(xùn)練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓(xùn)練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對訓(xùn)練的工作負(fù)載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1072

8G顯存一鍵訓(xùn)練，解鎖Llama2隱藏能力！XTuner帶你玩轉(zhuǎn)大模型

針對 GPU 計算特點，在顯存允許的情況下，XTuner 支持將多條短數(shù)據(jù)拼接至模型最大輸入長度，以此最大化 GPU 計算核心的利用率，可以顯著提升訓(xùn)練速度。例如，在使用 oasst1 數(shù)據(jù)集微調(diào) Llama2-7B 時，數(shù)據(jù)拼接后的訓(xùn)練時長僅為普通訓(xùn)練的 50% 。

2023-09-04 16:12:26

1349

LLaMA微調(diào)顯存需求減半，清華提出4比特優(yōu)化器

從 GPT-3，Gopher 到 LLaMA，大模型有更好的性能已成為業(yè)界的共識。但相比之下，單個 GPU 的顯存大小卻增長緩慢，這讓顯存成為了大模型訓(xùn)練的主要瓶頸，如何在有限的 GPU 內(nèi)存下訓(xùn)練大模型成為了一個重要的難題。

2023-09-11 16:08:49

250

如何讓網(wǎng)絡(luò)模型加速訓(xùn)練

的博文，對 Pytorch的AMP ( autocast與Gradscaler 進(jìn)行對比) 自動混合精度對模型訓(xùn)練加速。注意Pytorch1.6+，已經(jīng)內(nèi)置torch.cuda.amp，因此便不需要加載

2023-11-03 10:00:19

1082

多GPU訓(xùn)練大型模型：資源分配與優(yōu)化技巧｜英偉達(dá)將推出面向中國的改良芯片HGX H20、L20 PCIe、L2 PCIe

。為了解決這個問題，英偉達(dá)將針對中國市場推出新的AI芯片，以應(yīng)對美國出口限制。本文將探討如何在多個GPU上訓(xùn)練大型模型，并分析英偉達(dá)禁令對中國AI計算行業(yè)的影響。

2023-11-16 11:39:31

966

NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓(xùn)練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來訓(xùn)練其最大的新一代大語言模型（LLM）。大語言模型的一切都很龐大——巨型模型是在數(shù)千顆 NVIDIA

2023-11-29 21:15:02

308

天數(shù)智芯支持智源研究院首次完成大模型異構(gòu)算力混合訓(xùn)練，突破異構(gòu)算力束縛

基于英偉達(dá)混合資源及天數(shù)智芯混合資源完成訓(xùn)練的大模型，也是智源研究院與天數(shù)智芯合作取得的最新成果，再次證明了天數(shù)智芯通用 GPU 產(chǎn)品支持大模型訓(xùn)練的能力，以及與主流產(chǎn)品的兼容能力。據(jù)林詠華副院長介紹，為了解決異構(gòu)算力混合訓(xùn)練難題，智源研究院開發(fā)了高效并行訓(xùn)練框

2023-11-30 13:10:02

880