色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在GPU資源受限的情況下訓練transformers庫上面的大模型

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:Lukan ? 2022-08-31 18:16 ? 次閱讀

前言

自BERT出現以來,nlp領域已經進入了大模型的時代,大模型雖然效果好,但是畢竟不是人人都有著豐富的GPU資源,在訓練時往往就捉襟見肘,出現顯存out of memory的問題,或者訓練時間非常非常的久,因此,這篇文章主要解決的問題就是如何在GPU資源受限的情況下訓練transformers庫上面的大模型。

這篇文章源自Vadim Irtlach大佬在kaggle的開源notebook,感謝原作者的分享,本nlp小白覺得受益良多,因此搬運到知乎分享給大家,已取得作者授權,大部分內容是照搬翻譯過來的,小部分內容結合自己的理解進行了補充和修改,不對的地方請大家批評指正,正文開始!

盡管Huggingface開源的Transformers在自然語言處理(NLP)任務中取得了驚人的成功,但由于里面的模型參數數量龐大,即使是使用GPU進行訓練或者部署,也仍具有非常大的挑戰性,因為用如此大的模型進行訓練或推理,會很容易發生顯存不足(OOM)以及訓練時間過長的問題。(這里想吐槽一句的是,kaggle上面的nlp比賽現在動不動就用五折debert-large-v3,沒幾塊V100根本玩不起這種比賽,所以這篇文章對我這種只能用colab的p100來跑實驗的窮學生來說真的是福音啊!)

然而,有很多方法可以避免顯存不足以及訓練時間過長的方法,這篇文章的主要貢獻就是介紹了這些方法的原理以及如何實現,具體包括以下幾種方法:

梯度累積(Gradient Accumulation)

凍結(Freezing)

自動混合精度(Automatic Mixed Precision)

8位優化器(8-bit Optimizers)

梯度檢查點(Gradient Checkpointing)

快速分詞器(Fast Tokenizers)

動態填充(Dynamic Padding)

均勻動態填充(Uniform Dynamic Padding)

其中1-5是神經網絡通用的方法,可以用在任何網絡的性能優化上,6-8是針對nlp領域的性能優化方法

梯度累積

梯度累積背后的想法非常簡單,就是為了模擬更大的批量(batch)。有時,為了更好地收斂或提高性能,需要使用大批量進行訓練,但是,這通常需要更大的顯存。這個問題的一種可能的解決方案是使用較小的批量,但是,一方面,小批量訓練會增加訓練和推理時間,另一方面,梯度下降算法對批量大小的選擇非常敏感,小批量可能會導致不穩定的收斂和性能降低。所以,我們可以先執行幾次前向傳播和反向傳播,使得梯度進行累積,當我們有足夠的計算梯度時,再對參數進行優化,從而利用小顯存,模擬大批量的效果,并且訓練時間也不會大幅增加。

be53a41c-2915-11ed-ba43-dac502259ad0.png

代碼實現

steps=len(loader)

##performvalidationloopeach`validation_steps`trainingsteps!
validation_steps=int(validation_steps*gradient_accumulation_steps)

forstep,batchinenumerate(loader,1):

#prepareinputsandtargetsforthemodelandlossfunctionrespectively.

#forwardpass
outputs=model(inputs)

#computingloss
loss=loss_fn(outputs,targets)

#accumulatinggradientsoversteps
ifgradient_accumulation_steps>1:
loss=loss/gradient_accumulation_steps

#backwardpass
loss.backward()

#performoptimizationstepaftercertainnumberofaccumulatingstepsandattheendofepoch
ifstep%gradient_accumulation_steps==0orstep==steps:
torch.nn.utils.clip_grad_norm_(model.parameters(),max_norm)
optimizer.step()
model.zero_grad()

#performvalidationloop
ifstep%validation_steps==0:
validation_loop()

凍結

凍結是一種非常有效的方法,通過取消計算模型某些層中的梯度計算(如embedding層,bert的前幾層),可以大大加快訓練速度并且降低了顯存占用,而且幾乎不會損失模型的性能。

深度學習中的一個眾所周知的事實是,網絡的底層學習輸入數據的通用特征,而網絡頂層學習目標任務特定的高級特征,所以在對預訓練模型進行微調時,一般網絡底層的參數都不怎么需要變,這些都是通用的知識,需要學習的是頂層的那些參數,當使用某種優化算法(如SGD、AdamW或RMSprop)執行優化步驟時,網絡的底層的梯度就都很小,因此參數幾乎保持不變,這也被稱為梯度消失,因此,與其花費大量的時間和算力來計算底層這些“無用”梯度,并對此類梯度很小的參數進行優化,不如直接凍結它們,直接不計算梯度也不進行優化。

PyTorch為關閉梯度計算提供了一個舒適的API,可以通過torch.Tensor的屬性requires_grad設置。

代碼實現

deffreeze(module):
"""
Freezesmodule'sparameters.
"""
forparameterinmodule.parameters():
parameter.requires_grad=False

defget_freezed_parameters(module):
"""
Returnsnamesoffreezedparametersofthegivenmodule.
"""

freezed_parameters=[]
forname,parameterinmodule.named_parameters():
ifnotparameter.requires_grad:
freezed_parameters.append(name)

returnfreezed_parameters
importtorch
fromtransformersimportAutoConfig,AutoModel


##initializingmodel
model_path="microsoft/deberta-v3-base"
config=AutoConfig.from_pretrained(model_path)
model=AutoModel.from_pretrained(model_path,config=config)


##freezingembeddingsandfirst2layersofencoder
freeze(model.embeddings)
freeze(model.encoder.layer[:2])

freezed_parameters=get_freezed_parameters(model)
print(f"Freezedparameters:{freezed_parameters}")

##selectingparameters,whichrequiresgradientsandinitializingoptimizer
model_parameters=filter(lambdaparameter:parameter.requires_grad,model.parameters())
optimizer=torch.optim.AdamW(params=model_parameters,lr=2e-5,weight_decay=0.0)

自動混合精度

自動混合精度(AMP)是另一種在不損失最終質量的情況下減少顯存消耗和訓練時間的方法,該方法由NVIDIA和百度研究人員在2017年的Mixed Precision Training論文中提出。該方法背后的關鍵思想是使用較低的精度將模型的梯度和參數保留在內存中,即不使用全精度(float32),而是使用半精度(例如float16)將張量保存在內存中。然而,當以較低精度計算梯度時,某些值可能太小,以至于被視為零,這種現象被稱為“溢出”。為了防止“溢出”,原始論文的作者提出了一種梯度縮放方法。

PyTorch從1.6的版本開始提供了一個包:torch.cuda.amp,具有使用自動混合精度所需的功能(從降低精度到梯度縮放),自動混合精度作為上下文管理器實現,因此可以隨時隨地的插入到訓練和推理腳本中。

be81854e-2915-11ed-ba43-dac502259ad0.png

代碼實現

fromtorch.cuda.ampimportautocast,GradScaler


scaler=GradScaler()

forstep,batchinenumerate(loader,1):

#prepareinputsandtargetsforthemodelandlossfunctionrespectively.

#forwardpasswith`autocast`contextmanager
withautocast(enabled=True):
outputs=model(inputs)

#computingloss
loss=loss_fn(outputs,targets)

#scalegradintandperformbackwardpass
scaler.scale(loss).backward()

#beforegradientclippingtheoptimizerparametersmustbeunscaled.
scaler.unscale_(optimizer)

#performoptimizationstep
torch.nn.utils.clip_grad_norm_(model.parameters(),max_norm)

scaler.step(optimizer)
scaler.update()

8位優化器

8-bit Optimizers的思想類似于自動混合精度(模型的參數和梯度使用較低的精度保存),但8-bit Optimizers還讓優化器的狀態使用低精度保存。作者(Meta Research)在最初的論文8-bit Optimizers via Block-wise Quantization中詳細介紹了8-bit Optimizers,表明8-bit Optimizers顯著降低了顯存占用,略微加快了訓練速度。此外,作者研究了不同超參數設置的影響,表明8-bit Optimizers對不同的學習率、beta和權重衰減參數的效果是穩定的,不會降低性能或影響收斂性。因此,作者為8位優化器提供了一個高級庫,叫做bitsandbytes。

beb68046-2915-11ed-ba43-dac502259ad0.png

代碼實現

!pipinstall-qbitsandbytes-cuda110
defset_embedding_parameters_bits(embeddings_path,optim_bits=32):
"""
https://github.com/huggingface/transformers/issues/14819#issuecomment-1003427930
"""

embedding_types=("word","position","token_type")
forembedding_typeinembedding_types:
attr_name=f"{embedding_type}_embeddings"

ifhasattr(embeddings_path,attr_name):
bnb.optim.GlobalOptimManager.get_instance().register_module_override(
getattr(embeddings_path,attr_name),'weight',{'optim_bits':optim_bits}
)

importbitsandbytesasbnb


##selectingparameters,whichrequiresgradients
model_parameters=filter(lambdaparameter:parameter.requires_grad,model.parameters())

##initializingoptimizer
bnb_optimizer=bnb.optim.AdamW(params=model_parameters,lr=2e-5,weight_decay=0.0,optim_bits=8)
##bnb_optimizer=bnb.optim.AdamW8bit(params=model_parameters,lr=2e-5,weight_decay=0.0)#equivalenttotheaboveline

##settingembeddingsparameters
set_embedding_parameters_bits(embeddings_path=model.embeddings)

print(f"8-bitOptimizer:

{bnb_optimizer}")

梯度檢查點

有時候,即使用了上面的幾種方法,顯存可能還是不夠,尤其是在模型足夠大的情況下。那么梯度檢查點(Gradient Checkpointing)就是壓箱底的招數了,這個方法第一次在 Training Deep Nets With Sublinear Memory Cost ,作者表明梯度檢查點可以顯著降低顯存利用率,從降低到,其中n是模型的層數。這種方法允許在單個GPU上訓練大型模型,或者提供更多內存以增加批量大小,從而更好更快地收斂。梯度檢查點背后的思想是在小數據塊中計算梯度,同時在正向和反向傳播過程中從內存中移除不必要的梯度,從而降低內存利用率,但是這種方法需要更多的計算步驟來再現整個反向傳播圖,其實就是一種用時間來換空間的方法。

bee416d2-2915-11ed-ba43-dac502259ad0.pngbef5e5e2-2915-11ed-ba43-dac502259ad0.png演示梯度檢查點如何在正向和反向傳播過程中工作

PyTorch框架里也有梯度檢查點的實現,通過這兩個函數:torch.utils.checkpoint.checkpoint和torch.utils.checkpoint.checkpoint_sequential

這邊引用一段torch官網對梯度檢查點的介紹:

梯度檢查點通過用計算換取內存來工作。檢查點部分不是存儲整個計算圖的所有中間激活以進行反向計算,而是不保存中間激活,而是在反向過程中重新計算它們。它可以應用于模型的任何部分。

具體而言,在前向傳播中,該函數將以torch.no_grad()的方式運行,即不存儲中間激活。然而,前向傳播保存了輸入元組和函數參數。在反向傳播時,檢索保存的輸入和函數,然后再次對函數進行前向傳播,現在跟蹤中間激活,然后使用這些激活值計算梯度。

此外,HuggingFace Transformers也支持梯度檢查點。梯度檢查點可以通過PreTrainedModel實例的gradient_checkpointing_enable方法執行,一行代碼直接搞定!

代碼實現

fromtransformersimportAutoConfig,AutoModel
##https://github.com/huggingface/transformers/issues/9919
fromtorch.utils.checkpointimportcheckpoint

##initializingmodel
model_path="microsoft/deberta-v3-base"
config=AutoConfig.from_pretrained(model_path)
model=AutoModel.from_pretrained(model_path,config=config)

##gradientcheckpointing
model.gradient_checkpointing_enable()
print(f"GradientCheckpointing:{model.is_gradient_checkpointing}")

快速分詞器

HuggingFace Transformers提供兩種類型的分詞器:基本分詞器和快速分詞器。它們之間的主要區別在于,快速分詞器是在Rust上編寫的,因為Python在循環中非常慢,但在分詞的時候又要用到循環。快速分詞器是一種非常簡單的方法,允許我們在分詞的時候獲得額外的加速。要使用快速分詞器也很簡單,只要把transformers.AutoTokenizer里面的from_pretrained方法的use_fast的值修改為True就可以了。

bf0a1f58-2915-11ed-ba43-dac502259ad0.png

分詞器是如何工作的

代碼實現

fromtransformersimportAutoTokenizer

##initializingBaseversionofTokenizer
model_path="microsoft/deberta-v3-base"
tokenizer=AutoTokenizer.from_pretrained(model_path,use_fast=False)
print(f"BaseversionTokenizer:

{tokenizer}",end="
"*3)

##initializingFastversionofTokenizer
fast_tokenizer=AutoTokenizer.from_pretrained(model_path,use_fast=True)
print(f"FastversionTokenizer:

{fast_tokenizer}")

動態填充

通常來說,模型是用批量數據輸入訓練的,批中的每個輸入必須具有固定大小,即一批量的數據必須是矩陣的表示,所有批量數據的尺寸都一樣。固定尺寸通常是根據數據集中的長度分布、特征數量和其他因素來選擇的。在NLP任務中,輸入大小稱為文本長度,或者最大長度(max length)。然而,不同的文本具有不同的長度,為了處理這種情況,研究人員提出了填充標記和截斷。當最大長度小于輸入文本的長度時,會使用截斷,因此會刪除一些標記。當輸入文本的長度小于最大長度時,會將填充標記,比如[PAD],添加到輸入文本的末尾,值得注意的是,填充標記不應包含在某些任務的損失計算中(例如掩蔽語言建模或命名實體識別)

bf2fd37e-2915-11ed-ba43-dac502259ad0.png

固定長度填充

然而,填充標記有明顯的缺點。比如在輸入文本相對于選定的最大長度非常短的情況下,效率就很低,需要更多的額外內存,比如我有一條文本長度512,然后其他文本長度都在10左右,那么如果將max seq設置為512,就會導致很多無效計算。為了防止額外的計算操作,研究人員提出了一種非常有效的方法,就是將批量的輸入填充到這一批量的最大輸入長度,如下圖所示,這種方法可以將訓練速度提高35%甚至50%,當然這種方法加速的效果取決于批量的大小以及文本長度的分布,批量越小,加速效果越明顯,文本長度分布越不均,加速效果也越好。

bf62fa24-2915-11ed-ba43-dac502259ad0.png

動態填充

均勻動態填充

還有一種基于動態填充的方法,叫做均勻動態填充。其思想是在分batch時,先按文本的長度對文本進行排序,這樣同一個batch里面的文本長度就都差不多。這種方法非常有效,在訓練或推理期間的計算量都比動態填充要來的少。但是,不建議在訓練期間使用均勻動態填充,因為訓練時數據最好是要shuffer的,但是推理時如果一次性要推理很多文本的話可以考慮這么做

c04e742c-2915-11ed-ba43-dac502259ad0.png

均勻動態填充

總結

即使在現代GPU上,優化內存和時間也是開發模型的必要步驟,因此,本文介紹了加速訓練和減少transformers等大型模型內存消耗的最強大、最流行的方法。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4913

    瀏覽量

    130695
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14034
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22498
  • 大模型
    +關注

    關注

    2

    文章

    3038

    瀏覽量

    3846

原文標題:一文詳解Transformers的性能優化的8種方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    提升AI訓練性能:GPU資源優化的12個實戰技巧

    在人工智能與機器學習技術迅速發展的背景GPU計算資源的高效利用已成為關鍵技術指標。優化的GPU資源分配不僅能顯著提升
    的頭像 發表于 05-06 11:17 ?340次閱讀
    提升AI<b class='flag-5'>訓練</b>性能:<b class='flag-5'>GPU</b><b class='flag-5'>資源</b>優化的12個實戰技巧

    如何高效訓練AI模型?這些常用工具你必須知道!

    模型的發展同樣面臨瓶頸,訓練所需的硬件資源日益增加,比如英偉達的芯片、電力等(這也可能是ChatGPT5遲遲沒有出來的原因)。業界有觀點認為,在大多數情況下,并不需要全能的大
    的頭像 發表于 04-17 16:43 ?1463次閱讀
    如何高效<b class='flag-5'>訓練</b>AI<b class='flag-5'>模型</b>?這些常用工具你必須知道!

    LPC1227FBD48如何在沒有SDK的情況下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的現有項目中使用 FreeRTOS,但我們沒有可用于控制器的 SDK。我們如何在沒有 SDK 的情況下配置 FreeRTOS。
    發表于 04-02 06:33

    請問如何在imx8mplus上部署和運行YOLOv5訓練模型

    。我在 yo tflite 中轉換模型并嘗試在 tensorflow 腳本上運行模型,但它不起作用。 如何在 imx8mplus 上運行 YOLOv5 模型? 在 imx8mplus
    發表于 03-25 07:23

    KerasHub統一、全面的訓練模型庫

    深度學習領域正在迅速發展,在處理各種類型的任務中,預訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這一動向的前沿。Keras 擁有專用的內容,如用
    的頭像 發表于 12-20 10:32 ?452次閱讀

    GPU是如何訓練AI大模型

    在AI模型訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
    的頭像 發表于 12-19 17:54 ?653次閱讀

    訓練AI大模型需要什么樣的gpu

    訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時,需要根據具體需求進行權衡和選擇。
    的頭像 發表于 12-03 10:10 ?556次閱讀

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?
    發表于 11-28 08:03

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練LLM
    的頭像 發表于 11-08 09:30 ?1406次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發表于 11-05 17:43 ?1272次閱讀

    何在 PyTorch 中訓練模型

    PyTorch 是一個流行的開源機器學習,廣泛用于計算機視覺和自然語言處理等領域。它提供了強大的計算圖功能和動態圖特性,使得模型的構建和調試變得更加靈活和直觀。 數據準備 在訓練模型
    的頭像 發表于 11-05 17:36 ?860次閱讀

    為什么ai模型訓練要用gpu

    GPU憑借其強大的并行處理能力和高效的內存系統,已成為AI模型訓練不可或缺的重要工具。
    的頭像 發表于 10-24 09:39 ?880次閱讀

    模型發展,國產GPU的機會和挑戰

    電子發燒友網站提供《大模型發展,國產GPU的機會和挑戰.pdf》資料免費下載
    發表于 07-18 15:44 ?13次下載
    大<b class='flag-5'>模型</b>發展<b class='flag-5'>下</b>,國產<b class='flag-5'>GPU</b>的機會和挑戰

    llm模型訓練一般用什么系統

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源和數據來進行訓練。以下是關于LLM
    的頭像 發表于 07-09 10:02 ?760次閱讀

    何在UDP的情況下監聽自己通信是否中斷?

    請教大佬一個問題。 我如何在UDP的情況下監聽自己通信是否中斷? 不知道有沒有什么可以參考的?
    發表于 06-24 06:04
    主站蜘蛛池模板: 成人国产精品玖玖热色欲 | 纯肉高H放荡受BL文库 | 伊人久久大线蕉香港三级 | 激情丛林电影完整在线 | 精品一区二区三区在线成人 | 在线观看成年人免费视频 | 免费看的一级毛片 | 国产午夜电影院 | 日日碰狠狠躁久久躁综合网 | 97在线精品视频免费 | 国产AV麻豆出品在线播放 | 好大好硬好湿再深一点网站 | 国产a级黄色毛片 | 色噜噜噜视频 | 超碰97人人做人人爱网站 | 亚洲免费三级电影 | 久久综合狠狠综合久久综合88 | 黄图gif揉胸吸奶 | 精品高潮呻吟99AV无码视频 | 91视频18| 国产精品久久国产三级国不卡顿 | 国产精品成人免费 | 一边摸一边桶一边脱免费 | 优优色影院| 啊好大好厉害好爽真骚 | 国产在线播放不卡 | 亚洲精品视频在线观看视频 | 国产在线精品国自产拍影院午夜 | 国产精品女上位在线观看 | 欧美性FREE玩弄少妇 | 99婷婷久久精品国产一区二区 | 亚洲欧洲日本天天堂在线观看 | 午夜勾魂曲 | 老板吻我下身好爽到高潮 | 工口肉肉彩色不遮挡 | 美国特级成人毛片 | 国产在线精品亚洲二品区 | 天天久久狠狠色综合 | 欧美黑人巨大videos免费 | 三级黄色网 | 欧美国产一区二区三区激情无套 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品