万万女王视频vk,亚洲精品国产福利片,亚洲精品一级毛片

在本文中，我們將展示如何使用大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models，LoRA) 技術在單 GPU 上微調 110 億參數的 FLAN-T5 XXL 模型。在此過程中，我們會使用到 Hugging Face 的 Transformers、Accelerate 和 PEFT 庫。

快速入門: 輕量化微調 (Parameter Efficient Fine-Tuning，PEFT)

PEFT 是 Hugging Face 的一個新的開源庫。使用 PEFT 庫，無需微調模型的全部參數，即可高效地將預訓練語言模型 (Pre-trained Language Model，PLM) 適配到各種下游應用。

注意: 本教程是在 g5.2xlarge AWS EC2 實例上創建和運行的，該實例包含 1 個 NVIDIA A10G。

1. 搭建開發環境

在本例中，我們使用 AWS 預置的 PyTorch 深度學習 AMI，其已安裝了正確的 CUDA 驅動程序和 PyTorch。在此基礎上，我們還需要安裝一些 Hugging Face 庫，包括 transformers 和 datasets。運行下面的代碼就可安裝所有需要的包。

#installHuggingFaceLibraries
!pipinstallgit+https://github.com/huggingface/peft.git
!pipinstall"transformers==4.27.1""datasets==2.9.0""accelerate==0.17.1""evaluate==0.4.0""bitsandbytes==0.37.1"loralib--upgrade--quiet
#installadditionaldependenciesneededfortraining
!pipinstallrouge-scoretensorboardpy7zr

2. 加載并準備數據集

這里，我們使用 samsum 數據集，該數據集包含大約 16k 個含摘要的聊天類對話數據。這些對話由精通英語的語言學家制作。

{
"id":"13818513",
"summary":"AmandabakedcookiesandwillbringJerrysometomorrow.",
"dialogue":"Amanda:Ibakedcookies.Doyouwantsome?
Jerry:Sure!
Amanda:I'llbringyoutomorrow:-)"
}

我們使用 Datasets 庫中的 load_dataset() 方法來加載 samsum 數據集。

fromdatasetsimportload_dataset

#Loaddatasetfromthehub
dataset=load_dataset("samsum")

print(f"Traindatasetsize:{len(dataset['train'])}")
print(f"Testdatasetsize:{len(dataset['test'])}")

#Traindatasetsize:14732
#Testdatasetsize:819

為了訓練模型，我們要用 Transformers Tokenizer 將輸入文本轉換為詞元 ID。

fromtransformersimportAutoTokenizer,AutoModelForSeq2SeqLM

model_id="google/flan-t5-xxl"

#LoadtokenizerofFLAN-t5-XL
tokenizer=AutoTokenizer.from_pretrained(model_id)

在開始訓練之前，我們還需要對數據進行預處理。生成式文本摘要屬于文本生成任務。我們將文本輸入給模型，模型會輸出摘要。我們需要了解輸入和輸出文本的長度信息，以利于我們高效地批量處理這些數據。

fromdatasetsimportconcatenate_datasets
importnumpyasnp
#Themaximumtotalinputsequencelengthaftertokenization.
#Sequenceslongerthanthiswillbetruncated,sequencesshorterwillbepadded.
tokenized_inputs=concatenate_datasets([dataset["train"],dataset["test"]]).map(lambdax:tokenizer(x["dialogue"],truncation=True),batched=True,remove_columns=["dialogue","summary"])
input_lenghts=[len(x)forxintokenized_inputs["input_ids"]]
#take85percentileofmaxlengthforbetterutilization
max_source_length=int(np.percentile(input_lenghts,85))
print(f"Maxsourcelength:{max_source_length}")

#Themaximumtotalsequencelengthfortargettextaftertokenization.
#Sequenceslongerthanthiswillbetruncated,sequencesshorterwillbepadded."
tokenized_targets=concatenate_datasets([dataset["train"],dataset["test"]]).map(lambdax:tokenizer(x["summary"],truncation=True),batched=True,remove_columns=["dialogue","summary"])
target_lenghts=[len(x)forxintokenized_targets["input_ids"]]
#take90percentileofmaxlengthforbetterutilization
max_target_length=int(np.percentile(target_lenghts,90))
print(f"Maxtargetlength:{max_target_length}")

我們將在訓練前統一對數據集進行預處理并將預處理后的數據集保存到磁盤。你可以在本地機器或 CPU 上運行此步驟并將其上傳到 Hugging Face Hub。

defpreprocess_function(sample,padding="max_length"):
#addprefixtotheinputfort5
inputs=["summarize:"+itemforiteminsample["dialogue"]]

#tokenizeinputs
model_inputs=tokenizer(inputs,max_length=max_source_length,padding=padding,truncation=True)

#Tokenizetargetswiththe`text_target`keywordargument
labels=tokenizer(text_target=sample["summary"],max_length=max_target_length,padding=padding,truncation=True)

#Ifwearepaddinghere,replacealltokenizer.pad_token_idinthelabelsby-100whenwewanttoignore
#paddingintheloss.
ifpadding=="max_length":
labels["input_ids"]=[
[(lifl!=tokenizer.pad_token_idelse-100)forlinlabel]forlabelinlabels["input_ids"]
]

model_inputs["labels"]=labels["input_ids"]
returnmodel_inputs

tokenized_dataset=dataset.map(preprocess_function,batched=True,remove_columns=["dialogue","summary","id"])
print(f"Keysoftokenizeddataset:{list(tokenized_dataset['train'].features)}")

#savedatasetstodiskforlatereasyloading
tokenized_dataset["train"].save_to_disk("data/train")
tokenized_dataset["test"].save_to_disk("data/eval")

3. 使用 LoRA 和 bnb int-8 微調 T5

除了 LoRA 技術，我們還使用 bitsanbytes LLM.int8() 把凍結的 LLM 量化為 int8。這使我們能夠將 FLAN-T5 XXL 所需的內存降低到約四分之一。

訓練的第一步是加載模型。我們使用 philschmid/flan-t5-xxl-sharded-fp16 模型，它是 google/flan-t5-xxl 的分片版。分片可以讓我們在加載模型時不耗盡內存。

fromtransformersimportAutoModelForSeq2SeqLM

#huggingfacehubmodelid
model_id="philschmid/flan-t5-xxl-sharded-fp16"

#loadmodelfromthehub
model=AutoModelForSeq2SeqLM.from_pretrained(model_id,load_in_8bit=True,device_map="auto")

現在，我們可以使用 peft 為 LoRA int-8 訓練作準備了。

frompeftimportLoraConfig,get_peft_model,prepare_model_for_int8_training,TaskType

#DefineLoRAConfig
lora_config=LoraConfig(
r=16,
lora_alpha=32,
target_modules=["q","v"],
lora_dropout=0.05,
bias="none",
task_type=TaskType.SEQ_2_SEQ_LM
)
#prepareint-8modelfortraining
model=prepare_model_for_int8_training(model)

#addLoRAadaptor
model=get_peft_model(model,lora_config)
model.print_trainable_parameters()

#trainableparams:18874368||allparams:11154206720||trainable%:0.16921300163961817

如你所見，這里我們只訓練了模型參數的 0.16%！這個巨大的內存增益讓我們安心地微調模型，而不用擔心內存問題。

接下來需要創建一個 DataCollator，負責對輸入和標簽進行填充，我們使用 Transformers 庫中的 DataCollatorForSeq2Seq 來完成這一環節。

fromtransformersimportDataCollatorForSeq2Seq

#wewanttoignoretokenizerpadtokenintheloss
label_pad_token_id=-100
#Datacollator
data_collator=DataCollatorForSeq2Seq(
tokenizer,
model=model,
label_pad_token_id=label_pad_token_id,
pad_to_multiple_of=8
)

最后一步是定義訓練超參 ( TrainingArguments)。

fromtransformersimportSeq2SeqTrainer,Seq2SeqTrainingArguments

output_dir="lora-flan-t5-xxl"

#Definetrainingargs
training_args=Seq2SeqTrainingArguments(
output_dir=output_dir,
auto_find_batch_size=True,
learning_rate=1e-3,#higherlearningrate
num_train_epochs=5,
logging_dir=f"{output_dir}/logs",
logging_strategy="steps",
logging_steps=500,
save_strategy="no",
report_to="tensorboard",
)

#CreateTrainerinstance
trainer=Seq2SeqTrainer(
model=model,
args=training_args,
data_collator=data_collator,
train_dataset=tokenized_dataset["train"],
)
model.config.use_cache=False#silencethewarnings.Pleasere-enableforinference!

運行下面的代碼，開始訓練模型。請注意，對于 T5，出于收斂穩定性考量，某些層我們仍保持 float32 精度。

#trainmodel
trainer.train()

訓練耗時約 10 小時 36 分鐘，訓練 10 小時的成本約為 13.22 美元。相比之下，如果在 FLAN-T5-XXL 上進行全模型微調 10 個小時，我們需要 8 個 A100 40GB，成本約為 322 美元。

我們可以將模型保存下來以用于后面的推理和評估。我們暫時將其保存到磁盤，但你也可以使用 model.push_to_hub 方法將其上傳到 Hugging Face Hub。

#SaveourLoRAmodel&tokenizerresults
peft_model_id="results"
trainer.model.save_pretrained(peft_model_id)
tokenizer.save_pretrained(peft_model_id)
#ifyouwanttosavethebasemodeltocall
#trainer.model.base_model.save_pretrained(peft_model_id)

最后生成的 LoRA checkpoint 文件很小，僅需 84MB 就包含了從 samsum 數據集上學到的所有知識。

4. 使用 LoRA FLAN-T5 進行評估和推理

我們將使用 evaluate 庫來評估 rogue 分數。我們可以使用 PEFT 和 transformers 來對 FLAN-T5 XXL 模型進行推理。對 FLAN-T5 XXL 模型，我們至少需要 18GB 的 GPU 顯存。

importtorch
frompeftimportPeftModel,PeftConfig
fromtransformersimportAutoModelForSeq2SeqLM,AutoTokenizer

#Loadpeftconfigforpre-trainedcheckpointetc.
peft_model_id="results"
config=PeftConfig.from_pretrained(peft_model_id)

#loadbaseLLMmodelandtokenizer
model=AutoModelForSeq2SeqLM.from_pretrained(config.base_model_name_or_path,load_in_8bit=True,device_map={"":0})
tokenizer=AutoTokenizer.from_pretrained(config.base_model_name_or_path)

#LoadtheLoramodel
model=PeftModel.from_pretrained(model,peft_model_id,device_map={"":0})
model.eval()

print("Peftmodelloaded")

我們用測試數據集中的一個隨機樣本來試試摘要效果。

fromdatasetsimportload_dataset
fromrandomimportrandrange

#Loaddatasetfromthehubandgetasample
dataset=load_dataset("samsum")
sample=dataset['test'][randrange(len(dataset["test"]))]

input_ids=tokenizer(sample["dialogue"],return_tensors="pt",truncation=True).input_ids.cuda()
#withtorch.inference_mode():
outputs=model.generate(input_ids=input_ids,max_new_tokens=10,do_sample=True,top_p=0.9)
print(f"inputsentence:{sample['dialogue']}
{'---'*20}")

print(f"summary:
{tokenizer.batch_decode(outputs.detach().cpu().numpy(),skip_special_tokens=True)[0]}")

不錯！我們的模型有效！現在，讓我們仔細看看，并使用 test 集中的全部數據對其進行評估。為此，我們需要實現一些工具函數來幫助生成摘要并將其與相應的參考摘要組合到一起。評估摘要任務最常用的指標是 rogue_score，它的全稱是 Recall-Oriented Understudy for Gisting Evaluation。與常用的準確率指標不同，它將生成的摘要與一組參考摘要進行比較。

importevaluate
importnumpyasnp
fromdatasetsimportload_from_disk
fromtqdmimporttqdm

#Metric
metric=evaluate.load("rouge")

defevaluate_peft_model(sample,max_target_length=50):
#generatesummary
outputs=model.generate(input_ids=sample["input_ids"].unsqueeze(0).cuda(),do_sample=True,top_p=0.9,max_new_tokens=max_target_length)
prediction=tokenizer.decode(outputs[0].detach().cpu().numpy(),skip_special_tokens=True)
#decodeevalsample
#Replace-100inthelabelsaswecan'tdecodethem.
labels=np.where(sample['labels']!=-100,sample['labels'],tokenizer.pad_token_id)
labels=tokenizer.decode(labels,skip_special_tokens=True)

#Somesimplepost-processing
returnprediction,labels

#loadtestdatasetfromdistk
test_dataset=load_from_disk("data/eval/").with_format("torch")

#runpredictions
#thiscantake~45minutes
predictions,references=[],[]
forsampleintqdm(test_dataset):
p,l=evaluate_peft_model(sample)
predictions.append(p)
references.append(l)

#computemetric
rogue=metric.compute(predictions=predictions,references=references,use_stemmer=True)

#printresults
print(f"Rogue1:{rogue['rouge1']*100:2f}%")
print(f"rouge2:{rogue['rouge2']*100:2f}%")
print(f"rougeL:{rogue['rougeL']*100:2f}%")
print(f"rougeLsum:{rogue['rougeLsum']*100:2f}%")

#Rogue1:50.386161%
#rouge2:24.842412%
#rougeL:41.370130%
#rougeLsum:41.394230%

我們 PEFT 微調后的 FLAN-T5-XXL 在測試集上取得了 50.38% 的 rogue1 分數。相比之下，flan-t5-base 的全模型微調獲得了 47.23 的 rouge1 分數。rouge1 分數提高了 3%。

令人難以置信的是，我們的 LoRA checkpoint 只有 84MB，而且性能比對更小的模型進行全模型微調后的 checkpoint 更好。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

PLM

PLM

+關注

關注
2

文章
132

瀏覽量
21035
AWS

AWS

+關注

關注
0

文章
434

瀏覽量
24666
LoRa模塊

LoRa模塊

+關注

關注
5

文章
139

瀏覽量
14161
pytorch

pytorch

+關注

關注
2

文章
808

瀏覽量
13500

原文標題：使用 LoRA 和 Hugging Face 高效訓練大語言模型

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

小白學大模型：訓練大語言模型的深度指南

在當今人工智能飛速發展的時代，大型語言模型（LLMs）正以其強大的語言理解和生成能力，改變著我們的生活和工作方式。在最近的一項研究中，科學家們為了深入了解如何高效地

發表于 03-03 11:51 ?218次閱讀

小白學大<b class='flag-5'>模型</b>：<b class='flag-5'>訓練</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南

騰訊公布大語言模型訓練新專利

近日，騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布，標志著騰訊在大語言模型

發表于 02-10 09:37 ?154次閱讀

Hugging Face推出最小AI視覺語言模型

Hugging Face平臺于1月23日發布博文，推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。其中

發表于 01-24 14:15 ?525次閱讀

大模型訓練框架(五)之Accelerate

Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫，它支持在多種硬件配置上進行分布式訓練，包括 C

發表于 01-14 14:24 ?266次閱讀

摩爾線程與羽人科技完成大語言模型訓練測試

近日，摩爾線程與羽人科技攜手宣布，雙方已成功實現夸娥（KUAE）千卡智算集群與羽人系列模型解決方案的訓練兼容適配。在本次測試中，羽人科技通過摩爾線程夸娥千卡智算集群，高效完成了70億參數羽人7B

發表于 08-27 16:19 ?639次閱讀

Hugging Face科技公司推出SmolLM系列語言模型

7月22日最新資訊，Hugging Face科技公司在語言模型領域再創新高，正式推出了SmolLM系列——一款專為適應多樣計算資源而設計的緊湊型語言

發表于 07-23 16:35 ?448次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使模型學習到

發表于 07-11 10:11 ?691次閱讀

亞馬遜云攜手AI新創企業Hugging Face，提升AI模型在定制芯片計算性能

Hugging Face作為一家估值為45億美元的公司現已成為了眾多AI研究員和開發者分享Chatbot和相關軟件的核心平臺，受到亞馬遜、谷歌、英偉達等巨頭的青睞。

發表于 05-23 14:24 ?485次閱讀

Hugging Face提供1000萬美元免費共享GPU

全球最大的開源AI社區Hugging Face近日宣布，將提供價值1000萬美元的免費共享GPU資源，以支持開發者創造新的AI技術。這一舉措旨在幫助小型開發者、研究人員和初創公司，對抗大型AI公司的市場壟斷，推動AI領域的公平競爭。

發表于 05-20 09:40 ?768次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

Hugging Face推出開源機器人代碼庫LeRobot

AI領域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機器人工具包——LeRobot。這一創新工具包基于史上最大規模的眾包機器人數據集，為開發者提供了一個前所未有的平臺。

發表于 05-09 10:32 ?701次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

。關于大語言模型是否具備與人類“系統2”相似的能力，存在廣泛的爭議。然而，隨著模型參數量的增加和大規模預訓練的實施，大語言

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型的核心特點在于其龐大的參數量，這賦予了模型強大的學習容量，使其無需依賴微調即可適應各種下游任務，而更傾向于培養通用的處理能力。然而，隨著學習容量的增加，對預訓練數據的需求也相

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

全面剖析大語言模型的核心技術與基礎知識。首先，概述自然語言的基本表示，這是理解大語言模型技術的前提。接著，詳細介紹自然

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

更好地擬合訓練數據，并在推理和泛化時表現出色。此外，特征復用通過共享參數提高效率和性能，使得大語言模型能夠更有效地利用學到的特征。最后，優化效果則通過使用更復雜的優化算法和更長的

發表于 05-04 23:55

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

使用LoRA和Hugging Face高效訓練大語言模型

評論

小白學大模型：訓練大語言模型的深度指南

騰訊公布大語言模型訓練新專利

Hugging Face推出最小AI視覺語言模型

大模型訓練框架(五)之Accelerate

摩爾線程與羽人科技完成大語言模型訓練測試

Hugging Face科技公司推出SmolLM系列語言模型

大語言模型的預訓練

亞馬遜云攜手AI新創企業Hugging Face，提升AI模型在定制芯片計算性能

Hugging Face提供1000萬美元免費共享GPU

大語言模型：原理與工程時間+小白初識大語言模型

Hugging Face推出開源機器人代碼庫LeRobot

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗