色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

調(diào)教LLaMA類模型沒那么難,LoRA將模型微調(diào)縮減到幾小時(shí)

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器之心 ? 2023-05-28 10:58 ? 次閱讀
選自Lightning AI

作者:Sebastian Raschka
機(jī)器之心編譯
編輯:趙陽

LoRA 微調(diào)方法,隨著大模型的出現(xiàn)而走紅。

進(jìn)NLP群—>加入NLP交流群

最近幾個(gè)月,ChatGPT 等一系列大語言模型(LLM)相繼出現(xiàn),隨之而來的是算力緊缺日益嚴(yán)重。雖然人人都想打造專屬于自己的大模型,但是能負(fù)擔(dān)得起上億參數(shù)模型訓(xùn)練的機(jī)構(gòu)卻寥寥無幾。在快速發(fā)展的人工智能領(lǐng)域,以高效和有效的方式使用大型語言模型正變得越來越重要。LoRA(Low-Rank Adaption,低秩自適應(yīng)) 作為微調(diào) LLMs 一種比較出圈的技術(shù),其額外引入了可訓(xùn)練的低秩分解矩陣,同時(shí)固定住預(yù)訓(xùn)練權(quán)重,從而大大減少了下游任務(wù)的可訓(xùn)練參數(shù)數(shù)量。本文中,來自 Lightning AI 首席人工智能教育家 Sebastian Raschka 將帶你了解如何以高效的方式用 LoRA 來微調(diào) LLM。下面是全文內(nèi)容。為什么要進(jìn)行微調(diào)?預(yù)訓(xùn)練大語言模型通常被稱為基礎(chǔ)模型,這樣稱呼的原因是:大語言模型在各種任務(wù)中表現(xiàn)良好,可以將它們用作對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)的基礎(chǔ)。正如 Sebastian Raschka 在上一篇博文《Understanding Parameter-Efficient Finetuning of Large Language Models: From Prefix Tuning to LLaMA-Adapters》中所討論的,微調(diào)能夠使模型適應(yīng)目標(biāo)域和目標(biāo)任務(wù)。盡管如此,大模型在計(jì)算上的成本可能非常昂貴 —— 模型越大,更新其網(wǎng)絡(luò)層的成本就越高。如果不想將網(wǎng)絡(luò)中所有的層都進(jìn)行更新,可以使用諸如前綴微調(diào)和適配器之類的高效調(diào)參方法。如今,有一種更流行的微調(diào)技術(shù):Hu 等人提出的低秩自適應(yīng)(LoRA)。什么是 LoRA?它是如何工作的?它與其他流行的微調(diào)方法相比如何?本文將回答所有這些問題。2fca119e-fcbf-11ed-90ce-dac502259ad0.png提高權(quán)重更新效率論文《 LoRA: Low-Rank Adaptation of Large Language Models》提出將權(quán)重變化 ΔW 分解為秩較低的表示。(LoRA 不會(huì)直接分解矩陣,而是通過反向傳播來學(xué)習(xí)分解的矩陣)。在仔細(xì)研究 LoRA 之前,我們先簡(jiǎn)要解釋一下規(guī)則微調(diào)期間的訓(xùn)練程序。首先是權(quán)重變化 ΔW。假設(shè) W 表示給定神經(jīng)網(wǎng)絡(luò)層中的權(quán)重矩陣。然后,使用常規(guī)反向傳播,我們可以獲得權(quán)重更新 ΔW,它通常被計(jì)算為損失乘以學(xué)習(xí)率的負(fù)梯:2fe9b292-fcbf-11ed-90ce-dac502259ad0.png然后,得到 ΔW 后,原始權(quán)重按如下公式更新:W'=W+ΔW。如下圖所示(為了簡(jiǎn)單起見,省略了偏置矢量)。或者,我們可以保持權(quán)重更新矩陣分離,并按如下公式計(jì)算輸出:h=Wx+ΔWx:2ff80220-fcbf-11ed-90ce-dac502259ad0.png

其中 x 表示輸入,如下所示:

301ac6de-fcbf-11ed-90ce-dac502259ad0.png ?當(dāng)在神經(jīng)網(wǎng)絡(luò)中訓(xùn)練全連接(即 dense)層時(shí),如上所示,權(quán)重矩陣通常具有全秩,這意味著矩陣不具有任何線性相關(guān)(即冗余)的行或列。相比之下,與全秩相比,低秩意味著矩陣具有冗余的行或列。 因此,盡管預(yù)訓(xùn)練模型的權(quán)重是滿秩矩陣,但根據(jù) Aghajanyan 等人的說法,LoRA 的作者指出預(yù)訓(xùn)練的大型語言模型在適應(yīng)新任務(wù)時(shí)具有較低的內(nèi)在維度。低內(nèi)在維度意味著數(shù)據(jù)可以由低維度空間有效地表示或近似,同時(shí)保留其大部分基本信息或結(jié)構(gòu)。換句話說,這意味著可以將適應(yīng)任務(wù)的新權(quán)重矩陣分解為低維(較?。┚仃?,而不會(huì)丟失太多重要信息。例如,假設(shè) ΔW 是 A×B 維權(quán)重矩陣的權(quán)重更新矩陣,這個(gè)權(quán)重更新矩陣可以分解為兩個(gè)較小的矩陣:ΔW=W_A W_B,其中 W_A 是 A×r 維矩陣,W_B 是 r×B 維矩陣。在這里,我們保持原始權(quán)重 W 凍結(jié),并且只訓(xùn)練新的矩陣 W_A 和 W_B。如下圖所示。

30208e20-fcbf-11ed-90ce-dac502259ad0.png

選擇秩上圖中的 r 是超參數(shù),指定用于自適應(yīng)的低秩矩陣的秩。r 越小,低秩矩陣越簡(jiǎn)單,在自適應(yīng)過程中需要學(xué)習(xí)的參數(shù)越少,訓(xùn)練就更快,計(jì)算需求會(huì)相應(yīng)的減少。然而,r 變小的弊端是,低秩矩陣捕獲任務(wù)特定信息的能力降低。這可能導(dǎo)致較低的自適應(yīng)質(zhì)量,并且與較高的 r 相比,模型在新任務(wù)上可能表現(xiàn)不佳??傊?LoRA 中確定 r 的取值,需要在模型復(fù)雜性、自適應(yīng)能力和擬合不足或擬合過度的風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡。因此,重要的是用不同的 r 值進(jìn)行實(shí)驗(yàn),以找到正確的平衡,從而在新任務(wù)中滿足所需的性能。LoRA 實(shí)戰(zhàn)LoRA 的使用很直接,可以將其視為 LLM 中全連接層的前向傳遞修正版。偽代碼如下所示:

302f787c-fcbf-11ed-90ce-dac502259ad0.png

在上面的偽代碼中,alpha 是一個(gè)縮放因子,用于調(diào)整組合結(jié)果的大?。ㄔ寄P洼敵黾由系椭茸赃m應(yīng))。這平衡了預(yù)訓(xùn)練模型的知識(shí)和新的任務(wù)特定適應(yīng) —— 默認(rèn)情況下,alpha 通常設(shè)置為 1。還要注意,當(dāng) W_A 被初始化為小的隨機(jī)權(quán)重時(shí),W_B 被初始化為 0,從而使得30670116-fcbf-11ed-90ce-dac502259ad0.png,這意味著需要從原始權(quán)重開始訓(xùn)練。參數(shù)效率接下來說一說最棘手的問題:如果引入新的權(quán)重矩陣,參數(shù)如何才能有效?新的矩陣 W_A 和 W_B 可以非常小。例如,假設(shè) A=100,B=500,那么 ΔW 的大小為 100×500=50000。如果將其分解為兩個(gè)較小的矩陣,一個(gè) 100×5 維矩陣 W_A 和一個(gè) 5×500 維矩陣 W_B。這兩個(gè)矩陣總共只有 5×100+5×500=3000 個(gè)參數(shù)。減少推理開銷在實(shí)踐中,如果在如上所示的訓(xùn)練后保持原始權(quán)重 W 以及矩陣 W_A 和 W_B 處于分離狀態(tài),推理過程中就會(huì)額外產(chǎn)生效率損失,因?yàn)橐肓祟~外的計(jì)算步驟。相反可以在訓(xùn)練后通過 W’=W+W_A?W_B 更新權(quán)重,這類似于前面提到的 W’=W+ΔW。然而,保持權(quán)重矩陣 W_A 和 W_B 分離也可能有些優(yōu)勢(shì)。例如,假設(shè)希望保留預(yù)訓(xùn)練的模型作為各種客戶的基礎(chǔ)模型,并且希望從基礎(chǔ)模型開始為每個(gè)客戶創(chuàng)建一個(gè)微調(diào)的 LLM。在這種情況下,就不需要為每個(gè)客戶存儲(chǔ)完整的權(quán)重矩陣 W’。不然存儲(chǔ)模型的所有權(quán)重 W’=W+W_A W_B 對(duì)于 LLM 來說可能非常大,因?yàn)?LLM 通常具有數(shù)十億到數(shù)萬億的權(quán)重參數(shù)。因此,可以保留原始模型 W,只需要存儲(chǔ)新的輕量級(jí)矩陣 W_A 和 W_B。用具體的數(shù)字來說明的話,一個(gè)完整的 7B LLaMA checkpoint 需要 23 GB 的存儲(chǔ)容量,而選擇 r=8 的秩,則 LoRA 權(quán)重可以小到 8 MB。實(shí)踐效果LoRA 在實(shí)踐中有多好,與完全微調(diào)和其他參數(shù)有效方法相比如何?根據(jù) LoRA 的論文,在幾個(gè)特定任務(wù)的基準(zhǔn)測(cè)試中,使用 LoRA 的模型的建模性能略好于使用 Adapters、prompt tuning 或 prefix tuning 的模型。通常,LoRA 的性能甚至比微調(diào)所有層更好,如下面 LoRA 論文的注釋表所示。307776d6-fcbf-11ed-90ce-dac502259ad0.png值得注意的是,LoRA 與其他微調(diào)方法正交,這意味著它也可以與 Adapters 或 prefix tuning 相結(jié)合。LoRA & LLaMA現(xiàn)在,讓我們使用 LoRA 來微調(diào) Meta 提出的 LLaMA 模型。除了用于訓(xùn)練和運(yùn)行 LLaMA 本身的代碼(使用原始的 Meta-LLaMA 權(quán)重)外,還包含用于使用 LLaMA Adapter 和 LoRA 微調(diào) LLaMA 的代碼。作者建議使用以下操作方法文件:
  • 下載預(yù)訓(xùn)練的權(quán)重:https://github.com/Lightning-AI/lit-llama/blob/main/howto/download_weights.md

  • 使用 LoRA 進(jìn)行微調(diào):https://github.com/Lightning-AI/lit-llama/blob/main/howto/finetune_lora.md

  • 使用適配器進(jìn)行微調(diào):https://github.com/Lightning-AI/lit-llama/blob/main/howto/finetune_adapter.md(可選,用于比較研究)

下一節(jié)將比較 7B LLaMA 基礎(chǔ)模型與使用 LoRA 和 LLaMA Adapter 微調(diào)的 7B LLaMA 基礎(chǔ)模型。(請(qǐng)注意,需要具有至少 24 GB RAM 的 GPU)。計(jì)算性能基準(zhǔn)本節(jié)中,作者將比較 LLaMA 7B 基礎(chǔ)模型與使用 LoRA 和 LLaMA Adapter 微調(diào)的基礎(chǔ)模型的計(jì)算性能。微調(diào)數(shù)據(jù)集是 Alpaca 52k 指令數(shù)據(jù)集,其結(jié)構(gòu)如下:

30c6e630-fcbf-11ed-90ce-dac502259ad0.png

數(shù)據(jù)集是按照 Self-Instruct 論文中描述的方法生成的,由 49759 個(gè)訓(xùn)練樣本和 2000 個(gè)驗(yàn)證樣本組成。Self-Instruct 的流程可總結(jié)為 4 個(gè)步驟:
  • 種子任務(wù)池,包含一組人工編寫的指令(本例中為 175 條)和樣本指令;

  • 使用預(yù)訓(xùn)練的 LLM(如 GPT-3)來確定任務(wù)類別;

  • 給定新指令,讓預(yù)訓(xùn)練的 LLM 生成響應(yīng)結(jié)果;

  • 在將響應(yīng)結(jié)果添加到任務(wù)池之前,先收集、剪枝和篩選響應(yīng)結(jié)果。

30d420ca-fcbf-11ed-90ce-dac502259ad0.pngAlpaca 52k 數(shù)據(jù)集是使用上述 Self-Instruct 程序收集的。但是,也可以使用(或?qū)⑵渑c)替代數(shù)據(jù)集進(jìn)行比較。例如,一個(gè)有趣的候選數(shù)據(jù)集是最近發(fā)布的開源 databricks-doolly-15k 數(shù)據(jù)集,該數(shù)據(jù)集包含 databricks 員工編寫的約 15k 條指令 / 響應(yīng)微調(diào)記錄。Lit LLaMA 存儲(chǔ)庫包含一個(gè)數(shù)據(jù)集制備腳本,可以選擇使用 Dolly 15k 數(shù)據(jù)集。給定以下超參數(shù)設(shè)置(塊大小、批大小和 LoRA 的 r),Adapter 和 LoRA 都可以以 bfloat-16 的混合精度,在具有 24 Gb RAM 的單個(gè) GPU 上微調(diào) 7B 參數(shù)的 LLaMA 基本模型。LoRA30ec7f3a-fcbf-11ed-90ce-dac502259ad0.pngLaMA Adapter310e2aa4-fcbf-11ed-90ce-dac502259ad0.png如果代碼將來發(fā)生變化,GitHub 上會(huì)同步更新代碼(帶有超參數(shù)設(shè)置)。Adapter 在 A100 上使用了大約 22 Gb 的空間,并在 162 分鐘內(nèi)完成了 62400 次迭代。同樣的迭代次數(shù)下,LoRA 使用了 21 Gb 的內(nèi)存,在 192 分鐘內(nèi)完成??傊?,同樣基于 Lit-LLaMA 的 Adapter 和 LoRA 使用的 RAM 數(shù)量大致相同,訓(xùn)練時(shí)間大致相同。(請(qǐng)注意,這是在單個(gè) GPU 上進(jìn)行的,但如果有多個(gè) GPU,只需將設(shè)備參數(shù)更改為 > 1 即可利用額外的加速!)相比之下,完全微調(diào)(LLaMA 7B 由 32 個(gè) Transformer 塊和 3 個(gè)全連接的輸出層組成)需要至少 2 個(gè)具有至少 30Gb 的 GPU 和完全分片訓(xùn)練來分配權(quán)重?;蛘撸梢允褂?4 個(gè) GPU,每個(gè) GPU 的最大內(nèi)存使用量為 22 Gb。在 4 個(gè) GPU 上進(jìn)行訓(xùn)練,訓(xùn)練耗時(shí) 1956 分鐘。在單個(gè) GPU 上至少需要 6000 分鐘,這將比參數(shù)高效的 LLaMA Adapter 或 LoRA 代價(jià)昂貴 30-40 倍。接下來,本文將介紹應(yīng)用不同微調(diào)策略后的模型輸出。評(píng)估建模性能有幾種度量標(biāo)準(zhǔn)可用于評(píng)估 LLM 生成的文本。例如,困惑度、BLEU 和 ROUGE 分?jǐn)?shù)是自然語言處理中用來評(píng)估 LLM 在各種任務(wù)中的表現(xiàn)的一些最常見的評(píng)估指標(biāo)。然而,所有這些指標(biāo)都有很大的缺點(diǎn),人工評(píng)估仍然是黃金標(biāo)準(zhǔn) —— 人工評(píng)估的缺點(diǎn)是創(chuàng)建成本高,難以自動(dòng)化。簡(jiǎn)單起見,本文只關(guān)注定性比較,看看各種模型產(chǎn)生的一些輸出。為了對(duì)模型進(jìn)行定性比較,本文將使用 “請(qǐng)解釋權(quán)重衰減是如何工作的” 作為 prompt。基準(zhǔn)模型3124f25c-fcbf-11ed-90ce-dac502259ad0.png請(qǐng)解釋一下權(quán)重衰減是如何工作的…… 以及為什么它有時(shí)看起來有效,有時(shí)無效!最簡(jiǎn)單地說,權(quán)重衰減從模型中刪除特征(作為特征重要性的函數(shù)),它也被稱為正則化。推理時(shí)間 1:4.18 秒,11.95 個(gè) token / 秒正如我們所看到的,模型開始通過附加 “… 以及為什么它有時(shí)看起來有效,有時(shí)不起作用!” 來補(bǔ)全 prompt。這是因?yàn)榛A(chǔ)模型只在下一個(gè)單詞預(yù)測(cè)任務(wù)中進(jìn)行了訓(xùn)練,沒有經(jīng)過專門的訓(xùn)練來處理指令。盡管如此,它試圖在下面進(jìn)一步解釋。這種解釋對(duì)正則化做出了一些正確的解釋,但它并沒有真正捕捉到權(quán)重衰減的關(guān)鍵機(jī)制。LLaMA-Adapter313d5c16-fcbf-11ed-90ce-dac502259ad0.png權(quán)重衰減是一種懲罰詞條字?jǐn)?shù)的方法。通過選擇單詞較少的句子,模型更有可能選擇那些可能提供重要信息的句子。推理時(shí)間:總計(jì) 7.04 秒,14.21 個(gè) tokens/sec。使用的內(nèi)存:13.56 GB。這個(gè)解釋在語法上是合理的,但也不一定是我們想要的。LoRA31480dd2-fcbf-11ed-90ce-dac502259ad0.png權(quán)重衰減是機(jī)器學(xué)習(xí)模型中用于減少過擬合的算法參數(shù)。這是一個(gè)調(diào)整模型權(quán)重的過程,以減少模型中不太重要的特征的影響并防止過擬合。權(quán)重衰減是通過向權(quán)重添加少量噪聲來減少模型對(duì)訓(xùn)練數(shù)據(jù)的影響。這個(gè)過程鼓勵(lì)模型更多地關(guān)注對(duì)預(yù)測(cè)任務(wù)更重要的特征。推理時(shí)間:總計(jì) 3.25 秒,30.76 個(gè) tokens/sec。使用的內(nèi)存:27.65 GB。可以看到離期望的答案越來越近了;放到廣義線性模型中,這種解釋確實(shí)有意義,在廣義線性模型中,會(huì)強(qiáng)迫模型學(xué)習(xí)與輸入特征相乘結(jié)果較小的權(quán)重參數(shù)。在神經(jīng)網(wǎng)絡(luò)中,這通常會(huì)應(yīng)用于模型中的所有權(quán)重參數(shù)。上面的 LoRA 方法目前來說使用的內(nèi)存最多。然而,如前所述,可以通過將 LoRA 權(quán)重與預(yù)訓(xùn)練的模型權(quán)重合并來減少這種內(nèi)存使用。由于評(píng)估 LLM 本身就是一個(gè)大課題,因此這種定性概述只能反應(yīng)每個(gè)模型能力的一小部分。但這里的要點(diǎn)是,LoRA 可以用于以相對(duì)經(jīng)濟(jì)高效的方式在指令數(shù)據(jù)集上微調(diào) LLM。結(jié)論本文討論了低秩自適應(yīng)(LoRA),這是一種參數(shù)完全微調(diào)的有效替代方案。使用 LoRA,可以在幾個(gè)小時(shí)內(nèi)在單個(gè) GPU 上對(duì) LLaMA 等相對(duì)較大的模型進(jìn)行微調(diào),這使得它對(duì)那些不想在 GPU 資源上花費(fèi)數(shù)千美元的人特別有吸引力。LoRA 的特別之處在于,可以選擇性地將新的 LoRA 權(quán)重矩陣與原始的預(yù)訓(xùn)練權(quán)重合并,這樣在推理過程中就不會(huì)產(chǎn)生額外的開銷或復(fù)雜性。隨著越來越多的 ChatGPT 或 GPT-4 開源替代品的出現(xiàn),在特定的目標(biāo)數(shù)據(jù)集或目標(biāo)上微調(diào)和定制這些 LLM 將在各個(gè)研究領(lǐng)域和行業(yè)變得越來越有吸引力。而 LoRA 等參數(shù)有效的微調(diào)技術(shù)使微調(diào)更具資源效率和可訪問性。Lit LLaMA 存儲(chǔ)庫中提供了諸如 LoRA 和 LLaMA Adapter 之類的參數(shù)高效微調(diào)技術(shù)。原文鏈接:https://lightning.ai/pages/community/tutorial/lora-llm/

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    520

    瀏覽量

    10268
  • LoRa
    +關(guān)注

    關(guān)注

    349

    文章

    1689

    瀏覽量

    231910
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1558

    瀏覽量

    7596

原文標(biāo)題:調(diào)教LLaMA類模型沒那么難,LoRA將模型微調(diào)縮減到幾小時(shí)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

    Foundry 提供從數(shù)據(jù)策管、合成數(shù)據(jù)生成、微調(diào)、檢索、防護(hù)到評(píng)估的全方位生成式 AI 模型服務(wù),以便部署自定義 Llama 3.1 NVIDIA NIM 微服務(wù)和新的 NVIDIA NeMo
    發(fā)表于 07-24 09:39 ?706次閱讀
    NVIDIA AI Foundry 為全球企業(yè)打造自定義 <b class='flag-5'>Llama</b> 3.1 生成式 AI <b class='flag-5'>模型</b>

    【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

    和語法規(guī)則,這些詞匯串聯(lián)起來,形成一個(gè)完整的回答 關(guān)于LLaMALLaMA.cpp LLaMA全稱是Large Language Model Meta AI,是由Meta AI研
    發(fā)表于 12-22 10:18

    MEMS器件縮減模型建模方法研究

    論述了微機(jī)電系統(tǒng)(MEMS)器件縮減模型的建立是進(jìn)行MEMS系統(tǒng)級(jí)模擬的關(guān)鍵。論證了基于線性正交振型建立MEMS器件縮減模型是一種有效的方法,導(dǎo)出了MEMS器件動(dòng)態(tài)
    發(fā)表于 05-28 11:19 ?17次下載

    新突破!超級(jí)計(jì)算機(jī)上深度學(xué)習(xí)訓(xùn)練時(shí)間縮減到數(shù)分鐘

    微軟和瑞士國家計(jì)算中心(CSCS)的科學(xué)家們?nèi)〉昧酥卮笸黄疲?b class='flag-5'>將超級(jí)計(jì)算機(jī)上深度學(xué)習(xí)的訓(xùn)練時(shí)間縮減到數(shù)分鐘。訓(xùn)練時(shí)間的縮短,再加上超級(jí)計(jì)算機(jī)技術(shù)的引入,或能夠解決現(xiàn)在在圖像、視頻和語音識(shí)別,自然語言
    發(fā)表于 05-11 12:55 ?2601次閱讀

    使用LoRA和Hugging Face高效訓(xùn)練大語言模型

    在本文中,我們展示如何使用 大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models,LoRA) 技術(shù)在單 GPU 上微調(diào) 1
    的頭像 發(fā)表于 04-14 17:37 ?2005次閱讀

    iPhone都能微調(diào)模型了嘛

    一起提出的新方法 QLoRA 把微調(diào)模型的 顯存需求從>780GB降低到 。 開源社區(qū)直接開始狂歡,相關(guān)論文成為24小時(shí)內(nèi)關(guān)注度最高的AI論文。 ? 以Meta的美洲駝LLaMA為基
    的頭像 發(fā)表于 06-02 15:26 ?698次閱讀
    iPhone都能<b class='flag-5'>微調(diào)</b>大<b class='flag-5'>模型</b>了嘛

    一種新穎的大型語言模型知識(shí)更新微調(diào)范式

    我們使用LLAMA2-7B作為實(shí)驗(yàn)的基礎(chǔ)模型。我們主要評(píng)估舊知識(shí)更新為新知識(shí)的能力,因此模型首先在舊知識(shí)上進(jìn)行為期3個(gè)時(shí)期的
    發(fā)表于 12-01 15:10 ?440次閱讀
    一種新穎的大型語言<b class='flag-5'>模型</b>知識(shí)更新<b class='flag-5'>微調(diào)</b>范式

    不要錯(cuò)過!NVIDIA “大模型那么泛!”主題活動(dòng)

    提供實(shí)踐指導(dǎo),推動(dòng)大模型的應(yīng)用,特別為大模型的 入門開發(fā)者量身定制 。 活動(dòng)采用線上直播形式,每位專家演講 30 分鐘,深入解讀大模型通識(shí)和應(yīng)用,每位專家演講結(jié)束后有 15 分鐘 QA 環(huán)節(jié),各位開發(fā)者可以與專家在線交流溝通。
    的頭像 發(fā)表于 12-20 19:35 ?659次閱讀
    不要錯(cuò)過!NVIDIA “大<b class='flag-5'>模型</b><b class='flag-5'>沒</b><b class='flag-5'>那么</b>泛!”主題活動(dòng)

    四種微調(diào)模型的方法介紹

    微調(diào)(Full Fine-tuning):全微調(diào)是指對(duì)整個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào),包括所有的模型參數(shù)。在這種方法中,預(yù)訓(xùn)練
    發(fā)表于 01-03 10:57 ?2.4w次閱讀
    四種<b class='flag-5'>微調(diào)</b>大<b class='flag-5'>模型</b>的方法介紹

    Meta Llama 3基礎(chǔ)模型現(xiàn)已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發(fā)布的兩款Llama 3基礎(chǔ)模型——Llama 3 8B和Llama 3 70B,現(xiàn)已正式上線并集成至Amazon SageMaker JumpS
    的頭像 發(fā)表于 05-09 10:39 ?394次閱讀

    模型為什么要微調(diào)?大模型微調(diào)的原理

    難以達(dá)到最佳性能。為了提升模型在特定任務(wù)上的表現(xiàn),微調(diào)(Fine-tuning)成為了一個(gè)關(guān)鍵步驟。本文詳細(xì)探討大模型為什么要進(jìn)行微調(diào)以及
    的頭像 發(fā)表于 07-10 10:43 ?3909次閱讀

    英偉達(dá)發(fā)布AI模型 Llama-3.1-Nemotron-51B AI模型

    速度比原70B大模型提升2.2倍,具備更準(zhǔn)確和更高效的運(yùn)算效率;能夠大幅降低運(yùn)行成本。 ? ? ? 通過NAS技術(shù)微調(diào);大幅降低了內(nèi)存消耗、計(jì)算復(fù)雜性;Llama-3.1-Nemotron-51B AI
    的頭像 發(fā)表于 09-26 17:30 ?605次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺(tái)上正式上線。該模型包括Meta首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMak
    的頭像 發(fā)表于 10-11 18:08 ?444次閱讀

    Llama 3 語言模型應(yīng)用

    在人工智能領(lǐng)域,語言模型的發(fā)展一直是研究的熱點(diǎn)。隨著技術(shù)的不斷進(jìn)步,我們見證了從簡(jiǎn)單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。 一、Llama 3 語言模型的核心功能 上下文理解 :Llama
    的頭像 發(fā)表于 10-27 14:15 ?263次閱讀

    Llama 3 模型訓(xùn)練技巧

    Llama 3 模型,假設(shè)是指一個(gè)先進(jìn)的人工智能模型,可能是一個(gè)虛構(gòu)的或者是一個(gè)特定領(lǐng)域的術(shù)語。 1. 數(shù)據(jù)預(yù)處理 數(shù)據(jù)是任何機(jī)器學(xué)習(xí)模型的基礎(chǔ)。在訓(xùn)練之前,確保數(shù)據(jù)質(zhì)量至關(guān)重要。 數(shù)
    的頭像 發(fā)表于 10-27 14:24 ?304次閱讀
    主站蜘蛛池模板: 欧美国产影院| 亚洲中文字幕无码一去台湾| xxx免费观看| 久久久精品久久久久三级| 亚洲国产精品久久人人爱| 国产成人久视频免费| 人妖操女人| 99久久e免费热视频百度| 绝色娇嫩美人妻老师| 一本道色综合手机久久| 国精品产露脸偷拍视频| 午夜亚洲WWW湿好爽| 国产成人啪精视频精东传媒网站| 热の中文 AV天堂| 啊灬啊别停灬用力啊在线观看视频| 免费在线观看一区| 10分钟免费观看视频| 玖玖爱这里只有精品视频| 在镜头里被CAO翻了H| 久久久久久久国产精品视频| 亚洲日产2020乱码草莓毕| 国内精品视频久久久久免费 | 成人在线观看免费视频| 青青伊人精品| xxxxxx日本处大片免费看| 青青青草免费| 超碰v| 日本中文字幕伊人成中文字幕| 菠萝菠萝蜜高清观看在线| 人人爽久久久噜噜噜丁香AV| 成人免费看片45分钟| 日本在线免费播放| 俄罗斯女人Z0ZOZO| 色欲狠狠躁天天躁无码中文字幕| 国产VA精品午夜福利视频| 我的美女奴隶| 狠狠干女人| 曰曰夜夜在线影院视| 麻豆国产精品AV色拍综合| 99福利在线| 秋霞伦理电影在2017韩国在线伦|