亚洲四虎在线,亚洲va国产va天堂va久久,天堂综合

大語言模型的生產部署存在兩個主要的挑戰，一個是需要大量的參數，一個是需要處理非常長的用于表示上下文信息的輸入序列。Hugging Face 基于他們提供大模型服務的經驗分享了一些克服這些障礙的技術。

Patrick von Platen 在文中介紹的 Hugging Face 研究的三種技術是降低數值精度、使用一種叫作 Flash Attention 的注意力算法，以及使用專門的推理架構。

大語言模型需要大量的 VRAM 來加載，從幾十 (bigcode/starcoder) 到數百 GB (Llama、Bloom、GPT3)。第一個優化手段是從 float32 切換到 bfloat16 精度：

現在幾乎所有的模型都是基于 bfloat16 訓練的，如果你的 GPU 支持 bfloat16，就沒有理由基于全 float32 精度運行模型。float32 不會給出比訓練模型所使用的精度更好的推理結果。

這可以使總體內存消耗減少一半，但可惜的是，在許多情況下仍然需要很大的內存。一種更激進的方法是將模型權重量化為 8 位或 4 位，這已經被證明不會導致顯著的性能下降。

量化對于文本生成來說特別有效，因為我們所關心的是選擇最有可能的下一個標記集合，而不是下一個標記 Logit 分布的確切值。

這將進一步減少所需的內存，使得在只有 16GB VRAM 的 GPU 上運行較小的模型成為可能，盡管代價是推理時間稍長。

von Platen 寫道，使用 Flash Attention 是另一相關鍵的優化，它是大語言模型用來理解輸入標記上下文關系的自注意力層的一種算法，有可能打破輸入標記數量的二次增長。

因為該算法太過復雜，無法在這里描述，但可以這么說，它利用了 softmax 規范化統計數據和一些數學手段，在只需要隨輸入標記線性增長的內存的情況下提供相同的輸出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在實踐中，目前絕對沒有理由不使用 Flash Attention。該算法在數學層面給出了相同的輸出，并且速度更快，內存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生產環境中部署大語言模型的第三項優化措施是選擇正確的架構，讓它們能夠有效地處理長文本輸入。von Platen 寫道，最近的研究有助于我們如何對兩個很快成為瓶頸的組件做出選擇——一個是 _ 位置嵌入 (positional embeddings)_，一個是 _ 鍵值緩存 _。

位置嵌入通過將每個標記的位置編碼為數字表示來幫助語言大模型理解序列順序。對于需要處理大型文本輸入任務的大語言模型，應該使用 RoPE 和 ALiBi 等相對位置嵌入技術進行訓練。

RoPE 和 ALiBi 位置編碼都可以外推到訓練期間未遇到過的輸入長度，而事實證明，與 RoPE 相比，外推對于開箱即用的 ALiBi 的效果要好得多。

目前的許多大語言模型中已經在使用這兩種算法。

鍵值緩存可以作為對對話上下文進行編碼的一種方法。鍵值緩存在發生每個新交互時增加一個元素，這比為每個請求編碼 / 解碼上下文的方法要有效得多。von Platen 詳細介紹了兩類鍵值緩存，即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵蓋的內容不只有本文所概述的這些，他的文章中還提供了實際的例子來證明他的觀點，所以請不要錯過他的文章。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4753

瀏覽量
129057
語言模型

語言模型

+關注

關注
0

文章
530

瀏覽量
10297
大模型

大模型

+關注

關注
2

文章
2488

瀏覽量
2855

原文標題：Hugging Face 大語言模型優化技術

文章出處：【微信號：AI前線，微信公眾號：AI前線】歡迎添加關注！文章轉載請注明出處。

如何優化自然語言處理模型的性能

優化自然語言處理（NLP）模型的性能是一個多方面的任務，涉及數據預處理、特征工程、模型選擇、模型調參、模

發表于 12-05 15:30 ?539次閱讀

大語言模型優化生成管理方法

大語言模型的優化生成管理是一個系統工程，涉及模型架構、數據處理、內容控制、實時響應以及倫理監管等多個層面。以下，是對大語言

發表于 12-02 10:45 ?100次閱讀

Hugging Face科技公司推出SmolLM系列語言模型

7月22日最新資訊，Hugging Face科技公司在語言模型領域再創新高，正式推出了SmolLM系列——一款專為適應多樣計算資源而設計的緊湊型語言

發表于 07-23 16:35 ?351次閱讀

【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

的大語言模型設計技術人員閱讀，主要包括大語言模型的優化方法、Agent系統調優以及

發表于 07-21 13:35

亞馬遜云攜手AI新創企業Hugging Face，提升AI模型在定制芯片計算性能

Hugging Face作為一家估值為45億美元的公司現已成為了眾多AI研究員和開發者分享Chatbot和相關軟件的核心平臺，受到亞馬遜、谷歌、英偉達等巨頭的青睞。

發表于 05-23 14:24 ?419次閱讀

Hugging Face提供1000萬美元免費共享GPU

全球最大的開源AI社區Hugging Face近日宣布，將提供價值1000萬美元的免費共享GPU資源，以支持開發者創造新的AI技術。這一舉措旨在幫助小型開發者、研究人員和初創公司，對抗大型AI公司的市場壟斷，推動AI領域的公平競

發表于 05-20 09:40 ?670次閱讀

Hugging Face推出開源機器人代碼庫LeRobot

AI領域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機器人工具包——LeRobot。這一創新工具包基于史上最大規模的眾包機器人數據集，為開發者提供了一個前所未有的平臺。

發表于 05-09 10:32 ?600次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

實際應用前需解決的挑戰。為提升大語言模型的性能，高級的提示詞技術可以促進大語言模型與環境進行動態交互，引導其生成和推理規劃。檢索增強生成

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

的不同語言種類以及在每種語言上的表現。代碼類評測任務：是衡量大語言模型性能的核心指標之一，其不僅具有廣泛的技術應用潛力，還是區分不同大

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的基礎技術

全面剖析大語言模型的核心技術與基礎知識。首先，概述自然語言的基本表示，這是理解大語言模型

發表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術綜述

我也不打算把網上相關的信息在總結一下，這樣的話，工作量很大。我主要看了-大語言模型基礎技術這節大語言模型（Large Language

發表于 05-05 10:56

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領域的尖端技術，憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習，利用神經網絡框架來理解和生成自然語

發表于 05-04 23:55

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

《大語言模型》是一本深入探討人工智能領域中語言模型的著作。作者通過對語言模型的基本概念、基礎

發表于 04-30 15:35

ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM，助力開發者運用生成式 AI 構建企業應用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日發布 StarCoder2，其為一系列用于代碼生成的開放獲取大語言

發表于 02-29 11:12 ?256次閱讀

2023 LLM技術報告—— LLM的工具和平臺

、運行和優化這些模型，Hugging Face、Replicate 以及 Gitee AI 均為 MaaS 平臺。

發表于 01-29 15:59 ?869次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Hugging Face大語言模型優化技術

評論

如何優化自然語言處理模型的性能

大語言模型優化生成管理方法

Hugging Face科技公司推出SmolLM系列語言模型

【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

亞馬遜云攜手AI新創企業Hugging Face，提升AI模型在定制芯片計算性能

Hugging Face提供1000萬美元免費共享GPU

Hugging Face推出開源機器人代碼庫LeRobot

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】核心技術綜述

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM，助力開發者運用生成式 AI 構建企業應用

2023 LLM技術報告—— LLM的工具和平臺