色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中國電提出大模型推理加速新范式Falcon

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2025-01-15 13:49 ? 次閱讀

近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。

論文中提出的 Falcon 方法是一種增強半自回歸投機解碼框架,旨在增強 draft model 的并行性和輸出質量,以有效提升大模型的推理速度。Falcon 可以實現約 2.91-3.51 倍的加速比,在多種數據集上獲得了很好的結果,并已應用到翼支付多個實際業務中。

aad237ae-d0b2-11ef-9310-92fbcf53809c.png

論文標題: https://longbench2.github.io

論文鏈接:

https://arxiv.org/pdf/2412.12639

研究背景

大型語言模型 (LLMs) 在各種基準測試中展現了卓越的表現,然而由于自回歸 (AR) 解碼方式,LLMs 在推理過程中也面臨著顯著的計算開銷和延遲瓶頸。

為此,研究學者提出 Speculative Decoding (投機采樣) 方法。Speculative Decoding 會選擇一個比原始模型 (Target Model) 輕量的 LLM 作為 Draft Model,在 Draft 階段使用 Draft Model 連續生成若干個候選 Token。

在 Verify 階段,將得到的候選 Token 序列放入到原始 LLM 做驗證 & Next Token 生成,實現并行解碼。通過將計算資源導向于驗證預先生成的 token,Speculative Decoding 大大減少了訪問 LLM 參數所需的內存操作,從而提升了整體推理效率。

現有的投機采樣主要采用兩種 Draft 策略:自回歸 (AR) 和半自回歸 (SAR) draft。AR draft 順序生成 token,每個 token 依賴于前面的 token。這種順序依賴性限制了 draft 模型的并行性,導致顯著的時間開銷。

相比之下,SAR draft 同時生成多個 token,增強了 draft 過程的并行化。然而,SAR draft 的一個重要局限是它無法完全捕捉相同 block 內 draft tokens 之間的相互依賴關系,可能導致生成的 token 接受率較低。

因此,在投機采樣中,平衡低 draft 延遲與高推測準確性以加速 LLMs 的推理速度,是一個重大挑戰。

為此,翼支付提出了 Falcon,一個增強的半自回歸(SAR)投機解碼框架,旨在增強 draft model 的并行性和輸出質量,從而提升 LLMs 的推理效率。Falcon 集成了 Coupled Sequential Glancing Distillation(CSGD)方法,提高了 SAR draft model 的 token 接受率。

此外,Falcon還設計了一種專門的 decoding tree 來支持 SAR 采樣,使得 draft model 可以在一次前向傳播中生成多個 token,并且也能夠支持多次前向傳播。這種設計有效提升 LLMs 對 token 的接受率,進一步加快了推理速度。

研究方法

Falcon的架構如圖 1 所示,可以看到,該半自回歸解碼框架主要由三個組件構成:Embedding Layer、LM-Head和半自回歸解碼 Head

ab0bbb3c-d0b2-11ef-9310-92fbcf53809c.png

▲圖1.Falcon框架圖

具體來講,Falcon 將一個時間步長之前的連續特征序列和當前 token 序列連接起來,以同時預測接下來的 k 個標記。例如,當 k = 2 時,Falcon 使用初始特征序列 (f1, f2) 和提前一個時間步長的標記序列 (t2, t3) 來預測特征序列 (f3, f4)。

隨后,將預測得到的特征 (f3, f4) 與下一個標記序列 (t4, t5) 連接,形成新的輸入序列。這個新輸入序列用于預測后續的特征序列 (f5, f6) 和標記序列 (t6, t7),從而促進 draft 過程的繼續。Draft model 多次 forward 之后生成的 token 被組織成樹結構,輸入到大模型中進行 verify,通過 verify 的 token 被大模型接收,并基于此基礎開始下一個循環。

2.1 Coupled Sequential Glancing Distillation

當前推測解碼方法的準確性相對較低,主要原因是 token 之間的上下文信息不足。CSGD 通過用真實 token 和 hidden states 替換一些初始預測來改善這一點,將正確信息重新注入解碼過程中,從而提高后續預測的準確性和連貫性。模型結構及訓練流程如下圖:

ab35ab86-d0b2-11ef-9310-92fbcf53809c.png

▲圖2. CGSD方法示意圖

在訓練過程中,一個時間步長之前的連續特征序列和當前 token 序列連接起來,并輸入到 draft model 中,形成一個融合序列,其維度為 (bs, seq_len, 2 * hidden_dim)。

draft model 由一個混合 Transformer 網絡組成,該網絡包括兩層 LSTM、Relaxed Causal-Masked 多頭注意力機制,以及 MLP 網絡。其中 LSTM 網絡將融合序列的維度減少到 (bs, seq_len, hidden_dim),并保留關于過去 token 的信息,從而提高模型的準確性。

Relaxed Causal-Masked 多頭注意力機制能夠在保持因果關系的同時,專注于輸入序列的相關部分。MLP 層進一步處理這些信息,以做出最終預測。

當序列首次通過 draft model 后,會生成初始的 token 預測ab67c99a-d0b2-11ef-9310-92fbcf53809c.png。然后,我們計算 draft model 的預測與真實 token Y 之間的漢明距離,以此來衡量預測的準確性。接下來,我們將一定數量連續預測的 token 序列ab7ebace-d0b2-11ef-9310-92fbcf53809c.png和特征序列ab9624de-d0b2-11ef-9310-92fbcf53809c.png替換為來自 LLMs 的正確 token 序列aba4cb60-d0b2-11ef-9310-92fbcf53809c.png和特征序列abbcafe6-d0b2-11ef-9310-92fbcf53809c.png

CSGD 與傳統的 glancing 方法不同,后者僅隨機替換 token。相反,CSGD 選擇性地同時替換預測之前的連續 token 和特征序列,如圖 2 中虛線框標注的 choice 1、choice 2、choice3 所示。

這種方法增強了對 token 間的關系的理解,并確保 draft model 能夠有效利用提前時間步長的 token 序列,這在 SAR 解碼中尤為重要。隨后,修正后的 token 和特征序列被重新輸入到 draft model 中以計算訓練損失。

在訓練過程中,我們采用了知識蒸餾,損失函數包括 draft model 的輸出特征與真實特征之間的回歸損失以及蒸餾損失,具體的損失函數如下:

abda31b0-d0b2-11ef-9310-92fbcf53809c.png

2.2 Custom-Designed Decoding Tree

當前基于樹的推測解碼方法通過在每個起草步驟生成多個 draft token 來提升推測效率。然而,這些方法仍然需要 draft model 按順序生成 token,這限制了推測效率的進一步提高。

為了解決這一局限性,CDT (Custom-Designed Decoding Tree) 支持 draft model 在一次前向傳遞中生成多個 token (k 個),并且在每個 draft 步驟中支持多次前向傳遞。因此,與現有方法相比,CDT 生成的草稿標記數量是其 k 倍。

Draft model 多次 forward 之后,生成的 token 被組織成樹結構,輸入到大模型中進行 verify。LLM 使用基于樹的并行解碼機制來驗證候選 token 序列的正確性,被接受的 token 及其相應的特征序列會在后續繼續進行前向傳遞。在傳統的自回歸(AR)解碼中,使用因果掩碼,其結構為下三角矩陣。它確保了前面的 token 不能訪問后面的信息。

相比之下,Falcon 采用了一種 causal 因果掩碼 (如圖 3 所示),允許模型訪問同一 k*k 的 block 內的 token 以及相應的之前的連續 token。這一增強顯著提高了 drafter 生成 token 的效率,使 LLM 能夠同時驗證更多的 token,從而加快了 LLM 的整體推理速度。

abfa80fa-d0b2-11ef-9310-92fbcf53809c.png

▲圖3. Custom-Designed Decoding Tree方法示意圖

ac2199e2-d0b2-11ef-9310-92fbcf53809c.png

實驗結果

我們在多個數據集和多個模型上進行了廣泛的實驗,驗證了本文方法的有效性。和現有的方法相比,Falcon 展現了優越的性能,具體如下圖:

ac33b42e-d0b2-11ef-9310-92fbcf53809c.png

▲圖4. Falcon實驗結果圖

業務潛力

Falcon 大模型可以實現約 2.91-3.51 倍的加速比,相當于同等條件下推理成本下降至約原先的 1/3,從而大幅降低了大模型推理計算相關成本。

當前,Falcon 技術已轉化至翼支付大模型產品 InsightAI 平臺,并已服務諸如翼支付數字人客服、借錢-翼小橙、人力-翼點通、財務-翼小財等多個業務應用。

總結

投機采樣是大模型推理加速的一個核心方法。當前,主要的挑戰是如何提升 draft model 的準確率、采樣效率,并提升大模型的驗證效率。文章提出了 Falcon 方法,一種基于增強半自回歸投機解碼框架。Falcon 通過 CSGD 這種訓練方法以及半自回歸的模型設計,顯著提升了 draft model 的預測準確率以及采樣效率。

此外,為了讓大模型能驗證更多的 token,本文精心設計了一個 decoding tree,有效提升了 draft model 的效率,從而提升了驗證效率。Falcon 在多種數據集上可以實現約 2.91-3.51x 的加速比并應用到翼支付的眾多業務中,獲得了很好的效果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大模型
    +關注

    關注

    2

    文章

    2503

    瀏覽量

    2915

原文標題:AAAI 2025 | 加速比高達3.51倍!中國電提出大模型推理加速新范式Falcon

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發表于 12-11 20:13 ?133次閱讀
    如何開啟Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

    復旦提出模型推理新思路:Two-Player架構打破自我反思瓶頸

    更多的訓練算力和數據資源,不如讓模型「花更多時間思考」。以 OpenAI 推出的 o1 模型為例,通過增加推理時間,這種方法讓模型能夠進行反思、批評、回溯和糾正,大幅提升了
    的頭像 發表于 12-06 11:24 ?219次閱讀
    復旦<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>新思路:Two-Player架構打破自我反思瓶頸

    阿里云開源推理模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現了開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。 據評測數據顯示,QwQ預覽版本已具備研究生水平的科學
    的頭像 發表于 11-29 11:30 ?594次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰。
    的頭像 發表于 11-15 14:20 ?474次閱讀
    使用vLLM+OpenVINO<b class='flag-5'>加速</b>大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大
    的頭像 發表于 11-15 11:45 ?491次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型
    的頭像 發表于 10-29 14:12 ?579次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能計算服務提供商,在2023年11月25日發布了針對大語言
    的頭像 發表于 09-29 10:14 ?516次閱讀
    澎峰科技高性能大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLM解析

    當前主流的大模型對于底層推理芯片提出了哪些挑戰

    隨著大模型時代的到來,AI算力逐漸變成重要的戰略資源,對現有AI芯片也提出了前所未有的挑戰:大算力的需求、高吞吐量與低延時、高效內存管理、能耗等等。
    的頭像 發表于 09-24 16:57 ?703次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大
    的頭像 發表于 07-24 11:38 ?943次閱讀

    云天勵飛推出IPU-X6000加速卡,針對大模型推理任務設計

    卡的互聯;可應用于語言、視覺、多模態等各類大模型推理加速,目前已適配云天天書、通義千問、百川智能、Llama2/3等近10個主流大模型
    的頭像 發表于 07-24 11:03 ?771次閱讀

    如何加速大語言模型推理

    的主要挑戰。本文將從多個維度深入探討如何加速大語言模型推理過程,以期為相關領域的研究者和開發者提供參考。
    的頭像 發表于 07-04 17:32 ?574次閱讀

    中國電信發布全球首個單體稠密萬億參數語義模型

    近日,中國電信人工智能研究院(TeleAI)攜手北京智源人工智能研究院,共同推出了全球首個單體稠密萬億參數語義模型——Tele-FLM-1T,這一里程碑式的成就標志著中國電信在人工智能領域取得了重大突破,并成為了國內首批發布稠密
    的頭像 發表于 06-20 10:50 ?677次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈
    的頭像 發表于 05-27 11:50 ?563次閱讀
    英特爾助力京東云用CPU<b class='flag-5'>加速</b>AI<b class='flag-5'>推理</b>,以大<b class='flag-5'>模型</b>構建數智化供應鏈

    模型推理顯卡選購指南:4090顯卡為何成為不二之選

    開發者非常關注的話題。 現在市面上加速卡型號多如牛毛,但說到適用大模型推理的顯卡,那4090顯卡絕對是現階段“推理王卡”般的存在。論性能不如H100,論價格不如3090,看似平平無奇的
    的頭像 發表于 04-11 11:00 ?806次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>顯卡選購指南:4090顯卡為何成為不二之選

    中國電科:加快汽車芯片、高效能電池等領域技術攻關

    中國電科消息顯示,中國電科黨組3月14日召開擴大會議。會議強調,要積極參與我國新能源產業發展,跟進落實國家有關政策導向,加快汽車芯片、高效能電池等領域技術攻關,提高核心產品市場競爭力和規模化應用水
    的頭像 發表于 03-19 08:43 ?270次閱讀
    主站蜘蛛池模板: 日韩精品久久久久久久电影| 国产一卡2卡3卡4卡孕妇网站 | 把她带到密室调教性奴| 国产精品你懂得| 嫩草影院未满十八岁禁止入内| 97夜夜澡人人爽人人模人人喊 | 国产人成精品综合欧美成人| 蜜桃狠狠色伊人亚洲综合网站| 午夜向日葵视频在线观看| 如懿传免费观看在线全集| 亚洲日韩在线观看| 二次元美女扒开内裤喷水| WWW污污污抽搐喷潮COM| 紧缚束缚调教丨vk| 乌克兰美女x?x?y?y| 99久久麻豆AV色婷婷综合| 精品亚洲AV无码蜜芽麻豆 | 精品一品国产午夜福利视频| 受喷汁红肿抽搐磨NP双性| CHINESE老阿姨免费视频| 久久亚洲高清观看| 牛牛在线国产精品| 亚洲综合色婷婷在线影院| 国产精品久久久久精品A片软件| 欧美国产精品久久久乱码| 日日碰狠狠躁久久躁77777| 2020久久精品永久免费| 久爱精品亚洲电影午夜| 亚洲国产第一区二区三区| 国产精品久AAAAA片| 日韩精品欧美在线视频在线| WWW国产色情在线观看APP| 内射少妇36P九色| 99久久人妻无码精品系列性欧美| 久久婷婷国产五月综合色啪最新| 亚洲网站视频在线观看| 国产日韩欧美三级| 午夜在线观看免费完整直播网页| 国产成人自产拍免费视频| 无人区日本电影在线观看| 国产欧美精品一区二区色综合 |