淺析流行的LLM推理堆棧和設置

作者 |?Timothée Lacroix

選擇正確的 LLM 推理棧意味著選擇適合你的任務的正確模型，并配以適當的推理代碼在適當的硬件上運行。本文介紹了流行的 LLM 推理堆棧和設置，詳細說明其推理的成本構成；并討論當前的開源模型以及如何充分利用它們，同時還涉及當前開源服務棧中仍然缺失的功能，以及未來模型將解鎖的新功能。

本文源自 Mistral AI 首席技術官 Timothée Lacroix 的演講。他于 2015 年在 Facebook AI Research 擔任工程師，于 2016 年至 2019 年間與école des Ponts 合作完成了關于推薦系統的張量分解的論文。2023 年他成為 Mistral AI 的聯合創始人。Mistral AI 于近期發布了業內首個開源 MoE 大模型 Mixtral-8x7B。

本次演講的很多內容都基于我在網上找到的信息或通過對第一個 LLaMA 版本模型進行實驗時的發現。我認為，現在的 Mistral 更關注推理成本，而非訓練成本。因此，我將分享推理成本的構成、吞吐、時延及其影響因素。

很多人想要部署語言大模型，我將分享如何使用開源工具部署自己的語言大模型。當然，你也可以使用一些出色的公共 API，但我對開源工具更感興趣，所以接下來我將深入討論部署一個 70 億參數模型的重要細節。我將分享的許多內容也同樣適用于更大規模的模型，但那需要更多 GPU。

影響推理的指標

我們將首先討論有哪些重要指標，以及這些指標的影響因素，包括硬件和軟件層面。接下來，我將介紹一些能夠改善性能的技巧，據我所知，其中一些技巧還未獲得廣泛實現。我嘗試在各種不同的硬件上運行了一系列模型，并嘗試獲得性能曲線，我認為實例非常重要，所以我將通過這些數據得出結論。

首先，我們該關注哪些指標？第一是吞吐量，以每秒查詢數（Query/second）表示，我們希望在批處理作業中將這一指標最大化，或者希望允許更多用戶使用我們的服務。第二是時延，以每詞元每秒（seconds/token）表示，即輸出下一個詞元所需的時間，這決定了你的應用程序的速度和靈敏度。在 ChatGPT 中，這一速度相當快。對于較小的模型，可以更輕松地實現快速響應，因此我們希望將這個值最小化以提升用戶體驗。較為優秀的閾值是每分鐘輸出 250 個單詞，我認為這是人類的平均閱讀速度，只要你的時延低于這個值，用戶就不會感到無聊。第三是成本，毫無疑問，這一數值越低越好。

影響推理指標的因素

現在我將深入探討這些指標的影響因素。我只會談論自回歸解碼，即基于一批批詞元通過神經網絡確定下一批詞元，這部分不包括處理查詢的第一部分。提示處理有時被稱為預填充（prefill）部分，我們會一次性將大量詞元輸入到神經網絡中，這部分處理通常已經經過充分優化，挑戰性相對較低。

考慮到這一點，我們對大小為 P 的模型的推理感興趣。可以假設 P 是 7B，為執行一步推理，大約需要 2xPxBatch_size 的 FLOPs（浮點運算數）。在進行這些浮點運算時，我們需要將整個模型加載到實際運行計算的 GPU，并且需要一次性加載整個模型，即大致上需要的內存搬運（memory movement）量等于模型的參數數量。

這兩個數量有趣的地方在于，第一個數量受硬件浮點運算能力的限制，即 GPU 可以實現的浮點運算次數，并且與批大小呈線性關系，在上述圖表上呈增長趨勢。除非批大小特別大，內存移動量并不隨批大小而變化。但正如我所說，這種情況已經得到了相當程度的優化，所以我們并不太關心內存移動量。我們還有一個常量，即模型大小除以內存帶寬，這是一次性加載整個模型所需的最短時間，每次都需要重新執行這個操作。

還有一個與批次大小有關的數量，它們在一個有趣的點上相交。這個點不取決于硬件之外的任何因素。舉例來說，在 A10G 和 A100 上，硬件可以實現的總浮點運算次數的兩倍除以內存帶寬為 400。

B*這個批大小非常有趣，因為低于這一批大小，基本上是在浪費 FLOPs，因為計算受到了內存限制，我們在等待 GPU 加載數據，而計算速度太快，圖中某部分的時延是恒定的。如果超過這個 B*這個閾值，時延就會開始增加，就變成了計算受限。

因此，B* 的真正優勢在于，這個批大小的時延范圍是最優的，因此用戶體驗是最佳的，同時也沒有浪費任何 FLOPs。

不管怎樣，我們理想的批大小 B* 是 400，這個值似乎相當大，所以我們來計算一下 LLaMA 等模型規模的幾項指標。LLaMA 模型有 4K 個維度，深度 32 層，模型大小很容易計算，在 FP16 中每個模型權重占兩個字節，所以只需 2x7=14GB 內存。

然后，我們用 KV 緩存存儲計算結果，這樣當我們重新編碼一個新詞元時，就不必重新從頭計算。KV 緩存的大小為 2，包括 K 緩存和 V 緩存，且使用 FP16 格式，每個都乘以 2，然后每層有一個 KV 緩存，并且必須為批次中的每個元素保存數據，每個位置在序列中表示一個詞元，然后乘以維度。

把實際數值代入這個公式發現，每個批次元素需要約 2G 內存才能支持最大長度 4K，因此，在 A10（24GB 內存）上，我們的最大批大小約為 5，在更大的 A100（80GB 內存）上，最大批大小只有 33 左右，這仍遠低于理想值 400。

因此，對于所有實際用例，使用 70 億參數的模型進行推理時，解碼過程將嚴重受限于內存帶寬。這也證明了 Mistral 從一開始就非常謹慎的一點：模型和 KV 緩存所占內存的大小確實影響了可允許的最大批大小，而最大批大小直接決定了效率的高低。

實用技巧

現在我將深入討論一些已經存在但我個人很喜歡的技巧。其中一部分已經為 Mistral 所用，其他一些尚未在 Mistral 中得到應用，還有些則更多地涉及軟件部署層面。

分組查詢注意力

第一個技巧是分組查詢注意力。分組查詢注意力是通過每個查詢使用更少的鍵和值來減少 KV 緩存的方法。這在 LLaMA 2 中使用過，但只用于較大的模型尺寸，而非 70 億參數模型。在標準的多頭注意力中，有多少查詢，就有多少鍵和值。而在分組查詢注意力中，一對鍵值與一組查詢相關聯。在 Mistral，我們的每個鍵和值使用四個查詢，因此要執行的浮點運算量將保持不變，但內存開銷只有原來的四分之一。這是一個簡單的技巧，不會對性能造成實質性損害，這一做法很不錯。

量化

第二個技巧是量化，對此我們并沒有進行專門研究，但尤其在 LLaMA 發布后，這項技術發展得非常迅速。很多優秀的現成解決方案為許多開源社區的人所使用，提供了模型的 int8 或 int4 版本。使用 int8 時，模型尺寸會減半，在使用 int4 時，會減少至四分之一。

這不會改變最優批大小，因為這一比率只取決于硬件，與其他因素無關。就計算速度而言，量化后的速度為原來的兩倍，但我們發現，對于 Mistral 模型規模以及其他模型，很難達到這個速度，如果以純浮點運算量衡量，1.5 倍的速度更為合理。使用 int8 還會機械地增加 KV 緩存的可用內存。

因此，如果你處于內存受限的狀態，一切操作都會快兩倍，這很不錯。另一個好處是，int8 幾乎沒有或者只有極小的精度損失，而在 int4 下會有一些性能損失，但似乎可以通過 QLoRA 來恢復，或者如果你只關心特定用例，那么我認為這也可以正常運作，且 serving 成本會低得多。

分頁注意力（Paged Attention）

第三個技巧是分頁注意力，由來自伯克利的 vLLM 專家提出。沒有分頁注意力的 KV 緩存是矩形的，需要分配一個大矩形內存，其中一個維度是批大小，即模型一次可以處理的最大序列數，另一個維度是，允許用戶使用的最大序列長度。當一個新序列進來時，會為這個用戶分配一整行內存，但這并不理想，因為用戶中很可能只有 10% 會使用整行內存，而大多數用戶可能只會發起短請求。因此，這最終會浪費硬件內存中的大量寶貴空間。

分頁注意力的作用是在 GPU 內存中分配塊（block）。首先，加載模型以了解剩余空間大小，然后用內存塊填充剩余部分。這些塊可以容納多達 16 到 32 個詞元，當新序列到來時，就可以為 prompt 分配所需的內存塊，然后根據需要逐漸擴展。

在上述示意圖中，可以看到序列并不一定分配在連續的內存塊上，例如橙色、藍色或綠色并不在連續的塊上，這并不重要。這種方式能夠更精細地控制內存分配，因此在示意圖中，右側完全空閑的部分可以用于新來的序列，一旦序列解碼完成，就可以釋放已使用的塊，非常高效。分頁注意力的提出者稱，與標準的實現方法相比，分頁注意力可以增加約 20 倍的吞吐量，這聽起來并不是那么遙不可及。

滑動窗口注意力（Sliding Window Attention）

我們在 Mistral 中添加了一個技巧，即滑動窗口注意力。通過這個技巧，我們可以訓練模型在緩存中僅使用過去的 K 個詞元。這樣做的好處在于，我們可以使用一個固定的緩存大小。

眾所周知，一個序列一旦超過滑動窗口的詞元數量，我們就可以在緩存中循環覆寫，從而重新開始，而這不會影響模型性能。

進一步來說，通過這個技巧，我們可以使用比滑動窗口更大的長下文長度。我們在博客文章或 GitHub 上對此進行了簡要描述。

對于這個技巧的良好實現是將 KV 緩存看作是一個循環緩沖區。在上圖中的 t 時刻，我們在緩存的最后位置插入；在 t+1 時刻，由于序列超出了滑動窗口，所以只進行了覆寫操作。這種實現非常簡單，因為緩存中的位置并不重要，所有與位置相關的信息都通過位置嵌入進行編碼。總之，這種方法兼具易可實現性和有效性。

連續批處理（Continuous Batching）

還有一個技巧是連續批處理。正如我在前面提到的，預填充階段同時處理的詞元數量要比解碼階段多得多。因此，我們可以嘗試將這些詞元與解碼詞元一起進行批處理。我在 vLLM 和 TGI 中都注意到了同一個問題，即它們沒有嘗試對預填充階段進行分塊處理。如果一個用戶向模型發送一個包含 4K 詞元的提示，這將增加所有用戶的時延，因為我們需要花費大量時間一次性處理這些詞元。

這其實是一種浪費，因為這時模型就不再處于既能實現低時延，又能充分利用計算資源的最佳狀態。因此，我建議在這些軟件中對預填充進行分塊處理，這樣我們一次只處理 K 個詞元。這種方法能夠更加精細地分配資源，并且能夠更好地對解碼和預填充進行批處理。

代碼

最后一種技巧是代碼。在處理這些規模的模型時，代碼性能非常重要。通常，我們可以觀察到 Python 代碼的開銷很大。雖然我沒有詳細分析過 vLLM 和 TGI 的性能，但它們運行的是 Python 代碼，根據經驗，在這些規模下通常會存在一定的額外開銷。我們可以采取一些方法，在不影響 Python 大部分優點的前提下緩解這一問題。

xFormers 庫就是一個很好的示例，它使用 CUDA 圖實現了零開銷。NVIDIA 的 TensorRT 可以通過追蹤推理并利用模式匹配來自動提高性能。此外，我們還可以使用自定義內核（如融合）來減少內存帶寬，這樣可以避免在內存中來回移動數據。在數據已加載的情況下，我們可以執行激活等操作，通常可以找到激活函數等優化技巧，然后輕松地將它們插入到代碼中。

總之，驅動這些性能指標的因素主要是硬件中的固定浮點運算與內存帶寬之間的比率。這給出了最小批大小 B*，以充分利用硬件資源，避免浪費不必要的浮點運算。這個大小主要由硬件決定，不太受模型影響，除非你使用了 Transformer 之外的非傳統架構。由于設備的內存有限，因此要達到最佳批大小并不容易。

我檢查了兩個用于部署模型的開源庫，它們仍在運行 Python 代碼，在這一規模下，模型會產生很多額外開銷。我還研究了 Faster Transformer 項目，它沒有額外開銷，但部署起來會比較困難。上述信息主要來自博文《語言大模型的推理演算》。

不同配置下的吞吐、時延與成本

現在讓我們談談吞吐量 - 時延平面圖，這通常是我評判這些指標的方式。在這個平面中，x 軸表示時延，y 軸表示吞吐量，我們主要關注上方和左方，即更好的吞吐量和更低的時延。

如果購買更好的硬件，會改變這一吞吐量 - 時延性能曲線。對于固定硬件，左下角區域是固定時延，即內存受限區域。隨著批大小增加，系統從內存受限區域轉變為計算受限區域。如果購買更先進的硬件，成本會更高，但吞吐量 - 時延上的所有曲線會整體向左上方移動。

改進代碼或采用更好的模型會在低時延區域產生顯著影響，增加吞吐量，這對大型批大小的影響較小，因為這時候優化已經相對容易。

下面是一些性能測試結果及免責聲明，這個測試是我在短時間內完成的，因為使用 Mistral 和 LLaMA 等配置工具比較容易，我運行了 vLLM 基準測試腳本。我不確定這些結果是否是我能取得的最佳結果，但至少整體方向是正確的，下面是我復制粘貼過來的 Matplotlib 圖，以供參考。

上圖是 Mistral 和 LLaMA 的性能比較。圖中黑線表示人類的閱讀速度。

上圖是在同一模型中，A10 和 H100 這兩種硬件之間的比較。可以看到，盡管 H100 價格更高，但由于其卓越的性能，更換硬件是一種更明智的選擇，而不是繼續使用老硬件。

總的來說，使用開源代碼在小型實例上部署小型模型非常容易，無需任何額外操作就能取得良好的運行效果。僅需約 15 美元 / 天（并不算太高的費用），我們就可以在 A10 上使用 Mistral-7B 模型處理上百萬個請求。改變模型精度可能使服務的請求數量翻倍。

開源部署解決方案在易用性方面表現出色，我認為在實際的模型代碼部分還有很多工作要做。此外我認為，未來模型的速度會越來越快。

答聽眾問問題 1：如何選擇用于特定模型的最佳處理器？

Timothe?e Lacroix : 我還沒有測試過專用的 AI 硬件，主要測試過一系列 GPU。我甚至還沒有在 MacBook 上運行過模型，因為目前沒有找到合適的用途，但后續我可能會嘗試。對于用戶而言，如果只是想與模型聊天，直接在 MacBook 上運行更經濟。當每天需要處理的請求達到一百萬次時，使用 A10 會非常劃算，相當于每天 15 美元的費用，如果用戶能夠負擔這一費用，那么我建議選擇 A10 處理器，它易于部署，而且效果很好。

關于選擇何種規模的硬件，由于硬件在任何地方都很容易部署，我們可以從最便宜的硬件開始，如果沒有達到所需的吞吐量或速度，再考慮升級。

我曾提到，在考慮成本的情況下，相比使用一堆 A10 處理器，H100 是更明智的選擇。然而，我們也經常面臨可用性問題。因此，我建議按照處理器的成本和可用性順序逐個嘗試。如果你嘗試使用這些處理器大約 20 分鐘，這樣做的成本相對較低，并且這大致是運行基準測試所需的最長時間。通過這種方式，你可以在短時間內獲得特定用例的準確成本和性能數據，從而更好地選擇適合自己需求的處理器。

問題 2: 是否推薦使用 Mojo 來減少 Python 開銷？你是否嘗試過使用 Mojo？

Timothe?e Lacroix：完全沒有。我首次嘗試減少開銷是通過使用 CUDA 圖，雖然在調試過程中有一些困難，但隨著時間推移，情況已經好轉了，XFormers 就是一個很好的例子。在未來，torch.compile 也許能有效降低 Python 開銷，但我不清楚它們在處理可變序列長度等方面的進展如何。總之，我非常推薦 CUDA 圖，這是我目前降低開銷的首選方法。

問題 3：如果我們想要 LLM 具備多語理解能力，但目前數據集主要是英文，相比起來，使用非英文數據進行微調的效果并不理想，對于這種情況，最有效的策略是什么？

Timothe?e Lacroix：LLM 的一切能力都源自數據，所以我們首先需要獲取目標語言數據。所有 LLM 都是在維基百科上訓練的，這為模型掌握多語能力打下了良好基礎，這也解釋了為何模型可以在未經特別訓練的情況下理解一些法語。我認為，讓模型掌握多語能力存在一種權衡，例如，如果模型在法語方面取得了進步，就會略微損失其他語言能力，但這種損失并不明顯，是可以接受的，因為整體而言，在其他語言上的性能提升可能更為顯著。

OneDiff 是一個開箱即用的圖片 / 視頻生成推理引擎。開源版最新功能：1. 切換圖片尺寸無需重新編譯（即沒有時間消耗）；2. 更快地保存和加載圖；3. 更小的靜態內存。
?

審核編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
gpu(126255) gpu(126255)
AI(263628) AI(263628)
大模型(810) 大模型(810)
LLM(229) LLM(229)

對比解碼在LLM上的應用

為了改進LLM的推理能力，University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明，所提方法能有效改進LLM的推理能力。讓我們走進論文一探究竟吧！

2023-09-21 11:37:55

327

低比特量化技術如何幫助LLM提升性能

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術一直是優化效果最佳的方案之一，本文將探討低比特量化技術如何幫助 LLM 提升性能，以及新版 OpenVINO 對于低比特量化技術的支持。

2023-12-08 15:26:45

554

使用基于Transformers的API在CPU上實現LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個創新工具包，可基于英特爾架構平臺，尤其是第四代英特爾至強可擴展處理器（代號 SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

用Chiplet解決ASIC在LLM上的成本問題

電子發燒友網報道（文/周凱揚）雖說最近靠著GPT大語言模型的熱度，英偉達之類的主流GPU公司賺得盆滿缽滿，但要說仗著GPU的高性能就能高枕無憂的話，也就未免有些癡人說夢了。未來隨著LLM的繼續發展

2023-07-18 00:15:00

889

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

淺析STM32之printf重定向

2021-12-02 06:19:33

淺析uCosII

2012-08-20 13:26:55

Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

機器學習 (ML) 是云和邊緣基礎設施中增長最快的部分之一。在 ML 中，深度學習推理預計會增長得更快。在本博客中，我們比較了三種 Amazon Web Services (AWS) EC2 云實例

2022-08-31 15:03:46

C++演示中的推理速度比Python演示中的推理速度更快是為什么？

在同一主機機上采用相同型號的 Ran Object Detection C++ 演示和對象檢測 Python 演示。 C++ 演示中的推理速度比 Python 演示中的推理速度更快。

2023-08-15 06:52:29

HarmonyOS：使用MindSpore Lite引擎進行模型推理

); OH_AI_ContextSetThreadAffinityMode(context, 1); //設置運行設備為CPU，不使用Float16推理 OH_AI_DeviceInfoHandle cpu_device_info

2023-12-14 11:41:13

MCU堆棧的大小是多少

的工程師就比較關心堆棧的大小。對于小項目而言，可能我們不用關心堆棧大小。但是，如果項目大了，你就要注意了，你堆棧大小設置不合理，很有可能導致Fault。想要知道...

2021-11-03 09:14:20

STM32WB5MMG上無線堆棧的起始地址可以設置成什么呢

選項 -firstinstall=0 時由 STM32CubeProgrammer 執行的）我看到新圖像是 167 KB，從日志中，我認為當前堆棧可能是 8192 字節，但我仍然不清楚將什么設置為起始地址。

2022-12-08 06:02:53

ucosIII任務堆棧如何設置？

在整個工程中，有一個任務是用來刷新圖片及顯示實時信息的；在調試過程中發現運行到該任務就會死機，于是更改了對應的堆棧大小，發現了如下問題。。。求解答！設置顯示任務堆棧深度為512，運行正常

2020-05-22 01:04:45

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

2023-11-05 18:22:42

壓縮模型會加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導入到 STM32L462RCT我發現壓縮模型對推理時間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

基于SRAM的方法可以加速AI推理

基于SRAM的方法可加速AI推理

2020-12-30 07:28:28

如何設置堆棧指針和清理BSS段

嵌入式ARM開發環境下，設置堆棧指針和清理BSS段的意義

2021-02-04 06:26:21

如何設置UCOS堆棧大小？

各位大神，本人小白。問下各位，UCOS中我在一個任務中聲明了一個局部變量字符指針，在任務中這個字符指針指向了很長的字符串，那么這個任務的堆棧大小是不是要設置的很大，必須超過字符串的長度，還是堆棧只是存儲指針，而不是存儲整個字符串？

2019-10-11 03:06:49

如何設置ucosii堆棧？

）呢？入棧的時候不是先壓入數據然后在移動棧頂指針嗎？我設置堆棧棧頂為FLOAT_STK_SIZE編譯器也沒有警告也沒報錯。大神們求教一下這是怎么回事呢？

2019-10-30 02:20:02

如何設置應用任務的堆棧大小？

基于RTOS的應用中，每個任務都擁有自己的堆棧空間。堆棧設置過大，會造成內存資源浪費；設置過小，可能導致運行過程中的任務棧溢出，從而導致一些奇怪的系統行為。事實上，當應用程序行為“奇怪”時，我們首先

2022-06-08 15:11:16

如何為PSoC6器件設置堆棧和堆？

也許我錯過了什么：以前的堆棧和堆大小可以在系統視圖中設置。現在這些設置在哪里？鮑勃以上來自于百度翻譯以下為原文Probably I missed something:Formerly

2018-11-21 17:10:10

怎樣去設置堆棧空間的大小

1. 設置堆棧空間大小在使用STM32編程時，一般情況下我們不會關注堆棧空間的大小，因為在STM32的啟動文件中，已經幫我們預先設置好了堆棧空間的大小。如下圖所示的啟動代碼中，Stack棧的大小為

2021-08-04 09:14:20

怎樣去設置STM32堆棧空間的大小呢

怎樣去設置STM32堆棧空間的大小呢？STM32有哪幾種調節堆棧空間大小的方式？

2021-10-21 07:33:50

瑞薩開發環境CS+堆棧怎么設置啊

這次電賽要用瑞薩的芯片第一次用瑞薩的開發環境請問CS+怎么進行堆棧設置

2015-08-10 15:33:33

詳解μC/OS-II如何檢測任務堆棧實際使用情況——即如何設置ucosii任務堆棧大小

OSUsed; // 堆棧中已使用的字節數4、有了上述三個知識點后就可以啦，具體方法為：（1）將函數的最后一個參數opt 設置為：OS_TASK_OPT_STK_CHK

2015-09-23 17:00:40

請問堆棧指針設置在哪些地址處好？

如題，堆棧指針的增長方向向哪？請能人詳解堆棧指針的設置、、、、謝謝

2019-07-05 05:45:01

請問f28m35 M3堆棧大小如何設置？

上圖中// the initial stack pointer 這里是不是要寫進堆棧的棧頂0x20004900？然后堆棧大小由下圖設置？

2018-10-31 15:10:45

請問一下rknn多圖推理參數該怎樣去設置呢

rknn多圖推理參數設置然后進行推理，推理的結果會把三張圖片的結果合并在一個list中，需要我們自己將其分割開：最終其結果和單張推理的結果是相同的

2022-07-22 15:38:02

請問如何設置任務堆棧的大小？

本人系統小白，麻煩哪個大佬給解釋下，如何設置一個任務的堆棧的大小？謝謝！

2020-07-15 08:03:20

貝葉斯網絡精確推理算法的研究

貝葉斯網絡是以概率理論為基礎的不確定知識表示模型，貝葉斯網絡推理的目的是得到隨機變量的概率分布。目前，最流行的推理算法是聯合樹算法，它的主要思想是將貝葉斯網絡

2009-08-15 09:34:16

HT MCU 軟件堆棧的應用

HT MCU 軟件堆棧的應用介紹：對于 Holtek 八位元單片機來說，堆棧資源往往是有限的。例如，HT48R10A-1 就只有兩級堆棧。本文將介紹如何利用軟件堆棧來解決這一問題。軟件堆棧是用通

2010-03-26 08:33:31

堆棧以及堆和棧的區別

堆棧：堆棧是一個"后進先出"的主存區域，位于堆棧段中，使用SS段寄存器記錄其段地址。它只有一個出入口，即當前棧頂，棧頂是地址較小的一端（低端），它用堆棧指針寄存器

2010-06-30 11:06:13

1703

堆棧指針是什么_有什么作用

堆棧指針總是指向棧頂位置。一般堆棧的棧底不能動，所以數據入棧前要先修改堆棧指針，使它指向新的空余空間然后再把數據存進去，出棧的時候相反。堆棧指針，隨時跟蹤棧頂地址，按“先進后出”的原則存取數據。

2017-11-10 11:01:07

9458

堆棧指針sp的內容是什么

堆棧是一塊保存數據的連續內存。一個名為堆棧指針（SP）的寄存器指向堆棧的頂部。堆棧的底部在一個固定的地址。堆棧的大小在運行時由內核動態地調整。 CPU實現指令 PUSH和POP，向堆棧中添加

2017-11-13 09:04:07

32892

堆棧溢出怎么解決方式

　堆棧是一個在計算機科學中經常使用的抽象數據類型。堆棧中的物體具有一個特性：最后一個放入堆棧中的物體總是被最先拿出來，這個特性通常稱為后進先出（LIFO）隊列。堆棧中定義了一些操作。兩個最重

2017-11-28 11:16:53

27365

片內RAM中堆棧的原理和作用解讀

堆棧區由特殊功能寄存器堆棧指針SP管理堆棧區可以安排在 RAM區任意位置，一般不安排在工作寄存器區和可按位尋址的RAM區，通常放在RAM區的靠后的位置。

2017-12-09 11:25:06

13257

C語言及ARM中堆棧指針SP設置的理解與總結

開始將堆棧指針設置在內部RAM，是因為不是每個板上都有外部RAM，而且外部RAM的大小也不相同，而且如果是SDRAM，還需要初始化，在內部RAM開始運行的一般是一個小的引導程序，基本上不怎么使用堆棧，因此將堆棧設置在內部RAM,但這也就要去改引導程序不能隨意使用大量局部變量。

2018-04-06 19:46:00

8833

學會Linux0.11-系統中堆棧的使用方法

當bootsect代碼被ROM BIOS引導加載到物理內存0x7c00處時，并沒有設置堆棧段，程序也沒有使用堆棧，直到bootsect被移動到0x9000:0處時，才把堆棧段寄存器SS設置

2019-05-15 14:46:08

676

51單片機堆棧的詳細分析和實例講解

1.堆棧的溢出問題。MCS51系列單片機將堆棧設置在片內RAM中，由于片內RAM資源有限，堆棧區的范圍也是有限的。堆棧區留得太大，會減少其他數據的存放空間，留得太少則很容易溢出。所謂堆棧溢出，是指在

2019-09-12 17:23:00

單片機堆棧的基本原理解析

堆棧指針指向最后壓入堆棧的有效數據項，稱為滿堆棧；堆棧指向下一個要放入的空位置，稱為空堆棧；有四種類型的堆棧表示遞增和遞減的滿堆棧和空堆棧的各種組合。

2020-01-02 15:48:46

4094

深入分析MCU堆棧的作用以及該如何設置堆棧大小

深入分析MCU堆棧的作用，以及該如何設置堆棧大小

2020-03-01 14:13:39

4449

英特爾推出了Stratix 10 NX FPGA著眼于AI模型訓練和推理

VMware使用Xilinx Alveo U250加速卡進行測試，通過Docker容器提供了機器學習模型，該容器與FPGA制造商的新Vitis AI開發堆棧集成在一起，用于機器學習推理。開源堆棧支持Caffe和TensorFlow框架。

2020-09-10 16:32:17

2342

CPU上最流行的加速神經網絡推理方法之一

量化是在 CPU 上最流行的加速神經網絡推理方法之一。去年，TensorFlow Lite 通過 XNNPACK 后端提高了浮點模型的性能。如今，我們將 XNNPACK 后端擴展至量化模型。各個

2021-09-12 15:57:29

4354

深入分析MCU堆棧的作用，以及該如何設置堆棧大小

置頂/星標公眾號，不錯過每一條消息前段時間分享文章《STM32的啟動流程到底是怎樣的？》之后，很多朋友問了關于堆棧的問題。今天就寫點相關內容，讓大家進一步了解堆棧...

2021-10-26 20:51:03

MCU堆棧空間，你設置了多少？

關注、星標公眾號，不錯過精彩內容作者：strongerHuang微信公眾號：strongerHuang堆棧對于程序來說非常重要，程序能夠快速運行，堆棧起到非常大的作用，但你了解堆棧嗎？1...

2021-10-28 11:21:03

深入分析MCU堆棧的作用，以及該如何設置堆棧大小

2021-10-28 16:51:01

51單片機堆棧深入剖析

上的擴展，既有C語言的共性，又有它自己的特點。本文介紹的是Cx51程序設計時堆棧的計算方法。　　1.堆棧的溢出問題。MCS51系列單片機將堆棧設置在片內RAM中，由于片內RAM資源有限，堆棧區的范圍也是有限的。堆棧區留得太大，會減少其他數據的存放空間，留得太少則很容易溢出。所

2021-11-22 16:36:04

關于stm32堆棧stack/heap設置-.map文件解讀-IAP原理簡述-分散加載技術的一些關聯理解

主要研究，到底該怎么設置STACK SIZE和HEAP SIZE的值，.map文件怎么解讀有關堆棧大小與內存地址的關聯，以及IAP固件升級和分散加載技術的一些聯系解讀。

2021-11-30 19:06:05

STM32堆棧空間大小設置

1. 設置堆棧空間大小在使用STM32編程時，一般情況下我們不會關注堆棧空間的大小，因為在STM32的啟動文件中，已經幫我們預先設置好了堆棧空間的大小。如下圖所示的啟動代碼中，Stack棧的大小

2021-12-17 18:36:08

stm32修改堆棧大小（堆棧空間不足導致死機）

1. 設置堆棧空間大小在使用STM32編程時，一般情況下我們不會關注堆棧空間的大小，因為在STM32的啟動文件中，已經幫我們預先設置好了堆棧空間的大小。一般默認的啟動代碼中，Stack棧的大小

2021-12-27 19:09:42

海思AI芯片(Hi3519A/3559A)方案學習（十五）基于nnie引擎進行推理的仿真代碼淺析

本系列為華為海思海思AI芯片(Hi3519A/3559A)方案學習系列之十五，主要對基于nnie引擎進行推理的仿真代碼淺析，系列文章請見底部。作者：...

2022-01-26 18:56:20

NVIDIA發布Riva語音AI和大型LLM軟件

　　它包括Megatron方面的進步，這是一個由 NVIDIA 研究人員領導的開源項目，旨在開發有效培訓法學碩士的技術。企業可以使用 NeMo Megatron 定制 LLM ，如 Megatron 530B ，并使用 NVIDIA Triton 推理服務器跨多個 GPU 和節點進行部署。

2022-04-01 16:27:36

10987

MLPerf是邊緣AI推理的新行業基準

　　最新的 AI 推理基準顯然具有重要意義，因為它是目前可用的最接近真實世界 AI 推理性能的衡量標準。但隨著它的成熟和吸引更多的提交，它也將成為成功部署技術堆棧的晴雨表和新實施的試驗場。

2022-07-08 15:37:55

1246

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此，現階段，如何利用LLM做一些多模態任務還是有一定的研究價值的。

2023-05-11 17:09:16

648

如何利用LLM做一些多模態任務

本文整理了近兩年來基于LLM做vision-lanuage任務的一些工作，并將其劃分為4個類別：

2023-05-17 15:02:35

575

淺析推理加速引擎FasterTransformer

最近幾個月，隨著ChatGPT的現象級表現，大模型如雨后春筍般涌現。而模型推理是抽象的算法模型觸達具體的實際業務的最后一公里。

2023-05-18 14:32:06

2069

LLM性能的主要因素

現在是2023年5月，截止目前，網絡上已經開源了眾多的LLM，如何用較低的成本，判斷LLM的基礎性能，選到適合自己任務的LLM，成為一個關鍵。本文會涉及以下幾個問題：影響LLM性能的主要因素

2023-05-22 15:26:20

1148

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口

2023-05-22 15:57:33

466

中國研究人員提出StructGPT，提高LLM對結構化數據的零樣本推理能力

盡管結構化數據的體量往往非常巨大，但不可能容納輸入提示中的所有數據記錄（例如，ChatGPT 的最大上下文長度為 4096）。將結構化數據線性化為 LLM 可以輕松掌握的語句是解決此問題的簡單方法。工具操作技術激勵他們增強 LLM 解決上述困難的能力。

2023-05-24 16:02:16

2156

LLM在各種情感分析任務中的表現如何

? 最近幾年，GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務，特別是在zero-shot和few-shot方面表現出它們強大的性能。因此，情感分析(SA)領域也必然少不了LLM的影子

2023-05-29 17:24:41

1379

基準數據集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣，但其主要依賴于從常識知識中發現因果關系。本研究提出了一個基準數據集(CORR2CAUSE)來測試大語言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型語言模型（LLM）的內部機制

工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對改進模型和減輕其故障（如幻覺或推理錯誤）至關重要。眾所周知，最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的學習能力通常歸功于 Transformer 架構，特別

2023-06-25 15:08:49

991

最新綜述！當大型語言模型（LLM）遇上知識圖譜：兩大技術優勢互補

LLM 是黑箱模型，缺乏可解釋性，因此備受批評。LLM 通過參數隱含地表示知識。因此，我們難以解釋和驗證 LLM 獲得的知識。此外，LLM 是通過概率模型執行推理，而這是一個非決斷性的過程。對于 LLM 用以得出預測結果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

適用于各種NLP任務的開源LLM的finetune教程~

ChatGLM2-6b是清華開源的小尺寸LLM，只需要一塊普通的顯卡(32G較穩妥)即可推理和微調，是目前社區非常活躍的一個開源LLM。

2023-07-24 09:04:22

1311

LLM對程序員的沖擊和影響

LLM 對軟件研發的單點提效，我之前錄制過一段視頻，大家可以直接觀看，里面有詳細的演示，我在這里就不再贅述了。

2023-07-24 15:39:06

766

LLM的長度外推淺談

蘇神最早提出的擴展LLM的context方法，基于bayes啟發得到的公式

2023-07-28 17:37:43

1484

MLC-LLM的編譯部署流程

MLC-LLM部署在各種硬件平臺的需求，然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經支持的Raven系列模型的特殊之處。 MLC-LLM的編譯部署流程

2023-09-04 09:22:46

1569

從原理到代碼理解語言模型訓練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質，無論預訓練、微調還是在推理階段，核心都是next token prediction，也就是以自回歸的方式從左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm對大模型推理的流程及優化方案

比如RWKV和給定的device信息一起編譯為TVM中的runtime.Module（在linux上編譯的產物就是.so文件）提供mlc-llm的c++推理接口調用。

2023-09-26 12:25:55

383

Continuous Batching：解鎖LLM潛力！讓LLM推斷速度飆升23倍，降低延遲！

本文介紹一篇 LLM 推理加速技術相關的文章，值得讀一讀。 LLMs 在現實應用中的計算成本主要由服務成本所主導，但是傳統的批處理策略存在低效性。在這篇文章中，我們將告訴

2023-10-15 20:25:02

292

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對相同硬件一輪又一輪改進

2023-10-23 16:10:19

284

周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會，將幫助您了解 NVIDIA 開源大型語言模型（LLM）推理加速庫 TensorRT-LLM ?及其功能

2023-10-26 09:05:02

174

現已公開發布！歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優化最新的大語言模型（Large Language Models）的推理

2023-10-27 20:05:02

478

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B

2023-11-01 17:48:42

422

淺析tensorrt-llm搭建運行環境以及庫

之前玩內測版的時候就需要cuda-12.x，正式出來仍是需要cuda-12.x，主要是因為tensorr-llm中依賴的CUBIN（二進制代碼）是基于cuda12.x編譯生成的，想要跑只能更新驅動。

2023-11-13 14:42:41

1746

使用MLC-LLM支持RWKV-5推理的過程思考

對LLM的理解比較有限，從代碼實現的角度來說，RWKV的狀態和KV Cache不同，不依賴序列長度，這讓RWKV模型在各種長度下運行內存和運行速度都是趨于穩定的，所以我感覺工程價值是比基于Transformer架構比如Llama更好的，部署的性價比會天然更優。

2023-11-19 15:58:57

502

澎峰科技發布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發布chatGPT之后，基于 Transformer 網絡結構的語言大模型（LLM）引發了全世界的注意與追捧，成為了人工智能領域的里程碑事件。但大模型推理所需

2023-11-25 15:35:01

383

LLM真的能推理和規劃嗎？

在研究人員選擇的模型中，GPT-3 davinci（非指令微調）、GPT-3 textdavinci-001（指令微調）和GPT-3 textdavinci-003（InstructGPT）都是以前觀察到過涌現能力的模型。這一選擇主要是出于模型可用性的考慮。

2023-11-30 09:45:30

260

怎樣使用Accelerate庫在多GPU上進行LLM推理呢？

大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長，推理的計算需求也顯著增加。

2023-12-01 10:24:52

396

用上這個工具包，大模型推理性能加速達40倍

作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實現出色的LLM推理性能。英特爾 ?Extension for Transformer 創新

2023-12-01 20:40:03

552

一文詳解LLM模型基本架構

LLM 中非常重要的一個概念是 Token，我們輸入給 LLM 和它輸出的都是 Token。Token 在這里可以看做語言的基本單位，中文一般是詞或字（其實字也是詞）。比如：”我們喜歡 Rust

2023-12-25 10:38:38

657

基于LLM的表格數據的大模型推理綜述

面向表格數據的推理任務，在計算機領域，特別是自然語言處理（Natural Language Processing，NLP）領域的研究中扮演著重要角色[1]。該任務要求模型在給定一個或多個表格的情況下，按照任務要求，生成相應的結果作為答案（例如：表格問答、表格事實判斷）。

2024-01-08 09:56:14

357

安霸發布N1系列生成式AI芯片支持前端設備運行本地LLM應用

單顆 SoC 支持 1 至 340 億參數的多模態大模型（Multi-Modal LLM）推理，實現前端低功耗生成式 AI。

2024-01-09 15:19:33

597

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個問題隨著LLM規模的增大愈發嚴重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個解碼步只能生成一個token。這導致GPU計算資源利用率

2024-01-29 15:54:24

261

100%在樹莓派上執行的LLM項目

ChatGPT的人性口語化回復相信許多人已體驗過，也因此掀起一波大型語言模型（Large Language Model, LLM）熱潮，LLM即ChatGPT背后的主運作技術，但LLM運作需要龐大運算力，因此目前多是在云端（Cloud）上執行。

2024-02-29 16:29:59

476

深度探討VLMs距離視覺演繹推理還有多遠？

通用大型語言模型（LLM）推理基準：研究者們介紹了多種基于文本的推理任務和基準，用于評估LLMs在不同領域（如常識、數學推理、常識推理、事實推理和編程）的性能。這些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。

2024-03-19 14:32:55

已全部加載完成

搜索歷史

淺析流行的LLM推理堆棧和設置

評論