曰批视频在线观看,亚洲欧美久久婷婷爱综合一区天堂,中文字幕日韩一区二区三区不

過去兩年，推理芯片業務異常忙碌。有一段時間，似乎每隔一周就有另一家公司推出一種新的更好的解決方案。盡管所有這些創新都很棒，但問題是大多數公司不知道如何利用各種解決方案，因為他們無法判斷哪一個比另一個表現更好。由于在這個新市場中沒有一套既定的基準，他們要么必須快速掌握推理芯片的速度，要么必須相信各個供應商提供的性能數據。

大多數供應商都提供了某種類型的性能數據，通常是任何讓它們看起來不錯的基準。一些供應商談論 TOPS 和 TOPS/Watt 時沒有指定型號、批量大小或工藝/電壓/溫度條件。其他人使用了 ResNet-50 基準，這是一個比大多數人需要的簡單得多的模型，因此它在評估推理選項方面的價值值得懷疑。

從早期開始，我們已經走了很長一段路。公司已經慢慢發現，在衡量推理芯片的性能時真正重要的是 1) 高 MAC 利用率，2) 低功耗和 3) 你需要保持一切都很小。

我們知道如何衡量——下一步是什么？

既然我們對如何衡量一個推理芯片相對于另一個的性能有了相當好的了解，公司現在正在詢問在同一設計中同時使用多個推理芯片的優點（或缺點）是什么。簡單的答案是，使用多個推理芯片，當推理芯片設計正確時，可以實現性能的線性增長。當我們考慮使用多個推理芯片時，高速公路的類比并不遙遠。公司想要單車道高速公路還是四車道高速公路的性能？

顯然，每家公司都想要一條四向高速公路，所以現在的問題變成了“我們如何在不造成交通和瓶頸的情況下交付這條四車道的高速公路？” 答案取決于選擇正確的推理芯片。為了解釋，讓我們看一個神經網絡模型。

神經網絡被分解成層。ResNet-50 等層有 50 層，YOLOv3 有超過 100 層，每一層都接受前一層的激活。因此，在第 N 層中，它的輸出是進入第 N+1 層的激活。它等待該層進入，計算完成，輸出是進入第 n+2 層的激活。這會持續到層的長度，直到你最終得到結果。請記住，此示例的初始輸入是圖像或模型正在處理的任何數據集。

當多個芯片發揮作用時

現實情況是，如果您的芯片具有一定的性能水平，總會有客戶想要兩倍或四倍的性能。如果你分析神經網絡模型，在某些情況下是可以實現的。您只需要查看如何在兩個芯片或四個芯片之間拆分模型。

多年來，這一直是并行處理的一個問題，因為很難弄清楚如何對您正在執行的任何處理進行分區并確保它們全部相加，而不是在性能方面被減去。

與并行處理和通用計算不同，推理芯片的好處是客戶通常會提前知道他們是否要使用兩個芯片，這樣編譯器就不必在運行時弄清楚——它是在編譯時完成的。使用神經網絡模型，一切都是完全可預測的，因此我們可以分析并準確確定如何拆分模型，以及它是否能在兩個芯片上運行良好。

為了確保模型可以在兩個或更多芯片上運行，重要的是逐層查看激活大小和 MAC 數量。通常發生的情況是，最大的激活發生在最早的層中。這意味著隨著層數的增加，激活大小會慢慢下降。

查看 MAC 的數量以及每個周期中完成的 MAC 數量也很重要。在大多數模型中，每個循環中完成的 MAC 數量通常與激活大小相關。這很重要，因為如果您有兩個芯片并且想要以最大頻率運行，則需要為每個芯片分配相同的工作負載。如果一個芯片完成模型的大部分工作，而另一個芯片只完成模型的一小部分，那么您將受到第一個芯片的吞吐量的限制。

如何在兩個芯片之間拆分模型也很重要。您需要查看 MAC 的數量，因為這決定了工作負載的分布。您還必須查看芯片之間傳遞的內容。在某些時候，您需要在您傳遞的激活盡可能小的地方對模型進行切片，以便所需的通信帶寬量和傳輸延遲最小。如果在激活非常大的點對模型進行切片，激活的傳輸可能會成為限制雙芯片解決方案性能的瓶頸。

下圖顯示了 YOLOv3、Winograd、2 百萬像素圖像的激活輸出大小和累積的 Mac 操作逐層（繪制了卷積層）。為了平衡兩個芯片之間的工作負載，該模型將減少大約 50% 的累積 MAC 操作——此時從一個芯片傳遞到另一個芯片的激活為 1MB 或 2MB。要在 4 個籌碼之間進行拆分，削減率約為 25%、50% 和 75%；請注意，激活大小在開始時最大，因此 25% 的切點有 4 或 8MB 的激活要通過。

單擊此處查看大圖
YOLOv3/Winograd/2Mpixel 圖像的激活輸出大小（藍條）和逐層累積 MAC 操作（紅線），顯示工作負載如何在多個芯片之間分配（圖片：Flex Logix）

性能工具

幸運的是，現在可以使用性能工具來確保高吞吐量。事實上，模擬單個芯片性能的同一工具可以推廣到模擬兩個芯片的性能。雖然任何給定層的性能完全相同，但問題是數據傳輸如何影響性能。建模工具需要考慮這一點，因為如果所需的帶寬不夠，該帶寬將限制吞吐量。

如果您正在做四個芯片，您將需要更大的帶寬，因為模型第一季度的激活往往大于模型后期的激活。因此，您投資的通信資源量將允許您使用流水線連接的大量芯片，但這將是所有芯片都必須承擔的間接成本，即使它們是獨立芯片。

結論

使用多個推理芯片可以顯著提高性能，但前提是如上所述正確設計神經網絡。如果我們回顧一下高速公路的類比，有很多機會通過使用錯誤的芯片和錯誤的神經網絡模型來建立交通。如果你從正確的芯片開始，你就走在了正確的軌道上。請記住，最重要的是吞吐量，而不是 TOPS 或 Res-Net50 基準。然后，一旦您選擇了正確的推理芯片，您就可以設計一個同樣強大的神經網絡模型，為您的應用需求提供最大的性能。

— Geoff Tate 是 Flex Logix 的首席執行官

、審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

芯片

芯片

+關注

關注
456

文章
51155

瀏覽量
426345
Mac

Mac

+關注

關注
0

文章
1109

瀏覽量
51613

Neuchips展示大模型推理ASIC芯片

。新的芯片解決方案Raptor使企業能夠以現有解決方案的一小部分成本部署大型語言模型（LLM）推理。 Neuchips?CEO Ken Lau表示：“我們很高興在CES 2024上向業界展示我們

發表于 01-06 17:30 ?149次閱讀

智譜GLM-Zero深度推理模型預覽版正式上線

。 GLM-Zero-Preview專注于提升AI的推理能力，擅長處理數理邏輯、代碼以及需要深度推理的復雜問題。據官方介紹，與同基座模型相比，GLM-Zero-Preview在不顯著降低通用任務能力

發表于 01-02 10:55 ?155次閱讀

如何開啟Stable Diffusion WebUI模型推理部署

發表于 12-11 20:13 ?149次閱讀

如何開啟Stable Diffusion WebUI模型<b class='flag-5'>推理</b>部署

Amazon Bedrock推出多個新模型和全新強大的推理和數據處理功能

亞馬遜云科技助力客戶加速采用生成式AI 模型擴展規模空前，并新增推理優化工具及額外的數據功能，為客戶提供了更大的靈活性和控制力，更快構建和部署生產級生成式AI ?亞馬遜云科技在2024 re

發表于 12-07 19:31 ?664次閱讀

Amazon Bedrock推出<b class='flag-5'>多個</b>新模型和全新強大的<b class='flag-5'>推理</b>和數據處理功能

高效大模型的推理綜述

大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而，大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有的關于高效

發表于 11-15 11:45 ?535次閱讀

FPGA和ASIC在大模型推理加速中的應用

隨著現在AI的快速發展，使用FPGA和ASIC進行推理加速的研究也越來越多，從目前的市場來說，有些公司已經有了專門做推理的ASIC，像Groq的LPU，專門針對大語言模型的推理做了優化，因此相比GPU這種通過計算平臺，功耗更低、

發表于 10-29 14:12 ?656次閱讀

FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

AMD助力HyperAccel開發全新AI推理服務器

提高成本效率。HyperAccel 針對新興的生成式 AI 應用提供超級加速的芯片 IP/解決方案。HyperAccel 已經打造出一個快速、高效且低成本的推理系統，加速了基于轉換器的大型語言模型

發表于 09-18 09:37 ?403次閱讀

AMD助力HyperAccel開發全新AI<b class='flag-5'>推理</b>服務器

【飛凌嵌入式OK3576-C開發板體驗】rkllm板端推理

交叉編譯在完成模型的量化構建后，就能夠在目標硬件平臺OK3576上實現模型的推理功能了。板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中，該

發表于 08-31 22:45

星凡科技獲近億元Pre-A輪融資，加速大模型推理芯片研發

星凡星啟（成都）科技有限公司（以下簡稱“星凡科技”）近日宣布成功完成近億元人民幣的Pre-A輪融資，此次融資由高捷資本攜手盛景嘉成及開普云聯合注資。這筆資金將為星凡科技在多個關鍵領域的發展注入強勁動力，包括服務器產線建設、算力中心項目的深度布局與后期高效運營，以及核心大模型推理

發表于 07-27 17:21 ?2706次閱讀

LLM大模型推理加速的關鍵技術

LLM（大型語言模型）大模型推理加速是當前人工智能領域的一個研究熱點，旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討，內容將涵蓋模型壓縮、解碼方法優化、底層優化、分布式并行推理以及特

發表于 07-24 11:38 ?978次閱讀

如何加速大語言模型推理

的主要挑戰。本文將從多個維度深入探討如何加速大語言模型的推理過程，以期為相關領域的研究者和開發者提供參考。

發表于 07-04 17:32 ?610次閱讀

DRP芯片在多個領域的應用

DRP芯片在多個領域都有潛力應用，尤其是在快充和處理器/DSP領域。在快充領域，DRP芯片可用于移動電源、戶外電源、HUB等產品中。它們可以支持多個PDO（Power Deliver

發表于 04-13 20:23 ?865次閱讀

深度探討VLMs距離視覺演繹推理還有多遠？

通用大型語言模型（LLM）推理基準：研究者們介紹了多種基于文本的推理任務和基準，用于評估LLMs在不同領域（如常識、數學推理、常識推理、事實推理

發表于 03-19 14:32 ?380次閱讀

Groq LPU崛起，AI芯片主戰場從訓練轉向推理

人工智能推理的重要性日益凸顯，高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來，全球芯片制造商的主要市場將全面轉向人工智能推理領域。

發表于 02-29 16:46 ?1238次閱讀

Groq推出大模型推理芯片超越了傳統GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動，超越了傳統GPU和谷歌TPU。

發表于 02-26 10:24 ?1096次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

使用多個推理芯片需要仔細規劃

評論

Neuchips展示大模型推理ASIC芯片

智譜GLM-Zero深度推理模型預覽版正式上線

如何開啟Stable Diffusion WebUI模型推理部署

Amazon Bedrock推出多個新模型和全新強大的推理和數據處理功能

高效大模型的推理綜述

FPGA和ASIC在大模型推理加速中的應用

AMD助力HyperAccel開發全新AI推理服務器

【飛凌嵌入式OK3576-C開發板體驗】rkllm板端推理

星凡科技獲近億元Pre-A輪融資，加速大模型推理芯片研發

LLM大模型推理加速的關鍵技術

如何加速大語言模型推理

DRP芯片在多個領域的應用

深度探討VLMs距離視覺演繹推理還有多遠？

Groq LPU崛起，AI芯片主戰場從訓練轉向推理

Groq推出大模型推理芯片超越了傳統GPU和谷歌TPU