色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用多個推理芯片需要仔細規劃

zhongnian ? 來源:zhongnian ? 作者:zhongnian ? 2022-07-21 10:11 ? 次閱讀

過去兩年,推理芯片業務異常忙碌。有一段時間,似乎每隔一周就有另一家公司推出一種新的更好的解決方案。盡管所有這些創新都很棒,但問題是大多數公司不知道如何利用各種解決方案,因為他們無法判斷哪一個比另一個表現更好。由于在這個新市場中沒有一套既定的基準,他們要么必須快速掌握推理芯片的速度,要么必須相信各個供應商提供的性能數據。

大多數供應商都提供了某種類型的性能數據,通常是任何讓它們看起來不錯的基準。一些供應商談論 TOPS 和 TOPS/Watt 時沒有指定型號、批量大小或工藝/電壓/溫度條件。其他人使用了 ResNet-50 基準,這是一個比大多數人需要的簡單得多的模型,因此它在評估推理選項方面的價值值得懷疑。

從早期開始,我們已經走了很長一段路。公司已經慢慢發現,在衡量推理芯片的性能時真正重要的是 1) 高 MAC 利用率,2) 低功耗和 3) 你需要保持一切都很小。

我們知道如何衡量——下一步是什么?

既然我們對如何衡量一個推理芯片相對于另一個的性能有了相當好的了解,公司現在正在詢問在同一設計中同時使用多個推理芯片的優點(或缺點)是什么。簡單的答案是,使用多個推理芯片,當推理芯片設計正確時,可以實現性能的線性增長。當我們考慮使用多個推理芯片時,高速公路的類比并不遙遠。公司想要單車道高速公路還是四車道高速公路的性能?

顯然,每家公司都想要一條四向高速公路,所以現在的問題變成了“我們如何在不造成交通和瓶頸的情況下交付這條四車道的高速公路?” 答案取決于選擇正確的推理芯片。為了解釋,讓我們看一個神經網絡模型。

神經網絡被分解成層。ResNet-50 等層有 50 層,YOLOv3 有超過 100 層,每一層都接受前一層的激活。因此,在第 N 層中,它的輸出是進入第 N+1 層的激活。它等待該層進入,計算完成,輸出是進入第 n+2 層的激活。這會持續到層的長度,直到你最終得到結果。請記住,此示例的初始輸入是圖像或模型正在處理的任何數據集。

當多個芯片發揮作用時

現實情況是,如果您的芯片具有一定的性能水平,總會有客戶想要兩倍或四倍的性能。如果你分析神經網絡模型,在某些情況下是可以實現的。您只需要查看如何在兩個芯片或四個芯片之間拆分模型。

多年來,這一直是并行處理的一個問題,因為很難弄清楚如何對您正在執行的任何處理進行分區并確保它們全部相加,而不是在性能方面被減去。

與并行處理和通用計算不同,推理芯片的好處是客戶通常會提前知道他們是否要使用兩個芯片,這樣編譯器就不必在運行時弄清楚——它是在編譯時完成的。使用神經網絡模型,一切都是完全可預測的,因此我們可以分析并準確確定如何拆分模型,以及它是否能在兩個芯片上運行良好。

為了確保模型可以在兩個或更多芯片上運行,重要的是逐層查看激活大小和 MAC 數量。通常發生的情況是,最大的激活發生在最早的層中。這意味著隨著層數的增加,激活大小會慢慢下降。

查看 MAC 的數量以及每個周期中完成的 MAC 數量也很重要。在大多數模型中,每個循環中完成的 MAC 數量通常與激活大小相關。這很重要,因為如果您有兩個芯片并且想要以最大頻率運行,則需要為每個芯片分配相同的工作負載。如果一個芯片完成模型的大部分工作,而另一個芯片只完成模型的一小部分,那么您將受到第一個芯片的吞吐量的限制。

如何在兩個芯片之間拆分模型也很重要。您需要查看 MAC 的數量,因為這決定了工作負載的分布。您還必須查看芯片之間傳遞的內容。在某些時候,您需要在您傳遞的激活盡可能小的地方對模型進行切片,以便所需的通信帶寬量和傳輸延遲最小。如果在激活非常大的點對模型進行切片,激活的傳輸可能會成為限制雙芯片解決方案性能的瓶頸。

下圖顯示了 YOLOv3、Winograd、2 百萬像素圖像的激活輸出大小和累積的 Mac 操作逐層(繪制了卷積層)。為了平衡兩個芯片之間的工作負載,該模型將減少大約 50% 的累積 MAC 操作——此時從一個芯片傳遞到另一個芯片的激活為 1MB 或 2MB。要在 4 個籌碼之間進行拆分,削減率約為 25%、50% 和 75%;請注意,激活大小在開始時最大,因此 25% 的切點有 4 或 8MB 的激活要通過。

poYBAGLXT6aAZ_6sAAGPBlpZGUY044.png

單擊此處查看大圖
YOLOv3/Winograd/2Mpixel 圖像的激活輸出大小(藍條)和逐層累積 MAC 操作(紅線),顯示工作負載如何在多個芯片之間分配(圖片:Flex Logix)

性能工具

幸運的是,現在可以使用性能工具來確保高吞吐量。事實上,模擬單個芯片性能的同一工具可以推廣到模擬兩個芯片的性能。雖然任何給定層的性能完全相同,但問題是數據傳輸如何影響性能。建模工具需要考慮這一點,因為如果所需的帶寬不夠,該帶寬將限制吞吐量。

如果您正在做四個芯片,您將需要更大的帶寬,因為模型第一季度的激活往往大于模型后期的激活。因此,您投資的通信資源量將允許您使用流水線連接的大量芯片,但這將是所有芯片都必須承擔的間接成本,即使它們是獨立芯片。

結論

使用多個推理芯片可以顯著提高性能,但前提是如上所述正確設計神經網絡。如果我們回顧一下高速公路的類比,有很多機會通過使用錯誤的芯片和錯誤的神經網絡模型來建立交通。如果你從正確的芯片開始,你就走在了正確的軌道上。請記住,最重要的是吞吐量,而不是 TOPS 或 Res-Net50 基準。然后,一旦您選擇了正確的推理芯片,您就可以設計一個同樣強大的神經網絡模型,為您的應用需求提供最大的性能。

— Geoff Tate 是 Flex Logix 的首席執行官

、審核編輯 黃昊宇
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    50892

    瀏覽量

    424324
  • Mac
    Mac
    +關注

    關注

    0

    文章

    1107

    瀏覽量

    51522
收藏 人收藏

    評論

    相關推薦

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發表于 12-11 20:13 ?113次閱讀
    如何開啟Stable Diffusion WebUI模型<b class='flag-5'>推理</b>部署

    Amazon Bedrock推出多個新模型和全新強大的推理和數據處理功能

    亞馬遜云科技助力客戶加速采用生成式AI 模型擴展規模空前,并新增推理優化工具及額外的數據功能,為客戶提供了更大的靈活性和控制力,更快構建和部署生產級生成式AI ?亞馬遜云科技在2024 re
    的頭像 發表于 12-07 19:31 ?621次閱讀
    Amazon Bedrock推出<b class='flag-5'>多個</b>新模型和全新強大的<b class='flag-5'>推理</b>和數據處理功能

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有的關于高效
    的頭像 發表于 11-15 11:45 ?419次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發表于 10-29 14:12 ?511次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    AMD助力HyperAccel開發全新AI推理服務器

    提高成本效率。HyperAccel 針對新興的生成式 AI 應用提供超級加速的芯片 IP/解決方案。HyperAccel 已經打造出一個快速、高效且低成本的推理系統,加速了基于轉換器的大型語言模型
    的頭像 發表于 09-18 09:37 ?374次閱讀
    AMD助力HyperAccel開發全新AI<b class='flag-5'>推理</b>服務器

    【飛凌嵌入式OK3576-C開發板體驗】rkllm板端推理

    交叉編譯 在完成模型的量化構建后,就能夠在目標硬件平臺OK3576上實現模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中,該
    發表于 08-31 22:45

    星凡科技獲近億元Pre-A輪融資,加速大模型推理芯片研發

    星凡星啟(成都)科技有限公司(以下簡稱“星凡科技”)近日宣布成功完成近億元人民幣的Pre-A輪融資,此次融資由高捷資本攜手盛景嘉成及開普云聯合注資。這筆資金將為星凡科技在多個關鍵領域的發展注入強勁動力,包括服務器產線建設、算力中心項目的深度布局與后期高效運營,以及核心大模型推理
    的頭像 發表于 07-27 17:21 ?2632次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、解碼方法優化、底層優化、分布式并行推理以及特
    的頭像 發表于 07-24 11:38 ?907次閱讀

    如何加速大語言模型推理

    的主要挑戰。本文將從多個維度深入探討如何加速大語言模型的推理過程,以期為相關領域的研究者和開發者提供參考。
    的頭像 發表于 07-04 17:32 ?554次閱讀

    DRP芯片多個領域的應用

    DRP芯片多個領域都有潛力應用,尤其是在快充和處理器/DSP領域。 在快充領域,DRP芯片可用于移動電源、戶外電源、HUB等產品中。它們可以支持多個PDO(Power Deliver
    的頭像 發表于 04-13 20:23 ?801次閱讀

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務和基準,用于評估LLMs在不同領域(如常識、數學推理、常識推理、事實推理
    發表于 03-19 14:32 ?367次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠?

    Groq LPU崛起,AI芯片主戰場從訓練轉向推理

    人工智能推理的重要性日益凸顯,高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來,全球芯片制造商的主要市場將全面轉向人工智能推理領域。
    的頭像 發表于 02-29 16:46 ?1189次閱讀

    Groq推出大模型推理芯片 超越了傳統GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統GPU和谷歌TPU。
    的頭像 發表于 02-26 10:24 ?1056次閱讀
    Groq推出大模型<b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了傳統GPU和谷歌TPU

    沖壓自動線規劃的幾點考慮

    在制造業中,沖壓自動線規劃是確保高效生產和卓越質量的關鍵環節。成功的規劃需要綜合考慮多個因素,以滿足產品設計、生產能力和質量標準等方面的要求。本文將圍繞沖壓自動線
    的頭像 發表于 01-22 14:58 ?383次閱讀
    沖壓自動線<b class='flag-5'>規劃</b>的幾點考慮

    基于LLM的表格數據的大模型推理綜述

    面向表格數據的推理任務,在計算機領域,特別是自然語言處理(Natural Language Processing,NLP)領域的研究中扮演著重要角色[1]。該任務要求模型在給定一個或多個表格的情況下,按照任務要求,生成相應的結果作為答案(例如:表格問答、表格事實判斷)。
    發表于 01-08 09:56 ?1602次閱讀
    基于LLM的表格數據的大模型<b class='flag-5'>推理</b>綜述
    主站蜘蛛池模板: 女人的选择hd| 性XXXXX搡XXXXX搡景甜| 一本色道久久综合亚洲精品加| 国产午夜精品一区二区| 亚洲精品视频观看| 麻豆Av国产在线播放| www.av在线| 亚洲高清毛片一区二区| 裸妇厨房风流在线观看| 北条麻妃のレズナンパ| 亚洲AV成人无码999WWW| 两个人看的www免费高清直播 | 久久99re6热在线播放| 51vv视频社区| 无码日本亚洲一区久久精品 | 亚洲免费在线播放| 欧美午夜不卡在线观看| 国产精品免费久久久久影院| 伊人影院2019| 受被攻做到腿发颤高h文| 久久婷婷五月综合色丁香| 动漫美女的阴| 在线不卡日本v二区到六区| 色偷偷爱偷偷要| 老妇xxxxbbbb| 国产一区二区波多野结衣| writeas雷狮直播| 在线播放性xxx欧美| 午夜影院视费x看| 欧美人妖12p| 九九热久久只有精品2| 各种场合肉H校园1V1| 91久久线看在观草草青青| 小雪奶水涨翁工帮吸的推荐语录| 免费网站在线观看国产v片| 国产午夜精品久久理论片小说| mxgs-877痉挛媚药按摩| 一亲二脱三插| 午夜福利理论片高清在线| 亲嘴扒胸摸屁股视频免费网站| 久久精品中文字幕有码日本|