色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

車載大模型分析揭示:存儲帶寬對性能影響遠(yuǎn)超算力

佐思汽車研究 ? 來源:未知 ? 2024-11-09 10:36 ? 次閱讀

車載大模型的定義尚無,傳統(tǒng)大模型即LLM的參數(shù)一般在70億至2000億之間,而早期的CNN模型參數(shù)通常不到1000萬,CNN模型目前大多做骨干網(wǎng)使用,參數(shù)飛速增加。特斯拉使用META的RegNet,參數(shù)為8400萬,消耗運(yùn)算資源很少,得分82.9也算不低;小米UniOcc使用META的ConvNeXt-B,參數(shù)8900萬,消耗運(yùn)算資源最少,得分83.8;華為RadOcc使用微軟的Swin-B,參數(shù)8800萬。相對于早期的CNN模型,這些都可以叫大模型,但要與真正意義上的ChatGPT之類的LLM大模型比,這些是小模型都稱不上,只能叫微模型。

不過,端到端的出現(xiàn)改變了這一現(xiàn)狀,端到端實際上是內(nèi)嵌了一個小型LLM,隨著喂養(yǎng)數(shù)據(jù)的增加,這個大模型的參數(shù)會越來越大,最初階段的模型大小大概是100億參數(shù),不斷迭代,最終會達(dá)到1000億以上。非安全類的大模型應(yīng)用基本不用考慮計算問題,所以只要是個手機(jī)都敢說能跑數(shù)百億的大模型,實際很多算力不如手機(jī)的電腦也能跑,因為延遲多幾秒幾十秒也沒有問題,但自動駕駛必須將延遲降低到幾十毫秒內(nèi)。但你要以為這對算力要求更高了,那就大錯特錯了,存儲帶寬遠(yuǎn)比算力重要千倍。

當(dāng)前的主流 LLM 基本都是Decoder Only的Transformer模型,其推理過程可分為兩個階段:

d3575588-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文 A Survey on Efficient Inference for Large Language Models

Prefill:根據(jù)輸入Tokens(Recite, the, first, law, of, robotics) 生成第一個輸出 Token(A),通過一次Forward就可以完成,在Forward中,輸入Tokens間可以并行執(zhí)行(類似 Bert這些Encoder模型),因此執(zhí)行效率很高。

Decoding:從生成第一個Token(A)之后開始,采用自回歸方式一次生成一個Token,直到生成一個特殊的Stop Token(或者滿足用戶的某個條件,比如超過特定長度)才會結(jié)束,假設(shè)輸出總共有N個Token,則Decoding階段需要執(zhí)行N-1次Forward,這N-1次Forward 只能串行執(zhí)行,效率很低。另外,在生成過程中,需要關(guān)注的Token越來越多(每個Token 的生成都需要Attention之前的Token),計算量也會適當(dāng)增大。

LLM推理計算過程時間分布

d383974c-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

在車載自動駕駛應(yīng)用場合,序列長度基本可等同于攝像頭的像素數(shù)量和激光雷達(dá)的點云密度。

d3adee5c-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

在 LLM 推理中最關(guān)鍵的就是上圖中的Multi-Head Attention(MHA),其主要的計算集中在左圖中灰色的 Linear(矩陣乘)和Scaled Dot-Product Attention中的MatMul 矩陣乘法。

圖中的Mask是一個下三角矩陣,也是因為這個下三角矩陣實現(xiàn)了LLM Decoder的主要特性,每個Token都只能看到當(dāng)前位置及之前的Token。其中的QKV可以理解為一個相關(guān)性矩陣,4個Token對應(yīng)4 個Step,其中:

Step 2依賴Step 1的結(jié)果,相關(guān)性矩陣的第1行不用重復(fù)計算。

Step 3依賴Step 1和Step 2的結(jié)果,相關(guān)性矩陣的第1行和第2行不用重復(fù)計算。

Step 4依賴Step 1、Step 2和Step 3的結(jié)果,相關(guān)性矩陣的第1行、第2行和第3行不用重復(fù)計算。

在Decoding階段Token是逐個生成的,上述的計算過程中每次都會依賴之前的結(jié)果,換句話說這是串行計算,而非GPU擅長的并行計算,GPU大部分時候都在等待數(shù)據(jù)搬運(yùn)。加速的辦法是計算當(dāng)前Token時直接從KV Cache中讀取而不是重新計算,對于通用LLM,應(yīng)用場景是要考慮多個并發(fā)客戶使用,即Batch Size遠(yuǎn)大于1,KV Cache的緩存量會隨著Batch Size暴增,但在車?yán)镉脩糁挥幸粋€,就是自動駕駛端到端大模型,即Batch Size為1。

因為Decoding階段Token逐個處理,使用KV Cache之后,上面介紹的Multi-Head Attention 里的矩陣乘矩陣操作全部降級為矩陣乘向量即GEMV。此外,Transformer模型中的另一個關(guān)鍵組件FFN 中主要也包含兩個矩陣乘法操作,但 Token之間不會交叉融合,也就是任何一個Token都可以獨立計算,因此在Decoding階段不用Cache之前的結(jié)果,但同樣會出現(xiàn)矩陣乘矩陣操作降級為矩陣乘向量。Prefill階段則是GEMM,矩陣與矩陣的乘法。

矩陣乘向量操作是明顯的訪存bound,而以上操作是LLM推理中最主要的部分,這也就導(dǎo)致LLM推理是訪存bound類型。

三星對GPT大模型workload分析

d3dfe038-903e-11ef-a511-92fbcf53809c.png

圖片來源:SAMSUNG

上圖是三星對GPT大模型workload分析。在運(yùn)算操作數(shù)量上,GEMV所占的比例高達(dá)86.53%;在大模型運(yùn)算延遲分析上,82.27%的延遲都來自GEMV,GEMM所占只有2.12%,非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。

三星對GPU利用率的分析

d41bc45e-903e-11ef-a511-92fbcf53809c.png

圖片來源:SAMSUNG

上圖是三星對GPU利用率的分析,可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數(shù)據(jù)的搬運(yùn)。還有如矩陣反轉(zhuǎn),嚴(yán)格地說沒有任何運(yùn)算,只是存儲行列對調(diào),完全是存儲器和CPU在忙活。解決辦法很簡單且只有一個,就是用HBM高寬帶內(nèi)存。

與傳統(tǒng)LLM最大不同就是車載的Batch Size是1,導(dǎo)致GPU運(yùn)算效率暴跌,傳統(tǒng)LLM的Batch Size通常遠(yuǎn)大于1,這讓GPU效率增加。

d44a5206-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文SARATHI: Effcient LLM Inference by Piggybacking Decodes with Chunked Preflls

圖上不難看出,Batch Size越大,推理速度反而越快,但KV Cache容量會暴增;車載的Batch Size是1,推理速度反而很慢,好處是根本不用考慮KV Cache的容量。

最終我們可以得出結(jié)論,存儲帶寬決定了推理計算速度的上限。假設(shè)一個大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲是7GB,如果是英偉達(dá)的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個token,這個就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s,即每110毫秒生成一個token,幀率不到10Hz,自動駕駛領(lǐng)域一般圖像幀率是30Hz;英偉達(dá)的Orin存儲帶寬是204.5GB/s,即每34毫秒生成一個token,勉強(qiáng)可以達(dá)到30Hz,注意這只是計算的數(shù)據(jù)搬運(yùn)所需要的時間,數(shù)據(jù)計算的時間都完全忽略了,實際速度要遠(yuǎn)低于這個數(shù)據(jù)。并且一個token也不夠用,至少需要兩個token,端到端的最終輸出結(jié)果用語言描述就是一段軌跡,比如直行,直行需要有個限制條件,至少有個速度的限制條件,多的可能需要5個以上token,簡單計算即可得出存儲帶寬需要1TB/s以上。

實際情況遠(yuǎn)比這個復(fù)雜的多。車載領(lǐng)域不是傳統(tǒng)LLM使用CPU和GPU分離形式,車載領(lǐng)域的計算SoC都是將CPU和AI運(yùn)算部分合二為一,AI運(yùn)算部分通常是GPU或加速器是和CPU共享內(nèi)存的。而在非車載領(lǐng)域,GPU或AI運(yùn)算部分有獨立的存儲,即顯存。車載領(lǐng)域共享內(nèi)存一般是LPDDR,它主要是為CPU設(shè)計的,注重速度即頻率而非帶寬。不像顯存,一般是GDDR或HBM,注重帶寬,不看重頻率高低。上述所有理論都是基于顯存的,在車載領(lǐng)域共享LPDDR,其性能遠(yuǎn)遠(yuǎn)低于單獨配置的顯存,無論是速度還是容量,共享存儲都必須遠(yuǎn)比單獨的顯存要高才能做到大模型推理計算。

理想用英偉達(dá)Orin做了測試,純端到端模式延遲高達(dá)1.5秒。

d4829288-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

所以車載領(lǐng)域存儲比算力重要很多,最好的解決辦法是HBM,但太貴了,32GB HBM2最低成本也得2000美元,汽車領(lǐng)域?qū)r格還是比較敏感的,退而求其次,就是GDDR了。GDDR6的成本遠(yuǎn)低于HBM,32GB GDDR6大概只要180美元或更低。

幾代GDDR的性能對比

d4b3bd5e-903e-11ef-a511-92fbcf53809c.png

整理:佐思汽研

基本上GDDR6的理論上限就是672GB/s,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量為32GB,型號為MT61M512M32KPA-14,頻率1750MHz(LPDDR5最低也是3200MHz之上),是第一代GDDR6,速度較低。即使用了GDDR6,要流暢運(yùn)行百億級別的大模型,還是無法實現(xiàn),不過已經(jīng)是目前最好的了。

GDDR7正式標(biāo)準(zhǔn)在2024年3月公布,不過三星在2023年7月就發(fā)布了全球首款GDDR7,目前SK Hynix和美光也都有GDRR7產(chǎn)品推出。有些人會說,換上GDDR7顯存不就行了,當(dāng)然沒那么容易,GDDR需要特殊的物理層和控制器,芯片必須內(nèi)置GDDR的物理層和控制器才能用上GDDR,Rambus和新思科技都有相關(guān)IP出售。

d5223054-903e-11ef-a511-92fbcf53809c.png

圖片來源:網(wǎng)絡(luò)

在芯片領(lǐng)域,GDDR7增加的成本和LPDDR5X一樣的。

特斯拉的HW4.0過了一年半毫無動作,筆者認(rèn)為特斯拉的第二代FSD芯片顯然是落伍了,特斯拉也不打算大規(guī)模用了,特斯拉的第三代FSD芯片應(yīng)該正在開發(fā)中,可能2025年底就完成開發(fā),至少支持GDDR6X。

大模型時代,Attention Is All You Need,同樣大模型時代 Memory Is All You Need。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4340

    瀏覽量

    86012
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    944

    瀏覽量

    40997
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    297

    瀏覽量

    360

原文標(biāo)題:車載大模型計算分析:存儲帶寬遠(yuǎn)比算力重要

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對智中心算衡量的詳細(xì)闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?212次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?69次閱讀

    浪潮信息與智源研究院攜手共建大模型多元生態(tài)

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元開源創(chuàng)新生態(tài)。 此次合作旨在提升大模型創(chuàng)新研發(fā)的
    的頭像 發(fā)表于 12-31 11:49 ?264次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    1章 從TOP500和MLPerf看芯片格局 1.1科學(xué)最前沿TOP500 1.2 AI
    發(fā)表于 10-15 22:08

    名單公布!【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    更高、更密集的應(yīng)用需求。 12年前,我與本書作者相識時,他向我提出一個想法:建立中關(guān)村在線高性能計算頻道。該頻道隸屬于核心硬件事業(yè)部,聚焦芯片相關(guān)的產(chǎn)品技術(shù)分析、評測,并為企業(yè)客戶
    發(fā)表于 09-02 10:09

    模型時代的需求

    現(xiàn)在AI已進(jìn)入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能
    發(fā)表于 08-20 09:04

    名單公布!【書籍評測活動NO.41】大模型時代的基礎(chǔ)架構(gòu):大模型中心建設(shè)指南

    工作日內(nèi)未聯(lián)系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對其需求設(shè)計的及基礎(chǔ)架構(gòu)。本書針對如何為大
    發(fā)表于 08-16 18:33

    IaaS+on+DPU(IoD)+下一代高性能底座技術(shù)白皮書

    、VMware、Palo Alto 等公司紛紛推出相關(guān)解決方案。這些方案背后共同的本質(zhì)思想是:將云計算的 IaaS 層組件從服務(wù)器側(cè)卸載后圍繞 DPU 構(gòu)筑高性能底座,與 AWS、阿里云的技術(shù)路線不謀而合
    發(fā)表于 07-24 15:32

    中國中心市場持續(xù)增長,智能規(guī)模快速崛起

    7月24日,中國信息通信研究院(簡稱“中國信通院”)權(quán)威發(fā)布了《中國中心服務(wù)商分析報告(2024年)》,該報告深入剖析了中國中心市場
    的頭像 發(fā)表于 07-24 15:25 ?511次閱讀

    力系列基礎(chǔ)篇——與計算機(jī)性能:解鎖超能力的神秘力量!

    在《力系列基礎(chǔ)篇——101:從零開始了解》中,相信各位粉絲初步了解到人工智能的“發(fā)動機(jī)”和核心驅(qū)動力:
    的頭像 發(fā)表于 07-11 08:04 ?104次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>與計算機(jī)<b class='flag-5'>性能</b>:解鎖超能力的神秘力量!

    中心:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎

    、建設(shè)與發(fā)展,并分析其對數(shù)字經(jīng)濟(jì)發(fā)展的影響。01、中心的定義與概述中心是指具備高性能計算
    的頭像 發(fā)表于 04-13 08:27 ?1818次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>中心:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎

    液冷是大模型需求的必然選擇?|英偉達(dá) GTC 2024六大亮點

    在這個以高性能計算和大模型推動未來通用人工智能時代,已成為科技發(fā)展的隱形支柱。本文將重點探討
    的頭像 發(fā)表于 04-10 12:57 ?647次閱讀
    液冷是大<b class='flag-5'>模型</b>對<b class='flag-5'>算</b><b class='flag-5'>力</b>需求的必然選擇?|英偉達(dá) GTC 2024六大亮點

    Sora需求引發(fā)業(yè)界對集結(jié)國內(nèi)AI企業(yè)的探討

    據(jù)周鴻祎觀察,Sora視頻分析所需遠(yuǎn)超千億規(guī)模模型。因而,考慮到如今國內(nèi)芯片供應(yīng)受限,
    的頭像 發(fā)表于 02-25 10:03 ?617次閱讀

    智能規(guī)模超通用,大模型對智能提出高要求

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)是設(shè)備通過處理數(shù)據(jù),實現(xiàn)特定結(jié)果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發(fā)表于 02-06 00:08 ?6454次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52
    主站蜘蛛池模板: 日本精品久久久久中文字幕 1| 国产午夜精品一区二区| 日韩男明星| 久久国语精品| 国产99久9在线| 6080伦理久久亚洲精品| 午夜熟女插插XX免费视频| 女人夜夜春| 精品久久香蕉国产线看观看麻豆 | 日韩精品久久日日躁夜夜躁影视 | 青柠在线观看视频在线| 久久国产乱子伦精品免费不卡| 国产成人无码精品久久久影院| caoporen超碰在线视频| 在线亚洲色拍偷拍在线视频| 校花爽好大快深点h| 人人干人人插| 蜜臀亚洲AV永久无码精品老司机| 好满射太多了装不下了视频| 国产不卡一卡2卡三卡4卡网站| 99久久夜色精品国产亚洲AV卜| 中文字幕A片视频一区二区| 亚洲成人日韩| 视频网站入口在线看| 妻子的秘密HD观看| 妹妹成人网| 老司机亚洲精品影院| 久久精品热在线观看85| 狠狠色狠狠色综合日日2019| 国产高清视频在线观看不卡v| 成人亚洲视频在线观看| GOGOGO高清在线播放免费| 2020美女视频黄频大全视频| 伊人青青草原| 一级做a爰片久久毛片苍井优| 亚洲精品乱码电影在线观看| 国产国拍亚洲精品永久软件| bdsm中国精品调教ch| 97视频免费观看| 91久久偷偷做嫩草影院免| 中文国产成人精品久久免费|