婷婷久久综合,亚洲精品免费在线视频,天堂在线www天堂中文在线

電子發燒友網報道（文/周凱揚）在諸多云服務廠商或互聯網廠商一頭扎進GPU的瘋搶潮后，不少公司也發現了限制AI大模型性能或是成本消耗的除了GPU以外，還有內存。內存墻作為橫亙在AI計算和HPC更進一步的阻礙之一，在計算量井噴的今天，已經變得愈發難以忽視。所以，在今年的HotChips大會上，內存廠商們也競相展示自己的內存技術在AI計算上的優勢。

三星

三星作為最早一批開始跟進存內計算的公司，早在兩年前的HotChips33上，就展示了HBM2-PIM的技術Aquabolt-XL。三星在去年底展示了用PIM內存和96個AMD Instinct MI100 GPU組建的大規模計算系統，并宣稱這一配置將AI訓練的速度提高了近2.5倍。

而今年的HotChips上，三星也著重點明了PIM和PNM技術在生成式AI這類熱門應用上的優勢。三星認為在ChatGPT、GPT-3之類的應用中，主要瓶頸出現在生成階段的線性層上，這是因為GPU受到了內存限制且整個過程是線性順序進行的。

在三星對GPT的分析中，其主要由概括和生成兩大負載組成，其中概括考驗的是計算單元的性能，而生成則考驗的是內存的性能。而生成占據了絕大多數的運算次數和耗時，其中占據了60%到80%延遲的GEMV（矩陣向量操作）也就成了三星試圖用PIM和PNM攻克的目標。

根據三星的說法，像GPT這類Transformer架構的模型，都可以將多頭注意力（MHA）和前饋神經網絡（FFN）完全交給PIM或PNM，完全利用他們的所有帶寬，從而減少在推理上所花費的時間和能耗。三星也在單個AMD MI100-PIM的GPU上進行了試驗，得出運行GPT模型時，在HBM-PIM的輔助下，能效是GPU搭配傳統HBM的兩倍，性能同樣提升至兩倍以上。

LPDDR-PIM概念 / 三星

除了HBM-PIM外，這次三星還展示了最新的LPPDR-PIM概念。除了云端生成式AI需要存內計算的輔助外，諸如智能手機這樣的端側生成式AI概念也被炒起來，所以LPPDR-PIM這樣的存內計算技術，可以進一步保證續航的同時，也不會出現為了帶寬內存使用超量的情況。

SK海力士

另一大韓國內存巨頭SK海力士也沒有閑著，在本次HotChips大會上，他們展示了自己的AiM存內加速器方案。相較三星而言，他們為生成式AI的推理負載準備的是基于GDDR6的存內計算方案。

GDDR6-AiM采用了1y的制造工藝，具備512GB/s內部帶寬的同時，也具備32GB/s的外部帶寬。且GDDR6-AiM具備頻率高達1GHz的處理單元，算力可達512GFLOPS。GDDR6-AiM的出現，為存內進行GEMV計算提供了端到端的加速方案，比如乘法累加和激活函數等操作都可以在內存bank內同時進行，單條指令實現全bank操作提供更高的計算效率。

同時，SK海力士也已經考慮到了AiM的擴展性問題，比如單個AiM卡中集成了8個AiM封裝，也就是8GB的容量和256個處理單元。但這類擴展方案最大的問題還是在軟件映射、硬件架構和接口上，這也是絕大多數集成存內計算的新式內存面臨的問題。

AiM系統擴展性驗證Demo / SK海力士

而SK海力士已經給出了這方面的解決方案，比如專門針對AiM的Tiling、基于AiM架構的控制器、路由和ALU等等。他們還展示了在兩個FPGA上結合GDDR6-AiM的Demo，以及用于LLM推理的軟件棧。與此同時，他們也還在探索AiM的下一代設計，比如如何實現更高的內存容量，用于應對更加龐大的模型。

寫在最后

無論是三星還是SK海力士都已經在存內計算領域耕耘多年，此次AI熱來勢洶洶，也令他們研發速度進一步提快。畢竟如今能夠解決大模型訓練與推理的耗時與TCO的硬件持續大賣，如果存內計算產品商業化量產落地進展順利，且確實能為AI計算帶來助力的話，很可能會小幅提振如今略微萎縮的內存市場。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4752

瀏覽量
129057

NVIDIA和GeForce RTX GPU專為AI時代打造

NVIDIA 和 GeForce RTX GPU 專為 AI 時代打造。

發表于 01-06 10:45 ?112次閱讀

GPU是如何訓練AI大模型的

在AI模型的訓練過程中，大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來，AI部落小編帶您了解GPU是如何訓練

發表于 12-19 17:54 ?150次閱讀

PON不只是破網那么簡單

大家有沒有在網絡卡頓的時候，心里默默吐槽“這破網”？今天要聊的PON（Passive Optical Network，無源光網絡），可不是你心里那個“破”網，而是網絡世界中的超級英雄家族——PON。 ? 別急，我知道你在想什么，這聽起來可能有點枯燥，但相信我，這絕對比你想象的要有趣得多！ 1 PON，網絡界的“超級英雄” PON，是指利用點對多點拓撲和分光器將數據從單個傳輸點傳送到多個用戶端點的光纖網絡，由OLT（Optical Line Terminal，光線路終端），ONU（Optical Net

發表于 12-04 09:08 ?254次閱讀

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

對卷積核優化的思考。 GPU的存儲體系采用了獨特的倒金字塔結構，在我看來這是其計算性能的關鍵。大容量寄存器設計破解了傳統馮諾依曼架構的內存瓶頸，合并訪存機制巧妙解決了內存帶寬限制。NVIDIA

發表于 11-24 17:12

為什么ai模型訓練要用gpu

GPU憑借其強大的并行處理能力和高效的內存系統，已成為AI模型訓練不可或缺的重要工具。

發表于 10-24 09:39 ?340次閱讀

科技云報到：大模型時代下，向量數據庫的野望

發表于 10-14 17:18 ?268次閱讀

不只是前端，后端、產品和測試也需要了解的瀏覽器知識（二）

繼上篇《 不只是前端，后端、產品和測試也需要了解的瀏覽器知識（一）》介紹了瀏覽器的基本情況、發展歷史以及市場占有率。本篇文章將介紹瀏覽器基本原理。在掌握基本原理后，通過技術深入，在研發

發表于 08-12 14:32 ?363次閱讀

<b class='flag-5'>不只是</b>前端，后端、產品和測試也需要了解的瀏覽器知識（二）

為什么跑AI往往用GPU而不是CPU？

今天，人工智能（AI）已經在各個領域遍地開花，無論身處哪個行業，使用AI來幫助獲取業務洞察，并建立競爭優勢，已經非常常見。不過一個有趣的現象是，在用戶采購AI基礎設施時，幾乎所有廠商都

發表于 04-24 08:27 ?1950次閱讀

為什么跑<b class='flag-5'>AI</b>往往用<b class='flag-5'>GPU</b>而不是CPU？

AI訓練，為什么需要GPU？

隨著由ChatGPT引發的人工智能熱潮，GPU成為了AI大模型訓練平臺的基石，甚至是決定性的算力底座。為什么GPU能力壓CPU，成為炙手可熱的主角呢？要回答這個問題，首先需要了解當前人工智能（

發表于 04-24 08:05 ?1075次閱讀

新型的FPGA器件將支持多樣化AI/ML創新進程

作者：郭道正職務：Achronix半導體中國區總經理近日舉辦的GTC大會把人工智能/機器學習（AI/ML）領域中的算力比拼又帶到了一個新的高度，這不只是說明了通用圖形處理器（GPGPU）時代

發表于 04-02 15:25 ?344次閱讀

國產GPU在AI大模型領域的應用案例一覽

電子發燒友網報道（文/李彎彎）近一年多時間，隨著大模型的發展，GPU在AI領域的重要性再次凸顯。雖然相比英偉達等國際大廠，國產GPU起步較晚、聲勢較小。不過近幾年，國內不少GPU

發表于 04-01 09:28 ?3886次閱讀

Achronix新推出一款用于AI/ML計算或者大模型的B200芯片

近日舉辦的GTC大會把人工智能/機器學習（AI/ML）領域中的算力比拼又帶到了一個新的高度，這不只是說明了通用圖形處理器（GPGPU）時代的來臨

發表于 03-28 15:48 ?830次閱讀

FPGA在深度學習應用中或將取代GPU

基礎設施，人們仍然沒有定論。如果 Mipsology 成功完成了研究實驗，許多正受 GPU 折磨的 AI 開發者將從中受益。 GPU 深度學習面臨的挑戰三維圖形是 GPU 擁有如此

發表于 03-21 15:19

GPU交期緩解，AI服務器廠商營收暴漲

電子發燒友網報道（文/周凱揚）AIGC在應用軟件掀起的這股熱潮背后，卻隱藏著AI服務器組件缺貨的難題。在云服務廠商和互聯網廠商大肆采購AI GPU

發表于 02-20 00:17 ?2827次閱讀

為什么GPU比CPU更快？

大規模數據集時比CPU更快的根本原因。內存帶寬：GPU的內存帶寬比CPU高得多。內存帶寬是指數據在內存之間傳輸的速度。

發表于 01-26 08:30 ?2465次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

不只是GPU，內存廠商們的AI野望

評論

NVIDIA和GeForce RTX GPU專為AI時代打造

GPU是如何訓練AI大模型的

PON不只是破網那么簡單

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

為什么ai模型訓練要用gpu

科技云報到：大模型時代下，向量數據庫的野望

不只是前端，后端、產品和測試也需要了解的瀏覽器知識（二）

為什么跑AI往往用GPU而不是CPU？

AI訓練，為什么需要GPU？

新型的FPGA器件將支持多樣化AI/ML創新進程

國產GPU在AI大模型領域的應用案例一覽

Achronix新推出一款用于AI/ML計算或者大模型的B200芯片

FPGA在深度學習應用中或將取代GPU

GPU交期緩解，AI服務器廠商營收暴漲

為什么GPU比CPU更快？