亚洲一色,亚洲精品有码在线观看,伊人婷婷在线

上期我們講了現(xiàn)代計算機體系結構通過處理器（CPU/GPU）和內(nèi)存的交互來執(zhí)行計算程序，處理輸入數(shù)據(jù)，并輸出結果。實際上，由于CPU是高速器件，而內(nèi)存訪問速度往往受限（如圖所示，CPU和內(nèi)存的性能差距從上個世紀80年代開始，不斷拉大），為解決速度匹配的問題，在CPU和內(nèi)存之間設置了高速緩沖存儲器Cache。

而且Cache往往分幾個層級，與內(nèi)存以及其它外部存儲器共同構成計算機系統(tǒng)的存儲器層次結構（Memory Hierarchy），如下圖所示，使得整個系統(tǒng)在性能，成本和制造工藝達到平衡。

我們可以看到，各個存儲層次在訪問時間上存在數(shù)量級別的差異，訪問速度越快，單位制造成本越高，容量越小。在這里，我們并不打算討論Cache具體設計和實現(xiàn)，只是希望針對Cache及其命中率對性能的影響有一個直觀的認識。為了簡化討論問題的復雜性，我們這里做如下假設。

整個流水線分為5個階段，分別為《1》取指、《2》譯碼、《3》運算執(zhí)行、《4》訪存讀寫（可選）、《5》寫回結果至寄存器。

這里只考慮一級Cache，而且指令、數(shù)據(jù)共享L1 Cache。Cache命中的情況下，每個階段都是1個時鐘（cycle），而cache不命中的情況，階段《1》，《5》各耗時100個時鐘（cycles）。

訪存指令占所有指令1/3。下面我們來分別計算3種情況下的CPI。

= 100 cycles + 3 * （1 cycle） + （（1 cycle * 2/3） + （100 cycles * 1/3））

= 137 cycles.

= （1 cycle * 0.9 + 100 cycles * （1 - 0.9）） + （3 cycles） + （（1 cycle * （2/3 + 0.9/3）） + （100cycles * （1 - 0.9） * 1/3））

= 18.2 cycles.

= （1 cycle * （0.99） + 100 cycles * （1 - 0.99）） + （3 cycles） + （（1 cycle * （2/3 + 0.99/3）） + （100 cycles * （1 - 0.99） * 1/3））

= 6.32 cycles.

Cache完全缺失。

CPI = 《1》階段的時鐘+《2， 3， 5》階段的時鐘+《4》階段的時鐘

Cache命中率達到90%。

CPI = 《1》階段的時鐘+《2， 3， 5》階段的時鐘+《4》階段的時鐘

Cache命中率達到99%

CPI = 《1》階段的時鐘+《2， 3， 5》階段的時鐘+《4》階段的時鐘另外在上期文章里我們也提到同樣32b數(shù)據(jù)的訪問，DRAM的耗能是SRAM的百倍（640pJ vs 5pJ）。完全可見正確配置Cache對高能效高性能計算的重要作用。

值得一提的是，由于CPU和GPU設計面向的差異，他們的Memory Hierarchy存在明顯的區(qū)別，一個典型的對比如下圖，可以看到GPU的Memeory Hierarchy設計的時候更注意帶寬或者說Throughput，而相比之下對Latency就沒有CPU重視， GPU Cache容量也相對比較小。

那我們不禁要問，GPU的Latency指標這么糟糕，按照我們先前的計算，Cache不命中的后果是不是很嚴重？不過不要擔心，CPU的Cache不命中可能會導致叫停流水線的嚴重后果，而對GPU，只要計算任務量足夠，它的硬件調(diào)度器（Hardware Scheduler）能夠自動在不同的任務間無縫切換，來掩藏特定任務訪問memory帶來的延遲。關于GPU的Latency hiding，值得大書特書，我們以后會詳細討論。
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
10854

瀏覽量
211587
Cache

Cache

+關注

關注
0

文章
129

瀏覽量
28331

原文標題：GPU: 衡量計算效能的正確姿勢（3）

文章出處：【微信號：LinuxDev，微信公眾號：Linux閱碼場】歡迎添加關注！文章轉載請注明出處。

芯原推出新一代高性能Vitality架構GPU IP系列

原新一代Vitality GPU架構顯著提升了計算性能，并支持多核擴展，以進一步提升性能。該GPU架構集成了諸多先進功能，如一個可配置的張量計算核心（Tensor Core）AI加速器

發(fā)表于 12-19 15:55 ?95次閱讀

云端超級計算機使用教程

云端超級計算機是一種基于云計算的高性能計算服務，它將大量計算資源和存儲資源集中在一起，通過網(wǎng)絡向用戶提供按需的計算服務。下面，AI部落小編為

發(fā)表于 12-17 10:19 ?81次閱讀

《CST Studio Suite 2024 GPU加速計算指南》

。 2. 操作系統(tǒng)支持：CST Studio Suite在不同操作系統(tǒng)上持續(xù)測試，可在支持的操作系統(tǒng)上使用GPU計算，具體參考相關文檔。 3. 許可證：GPU

發(fā)表于 12-16 14:25

靶式流量計的工作原理靶式流量計和渦街流量計比較

位移可以計算出流量。流體沖擊：流體流過靶板，對靶板施加力。位移測量：靶板的位移通過位移傳感器（如差分電容式傳感器）測量。信號處理：位移信號被轉換成電信號，并通過電子電路處理。流量計算 ：根據(jù)位移和流體的

發(fā)表于 12-11 16:49 ?214次閱讀

平衡流量計計算公式

流量計計算公式的重要性及應用你了解嗎？一、管道流速公式這是平衡流量計中最基本的計算公式之一，它基于流體的質(zhì)量守恒定律。通過測量管道中的壓力差和密度，可以

發(fā)表于 10-25 14:14 ?177次閱讀

平衡流<b class='flag-5'>量計</b><b class='flag-5'>計算</b>公式

GPU加速計算平臺是什么

GPU加速計算平臺，簡而言之，是利用圖形處理器（GPU）的強大并行計算能力來加速科學計算、數(shù)據(jù)分析、機器學習等復雜

發(fā)表于 10-25 09:23 ?245次閱讀

GPU計算主板學習資料第735篇：基于3U VPX的AGX Xavier GPU計算主板信號計算主板視頻處理相機信號

GPU計算主板學習資料第735篇：基于3U VPX的AGX Xavier GPU計算主板信號計算

發(fā)表于 10-23 10:09 ?272次閱讀

云端超級計算機怎么用

云端超級計算機是一種基于云計算的高性能計算服務，它將大量計算資源和存儲資源集中在一起，通過網(wǎng)絡向用戶提供按需的計算服務。

發(fā)表于 10-18 10:14 ?145次閱讀

信號計算主板設計方案：735-基于3U VPX的AGX Xavier GPU計算主板

3U VPX導冷結構 , FPGA信號預處理 , GPU顯卡 , PCIE視頻處理 , GPU計算主板

發(fā)表于 07-18 11:31 ?467次閱讀

大模型單卡的正確使用步驟

、注意事項等方面進行介紹，以幫助用戶更好地掌握大模型單卡的使用技巧。第一部分：大模型單卡概述 1.1 大模型單卡的定義大模型單卡是一種集成了大量計算資源和存儲資源的硬件設備，通常用于處理大規(guī)模數(shù)據(jù)集和執(zhí)行復雜計

發(fā)表于 07-05 14:32 ?614次閱讀

賦能產(chǎn)業(yè)互聯(lián)網(wǎng)，高通量計算讓世界更高效！

隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展，計算機的主要應用從以傳統(tǒng)的科學與工程計算為主逐步演變?yōu)橐詳?shù)據(jù)處理為核心，以傳統(tǒng)高性能計算機體系結構為核心技術的新型基礎設施面臨巨大挑戰(zhàn)，高通量計算應運而生。中

發(fā)表于 04-12 14:46 ?249次閱讀

怎么根據(jù)變壓器容量計算出最大需量

根據(jù)變壓器容量來計算最大需量是一個重要的問題，尤其是在電力系統(tǒng)中。最大需量是指某一時間段內(nèi)需求的最大電力負荷。變壓器容量是指變壓器能夠輸出的最大功率。它通常以千伏安（kVA）為單位衡量。在計算最大

發(fā)表于 03-24 10:16 ?5411次閱讀

電量計算公式多少度電電量和度數(shù)怎么換算

電量計算公式多少度電？電量計算公式是通過電壓和電流的乘積來計算的，單位為瓦特-小時（Wh）。公式為：電量（Wh）= 電壓（V） × 電流（A） × 使用時間（小時）其中，電壓是指電流通過的電器

發(fā)表于 02-03 14:42 ?5.6w次閱讀

AMD將推新GPU，效能媲美英偉達RTX 4080

據(jù)悉，AMD正努力研制新品級GPU，性能堪比英偉達的RTX 4080，而售價卻只有后者的一半。據(jù)多個在線社區(qū)反映，AMD即將發(fā)布的Radeon RX 8000系列GPU效能與NVIDIA幾乎不相上下，定價卻只是前者的一半。

發(fā)表于 01-31 10:00 ?2917次閱讀

LTM4620給fpga提供1.0V內(nèi)核電源，4620輸出電容量計算是否應該包含布局在fpga芯片附近的bulk電容？

LTM4620給fpga提供1.0V內(nèi)核電源，4620輸出電容量計算是否應該包含布局在fpga芯片附近的bulk電容？靠近FPGA布局的電容也比較大，比如470uF。但這些電容隔4620布局比較遠，大于7cm。通過內(nèi)電層鋪銅連接。

發(fā)表于 01-05 06:01

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

淺談GPU: 衡量計算效能的正確姿勢（3）

評論

芯原推出新一代高性能Vitality架構GPU IP系列

云端超級計算機使用教程

《CST Studio Suite 2024 GPU加速計算指南》

靶式流量計的工作原理靶式流量計和渦街流量計比較

平衡流量計計算公式

GPU加速計算平臺是什么

GPU計算主板學習資料第735篇：基于3U VPX的AGX Xavier GPU計算主板信號計算主板視頻處理相機信號

云端超級計算機怎么用

信號計算主板設計方案：735-基于3U VPX的AGX Xavier GPU計算主板

大模型單卡的正確使用步驟

賦能產(chǎn)業(yè)互聯(lián)網(wǎng)，高通量計算讓世界更高效！

怎么根據(jù)變壓器容量計算出最大需量

電量計算公式多少度電電量和度數(shù)怎么換算

AMD將推新GPU，效能媲美英偉達RTX 4080

LTM4620給fpga提供1.0V內(nèi)核電源，4620輸出電容量計算是否應該包含布局在fpga芯片附近的bulk電容？