色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

淺談GPU: 衡量計算效能的正確姿勢(3)

Linux閱碼場 ? 來源:面包板社區(qū) ? 作者:Linux閱碼場 ? 2021-04-16 11:16 ? 次閱讀

上期我們講了現(xiàn)代計算機體系結構通過處理器(CPU/GPU)和內(nèi)存的交互來執(zhí)行計算程序,處理輸入數(shù)據(jù),并輸出結果。實際上,由于CPU是高速器件,而內(nèi)存訪問速度往往受限(如圖所示,CPU和內(nèi)存的性能差距從上個世紀80年代開始,不斷拉大),為解決速度匹配的問題,在CPU和內(nèi)存之間設置了高速緩沖存儲器Cache。

04180576-9e23-11eb-8b86-12bb97331649.png

而且Cache往往分幾個層級,與內(nèi)存以及其它外部存儲器共同構成計算機系統(tǒng)的存儲器層次結構(Memory Hierarchy),如下圖所示,使得整個系統(tǒng)在性能,成本和制造工藝達到平衡。

045341ae-9e23-11eb-8b86-12bb97331649.jpg

我們可以看到,各個存儲層次在訪問時間上存在數(shù)量級別的差異,訪問速度越快,單位制造成本越高,容量越小。在這里,我們并不打算討論Cache具體設計和實現(xiàn),只是希望針對Cache及其命中率對性能的影響有一個直觀的認識。為了簡化討論問題的復雜性,我們這里做如下假設。

整個流水線分為5個階段,分別為《1》取指、《2》譯碼、《3》運算執(zhí)行、《4》訪存讀寫 (可選)、《5》寫回結果至寄存器

這里只考慮一級Cache,而且指令、數(shù)據(jù)共享L1 Cache。Cache命中的情況下,每個階段都是1個時鐘(cycle),而cache不命中的情況,階段《1》,《5》各耗時100個時鐘(cycles)。

訪存指令占所有指令1/3。下面我們來分別計算3種情況下的CPI。

= 100 cycles + 3 * (1 cycle) + ((1 cycle * 2/3) + (100 cycles * 1/3))

= 137 cycles.

= (1 cycle * 0.9 + 100 cycles * (1 - 0.9)) + (3 cycles) + ((1 cycle * (2/3 + 0.9/3)) + (100cycles * (1 - 0.9) * 1/3))

= 18.2 cycles.

= (1 cycle * (0.99) + 100 cycles * (1 - 0.99)) + (3 cycles) + ((1 cycle * (2/3 + 0.99/3)) + (100 cycles * (1 - 0.99) * 1/3))

= 6.32 cycles.

Cache完全缺失。

CPI = 《1》階段的時鐘+《2, 3, 5》階段的時鐘+《4》階段的時鐘

Cache命中率達到90%。

CPI = 《1》階段的時鐘+《2, 3, 5》階段的時鐘+《4》階段的時鐘

Cache命中率達到99%

CPI = 《1》階段的時鐘+《2, 3, 5》階段的時鐘+《4》階段的時鐘另外在上期文章里我們也提到同樣32b數(shù)據(jù)的訪問,DRAM的耗能是SRAM的百倍(640pJ vs 5pJ)。完全可見正確配置Cache對高能效高性能計算的重要作用。

值得一提的是,由于CPU和GPU設計面向的差異,他們的Memory Hierarchy存在明顯的區(qū)別,一個典型的對比如下圖,可以看到GPU的Memeory Hierarchy設計的時候更注意帶寬或者說Throughput,而相比之下對Latency就沒有CPU重視, GPU Cache容量也相對比較小。

045d4bae-9e23-11eb-8b86-12bb97331649.png

那我們不禁要問,GPU的Latency指標這么糟糕,按照我們先前的計算,Cache不命中的后果是不是很嚴重?不過不要擔心,CPU的Cache不命中可能會導致叫停流水線的嚴重后果,而對GPU,只要計算任務量足夠,它的硬件調(diào)度器(Hardware Scheduler)能夠自動在不同的任務間無縫切換,來掩藏特定任務訪問memory帶來的延遲。關于GPU的Latency hiding,值得大書特書,我們以后會詳細討論。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10854

    瀏覽量

    211587
  • Cache
    +關注

    關注

    0

    文章

    129

    瀏覽量

    28331

原文標題:GPU: 衡量計算效能的正確姿勢(3)

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    芯原推出新一代高性能Vitality架構GPU IP系列

    原新一代Vitality GPU架構顯著提升了計算性能,并支持多核擴展,以進一步提升性能。該GPU架構集成了諸多先進功能,如一個可配置的張量計算核心(Tensor Core)AI加速器
    的頭像 發(fā)表于 12-19 15:55 ?95次閱讀

    云端超級計算機使用教程

    云端超級計算機是一種基于云計算的高性能計算服務,它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡向用戶提供按需的計算服務。下面,AI部落小編為
    的頭像 發(fā)表于 12-17 10:19 ?81次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    。 2. 操作系統(tǒng)支持:CST Studio Suite在不同操作系統(tǒng)上持續(xù)測試,可在支持的操作系統(tǒng)上使用GPU計算,具體參考相關文檔。 3. 許可證:GPU
    發(fā)表于 12-16 14:25

    靶式流量計的工作原理 靶式流量計和渦街流量計比較

    位移可以計算出流量。 流體沖擊 :流體流過靶板,對靶板施加力。 位移測量 :靶板的位移通過位移傳感器(如差分電容式傳感器)測量。 信號處理 :位移信號被轉換成電信號,并通過電子電路處理。 流量計算 :根據(jù)位移和流體的
    的頭像 發(fā)表于 12-11 16:49 ?214次閱讀

    平衡流量計計算公式

    量計計算公式的重要性及應用你了解嗎? 一、管道流速公式 這是平衡流量計中最基本的計算公式之一,它基于流體的質(zhì)量守恒定律。通過測量管道中的壓力差和密度,可以
    的頭像 發(fā)表于 10-25 14:14 ?177次閱讀
    平衡流<b class='flag-5'>量計</b><b class='flag-5'>計算</b>公式

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學計算、數(shù)據(jù)分析、機器學習等復雜
    的頭像 發(fā)表于 10-25 09:23 ?245次閱讀

    GPU計算主板學習資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算主板 視頻處理 相機信號

    GPU計算主板學習資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算
    的頭像 發(fā)表于 10-23 10:09 ?272次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板學習資料第735篇:基于<b class='flag-5'>3</b>U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板 信號<b class='flag-5'>計算</b>主板 視頻處理 相機信號

    云端超級計算機怎么用

    云端超級計算機是一種基于云計算的高性能計算服務,它將大量計算資源和存儲資源集中在一起,通過網(wǎng)絡向用戶提供按需的計算服務。
    的頭像 發(fā)表于 10-18 10:14 ?145次閱讀

    信號計算主板設計方案:735-基于3U VPX的AGX Xavier GPU計算主板

    3U VPX導冷結構 , FPGA信號預處理 , GPU顯卡 , PCIE視頻處理 , GPU計算主板
    的頭像 發(fā)表于 07-18 11:31 ?467次閱讀
    信號<b class='flag-5'>計算</b>主板設計方案:735-基于<b class='flag-5'>3</b>U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>計算</b>主板

    大模型單卡的正確使用步驟

    、注意事項等方面進行介紹,以幫助用戶更好地掌握大模型單卡的使用技巧。 第一部分:大模型單卡概述 1.1 大模型單卡的定義 大模型單卡是一種集成了大量計算資源和存儲資源的硬件設備,通常用于處理大規(guī)模數(shù)據(jù)集和執(zhí)行復雜計
    的頭像 發(fā)表于 07-05 14:32 ?614次閱讀

    賦能產(chǎn)業(yè)互聯(lián)網(wǎng),高通量計算讓世界更高效!

    隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展,計算機的主要應用從以傳統(tǒng)的科學與工程計算為主逐步演變?yōu)橐詳?shù)據(jù)處理為核心,以傳統(tǒng)高性能計算機體系結構為核心技術的新型基礎設施面臨巨大挑戰(zhàn),高通量計算應運而生。中
    發(fā)表于 04-12 14:46 ?249次閱讀
    賦能產(chǎn)業(yè)互聯(lián)網(wǎng),高通<b class='flag-5'>量計算</b>讓世界更高效!

    怎么根據(jù)變壓器容量計算出最大需量

    根據(jù)變壓器容量來計算最大需量是一個重要的問題,尤其是在電力系統(tǒng)中。最大需量是指某一時間段內(nèi)需求的最大電力負荷。 變壓器容量是指變壓器能夠輸出的最大功率。它通常以千伏安(kVA)為單位衡量。在計算最大
    的頭像 發(fā)表于 03-24 10:16 ?5411次閱讀

    量計算公式多少度電 電量和度數(shù)怎么換算

    量計算公式多少度電? 電量計算公式是通過電壓和電流的乘積來計算的,單位為瓦特-小時(Wh)。公式為: 電量(Wh)= 電壓(V) × 電流(A) × 使用時間(小時) 其中,電壓是指電流通過的電器
    的頭像 發(fā)表于 02-03 14:42 ?5.6w次閱讀

    AMD將推新GPU效能媲美英偉達RTX 4080

    據(jù)悉,AMD正努力研制新品級GPU,性能堪比英偉達的RTX 4080,而售價卻只有后者的一半。據(jù)多個在線社區(qū)反映,AMD即將發(fā)布的Radeon RX 8000系列GPU效能與NVIDIA幾乎不相上下,定價卻只是前者的一半。
    的頭像 發(fā)表于 01-31 10:00 ?2917次閱讀

    LTM4620給fpga提供1.0V內(nèi)核電源,4620輸出電容量計算是否應該包含布局在fpga芯片附近的bulk電容?

    LTM4620給fpga提供1.0V內(nèi)核電源,4620輸出電容量計算是否應該包含布局在fpga芯片附近的bulk電容? 靠近FPGA布局的電容也比較大,比如470uF。但這些電容隔4620布局比較遠,大于7cm。通過內(nèi)電層鋪銅連接。
    發(fā)表于 01-05 06:01
    主站蜘蛛池模板: 午夜特级毛片| 第一次玩老妇真实经历| 男人网站在线观看| 国产成人精品免费视频大全办公室| 亚洲日韩国产精品乱-久| 老汉老太bbbbbxxxxx| caoporn 在线视频| 甜性涩爱bt下载| 99久久精品费精品国产| SM高H黄暴NP辣H调教性奴| 搞av.com| 久久99热这里只频精品6| 美女议员被泄裸照| 少妇无码太爽了视频在线播放| 亚洲国产在线精品国自产拍五月| 影音先锋电影资源av| 99亚洲精品自拍AV成人软件| 高H辣肉办公室| 精品无码日本蜜桃麻豆| 妹妹成人网| 舔1V1高H糙汉| 中文字幕视频在线免费观看| 草莓视频在线播放视频| 国产在线高清视频| 哪灬你的鸣巴好大| 小学生偷拍妈妈视频遭性教育| 亚洲精品中文字幕一二三四区 | 两个吃奶一个添下面视频| GAY空少被体育生开菊| 最美白嫩的极品美女ASSPICS| 亚洲乱码国产一区三区| 日日碰狠狠躁久久躁77777| 女人张开腿让男人添| 欧美日韩中文字幕综合图区| 女朋友的妈妈在线观看| 久久天天综合| 色橹橹欧美在线观看视频高清| 亚洲欭美日韩颜射在线二| 操中国老太太| 久久精品热99看二| 双性将军粗壮H灌满怀孕|