色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深入理解Armv9 DSU-110中的L3 cache

冬至子 ? 來源:Arm精選 ? 作者:baron ? 2023-10-11 14:33 ? 次閱讀

思考:

1、L1、L2、L3 cache的替換策略是怎樣的?

2、什么類型的內(nèi)存永遠不會進L3 cache?

3、L3 cache一般都是多大?

4、L3 cache的組織形式一般是怎樣的?

5、什么是cache partitioning?

6、DSU、DSU-110、DSU-120有什么區(qū)別?

7、什么MPAM?有什么作用?

8、什么是Cache stashing?

9、什么是Cache slices?有什么好處?

在共享DSU-110 DynamIQ cluster中,所有core共享L3緩存。

注意:以下功能在此版本中不受支持,計劃在后續(xù)版本中支持:

  • 從CHI接口和加速器一致性端口ACP)接口進行的緩存存儲(stashing)。

DSU-110的共享L3緩存提供以下功能:

  • (1)動態(tài)優(yōu)化的緩存分配策略,通常是互斥的。這種緩存分配策略意味著在正常使用中,一行數(shù)據(jù)要么位于一個或多個核心(或complexes)的緩存中,要么位于L3緩存中,但不會同時存在于兩個緩存中。只有可緩存的、可共享的內(nèi)存位置才會被分配到L3緩存中。不可共享的內(nèi)存位置不會被分配到L3緩存中。
  • (2)可以通過內(nèi)存系統(tǒng)資源分區(qū)和監(jiān)視(MPAM)體系結構擴展將緩存路組分區(qū)并分配給進程。緩存分區(qū)確保每個進程不會主導緩存的使用,以不利于其他進程。
  • (3)支持來自ACP和CHI接口的存儲請求。這些存儲請求也可以針對集群中核心或complexes的任何L2緩存。
  • (4)對緩存數(shù)據(jù)和標簽RAM提供糾錯碼(ECC)保護。
  • (5)緩存可以實現(xiàn)最多八個緩存切片( cache slices),取決于指定的L3緩存大小。緩存切片可以增加L3緩存的帶寬并改善物理布局。每個緩存切片包括數(shù)據(jù)、標簽、犧牲和嗅探過濾器RAM以及相關的邏輯(data, tag, victim, and snoop filter RAMs and associated logic)。

在關機時,DSU-110會自動執(zhí)行cache cleaning操作,無需進行由軟件控制的緩存清理。

1 L3 cache allocation policy

DSU-110 L3緩存只允許存儲可緩存的、可共享的內(nèi)存位置。Non-shareable的內(nèi)存不能被分配到L3緩存中。DSU-110 L3緩存采用動態(tài)優(yōu)化的緩存分配策略,通常是互斥的。這種緩存分配策略意味著在正常使用中,一行數(shù)據(jù)要么位于一個或多個核心(或complexes)的緩存中,要么位于L3緩存中,但不會同時存在于兩個緩存中。

當數(shù)據(jù)只分配給一個核心或complexes時,使用獨占分配。有時,當數(shù)據(jù)在多個核心或complexes之間共享時,會使用Inclusive分配。

  • 來自core0的初始請求將數(shù)據(jù)分配到L1或L2緩存,但不分配到L3緩存。
  • 當從core0驅(qū)逐數(shù)據(jù)時,被驅(qū)逐的數(shù)據(jù)會分配到L3緩存。這個緩存行的分配策略仍然是獨占的。
  • 如果core0重新獲取該行,它將分配到核心0的L1或L2緩存中,并從L3緩存中刪除。這個緩存行的分配策略仍然是獨占的。
  • 如果core1訪問該行以進行讀取,那么它仍然分配給核心0。它還會分配到核心1和L3緩存中。在這種情況下,該行采用Inclusive分配,因為它在多個核心之間共享。

2 可用的緩存路組數(shù)量

每個緩存切片中可用的緩存路組數(shù)量取決于您選擇實現(xiàn)的L3緩存大小。當選擇2的冪次方L3緩存大小,如256KB、512KB、1024KB、2MB、4MB、8MB或16MB時,每個緩存切片具有16個緩存路組。當選擇非2的冪次方L3緩存大小,如1536KB、3MB、6MB或12MB時,每個緩存切片僅具有12個緩存路組。

3 L3緩存分區(qū)(partitioning)

L3緩存支持一種分區(qū)方案,可以改變替換(victim)選擇策略,以防止進程占用整個L3緩存,對其他進程造成不利影響。緩存分區(qū)適用于特殊的軟件,其中有不同緩存訪問模式的不同類別進程在運行。例如,兩個進程A和B在同一個cluster的不同核心上運行,因此共享L3緩存。如果進程A比進程B更具數(shù)據(jù)密集性,那么進程A可能導致進程B分配的所有緩存行都被驅(qū)逐。驅(qū)逐這些已分配的緩存行可能降低進程B的性能。DynamIQ Shared Unit-110(DSU-110)使用Memory System Resource Partitioning and Monitoring(MPAM)體系結構擴展來分區(qū)L3緩存。MPAM是一種旨在將內(nèi)存系統(tǒng)性能劃分給軟件的體系結構擴展。因此,MPAM提供了廣泛的可選功能,如緩存分區(qū)、帶寬分區(qū)和進程監(jiān)視。DSU-110僅使用MPAM來分區(qū)L3緩存。MPAM要求系統(tǒng)傳遞MPAM ID,各core綁定到每個內(nèi)存系統(tǒng)事務(transaction)。雖然MPAM ID的結構是架構性的,但其組件的配置是實現(xiàn)定義的。DSU-110使用以下MPAM ID結構:
? MPAMNS字段,1 BIT,指示此事務是否安全或非安全。
? PARTID,6 BIT,是當前事務的軟件分配的分區(qū)標識符。這支持在非安全空間中最多64個PARTID,在安全空間中最多8個PARTID。雖然單個進程最多可以使用2個PARTID,一個用于指令獲取,一個用于數(shù)據(jù)訪問,但也可以由多個進程共享單個PARTID。MPAMNS位指示此事務是否需要安全或非安全PARTID。如果此事務需要安全PARTID,則僅使用PARTID的低3位。
? PMG,1 BIT,標識性能監(jiān)視組(Performance Monitoring Group),用于MPAM提供分區(qū)的細粒度監(jiān)視,DSU-110不使用此功能。

當啟用L3MPAMSTORAGE參數(shù)時,L3緩存存儲此MPAM ID信息,可以在驅(qū)逐時檢索。注意:通常,只有在存在下游緩存(downstream cach),如系統(tǒng)緩存,也支持MPAM時才需要此設置。

如果未存儲MPAM ID,則任何L3驅(qū)逐都將使用引起驅(qū)逐的事務的MPAM ID。注意:如果將事務映射到未設置MPAMCFG_CPBM設置的分區(qū),則不會將此事務分配到L3緩存中。

L3緩存的分區(qū)是通過緩存路組的方式進行的,對于DSU-110,每個組包含兩個路組,因此最多支持8個分區(qū)。

  • 不是2的冪次方的緩存大小(1.5MB、3MB、6MB和12MB)支持的緩存路組較少,因為它們具有較少的可用路組。
  • 如果某些緩存路組被關閉(更多細節(jié)請參見第58頁的5.4.1節(jié)L3緩存RAM關機),則每個L3緩存分區(qū)中的路組數(shù)量會減少。這種緩存路組的減少可能會降低性能,當進程沒有足夠的路組可用時。因此,Arm建議在使用緩存分區(qū)時謹慎關閉緩存路組。

MPAM作為一種架構擴展的優(yōu)點之一是它定義了一種通用機制,用于分割L3緩存,因此可以很容易地通過標準軟件進行交互和配置。緩存分區(qū)允許您將L3緩存分割為最多8個獨立的分區(qū)。然而,您可以自由地定義所需的分區(qū)數(shù)量,也可以重疊分區(qū)。例如,您可以將路組0到4分配給分區(qū)0,然后將路組0到8分配給分區(qū)1。這意味著分配給分區(qū)1的進程可以使用所有路組,而分配給分區(qū)0的進程只能使用一半的路組。

4 緩存存儲

緩存存儲允許外部代理請求將一行數(shù)據(jù)帶入(或存儲)到簇中的緩存中。DynamIQ? Shared Unit-110(DSU-110)不能執(zhí)行cache stashing部分,響應如下:

  • DSU-110永遠不會發(fā)送SnpResp * _ Read響應。
  • 對于SnpMakeInvalidStash,DSU-110將以SnpResp_I響應。
  • 對于SnpStashUnique和SnpStashShared,DSU-110將以SnpRespI、SnpRespSC或SnpResp_UC之一響應。
  • 對于SnpUniqueStash,DSU-110將在需要的情況下返回數(shù)據(jù)。因此,它將返回SnpRespDataI或SnpRespI。DSU-110不執(zhí)行加速器一致性端口(ACP)事務的緩存存儲部分。這些事務被視為等效的非緩存存儲事務。

5 L3緩存數(shù)據(jù)RAM延遲

DSU-110 L3數(shù)據(jù)RAM接口可以實現(xiàn)在輸入和輸出路徑上具有可配置的延遲。以下選項可供選擇:

  • 輸入路徑到L3數(shù)據(jù)RAM的寫入延遲可以是1個周期(默認)或2個周期。
  • 從L3數(shù)據(jù)RAM的輸出路徑到達的讀取延遲可以是2個周期(默認)或3個周期。
  • 當配置了輸出路徑上的3個周期讀取延遲時,輸入路徑上可以選擇2p的寫入延遲選項。這個2p的寫入延遲還可以使RAM輸入信號在額外的周期內(nèi)保持穩(wěn)定,允許在RAM輸入上進行額外的保持時間。
  • L3數(shù)據(jù)RAM的輸出端口上可以選擇一個可選的寄存器切片。

在輸入路徑上,如果請求了2或2p的寫入延遲,則RAM時鐘使能會進行流水線處理,并且對所有其他RAM輸入信號應用多周期路徑。

在輸出路徑上,2個周期的讀取延遲和3個周期的讀取延遲會對所有RAM輸出信號應用多周期路徑。可選寄存器切片的輸出是單周期的,絕不能應用多周期路徑。

下圖顯示了L3數(shù)據(jù)RAM的時序圖。

image.png

RAM延遲的增加會增加L3命中延遲,從而降低性能。因此,只有在RAM無法滿足2個周期延遲的時序要求時才使用3個周期讀取延遲選項。但是,如果僅僅是從RAM到SCU邏輯的導線路由延遲無法滿足這個時序要求,那么應該使用寄存器切片。

延遲選項僅針對L3數(shù)據(jù)RAM進行了指定,因為L3標簽RAM和SCU嗅探過濾器RAM滿足1個周期的輸入和1個周期的輸出時序要求。

以下表格描述了不同延遲配置參數(shù)對L3數(shù)據(jù)RAM性能的影響:

image.png

6 緩存切片和分區(qū)

DynamIQ? Shared Unit-110(DSU-110)的L3緩存可以分為最多八個相同的切片,每個切片包含256KB到2MB的緩存。一個緩存切片包括數(shù)據(jù)RAM、tag RAM、替換RAM和snoop RAM以及相關邏輯。一個分區(qū)是對緩存切片中的RAM的進一步細分。對于每個緩存切片,數(shù)據(jù)RAM和標簽RAM都被細分為兩個分區(qū)。

下圖顯示了單個和雙緩存切片配置之間的差異。

image.png

將L3緩存分割成切片提供了以下優(yōu)點:

  • 在實現(xiàn)宏單元時改善物理布局,通過確保RAM位于控制它們的邏輯附近。
  • 增加帶寬,因為可以并行訪問這些切片。
6.1 Cache slice and master port selection

對于具有多個緩存切片的實現(xiàn),請求會根據(jù)地址和內(nèi)存屬性發(fā)送到特定的切片。

地址到切片的映射不可配置,但地址到master port的映射是可配置的,并且可以獨立于切片映射。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    796

    瀏覽量

    37840
  • RAM
    RAM
    +關注

    關注

    8

    文章

    1368

    瀏覽量

    114641
  • ARM芯片
    +關注

    關注

    1

    文章

    125

    瀏覽量

    21466
  • 緩存器
    +關注

    關注

    0

    文章

    63

    瀏覽量

    11658
  • cache技術
    +關注

    關注

    0

    文章

    41

    瀏覽量

    1062
收藏 人收藏

    評論

    相關推薦

    深入理解Android

    深入理解Android
    發(fā)表于 08-20 15:30

    深入理解STM32

    時鐘系統(tǒng)是處理器的核心,所以在學習STM32所有外設之前,認真學習時鐘系統(tǒng)是必要的,有助于深入理解STM32。下面是從網(wǎng)上找的一個STM32時鐘框圖,比《STM32文參考手冊》里面的是中途看起來清晰一些:重要的時鐘:PLLCLK,SYSCLK,HCKL,PCLK1,..
    發(fā)表于 08-12 07:46

    對棧的深入理解

    為什么要深入理解棧?做C語言開發(fā)如果棧設置不合理或者使用不對,棧就會溢出,溢出就會遇到無法預測亂飛現(xiàn)象。所以對棧的深入理解是非常重要的。注:動畫如果看不清楚可以電腦看更清晰啥是棧先來看一段動畫:沒有
    發(fā)表于 02-15 07:01

    ARM Cortex-A715核心技術參考手冊

    DSU-110),表現(xiàn)為具有L3高速緩存和窺探控制。這種連接配置也用于具有不同類型內(nèi)核的系統(tǒng)其中Cortex??A715核心是平衡性能核心。
    發(fā)表于 08-09 07:37

    ARM Cortex-X3核心技術參考手冊

    計算應用。 Cortex?-X3核心在Dynamiq?-110群集中實施,并始終連接到Dynamiq?共享單元-110(DSU-110),該共享單元與
    發(fā)表于 08-09 07:39

    ARM Cortex-A510核心技術參考手冊

    核心在DSU-110Dynamiq?集群內(nèi)實施,并始終連接到Dynamiq?共享單元-110(DSU-110)。DSU-110L3緩存和監(jiān)
    發(fā)表于 08-09 07:50

    ARM Dynamiq?共享單元-110型技術參考手冊

    DynamIQ? 共享單元-110DSU-110)提供了一個共享的L3內(nèi)存系統(tǒng)、窺探控制和過濾以及其他控制邏輯,以支持a級架構核心的集群。該集群被稱為DSU-110 DynamIQ?
    發(fā)表于 08-10 07:52

    深入理解Android》文前

    深入理解Android》文前
    發(fā)表于 03-19 11:23 ?0次下載

    深入理解Android:卷I》

    深入理解Android:卷I》
    發(fā)表于 03-19 11:23 ?0次下載

    深入理解Android網(wǎng)絡編程

    深入理解Android網(wǎng)絡編程
    發(fā)表于 03-19 11:26 ?1次下載

    重磅!Arm正式推出Armv9架構

    當?shù)貢r間3月30日,Arm宣布正式推出Armv9架構,以應對全球?qū)o處不在的專業(yè)化處理的需求,這種處理具有越來越強大的安全性和人工智能(AI)能力。Armv9是ARM公司十年來的最大技術革新。上一代
    發(fā)表于 03-31 09:43 ?2637次閱讀
    重磅!Arm正式推出<b class='flag-5'>Armv9</b>架構

    淺談ARM發(fā)布Armv9的三大改進

    英國芯片設計公司Arm周二發(fā)布了Armv9,這是其在2011年發(fā)布Armv8之后十年來首次推出新的芯片架構。Arm表示,與以前的架構相比,Armv9提供了三大主要改進,即安全性更高,更好的AI性能,以及總體上速度更快。
    的頭像 發(fā)表于 04-01 15:17 ?2341次閱讀

    宋寶華:深入理解cache對寫好代碼至關重要

    現(xiàn)代CPU,通常L1 cache的指令和數(shù)據(jù)是分離的。這樣可以實現(xiàn)2條高速公路并行訪問,CPU可以同時load指令和數(shù)據(jù)。當然,cache也不一定是一個core獨享,現(xiàn)代很多CPU的典型分布是這樣的,比如多個core共享一個
    的頭像 發(fā)表于 12-06 10:38 ?919次閱讀

    Arm微架構之Armv9時代

    在介紹Armv9系列前,我們先看一下ARM的Cortex-X定制CPU計劃。Cortex-X方案先于Armv9發(fā)布,在Arm發(fā)布A78時,同時也發(fā)布了Cortex-X1這一顆性能強大的CPU,后續(xù)大家習慣稱之為超級大核。
    的頭像 發(fā)表于 02-06 14:43 ?9082次閱讀

    深入理解Cache工作原理

    按照數(shù)據(jù)關系劃分:Inclusive/exclusive Cache: 下級Cache包含上級的數(shù)據(jù)叫inclusive Cache。不包含叫exclusive Cache。舉個例子,
    的頭像 發(fā)表于 05-30 16:02 ?799次閱讀
    <b class='flag-5'>深入理解</b><b class='flag-5'>Cache</b>工作原理
    主站蜘蛛池模板: 羞羞漫画在线播放| 久久综合中文字幕佐佐木希| 国产在线视频在线观看| 精品国产午夜肉伦伦影院| 麻豆COMCN| 色宅男午夜电影网站| 一级特黄aa大片欧美| 成人免费一区二区无码视频| 精品淑女少妇AV久久免费| 三级全黄的视频| 伦理片 a在线线版韩国| 久久国产免费| 神马老子影院午夜伦| 中文字幕本庄优花喂奶| 91蜜桃视频| GAY空少被体育生开菊| 中文字幕视频在线免费观看| 4480YY旧里番在线播放| 成年人视频在线免费观看| 久久国语精品| 无遮挡h肉3d动漫在线观看| AV一区AV久久AV无码| 久久99免费视频| 亚洲国产在线精品国偷产拍| 俄罗斯人与动ZOOZ| 欧美日韩另类在线专区| 中文字幕国产视频| 久久久久久免费观看| 亚洲欧美免费无码专区| 日本护士性生活| 中文字幕亚洲乱码熟女在线| 1a级毛片免费观看| 国产AV无码一二三区视频| 蝴蝶中文娱乐| 青青草原国产在线观看| 思思re热免费精品视频66| 亚洲综合日韩中文字幕v在线| 欲插爽乱浪伦骨| wwww晚晚干| 黄网13区| 亚洲精品理论电影在线观看|