架構探索一直是產(chǎn)品設計的圣杯。它有可能徹底改變產(chǎn)品工程。研究和用例評估表明,在架構探索期間,可以實現(xiàn) 80% 的系統(tǒng)優(yōu)化和幾乎 100% 的性能/功耗權衡。
不幸的是,架構探索未能起飛,除了在公司投入大量資源和時間的利基口袋。架構探索一直被高度誤解,并且已經(jīng)推出了聲稱架構探索的產(chǎn)品,但它們是現(xiàn)有產(chǎn)品(如指令集模擬器、軟件時序分析和硬件驗證)的包裝器。使用一組類庫突出顯示語言不足以建立方法、輕松創(chuàng)建模型、根據(jù)基準進行驗證以及性能系統(tǒng)優(yōu)化。
架構探索的主要障礙是缺乏高端內核、互連、緩存和存儲器的架構模型。有限的模型范圍往往適用于架構探索不會增加重要價值的低端處理器,周期精確的模型每秒最多運行 1,000 條指令,需要很長時間來安裝、學習和組裝,并且在 IP 交付后發(fā)布。這些模型需要數(shù)周時間才能運行一個基準測試,并且對于比較驗證非常有用。此外,它們不能跨核心、SoC、系統(tǒng)和軟件進行擴展。
架構模型對于 IP 提供商和 EDA 供應商來說往往優(yōu)先級較低,因為他們必須提供 RTL 和軟件工具,如編譯器、調試器和驗證 IP。此外,為大規(guī)模分發(fā)創(chuàng)建架構模型需要特殊的技能,因為該過程會針對每個核心類型重新開始。組裝需要很長時間,需要多種資源,并且運行速度極慢。每個新的處理器內核都有如此多的變化 - 緩存的讀/寫寬度,多線程,ISA版本,可變管道階段,指令調度到執(zhí)行單元的調度邏輯和指令緩沖區(qū)。
具有隨機性的傳統(tǒng)架構模型,被組裝大型系統(tǒng)和數(shù)據(jù)中心的公司使用。這些模型將模擬不同類型的請求和任務的延遲和功耗。
另一個主要問題是驗證過程。對于新處理器,用于驗證模型準確性的基準數(shù)據(jù)有限。對于功耗、緩存命中未命中率和內存吞吐量,此問題更為嚴重。當然,FPGA 板可以通過使用具有更新的緩存、互連和內存設置的舊版本內核來減輕部分負載。測試新內核正確性的最佳方法是仔細檢查每個可能的方案,包括并發(fā)執(zhí)行,為緩存層次結構和 DMA 運行較舊的跟蹤,并生成確保絕對覆蓋的方案。
Mirabilis Design最近采取的一種方法是在具有圖形開發(fā)環(huán)境的離散事件模擬器上提供混合處理器架構庫。這類架構模型消除了早期方法的所有問題。這是一個常見的生成器,它使用電子表格來定義核心配置。內部定序器通過消除不影響流程正確性、性能和功耗的邏輯來優(yōu)化仿真性能,并提供靈活的選項列表來定義不同的流水線變體。這種方法的優(yōu)點在于可以快速構建新的甚至不存在的內核。
這種方法具有多種好處,包括:
單個庫模塊可以將微控制器建模為高性能處理器。
處理器庫具有研究單個集群、多核集群組、片上系統(tǒng)和完整系統(tǒng)(如 ECU、雷達或超級計算機)的仿真性能。
此方法提供了一個大型供應商核心庫。
混合內核與隨機內核不同,具有運行軟件跟蹤的能力。
擴展庫具有所有連接和方法,使生成的內核與緩存、動態(tài)系統(tǒng)緩存、TileLink、AMBA AXI、NoC、DDR、LPDDR、GDDR、DMA 和網(wǎng)橋完全集成。
這些使用混合處理器的型號可用于選擇時鐘速度、緩沖區(qū)大小、寬度和容量,同時提供拓撲、路由、信號大小和設備連接。在電源方面,系統(tǒng)模型可以確定最佳電源狀態(tài)集和最佳電源管理算法。在這個早期階段分析功率可以深入了解配電、電池容量、充電系統(tǒng)和熱要求。混合模型的準確性支持軟件性能調整以及調度程序和仲裁程序的選擇。
需要為性能生成所需的指標包括延遲、吞吐量、緩沖區(qū)占用、命中率、管道停止、MIPS 和周期/指令。對平均和即時功率、能量耗散、每個任務和設備的功率以及能量管理算法的影響進行真正的功率分析指標。高級分析將涵蓋功能正確性、發(fā)生故障時的行為和服務質量。
要在混合處理器中定義的屬性包括對執(zhí)行單元和延遲周期的 ISA 分配、浮點和整數(shù)單元數(shù)、每個群集的核心數(shù)、順序和無序的分布以及大/小內核的數(shù)量。緩存配置可以涵蓋包含/排除、容量、關聯(lián)性、庫計數(shù)、暫存器的使用以及各種替換和寫入策略。對于互連,吞吐量要求、緩沖區(qū)占用、最有效的仲裁算法以及傳輸突發(fā)/閃爍大小。在內存中,該模型可以測量帶寬、延遲和跟蹤、順序和隨機地址的打開/關閉頁。
在 SoC 級別,可以使用 DMA 與 TCP 傳輸、張量操作探索和拆分鎖定安排。必須測試系統(tǒng)是否跨集群的任務分區(qū)、內存控制器調度、路由器數(shù)量和設備連接。隨著系統(tǒng)越來越接近客戶部署,可以擴展相同的型號以集成多個處理器集成,最大限度地減少芯片到芯片的開銷,將應用程序分發(fā)到處理器以及存儲策略。
架構師可以從供應商列表中進行選擇,也可以在幾天內創(chuàng)建一個新供應商。一旦處理器內核實例化,用戶可以連接其他半導體IP以形成完整的SoC。在短時間內,用戶可以擁有一個多核多集群、基于 NoC 的 SoC,其中包含 GPU、TPU/AI 加速器、存儲器、顯示器控制器、以太網(wǎng)和其他接口。為了仿真此模型,IO由泊松分布和數(shù)據(jù)范圍生成的數(shù)據(jù)流觸發(fā),處理器執(zhí)行軟件跟蹤以執(zhí)行仿真。多個 SoC 可以通過相干的 PCIe 或 CXL 組合,也可以與高速以太網(wǎng)網(wǎng)絡或可靠的 OpenVPX 背板連接。
新的混合處理器對加載/存儲行為具有指令感知功能,按順序/無序執(zhí)行,支持多指令獲取和調度,支持每個管道階段的不同屬性,支持階段之間的流控制、任務問題的隊列、跳轉管道階段、管道和緩存之間的緩沖、可變讀寫寬度以及搶占支持。混合方法可以擴展到 20 個執(zhí)行單元,類型分別為整數(shù)、浮點數(shù)、矢量、分支、加載和存儲。同時,每個執(zhí)行單元的流水線級數(shù)可以可變,最多可以定義 20 個。
混合處理器的所有這些新功能都支持使用緩存地址執(zhí)行軟件跟蹤。為了準備在此處理器型號上執(zhí)行的軟件,全自動系統(tǒng)會生成用于負載存儲的指令序列、指令高速緩存地址和數(shù)據(jù)高速緩存地址。架構模型與流量和軟件執(zhí)行的結合提供了一個有效的平臺來測試內核、緩存、互連和內存的準確性。該測試涵蓋了端到端設計的延遲和功耗,還測量了緩存命中率和內存吞吐量。這種新的基準測試方法向用戶灌輸了信心,并確保了高質量的權衡分析。
新的混合處理器可供使用 ARM 或 RISC-V 內核開發(fā)定制 SoC 的系統(tǒng)公司、集成多個非異構主站、加速器、GPU 和其他處理單元的半導體公司以及實施新應用程序和高級 AI/ML 工作負載的 AI 公司使用。在所有市場中,系統(tǒng)和半導體的競爭都非常激烈,新產(chǎn)品的時間表正在縮短。由于半導體短缺,公司必須更長時間地使用現(xiàn)有的SoC,確定新的應用,并支持現(xiàn)有設備上的更多功能。進行廣泛的體系結構覆蓋將提供實際性能和容量的詳細視圖,從而為將產(chǎn)品集成到其環(huán)境中的客戶提供有價值的見解。
混合處理器
的一個重要附帶好處是能夠運行軟件并獲得目標配置上軟件性能的準確視圖。當今的 SoC 配置非常復雜,在 FPGA 上運行它會導致您錯過一致性、數(shù)據(jù)分配、跨集群的工作負載分布以及數(shù)據(jù)路徑和緩存之間的復雜通信。軟件團隊可及早了解在多核架構上并發(fā)運行一組軟件任務時的時序和功耗。
同樣,每個內核都提供緩存層次結構組織和與項目連接的變體,例如回寫、寬度、塊大小、預取條件、庫、關聯(lián)性、專用與系統(tǒng)等。然后是來自DDR,LPDDR,GDDR,HBM和商用內存控制器中不同類型的調度程序的存儲器。最后,不同的互連選項:特定于供應商的片上網(wǎng)絡、極小的 NoC、AMBA 變體和 Tilelink。為此,添加 DMA、網(wǎng)橋、中斷、動態(tài)共享緩存單元、IO、以太網(wǎng)、CAN/CAN-FD 和 PCIe 以獲得完整的要求。
混合處理器是電子設計行業(yè)的一項重大創(chuàng)新。它為架構師提供了更多功能,并使團隊能夠在開發(fā)之前可視化系統(tǒng)行為。由于分析速度很快,因此可以實現(xiàn)真正的架構覆蓋,并且可以涵蓋性能、功耗、服務質量、效率、可靠性和功能正確性。通過添加軟件性能分析和調優(yōu),所有系統(tǒng)團隊都可以在同一環(huán)境中參與。隨著設計人員參與新應用、小型工藝技術和不斷增長的電源要求,混合處理器是未來的趨勢。
審核編輯:郭婷
-
微控制器
+關注
關注
48文章
7551瀏覽量
151402 -
處理器
+關注
關注
68文章
19281瀏覽量
229783 -
編譯器
+關注
關注
1文章
1634瀏覽量
49128
發(fā)布評論請先 登錄
相關推薦
評論