高性能計算(HPC)曾一度是大型數據中心和超級計算機的專屬,但如今依賴HPC的應用不勝枚舉,在與我們生活息息相關的各種應用領域都必不可少,如科學、醫療、安全、短視頻…...
為實現更好的HPC芯片設計,開發者們應該了解如何提升RAS,即可靠性 (Reliability)、可用性 (Availability)和可服務性 (Serviceability)。
RAS的含義并不難懂,但涉及到HPC的SoC時,它表示什么呢?數據中心運營商長期以來一直與客戶保持服務水平協議,以確保系統的正常運行時間。RAS是對此類協議的補充,現已能通過新技術獲得支持,最終生成切實可行的見解。本文將進一步介紹為什么芯片生命周期管理(SLM)、嵌入式監控IP以及正確的設計和驗證工具能夠幫助HPC設計實現高水平的RAS。
高性能計算三大關鍵組成
家用安全門鈴或樓宇監控系統所拍攝的視頻片段、金融和商業運作建模、科學和醫學研究、增強現實和虛擬現實……隨著設備和系統收集的數據激增,再結合人工智能(AI)以及大量可用的計算資源,開發者們可以快速獲得切實可行的見解,這使得HPC比1940年代第一臺超級計算機的應用更為廣泛。
如今,常規的HPC基礎設施包括計算、網絡和存儲三大部分,且均有性能、延遲、功耗、可擴展性、效率和安全性方面的要求。下面我們分別進行說明:
- 計算部分包括CPU和GPU、加速器、片上網絡(NoC)和計算服務器,用于處理高性能數據。該部分的關鍵在于復雜的多核甚至Multi-Die系統架構、快速訪問的大內存、高帶寬I/O接口、電源/冷卻管理和安全性。片內監控和分析可支持RAS目標。
- 網絡部分包括交換機和路由器、適配器、網橋、中繼器、網絡接口卡(如智能網卡)以及光電互連,可提供高性能連接,最好具有高吞吐量、低延遲、高能效、可配置性和可擴展性、實時監控和報告以及安全性。調試能力、前向糾錯(FEC)和IP可以支持RAS要求。
- 存儲部分包括固態驅動器(SSD)或硬盤驅動器(HDD)、存儲區域網絡(SAN)和網絡附接存儲(NAS)。理想情況下,該部分應可提供高帶寬存儲,減少數據傳輸能耗和延遲,具有靈活性、可擴展性、可靠性和安全性。內置自測(BIST)、糾錯碼(ECC)和冗余等功能可以實現高水平的RAS。
HPC集群可包含大量的服務器,而計算集群的總物理尺寸、能耗或熱量輸出可能會成為一大問題。此外,集群對服務器之間的專用通信也有要求。
在集群中服務器數量相當多時,微小的設計改進也可以創造巨大的價值,因此,為HPC優化的服務器設計正在嶄露頭角。有時,此類設計針對搜索引擎公司等大型公共網絡運營商,也有益于HPC集群。但它們也可以提供只適合HPC用戶的功能。例如,如果系統被設計成以不同的方式提供集群互連,有望大幅減少布線。
通過片內監控和分析
提供可行見解
HPC能夠處理PB級甚至ZB級的數據,并且能夠實時(或接近實時)運行復雜的模型。而如果HPC系統出現故障,必然會導致資金損失和業務中斷。對于關鍵任務應用來說,后果會更加嚴重。在先進工藝節點上,有大型單片晶粒或Multi-die等復雜架構,滿足RAS的要求則更具有挑戰性。
根據當前應用的重要性,系統可以建立備份,在發生故障時提供冗余備份。此外,還可以在系統和芯片層面以其它方式實現RAS目標。SLM也發揮著巨大的作用,它可以提供智能、自動化片內監控IP和方法,在系統生命周期的每個階段生成可行見解。
將監視器和傳感器嵌入到芯片中是開發者們幾十年來一直在做的事。然而,該技術已經可以提供準確度更高、顆粒度更細的數據。這提高了設備的實時環境、結構和功能狀況的可見性,可以實現監控溫度熱點、工藝變化和電源電壓,準確測量時序裕量等功能。
得益于嵌入式、基于云的分析以及統一的SLM解決方案,設計團隊能夠在設計、研發和生產階段甚至現場操作時持續、實時掌握其設備的芯片健康狀況,從而更好地了解根本原因,并立即進行調試和維修,降低成本和潛在的危害。SLM可以解決晶體管老化、延遲故障等問題,能夠帶來諸多益處。
舉例而言,如果衛星出現故障,常見的辦法是在實驗室維修電路板,再將其安裝在衛星上,這會花費數周時間,其間衛星需要停用,以進行故障診斷和維修。借助SLM技術在現場進行故障檢修和修復,團隊可以在更少的中斷次數和更短的中斷時間內,保持系統的正常運行。
數據中心也可以體現SLM是如何加快實現RAS要求的。
-
在芯片層面,在現場進行遠程調試的能力是團隊成功打造超大規模數據中心的關鍵,SLM提供的遠程遙測和監控功能使之成為可能。
-
在系統層面,SLM精確的時鐘降頻對最大化數據吞吐量和CPU、GPU和AI引擎的利用率至關重要。
-
在數據中心層面,SLM工具可以有效監控服務器性能、網絡擁塞和磁盤利用率,從而檢測和預測數據中斷,增加正常運行時間。
-
在超大規模層面,團隊可以利用SLM最大限度地減少片上熱量和供電壓力,以延長可靠性。
-
對于Die-to-Die高速接口,SLM可監控信號完整性,結合接口完整性的冗余,有助于確保小芯片設計的穩健性。
總結
端到端的解決方案并非是各自獨立的點工具的集合,而能夠提供設計校準分析、片內監控、系統性能優化等多項功能,無縫實現RAS目標。新思科技可提供出色的端到端流程,我們的芯片生命周期管理系列還配有廣泛的低延遲、經驗證的IP組合以及面向HPC應用的設計和驗證技術。
該解決方案配備物理感知芯片監控器、云分析以及嵌入式分析和優化技術,還包括SoC傳感器IP和制程監控器,用于設計、研發、生產階段和現場的優化。在制造階段和現場,監控器可以收集有關芯片的實時數據,輔以全面的測試和調試解決方案,可確保高水平的RAS。
隨著HPC應用日益增多,SoC開發必須確保系統的高可靠性、可用性和可服務性。實現最佳水平的RAS,支持流媒體視頻、氣候變化建模等多項應用,萬物數智化的世界才能保持高速運行。
? ?
原文標題:HPC黃金三角:可靠、可用、可服務
文章出處:【微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
-
新思科技
+關注
關注
5文章
797瀏覽量
50336
原文標題:HPC黃金三角:可靠、可用、可服務
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論