野外xxxxfreexxxx印度,一个人看免费视频完整版,亚洲乱码一二三四五六区

通過芯片生命周期管理可以確保數據中心系統正常運行時間。

在大型數據中心和超級計算機的領域，高性能計算 (HPC) 已經變得相當普遍，并且在某些情況下，在我們的日常生活中必不可少。正因為如此，可靠性、可用性和可維護性（reliability, availability, and serviceability，或稱RAS），是更多 HPC SoC 設計人員應該熟悉的概念。

RAS 聽起來像是一個不言自明的術語，但在涉及 HPC SoC 時它真正涉及什么？數據中心運營商長期與客戶保持服務水平協議，以保證系統正常運行時間。RAS 補充了這些協議，現在可以得到新技術的支持，最終產生可操作的見解。在這篇最初發表于“從芯片到軟件”博客上的文章中，您將了解為什么芯片生命周期管理 (SLM)、嵌入式監控 IP 以及正確的設計和驗證工具可以在您的HPC 設計中實現高水平 RAS。

3個關鍵的高性能計算組件

家庭安全門鈴或建筑物監控系統捕獲的視頻片段、財務和業務運營建模、科學和醫學研究、增強現實和虛擬現實等應用都需要依賴 HPC。隨著我們的設備和系統收集的數據激增、AI 驅動的分析、大量計算資源的可用性以及云的融合，使快速獲得有用、可操作的見解成為可能，使 HPC 成為許多領域不可或缺的一部分。它與 1940 年代第一臺超級計算機出現時相比，應用范圍更廣。

當今典型的 HPC 基礎設施由三個關鍵要素組成：計算、網絡和存儲。每個都需要一定水平的性能、延遲、電源效率、可擴展性、生產力和安全性。讓我們仔細看看每個元素：

計算由 CPU 和 GPU、加速器、片上網絡 (NoC) 和計算服務器組成。這是進行高性能數據處理的地方。復雜的多核甚至多芯片系統架構、具有快速訪問的大內存、高帶寬 I/O 接口、電源/冷卻管理和安全性是其關鍵特性。片內監控和分析還可以支持 RAS 目標。

網絡由交換機和路由器、適配器、網橋、中繼器、網絡接口卡（如 SmartNIC）以及光學和電氣互連組成。該元素提供高性能連接，理想情況下具有高吞吐量、低延遲、能源效率、可配置性和可擴展性、實時監控和報告以及安全性。調試功能、前向糾錯 (FEC) 和 IP 可以支持 RAS 要求。

存儲包括固態驅動器 (SSD) 或硬盤驅動器 (HDD)、存儲區域網絡 (SAN) 和網絡附加存儲 (NAS)。理想情況下，存儲元件應提供高帶寬存儲、減少數據傳輸能量和延遲、靈活性、可擴展性、可靠性和安全性。內置自測試 (BIST)、糾錯碼 (ECC) 和冗余等功能可以促進高水平的 RAS。

有兩種主要類型的 HPC 系統：同類機器和混合機器。同類機器只有 CPU。相比之下，混合動力車同時擁有 GPU 和 CPU，其中 GPU 運行任務而 CPU 監督計算。

HPC 集群可以由大量服務器組成，其中計算集群的總物理尺寸、能源使用或熱輸出可能成為一個嚴重的問題。此外，還需要在服務器之間進行專用通信，這對于集群來說有些獨特。

由于微小的設計差異乘以集群中的服務器數量會帶來巨大的收益，因此我們看到了針對 HPC 優化的服務器設計的出現。有時，這些是針對大型公共 Web 運營商（例如搜索引擎公司）的設計，它們在 HPC 集群中提供類似的優勢。但是，它們也可以提供僅適合 HPC 用戶的功能。例如，如果系統設計為以不同方式提供集群互連，則可能會顯著減少布線。

通過片內監控和分析獲得可操作的見解

HPC 的實用性在于它能夠處理海量數據（PB 甚至 zettabytes）并實時（或接近實時）運行復雜模型。不用說，只要 HPC 系統出現故障，就會導致資金損失和業務中斷。任務關鍵型應用程序的影響變得更加陡峭。在高級節點，使用大型單片芯片或復雜架構（如多芯片），可以滿足 RAS 要求并變得更具挑戰性。

根據手頭應用程序的重要性，系統可以構建備份，以在發生故障時提供冗余。除了冗余之外，您還可以在系統和芯片級別做更多的事情來滿足 RAS 目標。這就是 SLM 發揮重要作用的地方，它提供智能、自動化的片內監控 IP 和方法，以在系統生命周期的每個階段生成可操作的見解。

幾十年來，設計人員一直在將監視器和傳感器嵌入到他們的芯片中。但是，該技術已經發展到現在可以提供更準確的數據。這樣可以更好地了解設備的實時環境、結構和功能狀況。示例包括工藝變化和電壓供應的監控，以及時序裕度的準確測量等。

由于嵌入式和基于云的分析，以及統一 SLM 解決方案的可用性，設計團隊將能夠建立一個連續的、實時的設備硅健康狀況圖，而不僅僅是在設計期間，在生產階段以及現場操作期間。他們可以更好地了解根本原因并立即進行調試和修復，從而降低成本和潛在危害。SLM 可以解決的問題包括晶體管老化和延遲故障。要了解這帶來的好處，請考慮一顆有缺陷的衛星。通常情況下，從實驗室取回修復后的電路板安裝到衛星上可能需要數周的時間，將其長時間停用以進行故障排除和維修。通過SLM技術在現場進行故障檢測和故障修復。

看看數據中心，我們可以看到另一個突出 SLM 如何促進滿足 RAS 要求的示例。

在芯片層面，現場遠程調試的能力對于超大規模數據中心的團隊來說至關重要。SLM 提供遠程遙測和監控使這成為可能。

在系統級別，精確的時鐘節流（SLM 的另一項功能）對于最大化數據吞吐量和 CPU、GPU 和 AI 引擎利用率至關重要。

在數據中心級別，使用 SLM 工具監控服務器性能、網絡擁塞和磁盤利用率是檢測和預測數據中斷的關鍵，這可以增加正常運行時間。

在超大規模級別，團隊可以利用 SLM 來最大限度地減少片上熱和電源壓力，從而提高可靠性。

對于 die-to-die 高速接口，SLM 提供信號完整性監控，連同接口完整性冗余，有助于確保小芯片設計的穩健性。

概括

一個端到端的解決方案將設計校準分析、片內監控和系統性能優化等一切結合在一起，而不是一組互不關聯的單點工具，可以使解決 RAS 目標的過程更加無縫。

鑒于現在依賴 HPC 的應用程序范圍越來越廣，保持這些系統的高水平可靠性、可用性和可服務性是一個全面的關鍵考慮因素。實現最佳 RAS 水平以支持從流媒體視頻到氣候變化建模的一切是保持數字化、智能化萬物世界高速運行的另一個重要因素。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

soc

soc

+關注

關注
38

文章
4173

瀏覽量
218423
SSD

SSD

+關注

關注
21

文章
2863

瀏覽量
117490
HPC

HPC

+關注

關注
0

文章
316

瀏覽量
23807

原文標題：?如何提高 HPC SoC 的可靠性、可用性和可維護性級別？

文章出處：【微信號：ICViews，微信公眾號：半導體產業縱橫】歡迎添加關注！文章轉載請注明出處。

半導體封裝的可靠性測試及標準

產品可靠性是指產品在規定的使用條件下和一定時間內，能夠正常運行而不發生故障的能力。它是衡量產品質量的重要指標，對提高客戶滿意度和復購率具有重要影響。金鑒實驗室作為一家提供檢測、鑒定、認證和研發服務

發表于 11-21 14:36 ?218次閱讀

如何提高CAN總線的傳輸可靠性

提高CAN總線的傳輸可靠性可以從多個方面入手，以下是一些具體的方法：一、優化CAN總線設計選擇合適的傳輸介質：使用屏蔽電纜或光纖等高質量的傳輸介質，以減少電磁干擾和信號衰減。合理布局與布線

發表于 11-21 10:26 ?349次閱讀

UPS電源的安全性和可靠性分析

隨著信息技術的飛速發展，數據和信息已成為現代社會的重要資產。因此，確保數據的持續可用性和完整性變得至關重要。不間斷電源（UPS）系統作為保護關鍵設備免受電力中斷影響的重要手段，其安全性和可靠性

發表于 10-28 10:49 ?479次閱讀

無鉛焊接的可靠性

電子發燒友網站提供《無鉛焊接的可靠性.pdf》資料免費下載

發表于 10-16 10:50 ?5次下載

PCB高可靠性化要求與發展——PCB高可靠性的影響因素（上）

的可靠性提出了更為嚴格的要求，特別是在焊接點的結合力、熱應力管理以及焊接點數量的增加等方面。本文將探討影響PCB可靠性的關鍵因素，并分析當前和未來提高PCB可靠性的制造技術發展趨勢。

發表于 10-11 11:20 ?355次閱讀

利用TPS2116提高電表應用的系統可靠性

電子發燒友網站提供《利用TPS2116提高電表應用的系統可靠性.pdf》資料免費下載

發表于 09-24 09:21 ?1次下載

如何提高RS485通信的可靠性？

通信可靠性下降。為了確保系統的穩定運行，提高RS485通信的可靠性至關重要。合理的布線與接地布線是影響RS485通信可靠性的重要因素之一。首先，應選擇合適的線纜。R

發表于 09-20 08:07 ?396次閱讀

基于可靠性設計感知的EDA解決方案

產品可靠性，包括制造和運營方面，正在成為芯片-封裝-系統迭代設計周期中設計的關鍵方面，尤其是那些有望承受更長使用壽命和可能的惡劣操作環境的產品，例如汽車電子系統、高性能計算（HPC）、電信

發表于 07-15 09:56 ?439次閱讀

汽車功能安全與可靠性的關系

當前，隨著汽車領域的飛速發展，汽車也被重新定義。在汽車電子電氣系統設計時，離不開對功能安全和可靠性設計的考慮。正確理解兩者之間的關系，有助于更好地分析問題和解決問題。什么是汽車可靠性汽車可靠性是指

發表于 07-13 08:28 ?3226次閱讀

為了提高USIM卡電路的可靠性和穩定性，在電路設計中須注意的點有哪些？

為了提高USIM卡電路的可靠性和穩定性，在電路設計中須注意的點有哪些？

發表于 06-04 07:29

請問FATFS文件系統可靠性如何？

ST官方固件庫中使用了FATFS文件系統，想問下，這個文件系統可靠么？我想了解一下，有哪位朋友真正產品上使用FATFS文件系統，可靠性有什么問題沒有。

發表于 05-16 06:35

基于結構相似性可靠性監測結果

電子發燒友網站提供《基于結構相似性可靠性監測結果.pdf》資料免費下載

發表于 02-05 09:10 ?0次下載

如何提高分布式大屏控制系統的穩定性和可靠性

提高分布式大屏控制系統的穩定性和可靠性可以從以下幾個方面入手：架構設計：在系統架構設計階段，應采用高可用性、高可擴展性的設計原則，確保系統具備容錯和負載均衡的能力。采用分布式架構，將系統劃分為多個

發表于 01-29 14:39 ?428次閱讀

如何確保IGBT的產品可靠性

在當今的半導體市場，公司成功的兩個重要因素是產品質量和可靠性。而這兩者是相互關聯的，可靠性體現為在產品預期壽命內的長期質量表現。任何制造商要想維續經營，必須確保產品達到或超過基本的質量標準和可靠性

發表于 01-25 10:21 ?1660次閱讀

IGBT的可靠性測試方案

在當今的半導體市場，公司成功的兩個重要因素是產品質量和可靠性。而這兩者是相互關聯的，可靠性體現為在產品預期壽命內的長期質量表現。任何制造商要想維續經營，必須確保產品達到或超過基本的質量標準和可靠性

發表于 01-17 09:56 ?1483次閱讀