互聯(lián)設備和云計算的高速發(fā)展推動全球數(shù)據以指數(shù)級速度增長。數(shù)據規(guī)模的不斷擴大對產品和數(shù)據中心基礎設施的質量、可靠性和可用性也提出了更高的要求。這里所說的“質量”是指系統(tǒng)在設定好的情況下能夠正確運行;“可靠性”是指系統(tǒng)在規(guī)定時間內、規(guī)定條件下能夠執(zhí)行所需功能;而“可用性”則指系統(tǒng)在不中斷的情況下能夠按照規(guī)格持續(xù)運行。
英特爾一直深耕工具與方法,只為讓英特爾至強處理器能為客戶帶來優(yōu)質體驗。本文概述了英特爾至強處理器的生命周期,以及英特爾如何在下圖所示的以下各個開發(fā)階段確保出色的質量。
質量源于設計 前期測試與擴展測試 自信制造 客戶部署與支持
01
質量源于設計
面向質量的設計
英特爾在設計過程中的每一步舉措都以質量為先。設計過程始于成體系的處理器設計方法和嚴謹?shù)漠a品定義。英特爾 至強 處理器的出色功能體現(xiàn)在 CPU 芯片架構、微架構、固件和系統(tǒng)軟件堆棧設計的方方面面。這包括在設計過程中就優(yōu)先考慮可靠性、可用性和可維護性 (RAS) 功能和方法。
服務器質量不僅僅局限于 CPU 的構建。整個平臺的各部分會相互作用,影響數(shù)據中心服務的連續(xù)性,最終影響客戶體驗。例如,服務器十分依賴動態(tài)隨機存取內存 (DRAM),將其作為實現(xiàn)速度和成本效益的主要內存資源。DRAM 故障會導致計算錯誤,而這種錯誤在服務器崩潰之前很可能不會被察覺。
為了提高質量,減少可能因內存錯誤而導致的服務器崩潰,從第三代英特爾 至強 處理器開始,英特爾就實施了一系列增強措施。英特爾 至強處理器還提供獨特的 RAS 功能,通過檢測和糾正輸出數(shù)據錯誤自動查找和修復軟性內存錯誤,幫助保護數(shù)據。這方面的更多詳情,請參閱“Improving Server Uptime in the Data Center(延長數(shù)據中心服務器的正常運行時間)”解決方案簡介。
02
前期測試與擴展測試
邏輯驗證
芯片的流片前驗證是一系列工程流程,用于確定正在開發(fā)的產品是否符合所需的規(guī)格。此外,流片前模擬和仿真也讓芯片實物在被制造出來之前就有機會運行軟件和固件。這就開啟了產品生命周期前期的質量優(yōu)化流程。在流片前階段,我們會用一個強大的測試套件對英特爾 至強 處理器進行模擬測試,以便及早發(fā)現(xiàn)并解決芯片中可能存在的問題。為了提高平臺穩(wěn)定性,我們也會使用多種環(huán)境和配置。
英特爾擁有一套定制化的機器學習技術,在流片前和流片后階段均可用于優(yōu)化模型的有限運行時間,并突出那些難以評估的設計區(qū)域。這套技術綜合利用軟硬件反饋來指導測試。開發(fā)階段的芯片測試大大降低了英特爾 至強 處理器整個生命周期內的出錯率。
平臺驗證
組件集成到系統(tǒng)平臺中后就需要進行驗證,確保最終平臺的功能和性能能夠滿足用戶期望。如今的數(shù)據中心平臺集成了一套復雜的軟硬件組件,用于滿足各種不同需求,涉及從數(shù)據存儲到復雜人工智能 (AI) 算法等用例,需要優(yōu)秀的計算性能和高帶寬內存來執(zhí)行高頻計算。
平臺的綜合驗證需要協(xié)調機械、散熱、電氣和軟件各個領域。由于某個特定平臺是由數(shù)百個組件組成的,因此必須對每個組件(無論其成本或復雜程度如何)進行優(yōu)化,才能確保最終平臺的高效運行。這些組件的種類不一而足,可能是低成本的電容器,也可能是昂貴的內存模塊。平臺驗證的任務就是要確保所有系統(tǒng)組件都能正確地相互配合運作,從而實現(xiàn)最初設計的功能。
平臺驗證涉及三個主要方面: 1互操作性:確保平臺組件可無縫協(xié)作。2工作負載:使用具有代表性的客戶內容或工作負載進行測試。3環(huán)境:利用平臺實際運行的環(huán)境條件開展測試。
如果這三個主要方面的測試結果都沒有問題,就更有助于確保平臺能提供客戶所期望的基于英特爾 至強處理器系統(tǒng)的性能、功能、可靠性和體驗。
大規(guī)模集群驗證
除了組件和平臺驗證,還需要進行大規(guī)模集群驗證。這是為了模擬真實的客戶環(huán)境。英特爾使用具有代表性的工作負載來驗證不同的客戶使用場景。此外,英特爾還開發(fā)并使用設備群服務,包括升級、維護、編排、遙測和數(shù)據分析,這些與云服務提供商服務提供的服務類似。此舉有助于確保客戶能夠順利引進英特爾 至強 處理器。大規(guī)模集群驗證還有助于檢測高平均故障間隔 (MTBF) 和邊際性故障,因為這些故障往往難以檢測,傳統(tǒng)驗證方法可能檢測不出。
03
自信制造
制造測試流程
英特爾在制造過程的不同階段采用了一套完整的技術,以交付可滿足嚴苛質量和可靠性目標的產品。這些階段包括: 1晶圓篩選2分級測試3系統(tǒng)測試
晶圓篩選:在將單個裸片封裝之前,我們會先對晶圓上的每個裸片進行全面測試。這一過程中,我們會結合采用行業(yè)領先的嵌入式內存測試技術、基于掃描的測試、功能測試和參數(shù)測試,從而識別和剔除有缺陷的裸片。通過用掃描測試向量輔以功能測試,可以篩查出傳統(tǒng)方法無法檢測到的細微缺陷,從而顯著提高產品質量。
英特爾根據流片前指標和流片后分析,針對制造的各個階段開發(fā)了功能測試。我們還使用先進的數(shù)據分析和機器學習方法,來識別潛在或邊際性缺陷導致的可靠性不足的裸片。通過或是未能通過測試的裸片數(shù)據將反饋給英特爾的晶圓工廠,以改進芯片制造工藝。
分級測試:晶圓篩選后,單個裸片接受封裝。隨后,封裝好的設備會在較高的電壓和溫度條件下承受額外的壓力測試,從而識別并淘汰在生命周期早期就可能會出現(xiàn)問題的設備。接下來,設備將接受分級測試。在此期間,我們會在產品的最終使用條件下進行全套的內存、掃描、功能和 I/O 測試。分級測試可以確定每個設備可以運行的工作頻率和功率等級。
系統(tǒng)測試:制造的最后一個重要步驟就是對每個設備進行系統(tǒng)測試 (SBT)。系統(tǒng)測試期間,我們會運行多個操作系統(tǒng)和應用,以驗證是否有缺陷部件在先前測試中未檢出。系統(tǒng)測試的硬件基于參考板設計,包括雙列直插式內存模塊 (DIMM) 和一組 I/O 設備。系統(tǒng)測試期間除了使用標準工作負載,我們也會用特定測試來篩查靜默數(shù)據錯誤 (SDE)。
系統(tǒng)測試使用的 SDE 測試可確保每臺設備執(zhí)行計算的正確性。這些測試中有許多是英特爾 Data Center Diagnostic Tool(詳見下文)套件中特有的。其中,有些測試會在所有處理器內核上并行運行相同的復雜運算(如矩陣運算),并在最后比較結果。有些測試則會執(zhí)行可逆操作,如加密/解密或壓縮/解壓縮,檢查結果是否與原始結果一致。大多數(shù) SDE 測試使用偽隨機數(shù)據和指令,以盡可能多地檢測出細微的、隨機的、只會以 SDE 形式表現(xiàn)出來的缺陷。
篩查靜默數(shù)據錯誤
故障的來源多種多樣,包括輻射、老化、潛在缺陷、邏輯錯誤,以及電路開始制造時的邊際性問題等。這些故障可能表現(xiàn)為意外中斷,在少數(shù)情況下也可能表現(xiàn)為 SDE。
制造缺陷導致的 SDE 通常很難被發(fā)現(xiàn)。數(shù)據中心基礎設施的大規(guī)模特性決定了 SDE 只可能在特定的電壓、頻率和溫度組合以及特定的操作順序下出現(xiàn)。因此,在設計篩查 SDE 的測試方法時,必須考慮到這種復雜情況。
如上節(jié)所述,英特爾在系統(tǒng)測試期間使用了許多測試來篩查在制造過程中表現(xiàn)為 SDE 的缺陷。英特爾已經證明,許多表現(xiàn)為 SDE 的缺陷無法通過傳統(tǒng)的可測試性設計 (DFT) 方法檢測出來。這些方法包括在晶圓篩選和分級測試中使用的基于掃描和陣列的內建自測 (BIST) 測試。而要篩出 SDE 這類重要缺陷,則需要有像英特爾Data Center Diagnostics Tool(詳見下文)中的具有針對性的功能測試內容。
04客戶部署與支持
英特爾 至強 處理器在制造完成并交付給客戶后,重點將轉移到確保高質量的部署和產品支持階段。為此,英特爾提供設備群管理工具和定期固件更新。
面向客戶的優(yōu)質工具
英特爾通過授權提供一套綜合工具,用于測試處理器錯誤并加以糾正。英特爾自己在生產過程中就使用這些測試工具,同時也在英特爾網站上向客戶提供這些工具。客戶可將這些工具用于驗證新設計、批量生產以及數(shù)據中心篩查。英特爾與客戶密切合作,了解他們的測試需求,定期更新工具,從而優(yōu)化其有效性。
以下優(yōu)質工具可供客戶用于設備群管理:
英特爾 Data Center Diagnostic Tool (DCDiag):英特爾獨家提供的工具。DCDiag 旨在讓客戶測試其整個設備群中的英特爾 至強 處理器功能,并找出可能導致 SDE 的潛在缺陷。該工具可作為系統(tǒng)定期維護計劃的一部分來運行,為所測試的處理器提供易于理解的“通過/失敗”結果。這樣,客戶就能在處理器的全生命周期內發(fā)現(xiàn)潛在故障,并迅速加以替換。
英特爾 Open Data Center Diagnostics Project (Open DCDiag):旨在鼓勵行業(yè)開展測試開發(fā)協(xié)作。英特爾認識到,業(yè)內有許多企業(yè)和機構正在研究如何更有效、更高效地識別處理器錯誤。于是 英特爾建立了 Open DCDiag 這一統(tǒng)一的測試開發(fā)框架,邀請開源社區(qū)發(fā)揮創(chuàng)造力,通過開發(fā)獨特的測試篩查方法和其他創(chuàng)新解決方案來加強云計算設備群的管理。該項目是英特爾引領行業(yè)、不斷提高英特爾 至強 平臺質量和可靠性的一大典范。
為了盡可能減少服務器停機時間,英特爾提供了一套專有工具,使客戶能夠進行大規(guī)模調試,并準確、快速地確定問題發(fā)生的根因。這套工具有助于進行高效診斷,縮短調試時間,并盡快緩解影響。這套工具包括自動崩潰轉儲 (ACD) 和英特爾 Crash Log Technology。在設計中使用基板管理控制器 (BMC) 的客戶可以通過在其設備群中啟用 ACD 來收集調試狀態(tài)。而沒有使用 BMC 的客戶則可依靠英特爾 Crash Log Technology 來收集故障發(fā)生時的調試狀態(tài)。這些技術所抓取的調試狀態(tài)可通過崩潰轉儲匯總 (Crash Dump Summarizer) 工具進行解碼和處理,從而突出故障的明確特征。在大多數(shù)情況下,這些工具都能幫助客戶找到明確的可采取的措施來解決故障問題。
英特爾還開發(fā)了其獨有的“現(xiàn)場掃描 (In-Field Scan)”功能,用于設備群內的系統(tǒng)篩查。該功能在第四代英特爾 至強 可擴展處理器上首發(fā)。此功能就像英特爾在制造過程中進行的篩查一樣,通過發(fā)現(xiàn)潛在的處理器缺陷,幫助系統(tǒng)管理員盡可能減少對客戶運營的干擾。“現(xiàn)場掃描”提供的內置測試功能有助于在運行時以較低的開銷在現(xiàn)場檢測出有缺陷的內核,無需將處理器轉至離線狀態(tài)。
英特爾為客戶提供高級內存測試 (AMT),幫助提高內存可靠性。AMT 讓客戶能夠測試 DRAM 的健康狀況,并在對終端用戶產生影響之前就發(fā)現(xiàn)潛在問題。AMT 工具基于與 DRAM 制造商合作開發(fā)的測試算法,可識別潛在的內存錯誤,從而改進客戶的生產。
高質量的固件
固件是一種直接內嵌在硬件中使其按照預期運行的軟件,充當平臺上運行的硬件和軟件之間的橋梁。高質量、可更新的固件對平臺的可靠性和安全性至關重要。英特爾通過英特爾平臺更新 (IPU) 流程定期發(fā)布固件更新。在平臺的整個生命周期內更新固件有助于客戶進行長期的設備群管理。
由于硬件、固件和軟件的集成特性,產品更新可能需要英特爾合作伙伴生態(tài)系統(tǒng)的額外驗證和集成。IPU流程促進了生態(tài)系統(tǒng)的協(xié)調,使英特爾的生態(tài)系統(tǒng)合作伙伴能夠發(fā)布經過驗證的更新。這些合作伙伴包括操作系統(tǒng)供應商、云服務提供商、獨立固件供應商、原始設備制造商和系統(tǒng)集成商等——每個合作伙伴都可向客戶發(fā)布經過驗證的更新。
為了解決固件更新相關的潛在挑戰(zhàn),英特爾推出了“無縫更新 (Seamless Update)”功能,可減少平臺固件更新所需的系統(tǒng)重啟次數(shù)。為此,它采用了系統(tǒng)管理模式、統(tǒng)一的可擴展固件接口運行時服務,以及高級配置和電源接口服務。英特爾還在努力通過可在系統(tǒng)運行時加載的微代碼更新盡可能減輕更新影響,避免重啟。
結 論
質量和可靠性仍然是英特爾數(shù)據中心客戶的重要考慮因素,在全球數(shù)據和計算需求不斷增長的背景下更是如此。本文重點介紹了英特爾在整個生命周期各個階段對質量的重視,包括:
質量源于設計:優(yōu)先考慮 RAS 功能。 前期測試與擴展測試:開展廣泛的邏輯、平臺和大規(guī)模集群驗證。 自信制造:通過晶圓篩選、分級測試和系統(tǒng)測試篩查缺陷。 客戶部署與支持:提供 DCDiag、特有的設備群管理工具和 IPU 流程。
作為一家整合設備制造商 (IDM),英特爾擁有廣闊的行業(yè)視野,能夠更好地理解和預測未來的質量挑戰(zhàn)。我們在英特爾至強處理器生命周期的每個階段都采取了端到端質量優(yōu)化措施,盡可能提高產品質量和可靠性。英特爾期待繼續(xù)與客戶合作,滿足數(shù)據中心嚴苛的質量要求。
-
英特爾
+關注
關注
61文章
9949瀏覽量
171692 -
cpu
+關注
關注
68文章
10854瀏覽量
211578
原文標題:英特爾? 至強? 處理器,鑄造質量和可靠性的典范
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論