人工智能下如何提升主要CPU處理單元速度？

芯片企業正在借助不斷演進和革命性技術，以在功耗相同或更低的情況下顯著提高性能，這標志著從制造驅動設計到半導體架構師驅動設計的根本性轉變。

01.?計算任務改變對計算架構的需求

過去大多數芯片只包含一到兩項先進技術，主要是為了跟上每隔幾年新工藝節點的光刻技術改進，是根據行業路線圖進行的，要求在未來能夠獲得可預測但不顯著的收益。隨著大型語言模型和傳感器數據的爆炸式增長，以及自行設計芯片的系統公司之間的競爭加劇，以及國際競爭在人工智能領域不斷激烈，芯片設計的規則正在發生重大變化。

漸進式改進與性能的巨大飛躍相結合，雖然這些改進將計算和分析能力提升到全新水平，但也需要全新的權衡考慮。這些變革的核心在于高度定制的芯片架構，芯片是在最先進的工藝節點開發的。并行處理變得幾乎是必然的，加速器用于特定數據類型和操作。在某些情況下，這些微型系統可能不會商業銷售，因為它們為數據中心提供了競爭優勢。

也可能包括其他商業技術，如處理核心、加速器、減少延遲的內存內或近內存計算技術，以及不同的緩存策略、共同封裝的光學器件和更快速的互連。其中許多進展多年來一直處于研究或擱置狀態，現在正在全面部署。

在最近的Hot Chips 2023會議上，谷歌研究院的工程研究員兼機器學習系統副總裁Amin Vahdat指出，現在的芯片可以解決十年前無法想象的問題，機器學習正在承擔越來越多的任務。需要改變對系統設計的看法。過去五、六、七年中計算需求的增長令人震驚...雖然在[算法]稀疏性方面出現了許多創新，10倍每個模型的參數數量持續一年。計算成本隨著參數數量的增加而超線性增長。必須構建一種不同的計算基礎設施來應對這一挑戰。值得注意的是，如果嘗試在通用計算上做到這一點，就不會取得今天的成就，在過去50或60年間開發的傳統計算智慧已被拋棄?！?/p>

舊問題并沒有解決，功耗和散熱一直是設計團隊頭疼的問題，并且隨著處理速度和數量的增加，問題變得更加難以解決。在大約3GHz之后，由于熱密度更高且芯片無法散發熱量，僅僅提高時鐘頻率就不再是一個簡單的選擇。雖然稀疏數據模型和軟硬件協同設計提高了在各種處理元件上運行的軟件效率，以及每個計算周期處理更多數據的能力，但不再需要轉動一個旋鈕來提高每瓦性能。隨著數據的增加和架構創新的轉變，這些經濟學發生了巨大的變化，這一點在今年的Hot Chips會議上顯而易見。

解決的辦法包括內存中/近內存處理，以及更接近數據源的處理。移動大量數據需要大量的系統資源——帶寬、電力和時間——這對計算有直接的經濟影響。一般來說，收集和處理的大部分數據都是無用的。汽車或安全系統中的視頻輸入中的相關數據可能僅持續一兩秒，而可能需要數小時的數據進行整理。對靠近源頭的數據進行預處理，并使用人工智能來識別感興趣的數據，意味著只需發送一小部分數據進行進一步處理和存儲。

三星首席工程師Jin Hyun Kim表示：“大部分能源消耗來自移動數據?！?他指出了三種提高效率和提升績效的解決方案：使用HBM進行內存處理，實現極高的帶寬和功耗；使用LPDDR對需要高容量的低功耗設備進行內存處理；使用CXL進行近內存處理，以適中的成本實現極高的容量。

內存處理已經醞釀了很多年，直到最近才出現太大進展。大型語言模型已經極大地推動了這項技術的發展。大部分數據處理中的計算都是稀疏的，這意味著許多數值是零。利用這一點需要另一種類型的處理單元，這種處理單元要比通用計算單元快，也要節省能源。沒有人會完全放棄通用處理器，在大部分的應用中具有多樣性需求的硬件。

內存加速對于 AI/ML 的乘法累加 (MAC) 函數特別有用，因為需要快速處理的數據量呈爆炸式增長。使用生成式預訓練 Transformer 3 (GPT-3) 和 GPT4，僅加載數據就需要大量帶寬。與此相關的挑戰有很多，包括如何有效地做到這一點，同時最大限度地提高性能和吞吐量，如何擴展它以處理大型語言模型中參數數量的快速增加，以及如何建立靈活性以適應未來的變化。

SK hynix America 高級技術經理 Yonkwee Kwon 在 Hot Chips 2023 上的演講中表示：“一開始的想法是將內存作為加速器，第一個目標是實現高效擴展，擁有高性能也很重要。設計的系統架構易于編程，同時最大限度地減少系統結構開銷，但仍然允許軟件堆棧實現靈活性。

02.?CPU的改進

計算的開銷也是一個重要的內容，計算要求大量的能量，隨著數據的增加，處理元素的數量將越來越多。要找到這些計算元素，需要大量的互連，而這些互連要么會增加成本，要么會增加功耗，或者兩者兼而有之。從計算工作負載的核心到核心移動數據意味著不僅需要互連，還需要一種具有高度可擴展性和能夠使用低功耗傳輸大量數據的技術。這需要更復雜的網絡拓撲，需要在整個系統級別進行管理，以確保能夠處理大量數據。

03.?CPU計算-提高速度

下一個挑戰是提高主要CPU處理單元的速度。

一種方法是分支預測，類似于預測下一個操作的方式，就像互聯網搜索引擎一樣。然而，與任何并行架構一樣，關鍵是確保各種處理單元充分運行，以最大限度地提高性能和效率。

Arm通過其Neoverse V2設計對這一概念進行了改進，將分支預測與獲取分離。這導致了通過減少停頓來提高效率，并更快地從錯誤預測中恢復。Arm的首席CPU架構師Magnus Bruce表示：“動態饋送機制允許內核調節攻擊性，并主動防止系統擁塞。這些基本概念使我們能夠推動機器的寬度和深度，保持較短的管道以快速恢復錯誤預測?！?/p>

這些改進是通過在多個架構點進行微調而實現的，而不是進行大規模改變。例如，分離分支預測和獲取可以將分支目標緩沖區拆分為兩個級別，使其能夠處理多50%的條目。增加了預測器中存儲的歷史記錄三倍，并將獲取隊列中的條目數量增加一倍，從而顯著提高了實際性能。綜合考慮各種改進，Neoverse V2的性能是V1的兩倍，具體取決于其在系統中的角色。

AMD的下一代Zen 4核心通過微架構的改進，每周期的指令數增加了約14%。由于工藝擴展，5nm下的頻率提高了16%。由于微架構和技術的改進，功耗降低了約60%。物理設計也得到了改進。

與Arm一樣，AMD也致力于改進分支預測和獲取。AMD的研究員兼Zen 4首席架構師Kai Troester表示，通過更多的分支、每周期更多的分支預測以及允許更多條目和每個條目更多操作的更大操作緩存，分支預測的準確性得到了提高。此外，Zen 4增加了3D V高速緩存，將每個內核的L3高速緩存提升至高達96 MB，并在256位數據路徑上使用兩個連續周期提供對512位操作的支持。這一設計擴大了數據管道的規模，并盡可能縮短數據傳輸距離。

04.?平臺系統架構平臺系統架構

平臺架構方面的主要趨勢是領域特定性的不斷增加，這對通用處理器的傳統開發模式造成了破壞。現在的挑戰是如何提供本質上大規模的定制，有兩種主要方法：

1）通過添加硬件或可編程邏輯來實現可編程性

2）開發可互換的平臺部件。

英特爾引入了一個將小芯片集成到先進封裝中的框架，利用其嵌入式多芯片互連橋來連接高速I/O、處理器內核和內存。英特爾的目標是提供足夠的定制和性能，以滿足客戶需求，但交付這些系統的速度比完全定制的架構要快得多，并且結果是可預測的。

英特爾首席至強架構師Chris Gianos表示?！斑@將是一個多芯片架構，可以使用這些小芯片構建結構，具有很大的靈活性，只是互操作，為我們提供了專門優化產品核心的維度之一。將創建E核（超高效）的小芯片和P核（高性能）的小芯片。”

英特爾還創建了一個模塊化網狀結構來將各種組件連接在一起，以及一個支持DDR或MCR內存以及通過CXL連接的內存的通用控制器。

05.?神經處理器和光學互連

這是研究的重要方向，新方法和新技術的清單也是前所未有的。業界正在廣泛尋找增加性能、降低功耗的新方法，同時仍然關注面積和成本。對于AI/ML應用程序來說，精度也至關重要。光子學在機架內的服務器之間發揮著作用，但是否將其應用到芯片層面仍不確定。這領域的工作仍在繼續，光子學受到了許多公司的關注。

整個行業正在積極尋找提高性能并降低功耗的全新方法，同時關注成本和芯片尺寸。PPAC（性能、功耗、面積、成本）仍然是關注的核心，但不同應用和用例可能會對這些方面的權衡提出不同的要求。IBM的研究員Dharmendra Modha指出：“人工智能的運營支出和資本支出正變得難以維持?！彼M一步表示：“架構勝過摩爾定律?！边@強調了架構創新在應對當前挑戰方面的重要性。

對于AI/ML應用程序來說，精度至關重要。IBM的設計包括支持混合精度的向量矩陣乘法器、具有FP16精度的向量計算單元和激活函數單元。處理是在距離內存幾微米的范圍內完成的，避免了依賴于數據的條件分支、緩存未命中、停頓和推測執行等問題。

復雜芯片所面臨的一個關鍵挑戰不僅在于內存和處理器之間的數據傳輸，還包括芯片周圍的數據傳輸。片上網絡和其他互連結構簡化了這一過程。盡管硅光子學在高速網絡芯片中已有所應用，光子學在芯片層面的使用仍不確定。然而，光子學在許多公司中引起了廣泛關注，特別是在服務器之間的機架內。

Lightelligence工程副總裁Maurice Steinman表示，已經開發了基于光子學的專門加速器，速度比GPU快100倍，同時功耗顯著降低。該公司還研發了片上光學網絡，使用硅介質層作為連接小芯片的媒介，而不是電子連接。

06.?可持續性和可靠性

隨著所有這些變化，出現了兩個未解決的問題。

首先是可持續性問題。隨著越來越多的數據由芯片處理，能源消耗成為一個日益突出的挑戰，而制造這些設備也需要大量能源。盡管在數據中心方面已經取得了一些進展，但能源問題仍然存在。芯片制造商正積極尋找可持續發展的解決方案。

第二個未解決的問題是可靠性。現代芯片設計更加復雜，因此確保結果的準確性和一致性變得更加困難。這一挑戰涉及到數據的分區、處理、重新聚合和分析，尤其是當設備老化程度不同并以意想不到的方式交互時?？煽啃詥栴}需要深入研究和解決。

有關人工智能訓練和CO2排放的數據可能具有誤導性。正確的數據分析對于理解問題的嚴重性至關重要。與此同時，模型從單一模態轉向多種模態，這包括圖像、文本、聲音和視頻，因此動力、可持續性和可靠性仍然是至關重要的關注點。

編輯：黃飛

閱讀全文

傳感器(738446) 傳感器(738446)
芯片(407720) 芯片(407720)
cpu(206166) cpu(206166)
機器學習(130423) 機器學習(130423)
光學器件(11678) 光學器件(11678)

已全部加載完成

搜索歷史

人工智能下如何提升主要CPU處理單元速度？

評論

人工智能下如何提升主要CPU處理單元速度？