芯片制造商正在研究新的架構,這些架構可顯著增加每瓦功耗和每個時鐘周期可處理的數據量,從而為數十年來芯片架構的最大轉變奠定了基礎。
所有主要的芯片制造商和系統供應商都在改變方向,引發一場架構競賽,其中包括從存儲器中讀取和寫入數據的方式到數據處理和管理的方式,以及最終在單個芯片上的各種單元被封裝在一起。雖然半導體制造的節點縮減將繼續,但沒有人愿意進行擴展以跟上傳感器數據的爆炸性增長以及機器之間的流量增加。
其中包括:
-
新的處理器體系結構關注的是每個周期處理更大數據塊的方法,有時精度較低,或者根據應用程序的不同,將特定操作優先于其他操作。
-
正在開發新的內存體系結構,以改變數據存儲、讀取、寫入和訪問的方式。
-
更有針對性的處理單元分散在系統周圍,與內存非常接近。加速器不是依靠一個最適合應用程序的主處理器,而是根據數據類型和應用程序來選擇。
-
人工智能正在進行的工作:將不同的數據類型融合為模式,有效地增加數據密度,同時最小化不同數據類型之間的差異。
Rambus公司的杰出發明家Steven Woo說:“有一些趨勢讓人們試圖充分利用他們已經擁有的東西。”在數據中心,你想從硬件和軟件中擠出盡可能多的空間。這就是數據中心重新思考經濟問題的方式。啟用新功能非常昂貴。但是瓶頸正在轉移,這就是為什么你會看到專門的芯片以及提高計算效率的方法。如果你能夠阻止在內存和I / O上來回發送數據,這會產生很大的影響。”
這些變化在邊緣上更為明顯,而且就在邊緣之外,系統供應商突然意識到數百億臺設備會產生太多數據,無法將所有內容發送到云端進行處理。但是在邊緣處理所有這些數據會增加其自身的挑戰,需要在不顯著改變功率預算的情況下實現性能的巨大改進。
英偉達(Nvidia)的特斯拉首席平臺架構師羅伯特?奧伯(Robert Ober)表示:“新的重點是降低精度。”“這不僅僅是更多的計算周期。它更多的是在內存中進行數據打包,使用16位指令格式。所以這并不是為了提高效率而在緩存中存儲更多的數據。從統計學上講,結果在兩方面都是一致的。”
Ober預測,通過一系列的架構優化,在可預見的將來,每隔幾年就可以將處理速度提高一倍。 “我們將看到技術的進步。” 他說:。“為了實現這一目標,我們必須處理三各方面:一個是計算,第二個是存儲。在一些模型中,這是內存訪問。有些則是計算。第三個方面是主機帶寬和I/O帶寬。我們需要在優化存儲和網絡方面做大量工作。”
其中一些已經在實施中。在2018年Hot Chips大會上,三星奧斯汀研發部門的首席架構師杰夫?魯普利(Jeff Rupley)在發言中指出了該公司M3處理器的幾個重大架構變化。一個涉及每個周期更多的指令 - 六個,而之前的M2為四個。再加上分支預測,這基本上是幾個神經網絡在搜索中做的相當于預取的工作,指令隊列的深度是它的兩倍,挑戰就開始顯現出來。
從另一個角度來看,這些變化將創新的紐帶從制造和工藝技術轉移到前端的架構和設計,以及后端的制造封裝。雖然處理技術將繼續創新,但在每個新節點上僅提高15%至20%的性能和性能是非常復雜的——而且這還遠遠不足以跟上數據的大幅增長。
Xilinx的總裁兼首席執行官Victor Peng在Hot Chips的演講中說:“變革正以指數速度發生。每年將產生10 zettabytes[10的21次方字節]的數據,其中大部分是非結構化數據。”
內存中的新方法
處理這么多數據需要重新思考系統中的每個組件,,從數據處理方式到數據存儲方式。
“已經有很多嘗試創建新的內存架構,”eSilicon EMEA創新高級主管CarlosMaciàn說。“問題是你需要讀取每一行并在每一行中選擇一位。另一種方法是構建可以從左到右,上下讀取的內存。你還可以更進一步,將計算添加到不同的存儲器中國。”
這些變化包括改變讀取內存的方式、位置和處理元素的類型,以及使用人工智能對數據在系統中存儲、處理和移動的方式和位置進行優先級排序。
“如果我們在稀疏數據的情況下一次只能從該數組中讀取一個字節,或者在相同的字節通道中可能只有8個連續字節,而不使用與其他字節或字節通道相關的所有能耗,那么我們是什么呢?不感興趣,“Cadence產品營銷集團總監Marc Greenberg說。“未來可能更適合這種事情。例如,如果我們看一下HBM2的架構,HBM2芯片堆棧被安排到16個64位的虛擬通道中,我們只需要從任何虛擬通道的任何訪問中獲得4個連續的64位字。因此,有可能構建1,024位寬的數據陣列并水平寫入,但一次只讀取64位×4個字。”
內存是馮?諾依曼體系結構的核心組件之一,但它也正在成為最大的實驗領域之一。AMD的客戶端產品首席架構師Dan Bouvier表示:“虛擬內存系統是一個大問題,在這個系統中,數據的傳輸方式更加不自然。如果你能消除DRAM中的Bank沖突,你就能獲得更高效的數據流。因此,離散GPU可以在90%的效率范圍內運行DRAM,這是非常高的。但如果你能得到流暢的數據流,你也可以在80%到85%的效率范圍內運行APU和CPU。”
圖1:馮·諾依曼架構
IBM正在開發一種不同的內存體系結構,它本質上是磁盤陣列的現代版本。IBM的系統硬件架構師杰夫?斯圖切利(Jeff Stuecheli)將連接技術稱為連接的“瑞士軍刀”,其目標不是局限于單個磁盤,而是巧用可用的任何內存。這種方法的優點是可以混合和匹配不同類型的數據。
“CPU變成了一個位于高性能信號接口中間的東西,”Stuecheli說。“如果你修改微體系結構,核心可以在每個周期做更多的事情而不需要增加頻率。”
連接性和吞吐量對于確保這些體系結構能夠處理所生成的數量龐大的數據變得越來越重要。“現在最大的瓶頸在于數據流動,”Rambus'Woo說。“業界在實現更好的計算方面做得非常出色。但是,如果你正在等待數據或專用數據模式,則需要更快地運行內存。因此,如果你看一下DRAM和NVM,性能取決于流量模式。如果對數據進行流處理,就可以從內存中獲得非常好的效率。但如果數據在空間中隨意跳躍,效率就會降低。無論你做什么,隨著體積的增加,你都要做得更快。
更多的計算,更少的移動
使問題復雜化的是,邊緣設備以不同的頻率和速度生成多種不同類型的數據。為了使數據在各種處理單元之間平滑移動,必須比過去更有效地管理它。
“有四種主要配置 - 多對多,內存子系統,低功耗Io,以及網狀和環形拓撲,”ArterisIP董事長兼首席執行官Charlie Janac說。“你可以將所有這四個放在一個芯片中,這就是決策IoT芯片所發生的事情。或者你可以添加具有高吞吐量的HBM子系統。但復雜性是巨大的,因為其中一些工作負載非常具體,每個芯片有多個工作負載和引腳。如果你看一些這些物聯網芯片,他們會收集大量的數據。對于像汽車中的雷達和LiDAR這樣的東西尤其如此。沒有某種先進的互連,它們就不可能存在。”
挑戰在于如何最小化數據移動,同時在需要時最大化數據流,并以某種方式在不使用太多功率的情況下實現本地和集中處理之間的平衡。
NetSpeed Systems的產品營銷經理拉杰什?拉曼努賈姆(Rajesh Ramanujam)表示:“一方面是帶寬問題。”“如果可能的話,盡量不移動數據,因此可以將數據移動到更靠近處理器的地方。但如果必須移動數據,則需要盡可能地壓縮數據。然而,這一切都不存在于真空之中。所有這些都必須從系統級別進行觀察。每個步驟都需要考慮多個順序軸,它決定了您是使用傳統的讀寫方式使用內存,還是使用新的內存技術。在某些情況下,您可能希望更改存儲數據本身的方式。如果您想要更快的性能,這通常意味著更高的芯片面積成本,但這會影響到功耗。現在你要考慮功能安全,還要擔心數據過載。
這就是為什么在邊緣處理和不同處理元素之間的吞吐量有如此多的關注。但是,隨著架構的開發和改進,如何以及在哪里實現這些處理的方式將會有很大的不同。
舉個例子:Marvell引入了一個內置人工智能的SSD控制器,這樣它就可以在邊緣處理更大的計算負載。人工智能引擎可以用于固態存儲本身的分析。
“你可以直接將模型加載到硬件中,并在SSD控制器中進行硬件處理,”Marvell的首席工程師內德瓦爾尼察說。今天,云端的主機就是這樣做的。但是,如果每個驅動器都將數據發送到云端,就會產生大量的網絡流量。最好是在邊緣進行處理。因此,你擁有的存儲設備越多,處理能力就越強。減少數據移動的好處是巨大的。”
這種方法特別值得注意的是,它強調了數據移動的靈活性,這取決于應用程序。因此,主機可以生成一個任務并將其發送到存儲設備進行處理,之后僅返回元數據或計算結果。在另一種情況下,存儲設備可以存儲數據、對其進行預處理和生成元數據、標記和索引,然后由主機檢索,以便進行進一步的分析。
這是一種選擇,還有其他的做法。三星的Rupley強調了無序處理和融合的習慣用法,它們可以解碼兩條指令并將它們融合到一個操作中。
AI監督和優化
所有這些都是人工智能,這是進入芯片架構的真正新元素之一。這種疏忽不是讓操作系統和中間件管理功能,而是圍繞芯片,芯片之間和系統級分布。在某些情況下,這可能包括芯片內的神經網絡。
eSilicon公司營銷副總裁邁克·吉安法尼亞說:“與其說你如何將更多的東西組合在一起,不如說你改變了做事的傳統方式。”“通過人工智能和機器學習,你可以把所有這些東西撒在一個系統周圍,以獲得更高效和更有預測性的處理。”在其他情況下,它可能涉及到獨立于系統或封裝內獨立運行的獨立芯片。”
Arm透漏了其首款機器學習芯片計劃,將于今年晚些時候在多個市場領域和垂直領域推出。Arm杰出工程師伊恩?布拉特表示:“這是一種新型處理器。”它包括一個基本模塊,這是一個計算引擎,加上一個MAC引擎,一個具有控制聯合和廣播網絡的DMA引擎。總共有16個計算引擎,使用7nm工藝技術,在1GHz可以運行4萬億次。
由于Arm是在合作伙伴的生態系統中提供IP,因此其芯片更通用,可配置為正在開發的其他AI / ML芯片。它不是將所有內容構建為整體結構,而是按功能劃分處理,因此每個計算引擎都在不同的特征映射上工作。Bratt表示,四個關鍵要素是靜態調度,高效卷積,帶寬減少機制以及面向未來設計的可編程性。
圖2:Arm的ML處理器架構
與此同時,Nvidia采取了不同的策略,在GPU旁邊構建專用的深度學習引擎,以優化處理圖像和視頻的流量。
結論
通過利用部分或全部這些方法,芯片制造商表示,他們每兩年可以將性能提高一倍,跟上數據爆炸的步伐,同時保持在電力預算的嚴格限制范圍內。但這不僅僅是提供更多的電腦。它正在改變芯片設計和系統工程的起點,從越來越多的數據開始,而不是硬件和軟件的限制。
Synopsys董事長兼聯席首席執行官Aart de Geus表示,“當電腦進入企業時,很多人都認為世界的發展速度要快得多。”“他們用一堆會計賬簿對紙張進行會計處理。那是一個指數變化,現在我們再次看到它。什么是發展 - 這可能會給它一種更快的感覺 - 你可以從某種程度上理解穿孔卡片的會計賬簿,并將其打印出來并進行計算。在心理上,你可以遵循每一步。事實上,在一個農業領域,你只需要在某一天的溫度上升這么多,就需要澆水和某種肥料,這是機器學習的結合,這是一種優化,在過去并不明顯。
“新的架構將被接受,” 西門子 Mentor總裁兼首席執行官沃利?萊恩斯(Wally Rhines)表示。它們將被設計成在很多情況下,會有機器學習,因為你的大腦有能力從經驗中學習。我走訪了20多家公司,它們都有各自的專用人工智能處理器。但是你會越來越多地在特定的應用中看到它們,它們將補充傳統的馮·諾依曼架構。神經形態計算將成為主流,它是我們下一步如何提高計算效率,降低成本,在移動和連接環境中做事情的一個重要組成部分。”
-
處理器
+關注
關注
68文章
19312瀏覽量
230026 -
ARM
+關注
關注
134文章
9104瀏覽量
367781 -
Xilinx
+關注
關注
71文章
2167瀏覽量
121560 -
芯片架構
+關注
關注
1文章
30瀏覽量
14565
原文標題:流行數十年的主流芯片架構正在悄然巨變
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論