每個(gè)新處理器都聲稱是最快、最便宜或最省電的處理器,但這些聲明的衡量方式和支持信息可能非常有用,也可能無(wú)關(guān)緊要。
芯片行業(yè)在提供信息性指標(biāo)方面比過(guò)去更加努力。二十年前,衡量處理器性能相對(duì)容易。它是指令執(zhí)行速度、每條指令執(zhí)行多少有用工作以及信息可以從內(nèi)存讀取和寫(xiě)入內(nèi)存的速度的組合。這與它消耗的電量和成本進(jìn)行了權(quán)衡,這當(dāng)然不是那么重要。
當(dāng)Dennard Scaling下降時(shí),許多市場(chǎng)的時(shí)鐘速度不再增加,MIPS 評(píng)級(jí)停滯不前。在架構(gòu)的其他地方、內(nèi)存連接以及通過(guò)添加更多處理器進(jìn)行了改進(jìn)。但是沒(méi)有創(chuàng)建新的性能指標(biāo)。
西門子 EDA高級(jí)副總裁兼總經(jīng)理 Ravi Subramanian 表示:“在過(guò)去二十年的大部分時(shí)間里,一直處于令人毛骨悚然的沉默之中。 ” “這種沉默是由英特爾和微軟創(chuàng)造的,它們控制著計(jì)算機(jī)架構(gòu)與其上運(yùn)行的工作負(fù)載、應(yīng)用程序之間存在的契約。這推動(dòng)了計(jì)算的很大一部分,尤其是企業(yè)。我們現(xiàn)在有一些非常具體的計(jì)算類型,它們更針對(duì)特定領(lǐng)域或利基市場(chǎng),脫離了傳統(tǒng)的馮諾依曼架構(gòu)。每兆赫每毫瓦每秒的數(shù)百萬(wàn)次操作已經(jīng)趨于平緩,為了獲得更高的計(jì)算效率,必須在工作負(fù)載所有者和計(jì)算機(jī)架構(gòu)師之間建立新的合同。”
在嘗試測(cè)量處理器的質(zhì)量時(shí),考慮應(yīng)用程序變得很重要。該處理器執(zhí)行特定任務(wù)的性能如何,在什么條件下?
GPU 和 DSP 使該行業(yè)走上了特定領(lǐng)域計(jì)算的道路,但今天它正在邁向一個(gè)新的水平。“隨著經(jīng)典摩爾定律的放緩,創(chuàng)新已經(jīng)轉(zhuǎn)向特定領(lǐng)域的架構(gòu),” Synopsys Fusion Compiler 產(chǎn)品營(yíng)銷經(jīng)理 James Chuang 說(shuō)。“這些新架構(gòu)可以在相同的工藝技術(shù)上實(shí)現(xiàn)每瓦性能數(shù)數(shù)量級(jí)的提升。它們?yōu)樵O(shè)計(jì)探索開(kāi)辟了廣闊的未知空間,無(wú)論是在架構(gòu)層面還是物理設(shè)計(jì)層面。”
已經(jīng)嘗試定義模仿上一個(gè)時(shí)代的新指標(biāo)。“人工智能應(yīng)用程序需要處理器具備某些特定功能,尤其是大量的乘法/累加運(yùn)算,” AMD自適應(yīng)和嵌入式計(jì)算事業(yè)部的人工智能和軟件和解決方案產(chǎn)品營(yíng)銷總監(jiān) Nick Ni 說(shuō)。“處理器定義了它們可以執(zhí)行的每秒數(shù)萬(wàn)億次操作 (TOPS),并且這些評(píng)級(jí)一直在迅速增加,(如圖 1 所示)。但就每瓦性能或每美元性能而言,真正的性能是什么?”
圖 1:AI TOPS 評(píng)級(jí)的增長(zhǎng)。資料來(lái)源:AMD/賽靈思
隨著芯片尺寸達(dá)到分劃板限制,在芯片上包含額外的晶體管變得更加昂貴和困難,即使工藝規(guī)模擴(kuò)大,因此性能提升只能來(lái)自架構(gòu)變化或新的封裝技術(shù)。
多個(gè)較小的處理器通常比單個(gè)較大的處理器好。將多個(gè)裸片放在一個(gè)封裝中還允許與內(nèi)存和其他計(jì)算內(nèi)核的連接也進(jìn)行架構(gòu)改進(jìn)。Synopsys 的產(chǎn)品營(yíng)銷經(jīng)理 Priyank Shukla 說(shuō):“您可能將多個(gè)處理單元組合在一起以提供更好的性能。” “這個(gè)包含多個(gè)芯片的封裝將作為一個(gè)更大或更強(qiáng)大的計(jì)算基礎(chǔ)設(shè)施工作。該系統(tǒng)提供了一種業(yè)界習(xí)慣于看到的摩爾定律縮放比例。我們正在達(dá)到單個(gè)模具無(wú)法提高您的性能的極限。但現(xiàn)在這些系統(tǒng)可以在 18 個(gè)月內(nèi)為您提供 2 倍的性能提升,這正是我們所習(xí)慣的。”
工作負(fù)載正在推動(dòng)計(jì)算機(jī)體系結(jié)構(gòu)的新要求。“這些超越了傳統(tǒng)的馮諾依曼架構(gòu),”西門子的 Subramanian 說(shuō)。“許多新型工作負(fù)載需要分析,并且需要?jiǎng)?chuàng)建模型。人工智能和機(jī)器學(xué)習(xí)本質(zhì)上已成為推動(dòng)模型開(kāi)發(fā)的勞動(dòng)力。我如何根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行建模,以便我可以使用該模型進(jìn)行預(yù)測(cè)?這是一種非常新型的工作負(fù)載。這正在推動(dòng)一種關(guān)于計(jì)算機(jī)體系結(jié)構(gòu)的全新觀點(diǎn)。計(jì)算機(jī)架構(gòu)如何與這些工作負(fù)載相匹配?你可以實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)或傳統(tǒng) x86 CPU 上的 DNN。但是,如果您查看每毫瓦、每兆赫茲的數(shù)百萬(wàn)次操作,并考慮這些字長(zhǎng)、權(quán)重和深度,通過(guò)與計(jì)算機(jī)體系結(jié)構(gòu)的工作量。”
工作負(fù)載和性能指標(biāo)因位置而異。“超大規(guī)模廠商提出了不同的指標(biāo)來(lái)衡量不同類型的計(jì)算能力,”Synopsys 的 Shukla 說(shuō)。“最初他們會(huì)談?wù)撁棵?Petaflops,即他們可以執(zhí)行浮點(diǎn)運(yùn)算的速率。但隨著工作負(fù)載變得越來(lái)越復(fù)雜,他們正在定義新的指??標(biāo)來(lái)同時(shí)評(píng)估硬件和軟件。這不僅僅是原始硬件。這是兩者的結(jié)合。我們看到他們專注于一個(gè)名為 PUE 的指標(biāo),即電源使用效率。他們一直在努力減少維護(hù)該數(shù)據(jù)中心所需的電力。”
丟失的是比較任何兩個(gè)處理器的方法,除非在最佳條件下運(yùn)行特定應(yīng)用程序。即使這樣,也有問(wèn)題。處理器和使用它的系統(tǒng)能否長(zhǎng)期維持其性能?還是因?yàn)闊岫?jié)流?當(dāng)多個(gè)應(yīng)用程序同時(shí)在處理器上運(yùn)行時(shí),會(huì)導(dǎo)致不同的內(nèi)存訪問(wèn)模式怎么辦?數(shù)據(jù)中心之外的處理器最重要的特性是它的性能,還是電池壽命和功耗,還是兩者之間的某種平衡?
瑞薩電子物聯(lián)網(wǎng)和基礎(chǔ)設(shè)施業(yè)務(wù)部執(zhí)行副總裁兼總經(jīng)理Sailesh Chittipeddi 表示:“如果你退后一步,從一個(gè)非常高的水平來(lái)看,它仍然是在最低功耗下實(shí)現(xiàn)最大計(jì)算能力。” “所以你可以考慮你需要什么樣的計(jì)算能力,以及它是否針對(duì)工作負(fù)載進(jìn)行了優(yōu)化。但最終的因素是它仍然必須處于最低功耗。然后問(wèn)題就變成了,‘你是把連接放在船上,還是把它放在外面。或者在優(yōu)化功耗方面你會(huì)怎么做。這是必須在系統(tǒng)層面解決的問(wèn)題。”
測(cè)量是困難的。基準(zhǔn)測(cè)試結(jié)果不僅反映了硬件,還反映了相關(guān)的軟件和編譯器,它們比過(guò)去復(fù)雜得多。這意味著特定任務(wù)的性能可能會(huì)隨著時(shí)間而改變,而底層硬件沒(méi)有任何變化。
架構(gòu)方面的考慮并不僅僅停留在封裝的引腳上。“考慮在先進(jìn)的智能手機(jī)上拍照,”舒克拉說(shuō)。“在捕獲圖像的 CMOS 傳感器中執(zhí)行 AI 推理。其次,手機(jī)有四個(gè)核心用于額外的 AI 處理。第三級(jí)發(fā)生在數(shù)據(jù)中心邊緣。超大規(guī)模器在距數(shù)據(jù)捕獲的不同距離處推出了不同級(jí)別的推理。最后,您將擁有真正的大數(shù)據(jù)中心。AI 推理發(fā)生在四個(gè)級(jí)別,當(dāng)我們計(jì)算功率時(shí),我們應(yīng)該計(jì)算所有這些。它從物聯(lián)網(wǎng)開(kāi)始,你手中的手機(jī),一直到最終的數(shù)據(jù)中心。”
由于有如此多的初創(chuàng)公司在創(chuàng)造新的處理器,許多公司的成功或失敗很可能是因?yàn)樗麄兊能浖褩5馁|(zhì)量,而不是硬件本身。更難的是,硬件必須在知道它可能運(yùn)行什么應(yīng)用程序之前設(shè)計(jì)好。在這些情況下,甚至沒(méi)有什么可以對(duì)處理器進(jìn)行基準(zhǔn)測(cè)試。
基準(zhǔn)
基準(zhǔn)旨在提供一個(gè)公平的競(jìng)爭(zhēng)環(huán)境,以便可以直接比較兩件事,但它們?nèi)匀豢梢员徊倏v。
當(dāng)特定應(yīng)用變得足夠重要時(shí),市場(chǎng)需要基準(zhǔn),以便對(duì)其進(jìn)行評(píng)級(jí)。“有不同類型的人工智能訓(xùn)練的基準(zhǔn),”舒克拉說(shuō)。“ResNet 是圖像識(shí)別的基準(zhǔn),但這是一個(gè)性能基準(zhǔn),而不是功率基準(zhǔn)。Hyperscaler 將展示基于硬件和軟件的計(jì)算效率。有些甚至構(gòu)建了定制硬件、加速器,它可以比普通 GPU 或基于普通 FPGA 的實(shí)現(xiàn)更好地執(zhí)行任務(wù)。TensorFlow 就是與 Google TPU 結(jié)合的一個(gè)例子。他們以此為基礎(chǔ)對(duì)他們的人工智能性能進(jìn)行了基準(zhǔn)測(cè)試,但到目前為止,功率并不是等式的一部分。主要是表演。”
忽視權(quán)力是一種操縱形式。“2012 年旗艦手機(jī)的峰值時(shí)鐘頻率為 1.4GHz,” Arm技術(shù)副總裁兼研究員 Peter Greenhalgh 說(shuō)。“與今天達(dá)到 3GHz 的旗艦手機(jī)相比。對(duì)于臺(tái)式機(jī) CPU,情況更加微妙。雖然 Turbo 頻率僅比 20 年前高一點(diǎn),但 CPU 能夠在更高的頻率下停留更長(zhǎng)時(shí)間。”
但并非所有基準(zhǔn)測(cè)試的規(guī)模或運(yùn)行時(shí)復(fù)雜性都達(dá)到了這一點(diǎn)。“隨著電力消耗,溫度會(huì)升高,” Ansys PowerArtist 產(chǎn)品管理負(fù)責(zé)人 Preeti Gupta 說(shuō)。 “一旦超過(guò)某個(gè)閾值,你就必須降低性能,(如圖 2 所示)。功率、熱量和性能非常緊密地聯(lián)系在一起。不考慮其電源效率的設(shè)計(jì)將不得不為運(yùn)行速度變慢付出代價(jià)。在開(kāi)發(fā)過(guò)程中,您必須采用真實(shí)的用例,運(yùn)行數(shù)十億次循環(huán),并分析它們的熱效應(yīng)。查看熱圖后,您可能需要移動(dòng)部分邏輯以分配熱量。至少,您需要將傳感器放置在不同的位置,以便知道何時(shí)降低性能。”
圖 2:性能限制會(huì)影響所有處理器。資料來(lái)源:Ansys
隨著時(shí)間的推移,架構(gòu)會(huì)針對(duì)特定的基準(zhǔn)進(jìn)行優(yōu)化。“基準(zhǔn)不斷發(fā)展并反映現(xiàn)實(shí)世界的使用情況,使用系統(tǒng)軟件級(jí)別或硅測(cè)試階段的成熟方法相對(duì)容易創(chuàng)建和部署,”Synopsys 的 Chuang 說(shuō)。“然而,分析總是在事后進(jìn)行。芯片設(shè)計(jì)中更大的挑戰(zhàn)是如何針對(duì)這些基準(zhǔn)進(jìn)行優(yōu)化。在芯片設(shè)計(jì)階段,常見(jiàn)的功率基準(zhǔn)通常僅由統(tǒng)計(jì)切換曲線 (SAIF) 或非常短的采樣窗口(實(shí)際活動(dòng) (FSDB) 的 1 到 2 納秒)表示。更大的趨勢(shì)不是“測(cè)量什么”,而是“在哪里測(cè)量”。我們看到客戶在整個(gè)流程中推動(dòng)端到端功率分析,以準(zhǔn)確推動(dòng)優(yōu)化,
基準(zhǔn)可以識(shí)別應(yīng)用程序與其運(yùn)行的硬件架構(gòu)之間何時(shí)存在根本不匹配。“當(dāng)您在某些架構(gòu)上運(yùn)行實(shí)際工作負(fù)載時(shí),可能會(huì)出現(xiàn)主要的暗芯片,”AMD/Xilinx 的 Ni 說(shuō)。“問(wèn)題實(shí)際上在于數(shù)據(jù)移動(dòng)。您正在使引擎挨餓,這會(huì)導(dǎo)致計(jì)算效率低下。”
即使這樣也不能說(shuō)明全部。“越來(lái)越多的標(biāo)準(zhǔn)基準(zhǔn)得到了人們的認(rèn)可,”Ni 補(bǔ)充道。“這些是人們認(rèn)為最先進(jìn)的模型。但是它們?cè)谶\(yùn)行您可能關(guān)心的模型方面的效率如何?什么是絕對(duì)性能,或者您的每瓦性能或每美元性能是多少?這決定了您的機(jī)柜的實(shí)際運(yùn)營(yíng)支出,尤其是在數(shù)據(jù)中心。最佳性能或功率效率以及成本效率通常是最關(guān)心的兩個(gè)問(wèn)題。”
其他人同意。“從我們的角度來(lái)看,有兩個(gè)指標(biāo)越來(lái)越重要,” Fraunhofer IIS 自適應(yīng)系統(tǒng)部工程高級(jí)系統(tǒng)集成組負(fù)責(zé)人兼高效電子部門負(fù)責(zé)人 Andy Heinig 說(shuō)。“其中一個(gè)是功耗或每瓦的操作。隨著能源成本的增加,我們預(yù)計(jì)這將變得越來(lái)越重要。第二個(gè)增長(zhǎng)的指標(biāo)是芯片短缺。我們希望銷售設(shè)備數(shù)量最少但性能要求最高的產(chǎn)品。這意味著需要越來(lái)越多的靈活架構(gòu)。我們需要一個(gè)性能指標(biāo)來(lái)描述解決方案在針對(duì)不同應(yīng)用程序進(jìn)行更改時(shí)的靈活性。”
芯片設(shè)計(jì)的一個(gè)關(guān)鍵挑戰(zhàn)是你不知道未來(lái)的工作負(fù)載會(huì)是什么。“如果您不了解未來(lái)的工作負(fù)載,您如何實(shí)際設(shè)計(jì)與這些應(yīng)用程序完美匹配的架構(gòu)?” 蘇布拉曼尼安問(wèn)道。“這就是我們看到計(jì)算機(jī)架構(gòu)真正出現(xiàn)的地方,首先是了解工作負(fù)載、剖析和了解數(shù)據(jù)流、控制流和內(nèi)存訪問(wèn)的最佳類型,這將顯著降低功耗并提高計(jì)算的能效。 這真的歸結(jié)為您花費(fèi)了多少精力來(lái)進(jìn)行有用的計(jì)算,以及您花費(fèi)了多少精力來(lái)移動(dòng)數(shù)據(jù)?對(duì)于應(yīng)用程序類型,總體概況是什么樣的?”
-
處理器
+關(guān)注
關(guān)注
68文章
19348瀏覽量
230261 -
dsp
+關(guān)注
關(guān)注
554文章
8030瀏覽量
349345 -
gpu
+關(guān)注
關(guān)注
28文章
4753瀏覽量
129061
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論