人工智能正在不僅僅是芯片和系統(tǒng)設(shè)計的話題,它承擔(dān)著越來越復(fù)雜的任務(wù),這些任務(wù)現(xiàn)在已成為許多市場的競爭要求。
但是,人工智能及其機(jī)器學(xué)習(xí)和深度學(xué)習(xí)子類別的加入也給電子產(chǎn)品的各個方面注入了廣泛的混亂和不確定性。這部分是因?yàn)樗婕霸S多不同的設(shè)備和流程,部分原因是人工智能本身在不斷變化。
人工智能涵蓋了從訓(xùn)練算法到推理的方方面面。它包括大量的訓(xùn)練計劃,以及可以適應(yīng)微型物聯(lián)網(wǎng)設(shè)備的tinyML算法。此外,它越來越多地用于芯片設(shè)計的許多方面,以及在晶圓廠中,以關(guān)聯(lián)來自這些芯片的制造、檢查、計量和測試的數(shù)據(jù)。它甚至在現(xiàn)場用于識別故障模式,這些模式可以反饋到未來的設(shè)計和制造過程中。
在這個廣泛的應(yīng)用程序和技術(shù)集合中,有幾個共同的目標(biāo):
- 減少 AI/ML/DL 計算所需的能量;
- 更快地獲得結(jié)果,這需要更多的并行化和吞吐量,以及硬件和軟件的基本架構(gòu)更改,以及
- 提高了這些結(jié)果的準(zhǔn)確性,這會影響功耗和性能。
- 效率更高
對于任何 AI 風(fēng)格或應(yīng)用,每瓦或每次操作的性能都是一個關(guān)鍵指標(biāo)。需要生成和存儲能量以執(zhí)行 AI/ML/DL 計算,并且在資源、公用事業(yè)和面積方面存在相關(guān)成本。
算法的訓(xùn)練通常涉及乘法/累加運(yùn)算的大規(guī)模并行化。效率來自超大規(guī)模數(shù)據(jù)中心中計算元素的彈性——能夠根據(jù)需要增加計算資源,并在不需要時將其轉(zhuǎn)移到其他項(xiàng)目——以及更智能地使用這些資源以及越來越精細(xì)的稀疏性模型。
谷歌首席科學(xué)家杰夫·迪恩(Jeff Dean)指出了機(jī)器學(xué)習(xí)模型的三個趨勢——稀疏性、自適應(yīng)計算和動態(tài)變化的神經(jīng)網(wǎng)絡(luò)。“密集模型是指為每個輸入示例或生成的每個代幣激活整個模型的模型,”他在最近的Hot Chips會議上的演講中解釋道?!半m然它們很棒,并且已經(jīng)取得了重要成就,但稀疏計算將成為未來的趨勢。稀疏模型具有不同的路徑,可以根據(jù)需要自適應(yīng)調(diào)用。
正在改變的是人們認(rèn)識到,這些稀疏模型可以更智能地跨處理元素進(jìn)行分區(qū)?!霸诿總€示例上花費(fèi)相同數(shù)量的計算是沒有意義的,因?yàn)橛行┦纠碾y度是原來的 100 倍,”Dean 說。“因此,我們應(yīng)該將100倍的計算花在真正困難的事情上,而這些事情非常簡單。
圖 1:具有粒度稀疏性的自適應(yīng)計算。資料來源:Google/Hot Chips 2023
邊緣的資源和計算模型有很大不同,但抽象、自定義和調(diào)整大小的相同基本原則仍然適用。
抽象更多的是著眼于局部和系統(tǒng)級別的權(quán)衡。例如,基本上可以硬連接處理器或加速器的某些元素,同時提供足夠的靈活性來整合未來的變化。當(dāng)一個器件可能用于多個應(yīng)用,并且芯片的預(yù)期壽命足夠長以保證一定程度的可編程性時,這尤其有用。這與為先進(jìn)節(jié)點(diǎn) SoC 開發(fā)的一些模擬 IP 的方法類似,其中大部分架構(gòu)都是數(shù)字架構(gòu)。
Flex Logix首席技術(shù)官兼聯(lián)合創(chuàng)始人Cheng Wang表示:“重要的是,從這些硬連線塊饋入和饋出的內(nèi)存或數(shù)據(jù)路徑能夠支持我們需要的排列,因?yàn)楹芏鄷r候,對于AI工作負(fù)載,訪問模式可能有點(diǎn)不穩(wěn)定?!皩τ谌斯ぶ悄軄碚f,這也是很常見的,在將數(shù)據(jù)輸入引擎之前,你需要添加一些偏移量作為數(shù)據(jù)的一些比例因子。當(dāng)然,引擎是硬連線的,輸出必須經(jīng)過一些靈活的激活功能,并根據(jù)工作負(fù)載的需求路由到SRAM或DRAM或兩者兼而有之。因此,所有這些靈活性都是必需的,并且需要到位以保持MAC的效率。例如,如果您的內(nèi)存帶寬不足,則必須停止,在這種情況下,MAC的速度有多快都無關(guān)緊要。如果你停滯不前,你將以內(nèi)存的速度運(yùn)行,而不是以計算機(jī)的速度運(yùn)行。
合理調(diào)整規(guī)模
出于類似的原因,內(nèi)存架構(gòu)也在發(fā)生變化。“人工智能越來越多地被用于提取有意義的數(shù)據(jù)并將其貨幣化,”Rambus的研究員和杰出發(fā)明家Steven Woo在最近的一次演講中說?!八_實(shí)需要非常快的內(nèi)存和快速接口,不僅用于服務(wù)器,還用于加速引擎。我們看到對性能更快的內(nèi)存和互連的無情需求,我們預(yù)計這一趨勢將持續(xù)到未來很長一段時間。我們看到該行業(yè)正在做出回應(yīng)。數(shù)據(jù)中心正在不斷發(fā)展,以滿足數(shù)據(jù)驅(qū)動型應(yīng)用程序(如人工智能和其他類型的服務(wù)器處理)的需求。隨著我們從 DDR4 過渡到 DDR5,我們看到主內(nèi)存路線圖發(fā)生了變化,我們也看到 CXL 等新技術(shù)進(jìn)入市場,因?yàn)閿?shù)據(jù)中心從更多的專屬資源演變?yōu)槌鼗Y源,可以改善我們今天所處的水平的計算。
同樣的趨勢也在重新定義邊緣?!靶酒M制造商正在與芯片開發(fā)團(tuán)隊(duì)合作,從系統(tǒng)的角度來看待它的性能和功耗,”華邦市場主管C.S. Lin說?!澳敲磳τ谶@種產(chǎn)品,你需要什么樣的帶寬呢?而SoC端需要什么樣的工藝,需要什么樣的內(nèi)存?例如,所有這些都需要配對在一起才能實(shí)現(xiàn)每秒 32 Gb 的速度(對于 NVMe PCIe Gen 3)。然后,為了做到這一點(diǎn),你需要在芯片中集成一個協(xié)議,只有最先進(jìn)的工藝才能提供這種東西。
無論是云還是邊緣,AI 應(yīng)用程序越來越需要定制和調(diào)整規(guī)模。如今,幾乎所有的算法訓(xùn)練都是在大型數(shù)據(jù)中心完成的,其中MAC功能的數(shù)量可以增加或減少,計算可以在不同的元素之間進(jìn)行分區(qū)。隨著算法變得更加成熟、稀疏和越來越個性化,這種情況可能會改變。但大多數(shù)計算世界將利用這些人工智能算法進(jìn)行推理,至少目前是這樣。
“到75年,大約2025%的數(shù)據(jù)將來自網(wǎng)絡(luò)的邊緣和端點(diǎn),”瑞薩電子執(zhí)行副總裁Sailesh Chittipeddi在SEMICON West的小組討論中表示。“你預(yù)測邊緣和端點(diǎn)發(fā)生的情況的能力確實(shí)產(chǎn)生了巨大的影響。當(dāng)您想到計算時,您會想到微控制器、微處理器以及 CPU 和 GPU。最新的嗡嗡聲都是關(guān)于 GPU 以及 GPT3 和 GPT4 正在發(fā)生的事情。但這些都是大型語言模型。對于大多數(shù)數(shù)據(jù)集,你不需要如此巨大的處理能力。
邊緣的挑戰(zhàn)之一是快速丟棄無用的數(shù)據(jù),只保留需要的數(shù)據(jù),然后更快地處理這些數(shù)據(jù)。“當(dāng)人工智能處于邊緣時,它正在與傳感器打交道,”艾伯德首席科學(xué)家兼聯(lián)合創(chuàng)始人Sharad Chole說?!皵?shù)據(jù)是實(shí)時生成的,需要處理。因此,傳感器數(shù)據(jù)的傳入方式以及 AI NPU 處理數(shù)據(jù)的速度會改變很多事情,包括需要緩沖的數(shù)據(jù)量、需要使用多少帶寬以及整體延遲。目標(biāo)始終是盡可能低的延遲。這意味著從傳感器輸入到輸出的延遲應(yīng)該盡可能低,輸出可能會進(jìn)入應(yīng)用處理器進(jìn)行進(jìn)一步的后處理。我們需要確保我們能夠以確定性的方式提供這些數(shù)據(jù)作為保證。
準(zhǔn)確性的代價
對于任何 AI 應(yīng)用程序,性能都是衡量獲得結(jié)果時間的指標(biāo)。人工智能系統(tǒng)通常會在乘法/累加元素之間劃分計算以并行運(yùn)行,然后盡快收集和混合結(jié)果。獲得結(jié)果的時間越短,所需的能源就越多,這就是為什么圍繞加工元素和架構(gòu)的定制有如此多的嗡嗡聲。
通常,需要更多的計算元素才能在更短的時間內(nèi)生成更準(zhǔn)確的結(jié)果。這在某種程度上取決于數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量需要既好又相關(guān),并且需要針對任務(wù)對算法進(jìn)行適當(dāng)?shù)挠?xùn)練。通用處理器的效率較低,通用算法也是如此。此外,對于許多終端應(yīng)用來說,人工智能的數(shù)量(包括機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等子類別)可能會受到整體系統(tǒng)設(shè)計的限制。
這是一個架構(gòu)改進(jìn)的成熟領(lǐng)域,一些創(chuàng)新的權(quán)衡開始出現(xiàn)。例如,Arm 首席 CPU 架構(gòu)師兼研究員 Magnus Bruce 表示,Arm 專門為云、高性能計算和 AI/ML 工作負(fù)載創(chuàng)建了一個新的 Neoverse V2 平臺。在最近的 Hot Chips 會議上的一次演講中,他強(qiáng)調(diào)了分支預(yù)測與提取的分離,以提高分支預(yù)測管道中的性能,以及包括準(zhǔn)確性監(jiān)控在內(nèi)的高級預(yù)取。簡而言之,目標(biāo)是更精細(xì)地預(yù)測芯片的下一步操作,并在出現(xiàn)錯誤預(yù)測時縮短恢復(fù)時間。
圖 2:基于精度提高的架構(gòu)和微架構(gòu)效率。資料來源: Arm/Hot Chips 23
使用 AI進(jìn)行設(shè)計
除了架構(gòu)更改之外,人工智能還可能幫助改進(jìn)、加速硬件設(shè)計。
“客戶關(guān)心的基本指標(biāo)仍然是功耗、性能、面積和進(jìn)度,”Synopsys EDA 部門總經(jīng)理 Shankar Krishnamoorthy 說?!暗淖兊氖牵捎谪?fù)載復(fù)雜性、設(shè)計復(fù)雜性和驗(yàn)證復(fù)雜性,實(shí)現(xiàn)這一目標(biāo)的工程成本急劇上升。有幾位客戶告訴我們,這是必不可少的 4 倍的工作量。他們幾乎不能再增加 10% 或 20% 的工程師,那么誰來縮小這一差距呢?這確實(shí)是人工智能介入的地方,在幫助解決這個問題方面,它已經(jīng)成為一個很大的顛覆者。
其他人也同意?!癆I/ML是一個熱門話題,但它改變了哪些市場,并撼動了人們以前沒有想到的市場?EDA就是一個很好的例子,“Quadric營銷副總裁Steve Roddy說?!敖?jīng)典合成/布局布線的核心是從一種抽象到另一種抽象的轉(zhuǎn)換。從歷史上看,這是通過啟發(fā)式方法、編譯器創(chuàng)建者和生成器完成的。突然之間,如果你能使用機(jī)器學(xué)習(xí)算法來加速或獲得更好的結(jié)果,你就完全擾亂了現(xiàn)有的行業(yè)。機(jī)器學(xué)習(xí)的出現(xiàn)是否會動搖一些現(xiàn)有的硅平臺?我的筆記本電腦會繼續(xù)使用四核處理器,還是會突然讓機(jī)器學(xué)習(xí)處理器定期完成大量工作?圖形一直是一場持續(xù)的競賽,以在手機(jī)和電視上獲得更高的圖形生成以獲得更清晰的分辨率,但人們越來越多地談?wù)摬渴饳C(jī)器學(xué)習(xí)升級。因此,您可以使用低得多的分辨率使用 GPU 渲染某些內(nèi)容,并使用機(jī)器學(xué)習(xí)算法對其進(jìn)行升級。然后,您就不再是可以將多少個 GPU 集成到手機(jī)中并保持在電源包中。而是,“讓我回到五代,擁有更小、更節(jié)能的 GPU,并對其進(jìn)行升級,因?yàn)橐苍S人眼看不到它?;蛘?,根據(jù)照明和一天中的時間,您可以以不同的方式對其進(jìn)行升級。這些事情會讓標(biāo)準(zhǔn)變得不合時宜。
這對于加快設(shè)計的復(fù)雜建??赡芴貏e有用,特別是當(dāng)同一芯片或同一封裝中有許多不同的計算元素時。“如果你在模型中加入太多的依賴關(guān)系,那么模擬它們需要比實(shí)際更多的時間,”Fraunhofer IIS自適應(yīng)系統(tǒng)工程部設(shè)計方法負(fù)責(zé)人Roland Jancke說?!叭缓竽氵^度設(shè)計了模型。但是,建模始終是盡可能抽象和準(zhǔn)確的問題。多年來,我們一直建議采用多層次的方法,這樣你就有了不同層次抽象的模型,而你想真正研究的地方,你就更深入地了解更多細(xì)節(jié)。
人工智能可能會有很大幫助,因?yàn)樗軌蜿P(guān)聯(lián)數(shù)據(jù),這反過來又應(yīng)該會支持人工智能市場,因?yàn)樵O(shè)計過程可以自動化,用于開發(fā)人工智能芯片和芯片本身。
Synopsys的Krishnamoorthy表示:“目前,AI芯片社區(qū)的收入約為20億至30億美元,預(yù)計到本世紀(jì)末將增長到100億美元。“[在EDA方面],它是關(guān)于如何優(yōu)化設(shè)計以獲得更好的PPA,并與經(jīng)驗(yàn)早期的工程師一起獲得專家級質(zhì)量的結(jié)果。在驗(yàn)證的情況下,它實(shí)現(xiàn)了比當(dāng)前方法更高的覆蓋率,因?yàn)槿斯ぶ悄芸梢宰灾魉阉鞲蟮目臻g。在測試的情況下,它減少了測試儀上的圖案計數(shù),這直接轉(zhuǎn)化為測試成本和測試時間。在定制設(shè)計的情況下,它會自動將模擬電路從 5nm 遷移到 3nm,或從 8nm 遷移到 5nm。在過去,這曾經(jīng)是手動工作。
定制價格
但是,即使在設(shè)計最好的系統(tǒng)中,也存在許多變量和意想不到的結(jié)果,它們會影響從數(shù)據(jù)路徑建模到MAC功能如何在不同處理元素之間分區(qū)的方方面面。例如,這種分區(qū)可能在晶圓廠或封裝廠中得到完美調(diào)整,但隨著加工元件的老化,它們可能會不同步,使其中一些元件在等待其他元件完成加工時閑置并燃燒電力。同樣,互連、存儲器和 PHY 可能會隨著時間的推移而退化,從而產(chǎn)生時序問題。更糟糕的是,算法中幾乎不斷的變化可能會對整體系統(tǒng)性能產(chǎn)生重大影響,遠(yuǎn)遠(yuǎn)超出單個MAC元素。
在過去的十年中,其中許多問題已經(jīng)在大型系統(tǒng)公司內(nèi)部得到解決,這些公司越來越多地設(shè)計自己的芯片供內(nèi)部使用。隨著越來越多的計算轉(zhuǎn)移到邊緣,這種情況正在發(fā)生變化,在邊緣,功耗直接影響車輛每次充電的行駛里程,或者如果可穿戴設(shè)備執(zhí)行的操作超過最基本的操作,它的實(shí)用性會有多大。
這里的關(guān)鍵是了解這些設(shè)計中要整合多少 AI,以及 AI 究竟應(yīng)該做什么。高效的 SoC 通常會根據(jù)需要使用可能較暗或“熱”的處理內(nèi)核來打開和關(guān)閉各種組件。但是,高效的 AI 架構(gòu)可以使許多處理元素以最大速度運(yùn)行,因?yàn)樗鼘⒂嬎惴纸鉃椴⑿胁僮鳎缓笫占Y(jié)果。如果其中任何一個元素的計算延遲,就會浪費(fèi)時間和精力。如果做得好,這可能會導(dǎo)致超快的計算速度。然而,這種速度確實(shí)是有代價的。
其中一個問題是,學(xué)習(xí)并沒有在整個行業(yè)中得到廣泛共享,因?yàn)槠渲性S多前沿設(shè)計都是為系統(tǒng)公司的內(nèi)部使用而開發(fā)的。這減緩了知識轉(zhuǎn)移和行業(yè)學(xué)習(xí)的速度,而這些知識轉(zhuǎn)移和行業(yè)學(xué)習(xí)通常發(fā)生在處理器系列的每個新版本或市場上用戶審查的消費(fèi)產(chǎn)品中。
結(jié)論
雖然圍繞 AI/ML/DL 有很多嗡嗡聲,但它不再是炒作。它正在實(shí)際應(yīng)用中使用,并且隨著設(shè)計團(tuán)隊(duì)找出最有效的方法以及如何將其應(yīng)用于他們的設(shè)計,它只會在效率、性能和準(zhǔn)確性方面得到提高。幾乎可以肯定的是,會有一些小問題和更多的不確定性,比如人工智能在適應(yīng)和優(yōu)化系統(tǒng)時如何隨著時間的推移而老化。但毫無疑問,在可預(yù)見的未來,人工智能已經(jīng)到來,只要有足夠的資源和興趣,它就會繼續(xù)變得更好。
“您今天看到的真實(shí)用例每天都在發(fā)生,甚至從語音處理開始,”瑞薩電子的Chittipeddi說?!斑@在10年前是不可能的。從根本上改變的是將人工智能應(yīng)用于實(shí)際用例的能力。它正在改變景觀。
審核編輯:黃飛
評論
查看更多