色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MCM應(yīng)用于GPU還需要多久

FPGA之家 ? 來源:FPGA之家 ? 作者:FPGA之家 ? 2022-08-14 14:50 ? 次閱讀

消費用戶市場,普通用戶都能用上16核甚至64核處理器的PC。這可不是單純堆核心就完事兒的。以當前CPU核心的規(guī)模,和可接受的成本,消費電子設(shè)備上一顆芯片就達到這種數(shù)量的核心數(shù)目,與chiplet的應(yīng)用是分不開的。

Chiplet是這兩年業(yè)界的香餑餑。前不久的ISSCC會議上,chiplet也是今年的熱門議題。AMD從Zen架構(gòu)開始,Ryzen系列處理器就全面應(yīng)用了chiplet技術(shù)。Chiplet并不是什么新技術(shù),更早提的MCM(multi-chip module)就是應(yīng)用了chiplet的一種芯片方案。

簡單來說,MCM通常是指將多個die(多個IC或chips)封裝到一起的多芯片模組。構(gòu)成MCM的一個個die,或者功能電路模塊,即是chiplet。多個chiplet之間能夠協(xié)作,構(gòu)成更大的芯片,也就是MCM(有時,MCM/Multi-chip Package又被當做某一類封裝方式)。

不過本文探討的MCM/chiplet可能有一定程度的窄化,這里不探討類似Intel Kaby Lake G那一類方案,即便它算是典型的chiplet應(yīng)用(以及像很多近代Intel處理器那樣只將處理器die和PCH die分開的那類chiplet,以及HBM存儲chiplet)。可能單純稱其為MCM會更合理。

以AMD的Ryzen 3000系列處理器為例,每4個核心(外加cache)組成一個CCX,兩個CCX就組成一個CCD——也就是一個die或chiplet。一顆處理器芯片上就會有多個這樣的CCD。另外還有個I/O die作為通訊中心(cIOD),連接各個die,如上圖所示。

值得一提的是,Ryzen 3000處理器的CCD部分制造采用7nm工藝,而cIOD則選擇了12nm工藝,這就很能體現(xiàn)chiplet在制造上物盡其用、節(jié)約成本的優(yōu)越性了。

如果說處理器的chiplet/MCM商用已經(jīng)全面落地,那么die size更大的GPU能不能也采用MCM的方案?這是本文要探討的話題,MCM應(yīng)用于GPU還需要多久?借此也能窺見chiplet作為此類高算力芯片的技術(shù)方向時,半導(dǎo)體制造已經(jīng)走到了哪里。

當GPU的die尺寸大到嚇人的程度時

如果只看消費市場,骨灰級玩家對GPU算力的追求是無止盡的。只怕算力不夠,不怕價格、功耗有多夸張。圖形算力的饑渴從未停止過:1998年3dfx引入SLI技術(shù),即2個或者更多的顯卡一起上,實現(xiàn)更大規(guī)模的圖形并行計算。

SLI同類技術(shù)(包括AMD的CrossFire)并未大規(guī)模普適,主要是因為這樣的技術(shù)不僅有硬件級別的支持要求,而且對游戲開發(fā)者也有要求。在很多不支持多GPU并行計算的游戲中,此類方案甚至?xí)钣螒蝮w驗變差。不過多GPU擴展的方案,在當代數(shù)據(jù)中心還是比較常見的。

基于這個思路,如果將多GPU的層級下沉到多die——也就是一個GPU之上,有多個chiplet,堆砌更多的圖形計算單元,好像也是完全行得通的方案。只不過多GPU(或多芯顯卡)需要跨系統(tǒng)或者跨板級,而多die則是基于同一個基板的封裝級方案,延遲和帶寬理論上也比跨PCB板更有優(yōu)勢才對。

那么為什么不直接將現(xiàn)在的GPU做得更大,在一顆die上堆更多的計算資源呢(也就是所謂的monolithic)?如果摩爾定律恒定持續(xù),同面積內(nèi)容納更多晶體管,則這種方案是可持續(xù)的。但在摩爾定律放緩的情況下,要在一顆die上塞下更多的圖形計算核心,尺寸和成本都是無法接受的。

目前的顯卡主流產(chǎn)品,AMD Radeon RX 6900XT的單die尺寸達到了519mm2,英偉達Geforce RTX 3090則達到628mm2。這種die尺寸也算是不惜血本的代表了,逐漸逼近光刻機可處理的最大尺寸(rectile limit, 858mm2)。未來再給GPU加計算核心,單die方案會有極大難度。這是GPU考慮MCM/chiplet方案的先決條件。

從成本來看,這個問題大概會更明朗。即便不考慮切割大面積晶圓可能造成良率低下的問題,更小die也能帶來更高的成本效益。300mm的wafer滿打滿算造114片22x22mm(接近Vega 64尺寸)片單die;如果切分成更小的11x11mm,即原有每片die可獲得4片更小的die,則很大程度減少了晶圓切割邊緣浪費,就能造488片die——如果這些die在理想情況下每4片組成一顆MCM芯片,則產(chǎn)量就高了大約8%。

當然這其中并未考慮wafer不同形狀的優(yōu)化方案,也沒有考慮制造缺陷之類的問題,而且MCM芯片還需要耗費更多的die來做專門的通訊(比如前文提到Ryzen處理器的I/O die)。但chiplet/MCM能夠?qū)崿F(xiàn)的成本節(jié)約仍然是顯著的。

EE Times專欄作者Don Scansen前不久撰文提到,“AMD計算出,以Chiplet方法制作EPYC處理器時,會需要比單一芯片多出10%的硅晶圓面積做為裸晶對裸晶(die-to-die)的通訊功能區(qū)塊、冗余邏輯(redundant logic)以及其他附加功能,但最后整個chiplet形式處理器的芯片成本,比單芯片處理器節(jié)省了41%。”

總結(jié)一句話,chiplet/MCM本質(zhì)上是在摩爾定律止步不前的當下,為進一步提高芯片算力,采用的一種控制成本的方案。這里的成本控制實際上還表現(xiàn)在IP的復(fù)用和彈性,chiplet有時可以“復(fù)制粘貼”的模塊化方式,靈活地存在于芯片之上。AMD如今的Ryzen處理器能夠如此便捷地堆核心,并且在多線程性能表現(xiàn)出對Intel的碾壓優(yōu)勢,和chiplet是分不開的。

GPU應(yīng)用chiplet的阻礙

不過GPU要應(yīng)用chiplet卻并不是一件簡單的事,就好像顯卡SLI(或雙芯顯卡)經(jīng)過了這么多年,都并未普及開一樣。Raja Koduri此前還在AMD的時候提過,GPU可能會采用Infinity Fabric方案(AMD Ryzen處理器的一種互聯(lián)方案);這在當時被認為是MCM型GPU提出的依據(jù)。不過眾所周知Raja Koduri后來就離開了AMD,此間規(guī)劃的延續(xù)性是未知的。

df6d6c10-1aa0-11ed-ba43-dac502259ad0.png

2019年英偉達宣布實驗室打造一款名為RC18的AI處理器。這顆處理器采用16nm工藝,更重要的是選擇了多die解決方案。芯片整體包含36個小型模塊,每個模塊主要由16個PE(Processing Elements)構(gòu)成,外加RISC-V核及對應(yīng)的緩存,另外還有英偉達的GRS(Ground-Referenced Signaling)互聯(lián)。當時英偉達提到,RC18的存在表明很多技術(shù)的可行性,包括可擴展的深度學(xué)習(xí)架構(gòu),以及高效的die-to-die方案。

這顆芯片對于未來的chiplet型GPU而言可能是個重要模板。不過對于圖形計算的GPU而言,在同一顆芯片上渲染畫面幀,要分配到不同chiplet之上,難度還是會比這類AI芯片更大的。2018年AMD RTG團隊高級副總裁David Wang在接受PCGamesN采訪時,曾經(jīng)提到過MCM GPU要實現(xiàn)起來并不簡單。“我們在看MCM型的實現(xiàn)方法,但目前尚無法定論,傳統(tǒng)游戲圖形計算會應(yīng)用類似技術(shù)。”

“從某種角度來看,其實這也就是在單一封裝上去做CrossFire(AMD版的SLI方案)。其挑戰(zhàn)在于,我們需要能夠做到在硬件層面對開發(fā)者不可見,否則其發(fā)展就不會順利。”而且,“GPU在NUMA(非一致性內(nèi)存訪問)架構(gòu)以及一些特性方面有著一定的限制……”,尤其相比CPU,圖形計算負載的這種設(shè)定會更有難度。

這話的意思是指,第一,如果MCM GPU需要游戲開發(fā)者去花額外的時間做開發(fā)上的調(diào)整,或者增加開發(fā)難度,則成為推廣MCM GPU的阻礙。第二,不同die之間互聯(lián)效率、數(shù)據(jù)一致性問題:包括在chiplet之間切分圖形計算管線,以及彼此之間存儲訪問的差異性,都會給設(shè)計帶來更高的復(fù)雜度。

SLI——即以前的多GPU(或板級多芯片GPU)方案實際上是這兩個問題的放大版本。面向開發(fā)者時開發(fā)難度大;不同GPU之間的工作部署有難度。(而且多GPU方案非常依賴于多層級的系統(tǒng)互聯(lián),這個過程中的數(shù)據(jù)遷移、同步帶來的功耗問題也比較大;所以最終互聯(lián),達成的有效帶寬和每比特消耗的能量都不盡人意)

其中后一個問題也是chiplet技術(shù)演進探討的熱門議題,即便已經(jīng)商用的chiplet CPU產(chǎn)品,依舊在互聯(lián)方面有著持續(xù)改進的空間。

Chiplet即將應(yīng)用于GPU的幾個先兆

MCM GPU真正在這兩年呼聲特別高也不是沒有原因的。其中有幾件標志性事件可能表明MCM GPU離我們并不遙遠了——即便最早一批MCM GPU可能會是面向數(shù)據(jù)中心的,并在后續(xù)才逐漸下放到游戲和圖形計算市場。

首先是Intel這邊,Raja Koduri(沒錯,就是之前AMD的那位)今年一月份在Twitter上發(fā)布了一條推文,展示Intel即將推向市場的Xe HPC,如上圖所示——有關(guān)Xe GPU,此前介紹十一代酷睿的核顯文章曾大致談到過。Xe面向HPC高性能計算時,作為獨立GPU形態(tài)存在。

這枚代號為Ponte Vecchio的芯片看起來還是蔚為壯觀的。就這張圖片來看,這顆GPU計算核心可能主要由上下兩個chiplet構(gòu)成,圍繞四周的應(yīng)該是HBM存儲,還有I/O或者其他屬于Xe特性的組成部分。Chiplet之間可能采用Intel的EMIB(Embedded Multi-die Interconnect Bridge)連接。此前Intel也提過Ponte Vecchio之上應(yīng)用了Foveros 3D堆疊技術(shù),具體情況未知。不過chiplet在GPU上的應(yīng)用,或者說真正的MCM GPU,在此也是初見端倪的。

除此之外,2019年底Twitter傳出一則泄露消息,稱英偉達新一代Hopper架構(gòu)(Ampere后續(xù)架構(gòu))GPU將以MCM的形態(tài)問世。

dfb08ebe-1aa0-11ed-ba43-dac502259ad0.png

來源:MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability, Nvidia

事實上,英偉達在2017年的ISCA上就發(fā)表過一篇題為MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability的paper。雖然這篇paper中提到的方法,只是在英偉達實驗室里以模擬的方式將MCM GPU,與單die GPU和多GPU方案進行比較,不過表明英偉達的確是有在探討其可行性的。

這篇paper有具體探討不同層級的多芯片方案,比如SLI那樣的多顯卡方案,以及板級多芯方案、同封裝下的多die方案、單die方案等,互聯(lián)帶寬和開銷問題;并且認定當代技術(shù)儲備,比如說substrate尺寸、die之間信號通訊技術(shù)(如英偉達的GRS)都正走向成熟,給MCM GPU的實現(xiàn)開創(chuàng)了技術(shù)條件。

dfc52dc4-1aa0-11ed-ba43-dac502259ad0.png

dfdda250-1aa0-11ed-ba43-dac502259ad0.png

此外這篇paper提到了幾個優(yōu)化方案,包括引入L1.5 cache,不同chiplet之間線程調(diào)度和數(shù)據(jù)劃分方案。從這套方案的結(jié)果來看(如上圖),雖然某些測試項有不盡人意之處,但整體上MCM GPU能夠?qū)崿F(xiàn)在性能上比多GPU方案的顯著領(lǐng)先(且功耗遙遙領(lǐng)先,0.5 pJ/bit vs 10 pJ/bit),而且性能較同計算硬件資源的單die方案,并沒有太大損失(而且需要注意,這種單die方案現(xiàn)實中是造不出來的)。而相比目前能夠制造的最大單die方案(128 SM單元),英偉達預(yù)設(shè)中的這套方案有45.5%的性能優(yōu)勢。

文中提及將這樣的方案應(yīng)用在HPC大規(guī)模集群中,能夠極大提升性能密度,系統(tǒng)層級減少機柜數(shù)量,以及對應(yīng)的系統(tǒng)級網(wǎng)絡(luò)、通訊規(guī)模變小。最終實現(xiàn)通訊、供電、制冷系統(tǒng)的耗電量極大節(jié)約。只不過這篇paper,整體上更多仍停留于紙面和模擬。

dff01714-1aa0-11ed-ba43-dac502259ad0.png

最后AMD作為已經(jīng)在CPU之上推開chiplet的市場玩家,今年年初浮現(xiàn)一則其2019年申請的專利,名為”GPU Chiplets using High Bandwidth Crosslinks”。這項專利的很大一部分,旨在解決MCM GPU在開發(fā)層面困難的問題。

這項專利提到系統(tǒng)中包含一個CPU。它在通訊上與GPU chiplet陣列的第一顆chiplet連接。CPU和這顆GPU chiplet通過一條總線連接;而這顆GPU chiplet和后面的chiplet則通過一種passive crosslink連接。這里的passive crosslink實際上是個被動interposer die,專門用于chiplet之間的通訊,以及負責(zé)將SoC功能切分成更小的chiplet。(如上圖所示)

e004dbc2-1aa0-11ed-ba43-dac502259ad0.png

針對存儲一致性問題,每顆GPU chiplet都會有其各自的LLC(last-level cache),也就是L3 cache。LLC跨所有的chiplet實現(xiàn)一致性,也是實現(xiàn)跨chiplet存儲一致性乃至提升MCM GPU效率的關(guān)鍵。

這套系統(tǒng)中,僅第一顆GPU chiplet接收來自CPU的請求,這樣一來對CPU而言,GPU就好像是傳統(tǒng)的單die方案一樣,對圖形計算開發(fā)也就比較友好了。未知AMD是否已將這項專利付諸實現(xiàn),GPU本身內(nèi)部的通訊延遲理論上可能會更高。

不過如前所述,MCM GPU最早應(yīng)用的理論上可能還是數(shù)據(jù)中心、HPC這些領(lǐng)域。畢竟如英偉達在paper中所述,這樣的設(shè)計對于數(shù)據(jù)中心具備了更天然的替代優(yōu)勢。而在技術(shù)逐步準備就緒之際,MCM GPU的出現(xiàn)的確只是時間問題,包括下放到游戲市場。Intel、AMD和英偉達,哪家將率先踏出這一步,也是值得拭目以待的。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19349

    瀏覽量

    230298
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4754

    瀏覽量

    129074
  • MCM
    MCM
    +關(guān)注

    關(guān)注

    1

    文章

    68

    瀏覽量

    22353

原文標題:GPU越做越大,快到極限了怎么辦?

文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    ADC324x的CLK和SYSREF信號由CDCE62005提供合適嗎?是否還需要向FPGA提供SYSREF信號?

    你好,我想將ADC324X采集到的數(shù)據(jù)給FPGA,實在不太確定這個SYSREF信號怎么配置,如下圖所示。ADC324x的CLK和SYSREF信號由CDCE62005提供合適嗎?是否還需要向FPGA
    發(fā)表于 01-02 06:15

    ADS1293EVM如果用ubs連接電腦,還需要外部供電嗎?

    你好,我是一名在校大學(xué)生,剛剛接觸ADS1293問題多多,請問如果用ubs連接電腦,還需要外部供電嗎?是不是只需要四根線將電極和輸入端口連接,就可以用自帶的軟件測出心電圖?萬分感謝!
    發(fā)表于 01-01 06:42

    請問DP83822IRHB該PHY要配成RGMII時,到底還需要哪些配置?

    XI_50配置成0,那么就配置成了RGMII,時鐘25MHz的模式。 但是當RX_ER配成模式2或3時,無法進行以太網(wǎng)通訊,發(fā)現(xiàn)沒有TX_CK;而當RX_ER配置成模式4時,雖然也無法進行以太網(wǎng)通訊,但是TX_CK是存在的。 請問DP83822IRHB該PHY要配成RGMII時,到底還需要哪些配置,謝謝!
    發(fā)表于 12-16 08:09

    DAC5681z從FPGA讀數(shù)據(jù),為什么還需要一個DCLKP/N呢?

    以DAC5681z為例,DAC芯片從FPGA讀數(shù)據(jù),然后按照自己的采樣速率CLKIN/CLKINC 每隔16bit轉(zhuǎn)換成1個電平值,為什么還需要一個DCLKP/N呢?
    發(fā)表于 12-11 07:52

    企業(yè)上云后還需要數(shù)據(jù)庫運維嗎?真實答案看過來!

    企業(yè)上云后還需要數(shù)據(jù)庫運維嗎?企業(yè)上云后,數(shù)據(jù)庫運維仍然是必不可少的。盡管云計算帶來了許多便利和自動化功能,但數(shù)據(jù)庫作為企業(yè)核心數(shù)據(jù)存儲和管理的關(guān)鍵組件,其運維工作依然需要高度重視。以下是UU云小編對這一觀點的詳細闡述:
    的頭像 發(fā)表于 11-08 10:02 ?151次閱讀

    通過DSP6455的MCBSP配置TLV320AIC20,如果想使用LINEI和LINEO,還需要哪些別的配置嗎?

    值為1V的信號輸入LINEI,可是發(fā)現(xiàn)讀到的數(shù)據(jù)和沒給信號時并未發(fā)生變化。由于操作過程是接收一段時間數(shù)據(jù),然后發(fā)送一段時間數(shù)據(jù),測量LINEO時,可以發(fā)現(xiàn)LINEO的輸出是斷斷續(xù)續(xù)的,說明輸出的數(shù)據(jù)通路應(yīng)該是正常的。如果想使用LINEI和LINEO,還需要哪些別的配置嗎?
    發(fā)表于 11-04 07:45

    為什么FPGA屬于硬件,還需要搞算法?

    交流學(xué)習(xí),共同進步。 交流問題(一) Q:為什么FPGA屬于硬件,還需要搞算法? 剛?cè)腴T準備學(xué)fpga但一開始學(xué)的是語法,感覺像是電路用軟件語言描述出來,fpga不用會pcb
    發(fā)表于 09-09 16:54

    含有內(nèi)部ESD保護的運放,外部保護還需要加嗎?

    含有內(nèi)部ESD保護的運放,外部保護還需要加嗎?因為加外部ESD保護有一定的漏電流存在, 這個會使電路失去一定的精度
    發(fā)表于 09-04 06:54

    暢玩《黑神話:悟空》,除了“官配”硬件還需要注意這些......

    暢玩《黑神話:悟空》,除了“官配”硬件還需要注意這些......
    的頭像 發(fā)表于 08-30 14:58 ?476次閱讀
    暢玩《黑神話:悟空》,除了“官配”硬件<b class='flag-5'>還需要</b>注意這些......

    有了MES、ERP,為什么還需要QMS?

    ? 有了MES、ERP,質(zhì)量管理為什么還需要QMS? ?在制造業(yè),質(zhì)量管理始終是企業(yè)管理中永恒的主題。品質(zhì)管理要想做得更好,企業(yè)必須掌握足夠多、足夠有用的數(shù)據(jù)和信息,實現(xiàn)質(zhì)量管理信息化。很多中小企業(yè)
    的頭像 發(fā)表于 08-02 10:09 ?302次閱讀
    有了MES、ERP,為什么<b class='flag-5'>還需要</b>QMS?

    ESP-IDF Tools Offline5.0下的離線安裝包,為什么安裝時還需要從github中下載?

    如題 我都已經(jīng)下載的是離線的安裝包了為什么安裝時還需要從github中下載???? 半個小時了 才下載2%
    發(fā)表于 06-13 08:14

    使用esp32c3開發(fā)matter時,開發(fā)好的產(chǎn)品還需要走matter官方認證流程獲得認證嗎?

    使用esp32c3開發(fā)matter時,(SDK使用esp-matter),使用這個芯片開發(fā)matter的話,開發(fā)好的產(chǎn)品還需要走matter官方認證流程獲得認證嗎?詢問其他人時他們說是需要經(jīng)過一個
    發(fā)表于 06-11 07:46

    在freertos中,每個任務(wù)都是一個死循環(huán),那么還需要使用看門狗嗎?

    在freertos中,每個任務(wù)都是一個死循環(huán),那么還需要使用看門狗嗎?該怎么使用?
    發(fā)表于 05-07 06:55

    請問risc-v中斷還需要軟件保存上下文和恢復(fù)嗎?

    risc-v中斷還需要軟件保存上下文和恢復(fù)嗎?
    發(fā)表于 02-26 07:40

    #2024,立Flag了嘛? #學(xué)習(xí)spinal HDL還需要學(xué)習(xí)對應(yīng)的Scala語言

    學(xué)習(xí)spinal HDL還需要學(xué)習(xí)對應(yīng)的Scala語言,但是spinal HDL直接貼近硬件編程,不知道對于學(xué)習(xí)spinal HDL有什么好的建議?
    發(fā)表于 01-21 11:11
    主站蜘蛛池模板: 欧美性猛交AAA片| 嫩草成人影院| WWW国产亚洲精品久久| 永久免费的无码中文字幕| 亚洲、国产综合视频| 视频一区精品自拍亚洲| 日本激情网址| 人善交XUANWEN200喷水| 欧美亚洲精品午夜福利AV| 免费看片A级毛片免费看| 伦理片在线线249| 蓝男色gay| 男人插女人动态图| 欧美黑人巨大性极品hd欧| 欧美日韩亚洲中字二区| 秋霞午夜一级理论片久久| 日本性xxx| 手机在线国产视频| 性XXXXX搡XXXXX搡景甜| 亚洲高清在线天堂精品| 亚洲精品午睡沙发系列| 伊人久久综合影院| 最新国产在线视频| 99久久免费热在线精品| 爱看吧孕妇网| 国产高清-国产av| 狠日狠干日曰射| 六度影院最新| 泡妞高手在都市免费观看| 日韩欧美一区二区三区在线| 玩50岁四川熟女大白屁股直播| 息与子在线交尾中文字幕| 亚洲三级在线观看| 2019天天射干网站| YELLOW在线观看高清视频免费| 怪物高h粗暴无尽| 国内精品视频在线播放一区| 久亚洲AV无码专区A片| 青青在线视版在线播放| 小sao货水好多真紧h的视频| 诱咪视频免费|