近幾年來,無論是國外的谷歌、Facebook,還是國內(nèi)的百度、阿里巴巴,我們可以看到全球的大型互聯(lián)網(wǎng)公司都開始涉足芯片設(shè)計(jì)領(lǐng)域了,且這股趨勢(shì)看起來有蔓延之勢(shì)。究竟是什么原因推動(dòng)了這種情況的產(chǎn)生?日前,國外媒體The next platform寫了一篇文章,闡述了這種現(xiàn)象產(chǎn)生的原因。
據(jù)我們粗略統(tǒng)計(jì)得知,云巨頭亞馬遜、阿里巴巴、百度、Facebook、谷歌和微軟都在設(shè)計(jì)自己的AI加速器芯片。究竟這是當(dāng)下云行業(yè)的一種潮流還是短期現(xiàn)象?相信一千個(gè)人有一千個(gè)看法。但在我們看來,為特定任務(wù)設(shè)計(jì)定制芯片將成為云產(chǎn)業(yè)的主流,屆時(shí)處理器、網(wǎng)絡(luò)交換機(jī)、AI加速器等領(lǐng)域?qū)?huì)受到深刻的影響。大膽點(diǎn)的觀點(diǎn)認(rèn)為,該領(lǐng)域內(nèi)的大多數(shù)芯片市場(chǎng)將不能限免。
縱觀整個(gè)集成電路產(chǎn)業(yè)鏈,在一系列新的技術(shù)和經(jīng)濟(jì)因素推動(dòng)下,傳統(tǒng)的芯片設(shè)計(jì)和制造模式正在破壞,云巨頭涉足AI芯片設(shè)計(jì)只是大規(guī)模定制芯片影響當(dāng)前集成電路供應(yīng)鏈的冰山一角,更多的可能性正在發(fā)生。但造成這種現(xiàn)象的原因并不止一個(gè),很多因素的同時(shí)發(fā)生導(dǎo)致了今日的結(jié)果:
1)摩爾定律的死亡;
2)基于多芯片模塊(MCM)和系統(tǒng)級(jí)封裝(SIP)的新架構(gòu)方向;
3)芯片設(shè)計(jì)工具逐漸成熟為完整的開發(fā)工具鏈;
4)可授權(quán)IP使組裝芯片變得容易;
5)多項(xiàng)目晶圓(MPW)使得晶圓廠有能力實(shí)現(xiàn)原型制造和小批量生產(chǎn)客戶編寫的內(nèi)部軟件框架;
6)網(wǎng)絡(luò)巨頭創(chuàng)造的規(guī)模,新興的物聯(lián)網(wǎng)巨頭的影響力也漸增;
摩爾定律的死亡
雖然晶圓廠有不同的觀點(diǎn),但在很多人看來,摩爾定律實(shí)際上已經(jīng)死了。經(jīng)過了數(shù)十年的發(fā)展,現(xiàn)在的晶圓廠已經(jīng)進(jìn)入了一個(gè)瓶頸期,那就是如果繼續(xù)縮小晶體管的尺寸,晶體管將變得更不可靠,且功耗會(huì)劇增。且隨著晶體管的縮小,設(shè)計(jì)人員現(xiàn)在必須使用額外的晶體管來驗(yàn)證邏輯塊是否能產(chǎn)生正確的結(jié)果。但是如果設(shè)計(jì)人員在芯片上封裝太多的邏輯,那么供電和散熱都會(huì)成為一項(xiàng)挑戰(zhàn)。正是這種困境讓芯片設(shè)計(jì)師進(jìn)退兩難。
這就導(dǎo)致了以下結(jié)果:在追求高性能的前沿應(yīng)用里,對(duì)晶體管數(shù)量的需求正在爆炸,但這種爆炸卻催生了更大,更熱的芯片,但邏輯的速度的提升,卻不會(huì)變得如想象中那么快。與此同時(shí),較老的制造工藝(例如28納米)卻繼續(xù)在發(fā)生余熱,對(duì)于越來越多的應(yīng)用來說,這甚至是最好的選擇。
在這種情況下,就使得現(xiàn)有的通用芯片不能滿足云服務(wù)商高性能和客制化的需求。
新的架構(gòu)方向
面對(duì)上述困境,設(shè)計(jì)工程師想提高芯片性能,還有一個(gè)選擇,那就是放棄推動(dòng)半導(dǎo)體技術(shù)前進(jìn),而是轉(zhuǎn)向追求新架構(gòu),達(dá)到性能提升的目的。這樣的話,他們就可以退回到前一代甚至兩代的工藝上進(jìn)行硅片制造。這樣也能夠獲得更小,更冷,更實(shí)惠的芯片。從現(xiàn)狀看來,架構(gòu)是硅設(shè)計(jì)的新“高地”,很多廠商早已投入其中以獲取領(lǐng)先競(jìng)爭(zhēng)。
例如,英特爾在其14nm工藝上,將其高端的28核服務(wù)器處理器“SKYLAKE”至強(qiáng)可伸縮服務(wù)器處理器的面積做到了690 mm2。雖然英特爾不再披露其晶體管數(shù)量,但作為對(duì)比,Nvida采用臺(tái)積電12nm工藝制造的Volta GPU芯片在815 mm 2的硅面積上集成了210億個(gè)晶體管。
AMD則在其Epyc服務(wù)器產(chǎn)品線上采用了不同的方法。Epyc是基于AMD的八核Zeppelin die設(shè)計(jì)的。每個(gè)EPYC處理器中都封裝了四個(gè)由AMD proprietary 連接的四個(gè)Zeppelin die。
AMD創(chuàng)新的Epyc架構(gòu)是不同架構(gòu)和設(shè)計(jì)權(quán)衡的結(jié)果。與其他處理器設(shè)計(jì)相比,它使用了不同的互連、邏輯和存儲(chǔ)組合。這就使得EPYC的總晶體管數(shù)量和芯片面積與英特爾和Nvidia的產(chǎn)品處于相同的范圍,但制造成本卻要低得多。AMD暗示,在大芯片里,它們的架構(gòu)還有可能在在單個(gè)封裝中繼續(xù)實(shí)現(xiàn)微縮。
不同廠商在架構(gòu)上的嘗試,讓云服務(wù)供應(yīng)商看到了新的可能。
芯片設(shè)計(jì)工具日趨成熟
集成電路EDA產(chǎn)業(yè)到現(xiàn)在,eSilicon,Cadence,Mentor,Synopsys等供應(yīng)商能夠?yàn)閾碛胁煌A(yù)算的開發(fā)者提供云托管設(shè)計(jì)平臺(tái),虛擬原型設(shè)計(jì)和驗(yàn)證服務(wù),降低開發(fā)者的預(yù)算。雖然設(shè)計(jì)芯片還做不到像設(shè)計(jì)網(wǎng)頁那樣簡單,但如果能夠從這些廠商獲得EDA和IP方面的更多支持,對(duì)于芯片新入者來說,是一個(gè)巨大的利好。尤其是如果能從他們身上獲得可重復(fù)結(jié)構(gòu)(repeatable structure)的支持,這更是成功的關(guān)鍵。
所謂的可重復(fù)結(jié)構(gòu)可以是高速緩存存儲(chǔ)器塊(cache memory block,),處理器核心(processor core),存儲(chǔ)控制器(memory controller)等部分,也就是那些你可以通過“復(fù)制”來增加總吞吐量的功能。這是擴(kuò)展內(nèi)存容量和處理器內(nèi)核增加容量和性能的方式。
可以肯定的是,在未來,聘用足夠多的設(shè)計(jì)人才去設(shè)計(jì)獨(dú)特的、擁有高價(jià)值邏輯的十億級(jí)晶體管變得幾乎不可能。而可重復(fù)的結(jié)構(gòu)和并行架構(gòu)推動(dòng)了市場(chǎng)需求,并能將數(shù)十億個(gè)晶體管放在芯片上。
可授權(quán)和開源的IP模塊
要獲得通用或?qū)S玫目芍貜?fù)結(jié)構(gòu)IP,有許多來源,上面提到的EDA公司是一個(gè)選擇,下面介紹的公司,又是另一個(gè)選擇。
Arm是數(shù)據(jù)中心可授權(quán)IP的可靠來源;
Wave Computing最近購買了MIPS,這對(duì)兩者都是好兆頭,因?yàn)?a href="http://www.1cnz.cn/v/tag/150/" target="_blank">人工智能(AI)IP在未來兩年乃至十年,會(huì)成為市場(chǎng)關(guān)注的熱點(diǎn);
RISC-V旨在通過開源處理器內(nèi)核使計(jì)算密集型可重復(fù)結(jié)構(gòu)變得大眾化。這個(gè)相對(duì)新興的架構(gòu)吸引了阿里巴巴,Cadence,谷歌,GlobalFoundries,華為,IBM,Mellanox,Mentor,高通和三星等知名廠商成為他們的會(huì)員。
如果你所統(tǒng)治的市場(chǎng)影足夠大,那么在超現(xiàn)代處理器核心方面,你會(huì)有更多的選擇,屆時(shí):
AMD可能會(huì)授權(quán)其Epyc服務(wù)器架構(gòu)。
Arm和Qualcomm可能會(huì)授權(quán)服務(wù)器級(jí)別的Arm 64位內(nèi)核。
IBM可能會(huì)授權(quán)其Power9服務(wù)器架構(gòu)。
另外,在互聯(lián)方向,雖然AMD憑借其Epyc MCM領(lǐng)先市場(chǎng),但其他公司也在投資互連IP,這也讓你有了更多的選擇:
1)英特爾一直致力于其專有的嵌入式多芯片互連橋接(EMIB)點(diǎn)對(duì)點(diǎn)片上互連技術(shù)的開發(fā),他們還計(jì)劃將EMIB的子集作為高級(jí)接口總線(AIB)進(jìn)行許可。
2)Arm也擁有各種互連設(shè)計(jì),但對(duì)于高端基礎(chǔ)設(shè)施市場(chǎng),Arm授權(quán)其專有的CoreLink CNN(Cache Coherent Network)產(chǎn)品產(chǎn)品。熟悉設(shè)計(jì)的人都知道,Arm的CCN設(shè)計(jì)針對(duì)其較大的Arm 64位Cortex處理器進(jìn)行了優(yōu)化。
3)SiFive的TileLink是應(yīng)用在RISC-V處理器內(nèi)核上的片上互連。TileLink看起來就像是AMD的Infinity Fabric協(xié)議,而不是Intel的EMIB / AIB點(diǎn)對(duì)點(diǎn)互連。
4)USR聯(lián)盟正在向其會(huì)員推進(jìn)和認(rèn)證其超短距(USR)系統(tǒng)級(jí)芯片(SoC)的互連技術(shù)
Fab變得更親民
過去,芯片設(shè)計(jì)和制造是不可分割的,如果有任何一方對(duì)另一方不熟悉的話,合作就無法進(jìn)行。但隨著行業(yè)的成熟,某些設(shè)計(jì)可以與工廠分開進(jìn)行,只需要大量的專業(yè)知識(shí)去“轉(zhuǎn)移”。過去,有競(jìng)爭(zhēng)力的處理器公司需要擁有自己的晶圓廠來推動(dòng)更出色的性能。但去年AMD的表現(xiàn)證明,設(shè)計(jì)和工廠分離也可以實(shí)現(xiàn)出色的性能。
僅存的的挑戰(zhàn)是降低小型設(shè)計(jì)公司的制造驗(yàn)證設(shè)計(jì)的價(jià)格。多項(xiàng)目晶圓(MPW)制造能力現(xiàn)已在全球范圍內(nèi)提供。MPW在普通晶圓上“放置”了許多不同的設(shè)計(jì),因此原型和小批量生產(chǎn)就不必承擔(dān)生產(chǎn)晶圓的全部成本。現(xiàn)在開發(fā)者可以從最大的晶圓廠(如GlobalFoundries,三星和臺(tái)積電)以及小型和特殊工藝的專業(yè)晶圓廠(如KAST的WaferCatalyst,IMEC / Fraunhofer,Leti / CMP,MOSIS,Muse Semiconductor)獲得MPW服務(wù)和價(jià)格。
MPW使小型設(shè)計(jì)公司和學(xué)術(shù)研究的開發(fā)項(xiàng)目能從晶圓廠獲得更好的支持。大的設(shè)計(jì)客戶則可以通過過往的渠道來訂購大批量晶圓。
軟件框架使硬件加速器成為可能
開源操作環(huán)境和應(yīng)用程序代碼使Web巨頭能夠共同設(shè)計(jì)和優(yōu)化數(shù)據(jù)中心基礎(chǔ)架構(gòu)。隨著芯片設(shè)計(jì)和制造進(jìn)一步商品化,這些公司會(huì)發(fā)現(xiàn),去體驗(yàn)和部署包括AI加速器在內(nèi)的新處理器指令集變得越來越簡單。
事實(shí)上,人工智能芯片的部署已經(jīng)在進(jìn)行中。大多數(shù)網(wǎng)絡(luò)巨頭都擁有內(nèi)部的深度學(xué)習(xí)模型開發(fā)環(huán)境,甚至有些還開放給其他開發(fā)者訪問。重要的一點(diǎn)是,他們當(dāng)中的大多數(shù)正在進(jìn)行AI芯片設(shè)計(jì):
1)AWS已投資Apache MXNet和由亞馬遜開發(fā)的用于消費(fèi)設(shè)備的AI芯片;
2)百度創(chuàng)建了PaddlePaddle和昆侖芯片;
3)谷歌創(chuàng)造了TensorFlow和幾代TPU芯片
4)微軟創(chuàng)建了Cognitive Toolkit及其FPGA驅(qū)動(dòng)的Brainwave附加卡;
5)騰訊創(chuàng)建了DI-X平臺(tái)(具有專有模型和算法)和ncnn(面向移動(dòng)),并與芯片廠聯(lián)發(fā)科建立了合作關(guān)系;
6)阿里巴巴尚未加入軟件框架競(jìng)賽,但他們已發(fā)表了許多關(guān)于深度學(xué)習(xí)架構(gòu)和算法的原創(chuàng)研究論文,并正在開發(fā)一個(gè)神經(jīng)處理單元(NPU);
在另一些云供應(yīng)商中,IBM擁有Cognitive Computing和Watson服務(wù),并與許多AI加速器公司在OpenPower方面進(jìn)行合作。在社交媒體領(lǐng)域,F(xiàn)acebook推動(dòng)了Caffe和Caffe2的發(fā)展。
然后有幾十家初創(chuàng)公司推出了AI加速器芯片,而Wave Computing在購買MIPS之后,則處于領(lǐng)先的地位。
另外,可以確認(rèn)的是,很多網(wǎng)絡(luò)巨頭也在投資量子計(jì)算,因?yàn)樗麄儼阉?dāng)做神經(jīng)網(wǎng)絡(luò)的潛在通配卡加速器,這也不是巧合。
規(guī)模效應(yīng)的推動(dòng)
一旦網(wǎng)絡(luò)巨頭在其遍布其全球數(shù)據(jù)中心基礎(chǔ)架構(gòu)中部署大規(guī)模的定制芯片,這意味著它會(huì)買入數(shù)十十萬乃至百萬計(jì)的芯片。如果每個(gè)芯片能提高幾瓦的效率,那么整體效率提高則可以很容易就達(dá)到數(shù)十兆瓦。與此同時(shí),還能解決盈利的新問題,還可以擁有更快的速度和更高的精度。
此外,網(wǎng)絡(luò)巨頭們往往有晶圓廠的關(guān)系,這就有利于其建立消費(fèi)設(shè)備的定制芯片,如Google Home和Amazon Dot。如果這些廠商能夠有包括AI加速器在內(nèi)的多款芯片在晶圓廠生產(chǎn)的時(shí)候,龐大的數(shù)量將會(huì)帶來很大的經(jīng)濟(jì)規(guī)模效應(yīng)。
新趨勢(shì)帶來的可能影響
我們還沒有看到這些融合趨勢(shì)帶來的真正影響。和目前AI加速器的嘗試一樣。這也僅僅只是一個(gè)開始。
一個(gè)對(duì)軟件操作環(huán)境和深度學(xué)習(xí)建模語言有控制權(quán)的網(wǎng)絡(luò)巨頭也將進(jìn)入芯片設(shè)計(jì)領(lǐng)域是一件很容易的事,且是一個(gè)很不錯(cuò)的選擇。因?yàn)樗麄兒苋菀拙湍塬@得最好的EDA工具、開源和可授權(quán)的IP模塊,然后就可以構(gòu)建原型芯片,將其布置到全國各地的服務(wù)器上。
具體來說,網(wǎng)絡(luò)巨頭進(jìn)入芯片領(lǐng)域,不但可以定制其整數(shù)和浮點(diǎn)的處理器內(nèi)核,還可以基于這些定制的處理器內(nèi)核、定制AI加速器、定制的I / O和內(nèi)存控制器等部件打造SoC。他還可以在其專有的芯片里面優(yōu)化其軟件性能,這在通用的大規(guī)模芯片上是很難做到的。
未來,網(wǎng)絡(luò)巨頭可能會(huì)設(shè)計(jì)完全不同的芯片。屆時(shí)那些專門面向標(biāo)準(zhǔn)化操作環(huán)境和標(biāo)準(zhǔn)指令集設(shè)計(jì)的病毒將不會(huì)在這些芯片上執(zhí)行。黑客需要更好的手段才能訪問網(wǎng)絡(luò)巨頭的系統(tǒng),尤其是這些系統(tǒng)還可能會(huì)定期更改的時(shí)候。
到時(shí)的數(shù)據(jù)中心,將會(huì)是一個(gè)截然不同的數(shù)據(jù)中心。
到時(shí)的芯片世界,也將會(huì)是一個(gè)不同的芯片世界。
-
芯片
+關(guān)注
關(guān)注
456文章
50910瀏覽量
424499 -
摩爾定律
+關(guān)注
關(guān)注
4文章
634瀏覽量
79089 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7576瀏覽量
88917
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論