2020年12月15日,在GTC中國(guó)大會(huì)上,NVIDIA首席科學(xué)家,NVIDIA研究院高級(jí)副總裁BillDally分享了團(tuán)隊(duì)正在研發(fā)的技術(shù)。
Ampere技術(shù)在高性能計(jì)算方面有著卓越成效
“我們打造了性能非凡的高性能計(jì)算設(shè)備,致力于解決世界上極為苛刻的計(jì)算問(wèn)題,所有這一切的基礎(chǔ)都是硬件。”Bill Dally說(shuō)。
圖:NVIDIA首席科學(xué)家,NVIDIA研究院高級(jí)副總裁Bill Dally
Bill Dally首先介紹了Ampere,他說(shuō):“AmpereA100SXM模塊具有處理海量計(jì)算的性能,借助這一模塊,可以擴(kuò)展Ampere的功能,從而解決非常苛刻的計(jì)算問(wèn)題。”
并且如果用戶還想擴(kuò)展,可以取8個(gè)這樣的是Ampere,將其放入DGX機(jī)箱中,Bill Dally說(shuō):“我們可以在機(jī)架中安裝多個(gè)DGX機(jī)箱與Mellanox交換機(jī),打造世界上性能最強(qiáng)大的計(jì)算機(jī)。”
硬件本身并不能解決世界上的難題,還需要借助軟件來(lái)集中這種強(qiáng)大的計(jì)算能力應(yīng)對(duì)苛刻的問(wèn)題,BillDally表示,為了實(shí)現(xiàn)這一目標(biāo),NVIDIA投入了大量的精力來(lái)開(kāi)發(fā)軟件套件。
NVIDIA很早推出了CUDA,自2006年以來(lái),人們一直使用CUDA來(lái)充分利用GPU的功能,為了方便人們?cè)贑UDA上構(gòu)建應(yīng)用程序,NVIDIA還提供了一整套開(kāi)發(fā)庫(kù)。
NVIDIA有大量的軟件可以用來(lái)支持人工智能,包括用于自然語(yǔ)音處理和推薦系統(tǒng)的軟件。
在醫(yī)療健康領(lǐng)域,NVIDIA推出了Clare軟件包,它應(yīng)用廣泛,從Parabricks基因組測(cè)序分析到圖像分析,再到挖掘醫(yī)學(xué)論文數(shù)據(jù)庫(kù)等,都可以使用。NVIDIA還提供了應(yīng)用于智能視頻分析的軟件包,可以用來(lái)獲取視頻流,并根據(jù)所見(jiàn)得出結(jié)論。此外,NVIDIA還有一個(gè)適用于自動(dòng)駕駛汽車的完整軟件包,從在數(shù)據(jù)中心內(nèi)組織數(shù)據(jù)集訓(xùn)練到車輛中進(jìn)行自主部署。
NVIDIA A100采用7nm芯片,具有540億個(gè)晶體管,而且還具有許多創(chuàng)新功能,相比上一代產(chǎn)品,它的功能更加強(qiáng)大。Bill Dally說(shuō):“這是NVIDIA第3代TensorCore,我們將這款特殊硬件集成到GPU中,以加速深度學(xué)習(xí),在這一代核心中,我們?cè)黾恿藢?duì)新數(shù)據(jù)類型的支持TensorFLOAT32,解決了曾經(jīng)在BFLOAT16和FP16之間進(jìn)行數(shù)據(jù)類型選擇的問(wèn)題。”
Ampere的詳細(xì)信息
NVIDIA A100的性能能達(dá)到1.5倍,在深度學(xué)習(xí)架構(gòu)中,這是一個(gè)巨大飛躍,Bill Dally表示:我們使用這些A100,并將8個(gè)A100與大量SSD存儲(chǔ)、大量RAM和9個(gè)Mellanox ConnectX-6 NIC組裝在一起構(gòu)建一臺(tái)設(shè)備,這將組成一個(gè)性能出眾的計(jì)算平臺(tái),該平臺(tái)的性能將是其中一個(gè)GPU的8倍。
Ampere技術(shù)不僅在于其在深度學(xué)習(xí)方面表現(xiàn)出色,還在于它在高性能計(jì)算方面也有著卓著成效,而且還簡(jiǎn)化了AI與科學(xué)應(yīng)用的結(jié)合。
NVIDIA研究院正在研究的項(xiàng)目
接著,Bill Dally通過(guò)NVIDIA研究院正在研究的項(xiàng)目,闡述了自己帶領(lǐng)的200人的研究團(tuán)隊(duì)如何成功實(shí)現(xiàn)“黃氏定律(Huang’s Law)”。
這則定律以NVIDIA首席執(zhí)行官黃仁勛(Jensen Huang)名字命名,預(yù)測(cè)GPU將推動(dòng)AI性能實(shí)現(xiàn)逐年翻倍。Bill Dally說(shuō):“如果我們真想提高計(jì)算機(jī)性能,黃氏定律就是一項(xiàng)重要指標(biāo),且在可預(yù)見(jiàn)的未來(lái)都將一直適用。”
NVIDIA助力AI推理性能每年提升一倍以上
為實(shí)現(xiàn)這一突破,NVIDIA研究人員專門(mén)開(kāi)發(fā)了一種名為MAGNet的工具,其生成的AI推理加速器在模擬測(cè)試中,能夠達(dá)到每瓦100teraops的推理能力,比目前的商用芯片高出一個(gè)數(shù)量級(jí)。
MAGNet采用了一系列新技術(shù)來(lái)協(xié)調(diào)并控制通過(guò)設(shè)備的信息流,最大限度地減少數(shù)據(jù)傳輸,而數(shù)據(jù)傳輸正是當(dāng)今芯片中最耗能的環(huán)節(jié)。這一研究原型以模組化實(shí)現(xiàn),因此能夠靈活擴(kuò)展。
另外,研究團(tuán)隊(duì)還開(kāi)展了一項(xiàng)研究,旨在以更快速的光鏈路取代現(xiàn)有系統(tǒng)內(nèi)的電氣鏈路。
Bill Dally擁有120多項(xiàng)專利,在2009年加入NVIDIA之前,曾任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系主任。Bill Dally表示:“我們可以將連接GPU的NVLink速度提高一倍,也許還會(huì)再翻番,但電子信號(hào)最終會(huì)消耗殆盡。”
該團(tuán)隊(duì)正在與哥倫比亞大學(xué)的研究人員密切合作,探討如何利用電信供應(yīng)商在其核心網(wǎng)絡(luò)中所采用的技術(shù),通過(guò)一條光纖來(lái)傳輸數(shù)十路信號(hào)。
這種名為“密集波分復(fù)用”的技術(shù),有望在僅一毫米大小的芯片上實(shí)現(xiàn)Tb/s級(jí)數(shù)據(jù)的傳輸,是如今互連密度的十倍以上。
除了更大的吞吐量,光鏈路也有助于打造更為密集型的系統(tǒng)。Dally舉例展示了一個(gè)未來(lái)將搭載160多個(gè)GPU的NVIDIA DGX系統(tǒng)模型。
工程師借助光鏈路,在單一系統(tǒng)中可搭載160多個(gè)GPU
軟件方面,NVIDIA的研究人員開(kāi)發(fā)了全新編程系統(tǒng)原型Legate。開(kāi)發(fā)者借助Legate,即可在任何規(guī)模的系統(tǒng)上,運(yùn)行針對(duì)單一GPU編寫(xiě)的程序——甚至適用于諸如Selene等搭載數(shù)千個(gè)GPU的巨型超級(jí)計(jì)算機(jī)。
Legate將一種新的編程速記融入了加速軟件庫(kù)和高級(jí)運(yùn)行時(shí)環(huán)境Legion,目前它正在美國(guó)國(guó)家實(shí)驗(yàn)室接受測(cè)試。
中國(guó)市場(chǎng)對(duì)NVIDIA至關(guān)重要
在探討“NVIDIA科技助推中國(guó)產(chǎn)業(yè)創(chuàng)新”這個(gè)話題的時(shí)候,NVIDIA全球業(yè)務(wù)運(yùn)營(yíng)執(zhí)行副總裁JAY PURI談到,中國(guó)應(yīng)用AI為行業(yè)提供競(jìng)爭(zhēng)優(yōu)勢(shì)的能力一直處于最前沿,世界上一些極為重要的AI研究人員都在中國(guó),創(chuàng)業(yè)生態(tài)系統(tǒng)充滿活力,NVIDIA在中國(guó)進(jìn)行了大量投資,中國(guó)市場(chǎng)對(duì)NVIDIA至關(guān)重要。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4978瀏覽量
102988 -
gtc
+關(guān)注
關(guān)注
0文章
73瀏覽量
4425
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論