中文字幕精品在线,午夜影院啊啊啊,甜性涩爱韩国

　　NVIDIA這幾年壟斷了高端顯卡市場(chǎng)，從他們的Q1季度財(cái)報(bào)中雖然也能看到Tegra、數(shù)據(jù)中心等業(yè)務(wù)有了明顯增長(zhǎng)，不過(guò)營(yíng)收的主力還是游戲PC市場(chǎng)，Q1季度游戲PC市場(chǎng)營(yíng)收就增長(zhǎng)了50%，高端玩家現(xiàn)在買游戲顯卡往往是從GTX 1080 Ti/1080/1070中選一款了。如今Pascal還未顯出頹勢(shì)，今天凌晨的GTC 2017主題演講上，NVIDIA CEO黃仁勛發(fā)布了Volta架構(gòu)顯卡，新一輪升級(jí)又要來(lái)了。

　　NVIDIA能夠獲得現(xiàn)在的表現(xiàn)很大程度是因?yàn)樗麄兊?a target="_blank">產(chǎn)品路線圖比較連貫，從Kepler到Maxwell，再到現(xiàn)在的Pascal架構(gòu)，NVIDIA每一代GPU升級(jí)都很穩(wěn)定，短時(shí)間內(nèi)就能完成高端到低端的布局。以Pascal這一代為例，首發(fā)的是GTX 1080、GTX 1070，接著是Titan X，陸陸續(xù)續(xù)又有GTX 1060 6GB及GTX 1060 3GB，還有GTX 1050 Ti、GTX 1050，今年3月份又有GTX 1080 Ti、Titan Xp，馬上還會(huì)有GT 1030主打入門級(jí)市場(chǎng)——不算不知道，NVIDIA在Pascal這一代的GPU產(chǎn)品組合還真是挺多的。

　　Pascal顯卡發(fā)布一年整了，產(chǎn)品線布局還在完善，不過(guò)大家的興趣點(diǎn)現(xiàn)在已經(jīng)開始向新一代GPU轉(zhuǎn)移了，特別是今天發(fā)布了Volta架構(gòu)顯卡——Telsa V100，這跟去年P(guān)ascal架構(gòu)首發(fā)GP100核心的Telsa P100一樣，也在去年這個(gè)時(shí)候，我們撰文詳細(xì)介紹了GP100核心的改進(jìn)情況，今天我們也會(huì)針對(duì)GV100核心及Tesla V100顯卡做更深入的探討。

　　早上已經(jīng)有Tesla P100的新聞發(fā)布了，大家也了解過(guò)基本情況了，我們先來(lái)看看Tesla V100加速卡的真身，這次同時(shí)展示的是兩個(gè)版本的。

　　Tesla V100顯卡真身：NVLink與PCI-E版大不同

　　NVLink 2接口的Tesla V100顯卡

　　老黃手里曝光最多的就是這個(gè)短小強(qiáng)悍的Tesla V100，它實(shí)際上NVLink版的，跟去年的Tesla P100看著很像，畢竟這二者都使用了HBM 2顯存，功耗也沒有明顯增加，應(yīng)該是直接沿用相同的PCB電路。

　　PCI-E接口的Tesla V100顯卡

　　PCI-E版的Tesla V100顯卡不太引人注意，找到了上面這張照片，如果跟去年P(guān)CI-E版的Tesla P100顯卡對(duì)比，可以看出PCI-E版Tesla V100顯卡跟PCI-E版P100有很多不同，散熱器明顯小多了，體積跟NVLink版差不多。

　　這是去年的PCI-E版Tesla P100加速卡

　　Telsa V100加速卡規(guī)格：Volta架構(gòu)終于來(lái)了

　　Tesla V100是針對(duì)HPC市場(chǎng)設(shè)計(jì)的，跟普通消費(fèi)者沒啥關(guān)系（屬于吃瓜群眾買不到買不起系列），之所以引人關(guān)注是因?yàn)樗褂玫氖切乱淮鶹olta架構(gòu)，首發(fā)的依然是GV100這種大核心。早上的新聞中大家也看到了它各方面規(guī)格都很驚人——815mm2核心面積、211億晶體管、5120個(gè)CUDA核心、15TFLOPS浮點(diǎn)性能等等，放在當(dāng)前的顯卡中簡(jiǎn)直是鶴立雞群，拿來(lái)跑游戲不知道多爽，可惜老黃不賣給消費(fèi)級(jí)玩家。

　　 NVIDIA這暴脾氣！全新顯卡架構(gòu)Volta解析性能暴增50%

　　NVIDIA Volta/Pascal與AMD Vega顯卡的規(guī)格對(duì)比

　　為此我做了一個(gè)詳細(xì)的規(guī)格表，對(duì)比的產(chǎn)品除了目前的Tesla P100和Titan Xp之外，還加入了AMD的Vega 10核心的Radeon Instinct MI25顯卡，盡管還沒上市，但AMD早前公布過(guò)這款顯卡的一些信息，比如帶寬、浮點(diǎn)性能，不過(guò)Vega核心的晶體管、核心面積等關(guān)鍵參數(shù)還是個(gè)謎。

　　對(duì)比GP100核心與GV100核心，可以看出后者規(guī)模進(jìn)一步擴(kuò)大，SM單元數(shù)量從之前的56組提升到了80組，CUDA核心數(shù)從3584個(gè)提升到5120個(gè)，計(jì)算單元數(shù)量增幅為43%。顯存位寬及容量都沒變化，還是16GB HBM2顯存，不過(guò)頻率有所提升，帶寬從前代的720GB/s提升到了900GB/s，非常接近HBM 2顯存理論上1024GB/s的帶寬了（搭配4顆HBM顯存的情況下）。

　　計(jì)算單元的增加也使GV100核心的規(guī)模進(jìn)一步擴(kuò)大——晶體管數(shù)量從目前的153億增加到了211億，核心面積從610mm2提升到815mm2，一舉創(chuàng)造了NVIDIA GPU同時(shí)也是現(xiàn)代GPU的核心面積新紀(jì)錄。NVIDIA這幾代大核心雖然核心面積有漲有降，不過(guò)之前最多是在600mm2級(jí)別徘徊，這一次直接做了815mm2的大核心。

　　與Pascal架構(gòu)GP100核心相比，Volta的GV100核心在架構(gòu)上更多地是量變而非質(zhì)變，不過(guò)它在架構(gòu)也不是說(shuō)沒升級(jí)，這次GV100核心主要的變化就是針對(duì)AI 人工智能、DL深度學(xué)習(xí)等新興領(lǐng)域?qū)ｉT做了運(yùn)算單元，我們下面再說(shuō)這個(gè)。

　　Volta架構(gòu)改進(jìn)：Pascal翻新，新增Tensor單元

　　在之前解析GTX 1080與Tesla P100時(shí)，我們說(shuō)過(guò)主流的GP104核心跟GP100核心是不同的，前者跟Maxwell架構(gòu)沒多大變化，每組SM單元是128個(gè)CUDA核心，GP100上每組SM單元是64個(gè)CUDA核心，而后面的GP102核心跟GP100也不同，更像是GP104核心的擴(kuò)大版，也是每組SM單元128個(gè)CUDA核心。

　　 NVIDIA這暴脾氣！全新顯卡架構(gòu)Volta解析性能暴增50%

　　GP100核心架構(gòu)示意圖

　　回到GP100與GV100大核心上，他們的架構(gòu)也是漸進(jìn)式變化，也是6組GPC計(jì)算單元，不過(guò)GP100核心每個(gè)GPC單元中是10組SM單元，每個(gè)SM單元有64個(gè)CUDA核心，而GV100大核心中每組GPC單元是14個(gè)SM單元，總數(shù)應(yīng)該是84組SM單元，但是現(xiàn)在Tesla V100跟Tesla V100一樣都不是完全體，前者啟用了56組SM單元，后者啟用了80組SM單元，總計(jì)80x64=5120個(gè)CUDA核心。

　　 NVIDIA這暴脾氣！全新顯卡架構(gòu)Volta解析性能暴增50%

　　GV100核心架構(gòu)示意圖

　　以上算的是典型的FP32單精度運(yùn)算單元，除此之外還有FP64單元，GV100依然延續(xù)了GP100中FP32：FP64=2：1的比例，每個(gè)SM單元中有32個(gè)FP64單元，理論上有2688個(gè)FP64單元，實(shí)際啟用的是2560個(gè)。

　　NVIDIA這兩年在深度計(jì)算、人工智能等領(lǐng)域投入很多精力，GPU架構(gòu)也在傳統(tǒng)HPC應(yīng)用之外開始適應(yīng)這些新興領(lǐng)域，他們對(duì)運(yùn)算精度要求沒這么高，但對(duì)性能要求很高，Pascal顯卡中就開始支持FP16、FP8精度運(yùn)算，執(zhí)行這些運(yùn)算的性能也是翻倍增長(zhǎng)。

　　因此在GV100大核心，NVIDIA還加入了專門的Tensor（張量）運(yùn)算單元，大部分人估計(jì)不熟悉這個(gè)詞，不過(guò)還記得前不久Google搞的那個(gè)TPU在AI性能上吊打GPU的新聞嗎？Google的TPU處理器中的T也是Tensor這個(gè)詞，大家可以把它當(dāng)作專用的AI運(yùn)算單元來(lái)看。

　　GV100核心中增加了專門的Tensor運(yùn)算單元

　　在GV100大核心中，每組SM單元中還有8個(gè)Tensor單元，這樣整個(gè)SM單元中就是FP32：FP64：Tensor=64：32：8的比例存在，GV100也因此有了Tensor計(jì)算能力這個(gè)指標(biāo)，Tesla P100的Tensor計(jì)算能力高達(dá)120TFLOPS，NVIDIA宣稱它的Tensor性能是Pascal架構(gòu)的12倍。

　　Volta支持第二代NVLink技術(shù)：300GB/s帶寬

　　除了針對(duì)AI等新興領(lǐng)域改進(jìn)了Tensor單元之外，GV100核心在總線技術(shù)上也有升級(jí)，這次使用的是NVLink 2，如果你注意看了上面的架構(gòu)示意圖，應(yīng)該可以發(fā)現(xiàn)GV100核心是6組NVLink通道，雙向總帶寬可達(dá)300GB/s。

　　相比之下，GP100核心上是4組NVLink通道，每個(gè)通道帶寬是40GB/s，總帶寬是160GB/s。

　　不論NVLink還是NVLink 2總線，相比PCI-E 3.0 x16雙向32GB/s的帶寬都有明顯提升，不過(guò)NVLkink并不是通用技術(shù)，主要用于IBM和NVIDIA開發(fā)的超算平臺(tái)，這次GV100核心就會(huì)用在雙方合作的Summit超算上，預(yù)計(jì)今年下半年正式啟用。

　　Volta工藝升級(jí)：這個(gè)12nm有點(diǎn)特別

　　NVIDIA在主題演講中還提到了Volta顯卡的制造工藝，使用的是TSMC的12nm FFN工藝，聽上去要比目前TSMC 16nm工藝更先進(jìn)，那這種新工藝對(duì)Volta顯卡到底有什么改善嗎？我們依照上次的計(jì)算簡(jiǎn)單評(píng)估下不同工藝下的晶體管密度及效能。

　　由于AMD Vega顯卡的核心面積、晶體管數(shù)量都是未知數(shù)，所以這里只對(duì)比了NVIDIA幾代顯卡的。

　　 NVIDIA這暴脾氣！全新顯卡架構(gòu)Volta解析性能暴增50%

　　GV100核心是12nm工藝，211億晶體管，核心面積815mm2，算下來(lái)晶體管密度是每平方毫米25.9百萬(wàn)晶體管，與16nm工藝的晶體管密度差不多。實(shí)際上，TSMC的12nm工藝也是16nm工藝的改良版。根據(jù)TSMC此前公布的資料，它實(shí)際是基于16nm FFC工藝改進(jìn)的，性能是后者的1.1倍，功耗只有后者的70%，核心面積則可以縮小20%。

　　按照TSMC的說(shuō)法，16nm FinFET Plus依然是他們性能最好的16nm工藝，現(xiàn)在GV100用的12nm工藝在性能上還真不一定能超過(guò)16nm FinFET Plus工藝，Tesla V100的加速頻率就比P100要低一些，但從核心面積來(lái)看，計(jì)算單元規(guī)模增加了43%，核心面積只增加了33%，說(shuō)明這個(gè)12nm工藝對(duì)縮小面積還是挺管用的。

　　至于未來(lái)的消費(fèi)級(jí)顯卡，GV102、GV104核心上12nm工藝也沒跑了，但顯卡的核心頻率不會(huì)再像Pascal對(duì)比Maxwell時(shí)代那樣大幅提升了，性能提升只能靠計(jì)算單元數(shù)量增加了。

　　Volta架構(gòu)性能：比Pascal提升50%

　　說(shuō)到性能，我們?cè)俸?jiǎn)單看下NVIDIA官方資料中介紹的GV100性能提升情況：

　　 NVIDIA這暴脾氣！全新顯卡架構(gòu)Volta解析性能暴增50%

　　DL深度計(jì)算性能三倍快，這個(gè)因?yàn)橛蠺ensor單元加持，性能暴漲很正常

　　 NVIDIA這暴脾氣！全新顯卡架構(gòu)Volta解析性能暴增50%

　　HPC性能提升情況

　　與Tesla P100加速卡相比，Tesla V100在不同HPC應(yīng)用中性能提升有所不同，多的能超過(guò)70%，少的也有40%以上，官方給出的平均性能提升大約是50%——考慮到計(jì)算單元增幅也有43%，性能提升基本上與計(jì)算單元數(shù)量增幅呈正比，這跟Tesla P100時(shí)代頻率大幅提升帶來(lái)性能大提升的情況也有所不同。

　　總結(jié)：

　　GV100核心是為HPC運(yùn)算市場(chǎng)而生的，跟Tesla P100的GP100核心一樣也不會(huì)用于消費(fèi)級(jí)市場(chǎng)，所以這篇文章對(duì)我們的意義更多地是分析未來(lái)的GV102、GV104核心的GeForce 20系列顯卡的性能及表現(xiàn)。

　　與GV100一樣，GV102/104核心的CUDA核心數(shù)量也會(huì)進(jìn)一步提升，NVIDIA還可以通過(guò)閹割對(duì)消費(fèi)級(jí)市場(chǎng)沒什么用的FP64、Tensor單元來(lái)降低核心面積及成本，一如GP100到GP102那樣。

　　Volta架構(gòu)使用的12nm工藝在降低核心面積上很有用，但是從GV100上的頻率來(lái)看，12nm下消費(fèi)級(jí)Volta顯卡的核心頻率恐怕也很難有明顯提升了，現(xiàn)在的GTX 10系中高端非公版顯卡核心頻率都能達(dá)到2GHz左右，未來(lái)的12nm Volta顯卡估計(jì)也就是這個(gè)水平，甚至還有可能更低一些。

　　如果是這種情況，NVIDIA要想提高新一代顯卡的性能，那么就只能從CUDA核心數(shù)量上著手了，Pascal這一代在頻率上占了很多紅利，Volta又要回到GPU運(yùn)算單元提升的道路上了。

　　目前消費(fèi)級(jí)的Volta顯卡還沒有明確的發(fā)布時(shí)間，今年底有希望推出部分高端產(chǎn)品，不過(guò)更有可能的還是2018年Q1季度，所以現(xiàn)在的Pascal顯卡并不會(huì)受到什么沖擊，大家現(xiàn)在該買什么卡就買什么卡，不著急的也可以等等AMD發(fā)了Vega顯卡之后再看。不過(guò)NVIDIA看起來(lái)并不擔(dān)心AMD的競(jìng)爭(zhēng)，黃仁勛在之前的財(cái)報(bào)會(huì)議上表態(tài)2017年的市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)不會(huì)有什么變化，換言之就是AMD發(fā)布的Polaris 20及Vega 10顯卡對(duì)他對(duì)不會(huì)有什么影響。