深度學習芯片領域的競爭從未停止過,2018年將開啟深度學習硬件大戰,在這場戰局中英偉達、AMD、英特爾誰能笑到最后。
隨著英偉達Titan V的發布,我們邁入了深度學習硬件發展的動蕩期。NVIDIA能否在2018年保住深度學習硬件首要供應商的地位還未可知,AMD和Intel Nervana都仍有機會。
所以對于想買硬件的消費者,最精明的選擇就是等上3至9個月,到這種不確定的狀態過去之后再決定。
深度學習芯片領域的競爭從未停止過。
NVIDIA決定在競爭初現端倪之前,先將自己的壟斷地位變現。通過這種方式,他們希望在未來1-2年內確保行業領先,所以他們的Titan V的售價高達3000美元!
雖然Titan V的深度學習專用核心Tensor Core有著獨特的性能,但性價比實在太糟,使其市場吸引力不足,只是現階段除此之外又沒有別的選擇,所以至少當前就有什么用什么吧。
AMD的硬件水平已經趕超NVIDIA了,而且他們計劃再開發出相匹配的深度學習軟件。如果這一步實現的話,其性價比會輕松超越NVIDIA,并在此領域成為新的標桿。而屆時NVIDIA就會憑借著雄厚的資金實力來拼市場,所以我們或許會在未來看到非常便宜的NVIDIA產品。注意這種情況是建立在AMD推出高質量軟件的基礎上——如果AMD跳票,則喪失了搶走桂冠的機會,而NVIDIA的產品將仍停留在高價位。
市場上還有另一位新晉競爭者:Intel Nervana的神經網絡處理器(NNP)。憑借著幾種迎合CUDA開發者需求的獨特性能,它表現得還比較有競爭力。NNP處理器可以解決優化深度學習的CUDA內核中絕大多數的問題,這款芯片才真正稱得上第一枚深度學習芯片。
通常意義上,對于單一芯片之間的排名,我們會按照Nervana 》 AMD 》 NVIDIA的順序來排,因為NVIDIA的芯片不得不在游戲、深度學習和高性能運算中維持平衡,AMD也需要同時考慮游戲和深度學習,只有Nervana可以聚焦于深度學習,這是一個巨大的優勢,使得他們的芯片較其他兩家少了很多無用的結構設計。
然而,獲勝者往往不是取決于純粹的性能或者性價比,而是要綜合考慮性價比+周邊生態+深度學習框架。
讓我們來仔細了解一下這三家公司產品的優劣,看看它們到底處于什么位置。
Nervana的神經網絡處理器(NNP)
圖:當前并沒有專門為AI所設計的硬件產品,而Intel Nervana NNP幫我們擺脫了這種限制。
Nervana芯片的獨特之處在于它為計算擴展出大空間的緩存(類似CUDA共享內存),相當于GPU的10倍,而單個計算單元的緩存是GPU的50倍。有了這種設計,其運算速度會提升至少一個量級,就可以在緩存內完成算法與模型計算并輕松地訓練TB字節的數據(如一個帶有200個單元的多層LSTM)。
得益于Flexpoint這個特殊的數據類型,Nervana的芯片能夠在緩存/RAM內存儲更多的數據并計算得更快。所有這些創新都意味著其比當前NVIDIA的GPU提速了10倍。這已經獲得了初創公司以及一些大公司的關注。但是,所有這些的前提是他們能克服主要的問題:周邊生態以及軟件。
普通的用戶和研究人員幾乎完全依賴于芯片周邊的生態系統。如果沒有了這些,我們將無法使用緩存內的算法以及好的軟件框架,從而無法更好的利用芯片。
所有人都希望使用可靠過硬的深度學習框架,而Nervana的深度學習框架Neon是否給力是值得懷疑的。軟件使用優先于硬件支持,如果Nervana僅僅出品良好的芯片而不在軟件以及周邊生態系統上發力的話,他們將輸掉這場競爭。
軟件以及生態系統與價格緊密相關。如果Nervana 家的NNP價格定得太高,學生根本負擔不起。雖然行業內的各種企業客戶為硬件公司支付了絕大部分的收入,但僅憑產業化的應用是無法構建繁榮的生態環境的,學生群體才是促使硬件周邊生態環境繁榮的主要驅動者。
只有當廣大學生們可以支付得起之后,才會有眾多配套軟件得以涌現。任何超過3000美金的產品想都不要想;超過2000美金而且對學生有額外折扣的產品還湊合,沒準會讓人用用,一個2000美金的NNP還是會有一些接受度的;而如果產品低于1500美金,Nervana在2-3年內將會成為市場的主導者。
如果把價錢定在1000美金左右,那另兩家競爭者將會非常痛苦,而配套的軟件就會如雨后春筍,不再是個問題。
如果NNP的價格低于2500美金,我是肯定會買的。它的性能比GPU好太多,我可以用它來做好多原來無法在NVIDIA產品上實現的事。但如果它超過了2500美元,這是我能承受的上限,我看還是把錢省下來吧,雖然好的硬件非常重要,但我還需要錢來干別的呢。
對于一般的消費者來說,價格不是他們考慮的唯一因素,他們還會考慮到產品的相對應的周邊生態。
如果Intel沒有快速的將盡可能多的資源投入到該產品的周邊生態并打造一個可靠的軟件組成,那么NNP (The Neural Network Processor) 的發展就會停滯不前并且最終消亡。不幸的是,Intel 曾經因為對周邊生態的管理不善而犯過這樣的錯誤。如果發生了,這將非常讓人失望,因為我真的很希望Nervana獲得成功。
總體來說, 如果Nervana開發的NNP 可以把價格控制在2000美金以下,并且在這個產品發布之后的短短幾個月內快速生成一個強大的周邊生態和軟件開發環境,那么這款產品將會擊敗它的同類競爭者而勝出。如果NNP的價格稍高同時周邊生態略差,那它依然還是個不錯的產品,只是就性價比和方便程度來說,它不能完勝它的競爭者們。當它的價格高于$4000美金或是不具備一個基本的產品周邊生態的話,NNP甚至會完敗。
對于高于$2000美金的NNP來說,如果希望它能對于一般學生有很好的新引力,那么該產品需要對學生有著相當程度的折扣才可以。
AMD:便宜又強大,軟件方面還需努力
AMD的顯卡非常的棒。Vega Frontier Edition 系列明顯的要優于NVIDIA的相應產品,通過一項類似于對Volta和Pascal所做的無偏差標準測試,在使用液態冷卻的前提下,Vega Frontier 的性能要持平甚至優于Titan V。值得注意的是,Vega是基于傳統的圖形處理芯片架構,而Titan V是全新的。這樣,在2018第三季度即將發布的新一代AMD架構,將會有更加出彩的表現。
AMD希望僅僅通過把32-bit 浮點數運算的圖形處理芯片換成16-bit,從而在深度學習硬件開發上取得成功。這是一個既簡單又有效的策略。這樣設計的GPU,雖然對于高性能計算沒有什么用處,但是對于游戲玩家以及深度學習社群來說,這樣的改變會獲得更穩定的表現,同時由于16-bit浮點數運算顯卡的運算非常直接,芯片的開發成本也會相應降低。
當然,如果單純依靠性能指標來說,這樣的改變不可能優于Nervana的NNP,但是就性價比來說,市場上所有的產品都無出其右。你可以僅僅花費$700美元就買到一款液態冷卻的Vega Frontier 顯卡,而它的性能比起$3000美金的Titan V僅僅差了一點而已。
然而最大的問題是軟件。即使你擁有了這么強大的AMD GPU,你卻很難使用它-因為目前沒有一款主流的軟件框架能夠很好支持AMD GPU。
AMD自身也處于這個發展過渡期,關于軟件的發展過渡期。目前來看,他們打算放棄OpenCL而轉向HIP。但是他們現在官方依然支持OpenCL這種方法。
如果他們想推動HIP而且在未來九個月內投放一些很好的深度學習軟件于市場(不僅僅是用來計算卷積和矩陣相乘的軟件包而是一個完整的深度學習框架,比如說HIP可以支持PyTorch),那么,他們在2018第三季度即將發布的新一代GPU會獲得巨大的潛力并且擊敗所有競爭者。
總體來說,如果AMD能夠把它在軟件方面所有棘手的問題處理好,那么毫無疑問它會成為深度學習硬件領域的主導力量。
NVIDIA: 地位堅固的硬件界大佬
NVIDIA 的江湖大佬地位毋庸置疑。他們擁有最棒的軟件系統,最好的工具,他們的硬件很棒并且產品具備一個龐大,強壯并且完整的生態圈。
NVIDIA 的主要問題在于他們需要服務于多種使用者:高性能計算需求者,深度學習從業者,還有游戲玩家。這對于他們的硬件是一個巨大的壓力。設計這些客戶定制的圖形處理芯片是非常昂貴的,因此NVIDIA的策略是設計一款多用途,適合所有框架的芯片,這項任務幾乎很難完成。因此Titan V只是一個很中庸的產品。
伴隨競爭者的出現,NVIDIA有兩種選擇。(1)不停的壓低價格,直到拖垮對手,或者是(2)開發出屬于自己的專有深度學習圖形處理芯片。NVIDIA擁有足夠的資源去打價格戰,并且它也擁有足夠數量的專家去執行第二套方案。然而,設計新型的芯片需要一定的時間,NVIDIA有可能在此間失去王者的寶座。所以,我們很有可能看到它會同時執行兩套方案:打價格戰拖垮推手,從而為自己設計出專屬的深度學習芯片贏得時間。
總體來說,NVIDIA的王座受到了一定的威脅,但是它有足夠的經驗和資源去擊敗出現的競爭對手。我們很有可能在未來看到一個便宜的NVIDIA 顯卡和專為深度學習打造的產品。不過如果NVIDIA 不去降價打價格戰的話,它是可能(暫時地)失去王者的地位的。
深度學習硬件的混戰意味著目前不是一個投資該領域的最好時機,但是這也同時意味著更便宜的NVIDIA 卡,可用性更高的AMD卡,以及超快的Nervana卡會很快出現。這是一個激動人心的時代,我們消費者將會從這樣的競爭當中獲得巨大的利益。但是目前,我們必須耐心等待。
評論
查看更多