云能做芯片,芯片也能做云。
“為了食物而奔跑,或者為了不被他人當食物而奔跑。無論哪一種情況,都要保持奔跑。”
這是英偉達CEO黃仁勛今年在臺灣大學演講中對畢業生的寄語,當然它也是黃仁勛一手締造的這家萬億市值帝國的心態詮釋。
2023年,奔跑中的英偉達遇到了生成式AI,黃仁勛多次稱之為“AI的iPhone時刻”。在這一時刻,黃仁勛把目光瞄向了一個成為獵手而非獵物的機會——云。
英偉達貌似不應該有做云的動力,不僅因為云服務商都是英偉達的重要客戶,每年向英偉達采購數十億美元的GPU,更因為這件事看上去毫無勝算。
今天的云計算市場被亞馬遜AWS、微軟Azure、谷歌云三大云巨頭牢牢把控。根據Statista數據,2022年AWS的市場份額為32%,Azure為23%,谷歌云為10%,三家合計市場份額達到了65%。
我們并非沒有看到挑戰者。過去十年,VMware、戴爾、惠普等知名企業都想在云計算的市場分一杯羹,但無一例外都失敗了。
然而,正如每一次技術革命都會產生新的弄潮兒,這一次生成式AI的浪潮,芯片廠商英偉達開始向云計算市場一步一步試探:
第一步,在今年3月21日的GTC大會上,英偉達發布了DGX Cloud。從名字就可以看出,這是一款云產品,客戶可以通過按月租用的方式,直接在云端或者本地數據中心獲取英偉達的AI產品與服務;
第二步,投資三大云巨頭的競爭對手。英偉達今年先后投資了CoreWeave、Lambda Labs兩家美國的中小云服務商,并且向其傾斜分配稀缺的GPU芯片。這種“偏愛”有多夸張?在GPU一芯難求的當下,CoreWeave卻能通過抵押其囤積的充沛的GPU——尤其是H100,而獲得了23億美元的債務融資。
盡管才剛剛開始,但布局云業務代表了英偉達對于云巨頭的反擊。
眾所周知,谷歌、亞馬遜、微軟先后在內部啟動自研AI芯片項目——谷歌的TPU系列,亞馬遜的Inferentia和Trainium系列,以及微軟今年被曝光的Athena芯片。三大云巨頭都有充分的資源與動力自研AI芯片,來削減英偉達的“GPU稅”。
英偉達對此心知肚明。黃仁勛在上一季度財報的電話會上直言“我們一直在關注競爭,而我們一直都有競爭”。
黃仁勛并不能阻止三大云服務商的擴張行為,但或許最好的防守就是進攻,英偉達的反擊方式是直接下場做云。
憑借手上的A100、H100兩張王牌——在很長的一段時間內,這兩款芯片都是大模型訓練與推理的最佳選擇且沒有之一,英偉達有機會成為云計算市場真正意義上的幕后操盤手。
一場圍繞著芯片與云計算的明爭與暗斗,正在這四家全球市值前五名的科技巨頭中緩緩展開。
1.差點倒在黎明之前
熟悉英偉達的人會知道,今天的英偉達有多風光,去年的英偉達就有多慘烈。
英偉達的核心業務包括數據中心、游戲、專業可視化以及汽車四大板塊。2020年第二季度,英偉達數據中心業務首次超過游戲,成為英偉達的第一大收入來源。
在2022Q4財報會(對應自然年2021年11月~2022年1月)上,英偉達交出了強勁的第四季度財報,數據中心業務同比增長71%。當時的黃仁勛樂觀地表示:“英偉達運算平臺迎來超乎尋常的市場需求。”然而一周之后,俄烏沖突爆發,干擾了關鍵原物料供應鏈。加上疫情影響,整個2022年,英偉達數據中心業務增速不斷放緩。
今年2月發布的2023Q4財報業績,英偉達數據中心增速僅11%,創下了歷史新低,也是自2020年以來首次環比下滑。
2022年,英偉達的股價也慘遭腰斬。當然,今天它已經漲回來了,ChatGPT的橫空出世拯救了英偉達。
注:英偉達即將在本周三(8月23日)發布2024Q2財報,對應2023年5月-7月。
在導致業務增速下滑的眾多原因中,大客戶需求的縮減最值得警惕。在2023Q4財報會上,英偉達CFO Colette Kress公布了一個數字:2023財年數據中心部門的150億美元收入中,有大約40%的收入(約60億美元)來自超大規模數據中心和云服務商。
但如果只看第四季度,這一比例僅占四分之一。超大規模數據中心建設者與云服務商正在大量減少GPU的支出。
除了客觀的需求下滑,三大云巨頭不斷推進的自研AI芯片計劃,正一點一點蠶食英偉達GPU的市場份額。
谷歌在2016年推出了第一代自研AI芯片TPU,五年之后的2021年5月19日又推出了第四代TPU v4。在今年發表的一份研究報告中,谷歌稱已將4000個TPU v4串聯在一起,構建了一臺超級計算機,這臺超級計算機的運行速度要比采用英偉達A100 GPU的同等機器快1.7倍,效率高出1.9倍。
亞馬遜也有自研芯片的傳統,這不僅是針對英偉達,而是針對所有芯片廠商。目前,亞馬遜已經推出了四個系列的自研芯片——網絡芯片Nitro系列,服務器芯片Graviton系列,AI推理芯片Inferentia系列、AI訓練芯片Trainium。其中,后兩款AI芯片與英偉達GPU存在競爭關系。
盡管入局較晚,但微軟“雖遲但到”。今年4月18日,據The Information報道,自從2019年以來,微軟一直在秘密研發AI芯片,內部代號為“雅典娜”(Athena),有數百名員工正在從事Athena項目,微軟已投入了約20億美元。微軟與OpenAI的一些員工,已經可以拿到芯片來測試在GPT-4等最新大語言模型上的表現。
云服務商每年因采購GPU要交大量的“英偉達稅”,尤其是在生成式AI爆發之后。
今年2月,New Street Research曾做過一次預估:基于ChatGPT的Bing搜索引擎,要想在一秒鐘之內響應用戶的提問,需要8個GPU。按照這一速度,微軟需要超過2萬臺包含8個GPU的服務器才能將Bing中的模型部署給每一名用戶,而這將花費微軟40億美元。如果是谷歌這樣的規模,每天處理80~90億次查詢,則需要花費800億美元。
云服務商自研AI芯片并不會對外銷售,并不會與英偉達產生直接的競爭。但是,通過將自研芯片替代GPU部署到數據中心里,可以有效削減成本。比如,谷歌已在其云服務中部署了數百臺TPU v4超級計算機。
三大云服務商都有充分的資源與動力去自研芯片,這被看做是英偉達帝國的一條裂縫。英偉達對此心知肚明,但似乎沒有更好的辦法。
直到ChatGPT的出現,被云服務商步步緊逼的英偉達看到了反擊的突破點。既然云服務商可以做芯片,那英偉達難道不能在AI時代做云嗎?
2.英偉達做云有機會嗎?
英偉達目前是生成式AI革命的最大受益者,黃仁勛今年也總是把“AI的iPhone時刻”掛在嘴邊。生成式AI爆發的需求,讓GPU成為了硬通貨,有人干脆稱“GPU就是新的美元”。
從GPU到云,英偉達真的有機會嗎?
生成式AI的訓練與推理主要是在云端進行,提供AI基礎設施的云服務商將是生成式AI浪潮的最大受益方之一。根據硅谷風投機構A16Z估算的數據,生成式AI所產生總收入的10%~20%最終流向了云服務商。
但是,這個過程不會很快。亞馬遜CEO安迪·賈西在2023年Q2財報電話會上稱:“生成式AI無疑將改變幾乎所有客戶的體驗。但現在還為時尚早,大多數公司仍在考慮如何實現這一目標。我們處于一個非常早期的階段,這是一場馬拉松。”
云服務的本質是將數據中心內的硬件資源虛擬化,然后租給市場。傳統數據中心的服務器幾乎100%是基于英特爾、AMD的CPU而建設,CPU像是一名“擁有最強大腦的通才”,它向外提供“通用計算”能力——處理操作系統、系統軟件與應用程序這一類擁有復雜指令調度、循環、分支、邏輯判斷與執行等程序任務。
但CPU并不擅長大規模的數據處理與并行計算,而這正是人工智能所需要、英偉達GPU所擅長的。GPU像是一名“暴力計算的專才”,專門對付圖像處理、深度學習以及當下的大模型訓練、推理等任務。黃仁勛將這種大規模并行計算能力稱為“加速計算”。
2012年,深度學習之父杰夫·辛頓及其徒弟首次嘗試在英偉達GPU上訓練卷積神經網絡模型AlexNet,并在圖像識別大賽中一舉奪冠。這件事催生了接下來十年的深度學習大爆發,整個人工智能行業包括英偉達自己,都意識到了GPU做加速計算的潛力。
英偉達命運的齒輪開始轉動。此后,黃仁勛在很多場合吶喊“摩爾定律已死”。他認為,CPU擴張的時代已經結束,每五年以同樣成本獲得十倍性能的提升也已經結束。取而代之的將是GPU,黃仁勛專門發明了一個“黃氏定律”——GPU將推動AI性能實現逐年翻倍。
2012年~2022年的十年間,我們可以稱之為加速計算的從0到1,人工智能在圖像識別等特定行業、特定場景落地。但是,這一時期AI需求還是不夠大,研究機構Aletheia預測,當前AI服務器的市場滲透率還不足5%。這對于實現黃仁勛加速計算的夢想還遠遠不夠。
直到2022年11月ChatGPT誕生,“AI的iPhone時刻”出現了。這可以看做加速計算從1到10規模化增長的開始。
生成式AI收入(圖片來自彭博社)
黃仁勛認為,加速計算與生成式AI兩大發展趨勢相結合,將改變過去60年來的計算方式。隨著公司競相將生成式AI應用到每個產品、服務和業務流程中,價值萬億美元的全球數據中心基礎設施將從通用計算過渡到加速計算,由此引發的數據中心重塑必將創造出巨大的市場機遇。
上一季度的財報電話會中,黃仁勛信誓旦旦地表示:“我們正處于一個為期十年的數據中心智能化的第一年。”
黃仁勛表示,加速計算是一個全棧挑戰,它必須把所有的軟件、所有的框架庫、所有的算法集成在一起進行工程化,這些工作不僅僅是針對一顆芯片,而是針對整個數據中心。數據中心就是一臺超級計算機,要獲得最佳性能,需要對網絡操作系統、分布式計算引擎、網絡設備、交換機、計算架構等全棧內容進行優化。
比如,通用計算數據中心主要使用以太網將所有服務器進行連接,不需要大規模的數據傳輸;英偉達提出的加速計算數據中心使用名為Infinite Band的技術進行連接,具有極高的數據吞吐量。
系統性的優化也讓加速計算數據中心比傳統數據中心有更高的效率、更低的成本。
黃仁勛在今年8月舉辦的計算機圖形年會SIGGRAPH上拋出了一個問題:“花1億美元能買什么?”黃仁勛自問自答:“過去,1億美元能買8800塊x86 CPU組成的數據中心,功耗是5MW;今天,1億美元能買2500塊GH200組成的Iso-Budget數據中心,功耗是3MW,AI推理性能達到上述CPU數據中心的12倍,能效達20倍。”
在相同的AI推理性能下,GPU數據中心的成本只有CPU數據中心的1/12。“買得越多,省得越多。”這是黃仁勛對其加速計算數據中心的帶貨宣言。
迄今為止,英偉達已經建設了5座數據中心,并幫助世界各地的客戶建立自己的數據中心。而且,傳統的數據中心從交付到運行可能還需要數月甚至一年之久,而在英偉達。這一時間以周為單位。“團隊在這方面的專業知識非常了不起。”黃仁勛表示。
對于三大云巨頭而言,從通用計算數據中心到加速計算數據中心的過渡不會很快。這不僅關乎技術與能力,也關乎這類巨頭公司的決策與流程,俗話說“船大難掉頭”。
這就給了英偉達做云的機會。從數據中心向前一步邁向云只是一件水到渠成的事,而且,英偉達已經在嘗試這么做了。
3.暗度陳倉
就在數據中心業務增速最低的2023年Q4財報上,英偉達同時還預告了一款新產品——DGX Cloud。在一個月之后的GTC大會上,DGX Cloud正式發布。
從名字就可以看出,這是一款云服務產品。難道英偉達要進軍云計算市場了?
先來看下DGX是什么。DGX是英偉達在2017年首次發布的超級計算機,黃仁勛稱之為“裝進機箱里的數據中心”。
第一代DGX內部集成了8塊GPU(Tesla P100)與4塊固態硬盤,并使用了英偉達NVlink連接技術。在深度學習訓練上,單臺DGX的性能相當于250臺普通x86服務器。當然,它也很貴,單臺售價12.9萬美元。
會后,黃仁勛將第一臺DGX-1贈送給了埃隆·馬斯克。馬斯克是OpenAI的聯合創始人,OpenAI就是從這臺超級計算機開始,一步一步打造了今天的ChatGPT。
今天,DGX超級計算機已經發展到第五代,前四代分別為DGX P100、DGX A100、DGX H100,以及最新的DGX GH200。
英偉達發布的DGX Cloud,就是此前發布的超級計算機的云版本,一個DGX Cloud實例(云服務器中的虛擬計算機)配置了8張A100或H100。
然而,DGX Cloud的售價并不便宜,每個月36999美元,大約26.4萬人民幣。作為對比,含有8顆A100的微軟Azure ND96asr實例與其同等規格,每個月費用為19854美元,只有DGX Cloud的一半。
為什么英偉達敢定如此高的價格?答案在于DGX Cloud是一款集成了軟件與硬件的交鑰匙解決方案。英偉達現在已經不再標榜自己是一家GPU芯片公司,而是定位一家計算平臺公司。
DGX Cloud除了硬件資源,還推出了兩個配套軟件平臺,一是NVIDIA AI Foundations,幫助企業創建定制模型,包括語言、視覺與生物醫藥模型等;二是NVIDIA AI Enterprise,它包含了4000個不同的AI框架,幫助企業開箱即用。英偉達的AI產品與國內阿里云等云服務商推出的MaaS類似。
黃仁勛對這些新的軟件收入來源非常樂觀,并預計生成式AI領域的收入將從公司總收入的“個位數”部分增長到未來一年內“相當大”的一部分。“我們對新商業模式的拓展感到興奮。”黃仁勛表示。
DGX Cloud的推出客觀上與云服務商形成了一定的競爭關系,但英偉達仍想繼續與云服務商保持緊密合作。英偉達當前并不會從零開始構建完整的云基礎設施,而是把DGX Cloud托管在各家云服務商的云平臺上。
英偉達將基礎硬件設施出售給云廠商,再向他們購買云計算資源,最后把云服務出售給企業客戶并自留全部收入。客戶僅通過瀏覽器,就可以訪問英偉達的AI超級計算機,來使用英偉達的AI產品與AI模型服務。
但是,云服務商會買賬嗎?
對此,黃仁勛是這樣解釋的:“英偉達云服務與云服務商的合作將是一次雙贏,雙方將共同創建新的應用程序并開發新的市場。”黃仁勛表示,理想情況下,客戶采購英偉達DGX Cloud與云服務商的云的比例為1:9。
Oracle是第一家宣布與英偉達合作的云服務商。這家軟件巨頭近幾年正急迫地進行云轉型,因此有充分的動力與英偉達組成同盟,以期在云計算市場打一張翻身仗。英偉達也正在與微軟Azure、谷歌云和其他云平臺合作,預計也將很快推出。
英偉達的如意算盤打得響亮,但并不是所有的云服務商都會接受英偉達的要求。AWS就拒絕與英偉達就DGX Cloud產品進行合作。
據路透社報道,亞馬遜彈性云計算副總裁Dave Brown表示:“英偉達聯系了我們,我們研究了商業模式。但對于AWS來說,這沒有多大的意義。”他認為,AWS在構建可靠服務器方面擁有長期經驗,并且擁有現有的供應鏈專業知識。
AWS在今年3月份開始購買英偉達的H100芯片,但僅作為其自研系統的一部分。AWS還在考慮使用AMD最新的人工智能芯片MI300,但尚未做出最終決定。
面對一個新興的生成式AI市場,英偉達與云服務商的利益分配,還將會持續地變化。但相當明確的是,英偉達已經動了云服務商的奶酪。
4.釜底抽薪
推出DGX Cloud僅僅是第一步,英偉達對云計算市場的參與度還在進一步加深。這一步,英偉達沒有選擇親自下場,而是選擇扶持三大云巨頭的競爭對手。
今年,一家名為CoreWeave的中小云廠商異軍突起,成為了比三大云巨頭更炙手可熱的云服務商。CoreWeave稱自己是全球范圍內唯一一家可以“大規模提供英偉達H100”的云服務商。
據GPU Utils網站預估,CoreWeave向英偉達預定的的H100數量約為35000-40000張。對比來看,谷歌在今年5月發布的超級計算機A3擁有大約26000個H100,亞馬遜AWS在7月上線的EC2 P5 虛擬機實例基于20000塊H100構建,微軟在8月上線的Azure ND H100v5虛擬機,僅僅包含8塊H100。不過,微軟擁有大約28.5萬塊A100。
CoreWeave到底是什么來歷?這家成立于2017年的公司,最初主要經營以太坊加密貨幣挖礦業務,在2018年干到了北美最大的以太坊礦工。當時的CoreWeave部署了超過50000個GPU,提供了以太坊網絡1%以上的算力。
在挖礦之外,CoreWeave也開始嘗試服務一些企業客戶,比如人工智能、娛樂媒體與計算化學。2019年,CoreWeave從消費級GPU全面轉向英偉達的企業級GPU,因為企業級GPU可以全天候運行,讓GPU的利用率提高到近乎100%。
2021年,CoreWeave正式上線了基于英偉達的GPU云平臺。2022年第三季度,隨著以太坊的合并,大規模顯卡挖礦時代結束,CoreWeave徹底轉型成為一家云服務提供商,并在這一年11月宣布成為首批提供采用NVIDIA HGX H100超級芯片的云服務商之一。
與亞馬遜、微軟、谷歌這三大巨頭相比,CoreWeave并不打算自研AI芯片,這得到了英偉達極大的賞識。
2023年4月,英偉達深化了與CoreWeave的合作,在業務合作之上又跟投了CoreWeave的2.21億美元B1輪融資。最重要的是,英偉達向CoreWeave提供了稀缺的A100、H100的獨特渠道。
在近期彭博社的采訪中,CoreWeave聯合創始人&首席戰略官Brannin McBee表示,英偉達今年的芯片已經賣光了,CoreWeave的訂單也排到明年Q2季度了。
CoreWeave可能囤積了世界上最多的英偉達GPU。在當下GPU短缺的背景下,芯片甚至比股權更值錢,CoreWeave開創了一種創新性的融資方式。今年8月,CoreWeave將手上的GPU芯片做抵押,以此獲得了23億美元的債務融資。此前,CoreWeave的B1輪股權融資僅獲得4.21億美元。
憑借與英偉達組建的“云+GPU”戰略聯盟,CoreWeave的業績也一飛沖天。
在今年之前,CoreWeave還只是一家名不見經傳的公司。但現在,CoreWeave準備通過其GPU從中賺取數十億美元的收入。在接受VentureBeat采訪時,CoreWeave聯合創始人兼首席戰略官Brannin McBee透露,2022年CoreWeave的收入為3000萬美元,今年將達到5億美元,明年已經簽訂了近20億美元的合同。
CoreWeave還宣布在德克薩斯州建立一個耗資16億美元的新數據中心,并在年底之前將數據中心擴展到14座。目前,AI明星獨角獸Inflection正在使用CoreWeave的云來構建大約22000塊H100的GPU集群,這家公司在今年7月宣布了新一輪13億美元的融資。值得一提的是,Inflection的投資人中也有英偉達的身影。
CoreWeave是英偉達今年投資的第一家云計算公司,但不是唯一的一家。
據The Information報道,英偉達即將與另一家云服務商Lambda Labs達成投資協議,英偉達可能投資3億美元,Lambda Labs的估值將突破10億美元。Lambda Labs稱能提供全世界價格最低的NVIDIA A100、H100算力資源。
而當前,憑借對GPU資源的“合理”分配,英偉達成為了實際意義上云計算市場的操盤手,從根源上拿捏了云巨頭的把柄——微軟就是一個很好的案例。
微軟在最近一次財報中添加了一條新的風險因素:“如果無法為其數據中心獲得足夠的人工智能芯片,服務可能會中斷。”
面對龐大的AI計算需求,微軟的GPU負載供不應求,甚至不得不向自己的競爭對手中小云廠商求助。據CNBC報道,微軟“已同意在未來幾年內斥資數十億美元購買初創公司CoreWeave的云計算基礎設施”。在英偉達的操控下,微軟不得不允許CoreWeave這樣的中小云服務商從GPU中賺一層差價。
通過投資入股中小云服務商,英偉達的半只腳已經涉足云計算領域。雖然還沒有嘗試直接下場構建云基礎設施與云巨頭展開全面的、直接的競爭,但如果將來英偉達直接通過收購中小云服務商等方式入場,我們也不會感到驚訝。
無論英偉達最終是否會躬身入局,它都成了生成式AI浪潮中云計算市場最大的幕后玩家。
-
芯片
+關注
關注
455文章
50714瀏覽量
423158 -
AI
+關注
關注
87文章
30728瀏覽量
268892 -
英偉達
+關注
關注
22文章
3770瀏覽量
90990
原文標題:英偉達與云巨頭必有一戰|甲子光年
文章出處:【微信號:jazzyear,微信公眾號:甲子光年】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論