高性能GPU數量或性能不夠的結果是,AI推理和模型訓練的準確度不足,即使做出類似的對話機器人,機器人的“智商”也會遠低于ChatGPT
國內云廠商高性能GPU芯片缺貨,正在成為限制中國生成式AI誕生的最直接因素。
2022年12月,微軟投資的AI創業公司OpenAI推出了聊天機器人ChatGPT。這是生成式AI在文本領域的實際應用。所謂生成式AI,是指依靠AI大模型和AI算力訓練生成內容。ChatGPT本質是OpenAI自主研發的GPT-3.5語言大模型。該大模型包含近1800億個參數。
微軟的Azure云服務為ChatGPT構建了超過1萬枚英偉達A100GPU芯片的AI計算集群。
美國市場研究機構TrendForce在3月1日的報告中測算稱,處理1800億個參數的GPT-3.5大模型,需要的GPU芯片數量高達2萬枚。未來GPT大模型商業化所需的GPU芯片數量甚至超過3萬枚。更早前的2022年11月,英偉達在官網公告中提到,微軟Azure上部署了數萬枚A100/H100高性能芯片。這是第一個采用英偉達高端GPU構建的大規模AI算力集群。
鑒于英偉達在高性能GPU方面的技術領先實力,在國內,云計算技術人士公認的一個說法是,1萬枚英偉達A100芯片是做好AI大模型的算力門檻。
《財經十一人》了解到,目前國內云廠商擁有的GPU主要是英偉達中低性能產品(如英偉達A10)。擁有超過1萬枚GPU的企業不超過5家,其中擁有1萬枚英偉達A100芯片的企業最多只有1家。也就是說,單是從算力這個衡量指標來看,國內能在短期內布局類似ChatGPT的選手十分有限。
ChatGPT看似只是聊天機器人,但這卻是微軟的AI算力、AI大模型和生成式AI在消費市場的一次肌肉展示。在企業市場,這是云計算的新一輪增長點。微軟AzureML(深度學習服務)已有200多家客戶,包括制藥公司拜耳、審計公司畢馬威。Azure ML連續四個季度收入增長超過100%。這是微軟云旗下云、軟件、AI三大業務中增長最快的板塊。
今年2月,包括阿里、百度等中國企業宣布將研發類ChatGPT產品,或將投入生成式AI的研發。在國內,AI算力、AI大模型和生成式AI被認為只有云廠商才有資格下場。華為、阿里、騰訊、字節跳動、百度都有云業務,理論上有跑通AI算力、AI大模型和生成式AI應用的入場券。
有入場券不代表能跑到終點。這需要長期高成本投入。GPU芯片價格公開,算力成本容易衡量。大模型需要數據采集、人工標注、模型訓練,這些軟性成本難以簡單計算。生成式AI的投資規模通常高達百億元。
多位云計算廠商技術人士、服務器廠商人士對《財經十一人》表示,高性能GPU芯片短缺,硬件采購成本、運營成本高昂,國內市場中短期商業化困難,這三個問題才是真正的挑戰。他個人認為,具備資金儲備、戰略意志和實際能力的企業,暫時不會超過3家。
芯片數量決定“智商”
決定AI大模型“智商”的核心因素是三個,算力規模、算法模型的精巧度、數據的質量和數量。
AI大模型的推理、訓練高度依賴英偉達的GPU芯片。缺少芯片會導致算力不足。算力不足意味著無法處理龐大的模型和數據量。最終的結果是,AI存在智商差距。
3月5日,第十四屆全國人民代表大會第一次會議開幕式結束后,科技部部長王志剛在全國兩會“部長通道”接受媒體采訪時評價,ChatGPT作為一個大模型,有效結合了大數據、大算力、強算法。它的計算方法有進步,特別是在保證算法的實時性與算法質量的有效性上。“就像發動機,大家都能做出發動機,但質量是有不同的。踢足球都是盤帶、射門,但是要做到梅西那么好也不容易。”
英偉達是全球知名的半導體廠商,在數據中心GPU市場占據超過90%以上的份額。英偉達A100芯片2020年上市,專用于自動駕駛、高端制造、醫療制藥等AI推理或訓練場景。2022年英偉達推出了性能更強的新一代產品H100。A100/H100是目前性能最強的數據中心專用GPU,市面上幾乎沒有可規模替代的方案。包括特斯拉、Facebook在內的企業,都利用A100芯片組建了AI計算集群,采購規模均超過7000枚。
多位云計算技術人士對《財經十一人》表示,運行ChatGPT至少需要1萬枚英偉達的A100芯片。然而,GPU芯片持有量超過1萬枚的企業不超過5家。其中,擁有1萬枚英偉達A100GPU的企業至多只有1家。?
另有某大型服務器廠商人士對《財經十一人》表示,即使樂觀估計,GPU儲備規模最大的企業也不超過5萬枚,且以英偉達中低端數據中心芯片(如英偉達A10)為主。這些GPU芯片分散在不同數據中心中,單個數據中心通常只配備了數千枚GPU芯片。
此外,由于美國政府去年8月開始實施的貿易限制,中國企業早已無法獲取英偉達A100芯片。現有A100芯片儲備均是存貨,剩余使用壽命約為4年-6年。
2022年8月31日,英偉達、AMD兩家半導體企業旗下生產的GPU產品被美國列入限制范圍。英偉達被限制的產品包括A100和H100,AMD受管制GPU產品包括MI250。按照美國政府的要求,未來峰值性能等于或超過A100的GPU產品也被限制出售。(詳情見《財經十一人》2022年9月1日報道《美國限制高性能GPU供應,倒逼中國自主化》)
中國企業目前能夠獲取的最佳替代品,是英偉達的A800芯片。A800被視為是A100的“閹割版”。2022年8月,A100被禁止銷售中國市場后,英偉達在當年三季度針對中國市場推出了特供的A800芯片。該產品計算性能與A100基本相同,但數據傳輸速度被降低了30%。這會直接影響AI集群的訓練速度和效果。
不過,A800芯片目前在中國市場也嚴重缺貨。雖然是A100“閹割版”,A800京東官網定價超過8萬元/枚,甚至超過A100官方定價(1萬美元/枚)。即使如此,A800在京東官網仍是缺貨狀態。
有云廠商人士對《財經十一人》表示,A800實際售價甚至高于10萬元/枚,價格還在持續上漲。A800目前在浪潮、新華三等國內服務器廠商手中是稀缺品,一次只能采購數百片。
GPU數量不夠或性能不夠的結果是,AI推理和模型訓練的準確度不足。這會直接導致中國企業即使做出類似的對話機器人,機器人的“智商”會遠低于ChatGPT。國內云廠商高性能GPU芯片缺貨,正在成為限制中國版ChatGPT誕生的最直接因素。
成本高昂
AI算力和大模型是比云還要燒錢的吞金獸。
即使有足量的高性能GPU,中國云廠商接下來還要面臨高昂的硬件采購成本、模型訓練成本以及日常運營成本。面對上述成本,具備資金儲備、戰略選擇和實際能力的企業不超過三家。
OpenAI能做出ChatGPT,背后有微軟提供資金和算力。2019年微軟向OpenAI投資10億美元。2021年微軟再進行了一輪未透露金額的投資。今年1月,微軟宣布將在未來數年陸續向OpenAI投資100億美元。
對云廠商來說,AI算力和大模型需要面臨高昂的硬件采購成本、模型訓練成本以及日常運營成本。
其一,硬件采購成本和智算集群建設成本。如果以1萬枚英偉達A800GPU為標準構建智能算力集群,在10萬元/枚的價格標準下,僅GPU采購成本就高達10億元。一臺服務器通常需要4枚-8枚GPU,一臺搭載A800的服務器成本超過40萬元。國內服務器均價為4萬-5萬元。一臺GPU服務器的成本是普通服務器的10倍以上。服務器采購成本通常是數據中心建設成本的30%,一個智算集群的建設成本超過30億元。
其二,模型訓練成本。想要算法模型足夠精準,需要進行多輪算法模型訓練。有某外資云廠商的資深技術人士對《財經十一人》表示,ChatGPT一次完整的模型訓練成本超過1200萬美元(約合8000萬元)。如果進行10次完整的模型訓練,成本便高達8億元。GPU芯片價格公開,算力成本相對容易衡量。但AI大模型還需要數據采集、人工標注、模型訓練等一系列工作,這些軟性成本難以簡單計算。不同效果的模型最終成本也不同。
其三,日常運營成本。數據中心內的模型訓練需要消耗網絡帶寬、電力資源。此外,模型訓練還需要算法工程師負責調教。上述成本也以億元為單位計算。
也就是說,進入AI算力和AI大模型的賽道,前期硬件采購、集群建設成本就高達數十億元。后期模型訓練、日常運營以及產品研發成本同樣高達數十億元。一家管理咨詢公司技術戰略合伙人對《財經十一人》表示,生成式AI的投資規模高達百億元。
微軟大規模采購GPU組建智算集群,這在商業邏輯上行得通。2022年微軟在云計算基礎設施的支出超過250億美元,當年微軟營業利潤828億美元,微軟云營業利潤就超過400億美元。僅微軟云利潤大于支出,大規模投資AI算力、大模型業務,這與微軟的財務現狀是相匹配的。
微軟的AI計算有產品、有客戶、有收入,形成了新的增長點。微軟的客戶通常會在云上租賃數千枚高性能GPU,進行語言模型學習,以此使用自己的啟用生成式AI。
微軟旗下包括AzureML和OpenAI。Azure ML有200多家客戶,包括制藥公司拜耳、審計公司畢馬威。Azure ML連續四個季度收入增長超過100%。微軟云甚至已經形成了“云-企業軟件-AI計算”三條輪動增長的曲線。其中公有云Azure營收增速約為30%-40%,軟件業務營收增速約為50%-60%,AI算力營收增速超過100%。
中國企業用于云基礎設施的資本支出有限,投資投資智算集群、AI大模型需要從有限的預算中分走支出。更大的挑戰是,中短期內不僅無法盈利,還要虧更多錢。
科技公司的資本支出通常被用于采購服務器、建設數據中心、購置園區土地等固定資產。以亞馬遜為例,2022年資本支出580億美元,超過50%用于投資云基礎設施。《財經十一人》查閱阿里、騰訊、百度最近一個財年的資本支出發現,三家數據分別為533億元、622億元、112億元。
三家均未披露用于投資云基礎設施的資本支出情況。假設三家企業與亞馬遜相同,50%的資本支出用于投資云基礎設施,數據分別為266億元、311億元、56億元。投資數十億元對資本支出寬裕的企業來說可以承受,但對資本支出不足的企業來說,則是負擔。
國內宣布已建設智算集群的企業包括阿里云、華為、百度,但智算集群內GPU芯片數量不詳。2022年,主要云廠商均把提高毛利、減少虧損作為戰略重點。在這個階段采購高性能GPU、建設智算集群需要巨額投入。不僅會加劇虧損,還需要依賴集團輸血。這將考驗企業管理層的戰略意志。
大模型沒條件,先做小模型
華為、阿里、騰訊、字節跳動、百度都有云業務,理論上有做出中國版ChatGPT的入場券。
有云計算技術人士評價,有入場券的幾家企業也會有實際的戰略考量。比如,騰訊、百度、字節跳動有云也有大量數據,但云業務在虧損,長期投入的資金儲備、戰略意志存疑。華為靠自研昇騰芯片建立了大模型技術,但因“斷供”影響無法獲得英偉達的GPU芯片,而且作為硬件廠商缺少互聯網公司的數據積累。
由于上述限制,能實現AI大模型商業化的企業少之又少。最終同時具備資金儲備、戰略意志和實際能力的企業將聊聊無幾。
目前,沒有一家中國云廠商像微軟一樣擁有數萬枚A100/H100芯片。中國云廠商的高性能GPU算力目前暫時不足。一種更務實的觀點是,中國云廠商即使真的獲取1萬枚英偉達高性能GPU后,也不應該簡單投入到中國版ChatGPT這種大眾的消費場景。
算力資源稀缺時,優先考慮是投入行業市場,為企業客戶提供服務。一家管理咨詢公司技術戰略合伙人對《財經十一人》表示,ChatGPT只是對話機器人,商業應用場景展示暫時有限。用戶規模越大,成本也就越高,帶來的虧損也會越大。AI算力和大模型如何在細分領域實現商業化,獲取正向現金流才是關鍵。
中國市場的AI算力、大模型的商業化尚處于起步期。目前國內自動駕駛、金融等領域的少數客戶開始采用AI算力。比如,小鵬汽車目前已經采用阿里云的智算中心進行自動駕駛的模型訓練。
有數據中心產品經理對《財經十一人》表示,國內銀行金融客戶反欺詐已經大量運用模型訓練技術,通常只需要租賃使用數百枚性能更低的GPU調教模型。同樣是AI計算和模型訓練,這是更低成本的解決方案。事實上,通用大模型無法解決行業具體問題,無論是金融、汽車、消費等各個領域都需要行業模型。
中國暫時沒有足夠的高性能GPU做大規模AI模型訓練,可以先在細分領域做小模型。AI技術發展之快速超越了人們的認知,對中國公司來說,持續布局戰略性發力才是根本之道。
審核編輯 :李倩
-
云計算
+關注
關注
39文章
7835瀏覽量
137485 -
聊天機器人
+關注
關注
0文章
339瀏覽量
12323 -
ChatGPT
+關注
關注
29文章
1563瀏覽量
7758
原文標題:ChatGPT算力消耗驚人,能燒得起的中國公司寥寥無幾
文章出處:【微信號:industry4_0club,微信公眾號:工業4俱樂部】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論