【核芯觀察】是電子發燒友編輯部出品的深度系列專欄,目的是用最直觀的方式令讀者盡快理解電子產業架構,理清上、中、下游的各個環節,同時迅速了解各大細分環節中的行業現狀。以ChatGPT為首的AI大模型在今年以來可以說是最熱的賽道,而AI大模型對算力的需求爆發,也帶動了AI服務器中各種類型的芯片需求,所以本期核芯觀察將關注ChatGPT背后所用到的算力芯片產業鏈,梳理目前主流類型的AI算力芯片產業上下游企業以及運作模式。
ChatGPT帶火AI大模型行業
ChatGPT是OpenAI公司在2022年11月底發布的一款聊天機器人,屬于AICG(生成式人工智能技術)之一,ChatGPT能夠通過理解和學習人類語言來進行對話,還能根據聊天上下文的信息進行理解互動,完成包括撰寫郵件、文案、翻譯、生成代碼等多種任務。
與以往的決策式AI相比,生成式AI不僅僅局限于通過簡單分析現有數據來進行決策,而是對現有數據進行學習后,根據已有知識進行模仿來生成全新的內容。
ChatGPT可以理解成是利用GPT模型并結合多種技術,包括多輪對話建模、對話行為分類、情感分析、GPT全稱是Generative Pre-trained Transformer,顧名思義這是一種生成式預訓練語言模型,ChatGPT目前是基于GPT-3.5和GPT-4這兩個大語言模型構建的。GPT的核心結構是Transformer模型架構,可以說ChatGPT是基于Transformer的文本生成能力,在大規模的對話語料上進行了無監督預訓練,然后在特定的對話任務上進行有監督微調,使得其可以自然地生成文本或者回答問題,適用于自然語言生成的任務,因此在聊天互動上會有較好的表現。
在實際用戶體驗中,ChatGPT展現出極高的對話質量和實用性,盡管仍會出現一些事實性錯誤,但超強的對話能力讓它迅速出圈,僅僅在上線兩個月后活躍用戶數就突破一億,成為史上增速最快的消費級應用。
與此同時,ChatGPT的爆火,也引爆了AI大模型創業的新一輪熱潮,除了各大互聯網巨頭、高校團隊之外,王小川、李開復、賈揚清等業界明星創業者也紛紛加入AI大模型創業的賽道,開發類ChatGPT的產品。
但這種AI大模型背后的技術底層并不簡單,它需要海量的數據、復雜的算法和強大的算力來支撐。其中,算力是人工智能發展最大的瓶頸,也是當前AI大模型核心競爭力的關鍵因素。目前,AI大模型主要依賴于GPU或CPU+FPGA、ASIC等算力芯片來實現其高效運行。這些算力芯片是針對人工智能算法做了特殊加速設計的芯片,也被稱為AI加速器或計算卡,是AI的算力基礎。
所以,在當前AI大模型行業的熱潮下,算力需求暴增帶來的是相關芯片需求的大幅上漲。有機構預計,AI訓練對于算力的需求未來將會以每3.5個月翻一番的速度增長。因此我們在這期核芯觀察中,會著重關注ChatGPT火熱背后的算力芯片產業鏈。
大模型時代需要更多芯片算力
目前市面上主要的AICG預訓練大模型主要有OpenAI的GPT系列、谷歌的PaLM、Meta的LLaMA、百度的文心系列、騰訊的混元系列、阿里巴巴的通義千問、華為的盤古大模型等等
根據OpenAI公布的數據,GPT模型從2018年6月首次發布到2023年5月,已經迭代了四格大版本,參數量從GPT-1的1.17億到GPT-3的1750億到GPT-3的1750億。而最新的GPT-4雖然沒有公布訓練參數量,不過根據OpenAI的說法,GPT-4主要的升級是多模態能力方面,會使用到更多計算資源。
近期谷歌發布的PaLM2的升級也類似,在參數量與PaLM2基本同是5400億的情況下大幅提升多模態能力,也就是可以同時處理文本、圖像、音頻等多種內容。
而百度的類ChatGPT模型文心一言,是基于百度文心大模型打造,2021年12月百度推出的文心ERNIE 3.0 Titan參數量規模高達2600億。
當然由于大模型類型的不同比如NLP、CV,也有融合了NLP和CV的多模態,所以參數量也不直接代表大模型的實際能力。
參數量越高,意味著消耗的算力資源越多。以ChatGPT為例,由于ChatGPT與13億參數的InstructGPT是一對姐妹模型,僅在采集數據方式上有差異。參數規模為13.2億的GPT-3 XL與ChatGPT接近,而OpenAI公開的數據中,GPT-3 XL訓練所需算力是27.5PFlop/s-day(1PetaFLOP/s的效率運行27.5天),那么我們可以大致認為ChatGPT訓練一次所需算力同樣是需要1PetaFLOP/s的效率運行27.5天。
如果使用英偉達V100 GPU,按照半精度(FP16)算力125TFLOPS計算,ChatGPT至少需要一塊V100 GPU不間斷滿載運行220天才能完成一次訓練;如使用SXM版本的A100,按照半精度算力624TFLOPS計算,那么ChatGPT進行一次訓練也需要一塊A100運行44天左右。
目前SXM版本最高規格顯存的V100和A100單卡市場售價大約分別為2.5萬元和9萬元左右。
當然由于技術形式的不同,實際訓練中的效率不會這么高,而這樣的訓練成本僅是13億參數量的模型。如今AI大模型動輒千億,甚至萬億的參數量規模,比如有機構報告推算GPT-4模型參數量達到1萬億,那么在暴增的數據量下,為了縮短訓練時間,對于AI服務器等算力硬件的需求量毫無疑問會隨著模型訓練數據量增加而提高。
另一方面,在ChatGPT這類聊天應用中,巨大的用戶訪問量也給算力帶來巨大的性能和成本壓力。根據Similarweb數據,今年2月OpenAI訪問量已經達到11億次,而根據Fortune的數據,用戶每次與ChatGPT互動產生的云算力成本約0.01美元,如果往低了算,每次訪問網站僅進行一次互動,那么單月僅算力成本也要1100萬美元。
未來在包括類ChatGPT在內的AI大模型進入到更多行業應用之后,市場需求持續開拓,AI服務器市場規模將有很大的市場空間,相關下游應用對于算力硬件的需求將會迎來新一輪爆發。
IDC的數據顯示,2021年,全球AI服務器市場規模為156億美元,同比增長39.1%;預計到2025年全球AI服務器市場規模將會達到317.9億美元,復合年均增長率為19%。根據集邦咨詢數據,截至2022年,預估搭載GPGPU的AI服務器年出貨量占整體服務器比重近1%,而2023年,在ChatGPT相關應用加持下,預估出貨量年同比增長8%,2022~2026年CAGR將達10.8%。
AI大模型背后用到哪些芯片?
在AI大模型領域,主要包括訓練(training)和推理(inference)兩個步驟,訓練即前面提到的通過大量經過標記的數據來訓練能夠完成特定功能的模型,而推斷即利用經過訓練后的模型,根據新導入的數據來推斷出結論。
用于人工智能的服務器目前主要用到CPU搭配GPU、FPGA、AI ASIC這幾種加速芯片,根據不同的計算任務選擇不同的芯片搭配。對于大模型訓練而言,傳統的CPU受限于單行運算,主要在邏輯控制、串行運算等方面有優勢,不擅長復雜算法運算和處理并行重復的操作。所以CPU在深度學習中會被用于推理或預測等領域,而在服務器中,CPU可以負責整個系統的管理和控制,是服務器的基礎硬件,而GPU、FPGA、ASIC等加速芯片則負責AI計算任務的加速,兩者相互協作,共同提升整個系統的性能。按照IDC的數據CPU在基礎型、高性能型、推理型、訓練型服務器中成本占比分別為32%、23.3%、25%、9.8%。
GPU則是目前AI服務器最常見的芯片,它提供多核并行計算的基礎結構,可以支撐大算力需求,并且擁有高浮點運算能力,在處理圖形數據和復雜算法方面與CPU相比有明顯優勢,滿足深度學習領域的大量數據運算需求。不過GPU管理控制能力弱,需要配合CPU使用,功耗也較高。
FPGA也就是現場可編程門陣列,特點是可以無限次編程、靈活性較高,延時低,實時性強,可以同時進行數據并行和任務并行計算,在處理特定應用時會有明顯的效率優勢。同時可重復編程為算法功能實現和優化提供較大的修改空間。但與此同時FPGA開發難度大,價格較高,所以應用場景會受到一定限制。
AI用ASIC顧名思義是全定制化的芯片,專為特定應用或實現某種特定功能而專門設計的AI芯片,在處理相應任務時的能耗、效率表現都最好。但ASIC前期研發成本高、時間周期長,并且由于定制化設計,應用場景極為局限。在深度學習算法穩定后,可以通過根據算法需求設計ASIC,提供最高效率的算力硬件,大規模應用下能夠大幅降低整體系統成本。
總結一下這四種芯片在AI計算中起到的不同作用:CPU主要用于邏輯判斷、任務調度和控制方面;模型訓練則往往會使用GPU;FPGA多數在研發階段、數據中心、AI推理方面;AI用ASIC主要面向使用特定AI算法的應用場景,需要較為成熟的應用支撐其量產。
根據IDC的數據,中國AI芯片市場上目前GPU占比最高為89%,其次是NPU占到9.6%,ASIC和FPGA僅分別占1%和0.4%。其中NPU主要是用在邊緣側。而對于AI服務器的使用領域,按照當前趨勢,在市場增長的情況下,服務器用于推理的負載占比會緩慢增加。2021用于推理和訓練的占比分別為40.9%和59.1%,IDC預測2025年推理和訓練的占比調整為 60.8%和39.2%。
不過隨著AI大模型的成熟、算法持續優化、芯片性能的提升等因素變化,未來模型消耗的算力需求、服務器數量需求可能會比預測的數據要低。
下一期內容,我們將會對AI大模型中使用到的CPU、GPU、FPGA、ASIC這些細分領域產業鏈中做進一步的分析梳理,記得關注我們~
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
算力芯片
+關注
關注
0文章
46瀏覽量
4516 -
算力
+關注
關注
1文章
964瀏覽量
14793 -
ChatGPT
+關注
關注
29文章
1558瀏覽量
7595
發布評論請先 登錄
相關推薦
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽
本帖最后由 1653149838.791300 于 2024-10-16 22:19 編輯
感謝平臺提供的書籍,厚厚的一本,很有分量,感謝作者的傾力付出成書。
本書主要講算力芯片CPU
發表于 10-15 22:08
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析
試用評測資格!
前言
不知不覺中,我們來到一個計算機科學飛速發展的時代,手機和計算機中各類便捷的軟件已經融入日常生活,在此背景下,硬件特別是算力強勁的芯片,對于軟件服務起到不可替代的支撐作用。
發表于 09-02 10:09
大模型時代的算力需求
現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型的算力,以及相關的穩定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
發表于 08-20 09:04
商湯科技采購40000顆英偉達芯片,縮小中美算力差距
徐冰認為,國產芯片崛起以及算力商品化帶來的投資價值,使中美算力差距有望逐步縮小。只要中國持續在算
大算力時代, 如何打破內存墻
設計的不斷革新,進入了大算力時代。 目前,主流AI芯片的架構仍然沿用了傳統的馮·諾依曼模型,這一設計將計算單元與數據存儲分離。在這種架構下,處理器需要從內存中讀取數據,執行計算任務,然后將結果寫回內存。盡管AI
智能算力規模超通用算力,大模型對智能算力提出高要求
電子發燒友網報道(文/李彎彎)算力是設備通過處理數據,實現特定結果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
ChatGPT算力芯片如何做算力輸出
算力卡的核心當然還是計算芯片,會搭配大容量高帶寬的內存、緩存,以及搭載CPU用于調度,為了幫助數據傳輸,便會使用高速通道,這便是PCIe(高速串行計算機擴展總線標準)在系統中的作用:提供總線通道。
發表于 01-11 10:01
?494次閱讀
芯科技,解密ChatGPT暢聊之算力芯片
的GPU服務器,尤其是英偉達的A100 GPU,提供了強大而精確的計算能力。ChatGPT的功能遠超日常對話,它能夠學習、理解并生成人類般的文本,是人工智能領域的一個重要突破。但其真正力量的源泉,是背后那些不斷工作的算
評論