AI在各種各樣的實(shí)際場景中都有相關(guān)的應(yīng)用。比如以卷積網(wǎng)絡(luò)為核心的圖像檢測,視頻檢索技術(shù)可應(yīng)用于下游的安防、醫(yī)療診斷、自動駕駛等場景;以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的博弈決策技術(shù),可應(yīng)用于交通規(guī)劃等領(lǐng)域;以Transformer為核心的自然語言處理技術(shù),可以應(yīng)用于搜索推薦、智能人機(jī)接口等場景。
AI 算力基礎(chǔ)設(shè)施的重要性
目前,人工智能(AI)是中美科技競爭的重要領(lǐng)域。2020年4月,國家發(fā)改委明確將人工智能納入新基建范圍,AI是新基建之一。而在2019年2月,美國發(fā)布了《維護(hù)美國人工智能領(lǐng)導(dǎo)力的行政命令》(Execution Order On Maintaining American Leadership in Artificial Intelligence),此命令可視為美國國家AI戰(zhàn)略的里程碑。而在2020年10月,美國國家AI安全委員會又指出:“必須不惜一切代價(jià)在AI上擊敗中國”。可見,AI對于中美未來綜合國力的競爭是非常重要的。此外,中美兩國在人工智能領(lǐng)域各有優(yōu)勢。從AI技術(shù)三駕馬車:算法、數(shù)據(jù)、算力來看,中國在大數(shù)據(jù)領(lǐng)域處于優(yōu)勢地位,但在算法和智能算力領(lǐng)域,中國落后于美國。智能算力的不足嚴(yán)重制約了我國在AI領(lǐng)域的創(chuàng)新能力。可以看到,智能AI算力在中美科技競爭中占據(jù)非常重要的戰(zhàn)略地位。
那么,AI算力究竟為何如此重要呢?除去前面提及的中美競爭的大背景,AI算力對于我國經(jīng)濟(jì)建設(shè)、科技建設(shè)都有著非常積極的意義。
首先,算力即生產(chǎn)力,算力能夠推動經(jīng)濟(jì)發(fā)展方式變革。據(jù)埃森哲和經(jīng)濟(jì)學(xué)前沿公司分析,預(yù)計(jì)到2035年,AI將推動我國GDP增長21%。由此可見,算力將成為智能經(jīng)濟(jì)的發(fā)動機(jī)。?
其次,AI算力正在改變基礎(chǔ)科學(xué)和智能領(lǐng)域的創(chuàng)新模式。比如,AlphaFold2解決了結(jié)構(gòu)生物學(xué)50年的難題,AI+HPC將高能物理計(jì)算加速數(shù)百倍。
AI在各種各樣的實(shí)際場景中都有相關(guān)的應(yīng)用。比如,以卷積網(wǎng)絡(luò)為核心的圖像檢測,視頻檢索技術(shù)可應(yīng)用于下游的安防、醫(yī)療診斷、自動駕駛等場景;以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的博弈決策技術(shù),可應(yīng)用于交通規(guī)劃等領(lǐng)域;以Transformer為核心的自然語言處理技術(shù),可以應(yīng)用于搜索推薦、智能人機(jī)接口等場景。其中最典型的自然語言處理模型,比如GPT-1、GPT-2、GPT-3,BERT的發(fā)展非常迅速,模型規(guī)模從幾億到幾千億再到幾萬億參數(shù)。以上一切技術(shù)都需要AI算力來提供支持。
綜上所述,AI算力影響了我們社會的方方面面。因此,構(gòu)建AI算力的基礎(chǔ)設(shè)施非常重要。
AI 算力基礎(chǔ)設(shè)施的架構(gòu)和平衡設(shè)計(jì)
AI算力非常重要,對AI算力基礎(chǔ)設(shè)施的架構(gòu)進(jìn)行設(shè)計(jì),是提升AI算力的第一步。
現(xiàn)有算力體系,比如超算系統(tǒng),主要針對的是HPC的應(yīng)用,而AI和HPC存在著一些區(qū)別。比如,HPC主要應(yīng)用于科學(xué)和工程計(jì)算,像天氣預(yù)報(bào)、核聚變模擬、飛行器設(shè)計(jì)等,而AI主要用于分類、回歸、自然語言處理,下游任務(wù)主要是安防、互聯(lián)網(wǎng)搜索推薦、金融風(fēng)控、智能制造;從運(yùn)算精度角度來說,HPC主要為雙精度浮點(diǎn)運(yùn)算,而AI主要為半精度浮點(diǎn)運(yùn)算或者低精度整數(shù)運(yùn)算;從編程角度來看,HPC主要是基于MPI來做并行計(jì)算,而AI基于Pytorch、TensorFlow、 MindSpore、Oneflow、DeepSpeed等機(jī)器學(xué)習(xí)框架;HPC的性能指標(biāo)主要是HPL、HPCG,而AI的性能指標(biāo)是MLPerf、AIPerf。傳統(tǒng)超算系統(tǒng)對于AI系統(tǒng)的支持性不佳。因此,需要針對AI的特性來設(shè)計(jì)新的超算系統(tǒng)。目前,代表性的HPC和AI系統(tǒng)主要有以下幾個(gè):天河2號、神威太湖之光、Summit、富岳、Frontier、鵬城云腦2等。
其中,鵬城云腦2是新一代AI HPC系統(tǒng)。該系統(tǒng)包含4套華為Atlas900系統(tǒng),4套系統(tǒng)節(jié)點(diǎn)間用200Gbps網(wǎng)絡(luò)互連。鵬城云腦的總半精度計(jì)算性能可達(dá)1E flops,雙精度可達(dá)1P flops。那么,設(shè)計(jì)AI系統(tǒng)的系統(tǒng)結(jié)構(gòu)要素有哪些呢?我們先來看一下一般大規(guī)模計(jì)算機(jī)系統(tǒng)中是什么樣的。一般來說,大規(guī)模計(jì)算機(jī)系統(tǒng)包括四個(gè)部分,即處理器、內(nèi)存、存儲與互聯(lián)網(wǎng)絡(luò)。
具體來說,AI算力系統(tǒng)和傳統(tǒng)HPC系統(tǒng)在各個(gè)要素上存在一些聯(lián)系和區(qū)別。
在處理器上,AI算力系統(tǒng)著重半精度計(jì)算性能,面向神經(jīng)網(wǎng)絡(luò)運(yùn)算的優(yōu)化(如nVidiaGPU的TensorCore);HPC系統(tǒng)雙精度性能優(yōu)先,兼顧低精度計(jì)算,更大規(guī)模機(jī)器甚至需要采用80位或128位高精度。
在互聯(lián)網(wǎng)絡(luò)上,AI算力系統(tǒng)需要高性能參數(shù)平面網(wǎng)絡(luò)(如nvlink)連接訓(xùn)練單一模型的加速器組(nVidia 8或16卡,華為4096卡);HPC系統(tǒng)一般從全系統(tǒng)角度考慮網(wǎng)絡(luò)拓?fù)浜?a href="http://www.1cnz.cn/v/tag/1301/" target="_blank">通信需求。
在存儲系統(tǒng)上,AI算力系統(tǒng)局部高性能存儲(NVMe SSD)存放訓(xùn)練數(shù)據(jù)集(如GPT-345TB),避免從全局文件系統(tǒng)讀取數(shù)據(jù)造成瓶頸;HPC系統(tǒng)一般采用Lustre等全局并行文件系統(tǒng),支持MPI-IO。
結(jié)合以上分析,在設(shè)計(jì)新型AI系統(tǒng)時(shí),要重視系統(tǒng)平衡性原則。
計(jì)算平衡設(shè)計(jì)
鵬城云腦2原有設(shè)計(jì)中主要考慮半精度運(yùn)算性能,雙精度運(yùn)算能力過低,雙精度與半精度運(yùn)算性能之比為1:1000。
根據(jù)科學(xué)計(jì)算和大模型訓(xùn)練的發(fā)展趨勢,要改變精度平衡設(shè)計(jì)的思想, 建議增加通用算力,為云腦適應(yīng)科學(xué)計(jì)算和更廣泛的AI算法和應(yīng)用提供保障。
網(wǎng)絡(luò)平衡設(shè)計(jì)
鵬程云腦2原有網(wǎng)絡(luò)設(shè)計(jì)主要針對CNN等算法,未考慮極大規(guī)模預(yù)訓(xùn)練模型對系統(tǒng)的需求;原有數(shù)據(jù)平面網(wǎng)絡(luò)的頂層網(wǎng)絡(luò)裁剪比為1:4,對訓(xùn)練數(shù)據(jù)讀取和大規(guī)模科學(xué)計(jì)算支撐不足;建議數(shù)據(jù)平面頂層網(wǎng)絡(luò)裁剪比改進(jìn)為1:1,華為相應(yīng)修改了網(wǎng)絡(luò)連接方式,并增加了頂層交換機(jī),為IO500測試多次名列世界第一打下了基礎(chǔ)。
IO子系統(tǒng)平衡設(shè)計(jì)
鵬程云腦2原有系統(tǒng)的本地NVME SSD僅通過本地文件系統(tǒng)訪問,限制了其應(yīng)用范圍;應(yīng)將每臺服務(wù)器上的快速本地NVME整合成應(yīng)用為可見的全局分布式文件系統(tǒng),并開發(fā)高性能MADFS并行文件系統(tǒng),在多次IO500測試中獲得世界第一。現(xiàn)在,已經(jīng)有越來越多的城市陸續(xù)啟動人工智能計(jì)算中心建設(shè),讓算力無處不在、觸手可及!
AI 算力的評測方法
前面介紹了AI算力基礎(chǔ)設(shè)施的設(shè)計(jì),除此之外,AI算力的評測(AI Perf)也是非常重要的。
為什么需要AI算力評測呢?
首先,公眾需要一個(gè)評價(jià)指標(biāo)來回答:哪套系統(tǒng)的人工智能算力更強(qiáng)?
其次,我們需要知道,整個(gè)領(lǐng)域的發(fā)展?fàn)顩r如何?顯然,一個(gè)好的指標(biāo)能夠引領(lǐng)領(lǐng)域的健康發(fā)展。然而,傳統(tǒng)高性能計(jì)算機(jī)的測試結(jié)果與人工智能需要的性能不完全一致。
正如前面所述,HPC和AI所采用的數(shù)據(jù)精度不同,需要針對AI來設(shè)計(jì)基準(zhǔn)評測程序。而現(xiàn)有AI基準(zhǔn)評測,面臨以下幾個(gè)問題:DeepBench測試底層人工智能芯片計(jì)算的效率,不能反映超大規(guī)模系統(tǒng)性能,針對單個(gè)芯片,不適用于整機(jī)評測;Mobile AI Bench針對移動端硬件上的模型訓(xùn)練評測,無法體現(xiàn)超算對大規(guī)模AI應(yīng)用的性能;MLPerf,采用單一人工智能網(wǎng)絡(luò)模型,百張加速卡以上規(guī)模測試下可擴(kuò)展性明顯下滑,難以支撐在千卡以上級別的系統(tǒng)評測。
為了克服AI基準(zhǔn)評測的問題,需要實(shí)現(xiàn)以下四個(gè)目標(biāo)。
1.一個(gè)統(tǒng)一分?jǐn)?shù)。AIPerf需要能夠報(bào)告一個(gè)統(tǒng)一分?jǐn)?shù)作為被評測集群系統(tǒng)的評價(jià)指標(biāo)。AIPerf目前的評價(jià)指標(biāo)是AIops,即平均每秒處理的混合精度AI操作數(shù)。使用一個(gè)而不是多個(gè)分?jǐn)?shù)能方便進(jìn)行不同機(jī)器的橫向比較,以及方便向公眾宣傳。
2.可變的問題規(guī)模。人工智能計(jì)算集群往往有著不同的系統(tǒng)規(guī)模,差異性體現(xiàn)在結(jié)點(diǎn)數(shù)量、加速器數(shù)量、加速器類型、內(nèi)存大小等指標(biāo)。因此,為了適應(yīng)各種規(guī)模的高性能計(jì)算集群,AIPerf 能夠使用AutoML進(jìn)行問題規(guī)模的變化來適應(yīng)集群規(guī)模的變化,從而充分利用人工智能計(jì)算集群的計(jì)算資源來體現(xiàn)其算力。
3.具有實(shí)際的人工智能意義。具有人工智能意義的計(jì)算,例如神經(jīng)網(wǎng)絡(luò)運(yùn)算,是人工智能基準(zhǔn)測試程序相較于傳統(tǒng)高性能計(jì)算機(jī)基準(zhǔn)測試程序的重要區(qū)別,也是能夠檢測集群人工智能算力的核心所在。
目前,AIPerf在ImageNet數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)來運(yùn)行計(jì)算機(jī)視覺應(yīng)用程序。在將來,AIPerf計(jì)劃將自然語言處理等其他人工智能任務(wù)加入評測范圍。
4.評測程序包含必要的多機(jī)通信。網(wǎng)絡(luò)通信是人工智能計(jì)算集群設(shè)計(jì)主要指標(biāo)之一,也是其龐大計(jì)算能力的重要組成部分。作為面向高性能計(jì)算集群的人工智能基準(zhǔn)測試程序,AIPerf包括必要的多機(jī)通信,如任務(wù)的分發(fā)、結(jié)果的收集與多機(jī)訓(xùn)練,從而將網(wǎng)絡(luò)通信性能作為最終性能的影響因素之一。
為了實(shí)現(xiàn)以上目標(biāo),需要設(shè)計(jì)完善的AIPerf機(jī)制。目前AIPerf主要流程包含5個(gè)步驟:
1.主節(jié)點(diǎn)持續(xù)分配計(jì)算任務(wù)(包含歷史信息);
2.計(jì)算節(jié)點(diǎn)根據(jù)歷史信息生成新的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型;
3.計(jì)算節(jié)點(diǎn)調(diào)用后端深度學(xué)習(xí)框架(MindSpore、Keras、Tensorflow)訓(xùn)練神經(jīng)網(wǎng)絡(luò);
4.新模型訓(xùn)練完成后,工作節(jié)點(diǎn)返回新模型及其精度;主節(jié)點(diǎn)更新歷史信息;
5.計(jì)算任務(wù)異步執(zhí)行。
深圳鵬城實(shí)驗(yàn)室研制的基于ARM架構(gòu)和華為加速處理器的鵬城云腦2,主機(jī)以194,527 Tops的AIPerf算力榮登榜首。其性能是排名第二的聯(lián)泰集群Nvidia系統(tǒng)性能的12倍以上。
百萬億參數(shù)超大預(yù)訓(xùn)練模型的訓(xùn)練
當(dāng)前,學(xué)術(shù)界形成了共識,模型規(guī)模與模型效果呈現(xiàn)正相關(guān)關(guān)系。模型參數(shù)達(dá)到千億的大模型,已經(jīng)能在美國SAT考試題目中,實(shí)現(xiàn)60%左右的正確率。
現(xiàn)有語言大模型已經(jīng)達(dá)到了萬億甚至百萬億的規(guī)模。如美國的GTP是11億參數(shù)(2018年),GTP2.0是15億參數(shù)(2019年),GTP3.0是1.75萬億參數(shù)(2021年),GTP4.0是1.7萬億參數(shù)。國內(nèi)的BaGuaLu是174萬億。因此,探索更大參數(shù)量模型的效果具有重要科學(xué)意義。預(yù)訓(xùn)練模型的計(jì)算結(jié)構(gòu)的核心是Transformer模型,模型的計(jì)算主要集中在:嵌入層(Embedding)、注意力層 (Attention)、前饋網(wǎng)絡(luò) (FFN)。
Transformer的計(jì)算核心為矩陣乘法,因此我們可以利用并行訓(xùn)練技術(shù)來加速訓(xùn)練。隨著模型規(guī)模擴(kuò)大,訓(xùn)練數(shù)據(jù)增多,單機(jī)訓(xùn)練無法滿足參數(shù)規(guī)模和數(shù)據(jù)吞吐的需求,并行訓(xùn)練成為大模型的訓(xùn)練“標(biāo)配”。
比如在國產(chǎn)的新一代神威高性能計(jì)算機(jī)中,包含了96,000個(gè)節(jié)點(diǎn)、37,440,000個(gè)核心,以及互連網(wǎng)絡(luò)。神威采用的是新一代體系結(jié)構(gòu)芯片—神威26010pro,以及支持MPI通信的國產(chǎn)自主高速網(wǎng)絡(luò),契合了大規(guī)模預(yù)訓(xùn)練模型的需求。
我們團(tuán)隊(duì)在國產(chǎn)E級高性能計(jì)算機(jī)上訓(xùn)練了一個(gè)170萬億參數(shù)的超大規(guī)模預(yù)訓(xùn)練模型,模型參數(shù)與人腦中的突觸數(shù)量相媲美。在訓(xùn)練這一超大規(guī)模預(yù)訓(xùn)練模型中,面臨四個(gè)關(guān)鍵系統(tǒng)的挑戰(zhàn):一是如何選取高效并行策略;二是如何進(jìn)行高效數(shù)據(jù)存儲;三是如何選取合適數(shù)據(jù)精度;四是如何實(shí)現(xiàn)動態(tài)負(fù)載均衡。
挑戰(zhàn)1:如何選取高效并行策略
不同的并行策略的通信需求和計(jì)算模式不同,比如數(shù)據(jù)并行、模型并行、流水并行、MoE并行。底層不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)會對性能有很大的影響,如何選擇合適的并行策略組合是非常大的挑戰(zhàn)。
挑戰(zhàn)2:如何進(jìn)行高效數(shù)據(jù)存儲
以萬億參數(shù)的模型為例,如果模型精度是32位,模型的參數(shù)就有4T,模型的梯度也有4T,優(yōu)化器的更新參數(shù)有8T,計(jì)算中間值也有8T。如果用V100訓(xùn)練這個(gè)模型,并且把這些數(shù)據(jù)存儲下來,就需要768塊V100。那么這些數(shù)據(jù)如何劃分?不同的劃分方式對底層的計(jì)算和通信也會產(chǎn)生不同的影響,即高效存儲相關(guān)數(shù)據(jù)來支持高效訓(xùn)練非常有挑戰(zhàn)性。
挑戰(zhàn)3:如何選取合適數(shù)據(jù)精度
選擇合適的數(shù)據(jù)精度能夠有效提高計(jì)算性能,降低內(nèi)存占用。越低精度選取,性能越好,但模型準(zhǔn)確度越差,如何選擇最優(yōu)的混合精度策略非常有挑戰(zhàn)性。
挑戰(zhàn)4:如何實(shí)現(xiàn)動態(tài)負(fù)載均衡
MoE訓(xùn)練中,樣本通過網(wǎng)關(guān) (gate) 選取合適專家進(jìn)行計(jì)算,存在負(fù)載不均衡問題,影響計(jì)算性能,受歡迎的專家會收到幾百倍,甚至上千倍的輸入數(shù)據(jù)。
針對上述挑戰(zhàn),我們團(tuán)隊(duì)提出相應(yīng)的解決方案,實(shí)現(xiàn)在國產(chǎn)系統(tǒng)的高效并行訓(xùn)練——八卦爐:百萬級預(yù)訓(xùn)練模型系統(tǒng)。?
在上面的基礎(chǔ)上,我們團(tuán)隊(duì)同時(shí)完善神威高性能計(jì)算機(jī)的基礎(chǔ)軟件庫:實(shí)現(xiàn)高效算子庫;完善 swTensor,支持混合精度算子優(yōu)化深度學(xué)習(xí)框架;深度優(yōu)化 swPyTorch、優(yōu)化內(nèi)存分配器等支持復(fù)雜模型;實(shí)現(xiàn)分層混合精度策略、支持負(fù)載均衡方法。我們團(tuán)隊(duì)訓(xùn)練的阿里巴巴圖文數(shù)據(jù)集M6-Corpus,數(shù)據(jù)集總規(guī)模約2TB,包含科學(xué)、體育、政治、經(jīng)濟(jì)等各方面,同時(shí)將我們的工作開源成相應(yīng)的分布式系統(tǒng)FASTMOE。
如何培養(yǎng)系統(tǒng)人才
算力非常重要,會使用算力的人才同樣非常重要。那么,如何培養(yǎng)系統(tǒng)人才呢?
學(xué)好課程
兩門理解計(jì)算機(jī)系統(tǒng)基本原理的基礎(chǔ)課程。
一門是CMU(15-213):Introduction to Computer Systems教材,A Programmer’s Perspective中文版,深入理解計(jì)算機(jī)系統(tǒng)(其實(shí)只能算簡單理解)介紹了程序表示、編譯鏈接、內(nèi)存層次、內(nèi)存分配等基礎(chǔ)知識,其中的實(shí)驗(yàn)有很多精華內(nèi)容。
另一門是MIT(6.003):Computer System Engineering教材,Principles of Computer System Design介紹了計(jì)算機(jī)系統(tǒng)設(shè)計(jì)的復(fù)雜性,抽象、模塊化等基本原理,主要以概念為主,實(shí)驗(yàn)比較簡單。
兩門構(gòu)建操作系統(tǒng)和分布式系統(tǒng)模塊的進(jìn)階課程。
一門是MIT(6.828):Operating System Engineering學(xué)習(xí)一個(gè)類似Unix的代碼(xv6)實(shí)驗(yàn)——構(gòu)建一個(gè)小操作系統(tǒng)(JOS),包括啟動、內(nèi)存管理、用戶環(huán)境、搶占式多任務(wù)、文件系統(tǒng)、網(wǎng)絡(luò)驅(qū)動等。
另一門是MIT(6.824):Distributed SystemsRPC,分布式一致性協(xié)議(Raft/Paxos),分布式事務(wù),并發(fā)控制實(shí)驗(yàn)——實(shí)現(xiàn)MapReduce系統(tǒng),分布式、可容錯(cuò)的KV存儲系統(tǒng)等。
閱讀優(yōu)秀的開源代碼和相關(guān)的論文
一是學(xué)習(xí)新的系統(tǒng)構(gòu)建語言現(xiàn)代C++,Rust,Go,Scala等。
二是閱讀優(yōu)秀的開源代碼,能為一些開源項(xiàng)目貢獻(xiàn)代碼,重復(fù)造一些輪子。
三是閱讀相關(guān)的論文,確定感興趣的方向,閱讀相關(guān)的論文(SOSP,OSDI,Usenix ATC, EuroSys,SoCC等)確定要做的系統(tǒng)。
動手實(shí)踐舉例——系統(tǒng)類競賽
第一個(gè)是國際大學(xué)生超算競賽,可以5~6人組隊(duì)參加任務(wù)。自行設(shè)計(jì)搭建計(jì)算集群(或使用云計(jì)算集群),對于給定的應(yīng)用進(jìn)行測試和優(yōu)化,還包含面試、海報(bào)、論文復(fù)現(xiàn)、口頭報(bào)告等環(huán)節(jié)。使用英語作為工作語言的三大比賽:ASC、ISC、SC。
第二個(gè)是“英特爾杯”全國并行應(yīng)用挑戰(zhàn)賽。
第三個(gè)是CCF CCSP 大學(xué)生計(jì)算機(jī)系統(tǒng)與程序設(shè)計(jì)競賽。個(gè)人可以參賽,通過 CCF CSP 能力認(rèn)證入圍任務(wù),算法題與系統(tǒng)題特點(diǎn):12小時(shí)5題;系統(tǒng)題的得分與選手程序的運(yùn)行時(shí)間相關(guān),性能最高的取得滿分。
參加科研項(xiàng)目
“MadFS分布式文件系統(tǒng)”“千萬核可擴(kuò)展全球大氣動力學(xué)全隱式模擬”“非線性大地震模擬”“神圖”圖計(jì)算框架等。
人工智能算力是當(dāng)前人工智能領(lǐng)域發(fā)展的關(guān)鍵。我們團(tuán)隊(duì)最近幾年在AI算力基礎(chǔ)設(shè)施的架構(gòu)平衡設(shè)計(jì),AI算力的評測方法,百萬億參數(shù)超大預(yù)訓(xùn)練模型的并行加速都做出了非常大的貢獻(xiàn)。我國需要加快AI算力基礎(chǔ)設(shè)施的構(gòu)建,以及加快系統(tǒng)方面人才的培養(yǎng)。
編輯:黃飛
?
評論
查看更多