在未來,AI計算系統(tǒng)將要面臨計算平臺優(yōu)化設計、復雜異構環(huán)境下計算效率、計算框架的高度并行與擴展、AI應用計算性能等挑戰(zhàn),提高整個AI計算系統(tǒng)的性能與效率迫在眉睫。為應對上述挑戰(zhàn),浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會上分享了《AI計算系統(tǒng)設計與優(yōu)化:從實驗到生產(chǎn)》。
在深度學習激發(fā)的人工智能熱潮下,許多創(chuàng)新力很強的企業(yè)的人工智能技術正逐步從研究實驗走向應用與生產(chǎn),在這一過程中,AI計算系統(tǒng)設計與優(yōu)化的重要性愈發(fā)明顯。
同時算法的發(fā)展對整個計算需求所造成的挑戰(zhàn)會變得更大,提高整個AI計算系統(tǒng)的性能與效率迫在眉睫。
在機遇與挑戰(zhàn)的雙重推動下,有創(chuàng)新力的AI企業(yè)會研發(fā)出怎樣的產(chǎn)品去面對變革?9月20日,AI WORLD 2018世界人工智能峰會重磅發(fā)布AI領域年度大獎——AI Era創(chuàng)新大獎,評選出2018年度對AI領域作出重大貢獻,切實推動AI進步和發(fā)展的人物、企業(yè)和產(chǎn)品。本次峰會上,浪潮AI服務器成功登榜「AI產(chǎn)品影響力TOP10」。
浪潮是知名的AI計算力廠商,致力于從計算平臺、管理套件、框架優(yōu)化、應用加速四個層次打造敏捷、高效、優(yōu)化的AI基礎設施。浪潮AI服務器采用創(chuàng)新設計,為AI研發(fā)與應用提供領先計算力,多款產(chǎn)品為業(yè)界首創(chuàng),如全球首款在2U空間內高速互聯(lián)集成8顆最高性能GPU加速器的服務器AGX-2、單機可實現(xiàn)支持16個GPU的超大擴展性節(jié)點的SR-AI整機柜服務器等。9月12日,浪潮又發(fā)布了一款AI超級服務器AGX-5,性能高達每秒2千萬億次,是目前全球最強大的AI計算主機之一。AGX-5也是浪潮在計算量劇增的挑戰(zhàn)之下,追求更高研發(fā)效力的新成果。
在未來,AI計算系統(tǒng)將要面臨計算平臺優(yōu)化設計、復雜異構環(huán)境下計算效率、計算框架的高度并行與擴展、AI應用計算性能等挑戰(zhàn)。浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會引用去年Jeff Dean報告里的一句話:“事實證明,我們真正需要的是超過現(xiàn)在100萬倍的計算能力,而不僅僅是幾十倍的增長。”
從計算需求來看,AI計算系統(tǒng)的設計與優(yōu)化之路似乎任重道遠。因此,為應對上述挑戰(zhàn),張清在本次峰會上從AI計算平臺與算法的Co-design、AI計算平臺管理、AI計算框架的高擴展性設計、AI實際應用性能優(yōu)化這四個方面來分析了AI計算系統(tǒng)設計與優(yōu)化方法。
下面就是浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會上的演講《AI計算系統(tǒng)設計與優(yōu)化:從實驗到生產(chǎn)》的主要內容。
張清:大家好!在深度學習激發(fā)的人工智能熱潮下,很多AI創(chuàng)新力很強的企業(yè)的人工智能技術正逐步從研究實驗走向應用與生產(chǎn)。在AI研究從實驗到生產(chǎn)過程中,AI計算系統(tǒng)的設計和優(yōu)化也是非常關鍵。今天我主要想從工程和系統(tǒng)角度談談我的想法。
浪潮主要圍繞計算方面做了很多創(chuàng)新與研究,解決了不同行業(yè)、不同場景計算的平臺和架構,其中包括產(chǎn)品和方案工作。在人工智能方面,浪潮也做了較多的創(chuàng)新。
截止到2018年,浪潮AI處于高速增長態(tài)勢,AI增速達到600%,比全球150%增長速度幅度快很多,在中國市場,浪潮AI計算份額已達到57%。
在AI計算領域,浪潮不僅是提供基礎的計算平臺,除了像GPU、CPU服務器的供應之外,浪潮還會圍繞AI全棧方案,給到用戶關于系統(tǒng)管理的平臺,例如AI Station,這包括性能分析工具Teye,以及高性能高擴展AI計算框架,針對垂直行業(yè),浪潮也提供相關的AI應用方案。
人工智能仍是最熱技術之一,AI計算領域愈發(fā)重要
在本次峰會上,很多專家探討人工智能是否進入了寒冬時期這一問題?我個人的觀點是:AI現(xiàn)在尚處于起步發(fā)展階段,它仍是最熱的一個技術。
從Gartner 2018年數(shù)據(jù)看到,全球人工智能市場商業(yè)價值一直處于高速增長趨勢,到2018年,所催生的商業(yè)價值會達到1.3萬億美元,而未來將會達到接近5萬億美元。從技術成熟度曲線可以看到,未來2-5年會有大量AI技術實現(xiàn)從創(chuàng)新期到成長期的過渡,現(xiàn)在仍有很多AI技術處于爬坡發(fā)展階段。
在推動AI發(fā)展過程中,有三大要素起著主導作用,除算法、數(shù)據(jù)外,計算方面也越來越重要。根據(jù)浪潮與IDC研究聯(lián)合發(fā)布的《2018中國AI計算力發(fā)展報告》摘要版數(shù)據(jù)顯示,2021年計算方面的投資將占到整個AI投資的近一半以上,2017年至2022年將會達到近6倍的增長。
接下來是關于AI計算的發(fā)展趨勢,整個AI計算領域呈現(xiàn)了以下幾大趨勢:
模式:從科研實驗到應用生產(chǎn);
規(guī)模:從單機計算到大規(guī)模集群或云計算;
架構:從通用CPU計算到定制化計算;
AI計算系統(tǒng)設計與優(yōu)化迫在眉睫
但AI計算發(fā)展趨勢演變過程中面臨著巨大的挑戰(zhàn):隨著模型所需的精度越高,所需的計算量也會呈現(xiàn)增長趨勢。
引用去年Jeff Dean報告里的一句話:“事實證明,我們真正需要的是超過現(xiàn)在100萬倍的計算能力,而不僅僅是幾十倍的增長。”也就是說,對于未來的我們,算法的發(fā)展對整個計算需求所造成的挑戰(zhàn)會變得更大,提高整個AI計算系統(tǒng)的性能與效率顯得尤為重要。
以下是我們需要去考慮的三個方面的問題:
1.計算規(guī)模從單機到集群再到大規(guī)模云計算,規(guī)模呈量級、指數(shù)級增長,計算復雜度會越來越大;
2.計算架構從單一通用架構CPU+GPU到混合異構架構CPU+GPU+FPGA+XPU,如何在異構并行與協(xié)同計算方面考慮如何提升整體系統(tǒng)的效率也變得舉足輕重;
3.系統(tǒng)環(huán)境方面,需要單一用戶以及單一場景解決到現(xiàn)在多個用戶、多場景復雜環(huán)境的構建,從而提升整個系統(tǒng)效率。
而從這三方面問題的考慮,實際上是對整個系統(tǒng)設計優(yōu)化分四個層面:
1.如何對AI計算平臺做一個合理的設計和構建以及優(yōu)化;
2.隨著資源變大、計算系統(tǒng)變得更復雜,AI平臺管理設計與優(yōu)化的重要性愈發(fā)明顯;
3.需要更快的工具,即AI計算框架優(yōu)化;
4.AI應用本身的性能優(yōu)化和算法設計方面也需要得到重視。
AI計算平臺的優(yōu)化需結合模型算法、應用場景特點進行Co-Design
對于AI計算平臺的設計優(yōu)化,需要把AI分成訓練和推理兩大部分:
就訓練方面而言,需要構建一個高擴展的計算平臺,能夠支撐大規(guī)模分布式的并行框架,讓其擴展性更強。而整個系統(tǒng)涉及到網(wǎng)絡、存儲、IO的吞吐能否跟上計算,則是需要計算平臺架構方面考慮到的問題。
圍繞整個應用、算法、模型、網(wǎng)絡的特點,例如有的模型參數(shù)比較密集,對我們系統(tǒng)通信要求比較高,有的計算性能要求比較高,則需要圍繞性能方面考慮如何提升整個系統(tǒng)性能的能力,這里就需要從本身模型算法方面做一個Co-Design。
推理方面的復雜性比訓練方面更高,它不僅體現(xiàn)在性能方面,更關心的是用戶的體驗。當對于大規(guī)模進行部署云計算時,我們需要考慮到它的運維成本,需要低功耗平臺架構來做支撐。
基于這些考慮,浪潮計算平臺圍繞未來AI計算平臺,更多是關心算法模型一些計算的特點,其應用場景的特點,來進行Co-Design的設計。我們在圍繞不同場景方面打造計算平 臺,試圖能夠更好地解決在特定場景下性能和延時、存儲的問題。
9月12日,浪潮最新發(fā)布了AGX-5,它比浪潮上一代AGX-2整體性能會更高,計算性能可達到2 PetaFlops,并且會搭載16×Tesla V100最強GPU來加速性能。在支撐GPU互聯(lián)架構方面,現(xiàn)在采用NVSwitch互聯(lián)結構,可以支撐8對GPU,每一對GPU之間是300個GB/s,那么整個帶寬會達到2.4TB/s。另外,相比于此前需要采用模型并行的方式來說,有一些模型在512GB之內不需要做模型并行,支持大模型的訓練。
如何優(yōu)化AI平臺管理?計算資源需要做到共享與獨享
AI不同項目之間,可能每個組之間有小的GPU訓練平臺,當規(guī)模達到一定量的時候,幾百個卡或更大規(guī)模時,整個資源利用率實際上是很低的,可能低于50%以下。
由于AI應用場景越來越多,資源整合和整體利用也變得尤為重要。如何能夠從整體上把這些資源進一步打通,對不同用戶、不同應用進行資源配額優(yōu)化?計算資源需要做到共享與獨享。
在推理應用方面時,需要考慮計算資源的負載均衡策略優(yōu)化。結合AI計算全流程,從數(shù)據(jù)預處理、開發(fā)、訓練到推理上線,對一個平臺的資源進行管理。
基于這方面,浪潮AIStation計算管理平臺應運而生,它可以針對不同應用采用比較便于安裝的方式,利用容器化的方式進行打包、安裝和部署,只需一鍵便能實現(xiàn)。此前,部署一套框架需要1-2周的時間,并且需要靠人為方式去安裝,而現(xiàn)在,靠容器方式就可以實現(xiàn)。并且也支持可視化調試,加快模型開發(fā)時間,并且實現(xiàn)整個計算資源的統(tǒng)一管理和調度。
從實際案例效果來看,沒有部署AIStation和部署之后的效果對比相當明顯:在部署前,整個GPU利用率只有40%,通過AI平臺統(tǒng)一管理后,GPU利用率可以達到70%以上。整個作業(yè)調度吞吐從原來支持的200個以上達到600個以上,整個資源效率實現(xiàn)大幅度提升。
AI計算框架與AI應用性能優(yōu)化
圍繞AI計算框架,開源的框架很多,需針對性能和擴展性兩個方面進一步做更深入的優(yōu)化:
在計算方面,不僅僅是GPU滿負荷運行,需實現(xiàn)CPU與GPU共同并行計算,進一步提高資源利用率,同時,圍繞新的芯片架構的計算特點,采用混合精度或半精度計算,發(fā)揮計算芯片的效率;在通信方面,可以采用異步或半異步方式實現(xiàn)計算與通訊隱藏的優(yōu)化,通過合并小數(shù)據(jù),提升通信效率來提升整個通信效果;在IO吞吐方面,采取多線程的數(shù)據(jù)讀取與預取機制。
在圍繞AI應用性能的優(yōu)化方面,針對訓練端AI應用,需要從以下幾個維度考慮:
首先需要進行應用性能分析;其次,對整個硬件系統(tǒng)、軟件系統(tǒng)進行適配優(yōu)化;另外,還需針對GPU架構特點、框架特點、網(wǎng)絡算法特點進行優(yōu)化。
例如,浪潮幫助某用戶實現(xiàn)高性能人臉識別訓練應用時,優(yōu)化后性能與優(yōu)化之前相比提升了2.6倍以上;而面對用戶應用從消費級卡到工業(yè)級卡的升級,我們針對工業(yè)卡的特性也做了一些相關優(yōu)化,相關應用性能提升了4倍。
而針對推理端AI應用性能優(yōu)化,整個架構不僅僅是采用通用架構,如CPU與GPU,而是更多地開始關注定制化架構平臺,如TPU或其他PU。而充分發(fā)揮定制化芯片架構的性能,則需要算法和硬件協(xié)同優(yōu)化。
最后,我將進行簡單地總結:如今,AI面臨著巨大的計算挑戰(zhàn),提高AI計算系統(tǒng)性能與效率變得尤為重要,我們需要從系統(tǒng)的角度進行綜合考慮。
而AI計算系統(tǒng)設計與優(yōu)化需要從四大方面著手:
通過計算平臺與算法、應用場景的Co-Design;
通過計算平臺管理優(yōu)化,提升計算吞吐與并發(fā);
通過計算框架的并行優(yōu)化,提升擴展效率與性能;
通過計算應用自身的優(yōu)化,提升應用性能。
-
AI
+關注
關注
87文章
31000瀏覽量
269333 -
計算系統(tǒng)
+關注
關注
0文章
42瀏覽量
10290 -
深度學習
+關注
關注
73文章
5504瀏覽量
121246
原文標題:AI算力需求100萬倍增長,如何優(yōu)化AI計算系統(tǒng)彌平鴻溝?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論