在“百度Create 2018”百度開發者大會上,百度發布了升級版的開源深度學習框架PaddlePaddle,可謂深度學習模型設計的利器,讓開發者只需關注模型的高層結構,而無需擔心底層的搭建問題。同時,百度在2017年11月發布了以此框架為基礎的,定制化訓練和服務平臺EasyDL,即使零機器學習算法基礎,也能全程通過可視化操作獲取定制化AI服務。
百度作為全球人工智能核心技術和研究的領軍企業,通過搭建AI開放平臺(ai.baidu.com)和PaddlePaddle深度學習框架將百度大腦中領先的核心能力賦能到更為廣泛的行業生態、科研院所和開發者社區中,提供了全球領先的AI服務基礎設施。在以平臺化開放百度大腦中的核心基礎能力的同時,百度也非常關注各個行業中對AI模型和服務的定制化需求。
百度AI開放平臺團隊基于PaddlePaddle打造了EasyDL這一全球領先的定制化模型訓練和推理平臺。目前EasyDL已經在圖像分類(Image Classification), 物體檢測(Object Detection)等方向支持零算法基礎的定制化模型訓練與服務。除了云端服務(Cloud Computing),EasyDL還支持定制化模型在設備端的本地計算(Edge Computing),是一個端云一體的平臺。用戶通過將平臺的定制能力與行業場景結合,實現了大量人工智能創新。自2017年上線以來,EasyDL已累計創建模型破萬,已覆蓋20多個行業。
在賦能行業的平臺的背后,EasyDL依托于NVIDIA的Tesla GPU深度學習平臺,搭建了用于深度學習模型訓練(Training)和服務(Inference)階段的GPU集群。該集群能支持高效的大規模深度神經網絡模型并發訓練,并大幅縮短模型訓練周期,顯著減少定制服務調用階段的響應時間,從而為EasyDL提供了堅實的技術保障。
不同行業對人工智能的定制化需求是通用AI能力難以滿足的
行業AI定制化需求
對訓練和推理算力提出高要求
滿足不同行業對AI的定制化需求,其實存在諸多業務和技術上的挑戰。首先,提出定制化AI需求的行業用戶雖然是各自行業的領域專家但對于人工智能及深度學習的技術知之甚少,要求他們直接通過深度學習框架訓練得到定制化模型是不切實際的。其次,這些用戶也往往不具備用于模型訓練和服務部署的大規模GPU集群,更沒有資源投入到長期的服務升級和運維工作中。更為重要的是,定制化模型的訓練和基于推理的服務都必須足夠的快, 用戶才能及時得到反饋,調整訓練數據和方案,優化訓練效果;才能在服務調用時滿足嚴苛的時效性要求;平臺才能實現大規模并發訓練和并發服務請求。
EasyDL技術框圖,學習和服務環節依托大規模NVIDIA GPU集群
如上圖所示,百度基于其開源深度學習框架PaddlePaddle實現EasyDL的核心訓練和服務引擎,在計算視覺的圖像分類和物體檢測等定制化方向上,使用了基于Inception、SSD、ResNet、FasterRCNN等多個深度神經網絡原型算法優化的模型。模型的訓練和服務階段采用了大規模的NVIDIA Tesla P4 為主的GPU集群,通過數據比對可以看到,基于GPU集群性能遠超CPU集群。
大規模NVIDIA Tesla P4 GPU集群
加速AI訓練與推理
目前,百度EasyDL團隊基于單機4卡Tesla P4 GPU的服務器搭建了數十臺深度神經網絡模型訓練和推理的GPU加速集群,能穩定承載每天數百個并發訓練任務,以及數千個并發定制模型推理請求。
Tesla P4加速器的單精度浮點數(FP32)計算能力達到了5.5TFLOPS,集群單節點GPU的單精度浮點計算能力可達到22TFLOPS。Tesla P4可將任何超大規模基礎架構的延遲降低 15 倍,并可以提供比 CPU 高 60 倍的能效,可助力實現許多過去由于延遲限制而無法實現的應用。
在典型業務場景下,對集群單節點的承載和時延性能進行壓力測試,可以看到基于GPU集群的性能顯著優于CPU集群。其中,圖像分類上單節點每秒并發承載能力(QueryPerSecond) GPU節點是CPU節點的6倍多,響應時延則僅為CPU節點的58%左右;物體檢測中更為明顯,GPU單節點并發承載能力達到CPU節點的31倍,響應時延則僅為CPU節點的25%。由于基于GPU集群的訓練和服務都足夠快,因此,在用戶體驗方面,EasyDL的用戶最快5分鐘即可完成定制模型的訓練并獲得服務,對比同類需求通常需要數天的訓練周期大幅提升了效率。這解決了定制化模型訓練和服務中的核心挑戰。同時,為EasyDL場景和行業覆蓋的迅速規模化打下了扎實的基礎。也確保了EasyDL更輕快、高精度等特性。
真實業務場景數據并發和時延壓測比對
5分鐘完成定制模型訓練與推理
零基礎也能快速上手
為降低行業用戶的使用門檻,實現零機器學習基礎,零代碼獲得定制化深度學習模型及接口服務,百度EasyDL提供了簡單且完善的平臺業務系統,用戶只需上傳數據、發起訓練、驗證效果、發布模型四個步驟,就能快速獲得定制化接口服務。
極簡業務流程使得EasyDL對普通用戶可即用
為了使得模型訓練、部署和推理對用戶透明,百度EasyDL團隊打造了結合大數據Spark系統和AI分布式訓練Kubernetes工具的AI Workflow引擎,實現了從數據處理到推理上線的全自動流程。如此一來,就解決了業務人員不懂代碼,程序員不懂業務的痛點難點,使得AI技術能夠迅速被業務人員學習和掌握,從而專注于精進業務能力。
全自動AI Workflow引擎
圖像識別準確率大幅提高
人力成本顯著降低
在NVIDIA Tesla P4加速器的強大算力助力下,百度EasyDL已經在多個行業落地應用。比如在制造業中,百度EasyDL平臺也在幫越來越多的企業提升效率并節約人力。比如蝶魚科技將百度EasyDL接口與工業攝像頭、工業光源、激光測距儀、PLC控制氣缸等設備組成綜合檢測系統,在制造和組裝鍵盤流水線上,自動識別鍵盤組裝后的合格性,包括缺件、錯裝、正常三類,通過3000+張圖片的驗證(每類1000張),識別準確率99%以上,遠超蝶魚科技的預期。同時,每條生產流水線每年可以節省12萬人工檢測員人力成本。
鍵盤組裝質量檢測
在GPU 的助力下,包括百度EasyDL平臺在內的諸多行業客戶,獲得了深度學習和推理應用的能力和智慧,進而定制出豐富、個性化、不斷動態升級的AI行業解決方案,同時也對傳統的行業應用提供了創新思路,隨著基于行業的AI生態不斷通過百度EasyDL這樣的平臺聚合與裂變,以AI為核心特征的新應用大爆發時代已經來臨。
-
AI
+關注
關注
87文章
30728瀏覽量
268892 -
百度
+關注
關注
9文章
2268瀏覽量
90363 -
人工智能
+關注
關注
1791文章
47183瀏覽量
238265 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
原文標題:GPU集群助力百度為行業提供高效定制化AI訓練和推理平臺
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論