2016年,一場風風火火的人機大戰,谷歌旗下DeepMind的圍棋程序AlphaGo以5局4勝的大比分贏得勝利,掀起了全世界人民,尤其是中國老百姓,對于AI前所未有的熱潮,深度學習的概念也從實驗室、教科書首次進入了普通大眾的視野。不少人通過互聯網,第一次了解到AI的魅力。但是,AI的應用遠不止互聯網企業這么簡單,它已經滲透到安防、公安ISV、研究機構、金融、醫療等各行各業。
縱觀整個2017年,互聯網圈里提到最多的一個詞一定是“人工智能”,而且這個“人工智能”已經不僅是2016年那個很會下棋的AlphaGo,它成了無所不能的助手管家,能和你對話(智能音響),能幫公安抓人(人臉識別),也開始搶老司機的活兒(無人駕駛)。如今的人工智能早已不再是70多年前的那個“它”了。
中國制造2025——智能制造工程
中國制造2025戰略中,智能制造是一個非常關鍵的奮斗目標。到2020年,制造業重點領域智能化水平顯著提升,試點示范項目運營成本降低30%,產品生產周期縮短30%,不良品率降低30%。到2025年,制造業重點領域全面實現智能化,試點示范項目運營成本降低50%,產品生產周期縮短50%,不良品率降低50%。
智能制造工程推動制造業智能轉型,推進產業邁向中高端;高端裝備創新工程以突破一批重大裝備的產業化應用為重點,為各行業升級提供先進的生產工具。重點聚焦“五三五十”重點任務,即:攻克五類關鍵技術裝備,夯實智能制造三大基礎,培育推廣五種智能制造新模式,推進十大重點領域智能制造成套裝備集成應用。
那么,如何加速智能制造的發展進度?盡快實現廣泛的行業領域應用呢?
容錯服務器專家的觀點認為,以邊緣計算引領人工智能的發展,將有力的推動制造智能化進程,并且讓人工智能更加“聰明”。
目前,受過訓練的人工智能系統,在特定領域的表現已可超越人類,而相關軟件技術迅速發展的背后,邊緣計算解決方法的運用讓人工智能變得更加強大。物聯網(IoT)將可望進化成AIoT(AI+IoT)。 智能機器人的遍地開花可能還只是個開端,人工智能終端的邊緣運算能力,其所將帶來的價值更讓人引頸期盼。
容錯邊緣計算團隊認為,基于邊緣計算解決方案的人工智能終端,將在各行各業帶來變革,從而改變未來的走向。傳統人工智能運算的硬件架構,主要包括中央處理器(CPU)、圖型處理器(GPU)、現場可編程數組(FPGA)等。
特定領域的專用人工智能系統,由于應用背景需求明確、深厚之領域知識、模型建立計算簡單可行,在單項測試之智能水平,目前已可超越人類智能,在許多領域取得具體成效。如今的技術挑戰在于,如何發展低功耗、高準確率的認知計算,包括新型運算架構電路設計、算法等。 未來人工智能將由特定的算法加速器,來加速包括卷積神經網絡(Convolution Neutral Network)、遞歸神經網絡(Recursive Neutral Network)在內的各種神經網絡算法。邊緣計算推動人工智能實現變革性發展,這是實現智能制造必須跨過的一步。
雖然目前人工智能領域的主流研究是在服務器上的人工智能運算,但有越來越多應用產品須在終端上進行實時運算,此種技術便是邊緣運算的運用。這個發展趨勢將改變整體人工智能運算系統架構的設計與技術需求。
容錯專家認為,人工智能在邊緣側的不斷擴展,是駕馭數據洪流的關鍵環節之一,也是物聯網未來發展的重要趨勢。隨著人工智能如火如荼的發展,海量數據需要快速有效地分析和提取洞察,這也大大加強了對于邊緣計算的需求。
兩個問題值得思考,首先是邊緣側趨向負載整合。以前的數據很多都是結構化數據,可以通過Excel表格或者簡單的關系型數據庫對其進行維護和管理。但今后會有越來越多的非結構化數據需要進行處理并借此發現內在關聯,這時就需要邊緣計算和人工智能技術。
其次,構建邊緣協同的端到端系統。在一個邊緣協同的端到端系統中,由于不同網源的功耗、計算性能和所能承擔的成本各不相同,因此在選取硬件架構時往往會有特定要求。要根據用戶需求提供不同架構的解決方案,涵蓋至強處理器、至強融核處理器、Movidius/Nervana神經網絡處理器和FPGA、網絡以及存儲技術等硬件平臺,以及多種軟件工具及函數庫,優化開源框架,來讓他們進行自主選擇。
容錯服務器及容錯軟件,具有ftServer 的Lock Step和 everRun Check Point技術, 在實時性,可靠性,安全私密性上有獨特的優勢,在已經有廣泛的工業自動化 (IA) 客戶應用的基礎之上, 助力邊緣計算產業創新技術的落地。
容錯服務器,在中國制造2025的奮斗目標下,協助邊緣計算產業聯盟建立開放與創新的平臺、行業踐行與示范的平臺。攜手人工智能技術,加速中國制造2025實現進程。
如何搭建一套高效的AI計算平臺?
早在1950年,圖靈在論文中探討了機器智能的問題,并提出了著名的圖靈測試,1956年達特茅斯的討論會上,人工智能這一概念由此誕生。幾十年中,人工智能曾大起大落,原因為何?
“數據”先背一個鍋,最早的人工智能也可以稱之為專家系統,也就是把專家們的所有理論、方法全都錄入到計算機,在具體執行任務的時候,計算機會檢索數據庫中相似的內容,如果沒有,那么它就無能為力了。
然后是算法,類似于數據庫檢索的算法可能只能稱之為一個笨辦法,但20世紀90年代,神經網絡的概念就成為熱點,人工智能卻沒有取得長足的進展。這是因為受限于另一個重要因素-計算。由于硬件計算平臺的限制,十余年間的進展極其緩慢,直到以GPU為核心的協處理加速設備的應用,人工智能應用效率才得以大大提升。
近年來,眾多企業都已經看到了AI未來的前景,想紛紛踏入這篇沃土,孕育新的商機。想要跨進這個新領域,首先要做的,是要擁有一套好的AI架構。那么如何打造最優的AI計算平臺?怎樣的AI計算硬件架構更高效?AI 更注重哪些性能指標?
要把AI練好要分三步,即“數據預處理——模型訓練——識別推理”。三個過程分別對應不同的計算特點:數據預處理,對IO要求較高;模型訓練的并行計算量很大,且通信也相對密集;推理識別則需要較高的吞吐處理能力和對單個樣本低延時的響應。
當我們知道了AI計算的特性之后,我們通過實測數據來看看人工智能計算對于服務器的硬件性能訴求有什么樣的特點:
CPU和GPU誰是AI計算的主力軍?
▼ CPU和GPU負載實測數據▼
上圖是一個搭載4塊GPU卡服務器上運行Alexnet神經網絡的測試分析圖,從圖上我們可以很清楚的看到計算的任務主要由GPU承擔,4塊GPU卡的負載基本上都接近10%,而CPU的負載率只有不到40%。由此可見, AI計算的計算量主要都在GPU加速卡上。
內存和顯存,越大越好嗎?
▼ 內存和顯存負載實測數據▼
同樣的測試環境,內存容量固定時,總容量需求隨Batch size擴大而增加,Alexnet模型,Batch size為256時,占用CPU內存60GB,GPU顯存9GB。
這樣看,AI計算對于CPU內存和GPU顯存容量的需求都很大。
磁盤IO,在模型訓練過程中要求并不太高
▼ 磁盤IO實測數據▼
通過上圖我們可以看到,磁盤IO是一次讀,多次寫,在Alexnet模型下,磁盤讀帶寬85MB/s,寫帶寬0.5MB/s。所以, 在模型訓練階段,磁盤的IO并不是AI計算的瓶頸點。
PCIE帶寬,“路”越寬越不堵
▼ PCIE帶寬負載實測數據▼
最后,我們再看看AI計算對于PCIE帶寬的占用情況。圖上顯示,帶寬與訓練數據規模成正比。測試中,PCIE持續讀帶寬達到5.7GB/s,峰值帶寬超過8GB/s,因此PCIE的帶寬將是AI計算的關鍵瓶頸點。
于是,我們可以得出幾個結論:
1. 數據預處理階段需要提高小文件的隨機讀寫性能
2. 模型訓練階段需要提升并行計算能力
3. 線上推理階段需要提升批量模型推理的吞吐效率
用高計算性能的CPU服務器+高性能存儲,解決小文件隨機讀取難題
數據預處理的主要任務是處理缺失值,光滑噪聲數據,識別或刪除利群點,解決數據的不一致性。這些任務可以利用基于CPU服務器來實現,比如浪潮SA5212M5這種最新型2U服務器,搭載最新一代英特爾至強可擴展處理器,支持Intel Skylake平臺3/4/5/6/8全系處理器,支持全新的微處理架構,AVX512指令集可提供上一代2倍的FLOPs/core,多達28個內核及56線程,計算性能可達到上一代的1.3倍,能夠快速實現數據的預處理任務。
在存儲方面,可以采用HDFS(Hadoop分布式文件系統)存儲架構來設計。HDFS是使用Java實現分布式的、可橫向擴展的文件系統,因為深度學習天生用于處理大數據任務,很多場景下,深度學習框架需要對接HDFS。通過浪潮SA5224M4服務器組成高效、可擴展的存儲集群,在滿足AI計算分布式存儲應用的基礎上,最大可能降低整個系統的TCO。
▼ 浪潮SA5224M4 4U36盤位存儲服務器 ▼
SA5224M4一款4U36盤位的存儲型服務器,在4U的空間內支持36塊大容量硬盤。并且相比傳統的雙路E5存儲服務器,功耗降低35W以上。同時,通過背板Expander芯片的帶寬加速技術,顯著提升大容量SATA盤的性能表現,更適合構建AI所需要的HDFS存儲系統。
用GPU服務器實現更快速、精準的AI模型訓練
從內部結構上來看,CPU中70%晶體管都是用來構建Cache(高速緩沖存儲器)和一部分控制單元,負責邏輯運算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執行,這種通用性結構對于傳統的編程計算模式非常適合,但對于并不需要太多的程序指令,卻需要海量數據運算的深度學習計算需求,這種結構就顯得有心無力了。
與 CPU 少量的邏輯運算單元相比,GPU設備整個就是一個龐大的計算矩陣,動輒具有數以千計的計算核心、可實現 10-100 倍應用吞吐量,而且它還支持對深度學習至關重要的并行計算能力,可以比傳統處理器更加快速,大大加快了訓練過程。
根據不同規模的AI模型訓練場景,可能會用到2卡、4卡、8卡甚至到64卡以上的AI計算集群。在AI計算服務器方面,浪潮也擁有業界最全的產品陣列。既擁有NF5280M5、AGX-2、NF6248等傳統的GPU/KNL服務器以及FPGA卡等,也包含了創新的GX4、SR-AI整機柜服務器等獨立加速計算模塊。
浪潮AI計算服務器陣列
其中,SR-AI整機柜服務器面向超大規模線下模型訓練,能夠實現單節點16卡、單物理集群64卡的超高密擴展能力;GX4是能夠覆蓋全AI應用場景的創新架構產品,可以通過標準機架服務器連接協處理器計算擴展模塊的形式完成計算性能擴展,滿足AI云、深度學習模型訓練和線上推理等各種AI應用場景對計算架構性能、功耗的不同需求;AGX-2是2U8 NVLinkGPU全球密度最高、性能最強的AI平臺,面向需要更高空間密度比AI算法和應用服務商。
根據業務應用的需要,選擇不同規模的GPU服務器集群,從而平衡計算能力和成本,達到最優的TCO和最佳的計算效率。
用FPGA來實現更低延遲、更高吞吐量的線上推理
GPU在深度學習算法模型訓練上非常高效,但在推理時一次性只能對于一個輸入項進行處理,并行計算的優勢不能發揮出來。而FPGA正是強在推斷。大幅提升推斷效率的同時,還要最小限度損失精確性,這正是FPGA的強項。
▼ 業界支持OpenCL的最高密度最高性能的FPGA-浪潮F10A▼
以浪潮F10A為例,這是目前業界支持OpenCL的最高密度最高性能的FPGA加速設備,單芯片峰值運算能力達到了1.5TFlops,功耗卻只需35W,每瓦特性能到42GFlops。
測試數據顯示,在語音識別應用下,浪潮F10A較CPU性能加速2.87倍,而功耗相當于CPU的15.7%,性能功耗比提升18倍。在圖片識別分類應用上,相比GPU能夠提升10倍以上。
通過CPU、GPU、FPGA等不同計算設備的組合,充分發揮各自在不同方向的優勢,才能夠形成一套高效的AI計算平臺。然后選擇一個合適的框架,運用最優的算法,就能夠實現人工智能應用的快速落地和精準服務。
評論
查看更多