日前IBM發(fā)布POWER 9處理器是基于14nm工藝制程,并且專為AI、加速計算設(shè)計 ,相比 X86 系統(tǒng),可縮短在機(jī)器學(xué)習(xí)框架下的訓(xùn)練時間。IBM表示設(shè)計之初的理念就是未來為 AI 服務(wù),且率先使用了PCIe 4.0技術(shù)。
近日 IBM 在紐約發(fā)布了最新設(shè)計的POWER9處理器,以及裝有 POWER9的新一代Power Systems服務(wù)器—— AC922。2017年下半年以來,針對大數(shù)據(jù)和云計算,IBM發(fā)布了多款硬件。值得一提的是,AC922是 IBM 第一款針對企業(yè)級 AI市場發(fā)布的新品,該系統(tǒng)專門為人工智能、加速計算而設(shè)計,根據(jù)其內(nèi)部測試數(shù)據(jù),相比 X86 系統(tǒng),可將深度學(xué)習(xí)框架下將訓(xùn)練時間縮短至原來的1/4。
IBM大中華區(qū)科技合作部副總裁Mary Coucher 表示,早四年前IBM 開始設(shè)計 POWER9時,就在整個過程中都考慮了如何來為 AI 服務(wù)。
具體到數(shù)據(jù)上,跟x86相比,POWER9的線程增加 2 倍, I/O帶寬增加5倍,CPU和GPU之間的內(nèi)存共享提升至2TB,且率先使用了PCIe 4.0技術(shù)的,速度比基于PCIe Gen3的x86快了2倍多。
基于POWER9 的 AC922,則嵌入了PCI-Express 4.0、新一代NVIDIA的 NVLink及OpenCAPI,在加速數(shù)據(jù)傳送方面,超越了 x86 數(shù)倍,能夠大幅提升Chainer、TensorFlow及Caffe等人工智能框架的性能,并加速Kinetica等數(shù)據(jù)庫。
記者了解到,正式產(chǎn)品已于本月22日上市。
以下為針對該新品在人工智能及應(yīng)用方面的采訪,受訪人有IBM副總裁、大中華區(qū)硬件系統(tǒng)部總經(jīng)理侯淼,IBM大中華區(qū)科技合作部副總裁Mary Coucher ,IBM杰出工程師、大中華區(qū)硬件系統(tǒng)部首席技術(shù)官李永輝等,記者在不改變原意的基礎(chǔ)上,做了增刪。
關(guān)于人工智能
提問:為什么針對 AI ?使用場景有哪些?
侯淼:大家好奇為什么這次發(fā)布針對AI,機(jī)器對AI和機(jī)器不對AI到底有什么差別。
在過去IBM很多產(chǎn)品都是針對傳統(tǒng)的工作負(fù)載,像大家在銀行做銀行交易一樣,可能手機(jī)上有一個消費,你買了一本書,花了30塊錢,這筆交易會留到銀行和你的賬戶,會訪問Database,會從你的銀行的賬戶減掉30塊錢,然后確認(rèn)把這個錢給商家,這樣的輸入就完成了,整個過程是串行的程序來保證數(shù)據(jù)一致性,不可能并行起來。對后臺機(jī)器的要求在于I/O、內(nèi)存和CPU之間通路的完整性,通過軟件要使這個交易完整,我們傳統(tǒng)叫針對Online Transaction系統(tǒng)。
什么是AI的場景?舉一個很有意思的例子,比如說在一個視頻上識別一個人,有幾個步驟來做,第一,要讓一個機(jī)器知道要找的這個人的面貌特征,知道的過程就要用深度學(xué)習(xí)訓(xùn)練。這里有幾個很關(guān)鍵的點,識別時間越短越好,越快越好,越準(zhǔn)越好。
IBM這一套技術(shù)在進(jìn)行訓(xùn)練的時候,有一個深度學(xué)習(xí)的的一套框架,這里包括我們改進(jìn)了NVLINK GPU-CPU互連加速技術(shù)、CAPI I/O加速及內(nèi)存一致性訪問技術(shù)、水平擴(kuò)展等,以前只能在一臺機(jī)器,可能是十個小時,如果能夠十臺機(jī)器一塊兒來做的,有可能是1個小時,這是IBM的優(yōu)勢。
接下來當(dāng)你進(jìn)行識別的時候,發(fā)現(xiàn)如果一個視頻里有十個人,這個識別不是不需要從左邊找第一個人到右邊,而是會同時去看這些人。如果有一百個人,也會同時看一百個人到底這里面能看多少人,這取決于GPU的能力,GPU的數(shù)量越多,并發(fā)的密度越高,能力越強。
如果是高清圖像的話要求你的分辨率很高,這就跟GPU和CPU的內(nèi)存相關(guān),內(nèi)存越大,你所得到的數(shù)據(jù)越高,從而這個比對的精準(zhǔn)度會越快。IBM這次發(fā)布的AC922,第一個特征就是支持在2U的設(shè)備里支持6個GPU,這使識別的速度會大幅度提高。
第二是跟NVIDIA合作,采用了新一代 NVLink,它把CPU和GPU相連接,好處在于,進(jìn)行高清識別的時候,當(dāng)GPU內(nèi)存不夠的話可以訪問主內(nèi)存,這是非常大的優(yōu)勢。高清識別的時候,很多情況下GPU的內(nèi)存不夠,會限制訪問速率,或者犧牲速度增加質(zhì)量,或者犧牲質(zhì)量增加速度,而在AC922不需要這樣來做。
提問:近4倍的超越對于芯片來講是一個什么概念? AI現(xiàn)在的發(fā)展跟軟件有很大關(guān)系,軟件的倍數(shù)會更多,是否可以介紹一下這一點?
李永輝:人工智能不單單是硬件平臺,還涉及到軟件的堆棧。AC922是為了人工智能而設(shè)計的,在2個U的密度里放了最多6個 GPU,可以大大加速很多人工智能框架。
我們采用最新的GPU技術(shù)——V100,業(yè)界最頂級的,有雙密度、單密度、半密度的算法,有效加速人工智能訓(xùn)練過程,也可以做一個性能的提升。在V100 GPU里有Tensor Core的設(shè)計,專門針對人工智能權(quán)重算法,實現(xiàn)并行度的加速。
在這個基礎(chǔ)上做了軟件堆棧,這個堆棧是去年年底發(fā)布的Power AI,我們隨著業(yè)界出現(xiàn)的主流AI框架,優(yōu)化到IBM Power平臺上去。今天有很多客戶是不容許在網(wǎng)下載一些開源的軟件,怕有病毒,IBM已經(jīng)把這些應(yīng)用編譯到POWER 平臺上,利用NVLink技術(shù)和POWER9,提供了對開源軟件很好的支持和優(yōu)化。
此外,還做了一些功能性的增強,一方面是水平的擴(kuò)展,很多的開源應(yīng)用只局限在一臺機(jī)器跑,我們透過Spark的技術(shù),在12月初剛發(fā)布了 Deep Learning Impact,利用大數(shù)據(jù)的技術(shù),把人工智能的框架水平擴(kuò)展到多臺機(jī)器上去跑,同時也提供一些工具,實現(xiàn)Hyper-parameter Search超參條選,縮短 AI 應(yīng)用開發(fā)的時間。
提問:現(xiàn)在國內(nèi)對人工智能保持非常激進(jìn)的態(tài)度,政府、企業(yè)界、學(xué)術(shù)界都非常激進(jìn),對IBM來說,是否會在中國放更大的精力,投入更多?
李永輝:我們了解到人工智能在中國是很熱門的課題,包括中國政府在8月4號發(fā)布新一代人工智能的規(guī)劃。
其次, IBM看到在全球領(lǐng)域,在AI比較關(guān)注的國家或者是很多比較創(chuàng)新的跟AI有關(guān)的國家,中國絕對是領(lǐng)先之一。因此,在我們這次發(fā)布的POWER服務(wù)器和相關(guān)配套的解決方案里,IBM中國的研究院開發(fā)團(tuán)隊都有參與部分人工智能的軟件或者是有關(guān)產(chǎn)品的開發(fā)。IBM是非常關(guān)注中國人工智能的發(fā)展,同時我們也有一定的投入在這里,把我們對中國市場的了解反饋到產(chǎn)品里,更好的支持我們的客戶。
提問:培訓(xùn)原來是單機(jī)用得比較多,什么情況下會用到并行?行業(yè)應(yīng)用好像一臺就夠了吧?
李永輝:今天的AI剛剛發(fā)展起來,當(dāng)初發(fā)展很快的原因是因為業(yè)界有很多開源AI的框架可以供一些人做應(yīng)用實驗,這個框架往往只能放在一臺物理機(jī)器上跑。很多廠家,不只是IBM,也在摸索怎么樣可以更有效的把AI框架拓展到多臺機(jī)器上去。這里涉及到Caffe和TensorFlow等人工智能框架能不能水平擴(kuò)展開,還涉及到底層的互聯(lián)互通,信息的交互等。
學(xué)習(xí)的過程,當(dāng)你處理的圖像越大,精密度越高,性能要快的話,就需要用到這種水平拓展的技術(shù)。單一臺機(jī)器跑,如果今天要處理一些比較復(fù)雜的問題,可能要跑數(shù)天或者超過一周的時間才能訓(xùn)練完一堆數(shù)據(jù)。如果你在神經(jīng)網(wǎng)絡(luò)里選擇了不合適的超參(Hyper-parameter),在人工智能網(wǎng)絡(luò)里,跑了一半或者跑了數(shù)天后才發(fā)現(xiàn)數(shù)據(jù)有問題或訓(xùn)練收斂不了,那就需要重新設(shè)定,重新訓(xùn)練,整個開發(fā)應(yīng)用周期就太慢了,IBM提供的工具可以自動化幫你做一個超參的首巡,這也是IBM很出色的能力,同時間底層做水平的擴(kuò)展,加快訓(xùn)練的時間,做水平擴(kuò)展的另外一個好處是多租戶的環(huán)境。
IBM是做平臺出身,我們做一個框架幫你打通所有的平臺,將來對客戶來講這是AI的資源池,在上面放Deep Learning Impact解決方案,底層打通,無論將來的應(yīng)用提交到多少CPU上去都可以跑起來,如果一個不夠可以給兩個,兩個不夠可以給三個,這樣對用戶來講是加快速度,另外是多租戶的使用場景。
提問:POWER9除了HPC和AI方面,還適用于什么市場呢?
李永輝:POWER 有超過25年的市場,今天很多的客戶是跑在核心的關(guān)鍵應(yīng)用,像數(shù)據(jù)庫的應(yīng)用,像一些企業(yè)資源管理的應(yīng)用,像一些大數(shù)據(jù)分析的應(yīng)用或者是中間件等等,今天很多客戶核心的平臺都會用的。
為什么我們強調(diào)AI,原因是我們看到在過去可能一兩年內(nèi),這個領(lǐng)域做了很大的改變,我們看到IT正進(jìn)入一個新時代,這個新的時代,IBM稱之為認(rèn)知時代。在這個認(rèn)知時代里面,新的平臺是需要有能力做到一些認(rèn)知的能力,這些認(rèn)知的能力包括所謂理解的能力、推理的能力、學(xué)習(xí)的能力、交互的能力,這些能力很多都是需要通過GPU來實現(xiàn)的。比如說做圖像識別、語音識別等等。
為什么我們看到新一代的機(jī)器需要有一種混合架構(gòu),GPU的能力,不單只是傳統(tǒng)的CPU能力,我們還需要很好的連接GPU的能力, POWER9的第一款服務(wù)器不僅提供了很好的CPU以外,也提供新一代NVLINK 連接CPU 來加速AI的能力,同時也做了很多I/O加速的能力。IBM的一個調(diào)研發(fā)現(xiàn),到2020年網(wǎng)絡(luò)上流動的數(shù)據(jù)有超過一半是視頻,如果今天沒有一種像CAPI這種加速網(wǎng)絡(luò)的技術(shù),將來怎么應(yīng)付這么海量的數(shù)據(jù)處理呢?
侯淼:從以前IBM POWER4、5、6、7、8,到現(xiàn)在的POWER9,針對傳統(tǒng)的工作負(fù)載不斷在增強,包括支持更多的核,包括更大的內(nèi)存總線、更大的內(nèi)存、更強的I/O,很正常。新的POWER9? AC922作為第一款的主打產(chǎn)品發(fā)布,實際上是增加了對AI市場的支持,換句話說增加了GPU,使這個機(jī)器不單單能夠解決傳統(tǒng)的工作負(fù)載的問題,也能夠解決新的有關(guān)分析和人工智能問題。
關(guān)于應(yīng)用
提問: AC922主要是面對AI,但我們更多的應(yīng)用還是傳統(tǒng)的應(yīng)用,不知道這些用戶從POWER9當(dāng)中能夠獲得什么受益?
Mary Coucher:我們這個產(chǎn)品的確是針對AI來發(fā)布的,在整個2018年大家會看到我們會有更多關(guān)于POWER9的產(chǎn)品一些新的發(fā)布。我們針對各種類型的,比如說針對scale-out、針對超算,還有scale-up……傳統(tǒng)可能更注重商業(yè)機(jī)會,對于傳統(tǒng)商業(yè)客戶和研究機(jī)構(gòu)來講,他們其實對AI非常感興趣,因為AI可以幫助促進(jìn)他們的商業(yè)機(jī)會,能夠更好地運用他們掌握的數(shù)據(jù),增加更多的機(jī)會,他們可以去更好的理解市場,更好的去獲得更大的客戶群。這對制造業(yè)、零售業(yè)、供應(yīng)鏈、醫(yī)療、銀行業(yè)等等來講都是這樣的。
提問:原來在POWER8上跑的系統(tǒng)對軟件有沒有挑戰(zhàn),是可以順利的遷移呢?
李永輝:IBM POWER到今天是第九代,但是一直保留了兼容性,IBM POWER的核是兼容的,今天POWER8的用戶到POWER9都可以跑下去,沒有問題。
我們這次發(fā)布是AC922,是凸顯了IBM對AI領(lǐng)域的重視,并不是說我們只有這一款機(jī)器。這是POWER9的第一個開始。我們在明年會有針對商業(yè)化,針對水平、縱向擴(kuò)展的機(jī)器也會慢慢陸陸續(xù)續(xù)發(fā)布。
針對應(yīng)用的部分來講,POWER8的應(yīng)用可以遷移到POWER9,沒有問題,同時間POWER9帶來新類型的能力,像剛才講的GPU采用最新一代的V系列的芯片,它也有一些新的算法上的優(yōu)化,有新一代的NVLink,CAPI和OpenCAPI、PCIe 4.0等等一些標(biāo)準(zhǔn),這肯定是原來POWER8沒有的,這是POWER9才有的,如果用戶需要體現(xiàn)一個新的能力的話,他需要在我們新的平臺當(dāng)中做一些優(yōu)化,重新編譯等。
評論
查看更多