Nvidia公司人工智能超級計算機負責人Charlie Boyle日前闡述了人工智能硬件和數據中心的現狀和未來發展。
比以往任何時候都更重要的是,對于每個新的數據中心工作負載,IT組織必須回答的問題是在哪里運行。如今,最新的企業計算工作負載是機器學習(或人工智能)的變體,無論是深度學習模型培訓還是推理(使用經過培訓的模型),人工智能基礎設施已經有太多的選擇,因此很難直接為企業找到最佳的解決方案。
市場上有各種各樣的人工智能硬件選項,廣泛且快速增長的人工智能云服務范圍,以及用于托管人工智能硬件的各種數據中心選項。Nvidia公司是機器學習基礎設施生態系統中最重要的一家公司,它不僅為全球的人工智能工作負載(Nvidia GPU)銷售和生產大多數處理器,它還構建了大量運行在這些芯片上的軟件,并銷售自己的人工智能超級計算機。
行業媒體Datacenter Knowledge(DCK)與Nvidia公司的DGX人工智能超級計算機高級營銷總監Charlie Boyle一起探討了人工智能硬件發展和人工智能基礎設施的發展趨勢。以下是采訪內容:
DCK:企業如何決定是將云計算服務用于其機器學習還是購買自己的人工智能硬件采用機器學習?
Charlie Boyle:我們的大多數客戶都使用內部部署和云計算的組合。我們看到的最大動態是數據所在位置決定處理它的位置。在人工智能環境中,需要處理大量數據才能得到結果。如果所有這些數據都已經存在于企業數據中心中(企業可能收集了10~30年的歷史數據),那么希望將處理過程盡可能接近企業所在的位置。因此,它有利于內部部署系統。如果是一家業務從云端起步的公司,并且其所有客戶數據都在云端,那么最好在云平臺中處理這些數據。
DCK:是因為很難將大量數據移入和移出云端嗎?
Charlie Boyle:這還取決于企業如何生成數據。大多數企業的數據都是動態的,因此總是會添加數據,因此,如果他們在系統中收集所有數據,那么他們就更容易繼續在內部處理它們。如果他們將大量數據聚合到云服務中,那么他們就會在云平臺上處理它。
這適用于生產用例。許多實驗性用例可以從云端開始,企業只需啟動瀏覽器即可訪問人工智能基礎設施,但隨著他們轉向生產,企業就可以做出本地決策、財務決策、安全決策,以及是否更好地在內部部署或在云平臺上處理它。
Nvidia公司的客戶通常在內部進行一些人工智能模型培訓,因為這是他們的歷史數據所在。他們構建了一個很好的模型,但是該模型隨后由他們的在線服務提供服務——他們在云中基于他們在內部部署構建的模型進行的推理。
DCK:對于那些在自己的內部部署或托管數據中心運行人工智能工作負載的企業,考慮到機架的功率密度越來越高,您認為他們將采用哪種冷卻方法?
Charlie Boyle:數據中心采用液體冷卻還是空氣冷卻始終是一個熱門的爭論話題,我們一直在研究這個問題。一般來說,數據中心運行大量服務器機架,有的多達50個,采用傳統的空氣冷卻設施效果良好。當運行更高功率密度的機架時,例如機架的功率為30千瓦~50千瓦,通常采用水冷式熱交換器進行冷卻,這就是在數據中心實施的最新冷卻措施,因為這樣數據中心就不會改造冷卻系統本身的管道。
現在,我們的一些OEM合作伙伴也基于我們的GPU構建可以直接冷卻芯片的水冷系統,一些企業希望構建一個超級密集的計算基礎設施,他們將會提前部署冷卻基礎設施。但是,通過我們與大多數托管服務提供商的合作,發現只有水冷系統才能更好地支持高功率密度的機架運行。
直接冷卻芯片更像是一個運營問題。我們的技術現在可以做到,但如何為它提供服務呢?對于正常運營的企業來說,這將是一個學習曲線。
DCK:NVIDIA DGX系統和其他GPU驅動的人工智能硬件如此密集,以至于無法采用空氣冷卻進行冷卻嗎?
Charlie Boyle:我們所有系統都可以采用空氣冷卻和液體冷卻技術。主要是因為我看到大多數客戶都在采用這些方法。在我們對于功率密度的處理并不是固有的方法,因為在可預見的將來,我們不能實施空氣冷卻或混合冷卻技術,這主要是因為大多數客戶會受到機架功率的限制。
現在,我們正在運行30~40kW的機架。當然也可以運行100kW和200kW的機架,但現在沒有人愿意部署這樣功率密度的機架。那么可以采用液體冷卻嗎?也許,但它確實是每個客戶最有效的選擇。我們看到客戶采用混合體冷卻方式,他們正在回收廢熱。我們將繼續關注這一點,繼續與在這些公司合作,看看他們的方法是否具有意義。
我們的工作站產品DGX station采用的是一種內部閉環水冷技術。但是在數據中心基礎設施的服務器端,大多數客戶還沒有采用。
DCK:大多數企業數據中心甚至不能冷卻30kW和40kW機架。這是DGX產品銷售的障礙嗎?
Charlie Boyle:這并沒有障礙,而是一個對話點,這也是我們宣布DGX就緒計劃第二階段的原因。如果只是談論安裝這樣的機架,任何數據中心都可以支持,但是當數據中心安裝了50~100個這樣的機架時,那么企業需要重新建設數據中心或者尋求托管數據中心服務商的幫助。
這就是為什么我們試圖消除DGX產品銷售阻礙的原因,通過與這些托管數據中心服務商合作,讓我們的數據中心團隊對他們進行盡職調查,以便他們擁有更高的功率密度,并且需要實施液體冷卻,所以客戶可能需要部署50個DGX-2超級計算機的空間,數據中心提供商已經有了這些數據,然后向我們訂購。
當我們三年前推出這些產品時,有些客戶購買幾套產品時,他們會提出如何大規模購買和安裝的問題,我們的一些客戶選擇建造新的數據中心基礎設施,而另一些客戶則向我們尋求有關托管數據中心服務商的建議。我們為此構建了DGX就緒數據中心計劃,以便客戶不必為此等待。
即使對于擁有強大數據中心設施的客戶,他們也多次向我們公司購買一些30kW的機架?;蛘呖蛻艨梢耘c我們的托管數據中心合作伙伴進行合作,可以更快地獲得服務和產品。
DCK:您是否看到客戶選擇托管數據中心服務商,即使他們擁有自己的數據中心空間?
Charlie Boyle:由于人工智能設備對大多數客戶來說通常是一種新的工作負載,因此他們不會試圖采用現有的基礎設施,可以為此建設或購買新的基礎設施,所以對于他們來說,部署在他們的數據中心或者托管數據中心,這并不重要——只要經濟有效,并且可以很快完成工作。這是大多數人工智能項目中的一個重要組成部分:他們想快速展示成功。
即使是Nvidia公司,我們在總部(位于加利福尼亞州圣克拉拉)附近采用多個數據中心供應商提供的服務,因為我們有辦公空間,但沒有數據中心。幸運的是,在硅谷,我們周圍有很多優秀的供應商。
DCK:Nvidia公司正在推廣DGX作為人工智能的超級計算機。其架構與傳統高性能計算(HPC)工作負載的超級計算機有什么不同嗎?
Charlie Boyle:大約五年前,人們看到高性能計算(HPC)和人工智能系統之間存在非常明顯的差異,但是現在,這二者很多功能已經合并。以前,每個人都認為超級計算機是64位、雙精度。而人工智能工作負載主要是32位或16位混合。而這兩種技術應用在兩個不同的場合。
人們現在看到的是一個典型的超級計算機會在很多節點上運行一個問題,而在人工智能工作負載中正在做同樣的事情。MLPerf(人工智能硬件性能基準測試版)剛剛發布,大量節點只完成一項工作。人工智能和高性能計算之間的工作量實際上非常相似。使用我們最新的GPU,可以提供傳統的高性能計算雙精度,人工智能為32位精度,并加速人工智能混合精度。
傳統的超級計算中心現在都在采用人工智能技,可能已經建立了超級計算機,但他們都在同一個系統上運行超級計算機任務和人工智能工作負載。
這兩者的架構相同。在過去,超級計算使用的網絡不同于傳統的人工智能?,F在一切都融合了。這就是客戶為什么要買Mellanox產品的部分原因?,F在,超級計算基礎設施對于雙方都至關重要。人們認為它只是一個深奧的高性能計算機,但它將會成為主流;而企業現在將它作為他們的人工智能系統的支柱。
DCK:人工智能硬件有著激烈的競爭,例如谷歌的TPU、FPGA,云計算提供商和創業公司設計的其他定制芯片,這是不是Nvidia公司的關注點?
Charlie Boyle:我們總是關注競爭,但我們的競爭對手以我們為基準。我們在這個行業如此多產的部分原因是我們無處不在。在谷歌云平臺中采用Nvidia GPU,而在亞馬遜云平臺中,也有Nvidia GPU。
如果筆記本電腦配有Nvidia GPU,可以對此進行訓練。我們的GPU運行一切事務,可以在筆記本電腦上進行深度學習訓練的軟件堆棧與在我們在超級計算機上運行的軟件堆棧相同。
當所有這些創業公司和不同的人選擇一個基準時,這是一個巨大的問題。例如有的公司表示,“我們真的很擅長ResNet 50?!比绻蛔鯮esNet 50,這只是企業整體人工智能工作量的一小部分,所以具有軟件靈活性和可編程性對我們來說是一筆巨大的財富。為此,我們在過去十年中建立了一個生態系統。
這是我認為這個領域的創業公司面臨的最大挑戰:企業可以開發構建一種芯片,但是當筆記本電腦和每個云中都沒有采用這種芯片時,讓數百萬開發人員使用其開發的芯片是很困難的。當查看TPU(谷歌的定制人工智能芯片),TPU僅在他們認為適合的一些工作負載中提交。而我們提交最新的MLPerf結果時,我們可以提交幾乎所有類別。
具有市場競爭是一件好事,它可以讓企業變得更好。而憑借擁有的技術和生態系統,我們才能擁有真正的優勢。
DCK:傳統的HPC架構與人工智能融合意味著傳統的HPC供應商現在正在與DGX競爭。這會對你的工作帶來困難嗎?
Charlie Boyle:我認為它們根本不是競爭對手,因為這些公司都使用Nvidia GPU。如果我們向客戶銷售系統,或者HPE、Dell或Cray向客戶銷售系統,只要客戶滿意,我們就沒有問題。
我們制造的軟件在我們自己的幾千個DGX系統上運行,通過我們的NGC基礎設施在內部提供(NGC是Nvidia公司的GPU優化軟件在線分銷中心),因此我們所有的OEM客戶都可以下載相同的軟件。在容器中也使用相同的軟件,因為我們只希望每個客戶都擁有最佳的GPU體驗。
因此,我不認為這些公司是競爭對手。作為產品線所有者,我們與我的OEM合作伙伴分享了很多東西。我們總是先構建DGX系統,因為我們需要證明它是有效的。然后吸取這些經驗教訓,并把它們提供給我們的合作伙伴,以縮短它們的開發周期。
我們會和任何一家OEM公司進行溝通,如果他們正在考慮建立一個新的系統,我們可以為他們提供幫助。
DCK:DGX中是否有獨特的Nvidia IP未與OEM廠商共享?
Charlie Boyle:獨特的IP是我們在Nvidia內部為我們自己的研發而建立的令人難以置信的基礎設施:我們所有的深度學習研究,這些都是在幾千個DGX系統上完成的,所以我們從這些系統中學習,并將學習成果傳遞給我們的客戶。在HPE、戴爾或Cray系統中也可以找到同樣的技術。
我們從客戶那里聽到的一個常見問題是,“我想使用你們用的東西。”其實那就是DGX系統。如果客戶喜歡使用HPE系統,因為他們喜歡采用其管理基礎設施。
但從銷售和市場的角度來看,只要人們購買GPU,我們就會感到高興。
DCK:谷歌公司最近宣布了一種新的壓縮算法,使人工智能的工作負載能夠在智能手機上運行。未來數據中心需要更少的GPU,因為手機可以完成所有的人工智能計算嗎?
Charlie Boyle:世界總是需要更多的計算。是的,手機的功能將會變得更強大,但世界對計算的渴望正在不斷增長。如果我們在手機中加入更多計算機功能的話,這意味著什么?
如果人們經常旅行,可能會熟悉美聯航或美國航空公司的語音應答系統:在過去的幾年中,其功能變得更好,因為人工智能正在改善語音響應。隨著它變得越來越好,人們需要更多的服務,更多服務意味著更多的計算能力。所以需要更多的GPU來完成這項任務。因此,在手機上使用的功能越好,對我們來說就越有利。我認為所有消費者服務都是如此。
DCK:您是否在移動網絡邊緣看到了令人信服的機器學習用例?
Charlie Boyle:我們與很多電信公司開展合作,無論人們使用流媒體,還是使用個人定位服務,電信公司總是試圖靠近客戶。大約十年前,我曾在電信公司工作,一直渴望把很多服務遷移到邊緣。我們看到一些機器學習應用程序將在邊緣運行。隨著5G的推出,人們只會看到更多的東西在邊緣運行。
DCK:電信公司在邊緣測試或部署什么樣的機器學習工作負載?
Charlie Boyle:這一切都是針對特定用戶的服務。如果人們在某個地區,手機上的應用程序已經知道其在該區域,可以為其提供更好的建議或更好的處理方法。然后,隨著人們開始消耗越來越多的內容,隨著帶寬的提高,更多的處理將轉移到更遠的邊緣。
DCK:雖然電信公司是將計算推向邊緣的公司,但他們是否也會提供您所指的所有豐富服務?
Charlie Boyle:有時候他們正在構建服務,也會購買服務。我認為這就是當今人工智能和機器學習應用程序得到迅速應用的地方。如今,有很多初創公司在構建電信公司目前正在消費的特定服務。他們提出了很好的想法,電信公司的分銷網絡是放置這些類型服務的理想場所。很多服務需要大量的計算能力,所以我認為邊緣采用的GPU將是一個令人關注的產品。
-
硬件
+關注
關注
11文章
3345瀏覽量
66288 -
超級計算機
+關注
關注
2文章
463瀏覽量
41961 -
人工智能
+關注
關注
1792文章
47406瀏覽量
238913
發布評論請先 登錄
相關推薦
評論