近兩年來,在英偉達、高通、AMD、英特爾、華為等科技公司加速布局的戰略規劃下,芯片領域競爭愈演愈烈。如今隨著人工智能時代的到來,再次為芯片市場激發新的活力,而與此同時,這意味著新一輪的芯片大戰也即將開啟。
其中,本就為芯片巨頭之一的英特爾在面對一眾挑戰者之際,不僅接連收購了現場可編程門陣列的制造商 Altera、Nervana、AI 模型套件的創業公司 Vertex.ai,還在以 AI 加速的光子電路和光學芯片方面展開了積極的探索。
顯而易見,對于英特爾而言,AI 芯片業務才是它的未來。
以下為譯文:
AI芯片業務才是英特爾的未來。去年,英特爾的AI芯片部門創收高達10億美元,英特爾預計這一市場還會以每年30%的速度增長,有望從2017年的25億美元增長到2022年的100億美元。如此看來,英特爾目前以數據為中心的收入占到了其所有部門所有業務的一半,比5年前上漲了大約1/3。
但盡管如此,英偉達(Nvidia)、高通、邁威爾(Marvell)和AMD等公司帶來的競爭也日益加劇;Hailo科技公司、Graphcore、Wave Computing、Esperanto和Quadric等創業公司也加入了這場角逐;甚至連亞馬遜也有可能威脅到英特爾的收益,因此,英特爾并沒沒有滿足于自己的成就。2015年,英特爾先是收購了現場可編程門陣列(Field Programmable Gate Array,簡稱FPGA)的制造商Altera,一年后又收購了Nervana,填補了其硬件平臺產品的空缺,為全新一代AI加速器芯片組奠定了基礎。去年8月,英特爾又拿下了Vertex.ai——這是一家開發平臺無關的AI模型套件的創業公司。
然而,英特爾的野心卻并未止步于此。在近日的采訪中,英特爾副總裁兼架構總經理Gadi Singer以及與英特爾人工智能產品部門高級主管Casimir Wierzynski透露了英特爾在基于光并以AI加速的光子電路和光學芯片方面的積極探索。
Singer表示:“人工智能硬件是一個價值數十億美元的商機。我們會投資幾個產品線,因為該領域的需求非常廣泛。其中一些產品(比如加速器等)將側重于節能,這是這些產品獨有的特點。因此,投資這個領域可以讓我們的投資組合相輔相成。”
軟件
Singer指出,如果硬件上相應軟件的開發難度太大,那么硬件將毫無價值。因此,英特爾會絕對不會忽視AI領域的軟件生態系統。
去年4月,英特爾宣布開源nGraph——這是一種神經網絡模型編譯器,它能夠在多處理器架構上對匯編代碼進行優化。大約在同一時期內,英特爾還推出了One API,這套工具可以將計算引擎映射到一系列的處理器、圖形芯片、FPGA以及其他加速器。5月份,英特爾新成立的人工智能實驗室免費開放了一個用于自然語言處理的跨平臺庫NLP Architect,該庫可以為聊天助手提供名稱實體識別,意圖提取和語義分析等功能,同時提供相應的評測。
Singer指出,英特爾已開源的工具包遠不止這些。如今,英特爾還提供了神經網絡壓縮庫Distiller,這個庫可以從AI模型中去除與目標任務無關的部分,從而達到縮小模型的目的。還有一個增強學習框架Coach,可以讓用戶將AI代理嵌入到機器人和自動駕駛車輛的訓練環境中。
2018年春季,英特爾推出了OpenVINO(Open Visual Inference & Neural Network Optimization,開放視覺推斷及神經網絡優化),這是一個用于AI邊緣計算開發的工具套件,集成了用于目標檢測、面部識別以及目標跟蹤等一系列預先訓練好的AI模型。這套工具適用于傳統的CPU,(在使用訓練好的AI模型進行預測時)也可以用于FPGA等專門用于推斷的芯片,目前這套工具已經被美國通用電氣醫療集團等公司用于醫療成像,還被Dahua等公司用于智能城市服務。
Singer表示,OpenVINO旨在打造英特爾的計算機視覺軟件開發套件(SDK),這套工具集視頻處理、計算機視覺、機器學習以及流水線優化于一身,其使用了Movidius Neural Compute SDK(該SDK中包含一套軟件,用于編譯、配置并檢查機器學習模型)。兩者與英特爾的Movidius神經計算API屬于同一個系列,目的是為了簡化C、C++和Python等編程語言的應用開發。
其中許多套件都運行在英特爾的AI DevCloud中,這是一個云托管AI模型訓練及推斷平臺,其背后是強大的Xeon可擴展處理器。DevCloud提供可擴展的存儲和計算資源,因此開發人員能夠針對硬件(例如Aaeon Technologies等制造商提供的mini-PCIe開發板)遠程進行測試、優化以及模型驗證。
隱私
Singer表示,英特爾深知保護隱私是AI訓練以及推斷的重要發展趨勢之一,去年年底HE-Transformer的開源就是英特爾邁出的重要的第一步。從大的方面來說,HE-Transformer是一個建立在微軟研究院的簡單加密算法庫(Simple Encrypted Arithmetic Library,簡稱SEAL)上的nGraph后端,允許模型對加密數據進行操作。
HE-Transformer中“HE”代表“同態加密”(homomorphic encryption),這種加密形式允許使用算法加密的明文。它生成的加密計算結果經過解密后,與針對未加密文本執行的操作結果完全匹配。
HE-Transformer實際上是一個抽象層,該抽象層可應用于Google的TensorFlow、Facebook的PyTorch和MXNet等開源框架上的神經網絡。
Singer表示:“我們相信安全和隱私極其重要。這實際上是大規模機器學習的基本條件。例如,如果你需要獲取多家醫院的很多患者的信息,那么隱私問題就會變得非常重要。即使你想了解這些人的行為和動作,但是如果你無法保護他們的隱私,那么他們就不會允許你訪問這些數據。”
在談到英特爾是否會繼續開發類似于Google TensorFlow Privacy(這個庫采用了一系列統計技術來保證AI模型訓練的隱私)的機器學習庫時,Singer表示相關的工作正在進行中,他說:“現階段我們還不想討論這個問題,因為我們的深度學習能力還處于早期階段,但是我們非常有興趣,也愿意投資這方面。”
加速器與FPGA
絕大多數AI系統核心的神經網絡的構成元素是神經元,即近似模擬生物神經元而建模的數學函數。這些神經元分層排列,它們通過“突觸”(synapse)連接,將信號傳遞給其他神經元。這些信號(提供給神經網絡的數據,或者叫輸入)在層與層之間傳播,并通過調整每個連接的突觸強度(權重)來逐步“調整”網絡。經過一段時間后,神經網絡就能從數據集中提取特征,并識別出跨樣本趨勢,最終學會預測。
神經網絡無法攝取原始的圖像、視頻、音頻或文本。訓練數據集的樣本需要經過代數轉換后變成多維數組,例如標量(單個數字)、向量(有序的標量數組)以及矩陣(排列成多行多列的標量)。還有一種實體類型叫做張量(tensor),它概括了標量、向量和矩陣,并提供了線性變換(或線性關系)的功能。
例如,一張包含數百萬像素的圖像會轉換成超大的數字矩陣,而音頻記錄中的單詞和短語可以映射成向量,這種技術稱為嵌入。
毫無疑問,在處理這些統計操作時,有些硬件的效率更高。一般來說,處理器足以處理一些涉及到復雜順序計算的推斷和訓練,特別是像英特爾第二代Xeon可擴展CPU,它結合了向量神經網絡指令以及名為DL Boost AI的深度學習軟件優化。因此,英特爾聲稱其第二代Xeon可擴展CPU可以將AI工作負載上的性能提高到2.4倍(這些工作負載占數據中心推斷的60%),同時可以將推斷工作負載的性能提高到14倍,其中包括圖像識別、目標檢測和圖像分割等。英特爾還聲稱其即將推出的10nm Ice Lake 處理器能夠提供比市場上同類產品最多高8.8倍的AI推斷吞吐量。
然而,一些最苛刻的深度學習涉及張量操作,而顯卡以及專用集成電路(Application Specific Integrated Circuit,簡稱ASIC)的芯片更有利于這些操作。這是因為這些芯片包含數千個能夠并行執行數百萬次數學計算的內核。
Singer表示:“盡管CPU對于推斷非常有效,但是有些情況下需要進行張量操作。深度學習中最苛刻的任務需要處理多維數組,而且還需要進行張量上進行多種算術運算。從解決方案體系結構的角度來看,我們應該從優化軟件和其他硬件功能方面不斷強化CPU,然而僅靠CPU本身并不足以處理所有這類情形。”
英特爾擁有16nm Myriad X VPU這樣的視覺處理器,它的優化圖像信號處理和推斷設備具有立體聲模塊,可以處理最高180Hz的雙720p視頻源,還擁有采用硬件編碼的可調信號處理器流水線,能夠對來自8個傳感器的最大4K分辨率的視頻進行編碼。此外,它還配備了英特爾的神經計算引擎,這是一種專用的硬件加速器,具有本地 FP16支持和8位定點支持。
英特爾聲稱,這款芯片在全速運轉時可以達到每秒4萬億次計算和每秒1萬億次運算的專用神經網絡計算,是其前身(Myriad 2)在深度神經網絡推斷性能的10倍。
FPGA 與專用的加速器不太一樣,因為它們的硬件往往針對通用的、更廣泛的計算和數據功能。但它們在可編程性方面確實有優勢,因此開發人員能夠在成品上對它們進行配置和重新配置。這可能是微軟為Project Brain Wave選擇英特爾Stratix 10 FPGA的原因之一,Project Brainwave是一項針對加速深度神經網絡訓練與部署而優化的云服務。
英特爾在Agilex上提供了最先進的FPGA解決方案,其最新的10nm嵌入式芯片組旨在解決企業網絡和數據中心的“以數據為中心”的難題。
Agilex產品具有可定制的異構3D系統級封裝,包括模擬、內存、計算和定制 I/O 組件——其中包括 DDR5、 HBM,還有一塊Intel Optane DC。它們得到了英特爾One API的全面支持,并且還提供了遷移到ASIC的解決辦法。
英特爾聲稱,與英特爾老式的14nm Stratix10FPGA相比,Agilex FPGA的性能提高了40%,總功耗則降低了40%,這部分要歸功于他們的第二代 HyperFlex 架構。
Nervana
早在2017年,英特爾首次宣布其正在研發的兩款AI加速器芯片:一款用于推斷工作負載,另一款用于訓練。今年1月份,英特爾在消費電子展(Consumer Electronics Show,簡稱CES)新聞發布會上進一步詳細介紹了這款推斷產品。它被稱為Nervana神經網絡處理器(Nervana Neural Network Processor,即NNP-I),它適用于PCIe插槽(或基于OCP加速器模塊規格的夾層板),采用10nm工藝制造,并涵蓋了基于英特爾Ice Lake架構處理器的一般性操作,以及神經網絡加速。
NNP-I針對圖像識別進行了優化,其架構與其他芯片截然不同;它沒有標準的緩存層次結構,其處理器內嵌的內存由軟件直接管理。Singer表示,由于其高速的芯片內外互連,NNP-I 能夠將神經網絡參數分散到多個芯片上,從而實現非常高的并行性。此外,它還使用了一種新的數字格式—— Flexpoint,這種格式可以提高推斷任務中至關重要的標量計算,讓芯片能夠適應大型機器學習模型,同時保持“行業領先”的功耗。
Singer表示,“圖像可能是最適合加速器的情況,因為很多圖像識別功能都是矩陣乘法。“自然語言處理和推薦系統需要更多的混合類型的計算,該CPU核心可以在本地執行大量的張量活動和 CPU 任務,而無需將數據移出芯片。”
NNP-I的量產仍然任重道遠,但Singer表示,它已經在英特爾的實驗室中運行了多種拓撲結構。他預計今年有望投入生產,支持Facebook的Glow Compiler——這是一款機器學習編譯器,旨在加速深度學習框架的性能。
上述代號為“Spring Crest”的加速芯片Nervana Neural Net L-1000可能與 NNP-I 一起出現。這種16nm 芯片的24個計算集群提供的AI訓練性能是同類芯片的10倍,是英特爾首款NNP芯片Lake Crest的3-4倍。
Singer不愿透露更多信息,但他表示,有關Spring Crest 的更多細節將在未來幾個月內公布。
光子集成電路
根據英特爾AI產品部門內負責硅光子組的Wierzynski所說,NNP-I和Spring Crest之外的芯片可能與如今的AI加速器芯片截然不同。目前,光子集成電路(光學芯片的基礎)的工作正在進行中,與同類電子集成電路相比,光子集成電路有許多優點。
Wierzynski表示:“幾年前,麻省理工學院出版的一篇論文吸引了我的注意。文中提到了在電子產品使用光子。光子具有非常好的特性,它們可以在物質中快速移動,而且你可以通過一些方式控制光,讓它為你做有意義的事請。”
Wierzynski指的是總部位于波士頓的光子技術創業公司Lightelligence首席執行官沈亦晨,與師從麻省理工學院物理系教授Marin Soljacic的一名光子材料的博士學生于2017年在《自然光子學》雜志上發表的一篇研究論文,文中描述了一種利用光學干涉實現神經網絡工作負載的新方法。
Wierzynski說:“加速深度學習的關鍵問題之一是,在芯片越來越小的情況下,如何滿足這種延遲越來越低的需求?我們在挑戰硅芯片的極限。這說明一方面你需要一定的計算性能,同時又需要在一定程度上控制功耗。”
為此,像Lightelligence這樣的光學芯片只需要有限的能量,因為光產生的熱量比電少。而且光也不易受環境溫度、電磁場和其他噪音的影響。
此外,采用光子的設計中,延遲比硅材料改善了10,000倍,同時功耗水平還降低了幾個數量級。在初步的測試中,與最先進的電子芯片相比,某些矩陣矢量乘法運算速度提高了100倍。
Wierzynski說:“我們希望你能夠使用與人們現在使用的AI模型很相近的模型。我們也正在學習更多關于如何大規模構建光子電路的知識。這聽起來很像《星際迷航》。”
然而,這并非一件易事。正如Wierzynski所指出的那樣,除了矩陣乘法之外,神經網絡還有第二個基本特征:非線性。如果沒有非線性,那么神經網絡只能簡單地計算輸入的加權和,而不能做出預測。遺憾的是,關于在光學領域中可以執行何種非線性操作的問題仍然存在。一種可能的解決方案是,在同一芯片上結合硅和光學電路的混合方法。Wierzynski表示,神經網絡的一些部分可以采用光學的方式運行,而其余的部分則仍以電子的方式運行。
但是,這并不能解決光學芯片的縮放問題。速度非常快的光子電路需要快速的存儲器,而且還需要將所有元件(包括激光器、調制器和光學組合器)全部封裝在大約200毫米的晶圓上。
Wierzynski說:“任何制造過程中都存在不完善之處,這意味著芯片內部和芯片之間會有細微的變化,這些會影響計算的準確性。”
幸運的是,他和同事們正在努力尋找解決方案。在最近的一篇論文中,他們描述了在馬赫-曾德爾干涉儀(Mach–Zehnder interferometer,簡稱MZI)上構建AI系統的兩種架構,MZIs 是一種光子電路,經過設置后可以在兩束光的相位相關的量之間執行2×2矩陣乘法。
在基準手寫數字識別(MNIST)的深度學習任務上,對這兩種體系結構進行模擬訓練后,研究人員發現,在雙精度浮點的精度下,GridNet 的準確度比FFTNet更高(98%對95%)。重要的是,FFTNet表現出強大的穩健性,即使加入了人工噪聲,它的準確率也從未低于50%。
Wierzynski表示,這項研究為人工智能軟件訓練技術奠定了基礎,可以避免在制造后對光學芯片進行微調,因此省時省力。
他補充道:“這是英特爾在過去幾十年中為光電路開發的非常復雜的制造技術,同時英特爾也賦予了這種技術一個全新的目的。雖然目前這種技術還處于初期階段,這個領域內還有大量工作需要做,但我已然興奮不已了。”
-
芯片
+關注
關注
456文章
50967瀏覽量
424864 -
英特爾
+關注
關注
61文章
9985瀏覽量
171964 -
AI
+關注
關注
87文章
31155瀏覽量
269496
原文標題:英特爾 AI 芯片業務的現狀與未來
文章出處:【微信號:BIEIqbs,微信公眾號:北京市電子科技情報研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論