1. 時(shí)代的機(jī)遇:誰(shuí)會(huì)成為人工智能時(shí)代的ARM
1.1人工智能時(shí)代:AI+將無(wú)處不在
隨著大數(shù)據(jù)的發(fā)展,計(jì)算能力的提升,人工智能近兩年迎來(lái)了新一輪的爆發(fā)。2016年谷歌AlphaGo贏得了圍棋大戰(zhàn)后,人工智能在產(chǎn)業(yè)界和資本圈引起了高度關(guān)注,成為新的風(fēng)口。
人工智能的三個(gè)核心要素是數(shù)據(jù)、算法和計(jì)算能力。人工智能之前經(jīng)歷過(guò)數(shù)次興衰,一直未能取得突破的障礙主要是數(shù)據(jù)和計(jì)算能力的限制。相比前幾次的熱潮,目前人工智能在數(shù)據(jù)、算法和計(jì)算能力方面都有堅(jiān)實(shí)的基礎(chǔ)。因此,我們相信人工智能并不僅是一個(gè)風(fēng)口,而是即將迎來(lái)真正屬于自己的時(shí)代。
人工智能并不是一個(gè)單獨(dú)的存在,而必須要和其他產(chǎn)業(yè)結(jié)合起來(lái)才能創(chuàng)造提升效率,創(chuàng)造價(jià)值。未來(lái)將不存在所謂的人工智能,而是人工智能和其他產(chǎn)業(yè)的融合,也就是AI+。展望未來(lái),AI+將無(wú)處不在。
按照當(dāng)前人工智能實(shí)現(xiàn)的基本功能來(lái)分類,主要有四部分:圖像認(rèn)知能力、語(yǔ)音語(yǔ)義理解能力、數(shù)據(jù)分析能力、整合多種能力的機(jī)器人(300024)。下面我們將分別按這幾種基本功能來(lái)介紹人工智能的應(yīng)用:
人工智能整體仍處市場(chǎng)早期,但是未來(lái)空間巨大。根據(jù)國(guó)外調(diào)查機(jī)構(gòu)Tractica的統(tǒng)計(jì)預(yù)測(cè)數(shù)字,2016年全球人工智能收入為6.4億美元,到2025年預(yù)計(jì)將增長(zhǎng)至368億美元。從人工智能的主要構(gòu)成來(lái)看,規(guī)模最大的細(xì)分市場(chǎng)分別是機(jī)器學(xué)習(xí)應(yīng)用、自然語(yǔ)言理解、計(jì)算機(jī)視覺(jué)、虛擬個(gè)人助手和智能機(jī)器人等。在未來(lái)10年甚至更久的時(shí)間里,人工智能將是眾多智能產(chǎn)業(yè)技術(shù)和應(yīng)用發(fā)展的突破點(diǎn),市場(chǎng)空間非常巨大。
1.2 智能手機(jī)時(shí)代ARM公司的“戴維斯雙擊”
在產(chǎn)業(yè)發(fā)展史中,每一場(chǎng)重要的產(chǎn)業(yè)變革總會(huì)帶來(lái)新的重大機(jī)遇。如果能夠在新興產(chǎn)業(yè)中占據(jù)核心產(chǎn)業(yè)鏈位臵,必將能夠充分享受新興產(chǎn)業(yè)爆發(fā)性增長(zhǎng)帶來(lái)的紅利。ARM在智能手機(jī)時(shí)代的經(jīng)歷就是最好的例證。ARM公司歷史簡(jiǎn)介如下:
ARM公司1978年在英國(guó)成立。1985年,ARM設(shè)計(jì)了第一代32位、6MHz的處理器,用它做出了一臺(tái)RISC指令集的計(jì)算機(jī)。ARM采用的RISC指令集,全稱是“精簡(jiǎn)指令集計(jì)算機(jī)”(reducedinstructionsetcomputer),它支持的指令比較簡(jiǎn)單,雖然功能遠(yuǎn)不如英特爾處理器強(qiáng)大,但是功耗小、價(jià)格便宜。
當(dāng)時(shí)處理器行業(yè)的霸主是英特爾,它采用的是X86的CISC指令集,占據(jù)著PC處理器市場(chǎng)絕大多數(shù)的市場(chǎng)份額。ARM處理器能力不足,根本無(wú)法撼動(dòng)英特爾在PC處理器的市場(chǎng)份額。
ARM處理器另辟蹊徑,在嵌入式設(shè)備市場(chǎng)找到了發(fā)展空間。它被廣泛用在各種嵌入式設(shè)備中,包括蘋果公司的牛頓PDA。這些嵌入式設(shè)備不需要處理器性能多么強(qiáng)大,而對(duì)功耗價(jià)格卻有很高的要求,這與ARM處理器的特性正好一拍即合。
盡管找到了市場(chǎng)立足點(diǎn),但是整個(gè)20世紀(jì)90年代,ARM公司的業(yè)績(jī)平平,處理器的出貨量徘徊不前。直到進(jìn)入21世紀(jì)之后,由于手機(jī)的快速發(fā)展,ARM處理器迎來(lái)了快速增長(zhǎng)。
而在2007年,ARM迎來(lái)了歷史性的機(jī)遇——智能手機(jī)時(shí)代的到來(lái)。2007年,喬布斯發(fā)布了第一代iPhone,使用的就是三星制造、ARM設(shè)計(jì)的芯片。此后的每一款iPhone都采用了ARM架構(gòu),稍后推出的谷歌Android手機(jī)同樣采用了ARM架構(gòu)。
ARM架構(gòu)成為了智能手機(jī)的“事實(shí)標(biāo)準(zhǔn)”。2015年,包括高通、三星、聯(lián)發(fā)科等在內(nèi)的全球1384家移動(dòng)芯片制造商都采用了ARM的架構(gòu),全球有超過(guò)85%的智能手機(jī)和平板電腦的芯片都采用的是ARM架構(gòu)的處理器,超過(guò)70%的智能電視也在使用ARM的處理器。
在此期間,ARM公司營(yíng)業(yè)收入從2008年的3億英鎊增長(zhǎng)到2013年的7.14億英鎊,同期凈利潤(rùn)從0.44億英鎊增至2億英鎊,凈利潤(rùn)C(jī)AGR為35.6%。
從股價(jià)表現(xiàn)來(lái)看,ARM股價(jià)受08年金融危機(jī)影響下跌到2008年底的80多英鎊,此后兩年多,連續(xù)上漲到2011年初的600多英鎊,期間漲幅超過(guò)600%。
總結(jié)起來(lái),ARM公司之前在嵌入式處理器這個(gè)小眾市場(chǎng)中占據(jù)領(lǐng)導(dǎo)地位,業(yè)績(jī)一直徘徊不前。而后隨著智能手機(jī)市場(chǎng)爆發(fā),ARM處理器作為整個(gè)智能手機(jī)的底層硬件平臺(tái)架構(gòu),充分享受了下游市場(chǎng)爆發(fā)帶來(lái)的紅利。ARM公司業(yè)績(jī)?cè)?008年到2013年出現(xiàn)了爆發(fā)性增長(zhǎng),而股價(jià)更是表現(xiàn)出“戴維斯雙擊”。
1.3 人工智能時(shí)代:底層計(jì)算平臺(tái)存在著大機(jī)會(huì)
在人工智能時(shí)代,人們對(duì)計(jì)算能力的需求有指數(shù)級(jí)的提高,計(jì)算能力的要求超過(guò)了摩爾定律。隨著互聯(lián)網(wǎng)用戶的快速增長(zhǎng),數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對(duì)計(jì)算的需求也在迅猛上漲。諸如深度學(xué)習(xí)在線預(yù)測(cè)、直播中的視頻轉(zhuǎn)碼、圖片壓縮解壓縮以及HTTPS加密等各類應(yīng)用對(duì)計(jì)算的需求已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)CPU處理器的能力所及。除此之外,未來(lái)在激光雷達(dá)、無(wú)人機(jī)、無(wú)人駕駛、智能機(jī)器人等終端設(shè)備方面對(duì)計(jì)算能力也會(huì)有極大的提升。
另一方面,摩爾定律正在失效,傳統(tǒng)X86架構(gòu)下計(jì)算能力的提升開始滯后于摩爾定律。近幾年半導(dǎo)體技術(shù)改進(jìn)達(dá)到了物理極限,電路越來(lái)越復(fù)雜,每一個(gè)設(shè)計(jì)的開發(fā)成本高達(dá)數(shù)百萬(wàn)美元,數(shù)十億美元才能形成新產(chǎn)品投產(chǎn)能力。2016年3月24日,英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式,未來(lái)研發(fā)周期將從兩年周期向三年期轉(zhuǎn)變。至此,摩爾定律對(duì)英特爾幾近失效。
因此,計(jì)算能力的需求供給出現(xiàn)了一個(gè)巨大的缺口。一方面處理器性能再無(wú)法按照摩爾定律進(jìn)行增長(zhǎng),另一方面數(shù)據(jù)增長(zhǎng)對(duì)計(jì)算性能要求超過(guò)了按“摩爾定律”增長(zhǎng)的速度。處理器本身無(wú)法滿足高性能計(jì)算(HPC:High Performance Compute)應(yīng)用軟件的性能需求。
巨大的缺口同時(shí)也是時(shí)代的機(jī)遇:傳統(tǒng)X86架構(gòu)芯片無(wú)法滿足需求,時(shí)代呼喚新一代的計(jì)算芯片平臺(tái)。誰(shuí)能成為下一代硬件芯片平臺(tái),就有望隨著海量計(jì)算需求的大爆發(fā),上演ARM在智能手機(jī)時(shí)代爆發(fā)的輝煌。
2. 人工智能芯片決勝的主戰(zhàn)場(chǎng)在推理環(huán)節(jié)
提起人工智能芯片,很多人認(rèn)為人工智能芯片是一條好的賽道,但是勝負(fù)已經(jīng)明了,英偉達(dá)就是最終的贏家。特別是隨著2016年以來(lái)人工智能的浪潮,英偉達(dá)股價(jià)從不到20美元一路上漲到160多美元,更是助長(zhǎng)了這種情緒的蔓延。
我們的觀點(diǎn)很簡(jiǎn)單:目前,英偉達(dá)的GPU在訓(xùn)練場(chǎng)景中占據(jù)著絕對(duì)領(lǐng)導(dǎo)地位。而人工智能整體仍然處于早期階段,未來(lái)人工智能應(yīng)用的主戰(zhàn)場(chǎng)是在推理環(huán)節(jié),遠(yuǎn)沒(méi)有爆發(fā)。未來(lái)勝負(fù)尚未可知,各家技術(shù)路線都有機(jī)會(huì)勝出。
從應(yīng)用場(chǎng)景來(lái)看,人工智能芯片主要應(yīng)用在訓(xùn)練(training)和推理(inference)兩個(gè)環(huán)節(jié)。訓(xùn)練環(huán)節(jié)的作用是指利用海量數(shù)據(jù)(603138),選擇合適的訓(xùn)練方法,訓(xùn)練出一個(gè)人工智能模型。訓(xùn)練環(huán)節(jié)最關(guān)心的指標(biāo)是速度快。國(guó)內(nèi)外的人工智能巨頭公司都建立了龐大的GPU集群,以最快速度處理海量數(shù)據(jù)訓(xùn)練、驗(yàn)證模型的有效性。
而在線推理環(huán)節(jié)也就是人工智能模型的實(shí)際應(yīng)用環(huán)節(jié),是指利用訓(xùn)練出來(lái)的模型來(lái)在線響應(yīng)用戶的需求。推理環(huán)節(jié)又分為兩個(gè)場(chǎng)景,一個(gè)是在云端數(shù)據(jù)中心響應(yīng)用戶需求,一個(gè)是在前端智能設(shè)備響應(yīng)用戶需求。
在云端數(shù)據(jù)中心,各家公有云服務(wù)廠商都紛紛部署了高性能云計(jì)算服務(wù)器,應(yīng)用于視頻編解碼、深度學(xué)習(xí)、科學(xué)計(jì)算等多種場(chǎng)景。隨著人工智能技術(shù)的發(fā)展,未來(lái)云端數(shù)據(jù)中心應(yīng)用場(chǎng)景還會(huì)有極大的豐富。
而在前端智能設(shè)備,受模型算法以及計(jì)算能力的限制,目前應(yīng)用還不多。但是基于實(shí)時(shí)性及隱私安全要求,很多應(yīng)用都會(huì)在前端部署,未來(lái)市場(chǎng)空間非常巨大。我們以無(wú)人駕駛和智能服務(wù)機(jī)器人為例說(shuō)明。
在無(wú)人駕駛中,無(wú)人駕駛汽車需要實(shí)時(shí)處理來(lái)自激光雷達(dá)、攝像頭等多路傳感器傳輸?shù)暮A繑?shù)據(jù)并作出實(shí)時(shí)反映。如果通過(guò)云端反饋處理,則必然會(huì)增加時(shí)延和不確定性,導(dǎo)致無(wú)人汽車安全性下降。因此,無(wú)人駕駛中必須將計(jì)算平臺(tái)部署在前端。
在智能家居中,未來(lái)包括智能服務(wù)機(jī)器人在內(nèi)的智能家居設(shè)備都需要具備實(shí)時(shí)環(huán)境感知能力及語(yǔ)音語(yǔ)義理解能力等,這些也都需要強(qiáng)大的計(jì)算平臺(tái)作為底層支撐。而基于私密性考慮,不可能把智能家居的數(shù)據(jù)都上傳云端處理。因此,智能家居的應(yīng)用也需要計(jì)算平臺(tái)部署在前端設(shè)備中。
與訓(xùn)練環(huán)節(jié)不同,推理環(huán)節(jié)更重視性能功耗比。云端數(shù)據(jù)中心對(duì)高并發(fā)更加重視,而前端智能設(shè)備則對(duì)低延時(shí)更加重視。
從市場(chǎng)潛力來(lái)看,未來(lái)市場(chǎng)規(guī)模最大的肯定是推理環(huán)節(jié)。人工智能的發(fā)展,首先需要訓(xùn)練出足夠好的算法模型。而當(dāng)人工智能真正落地應(yīng)用時(shí)候,則需要在大量的云端數(shù)據(jù)中心或者前端智能設(shè)備上部署應(yīng)用。
以人臉識(shí)別為例,我們需要在GPU集群中經(jīng)過(guò)多次訓(xùn)練才能得到一個(gè)足夠好的人臉識(shí)別算法模型,而當(dāng)把人臉識(shí)別應(yīng)用于實(shí)際應(yīng)用時(shí)候,我們需要將模型部署在成千上萬(wàn)臺(tái)服務(wù)器進(jìn)行實(shí)時(shí)人臉識(shí)別,甚至在上億臺(tái)攝像機(jī)中前臵部署部分算法進(jìn)行預(yù)處理。由此可見,推理環(huán)節(jié)才是未來(lái)最大的潛在市場(chǎng),也是人工智能芯片決勝的主戰(zhàn)場(chǎng)。在推理環(huán)節(jié)還遠(yuǎn)沒(méi)有爆發(fā)的時(shí)候。未來(lái)勝負(fù)尚未可知,各家技術(shù)路線都有機(jī)會(huì)勝出。
3.幾種芯片架構(gòu)的技術(shù)特點(diǎn):各有千秋
人工智能芯片,目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu),加速硬件計(jì)算能力,主要以3種類型的芯片為代表,即GPU、FPGA和ASIC,但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮諾依曼計(jì)算架構(gòu),采用人腦神經(jīng)元的結(jié)構(gòu)來(lái)提升計(jì)算能力,以IBMTrueNorth芯片為代表。由于人腦神經(jīng)元芯片距離產(chǎn)業(yè)化仍然較遠(yuǎn),我們著重討論在人工智能時(shí)代GPU,F(xiàn)PGA和ASIC的應(yīng)用和未來(lái)發(fā)展可能性。
按照處理器芯片的效率排序,從低到高依次是CPU、DSP、GPU、FPGA和ASIC。沿著CPU-》ASIC的方向,芯片中晶體管的效率越來(lái)越高。因?yàn)镕PGA&ASIC等芯片實(shí)現(xiàn)的算法直接用晶體管門電路實(shí)現(xiàn),比起指令系統(tǒng),算法直接建筑在物理結(jié)構(gòu)之上,沒(méi)有中間層次,因此晶體管的效率最高。CPU&GPU需要軟件支持,而FPGA&ASIC則是軟硬件一體的架構(gòu),軟件就是硬件。
而按照晶體管易用性排序是相反的。從ASIC到CPU,芯片的易用性越來(lái)越強(qiáng)。CPU&GPU的編程需要編譯系統(tǒng)的支持,編譯系統(tǒng)的作用是把高級(jí)軟件語(yǔ)言翻譯成機(jī)器可以識(shí)別的指令(也叫機(jī)器語(yǔ)言)。高級(jí)語(yǔ)言帶來(lái)了極大的便利性和易用性,因此用CPU&GPU實(shí)現(xiàn)同等功能的軟件開發(fā)周期要遠(yuǎn)低于FPGA&ASIC芯片。
3.1 CPU仍然是最好的通用處理器之一
CPU作為通用處理器,兼顧計(jì)算和控制,70%晶體管用來(lái)構(gòu)建Cache還有一部分控制單元,用來(lái)處理復(fù)雜邏輯和提高指令的執(zhí)行效率,如圖所示,所以導(dǎo)致計(jì)算通用性強(qiáng),可以處理計(jì)算復(fù)雜度高,但計(jì)算性能一般。
目前,英特爾等芯片制造商主要通過(guò)增加CPU核數(shù)來(lái)增加計(jì)算能力,但是因?yàn)槊總€(gè)物理核中只有30%的晶體管是計(jì)算單元。通過(guò)這種方式來(lái)增加計(jì)算能力并不劃算,還帶來(lái)芯片功耗和價(jià)格的增加。
此外,英特爾進(jìn)行CPU架構(gòu)調(diào)整的時(shí)間也在放緩。原來(lái)英特爾按照“Tick-Tock”二年一個(gè)周期進(jìn)行CPU架構(gòu)調(diào)整,從2016年開始放緩至三年,更新迭代周期較長(zhǎng)。
由此可見,CPU仍然最好的通用處理器之一,但是在高性能計(jì)算上,CPU越來(lái)越無(wú)法滿足計(jì)算能力提升的需求。
3.2 GPU具有最強(qiáng)大的并行計(jì)算能力
GPU主要擅長(zhǎng)做類似圖像處理的并行計(jì)算,所謂的“粗粒度并行(coarse-grainparallelism)”。圖形處理計(jì)算的特征表現(xiàn)為高密度的計(jì)算而計(jì)算需要的數(shù)據(jù)之間較少存在相關(guān)性,GPU提供大量的計(jì)算單元(多達(dá)幾千個(gè)計(jì)算單元)和大量的高速內(nèi)存,可以同時(shí)對(duì)很多像素進(jìn)行并行處理。
GPU的設(shè)計(jì)出發(fā)點(diǎn)就是用于計(jì)算強(qiáng)度高、多并行的計(jì)算。GPU把晶體管更多用于計(jì)算單元,而不像CPU用于數(shù)據(jù)Cache和流程控制器。GPU中邏輯控制單元不需要能夠快速處理復(fù)雜控制。并行計(jì)算時(shí),每個(gè)數(shù)據(jù)單元執(zhí)行相同程序,不需要繁瑣的流程控制而更需要高計(jì)算能力,因此也不需要大的cache容量。
GPU同CPU一樣也是指令執(zhí)行過(guò)程:取指令-》指令譯碼-》指令執(zhí)行,只有在指令執(zhí)行的時(shí)候,計(jì)算單元才發(fā)揮作用。GPU的邏輯控制單元相比CPU簡(jiǎn)單,要想做到指令流水處理,提高指令執(zhí)行效率,必然要求處理的算法本身復(fù)雜度低,處理的數(shù)據(jù)之間相互獨(dú)立,所以算法本身的串行處理會(huì)導(dǎo)致GPU浮點(diǎn)計(jì)算能力的顯著降低。
GPU具有最強(qiáng)大的并行計(jì)算處理能力。以GP100為例,其雙精度運(yùn)算能力是5.3Teraflops,單精度為10.6Teraflops(AMD雙芯RadeonProDuo是16TeraFLOPs)。而英偉達(dá)在開發(fā)者大會(huì)GTC2017上發(fā)布新一代GPU架構(gòu)Volta,首款核心為GV100據(jù)稱其在推理場(chǎng)景下,V100比上一代搭載GP100CPU的P100板卡,圖像處理能力提升了約10倍,延遲也下降了約30%。
3.3 FPGA:萬(wàn)能芯片
FPGA即現(xiàn)場(chǎng)可編程門陣列,它不采用指令和軟件,是軟硬件合一的器件。FPGA由于算法是定制的,沒(méi)有CPU和GPU的取指令和指令譯碼過(guò)程,數(shù)據(jù)流直接根據(jù)定制的算法進(jìn)行固定操作,計(jì)算單元在每個(gè)時(shí)鐘周期上都可以執(zhí)行,所以可以充分發(fā)揮浮點(diǎn)計(jì)算能力,計(jì)算效率高于CPU和GPU。
整個(gè)FPGA市場(chǎng)規(guī)模約50億美元。由于FPGA萬(wàn)能芯片的特點(diǎn),它被芯片廠商用作芯片原型設(shè)計(jì)和驗(yàn)證,還廣泛使用在通訊密集型和計(jì)算密集型市場(chǎng)中,使用行業(yè)包括通訊、軍工、汽車電子、消費(fèi)及醫(yī)療等行業(yè)。
FPGA的缺點(diǎn)在于進(jìn)行編程要使用硬件描述語(yǔ)言,而掌握硬件描述語(yǔ)言的人才太少,限制了其使用的拓展。
3.4 ASIC:高性能功耗比的專用芯片
ASIC是一種專用芯片,與傳統(tǒng)的通用芯片有一定的差異。是為了某種特定的需求而專門定制的芯片。ASIC芯片的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,所以ASIC與通用芯片相比,具有以下幾個(gè)方面的優(yōu)越性:體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低。但是缺點(diǎn)也很明顯:算法是固定的,一旦算法變化就可能無(wú)法使用。
與FPGA相比,ASIC上市速度慢,需要大量時(shí)間開發(fā),而且一次性成本(光刻掩模制作成本)遠(yuǎn)高于FPGA,但是性能高于FPGA且量產(chǎn)后平均成本低于FPGA。在同一時(shí)間點(diǎn)上用最好的工藝實(shí)現(xiàn)的ASIC的加速器的速度會(huì)比用同樣工藝FPGA做的加速器速度快5-10倍,而且一旦量產(chǎn)后ASIC的成本會(huì)遠(yuǎn)遠(yuǎn)低于FPGA方案。
4. FPGA未來(lái)大有可為
從技術(shù)上來(lái)看,GPU、FPGA和ASIC都各有千秋。從實(shí)際應(yīng)用來(lái)看,GPU擁有最完善的生態(tài)系統(tǒng)支撐,具有較大的先發(fā)優(yōu)勢(shì)。由于市場(chǎng)對(duì)此已經(jīng)充分預(yù)期,我們?cè)诖司筒辉儋樖觥?/p>
人工智能在推理環(huán)節(jié)應(yīng)用剛起步,云端要比前端設(shè)備發(fā)展速度更快。下面我們將重點(diǎn)講述一下云端數(shù)據(jù)中心的應(yīng)用。在數(shù)據(jù)中心,F(xiàn)PGA使用日益廣泛,而ASIC路線風(fēng)險(xiǎn)太高,目前僅有谷歌批量部署了TPU。
4.1 FPGA已在全球七大數(shù)據(jù)中心實(shí)際部署
FPGA最大的優(yōu)點(diǎn)是動(dòng)態(tài)可重配、性能功耗比高,非常適合在云端數(shù)據(jù)中心部署。
當(dāng)在數(shù)據(jù)中心部署之后,F(xiàn)PGA可以根據(jù)業(yè)務(wù)形態(tài)來(lái)配臵不同的邏輯實(shí)現(xiàn)不同的硬件加速功能。以騰訊云為例,當(dāng)前服務(wù)器上的FPGA板卡部署的是圖片壓縮邏輯,服務(wù)于業(yè)務(wù);而此時(shí)廣告實(shí)時(shí)預(yù)估需要擴(kuò)容獲得更多的FPGA計(jì)算資源,通過(guò)簡(jiǎn)單的FPGA重配流程,F(xiàn)PGA板卡即可以變身成“新”硬件來(lái)服務(wù)廣告實(shí)時(shí)預(yù)估,非常適合批量部署。
FPGA的性能功耗比顯著高于GPU。以普遍使用在服務(wù)器中的FPGA型號(hào)A10GX660為例,性能/功耗能達(dá)到45GFLOPS/W,而對(duì)應(yīng)的GPU型號(hào)M4,性能/功耗能達(dá)到29GFLOPS/W。依次測(cè)算FPGA性能功耗比要高50%。
近兩年,全球七大超級(jí)云計(jì)算數(shù)據(jù)中心包括IBM、Facebook、微軟、AWS以及BAT都采用了FPGA服務(wù)器。在這方面,中國(guó)和美國(guó)處以同一起跑線。
4.2 行業(yè)發(fā)展趨勢(shì):FPGA大有可為
比使用現(xiàn)狀更重要的是未來(lái)的技術(shù)和產(chǎn)業(yè)發(fā)展趨勢(shì)。從行業(yè)發(fā)展趨勢(shì)來(lái)看,我們認(rèn)為FPGA潛力被低估了,未來(lái)大有可為。具體如下:
4.2.1 算法正在快速迭代中
人工智能算法正處于快速迭代中。雖然ASIC芯片可以獲得最優(yōu)的性能,即面積利用率高、速度快、功耗低;但是AISC開發(fā)風(fēng)險(xiǎn)極大,需要有足夠大的市場(chǎng)來(lái)保證成本價(jià)格,而且從研發(fā)到市場(chǎng)的時(shí)間周期很長(zhǎng),不適合例如深度學(xué)習(xí)CNN等算法正在快速迭代的領(lǐng)域。因此,推出ASIC芯片風(fēng)險(xiǎn)非常高,且成本太高,只有谷歌等極少數(shù)公司敢于嘗試。
更重要的是,當(dāng)前人工智能算法模型的發(fā)展趨勢(shì)是從訓(xùn)練環(huán)節(jié)向推理環(huán)節(jié)走,這個(gè)過(guò)程非常有利于FPGA未來(lái)的發(fā)展。人工智能算法模型從訓(xùn)練環(huán)節(jié)走向推理環(huán)節(jié)并不是簡(jiǎn)單搬運(yùn)過(guò)去。訓(xùn)練出來(lái)的算法模型往往規(guī)模太大,復(fù)雜度太高,無(wú)法直接部署實(shí)際應(yīng)用。現(xiàn)在,人工智能算法模型研究的重要趨勢(shì)就是將訓(xùn)練后的模型再進(jìn)行壓縮,在基本不損失模型精度的情況下,將模型壓縮到原來(lái)的幾十分之一,再應(yīng)用到推理環(huán)節(jié)。
以深鑒科技的研究成果為例,公司發(fā)布的論文《ESE :Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》指出,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)被廣泛用于語(yǔ)音識(shí)別領(lǐng)域。為實(shí)現(xiàn)更高的預(yù)測(cè)精度,機(jī)器學(xué)習(xí)研究者們構(gòu)建了越來(lái)越大的模型。然而這樣的模型十分耗費(fèi)計(jì)算和存儲(chǔ)資源。部署此類笨重的模型會(huì)給數(shù)據(jù)中心帶來(lái)很高的功耗,從而帶來(lái)很高的總擁有成本(TCO)。
公司提出了一種可以在幾乎沒(méi)有預(yù)測(cè)精度損失的情況下將LSTM模型的尺寸壓縮20倍(10倍來(lái)自剪枝和2倍來(lái)自量化)的負(fù)載平衡感知剪枝(load-balance-awarepruning)方法。
最后,它們?cè)O(shè)計(jì)了一種可以直接在這種壓縮模型上工作的硬件框架——EfficientSpeechRecognitionEngine(ESE)。該框架使用了運(yùn)行頻率為200MHz的XilinxXCKU060FPGA,具有以282GOPS的速度直接運(yùn)行壓縮LSTM網(wǎng)絡(luò)的性能,相當(dāng)于在未壓縮LSTM網(wǎng)絡(luò)上2.52TOPS的速度;此外,該框架執(zhí)行一個(gè)用于語(yǔ)音識(shí)別任務(wù)的全LSTM僅需41W功耗。在基于LSTM的語(yǔ)音基準(zhǔn)測(cè)試中,ESE的速度為英特爾Corei75930kCPU的43倍,英偉達(dá)PascalTitanXGPU的3倍。它的能量效率分別為以上兩種處理器的40倍和11.5倍。
這篇論文驗(yàn)證了我們上述觀點(diǎn):
人工智能算法正處于快速迭代中。公司提出的新算法,可以在幾乎沒(méi)有預(yù)測(cè)精度損失的情況下將LSTM模型的尺寸壓縮20倍(10倍來(lái)自剪枝和2倍來(lái)自量化)。在算法能夠帶來(lái)數(shù)量級(jí)的性能提升下,想要將算法固化在ASIC中來(lái)獲得效率提升的想法是不切實(shí)際的。
采用了搭建在FPGA上的硬件框架ESE,獲得了高一個(gè)數(shù)量級(jí)的能量效率提升。ESE的速度為英特爾Corei75930kCPU的43倍,英偉達(dá)PascalTitanXGPU的3倍。它的能量效率分別為以上兩種處理器的40倍和11.5倍。采用FPGA搭建硬件框架充分發(fā)揮了FPGA萬(wàn)能芯片的特性,性能遠(yuǎn)超GPU等。
4.2.2 芯片NRE費(fèi)用在指數(shù)級(jí)上升
集成電路行業(yè)的特點(diǎn)是贏家通吃,像CPU處理器,只有英特爾一家獨(dú)大,門檻極高。而隨著芯片制程工藝的提升,芯片NRE費(fèi)用呈現(xiàn)指數(shù)級(jí)上升。這樣導(dǎo)致的結(jié)果是需要收回成本的芯片銷售規(guī)模門檻越來(lái)越高。市場(chǎng)上能夠滿足如此大市場(chǎng)規(guī)模要求的單品是非常少的。
而FPGA則可以受益于指數(shù)級(jí)成本上升帶來(lái)的規(guī)模效應(yīng)。因?yàn)镕PGA的NRE成本可以攤到上千個(gè)小項(xiàng)目上,從而讓每個(gè)項(xiàng)目只分擔(dān)幾十萬(wàn)美元的NRE。比如開發(fā)一款14nm的FPGA,假設(shè)需要一億美元,其性能可以達(dá)到45nmASIC的水平。然后有1000個(gè)有45nm工藝要求的項(xiàng)目可以采用該FPGA來(lái)解決問(wèn)題,他們支付不了45nm工藝數(shù)千萬(wàn)美元的NRE,但是通過(guò)分?jǐn)偟姆绞矫考抑Ц稁资f(wàn)美元可以使用14nm的FPGA產(chǎn)品。
因此,隨著芯片NRE費(fèi)用指數(shù)級(jí)上升,越來(lái)越多的ASIC芯片將由于達(dá)不到規(guī)模經(jīng)濟(jì)而被迫放棄,從而轉(zhuǎn)向直接基于FPGA開發(fā)設(shè)計(jì)。而FPGA可以受益于指數(shù)級(jí)成本上升帶來(lái)的規(guī)模效應(yīng)。
5.投資建議
5.1 FPGA行業(yè)呈現(xiàn)雙寡頭格局
FPGA動(dòng)態(tài)可重配的,性能功耗比高,非常適合在云端數(shù)據(jù)中心部署。目前,F(xiàn)PGA云服務(wù)器也已經(jīng)在全球七大超級(jí)數(shù)據(jù)中心得到了部署,未來(lái)出貨量增長(zhǎng)值得密切關(guān)注。
從行業(yè)發(fā)展趨勢(shì)來(lái)看,無(wú)論是快速迭代的算法,還是指數(shù)級(jí)增長(zhǎng)的NRE費(fèi)用,都有利于FPGA的發(fā)展。FPGA未來(lái)的發(fā)展大有可為。
FPGA行業(yè)呈現(xiàn)典型的雙寡頭競(jìng)爭(zhēng)格局,主要有4家生產(chǎn)廠家都在美國(guó)。根據(jù)Gartner的數(shù)據(jù),F(xiàn)PGA器件的廠家主要有Xilinx(賽靈思)、Altera(阿爾特拉)、Lattice(萊迪思)和Microsemi(美高森美),這四家公司都在美國(guó),總共占據(jù)了98%以上的市場(chǎng)份額。其中全球份額Xilinx占49%,另一家Altera占39%,剩余的占比12%。
近兩年,F(xiàn)PGA行業(yè)展開了多項(xiàng)并購(gòu),但是對(duì)競(jìng)爭(zhēng)格局影響不大。2015年6月,英特爾宣布以167億美元收購(gòu)Altera(阿爾特拉)。2016年上半年,紫光在公開市場(chǎng)收購(gòu)Lattice(萊迪思)股權(quán)6.07%,11月萊迪思被Canyon Bridge以13億美元收購(gòu),但此案一直沒(méi)有獲得美國(guó)監(jiān)管單位同意。
目前國(guó)內(nèi)能夠生產(chǎn)FPGA的上市公司僅有紫光國(guó)芯(002049),而非上市公司有智多晶和AgateLogic等。
5.2 投資標(biāo)的
5.2.1 賽靈思(XLNX.O)
Xilinx(賽靈思)是全球領(lǐng)先的可編程邏輯完整解決方案的供應(yīng)商。世界上第一個(gè)FPGA就是由賽靈思設(shè)計(jì)的。賽靈思擁有FPGA市場(chǎng)超過(guò)50%的市場(chǎng)份額,下游客戶超過(guò)2萬(wàn)家,產(chǎn)品被廣泛使用在芯片原型驗(yàn)證、通訊、工業(yè)、宇航軍工、汽車電子等行業(yè)。
賽靈思推出了面向數(shù)據(jù)中心的FPGA解決方案,已經(jīng)被亞馬遜、騰訊、百度等多家云服務(wù)商所采納。FPGA解決方案的靈活性、高并發(fā)和高性能功耗比具有很強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì),能夠帶來(lái)更低的全生命周期成本。
除了在數(shù)據(jù)中心端的產(chǎn)品之外,賽靈思在前端設(shè)備方面也有非常多的積累。以ADAS為例,公司是第二大的半導(dǎo)體供應(yīng)商,正在與26家制造商正在密切合作開發(fā)96款產(chǎn)品。
為了彌補(bǔ)FPGA采用硬件描述語(yǔ)言、使用難度大的缺點(diǎn),賽靈思積極打造自身的生態(tài)圈,推出reVision堆棧,幫助合作伙伴更方便地使用公司產(chǎn)品。
5.2.2 紫光國(guó)芯
公司是國(guó)內(nèi)稀缺的FPGA標(biāo)的。公司旗下的國(guó)微電子是國(guó)內(nèi)特種IC的設(shè)計(jì)龍頭,是國(guó)內(nèi)上市公司中唯一能夠量產(chǎn)FPGA的廠商,稀缺性明顯。公司FPGA、ASIC和特種微處理器常年為軍方穩(wěn)定供貨。
公司的商用可編程系統(tǒng)芯片的開發(fā)進(jìn)展順利,在2016年9月正式推出國(guó)內(nèi)首款內(nèi)嵌高速接口(serdes)的千萬(wàn)門級(jí)高性能FPGA芯片——PGT180H。該芯片首次集成了傳輸速率達(dá)到6.5Gbps的高速serdes模塊,最大規(guī)模可編程達(dá)到1800萬(wàn)門,支持最高速率1066MbpsDDR3接口。無(wú)論從規(guī)模還是性能角度,PGT180H都代表了國(guó)內(nèi)自主知識(shí)產(chǎn)權(quán)FPGA芯片的最高水平。
我們預(yù)計(jì)公司2017年-2019年?duì)I業(yè)收入分別為16.億元、19億元和20億元,對(duì)應(yīng)每股收益分別為0.71元、0.86元和0.99元,對(duì)應(yīng)PE分別為35、29和25倍。按照公司2017年40倍市盈率,給予6個(gè)月目標(biāo)價(jià)28.4元,維持公司“推薦”評(píng)級(jí)。
6. 風(fēng)險(xiǎn)提示
1、人工智能應(yīng)用不及預(yù)期的風(fēng)險(xiǎn);
2、技術(shù)路線競(jìng)爭(zhēng)激烈的風(fēng)險(xiǎn)。
評(píng)論
查看更多