2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開,7 月 1 日,隨著議程進(jìn)入到第三天,本次 CCF-GAIR 大會(huì)也在下午迎來(lái)了堪稱壓軸的 AI 芯片專場(chǎng)。擔(dān)任 AI 芯片專場(chǎng)主席的,是中國(guó)電子學(xué)會(huì)電子設(shè)計(jì)自動(dòng)化專家委員會(huì)主任委員、清華大學(xué)微電子研究所所長(zhǎng)魏少軍教授;在擔(dān)任主席之外,魏教授還為 AI 芯片專場(chǎng)帶來(lái)了一場(chǎng)干貨滿滿的大會(huì)報(bào)告《從 IA 到 AI,我們還要走多遠(yuǎn)?》
在報(bào)告中,魏教授引用人工智能專家 Michael I. Jordan 的觀點(diǎn)認(rèn)為,我們今天所做的還不能算是真正的 AI(Artificial Intelligence),只是利用技術(shù)來(lái)增強(qiáng)某一方面的智能而已,也就是所謂的增強(qiáng)智能(Intelligence Augmentation,簡(jiǎn)稱 IA)。究其原因,是因?yàn)楫?dāng)前的人工智能算法遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到人們的要求,具體來(lái)說(shuō),現(xiàn)有的算法過(guò)于單一,無(wú)法實(shí)現(xiàn)類似于人腦的高度復(fù)雜又高度靈活的互聯(lián)結(jié)構(gòu)系統(tǒng)。
魏教授指出,我們目前要實(shí)現(xiàn)人工智能,別無(wú)選擇,只能靠芯片;但是現(xiàn)有 CPU、GPU、FPGA 等芯片的基本架構(gòu)早在這次人工智能突破之前就已經(jīng)存在了,并不是為人工智能而專門設(shè)計(jì)的,因此不能完美地承擔(dān)實(shí)現(xiàn)人工智能的任務(wù)。人工智能對(duì)芯片的要求,除了足夠的算力和極高的能效比,還需要一個(gè)高能效、通用的計(jì)算引擎。由此,魏教授認(rèn)為 AI 芯片至少應(yīng)有以下幾個(gè)特質(zhì):
第一,它的可編程性,要適應(yīng)算法的演進(jìn)和應(yīng)對(duì)多樣性;因?yàn)樗惴ú环€(wěn)定,它在不斷變化;
第二,架構(gòu)動(dòng)態(tài)可變性,要適應(yīng)不同算法;
第三,高效的架構(gòu)變換能力,因?yàn)椴煌倪\(yùn)算要求變換不同的架構(gòu)。
隨后,魏教授從硬件可編程和軟件可編程的角度,將芯片的性質(zhì)分為四個(gè)種類,并認(rèn)為目前少有人關(guān)注的軟件定義芯片(SDC)在 AI 領(lǐng)域最有潛力;它一方面具備 CPU 的靈活性,另一方面是專用集成電路的高能量效率和高集成度。它的軟件和硬件均可編程,混合顆粒度,最重要的是芯片功能隨軟件變化而變化;在使用中也不需要芯片設(shè)計(jì)知識(shí)。
魏教授表示,芯片要實(shí)現(xiàn)智能化,不能光有硬件,一定要有要求很高的軟件——自主學(xué)習(xí)的能力、形成知識(shí)和經(jīng)驗(yàn)的能力、持續(xù)改進(jìn)和優(yōu)化的能力、再生和組織能力、思維邏輯推理能力、作出正確判斷和決策能力,這是軟件才能完成的,而非硬件。
基于這個(gè)理念,魏教授提到了他所認(rèn)為的真正軟件定義芯片。也就是:
一個(gè)真正理想的計(jì)算應(yīng)該是軟件和硬件的架構(gòu)一模一樣,軟件是什么樣的拓?fù)浣Y(jié)構(gòu),硬件就應(yīng)該是怎樣的拓?fù)浣Y(jié)構(gòu);軟件需要什么樣的運(yùn)算,硬件需要存在這樣的運(yùn)算資源??上У氖?,軟件可以很大,硬件不能大;我們只好把軟件分塊,跟硬件大小一樣。比如把它分為 6 塊,根據(jù)數(shù)據(jù)依賴關(guān)系把第二塊、第三塊、第四塊放進(jìn)去……一直到第六塊。這要求我們硬件必須隨時(shí)改變其功能,硬件功能和架構(gòu)能夠動(dòng)態(tài)地按照軟件實(shí)時(shí)進(jìn)行改變,這是我們所說(shuō)的軟件定義芯片。
魏教授表示,上述概念雖然聽起來(lái)簡(jiǎn)單,但實(shí)現(xiàn)起來(lái)是一個(gè)非常艱難的過(guò)程,而他自己的實(shí)驗(yàn)室也是經(jīng)歷了 12 年的努力終于得到實(shí)現(xiàn)(該研究成果由清華大學(xué) Thinker 團(tuán)隊(duì)已經(jīng)在相關(guān)國(guó)際會(huì)議上發(fā)布,可查看雷鋒網(wǎng)相關(guān)報(bào)道)。通過(guò)這一全新架構(gòu),可以用來(lái)實(shí)現(xiàn)可重構(gòu)神經(jīng)網(wǎng)絡(luò);也就是說(shuō),通過(guò) AI 應(yīng)用定義我們所選用的深度神經(jīng)網(wǎng)絡(luò),改變芯片架構(gòu)和功能——魏教授表示,如果能做到,那么這種芯片將成為真正的通用人工智能芯片。
最后,針對(duì)近段時(shí)間以來(lái)中美芯片領(lǐng)域的”嚇尿體“和”被嚇尿“之類的聲音,魏教授認(rèn)為我們應(yīng)當(dāng)在承認(rèn)與美國(guó)半導(dǎo)體行業(yè)差距的同時(shí),也要看到我國(guó)在軟件定義芯片領(lǐng)域的領(lǐng)先地位;而 AI 芯片的創(chuàng)新也只有通過(guò)真正的架構(gòu)創(chuàng)新才能到達(dá)頂峰。
在大會(huì)報(bào)告結(jié)束之后,魏教授接受了雷鋒網(wǎng)的獨(dú)家專訪。
此前,魏教授曾經(jīng)提出過(guò)這樣一個(gè)觀點(diǎn):AI 芯片的發(fā)展很可能會(huì)在未來(lái) 2-3 年遭遇一個(gè)挫折期;今天的部分、甚至大部分創(chuàng)業(yè)者將成為這場(chǎng)技術(shù)變革中的“先烈”。對(duì)于這個(gè)觀點(diǎn)的得出,魏教授表示有兩個(gè)原因:
一是因?yàn)楫a(chǎn)業(yè)發(fā)展的特定規(guī)律,比如說(shuō) Gartner 的發(fā)布 Hype Cycle(技術(shù)成熟度曲線),目前的 AI 芯片正處于第一個(gè)峰值的頂點(diǎn)處,未來(lái)兩三年將會(huì)出現(xiàn)下降,很多事情的發(fā)展都是在經(jīng)歷了熱度之后進(jìn)入到下降期,最后才會(huì)進(jìn)入到應(yīng)用穩(wěn)定期。
第二,雖然 AI 很熱,但是并沒(méi)有真正落地。實(shí)際上,并不是所有的技術(shù)都一定需要 AI,很多情況下 AI 起到的是增強(qiáng)的作用;當(dāng)前人們擁抱 AI,但未來(lái)可能會(huì)失望。所以說(shuō),AI 要需要的,是真正的 Killer Application(殺手級(jí)應(yīng)用),每天都離不開的。
至于這里所說(shuō)的 AI 的殺手級(jí)應(yīng)用,魏教授也給了一些案例,比如說(shuō)自動(dòng)駕駛,遠(yuǎn)程醫(yī)療等。另外,針對(duì) AI 芯片在去年下半年以來(lái)的火熱狀況,魏教授認(rèn)為這是資本助推的結(jié)果,一旦錢燒完,就很有可能出現(xiàn)問(wèn)題;而且在資本的逐利本性下,也是難以為繼的。
而針對(duì)魏教授在報(bào)告中提到的 Thinker 團(tuán)隊(duì)的相關(guān)成果,魏教授表示,目前團(tuán)隊(duì)正處于融資階段,估值也很高;而且一旦進(jìn)入到產(chǎn)業(yè)界,它所能獲得的性能、能量效率、成本一定遠(yuǎn)遠(yuǎn)好于高校的結(jié)果。
魏教授強(qiáng)調(diào),Thinker 的通用性雖然很強(qiáng),但它并非是為了取代 CPU、GPU、FPGA 而來(lái),未來(lái)這些不同類型的芯片依然會(huì)是長(zhǎng)期共存的局面。就目前的情況來(lái)看,Thinker 在產(chǎn)業(yè)方向的具體應(yīng)用場(chǎng)景要取決于工業(yè)界的具體狀況,不過(guò)魏教授認(rèn)為 Thinker 更傾向于端側(cè)應(yīng)用,因?yàn)橹挥卸藗?cè)的突破才是 AI 芯片的真正突破。
談到整個(gè) AI 芯片行業(yè)未來(lái)的發(fā)展,魏教授認(rèn)為,正如 Intel 的 CPU、英偉達(dá)的 GPU 在各自領(lǐng)域占據(jù)統(tǒng)治地位一樣,在 AI 芯片領(lǐng)域同樣會(huì)在未來(lái)出現(xiàn)一個(gè)稱霸世界的企業(yè)——這個(gè)企業(yè)有希望出現(xiàn)在中國(guó),而 Thinker 獨(dú)樹一幟,也擁有別人所不具備的優(yōu)點(diǎn),因此未必就沒(méi)有機(jī)會(huì)。
最后,在中興事件引起的輿論塵埃尚未完全落定的大背景下,作為中國(guó)半導(dǎo)體行業(yè)的領(lǐng)軍人物,魏教授也通過(guò)雷鋒網(wǎng)給出了一個(gè)來(lái)自中國(guó)半導(dǎo)體行業(yè)的聲音:
首先,中興事件還是一個(gè)獨(dú)立事件。它反映了中國(guó)企業(yè)在走向國(guó)際市場(chǎng)當(dāng)中要必然經(jīng)歷一個(gè)”必修課“。即使這件事不發(fā)生在中興身上,也會(huì)在未來(lái)某些時(shí)候發(fā)生在其他企業(yè)身上,總之是早晚會(huì)發(fā)生的,它也讓我們的企業(yè)意識(shí)到走向國(guó)際市場(chǎng)的過(guò)程中要遵守的規(guī)則。當(dāng)然,中興這次的代價(jià)的確是大了點(diǎn)。
從外界來(lái)看,有些社會(huì)輿論一方面把中興罵得狗血臨頭,另一方面又認(rèn)為自己一無(wú)是處,對(duì)此我是非常不贊成的。這次中興事件之后,有些人妄自菲薄地說(shuō)自己什么都不行,也有很多”你看過(guò)這個(gè)才知道中國(guó)的芯片有多爛“這樣的聳人聽聞的話題——這些人也陷入到另外一個(gè)極端。
那么,中國(guó)的芯片到底怎么樣呢?
我們認(rèn)為,跟別人比有差距,但也沒(méi)有差到那種程度。其實(shí)別人有的我們都有,只是比別人差一點(diǎn),比如說(shuō)性能低一點(diǎn)、可靠性差一點(diǎn),還在慢慢的發(fā)展過(guò)程中,存在一些問(wèn)題。再過(guò)五年八年十年的時(shí)候,很有可能中國(guó)的芯片就跟國(guó)際水平差不多了。
所以,我們第一不要自己吹牛,第二也不要妄自菲薄;踏踏實(shí)實(shí)發(fā)展,同時(shí)也要有信心。美國(guó)之所以那么擔(dān)心,本質(zhì)上還是因?yàn)榧蓱勚袊?guó)在相關(guān)方面的發(fā)展,否則根本不會(huì)予以理會(huì)。中國(guó)人要有自己的定力,中國(guó)的半導(dǎo)體產(chǎn)業(yè)既不像有人說(shuō)的那么好,也不像有人說(shuō)的那么差——它還處于發(fā)展過(guò)程中,我還是充滿信心的。
以下是魏少軍教授在 CCF-GAIR 2018 上的大會(huì)報(bào)告內(nèi)容,雷鋒網(wǎng)對(duì)其進(jìn)行了不改變?cè)獾木庉嬚怼?/p>
大家下午好!很開心有機(jī)會(huì)在此跟大家做關(guān)于 AI 芯片的溝通和交流。純屬個(gè)人想法,不代表任何人,只代表我自己。
從 IA 到 AI,我們還要走多遠(yuǎn)?大家知道 AI,恐怕沒(méi)多少人知道 IA,我們逐步展開談?wù)?,顯然 AI 和 IA 是有關(guān)系的。大概講幾個(gè)內(nèi)容:
一是人工智能技術(shù)與人工智能芯片面臨的挑戰(zhàn)。
二是架構(gòu)創(chuàng)新是人工智能芯片獲得突破的必由之路,目前有很多人做芯片,如何做芯片的架構(gòu),探討比較少,甚至嚴(yán)重不夠。
三是結(jié)束語(yǔ)。
人工智能對(duì)人類社會(huì)的影響非常深遠(yuǎn),不管我們是否承認(rèn),這件事都發(fā)生了。
全球知名咨詢企業(yè)麥肯錫通過(guò)對(duì) 300 多家 9 個(gè)垂直領(lǐng)域的企業(yè)進(jìn)行案例分析,覆蓋金融、消費(fèi)、電信、健康、能源和材料、媒體、公共和社會(huì)服務(wù)、先進(jìn)產(chǎn)業(yè)和制藥等,得出的重要結(jié)論是:人工智能將在幾乎所有垂直領(lǐng)域產(chǎn)生深遠(yuǎn)影響,并不只是針對(duì)某一個(gè)領(lǐng)域。
這個(gè)結(jié)論讓我們做芯片的人非常激動(dòng),因?yàn)槿斯ぶ悄軒?lái)的變化和之前互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等顛覆性技術(shù)創(chuàng)新發(fā)生的時(shí)候有很大的不同點(diǎn)——硬件將占據(jù)超過(guò) 50%。以前,在互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的主導(dǎo)下,許多學(xué)生選擇就業(yè)首先選金融和互聯(lián)網(wǎng);但是在 AI 領(lǐng)域,超過(guò) 50% 的科技發(fā)展將由硬件主導(dǎo)。
尤其是未來(lái) 10 年,人工智能和深度學(xué)習(xí)將成為提升硅片需求的主要因素;2025 年,人工智能將推動(dòng)半導(dǎo)體產(chǎn)業(yè)收入超過(guò) 600 億美元,接近全球半導(dǎo)體銷售的 20%。
我們的半導(dǎo)體 AI 芯片是否做得很好?并不是。加州大學(xué)伯克利分校的教授 Michael I. Jordan 20 天前在美國(guó)做過(guò)一場(chǎng)演講,我當(dāng)時(shí)在場(chǎng),他說(shuō)“與其說(shuō)我們今天做的是人工智能,還不如說(shuō)我們做的是增強(qiáng)智能”。這句話的意思是說(shuō),我們今天所做的還不能算是真正的 AI(Artificial Intelligence),只是利用技術(shù)來(lái)增強(qiáng)某一方面的智能而已,也就是所謂的增強(qiáng)智能(Intelligence Augmentation,簡(jiǎn)稱 IA)——之所以說(shuō) IA,是因?yàn)榛救斯ぶ悄芩惴ㄟh(yuǎn)未達(dá)到我們的要求。
這里有兩個(gè)現(xiàn)實(shí)問(wèn)題:
第一,AI 算法本身在不斷的演進(jìn),新算法層出不窮。
第二,還沒(méi)一種算法可以統(tǒng)一面向所有的應(yīng)用。每種應(yīng)用對(duì)應(yīng)一種算法,或者每種算法對(duì)應(yīng)一種應(yīng)用。實(shí)際上我們的人腦能夠做很多事情,但現(xiàn)在人工智能的算法依然是一對(duì)一的。
我們說(shuō)一個(gè)基本的感知過(guò)程:感知-傳輸-處理-傳輸-執(zhí)行,這是一個(gè)基本的邏輯關(guān)系。當(dāng)然這其中包括多元感知,就像人有眼睛、鼻子、嘴、皮膚;執(zhí)行時(shí)有多種執(zhí)行;傳輸也是多樣化的,有神經(jīng)傳導(dǎo)、皮膚傳導(dǎo)、眼睛傳導(dǎo)、聲音傳導(dǎo)等各種各樣的傳導(dǎo),只是中間不知道如何比喻。
實(shí)際上,計(jì)算、分析、經(jīng)驗(yàn)知識(shí)和判斷等,到今天為止只是用計(jì)算機(jī)的概念代替,也就是用軟件 + 處理 + 存儲(chǔ)的方式來(lái)進(jìn)行。
我們想要得出的其實(shí)是這樣一個(gè)復(fù)雜的、智能的系統(tǒng):它應(yīng)該是多輸出、多輸入的系統(tǒng),應(yīng)該是高度復(fù)雜又高度靈活的互聯(lián)結(jié)構(gòu),具有多任務(wù)且高度并行運(yùn)算系統(tǒng)、多處理器單元系統(tǒng)、并行分布式存儲(chǔ)、并行分布式軟件、分布式處理和集中控制架構(gòu)等。
實(shí)際上,在座所從事的人工智能芯片,絕大多數(shù)能夠完成的是一種功能,可能兩種,最多三種;要想做到像人似的處理 N 種,還差得很遠(yuǎn)。而且,人在做決定時(shí)不是單個(gè)決定,而是同時(shí)做多個(gè)決定,或者叫多個(gè)決策同時(shí)做,這是今天人工智能遠(yuǎn)未達(dá)到的;我們并不知道但是人腦如何工作,我們可以用計(jì)算的方式實(shí)現(xiàn)記憶、行動(dòng)、特征提取、決策等過(guò)程。
我們現(xiàn)在只能依據(jù)計(jì)算,原因在于機(jī)器和人腦之間的差別實(shí)在太大。
做一個(gè)比較。人的大腦有 140 億個(gè)神經(jīng)元,傳輸速度 120 米每秒,工作頻率很低,為 200 赫茲;人腦皮層比較大,可以完成每秒鐘 10 的 16 次方運(yùn)算,把大腦皮層攤開是四分之一平方米,重量是 1.2-1.6 公斤,功耗只有 20 瓦。
而機(jī)器不行,雖然它在某些事情上可能超越人類,但代價(jià)非常大。比如超級(jí)計(jì)算機(jī)可以用多個(gè)芯片實(shí)現(xiàn) 10 的 30 次方每秒鐘的運(yùn)算,非常了不起;但它用電傳輸,每秒鐘 30 萬(wàn)公里,工作頻率每小時(shí) 42 億次,耗電量是 24 兆瓦。所以說(shuō),機(jī)器和人之間的差別很大,機(jī)器趕上人還要很遠(yuǎn)。
我們目前要實(shí)現(xiàn)人工智能,別無(wú)選擇,只能靠芯片。芯片有很多不同的,目前我們已經(jīng)有 FPGA、GPU、CPU 等,我們還可以做所謂的類腦計(jì)算,甚至可以做內(nèi)存內(nèi)計(jì)算等。然而,這些都是已經(jīng)存在的芯片,它們的基本架構(gòu)早在這次人工智能突破之前已經(jīng)存在了,并不是為人工智能而專門設(shè)計(jì)的,因此不能完美地承擔(dān)實(shí)現(xiàn)人工智能的任務(wù);即便能完成,它是不是最好的,這些問(wèn)題都值得我們思考。
但是我們知道,計(jì)算是根本點(diǎn),我們需要有一個(gè)很好的計(jì)算引擎,這是因?yàn)槲覀兛吹降娜斯ぶ悄芨鞣N網(wǎng)絡(luò)所需要的計(jì)算量是巨大的。比如說(shuō),2014 年 VGG19 的計(jì)算能力要達(dá)到 196 億次每秒,同時(shí)處理大概 1.38 億個(gè)參數(shù),沒(méi)有足夠的算力是做不到的;其次,當(dāng)我們從云端所謂的訓(xùn)練向終端推理推進(jìn)時(shí),我們要求它有極高的效率比,否則終端設(shè)備(比如說(shuō)智能手機(jī))很快沒(méi)電無(wú)法運(yùn)作。
所以,我們說(shuō)需要一個(gè)所謂高能效、通用的計(jì)算引擎,這是必備的條件。在此條件下,AI 芯片需要有基本特質(zhì),我列出如下(可能還不止):
第一,它的可編程性,要適應(yīng)算法的演進(jìn)和應(yīng)對(duì)多樣性;因?yàn)樗惴ú环€(wěn)定,它在不斷變化;
第二,架構(gòu)動(dòng)態(tài)可變性,要適應(yīng)不同算法;
第三,高效的架構(gòu)變換能力,因?yàn)椴煌倪\(yùn)算要求變換不同的架構(gòu)。我可以斷言一句,目前凡是使用指令結(jié)構(gòu)的,都永遠(yuǎn)無(wú)法達(dá)到我們的要求。我們期待高效率的架構(gòu),比如 1W 每秒鐘要 10 萬(wàn)億次運(yùn)算量。
但是在某些終端應(yīng)用上來(lái)說(shuō),你的功耗要小于 1mW,在一個(gè)電池用一年不換是基本要求。同時(shí),成本要低,才能夠進(jìn)入家電和消費(fèi)類電子;體積要小,才能裝載在移動(dòng)設(shè)備上;同時(shí)還要開發(fā)簡(jiǎn)便,讓所有人不必知道芯片如何設(shè)計(jì)。
就這些條件來(lái)看,CPU + 軟件、CPU + GPU、CPU + ASIC 都不是理想架構(gòu)。
那么,什么是架構(gòu)?人工智能芯片的架構(gòu)應(yīng)該是怎樣的?在談人工智能芯片架構(gòu)之前,我想跟大家回顧芯片發(fā)展歷程中的相關(guān)內(nèi)容。
首先,我們按照硬件可編程和軟件可編程分為四個(gè)象限。
第二個(gè)象限是硬件處理器,硬件不能動(dòng),軟件可變化,比如說(shuō) CPU、DSP 等。它們是粗顆粒度的,通常工作在 8 到 64 位,芯片運(yùn)行時(shí)可以軟件編程,只需要軟件工程師編程就可以了,能量效率和計(jì)算效率都不高。
第三象限是軟件和硬件都不可編程,ASIC、SoC 等。它們的特點(diǎn)是多品種、小批量,一旦完成制造就不能改變,也通常不需要軟件(有的需要軟件,但不是主要的);要想使用,需要對(duì)芯片有非常清晰的了解。能量效率和計(jì)算效率很高,這是其優(yōu)點(diǎn)。
第四象限是可編程邏輯,如 FPGA、EPLD。硬件可編程,但其實(shí)是靜態(tài)編程;細(xì)顆粒度,可以定義到每一個(gè) Bit,芯片運(yùn)行不需要軟件(有人說(shuō) FPGA 需要軟件,其實(shí)不是軟件,而是定義硬件的描述語(yǔ)言,所以 FPGA 不需要軟件)。使用它需要芯片支持,能量效率和計(jì)算效率不高。
而第一象限,到現(xiàn)在為止很少有人關(guān)注——軟件定義芯片(SDC),像 RCP、CGRA 等。它的軟件和硬件均可編程,混合顆粒度,最重要的是芯片功能隨軟件變化而變化;在使用中也不需要芯片設(shè)計(jì)知識(shí),其能量效率和計(jì)算效率雖然沒(méi)有專業(yè)集成那么高,但也足夠高。
這是一個(gè)全新的領(lǐng)域。
CPU 等處理器是通用高靈活性,但已經(jīng)進(jìn)入寡頭壟斷極端,它需要最先進(jìn)的技術(shù),成本高、價(jià)格貴,易受生態(tài)環(huán)境制約;專用集成電路,專用而無(wú)靈活性,用量足夠的情況下才能便宜;FPGA 通用高靈活性,和 CPU 差不多。而我們所說(shuō)的軟件定義芯片,它不存在寡頭壟斷的問(wèn)題,也并不需要最先進(jìn),夠先進(jìn)就好,擴(kuò)大用量可以降低成本,不存在生態(tài)問(wèn)題;它一方面具備 CPU 的靈活性,另一方面是專用集成電路的高能量效率和高集成度。
軟件定義芯片畢竟是一個(gè)新名詞,那么下一步應(yīng)該怎么做?我們不知道人腦如何計(jì)算和思考,因此我們只能用計(jì)算機(jī)進(jìn)行大概地推理一下。
比如說(shuō),我們要有硬件平臺(tái),這個(gè)硬件平臺(tái)必須得有高計(jì)算能力、多任務(wù)并行計(jì)算能力、足夠的吞吐量、極高的能量效率、靈活高效的存儲(chǔ)、適應(yīng)動(dòng)態(tài)的工作變化,這是支撐智能的基礎(chǔ)。而芯片要實(shí)現(xiàn)智能化,不能光有硬件,一定要有要求很高的軟件——自主學(xué)習(xí)的能力、形成知識(shí)和經(jīng)驗(yàn)的能力、持續(xù)改進(jìn)和優(yōu)化的能力、再生和組織能力、思維邏輯推理能力、作出正確判斷和決策能力,這是軟件才能完成的,而非硬件。
如果有人認(rèn)為能夠硬件上做到這一點(diǎn),那一定走錯(cuò)路了。實(shí)現(xiàn)智能的核心是軟件,所以再進(jìn)一步看,我們要的是軟件定義的芯片——軟件變化時(shí),芯片跟著變化。其實(shí),美國(guó)人也在做這項(xiàng)工作,比如說(shuō)美國(guó)最近推出的 ERI(電子振興計(jì)劃),其中非常重要的就是軟件定義硬件,它是作為 ERI 項(xiàng)目中的 6 個(gè)子課題之一。
前段時(shí)間,我在舊金山和美國(guó) DARPA(國(guó)防高級(jí)研究計(jì)劃局,Defense Advanced Research Projects Agency)的項(xiàng)目經(jīng)理交流發(fā)現(xiàn),美國(guó)之所以要做這件事,正是因?yàn)樗麄兛吹搅塑浻步Y(jié)合特別是硬件可變性成為未來(lái)發(fā)展的重點(diǎn);項(xiàng)目中規(guī)劃的內(nèi)容,就是建立一個(gè)在運(yùn)行時(shí)可以實(shí)時(shí)變化的硬件和軟件,能夠達(dá)到專用集成電路的性能,同時(shí)對(duì)于數(shù)據(jù)密集型的運(yùn)算不失去它的可編程性——這就是軟件定義芯片。
對(duì)我來(lái)說(shuō),我非常關(guān)注所謂的運(yùn)行時(shí)間 “At Runtime”,規(guī)定 300-1000 NS,0.3-1 微秒,這個(gè)變化的速度很慢。
那么,F(xiàn)PGA是軟件定義芯片嗎?不是。我把 FPGA 的 10 大缺陷重復(fù)一遍:
FPGA 細(xì)粒度,實(shí)現(xiàn)比特級(jí)的運(yùn)算。
配置信息量大,幾兆甚至幾十兆。
配置時(shí)間長(zhǎng),少則十幾毫秒到幾十毫秒,甚至要上秒。
靜態(tài)編程,一旦配置完畢不可更改,改變 FPGA 的功能要下電或者在線重新載入配置信息。
邏輯不可復(fù)用,所有電路必須全部裝入 FPGA。
面積效率低,每個(gè) LUT 只能實(shí)現(xiàn)一位運(yùn)算,面積效率只有 5%,一個(gè)千萬(wàn)門級(jí)的 FPGA 只能實(shí)現(xiàn)幾十萬(wàn)門的邏輯電路。
能量效率低,由于邏輯利用率低引發(fā)無(wú)效功耗巨大。
需要特種工藝,F(xiàn)PGA 往往需要最先進(jìn)的制造工藝,且需對(duì)工藝進(jìn)行特別調(diào)整。
電路設(shè)計(jì)技術(shù),應(yīng)用者必須具備電路設(shè)計(jì)知識(shí)和經(jīng)驗(yàn)。
成本高昂,幾十到幾萬(wàn)美元一片。
所以 FPGA 不是我們想要的東西;FPGA 不能當(dāng) SdC,不是軟件定義芯片。
那么,為什么要軟件定義芯片?
舉例說(shuō)明,做芯片設(shè)計(jì)時(shí),老板經(jīng)常說(shuō)“你一定要做差異化的東西,不能跟別人做得一樣”;于是就在規(guī)格(Specification)上做文章——這是完全錯(cuò)誤的思路,差異化并不是靠規(guī)格設(shè)計(jì)出來(lái)的。這樣設(shè)計(jì)出來(lái)的差異化只存在于產(chǎn)品產(chǎn)出的那一段時(shí)間,之后就無(wú)法更改;別人追上來(lái),差異化越來(lái)越小,你的產(chǎn)品便出局。
一個(gè)小孩從嬰兒成長(zhǎng)為成年人,中間的成長(zhǎng)中包括教育、學(xué)習(xí),《三字經(jīng)》說(shuō)“人之初,性本善,性相近,習(xí)相遠(yuǎn)”。為什么芯片不能這么做?
如果我們的芯片可以在使用過(guò)程中不斷學(xué)習(xí),則差異化可以隨著時(shí)間的變化而不斷加強(qiáng),這樣的芯片才是真正的智能芯片?,F(xiàn)在的做法是訓(xùn)練 + 推理(訓(xùn)練是老師訓(xùn)練,老師利用以前的知識(shí)教我們,我們照老師教的方式推理應(yīng)用),這恰好是人工智能發(fā)展的過(guò)程;如果我們讓芯片做到這一點(diǎn),我們可以讓芯片做得更好。
現(xiàn)在,我來(lái)講一下什么是真正的軟件定義芯片。
一個(gè)真正理想的計(jì)算應(yīng)該是軟件和硬件的架構(gòu)一模一樣,軟件是什么樣的拓?fù)浣Y(jié)構(gòu),硬件就應(yīng)該是怎樣的拓?fù)浣Y(jié)構(gòu);軟件需要什么樣的運(yùn)算,硬件需要存在這樣的運(yùn)算資源??上У氖?,軟件可以很大,硬件不能大;我們只好把軟件分塊,跟硬件大小一樣。比如把它分為 6 塊,根據(jù)數(shù)據(jù)依賴關(guān)系把第二塊、第三塊、第四塊放進(jìn)去……一直到第六塊。這要求我們硬件必須隨時(shí)改變其功能,硬件功能和架構(gòu)能夠動(dòng)態(tài)地按照軟件實(shí)時(shí)進(jìn)行改變,這是我們所說(shuō)的軟件定義芯片——這其實(shí)是一件非常困難的事情,我的實(shí)驗(yàn)室做了 12 年才做成。
按照這種思路,我們可以很容易地得到基本架構(gòu):我們將劃分好的軟件通過(guò)控制單元送到所謂的數(shù)據(jù)通道中,由數(shù)據(jù)通道來(lái)對(duì)硬件進(jìn)行編程;因此,我們的編程結(jié)果可以完全適應(yīng)軟件的發(fā)展,這要求我們硬件和軟件完全可重構(gòu)、完全可編程。這是我們的基本思想。
這樣的基本思想與傳統(tǒng)的計(jì)算架構(gòu)之間比較,可以看到:
經(jīng)典的計(jì)算結(jié)構(gòu)基本上是馮諾依曼的體系結(jié)構(gòu),但是對(duì)于軟件定義芯片而言,它是一個(gè)函數(shù)化的柔性結(jié)構(gòu)。傳統(tǒng)的架構(gòu)中,應(yīng)用適應(yīng)于計(jì)算結(jié)構(gòu),你要知道計(jì)算機(jī)結(jié)構(gòu)進(jìn)行編程,而在我們的結(jié)構(gòu)中,計(jì)算適應(yīng)于應(yīng)用,這是倒過(guò)來(lái)的,硬件適應(yīng)軟件。傳統(tǒng)結(jié)構(gòu)中,一個(gè)任務(wù)只有一個(gè)處理軟件,不可能編 10 個(gè)軟件;在我們的結(jié)構(gòu)中,一個(gè)任務(wù)有多個(gè)等效處理軟件。傳統(tǒng)計(jì)算模式中,硬件和軟件不變,但在我們這里,硬軟件動(dòng)態(tài)選擇性改變。傳統(tǒng)結(jié)構(gòu)中,要高度復(fù)用,在我們的結(jié)構(gòu)中,產(chǎn)生冗余應(yīng)用,這是根本的不同。
但是,我們沒(méi)有逃離馮諾依曼的體系結(jié)構(gòu),這是壞事也是好事——壞事是創(chuàng)新不夠,好事是計(jì)算理論的完整性。
我們利用這個(gè)架構(gòu)來(lái)實(shí)現(xiàn)可重構(gòu)神經(jīng)網(wǎng)絡(luò)的的基本想法是:通過(guò) AI 應(yīng)用定義我們所選用的深度神經(jīng)網(wǎng)絡(luò),改變芯片架構(gòu)和功能。如果能做到,我們不僅僅適用一種應(yīng)用,我們可以跟著應(yīng)用不斷變化,適用 N 種應(yīng)用。
這樣的芯片是所謂通用的人工智能芯片。
這個(gè)基本運(yùn)算單元有多種不同的能力,我們可以讓它做卷積、池化等各種各樣的內(nèi)容。利用這種方式,我們還可以實(shí)現(xiàn)數(shù)據(jù)通道,完全并行。這樣的結(jié)果是,我們可以把大量不適合硬件做和硬件做得很麻煩的東西,可以一個(gè)所謂的 Compiler(不是傳統(tǒng)的 Compiler)來(lái)實(shí)現(xiàn),大幅度提升效率。
這里有一個(gè)結(jié)果,它是我們?nèi)ツ戢@獎(jiǎng)的內(nèi)容。這個(gè)結(jié)果是通用 AI 處理器,在 10 兆到 200 兆頻率下,4mW-450mW,運(yùn)算速度達(dá)到 1.06-5.09TOPS/w。另外一個(gè)是我們國(guó)際會(huì)議上報(bào)道過(guò)的做人臉識(shí)別的,小于 100mW,每識(shí)別一個(gè)只需要 6 個(gè)毫瓦時(shí),比人類的人臉識(shí)別率高 1 個(gè)百分點(diǎn)。
還有一個(gè)是語(yǔ)音信號(hào)識(shí)別,包括語(yǔ)音識(shí)別和聲紋識(shí)別,其耗電量只有 200 多微瓦?!禡IT Technology Review》今年年初在一篇專稿中評(píng)論了我們的工作,認(rèn)為這是中國(guó)取得的皇冠級(jí)別的成就,一節(jié)電池可以用一年多,被認(rèn)為是世界上耗電量最小的語(yǔ)音識(shí)別軟件。
我們已經(jīng)工作了 12 年,這是我們?nèi)〉靡幌盗械某煽?jī)、論文和專利。
最后結(jié)束一下。
我們說(shuō),大家都在做 AI。但是 AI 到底是什么?我們應(yīng)該怎么做 AI?哪些地方到底需要 AI?我們希望 AI 幫助我們解決什么問(wèn)題?如果不需要 AI 也可以做,為什么要 AI?其實(shí)我們沒(méi)有回答好這些問(wèn)題?,F(xiàn)在很多應(yīng)用根本不需要 AI,甚至有人用 AI 做幌子。
什么是我們離開就活不了的 AI 殺手級(jí)應(yīng)用?語(yǔ)音識(shí)別和人臉識(shí)別都需要 AI 嗎?未必,特別是語(yǔ)音識(shí)別很多時(shí)候不需要 AI。當(dāng)然某些情況下語(yǔ)音識(shí)別是有作用的。什么樣的 AI 是我們每天都需要的?這是我們的關(guān)鍵。
前兩年很多人認(rèn)為自己超過(guò)了美國(guó),有很多這樣的聲音“明年就超過(guò)英特爾”“再過(guò) 3 年就超過(guò)微軟”,我把他們稱之為“嚇尿體”,他們把美國(guó)人嚇尿了,最近一段時(shí)間,大家都說(shuō)我們的芯片碰到很大困難,跟前兩年不太一樣,于是“嚇尿體”變成”被嚇尿“了。我們的芯片發(fā)展有自己的步驟,我們確實(shí)不如美國(guó),但也沒(méi)有像美國(guó)某些人說(shuō)得那么糟糕。當(dāng)然,我們不像某些人說(shuō)得那么好,我們?cè)诎l(fā)展過(guò)程中,不要妄自菲薄。
告訴大家一件事:在軟件定義芯片領(lǐng)域中,我們現(xiàn)在大幅領(lǐng)先美國(guó)。我的團(tuán)隊(duì)提出軟件定義芯片技術(shù)比美國(guó) ERI 技術(shù)早了 10 年,他提出 300-1000 納秒時(shí)間,只是我們現(xiàn)在實(shí)現(xiàn)指標(biāo)的十分之一,我們的性能比它好多了。我現(xiàn)在到國(guó)外國(guó)際會(huì)議上,很多人說(shuō)我們是國(guó)際上做得最好的,我們?cè)谲浖x上在國(guó)際走在前列。
總結(jié)來(lái)說(shuō),AI 技術(shù)不斷進(jìn)步,目前差距依然很大;像人類似的同時(shí)做出多個(gè)判斷和決定,這樣的算法尚未出現(xiàn)。我們現(xiàn)在是 IA,還不是 AI;芯片是我們不可逾越的障礙,必須通過(guò)芯片實(shí)現(xiàn);而芯片的發(fā)展決不是我們今天想象的,做一個(gè)芯片就是 AI 芯片。
要讓芯片具有智慧的能力,這是我們真正需要考慮的事情,不是為了 AI 而 AI 。你想讓 AI 芯片在使用中變得更“聰明”,架構(gòu)創(chuàng)新是不可回避的課題。如果你依然用 FPGA,不要有太大的希望,沒(méi)有獨(dú)霸天下的可能性。希望大家在芯片發(fā)展過(guò)程中特別關(guān)注架構(gòu)的創(chuàng)新,只有架構(gòu)創(chuàng)新才能把大家送到這個(gè)領(lǐng)域的巔峰。
謝謝大家!
-
芯片
+關(guān)注
關(guān)注
455文章
50725瀏覽量
423173 -
AI
+關(guān)注
關(guān)注
87文章
30749瀏覽量
268901 -
人工智能
+關(guān)注
關(guān)注
1791文章
47202瀏覽量
238271
原文標(biāo)題:清華大學(xué)魏少軍:什么是真正的通用AI芯片?
文章出處:【微信號(hào):eetop-1,微信公眾號(hào):EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論