隨著 AI 技術(shù)不斷迭代更新,對(duì)底層算力的需求也越來越大。 2020 年 7 月 9 日,英偉達(dá)市值首次超過英特爾,成為半導(dǎo)體領(lǐng)域市值第二的企業(yè)(第一名是臺(tái)積電)。 有關(guān)人士分析,英偉達(dá)的崛起離不開 AI 產(chǎn)業(yè)的發(fā)展。英偉達(dá)主攻的 GPU 在算力上約超出 CPU 2~3 個(gè)數(shù)量級(jí),與 AI 產(chǎn)業(yè)結(jié)合效果更佳,這也是英偉達(dá)能夠在當(dāng)前市場(chǎng)以底層算力芯片贏得高速發(fā)展的重要原因。 但是,算力更強(qiáng)的 GPU 芯片也暴露出另一個(gè)顯著問題:利用率低。 “AWS 在 2018 年放出的一組數(shù)據(jù)顯示,其 GPU 產(chǎn)品平均利用率僅為 10~30%。國(guó)內(nèi)有不少用戶的利用率甚至不足 10%,對(duì)這些用戶而言,一枚售價(jià) 1 萬美元的芯片其中 9000 美元是浪費(fèi)的。幫助企業(yè)提高 GPU 的使用效率成了新的市場(chǎng)風(fēng)口。”趨動(dòng)科技創(chuàng)始人王鯤博士介紹到。 在此背景下,王鯤于 2019 年創(chuàng)辦了趨動(dòng)科技,一家 AI 算力資源池化軟件公司。
王鯤,趨動(dòng)科技創(chuàng)始人兼 CEO,中國(guó)科技大學(xué)博士。
十四歲考取中國(guó)科技大學(xué)計(jì)算機(jī)系,在創(chuàng)業(yè)前擔(dān)任 Dell EMC 中國(guó)研究院院長(zhǎng)。
長(zhǎng)期從事計(jì)算機(jī)體系結(jié)構(gòu)、GPU 和 FPGA 虛擬化以及分布式系統(tǒng)等領(lǐng)域的研究工作,在業(yè)界最早開始推動(dòng) FPGA 虛擬化相關(guān)研究。
曾獲 2005 年微軟學(xué)者獎(jiǎng)學(xué)金,2005 年中國(guó)科學(xué)院院長(zhǎng)獎(jiǎng)學(xué)金,2006 年中國(guó)科學(xué)院優(yōu)秀博士論文以及 2007 年全國(guó)優(yōu)博士論文提名獎(jiǎng)。
在下文中,順為君對(duì)趨動(dòng)科技創(chuàng)始人兼 CEO王鯤博士進(jìn)行了一個(gè)簡(jiǎn)要的訪談,你將了解:
什么是 AI 算力資源池化?
該行業(yè)的技術(shù)壁壘在哪里?
為何在這個(gè)行業(yè)中趨動(dòng)科技基本沒有競(jìng)爭(zhēng)對(duì)手?
1. 一年前,是什么樣的契機(jī)讓您決定創(chuàng)立趨動(dòng)科技,專注于 AI 算力池化這一領(lǐng)域呢?
幾乎每一個(gè)投資人都會(huì)問我為什么創(chuàng)業(yè)這個(gè)問題。 我05 年從中科大博士畢業(yè)以后去 500強(qiáng)的外企做了 10 多年計(jì)算機(jī)體系結(jié)構(gòu)的研究工作,創(chuàng)業(yè)前是一家外企中國(guó)研究院的院長(zhǎng),負(fù)責(zé)整個(gè)研究院在中國(guó)區(qū)相關(guān)的研究工作和項(xiàng)目,職位和收入都很好。所以我創(chuàng)業(yè)的風(fēng)險(xiǎn)其實(shí)是很大的,機(jī)會(huì)成本也很高,而且我之前沒有創(chuàng)業(yè)經(jīng)歷。 有幾個(gè)點(diǎn)決定了我想去創(chuàng)業(yè)。 第一個(gè)是當(dāng)時(shí)我看到了我們今天做的技術(shù),GPU 資源池化的技術(shù),本質(zhì)上做的是一個(gè)軟件定義的 GPU,未來也會(huì)支持軟件定義的其他加速芯片。我看到這個(gè)方向,未來一定是有巨大的需求,同時(shí)這個(gè)方向我們并沒有看到市場(chǎng)上有相應(yīng)的供給,也就是說沒有很多的競(jìng)爭(zhēng)對(duì)手。 沒有競(jìng)爭(zhēng)對(duì)手最主要的原因,是因?yàn)檫@個(gè)方向技術(shù)難度非常大,有能力做的團(tuán)隊(duì)很少。所以第一個(gè)原因是我認(rèn)定這個(gè)技術(shù)未來有巨大的市場(chǎng)需求,是一個(gè)藍(lán)海的市場(chǎng)。 第二個(gè)原因是我第一次創(chuàng)業(yè),沒有人能夠保證創(chuàng)業(yè)一定會(huì)成功,所以我也不能保證我一定能成功,但是我知道如果我不出來做這件事情,那一定會(huì)出現(xiàn)另一家公司來做我們今天做的事情,并且會(huì)做成一家偉大的公司。 所以我不希望到時(shí)候后悔,不希望若干年以后覺得自己也有機(jī)會(huì),但是卻沒有努力嘗試。主要是基于這兩個(gè)原因。
2. 目前國(guó)內(nèi) GPU 資源池化技術(shù)的市場(chǎng)規(guī)模如何?前景在哪里?如想趕超美國(guó)的同樣水平技術(shù),大致還需要多久?
從全球的角度來看,這個(gè)市場(chǎng)規(guī)模未來應(yīng)該是個(gè)百億美金量級(jí)的規(guī)模。
這是參照今天的 CPU 虛擬化的市場(chǎng)來評(píng)估的。軟件是助力硬件的,所以硬件的市場(chǎng)決定了軟件市場(chǎng)的規(guī)模。目前服務(wù)器CPU的市場(chǎng)規(guī)模為 200 億美元左右,CPU 虛擬化軟件的市場(chǎng)規(guī)模為 80 億美元左右,這是一個(gè)大概 40% 的關(guān)系。
今天我們軟件支持 GPU,而 GPU 只是 AI 加速器的一部分,未來有越來越多的 AI加速芯片,像寒武紀(jì),華為、燧原等等各種新的芯片出來以后,這個(gè)市場(chǎng)的規(guī)模在未來幾年,我們預(yù)判是很有可能超過整個(gè) CPU 的市場(chǎng),對(duì)應(yīng)的軟件的規(guī)模就應(yīng)該也會(huì)超過 80 億美元,所以我們判斷它是一個(gè)百億美元左右的市場(chǎng),應(yīng)該是差距不會(huì)很大。
再回到中國(guó)的市場(chǎng)來看,中國(guó)的 GPU 市場(chǎng)目前大約占全球市場(chǎng)的 30% 到 40%,這個(gè)占比還在不斷提高。
中國(guó)的軟件產(chǎn)業(yè)目前在高速發(fā)展,在很多應(yīng)用領(lǐng)域取得了很好的成績(jī),隨著信息化和數(shù)字化轉(zhuǎn)型的不斷深入,應(yīng)用軟件發(fā)展的非常好。我們來看基礎(chǔ)軟件特別是底層架構(gòu)這塊目前基本上全部是國(guó)外軟件的天下。我們熟知的桌面操作系統(tǒng)、服務(wù)器端操作系統(tǒng)以及 CPU 虛擬化軟件都被國(guó)外產(chǎn)品壟斷。隨著國(guó)家對(duì)科技創(chuàng)新的不斷重視,以及新基建的推進(jìn),本土科創(chuàng)企業(yè)在快速發(fā)展。我們今天作為趨動(dòng)人,非常自豪地說在AI算力資源池化、虛擬化領(lǐng)域,我們走在了行業(yè)前面,處于全球領(lǐng)先的地位。
100 多年來的前三次工業(yè)革命,中國(guó)都是被動(dòng)地跟隨,開啟近代化歷程,而面對(duì)這次以 AI 為代表的第四次工業(yè)革命,中國(guó)有很大的機(jī)會(huì)成為引領(lǐng)者,改變世界科技格局:中國(guó)崛起,領(lǐng)跑世界。將來中國(guó)不但要成為世界第一,而且要習(xí)慣于成為世界第一。
中國(guó)自身也的確具備領(lǐng)跑人工智能的條件和潛力。目前全球人工智能企業(yè)最為集中的三個(gè)國(guó)家分別為美國(guó)、中國(guó)、英國(guó),三國(guó)的人工智能企業(yè)數(shù)量占全球總數(shù)的 65.73%。中國(guó)人工智能專利申請(qǐng)數(shù)位列全球第二,中國(guó)人工智能論文引用量排名世界第一,中國(guó)人工智能領(lǐng)域融資規(guī)模世界領(lǐng)先,這些數(shù)據(jù)的背后是中國(guó)強(qiáng)大人工智能實(shí)力的彰顯,也決定了中國(guó)將憑借人工智能登上世界科技舞臺(tái)。
3. 在這個(gè)行業(yè)中,您覺得趨動(dòng)科技作為其中一位佼佼者,最需要建立起的壁壘是什么?
趨動(dòng)科技的核心優(yōu)勢(shì)是技術(shù),如何保持我們?cè)诩夹g(shù)上的領(lǐng)先,是我們整個(gè)公司頭等重要的任務(wù)。我們要不停地突破自己,整個(gè)公司要不斷地顛覆自己,要去尋找新的藍(lán)海市場(chǎng)。與此同時(shí)我們要求每位同事也要不停地突破自己。
可以這么講,我們今天做的每一件事情差不多都是這個(gè)領(lǐng)域的先行者,沒有人可以教我們,我們都得靠自己去突破那些技術(shù)挑戰(zhàn)。所以我們招聘的每位員工,尤其是研發(fā)的同事,我們的核心要求是兩點(diǎn),第一點(diǎn)是要有意愿學(xué)新技術(shù),第二點(diǎn)是要有能力學(xué)新技術(shù)。在趨動(dòng)科技我們永遠(yuǎn)都要去學(xué)習(xí)新的技術(shù),應(yīng)用新的技術(shù),把這個(gè)新的技術(shù)放到我們產(chǎn)品里去解決新的問題,創(chuàng)造新的價(jià)值。所以這對(duì)整個(gè)團(tuán)隊(duì)來講是一個(gè)非常高的要求也是非常大的挑戰(zhàn)。但是正是因?yàn)槿绱耍覀儾欧浅S行判恼f,即便一直走下去,我們?nèi)匀荒軌虮3治覀冊(cè)诩夹g(shù)上的優(yōu)勢(shì)。
現(xiàn)在資源池化有哪些技術(shù)難點(diǎn)呢?
我們?cè)O(shè)想一個(gè)場(chǎng)景:比方說在一個(gè) 1000 張卡的 GPU 資源池,有兩個(gè)用戶都只需要用 0.2 張卡,20% 的資源就夠了。在這種情況下,如果你給每個(gè)用戶單獨(dú)分配一張整卡,資源就可能浪費(fèi)了。所以要把這兩個(gè)用戶放在一張物理卡上,因?yàn)樗麄冇貌粷M,放在一起不浪費(fèi)資源。
在這種情況下,必須要做到這兩個(gè)用戶是互不干擾的,互相之間是要隔離的。
比方說 A 用戶的部分跑出錯(cuò)了,crash 了,那不能影響B(tài)用戶;同樣的 B 用戶出問題了也不能影響 A 用戶。與此同時(shí)還得你給 A 多少資源,比方說 0.2 張卡的資源就不能用超,因?yàn)槿绻贸耍玫揭徽麖埧ǎ堑诙€(gè)用戶就跑不起來了。所以這個(gè)資源的隔離是要做到的。
前面是一個(gè)例子,比如說0.2,那實(shí)際使用中這個(gè)粒度不一定是 0.2。可能一個(gè)是 0.05,一個(gè)是 0.15,另外一個(gè)是0.36。那這個(gè)粒度能做的越小實(shí)際上就越靈活,同時(shí)能不能支持用戶動(dòng)態(tài)地變化很關(guān)鍵。比方說最開始的時(shí)候 0.2 張卡夠用了,但是用戶在跑應(yīng)用的過程中發(fā)現(xiàn) 0.2 張卡不夠用,能不能變成0.3,0.4,0.5?
這個(gè)就是一個(gè)動(dòng)態(tài)伸縮,動(dòng)態(tài)伸縮也是其中一個(gè)技術(shù)難點(diǎn)。
還有一個(gè)技術(shù)難點(diǎn)是把多個(gè)用戶放在一張卡上來共享的時(shí)候,這個(gè)資源池里面有 1000 張 GPU 卡,用戶的應(yīng)用程序就應(yīng)該可以使用這 1000張卡里面的任何一張,資源池的意思就是說里面的任何一張卡都應(yīng)該可以用,那么就會(huì)出現(xiàn)一種情況是跑應(yīng)用程序的機(jī)器和要用卡這個(gè)機(jī)器可能不是同一臺(tái)機(jī)器。也就是說程序跑在 A 服務(wù)器上,但是分配的這個(gè)卡有可能是 B 服務(wù)器的卡,這種可能性非常大。因?yàn)樵谫Y源池里也許別的卡都已經(jīng)被占了,只有這個(gè) B 服務(wù)器有一張卡可以用。
這種情況我們稱之為遠(yuǎn)程調(diào)用,本質(zhì)上就是一個(gè) remote GPU,遠(yuǎn)程 GPU 的性能優(yōu)化是非常難的,因?yàn)?GPU 上會(huì)進(jìn)行大量的運(yùn)算,這個(gè)運(yùn)算的量級(jí)非常高,會(huì)有大量的數(shù)據(jù)傳輸。所以如果程序運(yùn)行在一臺(tái)服務(wù)器,但是卻用另外一臺(tái)服務(wù)器的 GPU,性能是非常難以優(yōu)化的,這是一個(gè)非常大的技術(shù)挑戰(zhàn)。
我們趨動(dòng)目前的產(chǎn)品,之所以在這個(gè)領(lǐng)域技術(shù)上是全世界領(lǐng)先,就是因?yàn)槭褂眠h(yuǎn)程GPU可以做到跟使用本地 GPU 的性能差距非常小,在網(wǎng)絡(luò)比較好的情況下可以做到性能差距在 2% 以內(nèi),這就是一個(gè)非常非常小的差距。
4. 2020年中最難忘的事情是什么?
在產(chǎn)品研發(fā)的過程中,發(fā)生了一件我記憶深刻的事情。
我們知道國(guó)內(nèi)沒有公司在做同樣的產(chǎn)品,但是國(guó)外有公司在做類似功能的產(chǎn)品。我們產(chǎn)品開發(fā)基本完成之后,一直想測(cè)試一下我們獵戶座產(chǎn)品的性能,最好能和國(guó)外的產(chǎn)品對(duì)比一下,看看有什么要提高和改進(jìn)的地方。
但是我們沒有辦法去測(cè)試國(guó)外的產(chǎn)品。結(jié)果非常湊巧,一個(gè)行業(yè)的專家解決了我們的問題。他通過自己的渠道測(cè)試了我們的產(chǎn)品和國(guó)外的產(chǎn)品,最后告訴我們,我們的產(chǎn)品主要性能指標(biāo)都優(yōu)于國(guó)外同類產(chǎn)品。那一刻,我們真的是非常激動(dòng),非常驕傲!
5. 在未來的幾年中,對(duì)趨動(dòng)科技的發(fā)展有什么目標(biāo)嗎?
我們趨動(dòng)科技未來主要有兩方面的規(guī)劃:
第一是保持大規(guī)模的研發(fā)投入,以確保技術(shù)層面的市場(chǎng)領(lǐng)先地位;
第二是加速商業(yè)化進(jìn)程。
首先,我們的技術(shù)是領(lǐng)先的,我們要始終保持這種技術(shù)上的領(lǐng)先性,我們會(huì)持續(xù)加大研發(fā)投入,吸引最優(yōu)秀的人才加入我們,這始終是我們的核心要?jiǎng)?wù)之一。
我們目前產(chǎn)品設(shè)計(jì)是基于對(duì)算力的靈活調(diào)配,軟件定義算力,我們?cè)谠朴螒蜻@個(gè)賽道也發(fā)現(xiàn)了類似的需求,而我們的技術(shù)又有一部分是可以復(fù)用的,所以我們又進(jìn)入了云游戲行業(yè)。我們現(xiàn)在支持云游戲的產(chǎn)品已經(jīng)在計(jì)劃中有條不紊的開發(fā),在不久的將來也會(huì)發(fā)布我們?cè)朴螒虻漠a(chǎn)品。未來除了 AI、云游戲、云 VR,只要是對(duì)算力有需求的行業(yè),趨動(dòng)都有可能會(huì)進(jìn)入。
第二,我們已經(jīng)搭建了完整的售前、銷售、市場(chǎng)團(tuán)隊(duì),已經(jīng)在全國(guó)布局,高效地開展相關(guān)工作,我們會(huì)持續(xù)地加大市場(chǎng)方面的投入,加速商業(yè)化進(jìn)程。
趨動(dòng)科技剛剛完成了順為領(lǐng)投的 A 輪融資,從資本層面獲得了極大的助力,有利于實(shí)現(xiàn)剛剛提到的研發(fā)投入和加速商業(yè)化進(jìn)程這兩個(gè)重要任務(wù)。
從我個(gè)人的角度,創(chuàng)業(yè)過程中每天都會(huì)遇到新的事情,新的情況,對(duì)我來說既是挑戰(zhàn)也是機(jī)遇,我希望能和我創(chuàng)立的趨動(dòng)科技共同成長(zhǎng),共同見證中國(guó) AI 產(chǎn)業(yè)的發(fā)展和領(lǐng)先、中國(guó)軟件產(chǎn)業(yè)的發(fā)展和領(lǐng)先以及中國(guó)整體科技力量的發(fā)展和領(lǐng)先,中國(guó)在過去的幾千年里面都是世界領(lǐng)先,我希望我們這一代人能夠親眼見證中國(guó)的科技重新回到世界的最前列。
原文標(biāo)題:百億美金規(guī)模的GPU資源池化技術(shù),這家國(guó)產(chǎn)替代企業(yè)為何可以做到國(guó)際領(lǐng)先?|順為系
文章出處:【微信公眾號(hào):順為資本】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
芯片
+關(guān)注
關(guān)注
456文章
50886瀏覽量
424192 -
gpu
+關(guān)注
關(guān)注
28文章
4743瀏覽量
128994
原文標(biāo)題:百億美金規(guī)模的GPU資源池化技術(shù),這家國(guó)產(chǎn)替代企業(yè)為何可以做到國(guó)際領(lǐng)先?|順為系
文章出處:【微信號(hào):shunweicapital,微信公眾號(hào):順為資本】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論