回顧2018,人工智能正在成為手機發(fā)展的“新引擎”。2018年商湯在手機業(yè)務(wù)碩果累累,“3D人臉識別、人臉3D重建及微整形、人臉解鎖、AI智慧雙攝、超分辨率、3D人體實時追蹤、3D虛化、AI人像光效、Animoji、美體、SLAM、AR相機、AR導(dǎo)航、AR測量”等諸多技術(shù)在OPPO、vivo、小米、華為、魅族、OnePlus等手機產(chǎn)品中紛紛落地,廣受用戶歡迎。商湯手機的AI功能覆蓋了全部的頭部客戶和80%的長尾客戶。
那么,商湯為何能夠獲得手機廠商的高度認可?這兩年手機硬件與AI軟件的角色又有哪些轉(zhuǎn)變?商湯從創(chuàng)立之初就選擇并堅持產(chǎn)學(xué)研一體化模式,根本原因是什么?如何培養(yǎng)和管理一支富有創(chuàng)造力的人工智能團隊?2019年的AI手機行業(yè)又有哪些趨勢?為解答這些疑問,近日,商湯君與商湯科技聯(lián)合創(chuàng)始人、研究院院長王曉剛教授進行了一次深度對話。
王曉剛教授是商湯科技聯(lián)合創(chuàng)始人、研究院院長、杰出科學(xué)家,同時亦為香港中文大學(xué)電子工程系副教授。王曉剛教授畢業(yè)于中國科技大學(xué)少年班,于2001年獲得電子工程與信息科學(xué)學(xué)士學(xué)位;2004年獲得香港中文大學(xué)信息工程碩士學(xué)位;2009年獲得麻省理工學(xué)院人工智能實驗室獲得計算機博士學(xué)位。
王曉剛教授的研究領(lǐng)域包括計算機視覺和機器學(xué)習(xí),他曾在頂級的國際期刊和會議發(fā)表超過200篇論文,其論文在GoogleScholar上的引用次數(shù)超過17000次。他還是國際頂級計算機視覺會議CVPR 2017, ICCV 2011,ICCV 2015, ICCV 2017, ECCV 2014, ECCV2016, ACCV 2014和ACCV 2015的領(lǐng)域主席。
總結(jié)2018:優(yōu)異成績單源自積累、體系和格局
Q:2018年商湯AI技術(shù)在手機上有很多應(yīng)用,包括AI雙攝虛化、人臉3D重建、超分辨率、3D人體實時追蹤等等,并與OPPO、vivo、小米、華為等手機廠商都有合作,您覺得商湯在手機業(yè)務(wù)獲得優(yōu)異成績的原因有哪些?
A(王曉剛):首先非常感謝我們的客戶和產(chǎn)業(yè)鏈的合作伙伴一直以來對商湯的信任與支持。我覺得商湯能夠獲得客戶認可有幾個因素,第一是積累,商湯是比較早地把AI帶到手機,我們有比較深厚的積累。比如2014年商湯就在學(xué)術(shù)界首次提出了基于深度學(xué)習(xí)的超分辨率技術(shù),并且擁有最早一批相關(guān)專利。經(jīng)過四年打磨,2018年終于在vivo X23手機上落地。比如體感游戲中的人體關(guān)鍵點技術(shù)我們也已經(jīng)有了數(shù)年的積累。再如AR的SLAM,我們和浙江大學(xué)-商湯三維視覺聯(lián)合實驗室有十幾年的積累。深厚的積累是源源不斷創(chuàng)新的保障。
應(yīng)用于vivo X23幻彩版的SensePhoto超分辨率技術(shù)
其次是體系。比如SLAM,我們從視覺SLAM到基于雙攝的SLAM和基于多傳感器融合的SLAM,是一整套的SLAM技術(shù)體系。在SLAM技術(shù)基礎(chǔ)上,我們還有導(dǎo)航、重建、AR測量、AR 相機等多種應(yīng)用。完整的技術(shù)和產(chǎn)品體系可以更好地滿足客戶需求,為客戶創(chuàng)造價值。未來,這些手機上打磨的技術(shù)還可以應(yīng)用于互聯(lián)網(wǎng)和IOT,構(gòu)造一個更大的AI生態(tài)。
另外,這歸功于商湯的格局,我們看問題著眼未來。比如商湯SenseAR平臺是對標(biāo)谷歌的ARCore,蘋果的ARKit,還要體現(xiàn)出差異化。很多人覺得商湯難以和國際巨頭抗衡,但商湯的目標(biāo)是要在手機上做長遠的規(guī)劃,這就要從最基礎(chǔ)夯實我們的技術(shù)。如今商湯SenseAR平臺支撐了非常多的應(yīng)用,將來還會更多。
OPPO發(fā)布與商湯合力打造的OPPO AR開發(fā)者平臺
Q:關(guān)于人體識別,商湯其實在安防領(lǐng)域也有應(yīng)用,那么在安防領(lǐng)域的應(yīng)用和手機領(lǐng)域運用有什么不同嗎?
A:手機上對準(zhǔn)確性和實時性的要求會更高,因為它直接關(guān)系到用戶的體驗。比如我們在手機上做的3D體感游戲是通過肢體動作控制游戲里面的人物,這些控制必須非常準(zhǔn)確。
SensePosture3D人體骨架檢測算法正在為OPPO R17 Pro體感游戲帶來支持,圖片源自ColorOS官方社區(qū)
安防領(lǐng)域主要是識別,但手機除了識別,還有重構(gòu)、合成,比如美體中的應(yīng)用,如果對人體的關(guān)鍵點定位和人體分割出現(xiàn)微小的偏差,就會出現(xiàn)背景和人物的扭曲。從這個意義上講,手機對技術(shù)的要求更苛刻、更嚴格。
AI角色轉(zhuǎn)變,從彌補硬件不足到硬件專門為AI設(shè)計
Q:近兩年手機AI軟件已經(jīng)逐漸影響硬件研發(fā)方向,您怎么看這種轉(zhuǎn)變?
A:手機硬件和AI的關(guān)系有三個階段:第一個階段是AI彌補硬件的不足;第二個階段是硬件推動AI的創(chuàng)新;第三個階段是部分硬件專門為AI設(shè)計,AI和硬件聯(lián)合創(chuàng)新。
一開始AI是彌補硬件的不足,比如由于物理條件的限制手機拍不出單反的效果,我們可以嘗試通過AI的方式實現(xiàn)某些功能。再如手機用兩個攝像頭估計深度,然后做人像和人體分割。2016年商湯第一個在OPPOR9s上通過AI算法實現(xiàn)單個攝像頭的人像分割,從而進行背景虛化,彌補了硬件的不足,降低了成本。
隨之硬件又推動了AI的創(chuàng)新,比如手機上隨著深度攝像頭的出現(xiàn),可以做3D人臉解鎖、3D人臉重建、AR測量和一系列的體感游戲。另外,NPU最初的出現(xiàn)把原來手機芯片對神經(jīng)網(wǎng)絡(luò)的處理能力提升了很多倍,為AI提供了更多的算力。
SenseMatrix AR測量幫助OPPO R17 Pro打造AR尺子功能
如今,一些硬件是專門為AI設(shè)計的,AI和硬件聯(lián)合創(chuàng)新。新一代的3D攝像頭和NPU(嵌入式神經(jīng)網(wǎng)絡(luò)處理器)這些硬件的創(chuàng)新就是圍繞AI,需要和AI的算法融合在一起為消費者帶來價值,這些變化大大促進了AI技術(shù)提供商和產(chǎn)業(yè)鏈合作伙伴之間更緊密的配合,并提升服務(wù)客戶的能力。
去年12月,高通發(fā)布了全球首款商用5G移動平臺——驍龍855,擁有強大的AI能力,其中就包括商湯的SenseID 3D ToF人臉認證、SensePhoto AI超分辨率、SensePhoto AI夜景和SensePhoto AI雙攝虛化等多項創(chuàng)新技術(shù)。
同樣于去年12月發(fā)布的聯(lián)發(fā)科新一代移動平臺Helio P90擁有旗艦級AI算力,也搭載了商湯SenseColor人像留色技術(shù),可以實時識別、分割出所拍攝人物輪廓與外在環(huán)境邊界。
作為人工智能的重要推動者,未來商湯科技的創(chuàng)新將更進一步,與合作伙伴一起推動整個行業(yè)的發(fā)展,更好的服務(wù)廣大用戶。
切忌涸澤而漁,產(chǎn)學(xué)研一體化是創(chuàng)新的源泉
Q:商湯一直堅持產(chǎn)學(xué)研一體化的模式,它的優(yōu)勢具體體現(xiàn)在哪些方面?
A:產(chǎn)學(xué)研一體化是商湯創(chuàng)新的源泉。一項技術(shù)應(yīng)用到手機上可能是3到6個月,但這項技術(shù)的積累可能已經(jīng)花了幾年時間。
現(xiàn)在很多公司邀請大學(xué)的AI教授加入工業(yè)界,一段時間后他們會把之前積累的學(xué)術(shù)成果轉(zhuǎn)化為落地的技術(shù),然后工業(yè)界馬上會問下一個新技術(shù)是什么?工業(yè)界對AI的需求是非常迫切的。一些教授進入工業(yè)界后就失去了繼續(xù)創(chuàng)造的源泉,他們需要持續(xù)培養(yǎng)學(xué)生,才能夠有一個土壤提供源源不斷的創(chuàng)新。如果切斷了這樣的源泉就會產(chǎn)生涸澤而漁的結(jié)果。產(chǎn)學(xué)研一體化需要不斷汲取各種各樣的新技術(shù)來刺激它,推進它,僅通過商湯一家公司是很難完成的,要建立學(xué)術(shù)界和工業(yè)界共贏的生態(tài)。
商湯科技在世界人工智能大會上聯(lián)合15所高校發(fā)起“全球高校人工智能學(xué)術(shù)聯(lián)盟”
Q:產(chǎn)對研有沒有反過來的促進?
A:有的,我們從實驗室出來的東西大多是一個雛形,真正應(yīng)用到手機里面還要經(jīng)過深度的打磨,經(jīng)過手機廠商打磨之后會變得非常強大,它會再次返回到學(xué)術(shù)端。例如商湯SenseAR平臺就是從實驗室出來并經(jīng)歷了深度打磨的過程,它不但會開放給開發(fā)者,其中一些模塊也會開放給我們的學(xué)術(shù)聯(lián)盟。我們的學(xué)術(shù)聯(lián)盟相當(dāng)于站在SenseAR這個巨人的肩膀上再往前走。等他們有一些成果的時候會貢獻到SenseAR的一些模塊中,使得這個平臺得以持續(xù)提升。
另外,產(chǎn)也會對研提供一些新的研究課題,比如3D技術(shù)的研發(fā),手機上3D傳感器的出現(xiàn)必然帶來3D數(shù)據(jù)的極大豐富,原來互聯(lián)網(wǎng)圖像和視頻數(shù)據(jù)以2D為主,有了海量的3D數(shù)據(jù),就可以做更多新的研究課題。
Q:如果未來3D數(shù)據(jù)大量涌現(xiàn)可能又會衍生出新的、不一樣的生態(tài)。
A:對,這會刺激更多的研究創(chuàng)新,創(chuàng)新不能是憑空的,一定要有土壤,產(chǎn)業(yè)界可以給他們提供這樣的土壤。
一個團隊一定要經(jīng)歷“涅磐”,才能夠成長
Q:您在培養(yǎng)團隊方面有沒有一些心得和體會可以分享一下?
A:從學(xué)術(shù)研究到產(chǎn)業(yè)落地有一個比較大的距離,商湯的一些研究員是從大學(xué)實驗室出來的。我們團隊一定要經(jīng)過一個“鳳凰涅磐”的過程才能走向成熟。很多項目我們是覺得已經(jīng)不行了,快絕望了,最后一口氣堅持下來,取得了成功。
我們手機上一項技術(shù)的落地像是“十月懷胎”,到最后關(guān)頭是非常痛苦的過程。落地之后這個團隊就成熟了,下一次他們就知道怎么經(jīng)歷這樣的過程,就可以承擔(dān)更重大的責(zé)任。
另外,一項技術(shù)開始的時候可能有比較強的新鮮感,之后會遇到很多細節(jié)的問題,面對客戶提出的各種各樣需求,而這時候團隊的新鮮感已經(jīng)消失了。在這種情況下如何繼續(xù)保持團隊?wèi)?zhàn)斗力至關(guān)重要。
2018年初我們給手機團隊提的要求第一是敬畏客戶,第二是追求極致。我們需要先認真傾聽客戶的需求,再在產(chǎn)品上追求極致體驗,每一個邊邊角角,每一個瑕疵都要解決。現(xiàn)在用了商湯算法的手機超過4億臺,商湯的產(chǎn)品和技術(shù)最終要走進千家萬戶,要給大眾一個最極致的體驗。
商湯成長很快,原來商湯好比是一輛自行車,如果沒有剎車(質(zhì)量控制)頂多把自己摔得鼻青臉腫;現(xiàn)在是跑車,如果沒有剎車破壞力會非常強。當(dāng)商湯給市場提供越多價值的時候,我們的責(zé)任就越大,這就是我們?yōu)槭裁匆次房蛻簦非髽O致的體驗。
展望2019:從2D到3D,5G帶來更多視頻處理需求
Q:您怎么看2019年AI手機發(fā)展趨勢?
A:2019年有幾個趨勢,NPU的出現(xiàn)會充分釋放AI算力的優(yōu)勢,發(fā)揮AI的潛力;隨著5G的落地,云和端會更緊密的結(jié)合;我們正在快速邁向3D的新時代,擁抱海量3D數(shù)據(jù)給生活帶來的巨大變化;隨著AI和AR平臺能力的開放,將進一步賦能開發(fā)者,推動整個生態(tài)的進步;另外多傳感器融合、手機與IoT的結(jié)合、智能語音助手都會有更多云+端的應(yīng)用。
Q:AI和5G有哪些融合嗎?5G對手機行業(yè)會有哪些影響?
A:5G可以充分運用云上的算力,它有更少的延時和更大的帶寬。我們目前看到手機上的AI功能是對圖像處理比較多,有了5G之后會有更多對視頻的處理和對3D數(shù)據(jù)的處理。
Q:最近艾瑞咨詢聯(lián)合商湯發(fā)布了《2018年中國人工智能手機行業(yè)研究報告》,艾瑞通過調(diào)研發(fā)現(xiàn),中國手機用戶下次更換手機時95.9%都更愿意選擇AI手機。您覺得AI手機對消費者的吸引力為何會這么大?
A :很欣喜看到消費者對AI價值的認可,這是手機廠商、硬件廠商和AI技術(shù)提供商共同努力的結(jié)果。AI手機為用戶帶來了更好的體驗和諸多新的應(yīng)用,例如超分辨率、人臉解鎖和3D應(yīng)用,這些AI軟件的創(chuàng)新給人們帶來很多的驚喜。其次AI技術(shù)提供商和手機廠商的合作也在逐漸深入,能夠使AI更好地服務(wù)手機客戶,進而使整個用戶的體驗得到提升,這是最根本的。另外一個就是創(chuàng)新的速度,AI手機迭代非常快。
用AI為用戶創(chuàng)造價值、為開發(fā)者賦能是商湯的使命,相信在我們客戶以及合作伙伴的共同努力下,2019年的AI手機一定會有更加豐富多彩的體驗。
-
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268909 -
人臉識別
+關(guān)注
關(guān)注
76文章
4011瀏覽量
81867
發(fā)布評論請先 登錄
相關(guān)推薦
評論