極客公園在上海科技館舉辦“2016奇點創(chuàng)新者峰會”,下午舉辦的內(nèi)部高峰論壇中,思必馳CEO高始興也給大家?guī)砹朔浅>实姆窒怼?/p>
高始興表示從工業(yè)革命、信息革命,現(xiàn)在人工智能的革命,進入人工智能時代確實對眾多的創(chuàng)業(yè)公司,特別是技術(shù)驅(qū)動的,有技術(shù)積累的創(chuàng)業(yè)公司帶來非常大的機會。
以下為演講實錄:
思必馳創(chuàng)立8年左右,在8年時間,基本上或多或少已經(jīng)成功見證人工智能,特別是語音行業(yè)越來越往后加速發(fā)展的階段,我們最早是做教育方面的語音技術(shù),后來專注智能硬件垂直行業(yè)做語音技術(shù)和產(chǎn)品服務(wù)。
早期語音更多是在傳統(tǒng)的非常窄的市場去應(yīng)用,包括呼叫中心。后來Siri發(fā)布,引爆整個語音在互聯(lián)網(wǎng)的市場,吸引了很多眼球,吸引了很多資本,吸引巨頭發(fā)展,推動整個市場,推動技術(shù)的進步。再到智能硬件物聯(lián)網(wǎng)行業(yè),語音成為剛性痛點的需求,在各個行業(yè),各個垂直產(chǎn)品進行落地,整個行業(yè)確實爆發(fā)力很強。技術(shù)早期還是單點的技術(shù),后來技術(shù)的提升,包括語音識別、合成、智能識別等等,包括現(xiàn)在從感知走向認知,對話技術(shù)。
以前這個題目有可能有點大,現(xiàn)在人工智能加速滲透到商業(yè)、生活的方方面面,語音在各個終端連接了各種各樣的服務(wù)。早期的時候,還是一個簡單的模擬,簡單的算法,雖然期望特別大,但是落地特別少。真正再一次掀起一個小浪潮是80年代,在歐洲、日本商業(yè)的企業(yè),包括聲音網(wǎng)絡(luò),遺傳算法。但是真正大的技術(shù)變革,真正在行業(yè)上掀起爆發(fā)式應(yīng)用,還是在近10多年互聯(lián)網(wǎng)時代,摩爾定律處理能力,大數(shù)據(jù)、云計算,讓能力循環(huán)成為可能。現(xiàn)在確實在各個產(chǎn)業(yè)上,我們看到更多的應(yīng)用場景。
語音技術(shù)是人工智能的關(guān)鍵
AI從互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)到物聯(lián)網(wǎng),現(xiàn)在到智聯(lián)網(wǎng),現(xiàn)在它的滲透率,推動率越來越大。早期在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),更多還是產(chǎn)品驅(qū)動,是一個商業(yè)模式驅(qū)動。現(xiàn)在在智能硬件物聯(lián)網(wǎng),泛人工智能行業(yè),我們看到AI,人工智能驅(qū)動,讓各種新型商業(yè)、新型商業(yè)產(chǎn)品成為一種可能。包括現(xiàn)在人工智能創(chuàng)業(yè)公司價值體現(xiàn)也越來越多。
從工業(yè)革命、信息革命,現(xiàn)在人工智能的革命,進入人工智能時代確實對眾多的創(chuàng)業(yè)公司,特別是技術(shù)驅(qū)動的,有技術(shù)積累的創(chuàng)業(yè)公司帶來非常大的機會。我們現(xiàn)在看移動互聯(lián)網(wǎng),不說互聯(lián)網(wǎng),移動互聯(lián)網(wǎng)更多還是搶奪存量市場,一片紅海甚至血海,現(xiàn)在這個市場行業(yè)不是A的就是T的,或者是B的,當然B最近口碑不是太好,但是他們確實在人工智能布局還挺早,挺大。現(xiàn)在在整個巨頭占據(jù)足夠的市場,影響力的時候,我相信在若干個場景能成就很多獨角獸,包括技術(shù)公司,包括結(jié)合行業(yè)的一些公司。
如果簡單分的話,人工智能行業(yè),語音智能應(yīng)用在應(yīng)用層、技術(shù)層和技術(shù)設(shè)施層,應(yīng)用層,像一些產(chǎn)品類的公司,像暴風和小米,小米用我們思必馳語音技術(shù),包括像人臉商湯,包括現(xiàn)在思必馳語音公司。在技術(shù)設(shè)施層,包括慶科等一些優(yōu)秀公司,當然還有巨頭公司,在這里面,技術(shù)還是核心的驅(qū)動力,這里面有一個趨勢,我們看到一個是技術(shù)層和技術(shù)設(shè)施層,產(chǎn)品落地,產(chǎn)品服務(wù)的整合,我們確實做得還不錯,整個大語音在諸多行業(yè),傳統(tǒng)行業(yè)科大訊飛也在做設(shè)施層。再一個,應(yīng)用層和底層設(shè)施技術(shù)層融合和整合,像樂視自己在做語音,現(xiàn)在估計有五六十人,服務(wù)于它的大生態(tài)。還有一個技術(shù)層、應(yīng)用層向后端技術(shù)設(shè)施層去整合,去聯(lián)合。比如說一起去做相關(guān)的芯片摸索,像京東、小米他們都在做。
現(xiàn)在各個模態(tài)人工技術(shù)發(fā)展特別快,剛才講的人工識別,體感識別,包括像我們語音識別等等這些,VR、AR進展特別快。我覺得應(yīng)該在很多場景下,我們在手機端,我們基本上特別是服務(wù)場景是打通的,我們通過觸摸交互訂票、訂餐、購物等等這些行為,如果說我們在智能硬件物聯(lián)網(wǎng)幾個場景里面,比如說在開車的時候,我們在家里面對音響和機器人的時候,我們?nèi)ビ啅埰保Z音可能是唯一的入口。第一的,它是很自然,很便捷,還有一個它是唯一能傳遞復雜信息的。未來,多模態(tài)整個人機交互兩個趨勢非常關(guān)鍵。一個是多模態(tài)融合和整合,融合是一個必然。現(xiàn)在人機交互還是被動式,未來在場景數(shù)據(jù)積累,用戶行為數(shù)據(jù)等等這些,形成能力循環(huán),未來人機交互會變成更多是主動式。未來的機器,從一個簡單的秘書,真正成為一個助理。
如果從語音上,實現(xiàn)人對機器的控制,我們喊一嗓子,把空調(diào)調(diào)高一點,控制電視,調(diào)整音量,簡單的查詢,搜一些歌,未來場景力量,一個生態(tài)一定讓用戶能夠enjoy更多的服務(wù),一定需要對話交互,像手機端觸摸交互一樣,能獲取更多的服務(wù)。再一個隨著情感識別,情緒識別,包括各種的人臉識別等等一些人工智能交互模態(tài)的進步整合,未來情緒識別富裕這個機器形態(tài),現(xiàn)在機器人很嚇人,未來情感世界會大大解決這個問題。再往后思想交互,我們機器能夠自學習,自適應(yīng),未來我們進行人機交互的時候,如果你不看到它,不知道對面是一個機器。像去年6、7月份,劍橋和蘇黎士理工做實驗,母機器人孵化子機器人,而且自己檢測這個完備性。
現(xiàn)在在智能硬件物聯(lián)網(wǎng)上,未來我們讓智能設(shè)備向我們手機一樣,我們隨地隨時可以去獲取很多的服務(wù),訂餐、訂票,玩游戲等等這些,一定是對話交互, 對話交互分成三類,一類是問答式,有明確的確定和否。第二類是閑聊式,像現(xiàn)在Siri,基本屬于閑聊式,一般沒有明確的確定和否,沒有聊天的本體,再就是任務(wù)式對話,任務(wù)式像現(xiàn)在估計在座大家都知道,做得非常棒的亞馬遜echo,echo基于場景用戶去完成一個任務(wù),假設(shè)在人機交互里面,說一句我餓了怎么辦?如果是問答式,他會回答你你要一天三餐,保證健康。聊天式有可能有很多答案,比如說它會回答,主人你餓了嗎?你隨便吃一點,陪我聊天呀。如果任務(wù)式,結(jié)合你的歷史信息,甚至結(jié)合你的位置,結(jié)合你其他歷史行為,給你推薦周邊的餐廳,有可能你愿意吃辣的,周邊推薦湘菜館,火鍋店推薦幾家,進而形成對話交互,規(guī)劃交互一定是近幾年的發(fā)展趨勢。
我們思必馳基于自然語言理解和處理,再一個是我們整合了我們對話邏輯,一軟一硬兩個產(chǎn)品,我們提供給三個垂直行業(yè),車載、家居、機器人,讓每個設(shè)備成為智能助理,幫助用戶完成任務(wù)。
語音是產(chǎn)品創(chuàng)新的關(guān)鍵技術(shù)
語音交互一切,語音改變更多,它除了連接一切,交互一切,未來會在產(chǎn)品創(chuàng)新,行業(yè)的一些變化,甚至變革上起到很大的推動作用。
幾個觀點,這個就是當前的一些語音在智能電視上的應(yīng)用。這個是當時給小米電視,小米電視整個語音交互是用思必馳,這里面用的語音喚醒,我們找的是林志玲模擬她的聲音。目前還比較簡單,喚醒跟簡單的查詢。下一步,一定會走向從感知走向認知,不僅僅讓人機的交互能夠?qū)崿F(xiàn)控制和簡單查詢,一定在各個場景里面,整合更多的服務(wù)。
再一個,現(xiàn)在移動互聯(lián)網(wǎng)很多的行業(yè)生態(tài),商業(yè)模式,在智能硬件物聯(lián)網(wǎng)領(lǐng)域不一定完全能遷移,會發(fā)生一定的變化,甚至是顛覆。比如說搜索,現(xiàn)在PC互聯(lián)網(wǎng),移動互聯(lián)網(wǎng),我們端是手機,在智能硬件物聯(lián)網(wǎng)是各個端,不單是端,交互界面都發(fā)生變化。再一個用戶行為,在PC互聯(lián)網(wǎng),移動互聯(lián)網(wǎng),人機搜索更多是信息的查詢,在智能硬件互聯(lián)網(wǎng)上,更多還是服務(wù)的獲取。再一個,就是傳統(tǒng)的一些商業(yè)模式,像CBC,在新的智能硬件物聯(lián)網(wǎng)上,新的語音搜索有可能也是CBC,再就是智能語音發(fā)展促進產(chǎn)品創(chuàng)新,甚至產(chǎn)品形態(tài)的變化,包括其他人工智能的發(fā)展。現(xiàn)在說智能終端,智能硬件,硬件的智能化,我覺得大概兩類,一類是真正通過人工智能,語音智能提升它的效率,提升它的體驗,向一些消費電子,比如說我舉的例子,空調(diào),我們跟一些大的消費電子合作,像海爾、美的等等合作,不改變它的產(chǎn)品的屬性,但是提升它的體驗,我在房間任何一個角度,我在晚上起來以后,或者遙控器找起來不方便,喊一嗓子“我冷了,調(diào)一下溫”。這個不改變產(chǎn)品整體功能和形態(tài)。再就是通過人工智能,語音智能,改變了它的產(chǎn)品的核心功能,甚至拓展了服務(wù),成為一個中心態(tài)勢,比如說echo,未來像echo設(shè)備越來越多。未來像翻譯耳機,好像日本公司做的,未來耳機不是打電話,我們出國,甚至假設(shè)有方言的話,特別是南方隔一個縣,甚至隔一個村就是一個方言,我們戴著耳機就可以自由對話。包括未來的會議,我們現(xiàn)在會議電話還是開會,未來的會議電話加上身份識別,語音識別,它其實就是一個秘書。因為電話只要加了一個通信模塊,任何東西都可能成為電話。所以未來有很多產(chǎn)品創(chuàng)新和融合,包括未來我們有可能燈泡,我們插排、插座,有可能我們就是的speaker。
再一個,現(xiàn)在我們看到的智能硬件交互,還是很難完成閉環(huán),未來在智能音響、電視,機器人等上面,加上身份識別或者其他的生物識別,身份能夠通過身份密碼完成支付,形成一個交易的閉環(huán),這樣整個大的生態(tài)才能起來。包括一些行業(yè)的融合和創(chuàng)新。比如說未來我們在家里,我們通過電視,通過音響,我們在車里,通過車載智能終端學習英語,在家里可以做一些遠程醫(yī)療等等,包括還有一些創(chuàng)新點子,包括前段時間有人提出來,監(jiān)測兒童呼聲,做一些相應(yīng)的看護,剛才阿里朋友講,鑒黃,通過圖像識別去鑒黃。在今年年初的時候,有人提出來用聲音去鑒黃,就是她的叫聲,當然沒有做,我覺得都是創(chuàng)新點。包括未來傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),未來更多的在智能硬件物聯(lián)網(wǎng)上,大量、大規(guī)模的數(shù)據(jù),語音數(shù)據(jù),視頻數(shù)據(jù)等等,人臉數(shù)據(jù),新型的數(shù)據(jù)結(jié)構(gòu),包括一些新型用戶畫像,包括借助我們設(shè)備識別,老人可能Push腦黃金廣告,年輕人可能Push一些年輕的產(chǎn)品,可能小孩子Push一些玩具的廣告。
還有整個市場出現(xiàn)幾百上千的語音助手,包括有一些獲得投資的,基本上也都銷聲匿跡了,在幾年前整個語音在通用環(huán)境下能做好,這么幾年從感知智能走向認知智能,通過對話交流可以打通一個一個信息通道,未來手機可以看成一個端,類似于像智能音響一樣,智能電視一樣,因此我個人覺得,未來智能手機上,成為新型語音助手。
思必馳還是專注于在智能硬件,物聯(lián)網(wǎng),車載、家居、機器人,我們提供人機對話交互的方案、產(chǎn)品和服務(wù)。
-
智能語音
+關(guān)注
關(guān)注
10文章
786瀏覽量
48811 -
信息革命
+關(guān)注
關(guān)注
0文章
3瀏覽量
5827 -
工業(yè)革命
+關(guān)注
關(guān)注
0文章
107瀏覽量
15829
發(fā)布評論請先 登錄
相關(guān)推薦
評論