科技訊11月16日消息,百度度秘事業(yè)部總經(jīng)理景鯤在2017百度世界大會(huì)上宣布DuerOS2.0正式對業(yè)界開放。當(dāng)天百度還發(fā)布了三款搭載DuerOS2.0的人工智能硬件產(chǎn)品,渡鴉raven H 、raven R及raven?Q。
景鯤表示,作為人工智能時(shí)代的安卓,DuerOS已無處不在。人工智能時(shí)代,人機(jī)交互方式依舊在變革,AI操作系統(tǒng)需要不斷學(xué)習(xí)和進(jìn)化,DuerOS從1.0到2.0的全面升級,將會(huì)給用戶和行業(yè)帶來更好的“聽清、聽懂和滿足”體驗(yàn)。
為了更好地喚醒萬物,小度智能設(shè)備開放平臺(tái)在技術(shù)能力、解決方案、平臺(tái)體系三個(gè)方面進(jìn)行了全面升級。
技術(shù)能力的升級,包括語音喚醒能力、語音識別能力、合成語音以及AI能力的升級。
解決方案的升級,包括更好的遠(yuǎn)場語音交互開發(fā)套件、更新的語音交互APP解決方案、更新的DuerOS for Apollo解決方案以及更新的跨場景跨設(shè)備解決方案;平臺(tái)體系的升級,包括新增的物聯(lián)網(wǎng)設(shè)備云、智能設(shè)備質(zhì)量認(rèn)證支持,平臺(tái)體系更加豐富。
與此同時(shí)DuerOS不僅大幅提升了原生技能的豐富度與用戶體驗(yàn),還發(fā)布了小度技能開放平臺(tái)。小度技能開放平臺(tái)將面向內(nèi)容類、智能家居類、生活服務(wù)類合作伙伴,開放百度的自然語言理解、知識圖譜及系統(tǒng)意圖等核心AI能力。目前DuerOS的技能生態(tài)已擁有超過200個(gè)技能。
百度人工智能交互設(shè)計(jì)院院長關(guān)岱松在現(xiàn)場宣布人工智能交互設(shè)計(jì)院正式成立,該設(shè)計(jì)院將以報(bào)告輸出、產(chǎn)品測評等形式幫助幫助DuerOS的合作伙伴和全球AI產(chǎn)品在交互設(shè)計(jì)上不斷提升優(yōu)化。
同時(shí)“普羅米修斯計(jì)劃”也正式啟航,該計(jì)劃包含開放超大規(guī)模對話式AI數(shù)據(jù)集、跨學(xué)科合作等,同時(shí)會(huì)通過一個(gè)100萬美元的基金用以鼓勵(lì)和培養(yǎng)對話式AI領(lǐng)域的優(yōu)秀項(xiàng)目和人才。
會(huì)后,景鯤接受了媒體專訪,他在專訪中表示,目前大家在實(shí)際生活中對人機(jī)交互的感受還不多,但是人機(jī)交互是更自然的方式,百度非常有信心,我們需要給這個(gè)產(chǎn)業(yè)一點(diǎn)耐心。
在采訪中,有媒體問到人工智能操作系統(tǒng)的難度。景鯤認(rèn)為,百度是唯一一個(gè)有資源、也有技術(shù)儲(chǔ)備、能夠知道每個(gè)模塊之間的挑戰(zhàn)在哪里、怎么能夠集成第三方的合作模塊的,甚至在某些場景里面,只有百度這個(gè)模塊做得好。景鯤認(rèn)為作為操作系統(tǒng),公司的基因也很重要。他認(rèn)為百度是唯一一家真的有機(jī)會(huì)能夠把這個(gè)事情做成的,而且從百度現(xiàn)在整個(gè)進(jìn)展來看,還不錯(cuò)。(溫泉)
以下為專訪速記全文:
景鯤:大家好,我是景鯤,很多朋友都見了好幾次,都很熟了,大家朋友圈都看到了我很多信息,我負(fù)責(zé)百度度秘DuerOS平臺(tái)。
主持人:大家有什么問題可以提問。
提問:我是來自深圳關(guān)注智能硬件的一家媒體。當(dāng)我們作為記者,其實(shí)用人機(jī)交互這種形式接受是比較快的,但是實(shí)際上有多少普通的老百姓有這樣的方式,用機(jī)器對話?我們看的比較多的場景是車?yán)锩妫依锩嬗靡粝洌€有其他的部分,包括我們那么多的設(shè)備發(fā)出去了,真正有多少人在用,這個(gè)交互形式是不是成熟?DuerOS在這方面有什么樣的計(jì)劃?
景鯤:我覺得任何一代新的交互出現(xiàn)的時(shí)候,從原來的鍵盤、鼠標(biāo),到后來的觸摸屏,電阻屏,電容屏,這種交互變革不是一下子用戶馬上就轉(zhuǎn)變了。如果看整個(gè)智能手機(jī)的普及,iPhone4在中國出現(xiàn),才開始真正大規(guī)模的普及。這個(gè)時(shí)候,我們需要給這個(gè)產(chǎn)業(yè)一點(diǎn)耐心,首先這個(gè)語音交互在某些場景下是更便捷、更自然的。像你剛才說的,在車的場景或者是家的場景,有的時(shí)候在像耳機(jī)這種穿戴場景,甚至有時(shí)候在手機(jī)的場景,手機(jī)放在車?yán)锩妫矣X得都是一種更自然的交互。所以我們需要給這個(gè)交互更多的信心。這種交互變革更需要百度這樣的大平臺(tái)去推動(dòng)。因?yàn)檫@樣的變革往往需要更多的資源和資本的力量。所以O(shè)S是放在時(shí)代前沿的位置,我們推著它往前走。說到如何讓老百姓接受,我覺得整體的體驗(yàn)是很重要的。整個(gè)語音交互的體驗(yàn),不止是語音交互的喚醒,是對整個(gè)產(chǎn)品的顏值、聲音,整個(gè)一套端到端的體驗(yàn)。這些都是推動(dòng)人接受語音交互這種產(chǎn)品體驗(yàn)往前走比較重要的因素。
我們內(nèi)部在跟很多合作伙伴一起合作,所以我們能看到很多數(shù)據(jù)。我們看到的數(shù)據(jù)是很正向的,很多用戶在接受這種新的智能設(shè)備之后,從原來的好奇、到后面每天在一些固定場景的使用,其實(shí)都能夠養(yǎng)成一些習(xí)慣。這也是我們看到很多公司在不遺余力的推動(dòng)這個(gè)方向背后,看到的一些信號。所以從我們的角度來講,我覺得是非常有信心的,是很正面的,用戶在接受這種新的交互。
提問:我來自搜狐科技。今天上午Robin講到免關(guān)鍵詞的這種自然語言交互方式,我以前也了解過其他廠商類似的方案,覺得這種產(chǎn)品用關(guān)鍵詞的話,可能隱私性相對好一點(diǎn)。如果沒有關(guān)鍵詞的話,有可能要把平時(shí)說的話識別出來上傳到云端,然后再傳下來理解,隱私的問題怎么保護(hù)?另外一個(gè)問題就是,現(xiàn)在有些廠商他們也推出了全棧式的語音開放平臺(tái),DuerOS這邊怎么看待這個(gè)事情?以后有沒有相應(yīng)的計(jì)劃?
景鯤:我覺得這兩個(gè)問題都問得特別好。第一個(gè)問題,隱私問題特別關(guān)鍵,可能很多媒體朋友都很關(guān)心。我稍微解釋一下,Robin的那個(gè)演示,他有些細(xì)節(jié),不知道大家有沒有關(guān)注到。他是戴了一個(gè)耳機(jī),我們在手機(jī)上的這種自然語言交互現(xiàn)在的前提是都需要戴著一個(gè)耳機(jī),耳機(jī)是一個(gè)很私人的設(shè)備。另外他是用的手機(jī)百度的一個(gè)特殊模式,就是聽新聞的模式。如果大家下載手機(jī)百度9.0,這個(gè)模式是要先打開新聞,然后APP會(huì)提示你,已開始聽你說話。然后再提示你,戴上耳機(jī)更好。這個(gè)免喚醒詞目前是這樣的一種體驗(yàn)。并不是家里的一個(gè)設(shè)備,一直在聽用戶說話。
提問:或者類似于那種智能音箱。
景鯤:現(xiàn)在還沒有用到智能音箱,因?yàn)橹悄芤粝湓诩彝鼍爸械碾[私、不同場景的隱私都是需要特別處理的。所以這種免關(guān)鍵詞的設(shè)備,目前就是在手機(jī)App中配合耳機(jī)來使用,并不存在隱私方面的問題。在家庭隱私方面,其實(shí)大家都會(huì)有很多考慮。比如說現(xiàn)在業(yè)界普遍的做法是先喚醒它,再跟它說話,這個(gè)時(shí)候才會(huì)跟云端有直接交互。你不喚醒它,這個(gè)設(shè)備跟云端沒有任何交互。這是關(guān)于隱私方面的問題。免關(guān)鍵詞是Robin在限定的場景、限定的設(shè)備上實(shí)現(xiàn)的。
你提到的一些公司研發(fā)語音套件,我其實(shí)特別高興,我跟他們是很好的朋友,在朋友圈里面有時(shí)候私下聊一聊。我覺得尤其在中國市場,甚至在國外市場也是一樣,推動(dòng)的人不能是一家,要是一個(gè)產(chǎn)業(yè),大家一起做。剛才我講到產(chǎn)、學(xué)、研,最好是產(chǎn)學(xué)研一起推,這個(gè)事情才走得快。所以我永遠(yuǎn)覺得,市場最健康的時(shí)候是大家都往前推的時(shí)候。所以我特別開心,有些其他公司,包括將來的合作伙伴大家都在一起推進(jìn),我覺得這對產(chǎn)業(yè)是一個(gè)特別好的事情。
提問:有沒有相應(yīng)的一些計(jì)劃?咱們會(huì)不會(huì)也會(huì)出全棧式的設(shè)備?
景鯤:我剛才說的DuerOS,其中有一塊是更好、更多的語音解決方案,所以我們就會(huì)有一個(gè)跟聲智科技合作的全棧式開發(fā)套件。為什么會(huì)推出這個(gè)?我們都是基于合作伙伴反饋的。我們在開發(fā)者大會(huì)的時(shí)候推出的是一個(gè)單獨(dú)的語音識別的套件,要搭配樹莓派一起用。有些開發(fā)者說做成一體化得更好,所以我們今天下午也會(huì)宣布跟聲智公司合作了,一體化的解決方案。
提問:我們知道,做一款語音交互的智能產(chǎn)品需要很多的技術(shù)板塊,比如信號降噪、語音識別等等,需要很多技術(shù)合在一起。今天我們看到很多的技術(shù)是拿來主義,比如語音識別用A廠商的,還有用C廠商的。然而拼湊就會(huì)有問題,比如一個(gè)做信號降噪和一個(gè)做語音識別的公司對接,前者的技術(shù)目標(biāo)可能是降噪,讓耳朵聽起來清晰,但是耳朵的機(jī)理和機(jī)器是不一樣的,所以對后者而言,前者的信號處理是一個(gè)黑匣子。物聯(lián)網(wǎng)的時(shí)代,做產(chǎn)品的復(fù)雜度不是一個(gè)量級的,上下游之間耦合的時(shí)候會(huì)存在巨大的摩擦力。而且有一個(gè)地方堵住了,全部就都堵住了。我也聽到一種業(yè)界的聲音,人工智能行業(yè)短時(shí)間很難出現(xiàn)真正的操作系統(tǒng)。因?yàn)橥耆灰粯樱瑳]法標(biāo)準(zhǔn)化。所以有人說,在業(yè)界走的比較久的人,他們會(huì)自己提到端到端,他們很難是一套操作系統(tǒng)。所以我想作為操作系統(tǒng)的代表,DuerOS怎么看待這個(gè)事情?
景鯤:首先我覺得你這個(gè)問題問得很好。將來慢慢產(chǎn)業(yè)肯定都會(huì)走標(biāo)準(zhǔn)化,基本上任何產(chǎn)業(yè)都是一樣的。比如說車這個(gè)產(chǎn)業(yè),發(fā)展這么長時(shí)間了,你也會(huì)發(fā)現(xiàn),特斯拉很多的元件也是從別人那里采購的,搭到一起,再經(jīng)過端到端的打磨,并不是特斯拉每一個(gè)零件都是自己生產(chǎn)的,它的電池也不是自己生產(chǎn)的。所以我覺得,整個(gè)產(chǎn)業(yè)慢慢都會(huì)標(biāo)準(zhǔn)化,不同的人擅長打磨單獨(dú)一個(gè)模塊,把這個(gè)模塊優(yōu)化到最優(yōu),沒有一個(gè)公司能夠真正有資源,每一個(gè)模塊都打造到最優(yōu),肯定是一個(gè)生態(tài)系統(tǒng)的合作,這是我對整個(gè)標(biāo)準(zhǔn)化未來的看法。
現(xiàn)在我們的渡鴉就是端到端整個(gè)的解決方案,為什么要做渡鴉?我覺得產(chǎn)品體驗(yàn)最重要,端到端可能對某些不同的模塊把握得更好一些。渡鴉從設(shè)計(jì)到降噪,整個(gè)都是百度的。但是這個(gè)時(shí)候我覺得,人工智能對話式人機(jī)交互涉及到很多場景,有耳機(jī)、音箱、電視、車的場景,不可能一個(gè)公司全部的產(chǎn)品都是端到端的,這個(gè)資源太大了。所以這個(gè)時(shí)候,要能夠把業(yè)界最好的科技公司的技術(shù)適當(dāng)?shù)娜诤显谝黄稹_@個(gè)時(shí)候,我覺得就是操作系統(tǒng)的機(jī)會(huì)。因?yàn)槟悴豢赡芨采w那么多的端到端,比如聲智科技,他在整個(gè)語音麥克風(fēng)陣列識別上做得很好,跟很多大公司合作。從技術(shù)角度來講,我們可以找到比較清楚的邊界,同時(shí)統(tǒng)一打磨用戶體驗(yàn)的技術(shù)路徑,并不是完全端到端才能實(shí)現(xiàn)的這種技術(shù)路線。在這個(gè)時(shí)候,你說是不是需要一個(gè)操作系統(tǒng)?我覺得是絕對需要的,要不然用戶體驗(yàn)是不統(tǒng)一的。很多你看到的一些公司,小公司操作系統(tǒng)很難做,因?yàn)樯婕暗皆O(shè)備合作伙伴,不同的模塊太多了。我覺得百度是唯一一個(gè)有資源、也有技術(shù)儲(chǔ)備、能夠知道每個(gè)模塊之間的挑戰(zhàn)在哪里、怎么能夠集成第三方的合作模塊的,甚至在某些場景里面,只有我們這個(gè)模塊做得好。我覺得作為操作系統(tǒng),這個(gè)公司的基因也很重要。我覺得百度是唯一一家真的有機(jī)會(huì)能夠把這個(gè)事情做成的,而且從我們現(xiàn)在整個(gè)進(jìn)展來看,還不錯(cuò)。
提問:早晨渡鴉登場的時(shí)間比Robin和陸奇加起來還要多,你覺得渡鴉這個(gè)產(chǎn)品的銷量會(huì)怎么樣?
景鯤:我聽說今天下午他們官網(wǎng)快被擠爆了。從我的角度來講我是很樂觀的,我永遠(yuǎn)不會(huì)質(zhì)疑中國人的購買力,你只要這個(gè)東西做得好,是可以打好某一個(gè)市場的。就像你這種很Fashion的,你要不買就不Fashion了,所以你回去得買一個(gè),我覺得渡鴉有它的市常目前整體的智能硬件市場,說實(shí)話我覺得現(xiàn)在相比手機(jī)來講不算那么大。這個(gè)市場跟手機(jī)差了幾個(gè)量級,所以這個(gè)市場容量是巨大的。任何一個(gè)階段都有這個(gè)市場容量,并不是他打到那個(gè)階段,他的銷量就會(huì)被別的銷量挑戰(zhàn),很多還是賣得很好。所以我覺得它是有它的市場的。但是我并不是太關(guān)注它的銷量,我們內(nèi)部關(guān)注一個(gè)指標(biāo),叫“凈推薦值”。就是這個(gè)設(shè)備你買了之后,你會(huì)不會(huì)向你第二個(gè)朋友推薦。這是很關(guān)鍵的指標(biāo),這個(gè)代表產(chǎn)品體驗(yàn)。只要這個(gè)值高,大家都覺得這個(gè)產(chǎn)品是一個(gè)好產(chǎn)品,我覺得這個(gè)目的就達(dá)到了。我們也不用給iPhone第一代一個(gè)很宏大的目標(biāo),但是它是人機(jī)交互的一個(gè)標(biāo)桿,我們打出第一款產(chǎn)品來,這個(gè)目標(biāo)就已經(jīng)很好了。
提問:我是人民網(wǎng)的記者。我剛剛聽到您在臺(tái)上講的,開發(fā)者大會(huì)之后,我們有更多的合作伙伴,我想請問一下這4個(gè)月當(dāng)中有沒有什么新的合作伙伴跟我們分享一下?屏幕上放了一些小米、美的等等,除了這些比較大的之外,如果有一些小的創(chuàng)業(yè)公司或者是個(gè)人開發(fā)者找過來,我們會(huì)采取怎樣的合作方式?
景鯤:首先我們個(gè)人開發(fā)者很多,我們大概做了三場圍繞開發(fā)者的線下活動(dòng)。火爆程度都超乎了我們的預(yù)期,基本上200人的場來400人。所以我們看到,整個(gè)長尾的,個(gè)人開發(fā)者的熱情是特別高的。所以我們的開發(fā)套件,最開始我們做整個(gè)軟硬結(jié)合。7月5日我們發(fā)布的時(shí)候碰到了一個(gè)挑戰(zhàn),就是我們的庫存不足,補(bǔ)了兩個(gè)月才滿足這個(gè)庫存。一開始我們沒有這么大的概念,但是這是一個(gè)信號,就是開發(fā)者的熱情是特別高的。關(guān)于我們新的合作伙伴,大概在這個(gè)月和下個(gè)月可能就會(huì)宣布兩個(gè)新的、很重量級的合作伙伴,這個(gè)我先不說,大家期待一下,是非常重要的合作伙伴。
今天下午因?yàn)槟銈兿壬蟻砹耍覀兙陀袔讉€(gè)重量級的合作伙伴宣布了。比如今天下午我們宣布了跟飛利浦的合作。他們是國外最流行的智能家居燈泡設(shè)備。DuerOS是首家跟他們達(dá)成這方面戰(zhàn)略合作的。今天下午我們跟招商銀行信用卡也宣布了合作,招商銀行是口碑很好的商業(yè)銀行。如果大家下載它的App的話,可以發(fā)現(xiàn)它的信用卡服務(wù)已經(jīng)做得很好了。我們的合作是第一家銀行跟對話式人工智能接口的戰(zhàn)略合作。等一會(huì)兒會(huì)發(fā)布很多跟其他新的廠商的戰(zhàn)略合作。
提問:是哪個(gè)領(lǐng)域內(nèi)比較排前的?
景鯤:我們把合作伙伴分幾層,第一層我們希望是每個(gè)品類、每個(gè)垂類里面的佼佼者和行業(yè)領(lǐng)先者,他們有聲量和勢能,他們對行業(yè)的把握非常準(zhǔn)。第二層我們也有一些中長尾的合作伙伴,他們是很有行業(yè)代表性的。這些公司也不需要很大,但是它的產(chǎn)品很有價(jià)值,大家會(huì)盯著它。可能量不大,但是它可能代表一個(gè)標(biāo)桿,這樣的合作伙伴是中長尾的。還有就是個(gè)人開發(fā)者和很多方案商,我們也有很多的合作,就不能一一枚舉了,特別多。
提問:我想接著問一下合作伙伴方面的問題。雖然今天力推渡鴉的新產(chǎn)品,但是同時(shí)DuerOS也在大規(guī)模的和第三方應(yīng)用廠商進(jìn)行合作。你們作為后面的賦能者,對自家和對別家的硬件廠商是否有一些區(qū)別?
景鯤:沒區(qū)別。從我的角度來講,我們內(nèi)部一直做的一個(gè)比喻是Surface和聯(lián)想筆記本的比喻。為什么微軟推Surface?只是猜測,是因?yàn)樾枰豢钚碌脑O(shè)備,軟硬一體化的設(shè)備,去推動(dòng)整個(gè)筆記本的變革,所以微軟做了一個(gè)Surface。雖然目前量也不大,但是推動(dòng)著整個(gè)筆記本持續(xù)往前走,是一款體驗(yàn)很好的設(shè)備。對于我們也是,渡鴉是一款標(biāo)桿性的用戶體驗(yàn)的設(shè)備。剛才說了,今天下午所有渡鴉背后的技術(shù)我們都會(huì)開放給我們的合作伙伴。在開發(fā)者大會(huì)上我們講過,百度要做的是一個(gè)AI平臺(tái)。百度目前AI平臺(tái)對于我們的壓力也很大,我們把平臺(tái)做好,這是我們追求的,所以我們要變成一個(gè)AI平臺(tái)的公司。
提問:剛剛您提到渡鴉背后的技術(shù),我想問一下,目前渡鴉背后的技術(shù)相比于其他的智能硬件的廠商來說,最核心或者說最具競爭力的技術(shù)是什么?
景鯤:渡鴉除了產(chǎn)品本身的特性之外,跟DuerOS相關(guān)的技術(shù)包括,比如說渡鴉的麥克風(fēng)陣列,它用了8個(gè)麥克風(fēng),上面蓋子4個(gè),下面底座4個(gè)。像這種新的麥克風(fēng)陣列技術(shù),基本上現(xiàn)在應(yīng)該是業(yè)內(nèi)首家嘗試的。渡鴉設(shè)備上面的蓋子拿下來之后,它是可以按住說話的,也就是它是近場的。所以說這是一個(gè)遠(yuǎn)場和近場融合的交互方式,這也是跟它的設(shè)備特性相關(guān)的。還有就是音樂的打磨,我們基本上把音樂升級之后,整個(gè)音樂標(biāo)簽做得更多了。做了7千多個(gè)應(yīng)用標(biāo)簽,讓用戶在這種智能設(shè)備上,可以播任何一個(gè)標(biāo)簽的音樂。加上我們很多新的能力,剛才在下面說,我們有100多個(gè)第三方技能,這些技能都會(huì)先跟渡鴉設(shè)備做一個(gè)緊密的結(jié)合。所以我覺得,渡鴉的整個(gè)產(chǎn)品特性是軟硬一體化的,是全面的融合。從設(shè)計(jì)到聲音,到我們的技術(shù)能力,到后面的內(nèi)容,整個(gè)包裝成一個(gè)用戶體驗(yàn)很好的產(chǎn)品。
提問:現(xiàn)在搭載DuerOS的所有硬件里面,您從后臺(tái)數(shù)據(jù)來看,哪一類產(chǎn)品的人均交互比例是最高的?
景鯤:都挺高的。我要說哪個(gè)最高,其他的就不高興了,其實(shí)都挺高的。
提問:剛才您也談到咱們有很多的合作伙伴和硬件解決方案,我想知道,落地最多的場景是哪些?以及您看好哪些產(chǎn)品?
景鯤:我只能從我們自己的角度出發(fā)。現(xiàn)在市面上看到大的手機(jī)的合作廠商,背后很多語音交互的能力都是我們提供的。潛移默化的,DuerOS已經(jīng)在很多手機(jī)背后了。在電視的場景,我們無論是跟傳統(tǒng)的智能電視廠商、還是跟OTT有線盒子,還是廣電系的盒子,基本上都有很好的合作。音箱上也有很多,剛才說的有一家DOSS音箱,它本來是出口的,搭載Alexa系統(tǒng)出口到國外的。但是它瞬間就搭載了DuerOS系統(tǒng)在國內(nèi)銷售,已經(jīng)在亞馬遜上開賣了。車載我們是跟Apollo緊密合作在一起的,所以基本上我們跟北汽、一汽都會(huì)合作搭載DuerOS系統(tǒng)的設(shè)備。再其他的就更加分散了,像可穿戴、耳機(jī),就稍微分散一些。幾個(gè)大的品類就是剛才說的那些。
提問:我想問一下,據(jù)7月份百度開發(fā)者大會(huì)已經(jīng)過去幾個(gè)月了,您認(rèn)為整個(gè)智能語音市場在這個(gè)格局發(fā)生了哪些變化?包括從技術(shù)、玩家。
景鯤:首先我覺得過去的4個(gè)月是特別突飛猛進(jìn)的4個(gè)月,我沒想到這4個(gè)月變得這么熱鬧。我們從7月5日發(fā)布這個(gè)平臺(tái)之后,這4個(gè)月的過程當(dāng)中,基本上中國數(shù)得上的公司都已經(jīng)推出了類似的東西。所以這4個(gè)月的發(fā)展我覺得很好,從我的角度,我覺得特別高興。我們作為驅(qū)動(dòng),有很多不同的人、不同的公司都加入到這個(gè)過程當(dāng)中去推動(dòng)這種變革。
我個(gè)人覺得,人機(jī)交互真正的變革時(shí)間會(huì)比較長,光這4個(gè)月還不夠,可能要以年來計(jì)。現(xiàn)在大家都在起步階段,所有的公司可能都在起步階段,很多公司都在加入這個(gè)行業(yè)。所以我希望整個(gè)行業(yè)都能保持這種熱情,把這種人機(jī)交互再持續(xù)往前推,推到每個(gè)家庭,就覺得它是一個(gè)必需品。
提問:我們都知道百度的目標(biāo)合作群體有很多,大到企業(yè),小到個(gè)人開發(fā)者。企業(yè)就不說了,對于個(gè)人開發(fā)者來說,百度能提供一個(gè)什么樣的幫助和支持?讓他們能夠更好的開發(fā)?而且我們之前喜歡把這種關(guān)系形同為與iOS、Android對于App開發(fā)者的關(guān)系是一樣的。在實(shí)施的過程中,怎么樣能夠保證安全性和可操作性?
景鯤:安全性是指的隱私安全嗎?
提問:個(gè)人開發(fā)者肯定要用到用戶的一些隱私。作為百度來說,怎么能保證這個(gè)安全性?
景鯤:首先我說一下為什么我們要發(fā)展個(gè)人開發(fā)者?我們真正要推動(dòng)一個(gè)產(chǎn)業(yè),需要從產(chǎn)業(yè)頭部廠商、中小廠商和個(gè)人開發(fā)者共同推動(dòng)。尤其我們看到一個(gè)信號:個(gè)人開發(fā)者雖然不具備很多渠道,但是它的創(chuàng)意是無限的,是特別有創(chuàng)意的,基本上可以把他的能力放在不同的設(shè)備上。前一段時(shí)間有一個(gè)開發(fā)者把語音對話的模塊放到了燕舞的收音機(jī)上,讓那個(gè)設(shè)備重新煥發(fā)了青春。燕舞公司直接找到百度,原來燕舞的群體是今天消費(fèi)能力最強(qiáng)的群體,DuerOS讓他們的公司有了更多的活力。所以個(gè)人開發(fā)者對于我們的生態(tài)來講能貢獻(xiàn)很多想象力,是一個(gè)源泉,很有意義。說到隱私,我覺得倒不太存在,因?yàn)閭€(gè)人開發(fā)者往往開發(fā)的個(gè)人設(shè)備都是自己使用的,他沒有很強(qiáng)的渠道推廣能力,不能推廣到很多人,他都是自己使用的。
提問:百度能給這樣的個(gè)人開發(fā)者提供什么樣的支持和幫助?
景鯤:比如今天下午跟聲智做的一體化開發(fā)套件,相當(dāng)于它將為個(gè)人開發(fā)者提供一個(gè)軟硬一體化的方案。我們今天下午還會(huì)發(fā)布我們的技能平臺(tái),開發(fā)者可以在云端打造自己的技能,在云端把資源、能力、技能跟下面的搭載在一起,就成為他自己端到端的一個(gè)解決方案,自己可以玩,可以用,很好。
提問:我們經(jīng)常做語音交互的時(shí)候,會(huì)按一下,Hi,Siri,或者是Hi,小度,或者說小度小度,有一個(gè)喚醒詞。我今天早上聽到在介紹的時(shí)候,在月末的時(shí)候不需要這種喚醒詞,請問這個(gè)技術(shù)是怎么樣實(shí)現(xiàn)的?
景鯤:這個(gè)跟剛才的那個(gè)問題是一樣的,這種技術(shù)只是在手機(jī)百度這個(gè)場景里面,在聽新聞的模式,是免喚醒詞的。需要進(jìn)入一個(gè)特定的語音交互的模式,其他的模式里面還沒有應(yīng)用到。
提問:我來自36Kr,咱們DuerOS一直強(qiáng)調(diào)要做人工智能時(shí)代的Android。從生態(tài)系統(tǒng)層面來看,您認(rèn)為哪些環(huán)節(jié)是比較關(guān)鍵的?
景鯤:我覺得現(xiàn)在最重要的環(huán)節(jié)是用戶體驗(yàn)。尤其是當(dāng)我們的合作伙伴變多之后,是不是能保證每個(gè)設(shè)備都能有一個(gè)比較好的一致性的用戶體驗(yàn)?這個(gè)對于我們來講是比較關(guān)鍵的。因?yàn)檫@種時(shí)候,最好能達(dá)到這樣的效果:就是能讓用戶在不同的場景里面,使用任意一款搭載DuerOS的設(shè)備以后,在那個(gè)場景里面都是喜歡這個(gè)DuerOS賦能的設(shè)備的,并且習(xí)慣一直用這個(gè)設(shè)備。所以我認(rèn)為現(xiàn)在最重要的就是整個(gè)用戶體驗(yàn),你是不是真正買一個(gè)音箱回去能持續(xù)用?你說的話它能懂?打開包裝,有一個(gè)從來沒用過智能音箱的人說這是什么?你說這是一個(gè)智能音箱,一句話就能清楚,一句話就能跟這個(gè)設(shè)備交互,我覺得這種體驗(yàn)是現(xiàn)在生態(tài)系統(tǒng)的核心,我們生態(tài)系統(tǒng)必須要靠比較好的體驗(yàn)才能往前推。
提問:剛剛他們都說到我們之后要推一個(gè)沒有喚醒詞的設(shè)備,我很好奇,我們在開發(fā)者大會(huì)的時(shí)候收購了一個(gè)做喚醒詞的小的團(tuán)隊(duì),我想知道他們在這4個(gè)月當(dāng)中是承擔(dān)著一個(gè)什么樣的角色?為什么我們收購了這樣一個(gè)做喚醒詞的小的團(tuán)隊(duì),現(xiàn)在我們又推出無喚醒詞這樣一項(xiàng)技術(shù)?
景鯤:它只是在手機(jī)百度App這個(gè)環(huán)境里面,朗讀模式免喚醒詞。不是在家庭環(huán)境中的那種智能設(shè)備的喚醒詞,那是做不到的,而且也存在一些隱私問題。所以只是限定場景,限定在App里面的人機(jī)交互。在家居的智能交互里面,喚醒詞是必不可少的,因?yàn)橛幸欢[私的保護(hù)性,先喚醒它之后再跟它說話,沒喚醒之前,他不跟人做任何的交互。我們收購的公司叫KITT.AI,是做智能家居領(lǐng)域智能交互的喚醒詞的。我們很多合作伙伴都想做自己的喚醒詞,包括DuerOS賦能的音箱、冰箱、電視,他們都需要在設(shè)備上為喚醒做優(yōu)化。他們往往需要針對設(shè)備優(yōu)化。因?yàn)辂溈孙L(fēng)的距離不一樣,麥克風(fēng)的個(gè)數(shù)不一樣,所以需要對于這些設(shè)備進(jìn)行特別的調(diào)優(yōu)才能真正保證好的用戶體驗(yàn)。通過KITT.AI,我們已經(jīng)把這種技術(shù)推給我們的合作伙伴,搭載在他們的麥克風(fēng)里面,使得效果更好。
提問:我們這次推出的智能硬件是搭載DuerOS系統(tǒng)的,和之前搭載這個(gè)系統(tǒng)推出的其他產(chǎn)品有什么能力上的差別?
景鯤:它是首先搭載DuerOS 2.0的。DuerOS 2.0實(shí)現(xiàn)了各方面的能力升級,其他的設(shè)備基本上都會(huì)被升級到DuerOS 2.0上。渡鴉相當(dāng)于DuerOS 2.0的第一個(gè)標(biāo)桿,我們后續(xù)會(huì)把DuerOS 2.0開放給我們的合作伙伴。
提問:我來自機(jī)器之心。DuerOS這個(gè)名字里面,我覺得OS應(yīng)該是重點(diǎn),現(xiàn)在各個(gè)語音廠商也都是有自己的平臺(tái),模式其實(shí)看來是大同小異的。我想知道一下,DuerOS在一些商業(yè)模式、內(nèi)容模式和本身技術(shù)的模式方面和其他家的差異化在哪里?對于OS這兩個(gè)字母,我感覺定義的是有一點(diǎn)模糊。如果搭載在一個(gè)智能音箱里面,我們跟它對話交互,它就算是一個(gè)OS。其他家的這種系統(tǒng)也是搭載在音箱里面能交互,為什么Duer就能叫OS?
景鯤:首先你提到商業(yè)技術(shù)能力,商業(yè)化目前不是我們的目標(biāo)。我覺得在關(guān)鍵時(shí)候,先把用戶體驗(yàn)做對了,這是最重要的。如果用戶體驗(yàn)沒做對,商業(yè)都白扯,可能還到不了那一步,所以用戶體驗(yàn)最重要。對話式AI大家都在做,大家都看好這個(gè)方向。7月5日我也在說,科技版圖上四家最大的公司都在做對話式AI。每家公司在做的時(shí)候,基本上都會(huì)沿用之前這個(gè)公司比較擅長的。它就自然變成了這個(gè)產(chǎn)品最大的特色,基本上可以這樣看。每家的DNA不一樣,每家做了這個(gè)平臺(tái)之后,感覺也是完全不一樣的。DuerOS是把百度最強(qiáng)的能力發(fā)揮出來的一個(gè)平臺(tái),所以百度跟其他平臺(tái)有什么不一樣、DuerOS就有什么不一樣。比如有的友商語音識別做得很多,只是語音轉(zhuǎn)文字的。百度以前最大的市場是百度搜索的生態(tài)系統(tǒng),百度對語言的理解是百度最大的不一樣。所以百度最大的不一樣放到DuerOS上,這就是DuerOS最大的不一樣。相當(dāng)于DuerOS對語言的交互,對語言理解之后,還可以把更多的內(nèi)容和資源,以及開發(fā)者,原來我們的開發(fā)者是網(wǎng)站開發(fā)者,后來是App開發(fā)者,把這些都聚到一起。所以DuerOS就變成了一個(gè)窗口,去訪問原來百度后面生態(tài)平臺(tái)的很多資源。所以DuerOS就是百度AI能力和資源集大成者的一個(gè)縮影,是對話式人工智能的一個(gè)縮影,所以它最大不一樣就是百度的勢能跟其他的公司不一樣。如果你這樣去評估別人的平臺(tái),也能得到一樣的結(jié)果,就是每個(gè)平臺(tái)背后都有他整個(gè)公司的縮影,這就是這個(gè)平臺(tái)最大的不一樣。
對于OS明確的定義,其實(shí)最開始是我提出來叫OS的。我對OS更多的看法是它是一個(gè)生態(tài),一個(gè)操作系統(tǒng)。操作系統(tǒng)背后是一個(gè)生態(tài),是一個(gè)平臺(tái),不僅僅就是音箱的一款產(chǎn)品。這取決于業(yè)務(wù)的發(fā)展思路,是做一款東西,還是想做成一個(gè)生態(tài),把大家在這個(gè)平臺(tái)上一起推動(dòng)發(fā)展。我覺得DuerOS代表了我們的愿景,OS就應(yīng)該是一個(gè)生態(tài)。我稍微引申一下,一個(gè)OS最核心的關(guān)鍵點(diǎn),不是它叫不叫OS,是它是不是有自己的生態(tài)。如果他沒有自己的生態(tài),它就不是OS。移動(dòng)時(shí)代有很多OS,有很多OS叫OS,但是后來你發(fā)現(xiàn),它都沒有自己的生態(tài)。有自己的生態(tài)的全都可以稱為OS,Android有自己的生態(tài),可以稱為OS,Windows有自己的生態(tài)是OS,如果你是附著在這些平臺(tái)上的就不能叫OS,因?yàn)槟銢]有自己的平臺(tái)。所以我們DuerOS也是希望在語音交互這種新的模式下,我們能夠創(chuàng)建自己的生態(tài)。這個(gè)生態(tài)是基于新交互的生態(tài),這是我們?yōu)槭裁疵蒓S的原因,就是它是一個(gè)開放賦能的平臺(tái)生態(tài)。
提問:今天最開始在宣傳片里面,大家說現(xiàn)在這個(gè)技術(shù)是基于Android或者是Linux的,是我看錯(cuò)了嗎?
景鯤:你可以這樣想,原來那些系統(tǒng)都是上一代的,是一個(gè)底層的系統(tǒng),并不是那么關(guān)心交互的。DuerOS其實(shí)是以用戶交互為驅(qū)動(dòng)的一個(gè)操作系統(tǒng)。移動(dòng)時(shí)代跟原來的PC有很多不一樣,AI技術(shù)跟原來的不一樣,AI的設(shè)備也很多樣。這種多樣的情況下,DuerOS要做的就是通過語音交互,把用戶統(tǒng)一在一起。雖然設(shè)備很不一樣,但是都用一個(gè)交互統(tǒng)一在一起。這是DuerOS要綁定的關(guān)系。其他的OS我把它看成是我們原來的系統(tǒng)適配層,適配到原來傳統(tǒng)的OS。但是DuerOS是一個(gè)語音交互的平臺(tái),更上層一些。
提問:剛剛說到開發(fā)者,類似于DuerOS上面有100個(gè)Skills這種概念,這些Skills是開發(fā)者貢獻(xiàn)來的還是你們自己?
景鯤:我們有自己100個(gè)原生的。現(xiàn)在有很多開發(fā)者,作為我們前期的嘗鮮者,他們在我們的平臺(tái)上搭建了100多個(gè)第三方的Skills。
提問:原生的是100個(gè),還有100個(gè)開發(fā)者的?
景鯤:對,第三方的。
提問:我來自界面。跟廠商合作的時(shí)候,您了解到他們會(huì)比較看重哪些指標(biāo)?因?yàn)槲野l(fā)現(xiàn)有些廠商后來更換了百度的系統(tǒng),不知道有沒有什么具體的一些策略?要做一個(gè)設(shè)備的Android系統(tǒng),現(xiàn)在已經(jīng)到哪一步了,您覺得還差什么?
景鯤:設(shè)備廠商現(xiàn)在最關(guān)注聽懂和滿足,如果用原來的核心三要素:聽清、聽懂和滿足,現(xiàn)在設(shè)備廠商最關(guān)心聽懂和滿足。很多智能音箱可能覺得有點(diǎn)傻,交互不是那么自然,問它東西它不懂。所以現(xiàn)在這一塊是我們的合作伙伴最關(guān)心的。其實(shí)這一塊是老百姓最關(guān)心的。老百姓不關(guān)心你這三個(gè)模塊,老百姓最關(guān)心我隨便問你一句話,你真正能懂我,給我一個(gè)東西。所以聽懂和滿足,是所有合作廠商現(xiàn)在最關(guān)心的。
提問:都是技術(shù)層面是嗎?
景鯤:滿足有點(diǎn)像資源豐富度的層面,聽懂是技術(shù)層面,就是有大家Query能聽懂。我們最近做的渡鴉設(shè)備,它在聽懂層面上是遠(yuǎn)遠(yuǎn)超過其他競品的,所以我們把它定位為標(biāo)桿設(shè)備,或者是智能硬件設(shè)備。我覺得發(fā)展到現(xiàn)在,我們需要探索如何做一個(gè)最好的產(chǎn)品體驗(yàn)。現(xiàn)在大家都有點(diǎn)Follow美國Echo的路線,就是他們怎么做我們怎么做。我覺得我們要做世界級的DuerOS。人機(jī)交互在美國也是很初期的,尤其在中國的場景里面,中國的家庭環(huán)境比較小,美國是大房子,中國是小房子,我們都是一居室、兩居室、三居室的房間,什么樣的交互是好的交互,多快的交互是好的交互?這些需要很多的探索。今天下午發(fā)布的百度人工智能交互設(shè)計(jì)院會(huì)在12月份發(fā)布行業(yè)里面第一個(gè)很有價(jià)值的報(bào)告,就是智能音箱的交互多快是快,多快是好。像這些東西,大家如果不關(guān)注用戶體驗(yàn),都不會(huì)看到這種細(xì)節(jié),就會(huì)覺得現(xiàn)在Echo這個(gè)就是好,之前從媒體上我們都沒看到你們寫過智能音箱多快是好。
提問:1.5秒?
景鯤:我們現(xiàn)在基本上是1.25秒到1.4秒。現(xiàn)在講的極致的最好的是650毫秒。如果再快,在現(xiàn)在來講,用戶會(huì)覺得雖然你很智能,但有點(diǎn)搶話。就像這樣一個(gè)小問題,原來我們做搜索引擎的時(shí)候覺得越快越好,但是在這種新的人機(jī)交互上來講,你會(huì)發(fā)現(xiàn)有很多原來的認(rèn)知都會(huì)有變化。所以我覺得在細(xì)節(jié)上,已經(jīng)做了很多了。比如現(xiàn)在的智能音箱,你叫它一聲,現(xiàn)在有的不出聲,亮一個(gè)燈,有的音箱是你叫它一聲、它“叮”響一聲,有的音箱你叫它一聲,它回復(fù)“唉”,用人聲回復(fù)。我們發(fā)現(xiàn),你在不同的時(shí)間點(diǎn)按,用不同的交互都是好的。1.4秒以后用人聲會(huì)好一點(diǎn),人會(huì)覺得慢一點(diǎn),人反饋會(huì)好一點(diǎn)。1.4秒以內(nèi)用人聲回復(fù),就會(huì)增強(qiáng)那種搶話的感覺,這個(gè)時(shí)候用“叮”一聲更合適。這個(gè)聲音跟人聲是不一樣的,可能不用人聲回答。再往前,Alexa就是指示燈,沒有聲音,不同的時(shí)間用不同的交互。我們在這個(gè)方面花了很多的時(shí)間,探索怎么能夠讓產(chǎn)品體驗(yàn)最好。回答你剛才的問題,還是把用戶體驗(yàn)做對。把每個(gè)設(shè)備在每個(gè)場景里面的用戶體驗(yàn)做對,現(xiàn)在是最重要的。
主持人:謝謝各位媒體朋友,如果有什么問題的話可以隨時(shí)再聯(lián)系,感謝大家!
評論
查看更多