智能語音作為人機交互的新型方式,有望大規(guī)模推廣,中國市場是更適合語音交互的市場。
2017年中國人工智能市場規(guī)模達約220億元,智能語音占中國人工智能市場份額的22%,價值約48億元,僅次于計算機視覺。
IDC在2018年10月的報告中預測,中國對話式人工智能市場規(guī)模將在2022年達到約78億人民幣,2018-2022年年復合增速將為57%。
中國企業(yè)在智能語音領(lǐng)域已經(jīng)非常領(lǐng)先,有望超越西方國家。主要原因是:1)各個應用場景的市場體量要遠超西方,比如在教育領(lǐng)域,每個老師需要面對的學生數(shù)量,以及銀行客服領(lǐng)域,每一個客戶需要處理的請求數(shù)量都是遠超西方市場。2)相比于西方語言,中文更難書寫,但是句法和語法更易理解。因此對于中文,語音是相比于書寫和輸入來說,更自然的交互方式。
早在1952年,貝爾實驗室就創(chuàng)造了一臺名為Audrey的機器,能夠以90%的準確度理解數(shù)字0-9。耐人尋味的是,這個準確度僅在機器發(fā)明者發(fā)言時可以達到。
僅僅是在近幾年,語音識別技術(shù)才為公眾所知。技術(shù)巨頭紛紛舉辦聲勢浩大的發(fā)布活動,Siri、Cortana、Alexa的出現(xiàn)讓社會的關(guān)注度和預期提升,但也因為其功能有限而無法達到用戶的預期。
隨著深度學習,機器學習芯片和算法取得突破,ASR、NLP和TTS在過去5年中迅速進步。語音識別的單詞錯誤率大幅降低,這主要是由于使用了更高效的聲學模型,運用深度神經(jīng)網(wǎng)絡(luò)(DNN)取代高斯混合模型(GMM,之前多年以來的首選方法)等統(tǒng)計技術(shù)。
Nuance的研究主管NilsLenke展示數(shù)據(jù)顯示,在將深度神經(jīng)網(wǎng)絡(luò)算法成功納入語音識別系統(tǒng)后,單詞錯誤率從2010年左右開始急劇下降,每年降低約18%。
語音識別和自然語言處理這兩個相鄰領(lǐng)域很難相互跨越。不同的公司可能專注于其中一個領(lǐng)域。比如,科大訊飛更專注于語音領(lǐng)域,而小i機器人更專注于自然語言理解。語音識別的公司在自然語言領(lǐng)域看起來并不成功,而專注自然語言的公司在語音識別領(lǐng)域也難有斬獲。
相比西方國家,語音識別技術(shù)和自然語言處理技術(shù)在中國發(fā)展迅速主要是自身的獨特因素導致,分別是用戶規(guī)模和中文特點。
▌中國智能語音市場規(guī)模不斷擴大
市場規(guī)模:根據(jù)中國信息通信研究院的數(shù)據(jù),2017年人工智能市場規(guī)模達約220億元,預計到2020年將達到710億元,年均復合增速為48%。2017年,智能語音占中國人工智能市場份額的22%,約合48億元。
主要參與廠商:在國內(nèi)智能語音市場,科大訊飛以44%的市占率高居榜首。
2015年,國內(nèi)智能語音市場排名前五的廠商是科大訊飛、百度、蘋果,Nuance和小i機器人,合計占據(jù)85%的市場份額。科大訊飛在國內(nèi)市場的市場份額達到44%。
在全球市場,2015年的全球智能語音行業(yè)市值達到61億美元,Nuance、谷歌、蘋果、微軟和科大訊飛前五大廠商市場份額合計占比80%。
隨著語義理解技術(shù)運用頻率增加,對話式人工智能技術(shù)應用領(lǐng)域和場景將望快速擴展。
IDC在2018年10月的報告中預測,中國對話式人工智能市場規(guī)模將在2022年將達到78億人民幣,2018-2022年年復合增速為57%。
從IDC的能力象限來看,科大訊飛、百度、阿里巴巴、小i機器人和思必馳為領(lǐng)先企業(yè)。我們認為,在收入方面,科大訊飛和小i機器人應最為領(lǐng)先。
雖然IDC將科大訊飛和小i機器人都列為對話式人工智能平臺廠商,但兩者之間存在重大差異:科大訊飛主要是一家語音識別和語音自動化公司,而小i機器人主要是一家自然語言處理公司。
▌國內(nèi)語音AI市場參與者不斷加入
國內(nèi)語音AI市場上參與者不斷涌入,中國市場主要參與者可分為以下四類:
第一類是在深度學習算法大規(guī)模應用之前,就已經(jīng)從事這個領(lǐng)域的專業(yè)語音公司,比如科大訊飛或者小i機器人,專注于需要豐富行業(yè)知識的垂直領(lǐng)域。
第二類是AI初創(chuàng)公司,如思必馳、云知聲、出門問問。這些公司主要關(guān)注多用途的云平臺和一些特定的垂直領(lǐng)域,如智能汽車或智能家居。
第三類是百度、阿里、騰訊等互聯(lián)網(wǎng)公司,主要推出移動端消費者語音產(chǎn)品。BAT的多用途云平臺源自他們自己的核心產(chǎn)品,如騰訊的微信。
第四類是亞馬遜、蘋果、Nuance等海外互聯(lián)網(wǎng)公司。我們認為這些公司有三個重要看點:
技術(shù)的準確性和可靠性。
科大訊飛或小i機器人等垂直領(lǐng)域提供商的準確性和可靠性遠遠高于BAT的通用消費者平臺。這是因為BAT平臺大多是免費的,而科大訊飛或小i機器人主要面向企業(yè)客戶提供服務,相比普通網(wǎng)民,企業(yè)客戶對價格敏感程度低,但對功能的準確性和可靠性要求高。
是否擁有針對場景開發(fā)的方案和產(chǎn)品。
科大訊飛或小i機器人擁有專門針對特定行業(yè)和場景進行技術(shù)和內(nèi)容研發(fā)的團隊;我們認為BAT在這方面不會直接投入,一方面因為B端市場尚未成為他們最核心的盈利來源,另一方面因為單個細分領(lǐng)域或者場景的盈利規(guī)模太小,不足以吸引他們投入。
針對的是企業(yè)級還是消費技術(shù)市場?
我們認為消費者市場的直接變現(xiàn)機會很少,因為1)消費者注重的是便利性(比如詢問Alexa收音機:“今天天氣怎么樣?”),而企業(yè)則注重節(jié)約成本、減少員工人數(shù)等因素,2)在消費市場中,一些硬件+語音提供商以成本價或接近成本價的價格銷售設(shè)備/服務(亞馬遜和小米就是最好的例子),然后在其他業(yè)務中盈利。
▌一級市場公司:各有所長,各有所專
小i機器人:AI領(lǐng)域早期領(lǐng)導者,掌握NLP領(lǐng)域核心競爭力聊天機器人早期參與者
對于外國讀者來說,小i讀作Xiao-I或“smalli”,也就是小i機器人的意思。公司于2001年在上海成立,是中國首批研發(fā)自然語言處理(NLP)和對話式人工智能應用程序的公司之一。
聯(lián)合創(chuàng)始人兼董事長袁輝先生曾在惠普和微軟工作。聯(lián)合創(chuàng)始人兼首席執(zhí)行官朱頻頻是中國科學院博士,昵稱PP。朱博士持有多項專利,包括聊天機器人系統(tǒng)和SMS機器人系統(tǒng)。他在微信上開發(fā)了中國第一款智能機器人。
2017年,GartnerSymposium將小i機器人、Siri、微軟的Cortana、亞馬遜的Echo一起被推薦為“會話+”領(lǐng)導者。“會話+”是指將會話功能集成到所有類型的服務和應用中,這意味著聊天機器人將取代搜索成為互聯(lián)網(wǎng)的唯一入口。
此外,小i機器人還被Gartner列為2017年虛擬客戶助理(VCA)代表供應商,與IBM和Nuance在同一陣營推動全球AI發(fā)展。由Gartner定義的VCA是一個通過模擬會話來傳遞信息和代替客戶采取行動的應用程序。
從語音交互到認知產(chǎn)品的巨大轉(zhuǎn)變
與其他人工智能公司相比,小i機器人的獨特優(yōu)勢在于其豐富的數(shù)據(jù)量以及在NLP領(lǐng)域的核心競爭力。依托行業(yè)特定的知識庫,小i得以為企業(yè)客戶推出新的解決方案,提高他們的工作效率,從而將技術(shù)轉(zhuǎn)化為實際應用。Gartner定義了兩種語音交互系統(tǒng):
1.基本上只進行簡單的問答聊天的虛擬個人系統(tǒng),例如Siri、Alexa、Cortana。在我們看來,這種模式很難找到一個變現(xiàn)的商業(yè)模式,因為:1)消費者注重的是便利性(Alexa,今天天氣怎么樣?),而企業(yè)注重節(jié)約成本、減少員工人數(shù)等因素,2)在消費市場中,一些硬件+語音提供商以成本價或接近成本價的價格銷售設(shè)備/服務(亞馬遜和小米就是最好的例子),然后在其他業(yè)務中盈利。
2.虛擬客戶系統(tǒng)或虛擬客戶助理(VCA)。
思必馳:專注人性化的智能語音交互技術(shù)
思必馳2007年創(chuàng)立,是一家專注于語音識別、語音合成、語義理解和智能對話的語音技術(shù)提供商。
公司核心產(chǎn)品包括語音識別算法和麥克風陣列算法、對話用戶界面(DUI)和會話精靈。該公司目前與超過8,000家客戶合作,為汽車、智能揚聲器和機器人提供終端應用。
公司擁有500多名員工,其中70%是研發(fā)人員,有70多人持有博士學位。公司總部位于蘇州,在蘇州和北京設(shè)有獨立的研發(fā)中心。另外與上海交通大學在上海共同組建了聯(lián)合研究實驗室。
創(chuàng)始人高始興先生畢業(yè)于劍橋大學,持有計算機科學與管理雙碩士學位。他于2007年與劍橋大學校友俞凱一起創(chuàng)立了思必馳。思必馳的首席科學家俞凱是劍橋大學工程博士,上海交通大學計算機科學系智能語音實驗室主任。
在上海交大擔任研究教授之前,他是劍橋大學的高級研究員,還曾聯(lián)合創(chuàng)始VocalIQ,該公司后被蘋果收購。思必馳已經(jīng)獲得了D輪投資,募資金額7600萬美金。
出門問問:軟硬結(jié)合的智能語音廠商
出門問問由前谷歌科學家李志飛先生于2012年創(chuàng)立,專注于語音識別、自然語言處理、搜索和推薦以及數(shù)字信號處理。出門問問不僅提供軟件應用程序,還提供硬件產(chǎn)品。
該公司擁有700名員工,其中60%專注于研發(fā)。出門問問已完成了6輪融資,募集資金超過2.55億美元。在公司官網(wǎng)中顯示,谷歌在2015年的C輪中投資,而大眾汽車在2017年的D輪中投資。
公司的創(chuàng)始人李志飛是約翰霍普金斯大學的博士,對自然語言處理、機器翻譯和機器學習有著濃厚的興趣。
在2012年創(chuàng)立出門問問之前,李博士曾在谷歌擔任研究科學家,并且是谷歌移動離線翻譯系統(tǒng)的主要開發(fā)人員。
CTO雷欣先生是華盛頓大學電子工程專業(yè)博士,研究重點是普通話語音識別的聲學建模。
在加入出門問問之前,李博士曾是谷歌語音搜索團隊短期聘請的研究科學家。
工程副總裁黃美玉女士于1993年獲得卡內(nèi)基梅隆大學計算機科學專業(yè)博士學位,專攻語音識別。她是微軟Bing翻譯和中文版小娜背后的主要科學家。她現(xiàn)在是華盛頓羽扇智AI實驗室主任,還在華盛頓大學電氣工程系擔任副教授。
出門問問開發(fā)了可穿戴設(shè)備、汽車、家庭產(chǎn)品類別的消費產(chǎn)品,這些產(chǎn)品嵌入了該公司的語音識別、自然語言處理和垂直搜索技術(shù)。
以上一級市場的公司,多專注于幾個細分場景,有自己的技術(shù)獨特優(yōu)勢。
其中,我們最看好小i機器人。一方面公司將企業(yè)級市場作為目標,在付費能力強的金融機構(gòu)客戶中,小i機器人的智能客服系統(tǒng)找到了突破點,已經(jīng)有較大優(yōu)勢。另一方面,在技術(shù)上,小i機器人專注于自然語言處理,更多在認知端進行投入。
▌二級市場公司:中國智能語音領(lǐng)導者科大訊飛
科大訊飛注重技術(shù)創(chuàng)新,智能語音技術(shù)在國際上處于領(lǐng)先水平。公司在核心技術(shù)領(lǐng)域保持高強度的研發(fā)投入,2/3的員工為技術(shù)人員,研發(fā)支出占收入的20%。公司主要研究語音合成、語音識別、語音評估和翻譯。
公司連續(xù)13年在卡內(nèi)基梅隆大學組織的BlizzardChallenge語音合成比賽中奪冠。在《麻省理工科技評論》(MITTechnologyReview)“2017年度全球最聰明公司”榜單上排名第六,一同上榜的科技巨擘谷歌位列第五。
科大訊飛主要收入來自軟件開發(fā)與服務,語音智能化應用為公司帶來穩(wěn)定收入增長。
公司主要提供特定的應用軟件開發(fā)和服務,主要客戶來自政府部門和教育行業(yè):其中教育、司法和智慧城市等業(yè)務占收入的66%,其它大型開放式技能和工具平臺占收入的26%。
公司在中國院校部分實現(xiàn)語言考試智能化,在人民法院部分實現(xiàn)取證和聽證的智能化,不再需要書記員現(xiàn)場速記,另外,該公司還基于長期積累的數(shù)據(jù)和領(lǐng)域知識,為學生提供定制課程,為法官提供先例和判詞的交叉參考。在教育、政法等領(lǐng)域都有望實現(xiàn)較快收入增長。
人工智能專業(yè)公司和互聯(lián)網(wǎng)公司各有所長,不會發(fā)生激烈競爭。BAT、科大訊飛、華宇軟件、小i機器人在人工智能的特定垂直領(lǐng)域各有所長。預計人工智能專業(yè)公司和互聯(lián)網(wǎng)公司之間不會發(fā)生激烈競爭。
2017年11月,中國政府宣布與四家公司合作構(gòu)建國家AI開放平臺的計劃:百度將致力于開發(fā)自動駕駛;阿里巴巴的云計算部門將研究智慧城市中的“城市大腦”;騰訊將為醫(yī)療設(shè)備開發(fā)計算機視覺;科大訊飛將專注于其主要的專業(yè)領(lǐng)域—語音智能。
-
人機交互
+關(guān)注
關(guān)注
12文章
1206瀏覽量
55382 -
智能語音
+關(guān)注
關(guān)注
10文章
782瀏覽量
48758
原文標題:中國智能語音行業(yè)研究
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論