人工智能行業產業鏈情況及市場規模
人工智能產業鏈包括基礎層、技術層、應用層。基礎層是人工智能產業的基礎,主要有AI芯片、傳感器、云計算平臺等,為人工智能提供算力與數據的支持;技術層包括感知層、認知層、平臺層,感知層以算法模擬人的感知來構建技術路徑,可分類為計算機視覺、語音、觸感和味覺等,認知層以算法模擬人的認知,使機器具備理解、學習、推理以及思考的能力,平臺層主要為技術開放平臺與基礎開源框架,為人工智能技術提供平臺支持;應用層將人工智能技術落地到具體的應用場景,根據不同需求形成具體的軟硬件產品與解決方案。
? ? ? ? ?
從技術應用看,根據中國新一代人工智能發展戰略研究院2021年的研究,中國2205家人工智能企業中,涉及基礎層和技術層的人工智能企業共有382家。其中,智能芯片、語音識別和自然語言處理、圖形圖像識別、機器學習和推薦、工業機器人、硬件的企業數占比相對較高,依次為8.90%、8.64%、7.59%、5.76%、4.97%和3.66%。
從應用場景看,根據艾瑞咨詢的研究,2020年中國人工智能市場的主要應用場景為政府城市冶理和運營(公安、交警、司法、城市運營、政務、交運管理、國土資源、監所、環保等)、互聯網、金融,合計占比達到79%。而隨著人工智能行業核心技術的增速不同,不同下游行業對人工智能技術和產品的應用節奏不同,未來行業格局將會發生一定變化。
2020年,中國提出加快包括大數據中心、人工智能等在內的新型基礎設施建設,推動產業信息化、數字化、智能化轉型發展。由于非接觸式交互逐漸興起,人工智能融合應用速度顯著加快。根據艾瑞咨詢預測,2025年,人工智能核心產業規模預計達到4,532.6億元;2025年,人工智能帶動產業規模預計達到16,648.3億元。
人工智能語音語言行業基本概述
1)定義
人工智能語音語言技術即實現人與機器以語言為紐帶的信息處理技術,人機對話通過對聲音信號的音頻采集與信號處理將語音轉化為文字供機器處理,在機器進行語音識別與語義理解后、再進行對話管理、自然語言生成并通過語音合成技術將文本語言轉化為聲音進行輸出,最終形成完整的人機語音語言交互。
2)發展歷程
1952年,AT&T貝爾實驗室成功研究出世界上第一個語音識別系統Audry,標志著智能語音語言技術發展的開始。至今智能語音語言技術已經歷經了近70年的發展,經歷了技術萌芽期、起步期、變革式發展期、落地可用期共四個發展階段。
技術萌芽期(1950s-1970s):Audry作為第一個語音識別系統,可以識別10個英文數字發音,該系統基于簡單的模板匹配方法識別個體說出的孤立數字,在此之后,連續語音識別系統開始出現。語音合成的參數合成法能生成比較自然的語音。同一時代,以有限自動機和正則匹配理論為基礎的文字處理技術出現。以喬姆斯基的文法和句法結構為代表的理性主義方法,和以香農信息論為代表的經驗主義方法都發展起來。出現了一些極為簡單的翻譯、問答和聊天系統,但都無法實用。
起步期(1980s-2011):在此階段初期,隨著算法模型以及微電子技術的發展,語音識別領域取得了突破性進展。隱馬爾科夫模型(HMM)逐漸成熟和不斷完善,開始成為語音識別的主流方法,語音識別轉向基于概率統計建模的方法,同時神經網絡在語音識別中的應用研究興起。此后語音識別技術逐漸走向實用化,許多具有代表性的產品問世,例如IBM研發的ViaVoice系統,Dragon公司研發的DragonDictate系統,都具有更好的自適應性,能夠在使用過程中不斷提高識別準確率。2009年,Hinton將深度神經網絡(DNN)應用于語音的聲學建模,取得了在語音識別方面的重大突破,使語音識別的準確性得到顯著改善。與語音技術基本同步,這一時期的自然語言處理技術的發展,也出現了數據驅動的統計模型逐漸占據主流地位的趨勢。從概率模型到支持向量機,從線性分類器到神經網絡,大量數據驅動的技術被應用到自然語言處理領域,產生了一系列重大成果。這一階段中,理解、翻譯、問答、對話系統等都在限定的范圍內逐步實用化。
變革式發展期(2011-2016):2011年,微軟研究院又將DNN技術應用在大詞匯量連續語音識別任務上,極大地降低了語音識別錯誤率。2016年,微軟AI團隊在產業標準Switchboard語音識別任務上,取得了當時產業中最低的5.9%的詞錯率(WER),5.9%的詞錯率等同于專業速錄員速記同樣一段對話的水平,這代表著機器的語音識別準確率第一次達到人類水平,智能語音語言技術開始逐步落地。這一時期中,以連續詞向量、循環神經網絡語言模型為代表的一系列深度學習技術,進一步大幅推動了自然語言處理技術的發展,復雜場景下的自然語言處理的性能顯著改善。
落地可用期(2016-至今):端到端的語音識別開始廣泛應用,準確率進一步提升,且針對遠場的語音識別和喚醒得到進一步發展,全雙工語音交互開始出現。此階段語音識別的準確率可達98%以上,且能根據實際應用痛點針對性優化。大數據驅動的預訓練語言模型的出現,使得自然語言處理技術在這一階段又上了一個臺階,眾多小數據、跨領域的遷移學習技術也應運而生,自然語言處理的技術覆蓋范圍進一步加強,在產業中得到廣泛深入使用。
人工智能語音語言市場產業鏈情況
人工智能語音語言市場的產業鏈可依據關鍵技術拆分為六大環節,各個環節又可以進一步歸集為聲學、語音感知、語言認知三大模塊。音頻采集與信號處理環節是智能語音語言交互的起點,當前的核心在于回聲消除、噪聲消除、聲源分離、提升遠場和復雜聲學環境下語音喚醒和識別的準確率等關鍵技術;語音識別是把語音信號轉變為相應的文本或音頻類別的過程,當前的核心在于聲紋技術、口音適應能力、情緒識別能力、端到端識別、低功耗識別等;語義理解是通過自然語言處理等方式使機器理解語言的過程,當前的核心在于口語語義理解問題、對話關鍵信息抽取、知識提取及結構化等;而對話管理是以多輪交互為核心的一系列自然語言認知技術的綜合,是人機對話系統中的理解、決策和知識中樞,當前的核心在于實現多模態、全雙工交互,增強機器在多任務、全場景、全領域的靈活對話能力;知識圖譜是現實世界知識的一種表達方式,當前的核心在于知識圖譜構建、問答推理等;語音合成即從文本到語音,讓機器具備“說話”的能力,當前的核心在于使機器能夠實現自然聲音、高表現力、小數據復刻轉換,以及方言及多語種的語音表達。
人工智能語音語言行業內的大部分公司只專注于產業鏈的單個或部分環節,少有公司能擁有覆蓋產業鏈各環節的技術、產品與服務,當前國內人工智能語音語言行業的公司大約有400余家,僅有極少數可以實現全產業鏈覆蓋。
行業結構
據德勤2021年的研究,在大環境需求的催化下,各行業智能化應用迎來需求拐點,進入需求爆發期。預計2030年消費級應用場景總的發展空間將超過700億元。智能家居、智慧駕駛、智能辦公等企業級場景加速發展,市場需求不斷擴大,發展空間預計即將達到千億規模。
智能語音語言技術使得人類的生產及生活方式逐步改變,基于智能語音語言技術的人機交互產品在接收用戶的聲音等信息后,能將用戶意圖轉換為機器可以理解和進一步處理的內容,從而幫助用戶解決問題或完成特定任務。其中,對話式機器人可以降低人力成本,減輕人工工作量,提高工作效率,解決用戶客服、營銷、質檢、呼入、呼出等需求;搭載人機對話交互功能的消費級智能硬件,例如智能家電、智能車載、智能可穿戴設備等,能夠通過語音語言交互的方式,提供更豐富的設備交互功能,提升設備操控便捷性。根據德勤2021年末發布的《中國智能語音市場分析》,2021年中國智能語音市場規模將達到285億元,較2020年的217億元增長31.34%,預計在2030年市場規模將達到1,452億元。
除智能語音市場外,發行人產品下游市場還包括智能家居、智能汽車、消費電子、企業服務和智慧城市等多個領域,相關領域的市場空間具體如下:智能家居是智能語音應用的主要領域之一,隨著物聯網、人工智能等技術的快速發展,智能語音在家居領域的應用將進一步提速。2017-2021年中國智能家居市場規模不斷增長,2021年預估突破5,800億元,2022年將超過6,500億元,將帶動智能語音市場的持續提升。
2020年我國智能語音在消費電子領域的應用市場規模達到43.6億元,占比近1/3。未來消費電子仍然是智能語音占比最高的行業領域,2021年智能語音在消費電子行業的市場規模達到約56.5億元,增長率約為30%。
2021年我國智能硬件的AI語音助手算法的產值已達到34億元,預計2026年相關產值規模將達到155億元,2021年至2026年的CAGR為35.4%。
2020年中國智能網聯車市場滲透率已經達到49%,根據IHSMarkit的預測,2025年中國智能網聯車滲透率將超過75%,進一步推動智能語音在汽車領域的應用。
2020年中國智能客服行業市場規模約為30.1億元,伴隨智能化價值深化,2025年中國智能客服市場規模預計將突破100億元,5年CAGR達35.8%,行業呈現快速增長態勢。
智能語音語言行業在新技術方面的發展情況和未來發展趨勢
近年來,行業內智能語音語言算法不斷更新迭代,基礎性能持續增強,通用識別準確率等已不再是智能語音語言行業發展的核心挑戰,語音語言技術逐步由以語音感知為主,向綜合感知、認知、知識計算的全鏈路對話系統方向拓展。
關鍵基礎算法層面,在可控環境和簡單結構化知識源條件下,語音及語言處理技術的性能已經表現良好,達到產業化水平,但在復雜真實環境和自然非結構化語言及知識處理方面,與產業需求仍然有不小差距。例如,在遠場、高噪聲、多人會議場景下的自由語音識別準確率還有待提升,知識型的開放問答和語義理解對話尚無通用模型。因此,在感知技術方面,業內研究逐步轉向聚焦突破高噪聲、多干擾、端側低資源等真實復雜自然場景;在認知及知識計算方面,聚焦理解式的知識問答、對話理解及管理技術,以及專業領域的深度知識結構化,進一步增強面向垂直領域信息智能化的知識圖譜、對話問答、閱讀理解、翻譯等能力。
另一方面,個性化、場景定制化、私有化部署等需求已經成為傳統產業進行智能化改造和數字化升級的普遍需求,比如個性化的聲音復刻、新語義領域的問答對話、為保護隱私的私有化識別部署等。支撐這一需求的小數據遷移學習和自主學習算法及其在語音語言處理各個領域的結合,也是智能語音及語言行業算法技術發展的趨勢。
1)全雙工語音出現,人機交互朝著更自然、更順暢的方向發展
全雙工是通信學科中的一個術語,意為允許數據在兩個方向上同時傳輸,應用在智能語音語言行業,即為實時的、雙向的語音信息的交互,這是人們進行即興自由交互情境下的對話模式。目前市場上大部分產品只能滿足單輪交互或多輪交互,單輪交互的情景下,用戶每次都需要使用喚醒詞開啟交互,使得人機對話非常割裂;多輪交互的情景下,用戶只需一次喚醒,在機器判斷任務尚未完成時,會持續的接收用戶發出的語音信息,待到機器判斷單次任務完成后,再綜合信息進行分析并做出回應,但在多輪交互中機器仍不能做到接收信息和發出語音同步進行。區別于單輪交互與多輪交互,全雙工可以做到“邊聽、邊想、邊說”,在接收語音信息的同時進行思考,并實現動態的預估,進而以更快的速度進行回答,使人機交互更自然、更流暢;同時,全雙工語音還可做到節奏控制,根據用戶回答內容的重要性,決定打斷還是繼續傾聽,是先完成上一個問題還是先回答用戶的追加問題;此外,全雙工語音還能進行場景理解,識別用戶當前是否在與AI進行對話,并根據不同對象、不同場景進行音量、語氣等方面的調節。未來,智能語音語言的應用場景越發多樣化,應對的環境狀況越發復雜,全雙工語音的優勢將會越發凸顯,并成為智能語音語言行業的主流交互方式。
2)優化人機交互體驗,多模態交互成為必然趨勢
人類在交互過程中并非孤立地依據聲音、表情及動作中的單項進行溝通與交流,而是綜合視覺、聽覺、觸覺甚至嗅覺來進行有效的溝通。同理,要使機器做到更加逼真的“擬人化”,就需要通過語音、視覺、文本等信息結合的方式來推動人機交互的優化與升級。例如,在復雜聲學環境尤其是多人同時說話的時候,語音識別性能會顯著下降,此時若引入視覺信息對講話者進行唇語識別,綜合語音和視頻信息則可以大幅提升說話人跟蹤和語音識別準確率;又例如,在人機交互過程中,機器通過采集用戶的表情、說話語氣,甚至腳步的頻率和急緩程度,可以分析用戶的情緒狀態,以采用不同的方式推進交互,提高人機交互的交互效率與質量。應對人機交互場景化應用不斷拓展的市場需求,多模態、智能化的完整解決方案可以更好地應對不同場景的復雜變化,多模態交互成為行業發展的必然趨勢。
3)芯片研發日益關鍵,端側智能與云側智能雙輪驅動
AI深度應用目前基于深度學習的智能算法通常運行于具有強大計算能力的云計算中心,而相比于云計算,邊緣計算將資源和服務下沉到網絡邊緣端,從而帶來更低的帶寬占用、更低的時延、更高的能效和更好的隱私保護。隨著移動終端設備的普及率越來越高,未來行業將逐步將人工智能模型全部或分布式的部署到資源受限的終端設備上,與云側智能協同。同時,結合感知硬件和計算模組的軟硬一體化解決方案,也成為人工智能軟件算法技術落地優化的趨勢。軟硬一體化的方案將更容易提升人工智能用戶的最終體驗,更好解決AI落地的“最后一公里”問題。軟硬一體化的重要形態就是專用人工智能芯片。專用芯片往往是場景化或針對特定功能的,成本和效率大大優于通用芯片,可以進一步提高產品端側的計算效率,并提升針對特定應用場景的優化適應能力。未來,人工智能語音芯片的發展將進一步推動智能語音語言產品在各垂直行業領域商業化落地。
4)以對話交互為核心的認知和知識計算成為智能信息服務的重要技術趨勢
基于知識交互的認知智能是信息服務智能化的核心技術,在智能客服、教育、辦公、金融、政務、醫療等各個垂直領域的數字化轉型中具有重要作用。在各類智能信息軟硬件爆發式增長的大背景下,對話式語言認知智能,尤其是對話理解和管理技術,將成為感知與認知系統級融合的關鍵技術,極大影響用戶體驗。另一方面,針對垂直領域的復雜結構化數據庫、各類知識文檔等多種形態的原始知識源,進行知識結構化和知識圖譜構建,形成可控人機理解式交互的知識源,支撐知識問答和對話,支持人類決策,將是面向信息服務智能化的知識計算的發展方向。
5)系統級的大規模場景化柔性定制成為賦能傳統產業的關鍵
由于人工智能賦能產業過程中的場景化定制需求巨大,當前智能語音語言行業的公司逐步由向硬件設備廠商提供單一技術授權或單點技術的項目制開發等商業模式,逐步轉向以最終用戶體驗為目標的輕量化需求產品的快速迭代、規模化定制開發和軟硬一體化,通過提供人工智能芯片及模組、智能語音及語言技術定制接口、業務級對話技能開發以及靈活的知識資源庫等智能語音語言的全鏈路柔性定制方案,增加技術輸出的厚度,擴大技術輸出的邊界,增加下游產業的粘性,形成生態優勢。
智能語音語言行業在新產業、新業態方面的發展情況和未來發展趨勢
數字化轉型催生了兩個重要趨勢,一是智能信息硬件的大量出現和快速普及,二是各類生產、生活、治理場景的數字化過程中產生了海量的知識信息。語音及語言技術,作為連接人與智能設備、進行知識信息服務處理的核心人工智能技術,在這兩個趨勢下發展前景廣闊。近年來,人工智能語音語言技術與生產、生活和社會治理深度融合,不斷推動經濟社會數字化轉型。智能語音語言技術產業化的程度進一步加深,應用場景不斷擴展,在汽車、家居、金融、教育、醫療、公共衛生、政務等領域均應用廣泛,并形成了全新的產業鏈條。同時,隨著智能語音語言技術的各項應用逐漸落地,用戶對產品的使用逐步深化,人們對智能語音語言產品產生更多的期望,未來智能語音語言行業的發展將會更加聚焦在使用體驗上,智能語音語言產品將朝著更加智能、更加人性化的方向發展,各類應用從單向指標的不斷優化過渡到重視整體商業落地性能。例如,從追求語音識別的高準確率到關注產業化場景應用能力、整體運行穩定性、響應速率等。
1)智能硬件終端
根據艾瑞咨詢的研究,2020年在我國各類智能硬件中,以本地或云端算法形式及語音AI芯片硬件形式提供語音交互能力的市場規模達到31.4億元,到2025年將突破138億元,2019-2025年CAGR為35.2%。隨著智能物聯網(AIoT)產業發展,到2025年,65%以上的家庭將擁有智能音箱、智能機器人、智能面板等各形態的AI管家,未來搭載語音交互能力的硬件設備總量將非常可觀、潛力巨大。
語音作為人類最便捷、自然的溝通方式,是物聯網人機交互的最佳入口。人工智能語音語言技術與物聯網相結合,使用戶可以直接通過對話與物聯網各類終端設備交互獲得即時服務,大幅提升生活質量。例如,智能家居領域,由智能家電等各類硬件、智能軟件系統、云計算服務構成了家居生態圈;智能汽車領域,語音交互成為最安全便捷的車內信息交互方式,不再局限于簡單的問路導航,還可全面覆蓋車主在用車環節中所涉及的使用場景,包括對車主的畫像分析、行為感知、車后市場服務的推薦和應用等。
2)智能信息服務
隨著大量信息被數字化和知識化,智能信息服務在生產、生活、社會治理的各個領域都日益得到廣泛重視,應用的需求不斷增長。智能問答、對話機器人、信息及知識提取、語義分析、知識圖譜、知識及信息搜索、機器翻譯等語音及語言技術在智能信息服務相關的系統中都有廣泛應用。
企業的智能客服系統通過自動人機對話交互和語音語言分析功能,提供信息查詢、問答服務、通知互動、服務規范化質檢等服務,減少人工成本,減輕人工工作量,減少用戶等待應答時間,提高了企業的服務效率。醫院及健康管理方面,通過智能對話機器人的導診、預問診、隨訪等服務,幫助病人和醫生提升問診和診后管理效率,推進普惠醫療,通過醫療信息的知識結構化和語言處理,為醫生提供輔助診療支撐。社會治理方面,通過語音語言技術,實現社區信息摸排智能化。如數字網格員機器人的語音電話排查服務,大大提升了流調篩查的工作效率,做好人民群眾返鄉、旅游、工作的信息搜集與確認,保障了基層社區工作的高效開展。
AI技術與商業落地之間存在天然鴻溝
智能語音語言技術已逐步從純技術授權方式應用,轉向“垂直技術+應用行業場景”的創新式發展,即從單純的識別與合成的感知能力,逐步升級至“聽得懂、能反饋”的認知智能,智能語音語言技術的落地應用需要結合行業認知和客戶需求輸出整體性、結果導向性的實用解決方案。在人工智能語音語言技術產品從研發投入到產業化落地的過程中,模型設計、數據準備、模型訓練、準確度驗證、業務流程監控以及適配開發等環節都有著巨大的挑戰。要將人工智能技術與行業知識、具體需求相結合,就要跨越每個環節涉及的轉換“鴻溝”,才能使得人工智能真正地促進產業發展和生產力提升。具體到智能語音語言行業,相較于人工智能行業其他細分領域,由于其定制化程度更高,規模化速度相對較低,其商業化落地速度較慢,跨越“鴻溝”的難度相對更大。
關鍵核心技術的突破仍面臨挑戰
行業內智能語音語言算法不斷更新迭代,基礎性能持續增強,通用識別準確率等已不再是智能語音語言行業發展的核心挑戰。語音語言技術逐步由以語音感知為主,向綜合感知、認知、知識計算的全鏈路對話系統方向拓展。
關鍵基礎算法層面,在可控環境和簡單結構化知識源條件下,語音及語言處理技術的性能已經表現良好,達到產業化水平,但在復雜真實環境和自然非結構化語言及知識處理方面,與產業需求仍然有不小差距。例如,在遠場、高噪聲、多人會議場景下的自由語音識別準確率還有待提升,知識型的開放問答和語義理解對話尚無通用模型。中國語音產業聯盟2021年12月發布的《2020-2021中國智能語音產業發展白皮書》中也指出,無監督學習、低資源模型算法等需要突破;作為算力基礎的AI芯片領域,我國與國際先進水平仍存在差距。另一方面,個性化、場景定制化、私有化部署等需求已經成為傳統產業進行智能化改造和數字化升級的普遍需求,比如個性化的聲音復刻、新語義領域的問答對話、為保護隱私的私有化識別部署等。支撐這一需求的小數據遷移學習和自主學習算法及其在語音語言處理各個領域的結合,也是目前亟待突破的方向之一。
同時,新技術的革命性突破不能只依靠單點技術創新,必須要有系統級創新突破,建立在重大核心技術突破瓶頸并達到應用門檻的基礎上,深度融合技術鏈條上的各項關鍵技術并針對重大社會命題進行解析和處理。只有實現了能夠解決社會重大問題的系統級創新,才能推廣智能語音語言技術的大規模應用。
? ? ? ? ?
? ? ? ? ?
AI語音交互技術
全鏈路語音及語言交互技術以對話為核心的全鏈路語音語言交互技術涵蓋語音信號處理、識別、合成、語言理解、問答聊天、知識圖譜等人機信息交互閉環涉及的各個模塊級技術,又包括以口語容錯、對話管理、全雙工架構等為代表的跨模塊聯合優化技術,形成了“聽得清、能理解、有知識、會決策、善表達、反應快”的人機智能信息交互的完整全面的技術鏈條,同時具備業界領先的高性能單點AI技術和面向最終用戶完整交互體驗優化的跨模塊優化技術和系統架構,從而在產業落地上滿足各類客戶豐富復雜的綜合場景應用需求。
?
主要人工智能核心算法技術具體如下:
全鏈路智能對話系統定制開發中臺(DUI中臺)可進行從喚醒、識別、合成到語義理解、對話邏輯等的全鏈路對話系統定制開發,自動化智能化程度高,專業技術人員和非專業業務人員均可自助定制,可快速構建具備完整功能的、軟硬件融合的場景化人機對話系統。
智能家電語音語言交互解決方案
智能家電的發展旨在讓用戶實現更方便的控制和享受數字生活服務。隨著物聯網終端從弱智能化向強智能化不斷發展,智能家電產品的交互方式從遙控器按鍵、手機APP進化到語音操控,解放了雙手,人機交互的方式愈發簡單、便捷。一方面,智能家電終端從電視、音箱到空冰洗、開關面板,形態上不斷微型化、多樣化;另一方面,語音技術作為去中心化操控技術,使得智能家電操控不再受限于固定的設備端,通過語音即可對任何終端設備進行直接操控。
智能汽車語音語言交互解決方案
近年來,智能汽車逐漸普及,汽車從“硬件為主”的工業產品,逐漸演變為“軟硬一體化”的智能化終端,市場上主流品牌都在新車上布局AI語音系統。智能汽車語音語言交互解決方案,以車載場景下的人機對話交互為核心,融合智能導航、多媒體娛樂、車身控制、駕駛行為監控、車況監控等智能座艙人機交互需求,圍繞“語音交互智能+云端互聯服務”,改變了傳統車載設備以觸控、按鍵為核心的操控模式,極大改善了交互體驗,有效確保駕乘安全。
數字政企智能助理解決方案
數字政企智能助理解決方案,支持在電話、APP和智能終端等多渠道落地,能夠幫助客戶快速實現線上/線下服務運營的智能化升級,實現降本增效。基于數字政企智能助理解決方案,客戶可以根據需求選擇適合自己業務場景的機器人,能夠起到替代部分傳統人工的作用,降低人工服務成本和壓力,并擴大服務范疇,滿足終端用戶的不同需求。
AI模組可進行前端信號處理,將聲音采集、麥克風陣列技術融合一體,進而實現遠場拾音、聲源定位、語音喚醒、語音增強、回聲消除、語音打斷、通話降噪等多種功能。
? ? ? ? ?
?
?
編輯:黃飛
評論
查看更多