智能音箱在2018年延續前兩年的熱潮,不過音箱本身并不能創造很大的經濟價值,發展產業鏈才是未來勝出的重點,智能麥克風與語音處理器是跨產品型態的關鍵零組件,利基型的應用、中文自然語言處理與邊緣運算是我們廠商值得關注的重點。
2014年電商龍頭亞馬遜(Amazon)推出智能音箱Echo之后,經過幾年的經營,在2016、2017年大放異彩,引發一股智能音箱開發風潮,也帶動沉寂已久的智能家居商機,除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,還有京東、聯想、阿里巴巴、小米等一線大廠都陸續推出智能音箱,不僅如此,更多二線品牌廠商也趕上這波熱潮,保守估計目前市場上應該有數十款智能音箱品牌,布局并搶食智能語音應用背后帶動的龐大商機。智能音箱包括三大部分:硬件、軟件服務、系統平臺。工研院IEK產業分析師陳右怡說明,硬件規格大致包括開關、燈光、語音處理芯片、麥克風數組、喇叭、電池、Wi-Fi/藍牙無線通信模塊、顯示面板等,其中語音處理器與麥克風數組攸關語音輸入質量,也是這波發展過程中較受矚目的關鍵零組件。而軟件服務則是智能音箱的靈魂--智能語音助理,搭配技能(Skills),結合云端的系統平臺,形成一個完整的產業生態系,以帶動后續的商業模式。
智能音箱投入者眾
根據市場研究機構Strategy Analytics研究指出,2018年智能音箱出貨量接近4,000萬臺,2019年將挑戰6,000萬臺,2022年還要進一步成長至1億6,000萬臺左右,每年都是兩位數的成長率。Samsung繼去年與Microsoft合作推出的Invoke智能音箱后,2018年8月發表自有產品Galaxy Home(圖1),音箱里有六組擴音喇叭及低音炮,用來提供環繞的播放音效;并內建八組遠場麥克風,可在較大的范圍內接收語音指令,語音助理就是自家的Bixby,不過發表會上擺滿的產品都跟Apple Homepod一樣不能運作,正式上市時間要再等等。
圖1 Samsung 2018年8月發表搭載Bixby智能音箱Galaxy Home,并內建八組遠場麥克風,可在較大的范圍內接收語音指令
整體而言,智能音箱的發展,產品本身并不是最重要的,Amazon Echo最早就定位是中低價產品,99美元的售價到后來衍生的多種產品都不走高價路線,以其現階段市場領導者的身分,也發揮市場帶動的效果,Amazon以電商的角色,不斷擴展產業生態體系,并成為多數廠商仿效的對象。陳右怡表示,Amazon Echo串連了開發者社群、汽車服務業、智能裝置、日用品服務、共享/外送服務業、音樂串流服務業等。語音指令在搜尋上,顯然比現有的文字輸入便利,跟據市調機構Gartner的研究,未來50%的各類搜尋,將會利用語音指令的方式呈現。
以可以執行的技能而言,Alexa目前高達17,650項,Google Assistant僅有468項,Microsoft Cortana更只有174項。根據OC&C Strategy Consultants調查,擁有智能音箱的美國家庭中62%會使用智能音箱進行語音購物,2017年美國語音購物市場規模約20億美元,預估2022年將達400億美元,5年內翻20倍。由此可知,智能音箱擁有多少“技能”、能否帶動商業模式的發展,才是其成功的關鍵,這些品牌大廠自然深知要努力將自己的商業模式,轉換延伸到語音應用,并能提供更新、更多的價值才是發展重點。經過這幾年的發展,智能音箱已經出現更為細致的分眾區隔之路,鑫創科技產品經理曾建統(圖2)認為,通用型的智能音箱主要目的就在扮演智能家居控制中樞,除了豐富的技能之外,更需要完整的系統平臺與產業生態系加以配合,帶動商業模式的發展,這部分只有資源豐富的大廠具備參賽權。另外,在區域市場與應用上,也發展出許多功能較為單純,但滿足特殊需求的智能音箱,如廚房針對做菜、車上影音娛樂/唱歌需求的產品,適合中小型廠商切入。
智能麥克風設計眉角多
近來有部分人士指出,智能音箱是過渡型的產品,就像電子書閱讀器一樣曇花一現,不過就實際的發展來看,智能音箱目前呈現百花齊放的狀況,未來不管產品是否持續發展,語音識別成為重要的人機接口已是不爭的事實,因此不管終端產品型態是甚么,絕對都少不了智能麥克風與語音處理器,這兩個組件的技術與發展就值得更加深入的觀察。一般而言,MEMS麥克風由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米寬的空氣隙(Air Gap)組成,其中薄膜要求低應力且柔軟,能夠靈敏地感測環境音壓的改變。現行的MEMS麥克風技術均采用聲波致動薄膜和靜態背板,英飛凌(Infineon)提出一個較復雜的雙背板架構,在兩個背板之間嵌入薄膜,也有兩個空氣隙,因此能產生更好的訊號質量,訊噪比(SNR)達70dB,進一步獲得更佳的高頻抗擾性,實現更出色的音頻訊號處理,并將10%總諧波失真(THD)的聲學過載點提升到135dB聲壓位準(SPL)。智能麥克風除了采用模擬微機電的制程之外,還有采用數字CMOS制程的麥克風,不管是采用MEMS或是CMOS都是利用半導體制程產生震膜以搜集聲壓,曾建統說明,除了傳統的單背板/單薄膜之外,雙背板/單薄膜、單背板/雙薄膜等改良型的架構都有廠商提出,目的全是為了強化收音效率的訊噪比。而在系統的設計上,Amazon Echo帶動的多顆麥克風數組設計已成風潮,但效果還是有很大的差異性。曾建統提醒,智能語音助理硬件的設計,尤其是麥克風數組,并不是硬件照抄就好,在設計時間要針對機構與收音麥克風進行數組算法的調適,同時生產階段也必須提高機構精準度的要求,這兩個重點對語音助理裝置最終量產結果有很大的影響。就像通用型的Echo使用場景大部分是在客廳,類似的麥克風數組設計套用到車用產品就不會得到最佳收音質量;而機構生產與組裝若不夠精準,會持續削弱麥克風的訊噪比,原本70dB的產品可能于終端產品僅表現出35dB的效能。
關鍵組件整合設計 取得效能表現優化
而在語音處理器部分,最主要是處理聲音的數字化與去除噪聲的訊號純化,由于智能語音助理的工作是透過AI算法,將輸入的語音訊號進行語音識別與自然語言處理,擔負重要的人機接口工作,也是用戶經驗優劣的關鍵,因此語音處理器的幾個主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、語音識別(Voice Recognition Assistance)、遠距收音(Far-field Pickup)、清晰語音溝通(Clear Voice Communication)等就顯得非常重要。語音處理器技術發展已有滿長的一段時間,其實技術已經相當成熟,不過由于智能音箱將語音變成最主要的人機接口,聲音整體處理效能要求比過去更高,對噪音抑制的壓噪技術而言,環境聲音如車輛、旁邊人的說話聲音都算是一種噪音,如何找出正確的噪音來源,并保留最大的原音是這部分的挑戰。一般噪音分成穩態與非穩態噪音,機器運作固定頻率的聲音是穩態噪音,比較容易消除;非穩態噪音就是非預期出現的聲音如旁人說話的聲音,也比較難消除。Samsung甫發表的Galaxy Home,為了收音效果特別采用八顆遠場麥克風,遠距收音的功能就是較遠的距離之下一樣能收到清晰的聲音,做法就是首先偵測人聲,并放大人聲,但不放大噪音。曾建統認為,若要提升收音效能的表現,麥克風與語音處理器整合性設計非常重要,除了遠場麥克風、擴大MEMS麥克風芯片尺寸、采用整合模擬數字轉換器(Analog-to-digital Converter, ADC)的數字麥克風(Digital Mic)等做法都有,甚么設計才能在效能與成本上取得最佳表現,目前其實沒有標準答案,建議還是回歸到產品需求,并進行深入的軟件仿真與效能測試,才有機會開發出令市場驚艷的產品。
智能音箱的使用近期也因為網絡的便利性與不設防,產生多起網絡安全事件,所以語音處理器的安全機制逐漸被重視,恩智浦半導體大中華區微處理器及微控制器產品營銷經理張小平(圖3)表示,保護隱私信息不輕易被入侵,需要內建安全裝置的解決方案,除了保護用戶信息,透過整合的SDK實現算法加速,滿足語音、影音和音頻的需求,可整合A/V與機器學習,滿足工程師對于統一平臺的要求,便于打造語音指令控制的聯網產品。恩智浦i.MX8M系列應用處理器,兼具處理技術和邊緣運算能力,能夠有效管理并縮短智能互聯裝置響應命令和詢問的時間。張小平指出,該系列產品可用于智能電視、電視訂閱服務、條形音箱與其他智能音箱,以及媒體播放器和DVR/PVR。此外,該系列處理器也適合管理照明、恒溫器、門鎖、居家安全、智能灑水器等各類系統與設備,能夠讓使用者享受直覺簡單、迅速響應的智能家居體驗。如:僅需發出語音指令即可播放特定的電視劇集,如果對其中的演員感興趣,直接口頭詢問相關問題,屏幕上就會進行搜索并顯示結果,整個過程都不會影響電視劇情的播放等。
語音助理為智能音箱靈魂
在基礎的硬件之外,具備AI功能的智能語音助理顯然是智能音箱產業鏈能否順利發展的關鍵,Alexa的跨平臺支持與技能多樣性,目前遙遙領先Google Assistant與Microsoft Cortana,陳右怡表示,智能語音助理的生態系發展難度更高,核心的技術包括AI深度學習算法、情境感知、自動化控制、大數據分析應用、云端存取等;發展策略上,可透過開放式AI API發展第三方開發,擴展語音助理的技能,也透過定價/收費/分潤機制讓生態系更成熟;最后就是不斷強大生態系的規模與服務的多樣性與便利性,就像當年的App Store一樣。而語音助理的服務包羅萬象,所謂“萬能”的智能語音助理應該不存在,以目前四大語音助理來看,Google專長在搜尋、Siri專長在音樂、Alexa專長在購物、Cortana則是專精于商務,廠商的產業鏈發展也有所側重,陳右怡相信,過幾年不同領域的語音助理霸主將越來越明確。而語言與在地化的經營則是另一個重點,目前英語系的語音識別與自然語言處理技術上已經頗有突破,發展較為迅速;相較之下,中文的自然語言處理則有相當大的瓶頸,也是我們廠商可以深入發展并保有優勢的地方。
掌握特殊應用與邊緣運算趨勢
從硬件終端產品來看,大廠會投入更多資源發展通用型的智能音箱,產品型態也將更加多樣,整合于智能手機、筆電、各式家電等的狀況會更加普遍。我們廠商在軟硬件的發展上,應該投入利基型的硬件產品與服務,曾建統建議,特殊應用的智能音箱結合在地化語音技術發展,是我們廠商的機會。中文AI化的困難性為廠商帶來藍海的商機,只要深入累積語言分析與在地化語料,就可以建立競爭門坎,搭配我們原先就具備深厚基礎的硬件技術能力,可以在智能音箱市場走出一條自己的路。人機接口發展到語音是一大進步,不過未來視覺、觸覺與念力都是下一波發展的方向,現在的語音AI技術也有布局未來人機接口的味道。以AI為核心的這些應用,開發的范圍與需求的資源都較過去更大,訴求利基市場也不見得是單一廠商就能負擔所有技術開發,需要與更多產業鏈上下游的廠商合作;智能音箱也是典型的邊緣運算裝置,未來會將更多AI功能轉移到終端裝置,直接在邊緣進行處理,對于云端架構規模不如國外大廠的廠而言,采用較小的云端架構,并透過終端處理部分AI運算,更適合我們廠商發展。
-
智能音箱
+關注
關注
31文章
1783瀏覽量
78579 -
語音助理
+關注
關注
0文章
27瀏覽量
8684
原文標題:AI語音助理商機不斷熱燒 智能音箱軟硬件大躍進
文章出處:【微信號:iotmag,微信公眾號:iotmag】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論