具體用來證明視覺方面能力的例子是Cityscape的榜單成績。后者是一個用來評估視覺算法的數據集,可以檢驗算法在城區場景語義理解方面的表現。今年10月,科大訊飛在自動駕駛場景分割任務中獲得了第一名,主要是使用了名為“層次分割”的技術。
很長一段時間里,科大訊飛在車載前裝領域都是通過車機系統供應商間接向車企提供服務,業務只聚焦在智能語音技術。
不過在2016年科大訊飛年會上,我們看到了一款汽車互聯系統“飛魚助理”。科大訊飛正式宣布——未來會包辦一整套車機系統的軟硬件和數據服務,角色向TSP轉型。
時隔一年,飛魚升級到了2.0版本,并且形成了更加清晰完整的產品架構。而且我們發現,除了核心的智能語音交互,科大訊飛開始做視覺了。
年會現場用來展示飛魚2.0的廣汽傳祺GS8
飛魚2.0更新了什么?
在飛魚1.0版本上,整個交互體驗更加自然。人和車對話的時候,車就可以記住上下文,理解每一個指代的意思。你可以不用多次喚醒就能調用導航、音樂、撥打電話等功能,也可以在車說話時打斷它。
在今年的年會現場,飛魚2.0版本做了升級。科大訊飛汽車事業部副總經理謝信珍告訴記者,去年展示飛魚1.0時更多還是一種未來規劃,但今年的2.0版本已經是可以落地的產品。
大家可以從上面的視頻看到幾個之前沒有的亮點:
1.知道該聽誰的話。新版系統知道要采集哪個方向的聲音,鎖定駕駛員是說出喚醒詞的位置后,副駕座位的聲音就不會出現“搶麥”情況。要實現這個功能,主要是對麥克風陣列和軟件算法做升級。
2.連接后臺賬號系統。飛魚2.0可以在喚醒后“主動服務”。它會提醒你今天是老婆大人的生日,推薦老婆大人喜歡的餐廳,推薦喜歡的電影然后購票。系統和個人的綁定更深。
3.接入了車輛總線系統。在1.0中,系統只能用語音控制音樂、導航、電話等信息娛樂功能。在2.0版,我們可以用語音控制開關天窗、調節空調溫度這些和行車安全影響不大的功能。
除了第一點是智能語音技術上的更新,后兩項都是包辦軟硬數服一體化后,語音有機會和車、和人發生的更多關聯。
當然,后兩項也代表了一種選擇。更加個性化的服務意味著對個人數據使用權的開發,這是用戶面臨的選擇。更加懂得汽車意味著車輛數據的開放,這是主機廠面臨的選擇。
把眼睛叫醒
在智能語音交互之外,圖像識別也在汽車場景下找到了發揮功能的機會。
坦白說,在參會前看到預告時,記者以為視覺技術更多會用在駕駛員身份鑒別。因為科大訊飛研發主管趙艷軍曾經說過,AIUI在定義之初,“就沒有把語音作為唯一的交互方式,而是把它設想為結合了人臉、人體追蹤、手勢、紅外等多種方式為一體的人機交互解決方案”。
所以當科大訊飛說要借助攝像頭的眼睛看向車外時,記者還是有些意外的。
泊車輔助
視覺首個應用場景會是泊車。在有清晰車位線的情況下,可以借助泊車攝像頭觀察外部情況,找到合適車位時,用交互的方式提醒用戶打方向盤,輔助車輛進入車庫。沒有車位線時,也可以司機在屏幕上劃線選擇停車位置,系統把車停到庫中。當然也可以看到,在一開始的版本中,還沒有涉及車輛控制層面的內容。
目前視覺的部分仍然由科大訊飛的研究院來推進,選擇的泊車應用也是一個相對簡單的場景。在回答“和專門做視覺的企業比,科大訊飛有什么優勢”這個問題時,汽車業務部副總經理謝信珍提到了科大訊飛在技術源頭上的積累。他認為語音對信號連貫性的要求更高,做語音跨到圖像會更容易。
Cityscape數據集成績
具體用來證明視覺方面能力的例子是Cityscape的榜單成績。后者是一個用來評估視覺算法的數據集,可以檢驗算法在城區場景語義理解方面的表現。今年10月,科大訊飛在自動駕駛場景分割任務中獲得了第一名,主要是使用了名為“層次分割”的技術。
數據集測試成績可以在某種程度上反映科大訊飛的算法能力。不過實際應用中,科大訊飛的算法要面對嵌入式平臺和實時性兩個方面的考慮。謝信珍表示,科大訊飛的優勢在于工程優化能力,360環視算法主要是拼接和魚眼矯正計算量比較高,目前已經揉到CUP、GPU上分別負載來跑,跑得也比較順暢了。
科大訊飛做視覺,這意味著從對車內人的理解,延伸到了對車外環境的理解。
科大訊飛未來產品布局
科大訊飛汽車事業部總經理劉俊峰在飛魚2.0發布時提到,未來會把理解人、理解環境兩部分完整做到一起,用一個腦部(飛魚AIUI)連接聽覺和嘴(飛魚對話式引擎)、眼睛(飛魚智盒),達到多維輸入,最后由后臺進行數據的分析處理(飛魚數據工場)。
技術和應用的雙輪驅動
科大訊飛董事長劉慶峰和輪值總裁吳曉如在發布會當天都提到了一句話——人工智能是技術和應用雙輪驅動的。通過落地在應用場景不斷收集數據訓練算法,才能磨練出更好的技術。
飛魚2.0系統包括飛魚對話引擎、飛魚AIUI,飛魚智盒,飛魚數據工場等,都是面向車端應用的產品。
為了在車端落地產品,科大訊飛逐漸補充了車機系統方面的欠缺。據謝信珍介紹,科大訊飛汽車事業部今年已經達到了400人的規模,主要包括對話引擎、大數據分析和軟硬一體化內容,其中軟硬一體化的員工最多,將近有總人數的一半。
除了用大量人才儲備更好理解車載軟硬件,核心的智能語音方面,科大訊飛也在解決一些關鍵問題。謝信珍介紹,目前科大訊飛在車載環境普通話的語音識別準確率為98%,未來除了繼續完善方言識別,也在攻克一些車載環境中語音識別效果不好的場景。
對于當前的產品化情況,劉俊峰公開了一組數字——訊飛的產品已經覆蓋了200個型號的車型,每年的出貨量突破兩百萬套,累積前裝裝車量1千萬。
今年,科大訊飛陸續與包括北汽、廣汽、長安、奇瑞在內的多家主機廠簽署了合作框架,涉及智能語音技術、車載智能化和智能車聯網平臺等多個領域。謝信珍也透露,基于飛魚2.0系統,科大訊飛和主機廠的合作已經進行了3-4個月,其中視覺方面會把360環視先做起來。
受限于前端產品的出貨周期和更新頻率,科大訊飛還推出了后裝產品小飛魚。謝信珍表示,小飛魚最大的優勢是迭代速度會更快,每兩星期會有個新的功能。但是科大訊飛還是會把更多資源和精力押注在前裝,因為前裝才有機會把系統和車機更深地結合,生產出更多功能。
小結
從車載智能語音小角度切入,科大訊飛沿著理解人和理解車兩個坐標軸,給出了一個面向未來智能汽車的閉環方案。當前來看,科大訊飛的優勢仍然在語音,在車載視覺上的積累還比較初期,最后視覺與語音能不能很好融合,還要等待合作孵出一個落地的產品。
評論
查看更多