盼望著,盼望著,春天的腳步近了,雪容融也終于正式上崗,迎來了自己的主場——2022北京冬殘奧會。
本屆冬奧會不僅是運動員們的競技舞臺,更是科技公司“秀肌肉”的絕佳舞臺。諸多科技亮點之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手語數字人。
2月4日晚開幕的冬奧會上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場場精彩絕倫的比賽。即將開幕的冬殘奧會,這位手語數字人也義不容辭,將披掛上陣,讓聽障人士實時感受冰雪運動的魅力。
創造豐厚的冬奧遺產,為國家、主辦城市、人民群眾帶來長期的、積極的收益,也是成功辦奧的重要標志之一。在日常生活中,手語數字人能不能繼續發光發熱,為聽障人士提供服務呢?
我們關注到,3月3日,央視新聞AI手語主播的制作者——百度智能云曦,又推出“AI手語平臺”,通過分鐘級生成手語合成視頻、手語主播實時直播等能力,為手語服務的普及難題,提出了科技平臺化的新解法。
同時,百度智能云曦靈還發布了“AI手語平臺一體機”,讓一些需要硬件交互的場景,比如醫院、銀行、車站等公共場合,插電即可提供手語服務,快速部署無障礙窗口。
平臺化和軟硬協作的革新,正在讓手語數字人走上一條與社會價值長期對接、一同成長的進化之路。
科技巨頭們都在積極打造手語數字人,反映出哪些潮水的方向?數字生命與智能技術的溫情加速照進現實,這究竟意味著什么?
數字生命覺醒時:手語數字人的能力體系
百度智能云曦靈平臺賦予手語數字人哪些特殊能力?我們不妨以人類手語老師的標準來審視一下。
有一種“難”,叫朱廣權的手語老師,想要實時且準確地翻譯出朱廣權的妙語連珠,千挑萬選的央視手語老師有時也難免手忙腳亂。而在此前與朱廣權的在線pk中,這位由“百度智能云曦靈”打造的首個AI手語主播,面對朱廣權不斷拋出的超高速順口溜,立馬就能做出反應,表現出流暢、精準的業務能力。
綜合來看,手語主播的華麗炫技,以及冬奧會上的扎實服務,來自百度智能云曦靈平臺提供的三個方面的基礎能力:
1.理解能力。
真實世界中,很容易受到噪音干擾,人類手語老師必須聽清、聽懂新聞內容,不然翻譯出來也可能是錯誤的,一通比劃猛如虎,但無法真正投入使用。
想要聽清,需要領先的語音識別能力。百度智能云曦靈平臺融合了百度自然語言處理技術,成熟領先的全雙工ASR(Automatic Speech Recognition)語音識別模型,近場中文普通話的識別準確率,能夠達到98%以上。
輕松搞定各種語音內容,即使段子手朱廣權的神級語速也不在話下,這為后續數字人的手語翻譯打下了堅實的基礎,使得AI手語平臺一體機更好地應用于不同場景中。
2.翻譯能力。
感知之外,手語老師要分析、歸納重要信息,根據語句整體意思進行精煉和語序調整,將其轉換成手語語言。
一些廠商研發的手語數字人直接采用“手勢漢語語料”,好處是無需重新標注,節省時間,問題是生硬地按照說話順序將手語手勢連接起來,并不能算是“人類高質量手語”。
舉個例子,“我想回家”并不是將這四個漢字依次比劃出來,而是按照“家”、“回”、“我想”的順序來表達。
因此,想要翻得準,手語數字人必須學會自然手語語序。百度智能云曦靈平臺就基于“國家手語語法規則”,聯合手語語言學專家,特殊教育專家、天津理工大學等,邀請上百位聽障學生做數據標注,形成了近千萬的高質量訓練數據。
有了數據,接下來就是模型設定與訓練。基于百度多年積累的神經網絡翻譯技術,設計了從中文文本到手語符號的翻譯方法,打造出了業內首個基于神經網絡的精煉度可控手語翻譯模型,讓手語數字人的翻譯可懂度達到85%以上,媲美主流的中英,中日等方向的機器翻譯結果。
3.表達能力。
手語中,手勢必不可少,還需要表情、口型、動作等肢體語言的配合,幫助聽障人士更好地理解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢,還要配上疑惑的表情,眉頭皺起、眼睛睜大。
要讓手語數字人聲情并茂、手舞足蹈地表達,尤其是3D人像,有著不小的技術難度。一些手語數字人動作過快,有時又存在卡頓不連貫的情況。為了訓練手語數字人的“聲臺形表“,百度智能云曦靈平臺也是煞費苦心:
表情上,百度智能云用4D掃描數據,積累了超1萬個臉部面4D數據,借助高精數字人“文字到形狀的跨模態面部表情生成技術”,能夠準確生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情。口型合成準確性達98.5%,a和e這樣發音時表情接近的字母,都可以細致的區分。
驅動時,通過個性化TTS,根據輸入的文本/語音信息來進行自適應,結合多種預置動作,驅動數字人的唇形、肢體、表情、手勢等自動生成。多模態的手語表達,能夠傳遞出更豐富、準確、易于理解的信息。
同時,百度智能云曦靈平臺搭載的開放域對話平臺PLATO-XL,是百度基于百億級訓練參數、多年搜索及知識圖譜積累而訓練出來的,被認為是當前最大規模的中英文對話模型。通過它可以快速驅動數字人實現直播、動畫等內容,達到多場景下的實時溝通。
縱觀手語數字人的能力體系,不難發現,頭部科技公司相繼推出了自己的手語機器人,除了體現科技的人文關懷之外,還隱藏著技術發展的必然。
必須在算力、數據、算法三方面都有強大的能力,在語音、視覺、NLP、知識圖譜等領域都有領先優勢,才能讓手語數字人真正覺醒在屏幕前、生活中。
百度作為國內AI 技術布局更完整的公司,能最快地實現手語數字人的大規模應用,原因正在于此。
數字生命的平臺化復制:手語數字人插上產業之翼
在冬奧會和即將到來的冬殘奧會上的大規模應用,幾乎代表了現階段數字虛擬人的最高水平,是典型的數字生命:具備完成復雜目標的能力(通過手語翻譯傳遞賽事信息),以及實時學習進化的能力(收集信息、實時互動、做出回應,而非提前錄制)。
正如未來生命研究所的創始人:邁克斯·泰格馬克所說,數字生命是一種能夠自我復制的信息處理系統,物理結構是其硬件,行為和“算法”是其軟件。這決定了,手語數字人必須向軟硬協作、規模復制的方向發展。
3月3日,百度智能云曦靈發布AI手語平臺和“AI手語平臺一體機”,或許正在為手語數字人插上產業騰飛的翅膀。
為什么這么說?手語數字人雖好,卻不能低估技術產業化的難度,至少有幾座大山橫亙在前面:
第一座大山,是效率之謎。
對于新興的手語數字人領域,制作難度大、周期長、技術門檻高,服務的群體相對較小,很多行業和企業在引入之前都會顧慮,會不會需要大量的人力財力成本,會不會效果不好沒人用,思前想后就是等等再說。要讓全社會聽障人士都享受到技術紅利,還是要尊重產業規律,降低新技術的應用門檻,真正讓手語數字人的制作“降本增效”。
百度智能云曦靈的手語數字人平臺,出現得恰逢其時。“AI手語平臺”具備“視頻手語合成”“直播手語合成”“文本轉手語”“語音轉手語”四大功能,可實現普通視頻合成為手語視頻、實時直播中增加手語畫面、文字翻譯為手語、語音實時翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網站、小程序中,讓聽障人士也能輕松實現線上社交、娛樂休閑、課程學習等各類需求。
同時,百度智能云曦靈還設置了三大平臺,讓手語數字人可以被快速、標準化、高效地生產和交付。比如在人設管理平臺上,根據不同的場景搭配設置不同的人設,比如銀行中引入的手語數字人可以專業、嚴謹,景區中使用的手語數字人則親和、活潑等,適應千行百業的需求。
平臺化、標準化、體系化的能力,使得AI驅動的2D數字人,生產周期只需要幾個小時,3D虛擬偶像一兩個星期就能開發出來,輕松飛越效率這座大山。
第二座大山,是體驗之困。
大家可能注意到了,在百度智能云曦靈發布 “AI手語平臺一體機”之前,幾乎所有的手語數字人都是以軟件形式存在的。專門打造一款手語數字人硬件,真的有必要嗎?
從根本上來說,我們所知的所有生命形式都有著生物“硬件”的載體,有技術人員認為,“生命3.0”階段的數字生命,不僅要具備設計自身軟件的進化能力,還能設計自身硬件。
很多銀行、醫院等都在引入人形智能機器人,來增加用戶的體驗感。具體到手語數字人,作為未來在社交、電商、直播、客服、導游等領域的服務載體,企業與聽障用戶交互的關鍵入口,如果只能通過軟件來互動,顯然是不夠方便。
但是,開發一個人形手語機器人又涉及到一個相當漫長且復雜的產業鏈,很容易讓企業望而卻步。
百度智能云曦靈此次發布的全離線一體機V3以及端云結合一體機P3,搭載了“AI手語平臺”的核心功能, AI手語數字人可以像手機、電腦一樣被快速、批量生產,到線下生活的各個角落中服務聽障人群。
其中本地全離線一體機,在一些網絡情況不佳的區域,比如偏遠的山村、景區等地,依然能夠進行手語翻譯、人像渲染等操作,提供文本轉手語、語音轉手語等服務。
端云結合一體機,則通過云端計算+本地渲染的形式,也能靈活地實現手語服務。
第三座大山,則是進化之難。
衡量一個數字生命的標準之一,就是具備自主學習、自主適應、自我進化的能力,這需要全面的AI能力支撐。目前,整個手語機器人的產業鏈還沒有被完全打通,盡管一些企業打出了“手語數字人“的概念,但只能在部分場合、部分視頻中露臉。
推動手語數字人在真實的產業場景之中不斷升級,是AI產業化中必不可少的一種能力。在中國的AI科技企業當中,像百度這樣具備從底層算力、開發框架到產業解決方案的全棧AI能力的公司,并不多見。
目前看來,百度的全棧AI能力融入到百度智能云曦靈當中,給數字人升級能力帶來了無限潛力,也將加速手語數字人這一“新物種“的全場景覆蓋。
通過與產業的深度融合,手語數字人也將變得越來越復雜和聰明,進化成為真正的數字生命。
目前,我國有近2780萬聽障人士,而手語翻譯老師只有1萬人左右,許多場景中無法快速跟上手語服務,在飛速發展變化的社會中,很容易造成新的不公平。
而百度智能云曦靈的AI手語平臺,讓手語數字人的規模化復制變得更加可行;“AI手語平臺一體機”,讓數字人技術帶來的體驗更加豐富和多元。
數字生命的平臺化復制,是社會責任不會變成空談的前提,意味著商業價值與技術普惠的一次和解,也預示著手語數字人市場的快速打開。
AI產業的無形之變:手語數字人帶來的連鎖反應
平臺化和軟硬一體,規模復制的產業落地效率與直觀的體驗價值,讓百度智能云曦靈在手語數字人的競爭中,已經獲得了先發優勢。
技術無障礙除了讓殘障群體受益,還將給企業自身和整個產業帶來意想不到的收獲。手語數字人的普及,換來的是AI受眾的擴大和手語服務的延展,會讓許多我們習以為常的場景出現明顯的擴容與創新,并引發一系列連鎖反應。
首先,AI手語解決方案不斷復制到各行各業,讓聽障人士樂于去用,企業和機構樂于引入手語服務,讓手語數字人的落地場景會愈加豐富,在公益屬性、社交、傳播營銷等領域的價值將一一顯現。
其次,數字人作為公認的虛擬世界入口,帶來巨大的商業空間,已經成為互聯網科技企業的下一幕競爭焦點。搶占數字人規模化生產的機遇,培養B端市場的信任感與忠誠度,有助于在接下來的市場競爭中占據優勢。
更進一步,百度智能云曦靈在技術的領先性和全面性,決定了其有資格參與甚至主導數字人行業標準的建立,將吸引大量開發者和產業鏈上下游加速匯聚到生態體系內,推動技術不斷迭代和應用持續創新,預先探索數字人的商業模式,帶動云計算、AIoT等領域的增長,對于中國數字經濟的發展有著重要作用。
以前提到智能科技,大家可能更多地關注獨角獸、投融資、數字經濟等宏大概念,而現在,手語數字人這樣的智能新物種,正在給殘障群體日常生活中的“小事”帶來便利。
從冬奧主播到AI手語平臺,百度智能云曦靈向世界證明,只需要打開一個通道、接通一座橋梁,技術紅利就可以源源不斷地匯聚到那些需要它的人群當中。
許人類一個更美好的未來,這或許是AI故事里,最溫暖人心的章節。
審核編輯:符乾江
-
AI
+關注
關注
87文章
30755瀏覽量
268902 -
人工智能
+關注
關注
1791文章
47206瀏覽量
238272
發布評論請先 登錄
相關推薦
評論