明靜不想去醫(yī)院了。
她不想每次走進(jìn)醫(yī)院時(shí),都被護(hù)士或是分診臺(tái)導(dǎo)醫(yī)勸說,回家?guī)细改冈賮怼?/p>
“我只是嗓子不舒服,爸媽都65歲了,我不想這點(diǎn)事都讓他們陪。”
明靜是一名聽障人士。去醫(yī)院看病、接外賣電話、打一輛網(wǎng)約車或是辦一張銀行卡,每一件日常小事,對她這樣的聽障人士而言,都是困難重重。
“執(zhí)教的這幾年,我做得最常見的工作,是陪學(xué)生去醫(yī)院看病。”明靜的老師——天津理工大學(xué)聾人工學(xué)院副院長袁甜甜感慨。
這所專門面向聽障人士的高等工科特殊教育學(xué)院,人稱“聾人小清華”,這里,容納著500多名像明靜這樣的學(xué)生。
2018年,聾人工學(xué)院的老師和學(xué)生們共同啟動(dòng)了智能手語翻譯項(xiàng)目,并孵化出成果公司“鯨言科技”。
近幾年,百度先后與天津理工大學(xué)、鯨言科技合作,共同研發(fā)出百度智能云曦靈AI手語平臺(tái)與雙向手語翻譯機(jī),讓手語的“聲音”,被更多人聽見。
//缺失的“基礎(chǔ)設(shè)施”
理解AI手語,先要了解聽障人群面臨的問題。第二次全國殘疾人抽樣調(diào)查數(shù)據(jù)顯示,我國大約有2004萬的聽力殘疾人,是世界上聽力殘疾人數(shù)最多的國家。
然而,無論線下線上,都鮮有能真正幫助聽障人群的服務(wù)設(shè)施。據(jù)調(diào)查,我國全職從事手語翻譯職業(yè)的人員不足千人,約97%的聾人因?yàn)槭终Z翻譯的缺失面臨就診困難的問題。
手語是大多數(shù)聽力殘疾人的第一語言。但是,作為視覺語言,手語與健全人使用的有聲語言有著天然的不同,這種不同造就了聽障人群特有的思維邏輯,也構(gòu)成了他們對有聲語言的理解困難。
袁甜甜從語言學(xué)的角度舉例,如果聽障人士說“滅火”,最先打出的手語是“火”,因?yàn)樵谝曈X語言里最先出現(xiàn)的是所要闡述的重點(diǎn)人事物,聽障人士習(xí)慣于先表達(dá)人事物,再表達(dá)處理方式或多者之間的關(guān)系。
在她的課堂上也是如此,即使有實(shí)時(shí)翻譯語音的字幕,袁甜甜還是會(huì)用手語配合口語,方便同學(xué)們理解。
//會(huì)打手語的數(shù)字人
張帆在《無聲的綻放》中寫道,對于聽障問題,重要的是消除社會(huì)歧視,而非消除“不正常”;重要的是公正,而非藥物與慈善。
為幫助聽障人群解決“從手語到口語”的交流問題,2022年,百度推出了AI手語平臺(tái),研發(fā)了針對線上場景的AI手語數(shù)字人和針對線下場景的雙向手語翻譯機(jī),實(shí)現(xiàn)了“手語-漢語”的智能互譯。
在手語動(dòng)作的專業(yè)性方面,百度智能云曦靈數(shù)字人產(chǎn)品團(tuán)隊(duì)聯(lián)合手語語言學(xué)專家、特殊教育專家以及天津理工大學(xué)聾人工學(xué)院等,制定了面向人工智能應(yīng)用的自然手語標(biāo)注規(guī)范,建設(shè)了大規(guī)模自然手語翻譯語料庫,使模型能夠生成符合聽障人群習(xí)慣的自然手語。
通過百度數(shù)字人4D掃描技術(shù)訓(xùn)練的AI手語數(shù)字人,不僅能呈現(xiàn)出真實(shí)生動(dòng)的面部表情,還能借助動(dòng)作融合算法,如真人般流暢表達(dá)11000多個(gè)《國家通用手語詞典》所涵蓋的手語動(dòng)作,為聽障群體打造更具情感表現(xiàn)力的溝通體驗(yàn)。
目前,百度的AI手語數(shù)字人已經(jīng)能夠識(shí)別語音、打出手語,在實(shí)時(shí)直播中用數(shù)字人形象進(jìn)行手語同步翻譯,在央視NBA直播、冬奧會(huì)開幕式上,都出現(xiàn)過百度的AI手語數(shù)字人主播。
//從輸出到理解,讓AI“聽懂手語”
隨著AI技術(shù)爆發(fā)與數(shù)字人的廣泛應(yīng)用,大模型的對話也變得更加生動(dòng)。
AI手語數(shù)字人在“打出手語”的基礎(chǔ)上,也開始嘗試“理解”聽障人士的手語表達(dá)。與只能單向輸出信息的模式相比,理解了手語的數(shù)字人能夠更好地完成雙向溝通的閉環(huán)。
從2024年開始,百度正式投入雙向手語翻譯機(jī)的研發(fā)及生產(chǎn),這是多模態(tài)AI模型的典型應(yīng)用,也是百度各項(xiàng)AI技術(shù)的集成。
當(dāng)聽障人士打出手語之后,翻譯機(jī)需要先通過視覺識(shí)別及自然語言處理技術(shù),將手語翻譯為漢語;健全人理解后,將要回復(fù)的內(nèi)容通過語音識(shí)別驅(qū)動(dòng)數(shù)字人翻譯,最終以手語和文字的形式,再呈現(xiàn)給聽障人士。其中,無論是視覺識(shí)別還是自然語言處理,都是AI模型的核心能力。
不過,只有模型能力遠(yuǎn)遠(yuǎn)不夠。
實(shí)際使用場景中,面臨著更多的技術(shù)考驗(yàn),比如:
◎聽障人士快速打出的手語時(shí),會(huì)導(dǎo)致手部輪廓細(xì)節(jié)模糊,增加模型理解成本;
◎混雜的畫面背景會(huì)分散模型對手部區(qū)域的注意力,造成識(shí)別錯(cuò)誤;
◎數(shù)據(jù)采集時(shí)出現(xiàn)的手語孤立詞會(huì)增加模型識(shí)別錯(cuò)誤概率;
◎手語-漢語在語義等層面是多對多的關(guān)系,和具體使用場景有很強(qiáng)的相關(guān)性,任何不考慮語言學(xué)規(guī)律的“蠻力”翻譯都可能會(huì)造成天差地別的錯(cuò)誤,影響聾健溝通的質(zhì)量。
解決這些技術(shù)問題之后,模型還需要更多的訓(xùn)練數(shù)據(jù),而數(shù)據(jù)的標(biāo)注要求工作者具備手語能力。因此,手語翻譯模型訓(xùn)練及測試數(shù)據(jù)的生產(chǎn)、處理、分析基本都需要由手語使用者來完成。
近幾年,百度、天津理工大學(xué)、鯨言科技在全社會(huì)范圍內(nèi)收集了近千萬自然手語(含視頻、文本、標(biāo)注等)作為多模態(tài)模型訓(xùn)練數(shù)據(jù),終于在2024年完成了“雙向手語翻譯機(jī)”的研發(fā)。
//聽見手語的聲音
明靜也接觸了手語數(shù)據(jù)的采集工作。對產(chǎn)品進(jìn)行交互性測試之后,她非常開心,“終于有人開始做這件事了”。
她是一個(gè)很樂觀的女孩,微信個(gè)性簽名是,“我還會(huì)選擇這滾燙的人生啊”。她希望自己的人生充滿可能性,而不是恐懼。她說,愿意拾起破碎的自己,愿意釋懷,愿意活在當(dāng)下,愿意相信未來會(huì)更好。
2025年1月,中國殘聯(lián)等9部門聯(lián)合印發(fā)了《關(guān)于推進(jìn)科技助殘的指導(dǎo)意見》,其中明確提到了“推動(dòng)智能手語翻譯”的助殘措施。
越來越多的聽障人士,會(huì)在充滿聲音的世界中找到自己的位置;也會(huì)有越來越多的普通人,聽到手語翻飛的聲音。
-
AI
+關(guān)注
關(guān)注
87文章
33151瀏覽量
273258 -
百度
+關(guān)注
關(guān)注
9文章
2313瀏覽量
91409 -
模型
+關(guān)注
關(guān)注
1文章
3444瀏覽量
49679 -
數(shù)字人
+關(guān)注
關(guān)注
0文章
149瀏覽量
2195
原文標(biāo)題:想用AI,幫助這2000萬人
文章出處:【微信號(hào):baidu_2000,微信公眾號(hào):百度】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論