Steve Saling 罹患肌萎縮性脊髓側(cè)索硬化癥(ALS)已有 13 年光景,這是一段人生大門(mén)逐漸關(guān)閉的過(guò)程。
ALS 俗稱漸凍癥,發(fā)病后肌肉僵硬,抽搐,造成說(shuō)話或吞咽困難,再逐漸到手臂和腿部無(wú)力,最終失去自主控制運(yùn)動(dòng)的能力。英國(guó)著名物理學(xué)家霍金即患此病。Steve Saling 與人交流,是通過(guò)眼球追蹤技術(shù)來(lái)控制計(jì)算機(jī)上的虛擬鍵盤(pán)打字,溝通十分低效。
圖 | 漸凍癥患者 Steve Saling
如今,在新技術(shù)的幫助下,他在觀看運(yùn)動(dòng)賽事的精彩瞬間時(shí),竟然可以發(fā)出歡呼。只不過(guò),聲音是通過(guò)臉部表情控制機(jī)器發(fā)出的。通過(guò)加入谷歌的 Project Euphonia 項(xiàng)目,Steve Saling 可以自主訓(xùn)練機(jī)器學(xué)習(xí)模型,當(dāng)模型更了解他的面部表情,不出聲即可操作 Google Home。
圖 | Steve Saling 正在自主訓(xùn)練機(jī)器學(xué)習(xí)模型
在 2019 谷歌開(kāi)發(fā)者大會(huì)上,失聰設(shè)計(jì)師 Elise Roy 與谷歌科學(xué)家、哈佛教授 Michael Brenner 共同宣布 Project Euphonia 項(xiàng)目。Michael Brenner 博士確信 AI 技術(shù)能解決 ALS 患者這一特定的語(yǔ)言障礙問(wèn)題,但同時(shí)也需要大眾的協(xié)助,提供更多的聲音樣本供模型訓(xùn)練。
生活中的方方面面都涉及到與他人溝通,以及被他人理解。
想象一下,如果旁人難以理解我們的說(shuō)話或表達(dá)方式時(shí),生活會(huì)變成什么樣,是不是會(huì)感到不便和心情沮喪?
然而,對(duì)上千萬(wàn)的中風(fēng)、ALS 、多發(fā)性硬化、創(chuàng)傷性腦損傷和帕金森氏癥等神經(jīng)系統(tǒng)疾病而產(chǎn)生語(yǔ)言障礙的人士來(lái)說(shuō),這就是他們每天都必須面對(duì)的情況。
造成語(yǔ)言障礙的成因有很多,有些是聽(tīng)力受損,有的是腦部控制語(yǔ)言的神經(jīng)系統(tǒng)受到創(chuàng)傷,還有的是臉部肌肉不受控制,導(dǎo)致發(fā)音模糊,含糊不清。
非營(yíng)利組織 ALS-TDI(美國(guó) ALS 研究機(jī)構(gòu))的臨床團(tuán)隊(duì)在過(guò)去幾年中發(fā)現(xiàn),即使有嚴(yán)重發(fā)音障礙(語(yǔ)言障礙)的 ALS 患者,也可以被親密朋友和家人理解。這說(shuō)明,只要有足夠多的聲音樣本,AI 可以學(xué)習(xí)如何解釋受損的聲音。
看到這一技術(shù)實(shí)現(xiàn)的可能性后,谷歌在 2019 開(kāi)發(fā)者大會(huì)上推出 Project Euphonia,計(jì)劃用 AI 來(lái)了解語(yǔ)言障礙者的講話方式,例如含糊不清、不完整的講話,從而實(shí)現(xiàn)精準(zhǔn)的語(yǔ)音轉(zhuǎn)寫(xiě)。
此項(xiàng)目的聲音樣本主要通過(guò)與 ALS-TDI(美國(guó) ALS 研究機(jī)構(gòu))與 ALS Residence Initiative(ALS 住宅計(jì)劃)合作獲得,錄下 ALS 患者的聲音,然后將錄下的語(yǔ)音轉(zhuǎn)成聲譜圖,或以更視覺(jué)化的圖像方式來(lái)呈現(xiàn)聲音。接著計(jì)算機(jī)用轉(zhuǎn)錄的聲譜圖拿來(lái)訓(xùn)練模型,以更準(zhǔn)確辨識(shí)這類非典型的語(yǔ)音。
目前設(shè)計(jì)的 AI 模型是以典型的 ALS 相關(guān)障礙的英語(yǔ)人士為目標(biāo)對(duì)象,相信不久后這項(xiàng)研究將可應(yīng)用到更大范圍的不同語(yǔ)言障礙人群。
谷歌語(yǔ)音研究員 Dimitri Kanevsky 是一名聽(tīng)力障礙者,幼年失聰后才開(kāi)始學(xué)的英文,他的主要語(yǔ)言障礙是發(fā)音不標(biāo)準(zhǔn),吐字模糊。
谷歌的語(yǔ)音轉(zhuǎn)錄程序顯然無(wú)法對(duì)非標(biāo)準(zhǔn)發(fā)音的句子進(jìn)行高精確識(shí)別。于是 Kanevsky 研究員錄入了 15000 條自己的語(yǔ)音數(shù)據(jù)來(lái)對(duì)模型訓(xùn)練,起初效果并不明顯,但在他的堅(jiān)持下模型終于有了不錯(cuò)的表現(xiàn),程序可以很準(zhǔn)確識(shí)別他的聲音,適應(yīng)了他講話的方式。
不同語(yǔ)言障礙的人群所需要的技術(shù)不同,技術(shù)實(shí)現(xiàn)的難度也不同,但最終實(shí)現(xiàn)的效果是一樣的,理解和被理解。這是人類溝通的快樂(lè)源泉。
目前谷歌的 Live Transcribe 轉(zhuǎn)錄技術(shù)也可以作為聽(tīng)障人士的輔助交流工具。
圖 | Live Transcribe 轉(zhuǎn)錄過(guò)程
此次谷歌開(kāi)發(fā)者大會(huì)上,谷歌也推出了 Live Relay 功能,可以讓設(shè)備在語(yǔ)音和文本之間進(jìn)行轉(zhuǎn)換,語(yǔ)音信息實(shí)時(shí)轉(zhuǎn)化成文本,并且以語(yǔ)音的形式轉(zhuǎn)換回來(lái),可以幫助聽(tīng)力障礙或失聰人士打電話。
Live Relay 是系統(tǒng)中原生功能,不需要聯(lián)網(wǎng)就可以在終端上運(yùn)行,因此能確保通話的隱私性。
雖然 Live Relay 還在早期研究階段,不過(guò)谷歌對(duì) Live Relay 的長(zhǎng)期發(fā)展十分樂(lè)觀,這項(xiàng)技術(shù)不光是給語(yǔ)言障礙人群提供方便,未來(lái)所有用戶都能因這項(xiàng)服務(wù)受益。比如,很多用戶都曾有需要接聽(tīng)重要電話,但無(wú)法離開(kāi)當(dāng)下手邊正在進(jìn)行的事項(xiàng)的經(jīng)歷,在 Live Relay 的幫助下,用戶不必實(shí)際與對(duì)方交談,也能隨時(shí)隨地通過(guò)輸入文本的方式接聽(tīng)電話,甚至可集成即時(shí)翻譯功能,讓用戶能與世界各地的人通話,完全不必?fù)?dān)心語(yǔ)言隔閡。
谷歌 AI 在語(yǔ)音識(shí)別和轉(zhuǎn)錄技術(shù)上已達(dá)到非常領(lǐng)先的水準(zhǔn),雖然在理解語(yǔ)言障礙者的發(fā)音和講話方式還在探索中,但這無(wú)疑是離終極目標(biāo)——無(wú)障礙溝通最近的一次。
-
谷歌
+關(guān)注
關(guān)注
27文章
6164瀏覽量
105313 -
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268907
原文標(biāo)題:為了追求一個(gè)更真實(shí)的游戲世界,我們還缺乏什么?| 近未來(lái) ⑤
文章出處:【微信號(hào):ifanr,微信公眾號(hào):愛(ài)范兒】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論