桃乃木香奈作品在线,洗涤屋在线,羞羞影视

Steve Saling 罹患肌萎縮性脊髓側(cè)索硬化癥（ALS）已有 13 年光景，這是一段人生大門(mén)逐漸關(guān)閉的過(guò)程。

ALS 俗稱漸凍癥，發(fā)病后肌肉僵硬，抽搐，造成說(shuō)話或吞咽困難，再逐漸到手臂和腿部無(wú)力，最終失去自主控制運(yùn)動(dòng)的能力。英國(guó)著名物理學(xué)家霍金即患此病。Steve Saling 與人交流，是通過(guò)眼球追蹤技術(shù)來(lái)控制計(jì)算機(jī)上的虛擬鍵盤(pán)打字，溝通十分低效。

圖 | 漸凍癥患者 Steve Saling

如今，在新技術(shù)的幫助下，他在觀看運(yùn)動(dòng)賽事的精彩瞬間時(shí)，竟然可以發(fā)出歡呼。只不過(guò)，聲音是通過(guò)臉部表情控制機(jī)器發(fā)出的。通過(guò)加入谷歌的 Project Euphonia 項(xiàng)目，Steve Saling 可以自主訓(xùn)練機(jī)器學(xué)習(xí)模型，當(dāng)模型更了解他的面部表情，不出聲即可操作 Google Home。

圖 | Steve Saling 正在自主訓(xùn)練機(jī)器學(xué)習(xí)模型

在 2019 谷歌開(kāi)發(fā)者大會(huì)上，失聰設(shè)計(jì)師 Elise Roy 與谷歌科學(xué)家、哈佛教授 Michael Brenner 共同宣布 Project Euphonia 項(xiàng)目。Michael Brenner 博士確信 AI 技術(shù)能解決 ALS 患者這一特定的語(yǔ)言障礙問(wèn)題，但同時(shí)也需要大眾的協(xié)助，提供更多的聲音樣本供模型訓(xùn)練。

生活中的方方面面都涉及到與他人溝通，以及被他人理解。

想象一下，如果旁人難以理解我們的說(shuō)話或表達(dá)方式時(shí)，生活會(huì)變成什么樣，是不是會(huì)感到不便和心情沮喪？

然而，對(duì)上千萬(wàn)的中風(fēng)、ALS 、多發(fā)性硬化、創(chuàng)傷性腦損傷和帕金森氏癥等神經(jīng)系統(tǒng)疾病而產(chǎn)生語(yǔ)言障礙的人士來(lái)說(shuō)，這就是他們每天都必須面對(duì)的情況。

造成語(yǔ)言障礙的成因有很多，有些是聽(tīng)力受損，有的是腦部控制語(yǔ)言的神經(jīng)系統(tǒng)受到創(chuàng)傷，還有的是臉部肌肉不受控制，導(dǎo)致發(fā)音模糊，含糊不清。

非營(yíng)利組織 ALS-TDI（美國(guó) ALS 研究機(jī)構(gòu)）的臨床團(tuán)隊(duì)在過(guò)去幾年中發(fā)現(xiàn)，即使有嚴(yán)重發(fā)音障礙（語(yǔ)言障礙）的 ALS 患者，也可以被親密朋友和家人理解。這說(shuō)明，只要有足夠多的聲音樣本，AI 可以學(xué)習(xí)如何解釋受損的聲音。

看到這一技術(shù)實(shí)現(xiàn)的可能性后，谷歌在 2019 開(kāi)發(fā)者大會(huì)上推出 Project Euphonia，計(jì)劃用 AI 來(lái)了解語(yǔ)言障礙者的講話方式，例如含糊不清、不完整的講話，從而實(shí)現(xiàn)精準(zhǔn)的語(yǔ)音轉(zhuǎn)寫(xiě)。

此項(xiàng)目的聲音樣本主要通過(guò)與 ALS-TDI（美國(guó) ALS 研究機(jī)構(gòu)）與 ALS Residence Initiative（ALS 住宅計(jì)劃）合作獲得，錄下 ALS 患者的聲音，然后將錄下的語(yǔ)音轉(zhuǎn)成聲譜圖，或以更視覺(jué)化的圖像方式來(lái)呈現(xiàn)聲音。接著計(jì)算機(jī)用轉(zhuǎn)錄的聲譜圖拿來(lái)訓(xùn)練模型，以更準(zhǔn)確辨識(shí)這類非典型的語(yǔ)音。

目前設(shè)計(jì)的 AI 模型是以典型的 ALS 相關(guān)障礙的英語(yǔ)人士為目標(biāo)對(duì)象，相信不久后這項(xiàng)研究將可應(yīng)用到更大范圍的不同語(yǔ)言障礙人群。

谷歌語(yǔ)音研究員 Dimitri Kanevsky 是一名聽(tīng)力障礙者，幼年失聰后才開(kāi)始學(xué)的英文，他的主要語(yǔ)言障礙是發(fā)音不標(biāo)準(zhǔn)，吐字模糊。

谷歌的語(yǔ)音轉(zhuǎn)錄程序顯然無(wú)法對(duì)非標(biāo)準(zhǔn)發(fā)音的句子進(jìn)行高精確識(shí)別。于是 Kanevsky 研究員錄入了 15000 條自己的語(yǔ)音數(shù)據(jù)來(lái)對(duì)模型訓(xùn)練，起初效果并不明顯，但在他的堅(jiān)持下模型終于有了不錯(cuò)的表現(xiàn)，程序可以很準(zhǔn)確識(shí)別他的聲音，適應(yīng)了他講話的方式。

不同語(yǔ)言障礙的人群所需要的技術(shù)不同，技術(shù)實(shí)現(xiàn)的難度也不同，但最終實(shí)現(xiàn)的效果是一樣的，理解和被理解。這是人類溝通的快樂(lè)源泉。

目前谷歌的 Live Transcribe 轉(zhuǎn)錄技術(shù)也可以作為聽(tīng)障人士的輔助交流工具。

圖 | Live Transcribe 轉(zhuǎn)錄過(guò)程

此次谷歌開(kāi)發(fā)者大會(huì)上，谷歌也推出了 Live Relay 功能，可以讓設(shè)備在語(yǔ)音和文本之間進(jìn)行轉(zhuǎn)換，語(yǔ)音信息實(shí)時(shí)轉(zhuǎn)化成文本，并且以語(yǔ)音的形式轉(zhuǎn)換回來(lái)，可以幫助聽(tīng)力障礙或失聰人士打電話。

Live Relay 是系統(tǒng)中原生功能，不需要聯(lián)網(wǎng)就可以在終端上運(yùn)行，因此能確保通話的隱私性。

雖然 Live Relay 還在早期研究階段，不過(guò)谷歌對(duì) Live Relay 的長(zhǎng)期發(fā)展十分樂(lè)觀，這項(xiàng)技術(shù)不光是給語(yǔ)言障礙人群提供方便，未來(lái)所有用戶都能因這項(xiàng)服務(wù)受益。比如，很多用戶都曾有需要接聽(tīng)重要電話，但無(wú)法離開(kāi)當(dāng)下手邊正在進(jìn)行的事項(xiàng)的經(jīng)歷，在 Live Relay 的幫助下，用戶不必實(shí)際與對(duì)方交談，也能隨時(shí)隨地通過(guò)輸入文本的方式接聽(tīng)電話，甚至可集成即時(shí)翻譯功能，讓用戶能與世界各地的人通話，完全不必?fù)?dān)心語(yǔ)言隔閡。

谷歌 AI 在語(yǔ)音識(shí)別和轉(zhuǎn)錄技術(shù)上已達(dá)到非常領(lǐng)先的水準(zhǔn)，雖然在理解語(yǔ)言障礙者的發(fā)音和講話方式還在探索中，但這無(wú)疑是離終極目標(biāo)——無(wú)障礙溝通最近的一次。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴