舊金山加利福尼亞大學(xué)的一項(xiàng)新研究讓癱瘓的人通過(guò)將大腦信號(hào)翻譯成計(jì)算機(jī)生成的文字來(lái)進(jìn)行交流。這項(xiàng)研究發(fā)表在 新英格蘭醫(yī)學(xué)雜志 ,標(biāo)志著為喪失說(shuō)話能力的人恢復(fù)交流的一個(gè)重要里程碑。
“據(jù)我們所知,這是第一次成功地從癱瘓不能說(shuō)話的人的大腦活動(dòng)中直接解碼完整單詞的演示,”資深作者、加州大學(xué)舊金山分校神經(jīng)外科主任瓊和桑福德·威爾( Joan and Sanford Weill )在一份新聞稿中說(shuō)它顯示出通過(guò)利用大腦的自然語(yǔ)言機(jī)制來(lái)恢復(fù)交流的強(qiáng)大前景。”
一些有語(yǔ)音限制的人使用輔助設(shè)備——比如觸摸屏、鍵盤或語(yǔ)音生成計(jì)算機(jī)來(lái)進(jìn)行交流。然而,每年都有成千上萬(wàn)的人因?yàn)榘c瘓或腦損傷而喪失了語(yǔ)言能力,使他們無(wú)法使用輔助技術(shù)。
這名參與者在 2003 年失去了說(shuō)話的能力,在一次車禍后因腦卒中癱瘓。研究人員不確定他的大腦是否保留了與語(yǔ)言有關(guān)的神經(jīng)活動(dòng)。為了追蹤他的大腦信號(hào),一個(gè)由 ele CTR 節(jié)點(diǎn)組成的神經(jīng)假體被放置在大腦的左側(cè),跨越了幾個(gè)已知的語(yǔ)音處理區(qū)域。
在大約四個(gè)月的時(shí)間里,研究小組進(jìn)行了 50 次培訓(xùn),參與者被要求說(shuō)出單個(gè)單詞、造句或回答顯示屏上的問(wèn)題。在對(duì)提示做出反應(yīng)的同時(shí), ele CTR ode 設(shè)備捕捉到了神經(jīng)活動(dòng),并用定制軟件將信息傳輸?shù)接?jì)算機(jī)。
“我們的模型需要學(xué)習(xí)復(fù)雜的大腦活動(dòng)模式和預(yù)期語(yǔ)言之間的映射。當(dāng)參與者不能說(shuō)話時(shí),這就構(gòu)成了一個(gè)重大的挑戰(zhàn)。
為了解碼他大腦活動(dòng)的反應(yīng),研究小組建立了語(yǔ)音檢測(cè)和單詞分類模型。使用 cuDNN – 加速 TensorFlow 框架和 32 NVIDIA V100 張量核 GPU 研究人員對(duì)模型進(jìn)行了訓(xùn)練、微調(diào)和評(píng)估。
“利用神經(jīng)網(wǎng)絡(luò)是獲得我們所做的分類和檢測(cè)性能的關(guān)鍵,我們的最終產(chǎn)品是大量實(shí)驗(yàn)的結(jié)果,”研究共同負(fù)責(zé)人肖恩·梅茨格( Sean Metzger )說(shuō)因?yàn)槲覀兊臄?shù)據(jù)集是不斷發(fā)展和增長(zhǎng)的,能夠適應(yīng)我們使用的模型是至關(guān)重要的。 GPU 幫助我們進(jìn)行更改、監(jiān)控進(jìn)度并了解數(shù)據(jù)集。”
該模型的準(zhǔn)確率高達(dá) 93% ,中位數(shù)為 75% ,解碼速度高達(dá)每分鐘 18 次。
“我們希望達(dá)到 1000 個(gè)單詞,最終達(dá)到所有單詞。這只是一個(gè)起點(diǎn)。
這項(xiàng)研究建立在 以前的工作 由 Chang 和他的同事開(kāi)發(fā)了一種解碼和轉(zhuǎn)換大腦信號(hào)的深度學(xué)習(xí)方法。與目前的研究不同,先前研究的參與者能夠說(shuō)話。
關(guān)于作者
Michelle Horton 是 NVIDIA 的高級(jí)開(kāi)發(fā)人員通信經(jīng)理,擁有通信經(jīng)理和科學(xué)作家的背景。她在 NVIDIA 為開(kāi)發(fā)者博客撰文,重點(diǎn)介紹了開(kāi)發(fā)者使用 NVIDIA 技術(shù)的多種方式。
審核編輯:郭婷
-
gpu
+關(guān)注
關(guān)注
28文章
4754瀏覽量
129073 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121298
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論