這個(gè)翻譯模型,不僅支持200+語(yǔ)言之間任意兩兩互譯,還是開(kāi)源的。Meta AI在發(fā)布開(kāi)源大型預(yù)訓(xùn)練模型OPT之后,再次發(fā)布最新成果NLLB。
NLLB的全稱(chēng)為No Language Left Behind,如果套用某著名電影,可以翻譯成“一個(gè)語(yǔ)言都不能少”。
這其中,中文分為簡(jiǎn)體繁體和粵語(yǔ)三種,而除了中英法日語(yǔ)等常用語(yǔ)種外,還包括了許多小眾語(yǔ)言。
▲NLLB支持的部分語(yǔ)種截圖
由于這些語(yǔ)言之間都可以?xún)蓛苫プg,所以咱們能用NLLB把阿斯圖里亞語(yǔ)、盧甘達(dá)語(yǔ)、烏爾都語(yǔ)等地球上的小眾語(yǔ)言直接譯成中文了。
一位用粵語(yǔ)的靚仔看到這里直接喜大普奔。
要知道,此前的眾多語(yǔ)言模型,要么不支持這么多種語(yǔ)言,要么不能直接完成小眾語(yǔ)言之間的兩兩翻譯。
有了NLLB,世界各地的人都有機(jī)會(huì)以自己的母語(yǔ)訪(fǎng)問(wèn)和分享網(wǎng)絡(luò)內(nèi)容;并且無(wú)論他們的語(yǔ)言偏好如何,都可以與他人在任意地方溝通。
Meta稱(chēng),他們計(jì)劃先將這個(gè)技術(shù)應(yīng)用于Facebook和Instagram,以提升這些平臺(tái)上小眾語(yǔ)言的計(jì)算機(jī)翻譯水平。
同時(shí),這也是他們?cè)钪嬗?jì)劃的一部分。而這項(xiàng)成果正式開(kāi)源的消息,也受到廣受好評(píng)。
除了AI業(yè)內(nèi)關(guān)心他們?nèi)绾沃С终Z(yǔ)料稀缺的冷門(mén)語(yǔ)言,以及如何在BLEU基準(zhǔn)測(cè)試上提高7個(gè)點(diǎn)以外。也有來(lái)自西非的網(wǎng)友認(rèn)為,語(yǔ)言障礙正是全球互聯(lián)網(wǎng)用戶(hù)數(shù)量進(jìn)一步增長(zhǎng)的關(guān)鍵。
在Hacker News論壇上,大家也對(duì)這個(gè)AI議論紛紛。一個(gè)前端開(kāi)發(fā)者說(shuō),自己的母語(yǔ)就是非常小眾的那種,僅有約一百萬(wàn)人使用。
這位開(kāi)發(fā)者此前從未見(jiàn)過(guò)對(duì)這種語(yǔ)言好用的AI翻譯軟件,而NLLB給他帶來(lái)了希望。
不過(guò)他認(rèn)為,連著名的谷歌AI在處理“德-英-德”這樣語(yǔ)料豐富的語(yǔ)言翻譯時(shí),都常常會(huì)出問(wèn)題,所以他暫且對(duì)這個(gè)聲稱(chēng)能翻譯好小眾語(yǔ)言的新模型持保留態(tài)度。
有網(wǎng)友給這位開(kāi)發(fā)者支招兒,告訴他Meta開(kāi)放了有支持翻譯的兒童書(shū)籍,可以去看看翻譯效果。
還有人補(bǔ)充道,許多小眾語(yǔ)言有許多不同的自然變體,更偏于口語(yǔ)化,而沒(méi)有特定書(shū)面化標(biāo)準(zhǔn),可以用多種文字書(shū)寫(xiě)。所以,如何對(duì)小眾語(yǔ)言進(jìn)行標(biāo)準(zhǔn)化是個(gè)棘手的問(wèn)題。
怎么支持語(yǔ)料少的語(yǔ)言
這個(gè)掌握了200多種語(yǔ)言的AI模型是怎么訓(xùn)練的?
據(jù)Meta AI介紹,他們的AI研究人員主要通過(guò)3個(gè)方面來(lái)解決一些語(yǔ)言語(yǔ)料少的問(wèn)題。
其一是為語(yǔ)料少的語(yǔ)言自動(dòng)構(gòu)建高質(zhì)量的數(shù)據(jù)集。研究者建立了一個(gè)多對(duì)多的多語(yǔ)言數(shù)據(jù)集Flores-200。專(zhuān)業(yè)的真人翻譯員和審稿人采用統(tǒng)一的標(biāo)準(zhǔn),來(lái)保質(zhì)保量地建立這個(gè)數(shù)據(jù)集。
首先,譯員們翻譯Flores-200的全部句子,并檢查;然后,獨(dú)立審查員小組開(kāi)始審查翻譯質(zhì)量,根據(jù)他們的評(píng)估將一些譯文送去進(jìn)行后期編輯。
如果質(zhì)量評(píng)估表明,質(zhì)量在90%以上,則認(rèn)為該語(yǔ)言可以被納入Flores-200中。
最終,F(xiàn)lores-200中包含了842篇不同文章的翻譯,共3001個(gè)句子。
其二,是對(duì)200種語(yǔ)言建模:研究者開(kāi)發(fā)了一個(gè)語(yǔ)言識(shí)別系統(tǒng)LID(language identification systems),標(biāo)記出某段文字是用哪種語(yǔ)言寫(xiě)的。
用監(jiān)督方式訓(xùn)練的LID模型在看似流暢的句子上,可能難以識(shí)別處不正確語(yǔ)法和不完整的字符串。
此外,LID很容易學(xué)習(xí)到?jīng)]有意義的相關(guān)性。所以,在這個(gè)LID開(kāi)發(fā)的不同階段,工程師們都和語(yǔ)言學(xué)家們保持著緊密合作來(lái)盡量規(guī)避這些問(wèn)題。
為了對(duì)小眾語(yǔ)言進(jìn)行較好的建模,研究者開(kāi)發(fā)了一種“學(xué)生-教師挖掘法”(Student-Teacher Mining)該方法的內(nèi)容是:讓一個(gè)大規(guī)模的多語(yǔ)言句子編碼器的教師模型,與幾個(gè)語(yǔ)料少的學(xué)生模型相互學(xué)習(xí)整合。
這樣能夠在不和多語(yǔ)料語(yǔ)言爭(zhēng)奪容量的情況下,豐富小眾語(yǔ)言的訓(xùn)練數(shù)據(jù),保持了多語(yǔ)言嵌入空間的兼容性,避免從頭開(kāi)始重新訓(xùn)練整個(gè)模型。
其三,是將一個(gè)人工翻譯的評(píng)估基準(zhǔn):FLORES的覆蓋范圍擴(kuò)大2倍,來(lái)評(píng)估每一種語(yǔ)言的翻譯質(zhì)量。雖然自動(dòng)評(píng)分是推動(dòng)該研究的重要工具,但人工評(píng)價(jià)對(duì)于翻譯質(zhì)量的評(píng)估也是必不可少的。
通過(guò)整合AI自動(dòng)評(píng)分和人工評(píng)估,能夠廣泛量化翻譯水平,便于提升整理的翻譯質(zhì)量。
為了讓更多程序員和工程師們能夠使用或完善NLLB,Meta開(kāi)放了所有的評(píng)估基準(zhǔn)(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和訓(xùn)練代碼,以及最終的NLLB-200模型和其小型提煉版本等。
Meta AI已將這些內(nèi)容開(kāi)源,就在fariseq倉(cāng)庫(kù)里面,感興趣的小伙伴們可以去看看。
論文地址:
https://research.facebook.com/publications/no-language-left-behind/
開(kāi)源地址:
https://github.com/facebookresearch/fairseq/tree/nllb
審核編輯 :李倩
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
529瀏覽量
10295 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14914 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24737
原文標(biāo)題:機(jī)器翻譯做到頭了?Meta開(kāi)源NLLB翻譯模型,支持200種語(yǔ)言互譯
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論