在线观看欧美国产,一个人的高清视频www,污污的草莓视频

這個(gè)翻譯模型，不僅支持200+語(yǔ)言之間任意兩兩互譯，還是開(kāi)源的。Meta AI在發(fā)布開(kāi)源大型預(yù)訓(xùn)練模型OPT之后，再次發(fā)布最新成果NLLB。

NLLB的全稱(chēng)為No Language Left Behind，如果套用某著名電影，可以翻譯成“一個(gè)語(yǔ)言都不能少”。

這其中，中文分為簡(jiǎn)體繁體和粵語(yǔ)三種，而除了中英法日語(yǔ)等常用語(yǔ)種外，還包括了許多小眾語(yǔ)言。

▲NLLB支持的部分語(yǔ)種截圖

由于這些語(yǔ)言之間都可以?xún)蓛苫プg，所以咱們能用NLLB把阿斯圖里亞語(yǔ)、盧甘達(dá)語(yǔ)、烏爾都語(yǔ)等地球上的小眾語(yǔ)言直接譯成中文了。

一位用粵語(yǔ)的靚仔看到這里直接喜大普奔。

要知道，此前的眾多語(yǔ)言模型，要么不支持這么多種語(yǔ)言，要么不能直接完成小眾語(yǔ)言之間的兩兩翻譯。

有了NLLB，世界各地的人都有機(jī)會(huì)以自己的母語(yǔ)訪(fǎng)問(wèn)和分享網(wǎng)絡(luò)內(nèi)容；并且無(wú)論他們的語(yǔ)言偏好如何，都可以與他人在任意地方溝通。

Meta稱(chēng)，他們計(jì)劃先將這個(gè)技術(shù)應(yīng)用于Facebook和Instagram，以提升這些平臺(tái)上小眾語(yǔ)言的計(jì)算機(jī)翻譯水平。

同時(shí)，這也是他們?cè)钪嬗?jì)劃的一部分。而這項(xiàng)成果正式開(kāi)源的消息，也受到廣受好評(píng)。

除了AI業(yè)內(nèi)關(guān)心他們?nèi)绾沃С终Z(yǔ)料稀缺的冷門(mén)語(yǔ)言，以及如何在BLEU基準(zhǔn)測(cè)試上提高7個(gè)點(diǎn)以外。也有來(lái)自西非的網(wǎng)友認(rèn)為，語(yǔ)言障礙正是全球互聯(lián)網(wǎng)用戶(hù)數(shù)量進(jìn)一步增長(zhǎng)的關(guān)鍵。

在Hacker News論壇上，大家也對(duì)這個(gè)AI議論紛紛。一個(gè)前端開(kāi)發(fā)者說(shuō)，自己的母語(yǔ)就是非常小眾的那種，僅有約一百萬(wàn)人使用。

這位開(kāi)發(fā)者此前從未見(jiàn)過(guò)對(duì)這種語(yǔ)言好用的AI翻譯軟件，而NLLB給他帶來(lái)了希望。

不過(guò)他認(rèn)為，連著名的谷歌AI在處理“德-英-德”這樣語(yǔ)料豐富的語(yǔ)言翻譯時(shí)，都常常會(huì)出問(wèn)題，所以他暫且對(duì)這個(gè)聲稱(chēng)能翻譯好小眾語(yǔ)言的新模型持保留態(tài)度。

有網(wǎng)友給這位開(kāi)發(fā)者支招兒，告訴他Meta開(kāi)放了有支持翻譯的兒童書(shū)籍，可以去看看翻譯效果。

還有人補(bǔ)充道，許多小眾語(yǔ)言有許多不同的自然變體，更偏于口語(yǔ)化，而沒(méi)有特定書(shū)面化標(biāo)準(zhǔn)，可以用多種文字書(shū)寫(xiě)。所以，如何對(duì)小眾語(yǔ)言進(jìn)行標(biāo)準(zhǔn)化是個(gè)棘手的問(wèn)題。

怎么支持語(yǔ)料少的語(yǔ)言

這個(gè)掌握了200多種語(yǔ)言的AI模型是怎么訓(xùn)練的？

據(jù)Meta AI介紹，他們的AI研究人員主要通過(guò)3個(gè)方面來(lái)解決一些語(yǔ)言語(yǔ)料少的問(wèn)題。

其一是為語(yǔ)料少的語(yǔ)言自動(dòng)構(gòu)建高質(zhì)量的數(shù)據(jù)集。研究者建立了一個(gè)多對(duì)多的多語(yǔ)言數(shù)據(jù)集Flores-200。專(zhuān)業(yè)的真人翻譯員和審稿人采用統(tǒng)一的標(biāo)準(zhǔn)，來(lái)保質(zhì)保量地建立這個(gè)數(shù)據(jù)集。

首先，譯員們翻譯Flores-200的全部句子，并檢查；然后，獨(dú)立審查員小組開(kāi)始審查翻譯質(zhì)量，根據(jù)他們的評(píng)估將一些譯文送去進(jìn)行后期編輯。

如果質(zhì)量評(píng)估表明，質(zhì)量在90%以上，則認(rèn)為該語(yǔ)言可以被納入Flores-200中。

最終，F(xiàn)lores-200中包含了842篇不同文章的翻譯，共3001個(gè)句子。

其二，是對(duì)200種語(yǔ)言建模：研究者開(kāi)發(fā)了一個(gè)語(yǔ)言識(shí)別系統(tǒng)LID（language identification systems），標(biāo)記出某段文字是用哪種語(yǔ)言寫(xiě)的。

用監(jiān)督方式訓(xùn)練的LID模型在看似流暢的句子上，可能難以識(shí)別處不正確語(yǔ)法和不完整的字符串。

此外，LID很容易學(xué)習(xí)到?jīng)]有意義的相關(guān)性。所以，在這個(gè)LID開(kāi)發(fā)的不同階段，工程師們都和語(yǔ)言學(xué)家們保持著緊密合作來(lái)盡量規(guī)避這些問(wèn)題。

為了對(duì)小眾語(yǔ)言進(jìn)行較好的建模，研究者開(kāi)發(fā)了一種“學(xué)生-教師挖掘法”（Student-Te acher Mining）該方法的內(nèi)容是：讓一個(gè)大規(guī)模的多語(yǔ)言句子編碼器的教師模型，與幾個(gè)語(yǔ)料少的學(xué)生模型相互學(xué)習(xí)整合。

這樣能夠在不和多語(yǔ)料語(yǔ)言爭(zhēng)奪容量的情況下，豐富小眾語(yǔ)言的訓(xùn)練數(shù)據(jù)，保持了多語(yǔ)言嵌入空間的兼容性，避免從頭開(kāi)始重新訓(xùn)練整個(gè)模型。

其三，是將一個(gè)人工翻譯的評(píng)估基準(zhǔn)：FLORES的覆蓋范圍擴(kuò)大2倍，來(lái)評(píng)估每一種語(yǔ)言的翻譯質(zhì)量。雖然自動(dòng)評(píng)分是推動(dòng)該研究的重要工具，但人工評(píng)價(jià)對(duì)于翻譯質(zhì)量的評(píng)估也是必不可少的。

通過(guò)整合AI自動(dòng)評(píng)分和人工評(píng)估，能夠廣泛量化翻譯水平，便于提升整理的翻譯質(zhì)量。

為了讓更多程序員和工程師們能夠使用或完善NLLB，Meta開(kāi)放了所有的評(píng)估基準(zhǔn)（FLORES-200、NLLB-MD、Toxicity-200）、LID模型和訓(xùn)練代碼，以及最終的NLLB-200模型和其小型提煉版本等。

Meta AI已將這些內(nèi)容開(kāi)源，就在fariseq倉(cāng)庫(kù)里面，感興趣的小伙伴們可以去看看。

論文地址：
https://research.facebook.com/publications/no-language-left-behind/
開(kāi)源地址：
https://github.com/facebookresearch/fairseq/tree/nllb

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
529

瀏覽量
10295
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14914
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24737

原文標(biāo)題：機(jī)器翻譯做到頭了？Meta開(kāi)源NLLB翻譯模型，支持200種語(yǔ)言互譯

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

神經(jīng)機(jī)器翻譯的方法有哪些？

之間的翻譯，也就是通過(guò)只訓(xùn)練一個(gè)模型就能夠支持在多個(gè)語(yǔ)言之間的翻譯。盡管目前最流行的Transformer

發(fā)表于 11-23 12:14

紫米電子推出ZMI旅行助手Z1，支持16種語(yǔ)言互譯，實(shí)現(xiàn)交流無(wú)障礙溝通

ZMI紫米旅行助手自帶的語(yǔ)音翻譯功能，可以支持中文和16種語(yǔ)言互譯，整合微軟人工智能翻譯和獵戶(hù)星

發(fā)表于 09-12 16:57 ?4690次閱讀

雙11霸榜硬貨全通路銷(xiāo)售冠軍訊飛翻譯機(jī)2.0神通何在

支持中文和全球33種語(yǔ)言的即時(shí)互譯，精準(zhǔn)快速的翻譯功能，覆蓋各類(lèi)全場(chǎng)景溝通需求；全新INMT翻譯

發(fā)表于 11-13 10:50 ?1781次閱讀

訊飛翻譯機(jī)2.0重磅升級(jí)，率先發(fā)布行業(yè)A.I.翻譯

國(guó)家出境需求第一，首發(fā)行業(yè)A.I.翻譯，首批上線(xiàn)醫(yī)療/金融/計(jì)算機(jī)三大行業(yè)A.I.翻譯官，解決專(zhuān)業(yè)領(lǐng)域翻譯難點(diǎn)；第二，語(yǔ)音翻譯從中文與33種

發(fā)表于 12-07 15:15 ?771次閱讀

小米米家翻譯機(jī)最新發(fā)布，4.1英寸屏+18種語(yǔ)言互譯

11月22日消息，今天小米發(fā)布了米家翻譯機(jī)，采用4.1英寸大屏，專(zhuān)利6麥克風(fēng)陣列技術(shù)，支持18種語(yǔ)言互譯，售價(jià)1299元，將于11月26日1

發(fā)表于 11-22 16:43 ?5178次閱讀

谷歌翻譯新增五種語(yǔ)言支持全世界超7500萬(wàn)人使用這五種語(yǔ)言

據(jù)外媒報(bào)道，在過(guò)去的4年時(shí)間里，Google沒(méi)有在谷歌翻譯中增加對(duì)新語(yǔ)言的支持。經(jīng)過(guò)長(zhǎng)時(shí)間的修整后，該家公司今日終于宣布，它將在谷歌翻譯中增加對(duì)五

發(fā)表于 02-27 17:20 ?3635次閱讀

微軟翻譯器新增五種印度語(yǔ)言的實(shí)時(shí)翻譯印度語(yǔ)言支持總數(shù)達(dá)到10種

微軟印度宣布，微軟翻譯器現(xiàn)在將提供古吉拉特語(yǔ)、馬拉地語(yǔ)、卡納達(dá)語(yǔ)、馬來(lái)語(yǔ)和旁遮普語(yǔ)五種語(yǔ)言的實(shí)時(shí)翻譯。微軟翻譯器允許用戶(hù)使用Windows、

發(fā)表于 04-17 10:29 ?3516次閱讀

Facebook的AI翻譯系統(tǒng)能翻譯100種語(yǔ)言！

質(zhì)量的 100 分制中，該人工智能的表現(xiàn)比同類(lèi)翻譯系統(tǒng)高出 10 分。該模型的翻譯也由人類(lèi)進(jìn)行了翻譯評(píng)估，其準(zhǔn)確率約為 90%。 Facebook 的研究人員在網(wǎng)上收集了 100

發(fā)表于 10-30 09:25 ?2921次閱讀

人工智能翻譯mRASP：可翻譯32種語(yǔ)言

利用計(jì)算機(jī)把一種自然語(yǔ)言轉(zhuǎn)變成另一種自然語(yǔ)言的過(guò)程就是機(jī)器翻譯。機(jī)器翻譯對(duì)于信息時(shí)代下海量信息

發(fā)表于 12-01 14:03 ?3220次閱讀

支持Python和Java的BigCode開(kāi)源輕量級(jí)語(yǔ)言模型

BigCode 是一個(gè)開(kāi)放的科學(xué)合作組織，致力于開(kāi)發(fā)大型語(yǔ)言模型。近日他們開(kāi)源了一個(gè)名為 SantaCoder 的語(yǔ)言模型，該

發(fā)表于 01-17 14:29 ?967次閱讀

Meta發(fā)布開(kāi)源大模型Code Llama 70B

近日，Meta宣布推出了一款新的開(kāi)源大模型Code Llama 70B，這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型

發(fā)表于 01-31 09:24 ?962次閱讀

Meta發(fā)布CodeLlama70B開(kāi)源大模型

Meta發(fā)布CodeLlama70B開(kāi)源大模型 Meta發(fā)布了開(kāi)源大模型CodeLlama70B

發(fā)表于 01-31 10:30 ?1438次閱讀

Meta推出最強(qiáng)開(kāi)源模型Llama 3 要挑戰(zhàn)GPT

公司這次開(kāi)源了Llama 3 8B與70B兩款不同規(guī)模的模型，開(kāi)發(fā)者可以免費(fèi)使用，而Meta公司還將陸續(xù)推出一系列具備多模態(tài)、多語(yǔ)言對(duì)話(huà)、更長(zhǎng)上下文窗口等能力的新

發(fā)表于 04-19 17:00 ?851次閱讀

高通支持Meta Llama 3大語(yǔ)言模型在驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行

高通和Meta合作優(yōu)化Meta Llama 3大語(yǔ)言模型，支持在未來(lái)的驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行。

發(fā)表于 04-20 09:13 ?533次閱讀

Meta發(fā)布全新開(kāi)源大模型Llama 3.1

科技巨頭Meta近期震撼發(fā)布了其最新的開(kāi)源人工智能（AI）模型——Llama 3.1，這一舉措標(biāo)志著Meta在AI領(lǐng)域的又一重大突破。Meta

發(fā)表于 07-24 18:25 ?1459次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Meta開(kāi)源NLLB翻譯模型，支持200種語(yǔ)言互譯

評(píng)論

神經(jīng)機(jī)器翻譯的方法有哪些？

紫米電子推出ZMI旅行助手Z1，支持16種語(yǔ)言互譯，實(shí)現(xiàn)交流無(wú)障礙溝通

雙11霸榜硬貨全通路銷(xiāo)售冠軍訊飛翻譯機(jī)2.0神通何在

訊飛翻譯機(jī)2.0重磅升級(jí)，率先發(fā)布行業(yè)A.I.翻譯

小米米家翻譯機(jī)最新發(fā)布，4.1英寸屏+18種語(yǔ)言互譯

谷歌翻譯新增五種語(yǔ)言支持全世界超7500萬(wàn)人使用這五種語(yǔ)言

微軟翻譯器新增五種印度語(yǔ)言的實(shí)時(shí)翻譯印度語(yǔ)言支持總數(shù)達(dá)到10種

Facebook的AI翻譯系統(tǒng)能翻譯100種語(yǔ)言！

人工智能翻譯mRASP：可翻譯32種語(yǔ)言

支持Python和Java的BigCode開(kāi)源輕量級(jí)語(yǔ)言模型

Meta發(fā)布開(kāi)源大模型Code Llama 70B

Meta發(fā)布CodeLlama70B開(kāi)源大模型

Meta推出最強(qiáng)開(kāi)源模型Llama 3 要挑戰(zhàn)GPT

高通支持Meta Llama 3大語(yǔ)言模型在驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行

Meta發(fā)布全新開(kāi)源大模型Llama 3.1