色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta開(kāi)源NLLB翻譯模型,支持200種語(yǔ)言互譯

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:量子位 ? 作者:量子位 ? 2022-07-21 11:08 ? 次閱讀

這個(gè)翻譯模型,不僅支持200+語(yǔ)言之間任意兩兩互譯,還是開(kāi)源的。Meta AI在發(fā)布開(kāi)源大型預(yù)訓(xùn)練模型OPT之后,再次發(fā)布最新成果NLLB。

NLLB的全稱(chēng)為No Language Left Behind,如果套用某著名電影,可以翻譯成“一個(gè)語(yǔ)言都不能少”。

caaf98f6-0818-11ed-ba43-dac502259ad0.png

這其中,中文分為簡(jiǎn)體繁體和粵語(yǔ)三種,而除了中英法日語(yǔ)等常用語(yǔ)種外,還包括了許多小眾語(yǔ)言。

cace7ece-0818-11ed-ba43-dac502259ad0.png

▲NLLB支持的部分語(yǔ)種截圖

由于這些語(yǔ)言之間都可以?xún)蓛苫プg,所以咱們能用NLLB把阿斯圖里亞語(yǔ)、盧甘達(dá)語(yǔ)、烏爾都語(yǔ)等地球上的小眾語(yǔ)言直接譯成中文了。

一位用粵語(yǔ)的靚仔看到這里直接喜大普奔。

caf5c984-0818-11ed-ba43-dac502259ad0.png

要知道,此前的眾多語(yǔ)言模型,要么不支持這么多種語(yǔ)言,要么不能直接完成小眾語(yǔ)言之間的兩兩翻譯。

有了NLLB,世界各地的人都有機(jī)會(huì)以自己的母語(yǔ)訪(fǎng)問(wèn)和分享網(wǎng)絡(luò)內(nèi)容;并且無(wú)論他們的語(yǔ)言偏好如何,都可以與他人在任意地方溝通。

Meta稱(chēng),他們計(jì)劃先將這個(gè)技術(shù)應(yīng)用于Facebook和Instagram,以提升這些平臺(tái)上小眾語(yǔ)言的計(jì)算機(jī)翻譯水平。

同時(shí),這也是他們?cè)钪嬗?jì)劃的一部分。而這項(xiàng)成果正式開(kāi)源的消息,也受到廣受好評(píng)。

cb0a026e-0818-11ed-ba43-dac502259ad0.png

除了AI業(yè)內(nèi)關(guān)心他們?nèi)绾沃С终Z(yǔ)料稀缺的冷門(mén)語(yǔ)言,以及如何在BLEU基準(zhǔn)測(cè)試上提高7個(gè)點(diǎn)以外。也有來(lái)自西非的網(wǎng)友認(rèn)為,語(yǔ)言障礙正是全球互聯(lián)網(wǎng)用戶(hù)數(shù)量進(jìn)一步增長(zhǎng)的關(guān)鍵。

cb1ccff2-0818-11ed-ba43-dac502259ad0.png

在Hacker News論壇上,大家也對(duì)這個(gè)AI議論紛紛。一個(gè)前端開(kāi)發(fā)者說(shuō),自己的母語(yǔ)就是非常小眾的那種,僅有約一百萬(wàn)人使用。

這位開(kāi)發(fā)者此前從未見(jiàn)過(guò)對(duì)這種語(yǔ)言好用的AI翻譯軟件,而NLLB給他帶來(lái)了希望。

不過(guò)他認(rèn)為,連著名的谷歌AI在處理“德-英-德”這樣語(yǔ)料豐富的語(yǔ)言翻譯時(shí),都常常會(huì)出問(wèn)題,所以他暫且對(duì)這個(gè)聲稱(chēng)能翻譯好小眾語(yǔ)言的新模型持保留態(tài)度。

cb2b5ad6-0818-11ed-ba43-dac502259ad0.png

有網(wǎng)友給這位開(kāi)發(fā)者支招兒,告訴他Meta開(kāi)放了有支持翻譯的兒童書(shū)籍,可以去看看翻譯效果。

cb3de7e6-0818-11ed-ba43-dac502259ad0.png

還有人補(bǔ)充道,許多小眾語(yǔ)言有許多不同的自然變體,更偏于口語(yǔ)化,而沒(méi)有特定書(shū)面化標(biāo)準(zhǔn),可以用多種文字書(shū)寫(xiě)。所以,如何對(duì)小眾語(yǔ)言進(jìn)行標(biāo)準(zhǔn)化是個(gè)棘手的問(wèn)題。

cb4f5634-0818-11ed-ba43-dac502259ad0.png

怎么支持語(yǔ)料少的語(yǔ)言

這個(gè)掌握了200多種語(yǔ)言的AI模型是怎么訓(xùn)練的?

據(jù)Meta AI介紹,他們的AI研究人員主要通過(guò)3個(gè)方面來(lái)解決一些語(yǔ)言語(yǔ)料少的問(wèn)題。

其一是為語(yǔ)料少的語(yǔ)言自動(dòng)構(gòu)建高質(zhì)量的數(shù)據(jù)集。研究者建立了一個(gè)多對(duì)多的多語(yǔ)言數(shù)據(jù)集Flores-200。專(zhuān)業(yè)的真人翻譯員和審稿人采用統(tǒng)一的標(biāo)準(zhǔn),來(lái)保質(zhì)保量地建立這個(gè)數(shù)據(jù)集。

首先,譯員們翻譯Flores-200的全部句子,并檢查;然后,獨(dú)立審查員小組開(kāi)始審查翻譯質(zhì)量,根據(jù)他們的評(píng)估將一些譯文送去進(jìn)行后期編輯。

cb5fb39e-0818-11ed-ba43-dac502259ad0.png

如果質(zhì)量評(píng)估表明,質(zhì)量在90%以上,則認(rèn)為該語(yǔ)言可以被納入Flores-200中。

cb6be876-0818-11ed-ba43-dac502259ad0.png

最終,F(xiàn)lores-200中包含了842篇不同文章的翻譯,共3001個(gè)句子。

其二,是對(duì)200種語(yǔ)言建模:研究者開(kāi)發(fā)了一個(gè)語(yǔ)言識(shí)別系統(tǒng)LID(language identification systems),標(biāo)記出某段文字是用哪種語(yǔ)言寫(xiě)的。

用監(jiān)督方式訓(xùn)練的LID模型在看似流暢的句子上,可能難以識(shí)別處不正確語(yǔ)法和不完整的字符串。

此外,LID很容易學(xué)習(xí)到?jīng)]有意義的相關(guān)性。所以,在這個(gè)LID開(kāi)發(fā)的不同階段,工程師們都和語(yǔ)言學(xué)家們保持著緊密合作來(lái)盡量規(guī)避這些問(wèn)題。

為了對(duì)小眾語(yǔ)言進(jìn)行較好的建模,研究者開(kāi)發(fā)了一種“學(xué)生-教師挖掘法”(Student-Teacher Mining)該方法的內(nèi)容是:讓一個(gè)大規(guī)模的多語(yǔ)言句子編碼器的教師模型,與幾個(gè)語(yǔ)料少的學(xué)生模型相互學(xué)習(xí)整合。

cb7e88fa-0818-11ed-ba43-dac502259ad0.png

這樣能夠在不和多語(yǔ)料語(yǔ)言爭(zhēng)奪容量的情況下,豐富小眾語(yǔ)言的訓(xùn)練數(shù)據(jù),保持了多語(yǔ)言嵌入空間的兼容性,避免從頭開(kāi)始重新訓(xùn)練整個(gè)模型。

其三,是將一個(gè)人工翻譯的評(píng)估基準(zhǔn):FLORES的覆蓋范圍擴(kuò)大2倍,來(lái)評(píng)估每一種語(yǔ)言的翻譯質(zhì)量。雖然自動(dòng)評(píng)分是推動(dòng)該研究的重要工具,但人工評(píng)價(jià)對(duì)于翻譯質(zhì)量的評(píng)估也是必不可少的。

通過(guò)整合AI自動(dòng)評(píng)分和人工評(píng)估,能夠廣泛量化翻譯水平,便于提升整理的翻譯質(zhì)量。

為了讓更多程序員和工程師們能夠使用或完善NLLB,Meta開(kāi)放了所有的評(píng)估基準(zhǔn)(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和訓(xùn)練代碼,以及最終的NLLB-200模型和其小型提煉版本等。

Meta AI已將這些內(nèi)容開(kāi)源,就在fariseq倉(cāng)庫(kù)里面,感興趣的小伙伴們可以去看看。

論文地址:
https://research.facebook.com/publications/no-language-left-behind/
開(kāi)源地址:
https://github.com/facebookresearch/fairseq/tree/nllb

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    529

    瀏覽量

    10295
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14914
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24737

原文標(biāo)題:機(jī)器翻譯做到頭了?Meta開(kāi)源NLLB翻譯模型,支持200種語(yǔ)言互譯

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)機(jī)器翻譯的方法有哪些?

    之間的翻譯,也就是通過(guò)只訓(xùn)練一個(gè)模型就能夠支持在多個(gè)語(yǔ)言之間的翻譯。盡管目前最流行的Transformer
    發(fā)表于 11-23 12:14

    紫米電子推出ZMI旅行助手Z1,支持16語(yǔ)言互譯,實(shí)現(xiàn)交流無(wú)障礙溝通

    ZMI紫米旅行助手自帶的語(yǔ)音翻譯功能,可以支持中文和16語(yǔ)言互譯,整合微軟人工智能翻譯和獵戶(hù)星
    發(fā)表于 09-12 16:57 ?4690次閱讀

    雙11霸榜硬貨全通路銷(xiāo)售冠軍訊飛翻譯機(jī)2.0神通何在

    支持中文和全球33語(yǔ)言的即時(shí)互譯,精準(zhǔn)快速的翻譯功能,覆蓋各類(lèi)全場(chǎng)景溝通需求;全新INMT翻譯
    的頭像 發(fā)表于 11-13 10:50 ?1781次閱讀

    訊飛翻譯機(jī)2.0重磅升級(jí),率先發(fā)布行業(yè)A.I.翻譯

    國(guó)家出境需求 第一,首發(fā)行業(yè)A.I.翻譯,首批上線(xiàn)醫(yī)療/金融/計(jì)算機(jī)三大行業(yè)A.I.翻譯官,解決專(zhuān)業(yè)領(lǐng)域翻譯難點(diǎn); 第二,語(yǔ)音翻譯從中文與33
    發(fā)表于 12-07 15:15 ?771次閱讀

    小米米家翻譯機(jī)最新發(fā)布,4.1英寸屏+18語(yǔ)言互譯

    11月22日消息,今天小米發(fā)布了米家翻譯機(jī),采用4.1英寸大屏,專(zhuān)利6麥克風(fēng)陣列技術(shù),支持18語(yǔ)言互譯,售價(jià)1299元,將于11月26日1
    的頭像 發(fā)表于 11-22 16:43 ?5178次閱讀

    谷歌翻譯新增五語(yǔ)言支持 全世界超7500萬(wàn)人使用這五語(yǔ)言

    據(jù)外媒報(bào)道,在過(guò)去的4年時(shí)間里,Google沒(méi)有在谷歌翻譯中增加對(duì)新語(yǔ)言支持。 經(jīng)過(guò)長(zhǎng)時(shí)間的修整后,該家公司今日終于宣布,它將在谷歌翻譯中增加對(duì)五
    的頭像 發(fā)表于 02-27 17:20 ?3635次閱讀

    微軟翻譯器新增五印度語(yǔ)言的實(shí)時(shí)翻譯 印度語(yǔ)言支持總數(shù)達(dá)到10

    微軟印度宣布,微軟翻譯器現(xiàn)在將提供古吉拉特語(yǔ)、馬拉地語(yǔ)、卡納達(dá)語(yǔ)、馬來(lái)語(yǔ)和旁遮普語(yǔ)五語(yǔ)言的實(shí)時(shí)翻譯。微軟翻譯器允許用戶(hù)使用Windows、
    的頭像 發(fā)表于 04-17 10:29 ?3516次閱讀

    Facebook的AI翻譯系統(tǒng)能翻譯100語(yǔ)言

    質(zhì)量的 100 分制中,該人工智能的表現(xiàn)比同類(lèi)翻譯系統(tǒng)高出 10 分。該模型翻譯也由人類(lèi)進(jìn)行了翻譯評(píng)估,其準(zhǔn)確率約為 90%。 Facebook 的研究人員在網(wǎng)上收集了 100
    的頭像 發(fā)表于 10-30 09:25 ?2921次閱讀

    人工智能翻譯mRASP:可翻譯32語(yǔ)言

    利用計(jì)算機(jī)把一自然語(yǔ)言轉(zhuǎn)變成另一自然語(yǔ)言的過(guò)程就是機(jī)器翻譯。 機(jī)器翻譯對(duì)于信息時(shí)代下海量信息
    的頭像 發(fā)表于 12-01 14:03 ?3220次閱讀
    人工智能<b class='flag-5'>翻譯</b>mRASP:可<b class='flag-5'>翻譯</b>32<b class='flag-5'>種</b><b class='flag-5'>語(yǔ)言</b>

    支持Python和Java的BigCode開(kāi)源輕量級(jí)語(yǔ)言模型

    BigCode 是一個(gè)開(kāi)放的科學(xué)合作組織,致力于開(kāi)發(fā)大型語(yǔ)言模型。近日他們開(kāi)源了一個(gè)名為 SantaCoder 的語(yǔ)言模型,該
    的頭像 發(fā)表于 01-17 14:29 ?967次閱讀

    Meta發(fā)布開(kāi)源模型Code Llama 70B

    近日,Meta宣布推出了一款新的開(kāi)源模型Code Llama 70B,這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型
    的頭像 發(fā)表于 01-31 09:24 ?962次閱讀

    Meta發(fā)布CodeLlama70B開(kāi)源模型

    Meta發(fā)布CodeLlama70B開(kāi)源模型 Meta發(fā)布了開(kāi)源模型CodeLlama70B
    的頭像 發(fā)表于 01-31 10:30 ?1438次閱讀

    Meta推出最強(qiáng)開(kāi)源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開(kāi)源了Llama 3 8B與70B兩款不同規(guī)模的模型,開(kāi)發(fā)者可以免費(fèi)使用,而Meta公司還將陸續(xù)推出一系列具備多模態(tài)、多語(yǔ)言對(duì)話(huà)、更長(zhǎng)上下文窗口等能力的新
    的頭像 發(fā)表于 04-19 17:00 ?851次閱讀

    高通支持Meta Llama 3大語(yǔ)言模型在驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行

    高通和Meta合作優(yōu)化Meta Llama 3大語(yǔ)言模型支持在未來(lái)的驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行。
    的頭像 發(fā)表于 04-20 09:13 ?533次閱讀

    Meta發(fā)布全新開(kāi)源模型Llama 3.1

    科技巨頭Meta近期震撼發(fā)布了其最新的開(kāi)源人工智能(AI)模型——Llama 3.1,這一舉措標(biāo)志著Meta在AI領(lǐng)域的又一重大突破。Meta
    的頭像 發(fā)表于 07-24 18:25 ?1459次閱讀
    主站蜘蛛池模板: 欧美激情视频一区| 国产人妻午夜无码AV天堂| 黄色日本女人| 乳色吐息未增删樱花ED在线观看| 一区二区三区毛AAAA片特级| 国产午夜精品理论片久久影视| 日本xxxx裸体xxxx| 99久久亚洲精品日本无码| 伦理片免费秋霞e| 伊人久久大香线蕉综合高清| 好爽胸大好深好多水| 玩弄人妻少妇500系列网址| 成片免费观看视频大全| 强奷乱码中文字幕熟女免费 | 国产成人精品综合久久久| 欧美性狂猛AAAAAA| FREE乌克兰嫩交HD| 男人J进女人P| 99精品亚洲| 欧美亚洲高清国产| YELLOW日本免费观看播放| 祺鑫WRITEAS流出来了| 成片免费观看视频在线网| 日韩欧美视频一区二区| 国产成人免费高清激情视频| 午夜福利合集1000在线| 国产亚洲日韩欧美视频| 亚洲一区在线播放| 久久热最新网站获取3| 中文字幕爆乳JULIA女教师| 蜜芽在线播放免费人成日韩视频| 99热婷婷国产精品综合| 日本久久高清视频| 国产欧美一区二区精品久久久| 亚洲欧美日韩精品久久奇米色影视| 久久精品天天爽夜夜爽| 2022一本久道久久综合狂躁| 青草在线在线d青草在线| 国产精品99re6热在线播放| 亚洲精品偷拍影视在线观看| 老奶奶50p|