一本大道香蕉久在线不卡视频,亚洲午夜久久久,亚洲色图综合网

—

研究動(dòng)機(jī)

近年來，神經(jīng)機(jī)器翻譯（Neural Machine Translation, NMT）研究取得了重大的進(jìn)展。從大規(guī)模平行數(shù)據(jù)中學(xué)習(xí)具有大規(guī)模參數(shù)的通用神經(jīng)機(jī)器翻譯模型已經(jīng)比較成熟。當(dāng)需要處理特定場(chǎng)景中的翻譯任務(wù)時(shí)，人們廣泛采用領(lǐng)域自適應(yīng)技術(shù)將一個(gè)通用領(lǐng)域的神經(jīng)機(jī)器翻譯模型遷移到目標(biāo)領(lǐng)域。

然而現(xiàn)有領(lǐng)域自適應(yīng)研究考慮的領(lǐng)域仍比較粗糙，例如法律、醫(yī)療、科技、字幕等領(lǐng)域。事實(shí)上，在這些領(lǐng)域下還存在著非常多的細(xì)粒度領(lǐng)域。例如，科技領(lǐng)域下還包含著自動(dòng)駕駛(Autonomous Vehicles, AV)、AI教育(AI Education, AIE)、實(shí)時(shí)網(wǎng)絡(luò)通信(Real-Time Networks, RTN)、智能手機(jī)(Smart Phone, SP)等等細(xì)粒度領(lǐng)域。即使這些領(lǐng)域都屬于科技領(lǐng)域，但是在這些領(lǐng)域中卻存在著不同的翻譯現(xiàn)象。在詞級(jí)別，以中文“卡”字為例，它在不同的細(xì)粒度科技領(lǐng)域中其實(shí)對(duì)應(yīng)著不同的英文翻譯（表格1）。在句子級(jí)別，在科技領(lǐng)域（FGraDA）和通用領(lǐng)域（CWMT）的分布存在著較大的差異的同時(shí)（圖1的左圖），科技領(lǐng)域內(nèi)部的細(xì)粒度領(lǐng)域的分布仍然存在著一定的差異（圖1的右圖）。

表格1中文“卡”在幾個(gè)科技細(xì)粒度領(lǐng)域?qū)?yīng)的翻譯

圖1數(shù)據(jù)分布差異可視化分析

細(xì)粒度領(lǐng)域自適應(yīng)問題是一個(gè)重要的實(shí)際應(yīng)用問題。當(dāng)研發(fā)人員需要為某個(gè)特定主題提供翻譯服務(wù)（比如為某個(gè)主題的會(huì)議提供翻譯）時(shí)，往往需要在特定的細(xì)粒度領(lǐng)域上取得更好的翻譯性能。在這些場(chǎng)景中，細(xì)粒度領(lǐng)域的專業(yè)性、研發(fā)部署的預(yù)算要求使得人們難以獲取大規(guī)模的細(xì)粒度領(lǐng)域平行數(shù)據(jù)，這進(jìn)一步加大了建模細(xì)粒度領(lǐng)域的難度。當(dāng)細(xì)粒度領(lǐng)域建模不準(zhǔn)確時(shí)，NMT模型很容易出現(xiàn)翻譯錯(cuò)誤，包括專有名詞錯(cuò)誤、一詞多義錯(cuò)誤、漏譯錯(cuò)誤等（表格2）。為了精確建模細(xì)粒度領(lǐng)域、解決細(xì)粒度領(lǐng)域自適應(yīng)問題，需要思考如何從多樣的非平行數(shù)據(jù)中挖掘有效的目標(biāo)領(lǐng)域信息。

表格2三種典型翻譯錯(cuò)誤及樣例

—

貢獻(xiàn)

本文構(gòu)建了一份細(xì)粒度領(lǐng)域自適應(yīng)的中英機(jī)器翻譯數(shù)據(jù)集(FGraDA)。該數(shù)據(jù)集并不是為特定領(lǐng)域的翻譯提供數(shù)據(jù)支持，而是展示了一個(gè)包含多個(gè)細(xì)粒度領(lǐng)域的實(shí)際場(chǎng)景，制作了評(píng)估領(lǐng)域翻譯效果的驗(yàn)證集和測(cè)試集數(shù)據(jù)，并提供了實(shí)際應(yīng)用中可能面臨的多種類型的數(shù)據(jù)資源。希望該數(shù)據(jù)集可以支持在細(xì)粒度領(lǐng)域自適應(yīng)方向的研究。

在FGraDA數(shù)據(jù)集上，我們比較了現(xiàn)有的部分自適應(yīng)方法，可以作為后續(xù)研究工作的實(shí)驗(yàn)基準(zhǔn)；也分析了現(xiàn)有方法在進(jìn)行細(xì)粒度領(lǐng)域自適應(yīng)時(shí)存在的一些缺陷，希望能為后續(xù)研究工作提供參考。

—

數(shù)據(jù)集構(gòu)建

為了模擬真實(shí)場(chǎng)景，我們以四個(gè)有代表性的會(huì)議（CCF-GAIR, GIIS, RTC, Apple-Events）為基礎(chǔ)構(gòu)建FGraDA數(shù)據(jù)集。這四個(gè)會(huì)議對(duì)應(yīng)的領(lǐng)域分別是：自動(dòng)駕駛、AI教育、實(shí)時(shí)網(wǎng)絡(luò)通信、智能手機(jī)，這些領(lǐng)域都屬于科技領(lǐng)域下的細(xì)分領(lǐng)域。我們?yōu)槊總€(gè)領(lǐng)域配備了詞典資源、wiki資源、驗(yàn)證集、測(cè)試集（數(shù)據(jù)規(guī)模如表格3所示）。詞典資源和wiki資源作為獲取成本較低的非平行資源，包含著豐富的領(lǐng)域信息，用于細(xì)粒度領(lǐng)域建模及自適應(yīng)。驗(yàn)證集和測(cè)試集則用于評(píng)估自適應(yīng)效果。下面將具體介紹這些資源的構(gòu)建過程。

表格3FGraDA數(shù)據(jù)集各領(lǐng)域數(shù)據(jù)規(guī)模報(bào)告

詞典相比于平行句對(duì)是一種獲取成本更低的資源。與此同時(shí)，詞典資源可以提供領(lǐng)域詞語的翻譯信息，這對(duì)于處理細(xì)粒度領(lǐng)域翻譯任務(wù)是非常有幫助的。因此，我們?yōu)槊總€(gè)領(lǐng)域人工標(biāo)注了一定規(guī)模的雙語詞典資源。表格4中展示了一些我們標(biāo)注的詞典條目示例。標(biāo)注完成后，我們請(qǐng)語言專家確認(rèn)了詞典的準(zhǔn)確性和可靠性。

表格4詞典條目示例

Wiki資源是機(jī)器翻譯研究中的一種重要的可利用資源。鑒于領(lǐng)域詞典中包含大量的領(lǐng)域詞語，我們利用這些英文領(lǐng)域詞語抽取細(xì)粒度領(lǐng)域相關(guān)的wiki頁面。具體來說，我們首先抽取標(biāo)題中包含領(lǐng)域詞語的wiki頁面作為種子頁面（seed page）。這些種子頁面中的內(nèi)容是與細(xì)粒度領(lǐng)域高度相關(guān)的，并且這些頁面中的部分內(nèi)容還會(huì)鏈接到其他相關(guān)頁面（如圖2所示）。因此我們利用這種天然存在的鏈接關(guān)系，收集種子頁面所鏈接到的一跳頁面（one-hop-link page），進(jìn)一步擴(kuò)充wiki資源。最終，抽取出的種子頁面和一跳頁面共同構(gòu)成了細(xì)粒度領(lǐng)域相關(guān)的wiki資源（數(shù)據(jù)規(guī)模如表格5所示）。該資源不僅包含了大量的單語文本，還包含了諸如鏈接關(guān)系的結(jié)構(gòu)知識(shí)，具有非常大的利用價(jià)值。

圖2Wiki資源示例

表格5Wiki資源數(shù)據(jù)規(guī)模報(bào)告

最后，為了評(píng)估細(xì)粒度領(lǐng)域自適應(yīng)效果，我們?yōu)楦鱾€(gè)細(xì)粒度領(lǐng)域標(biāo)注了平行數(shù)據(jù)作為驗(yàn)證集和測(cè)試集。我們從上面提到的四個(gè)會(huì)議上收集了70個(gè)小時(shí)的錄音，然后使用內(nèi)部工具將其轉(zhuǎn)錄為文本。隨后我們進(jìn)行了數(shù)據(jù)清洗和數(shù)據(jù)脫敏，去除了文本語料中領(lǐng)域無關(guān)的句子和涉及隱私的人名、公司名。最終，經(jīng)過語言專家標(biāo)注，一共在四個(gè)領(lǐng)域上得到了4767條中英平行句對(duì)。我們把每個(gè)領(lǐng)域的平行數(shù)據(jù)分為兩部分：200條作為驗(yàn)證集，剩下的作為測(cè)試集。我們可以看到，僅僅是收集少量平行數(shù)據(jù)用于評(píng)估就需要花費(fèi)大量的人力、物力代價(jià)。在這種情況下，期望收集更多的平行數(shù)據(jù)用于自適應(yīng)學(xué)習(xí)是不現(xiàn)實(shí)的，因此本數(shù)據(jù)集也沒有提供這種資源。

—

基線結(jié)果

我們?cè)贔GraDA數(shù)據(jù)集上比較了部分現(xiàn)有自適應(yīng)方法（實(shí)驗(yàn)結(jié)果如表格6所示）。實(shí)驗(yàn)結(jié)果表明現(xiàn)有方法能夠利用數(shù)據(jù)集中提供的資源取得一定的提升，并且綜合使用詞典資源和wiki資源取得的提升最多。但是，這些方法在部分領(lǐng)域上的翻譯性能仍然較弱。為了進(jìn)一步對(duì)自適應(yīng)效果進(jìn)行分析，我們統(tǒng)計(jì)了表現(xiàn)最好的基線方法在測(cè)試集上的句子級(jí)別BLEU的分布情況（如圖3所示）。分布情況顯示自適應(yīng)模型在大部分句子上的翻譯狀況還不理想（BLEU分?jǐn)?shù)低于20），這也表明細(xì)粒度領(lǐng)域的翻譯效果仍然有待提升。

表格6基線方法在細(xì)粒度領(lǐng)域上的翻譯性能（BLEU）

圖3句子級(jí)別BLEU分布情況

—

有待解決的挑戰(zhàn)

在詞典資源方面，我們發(fā)現(xiàn)現(xiàn)有的領(lǐng)域自適應(yīng)方法還無法充分利用這些詞語翻譯知識(shí)。我們?cè)跍y(cè)試集上統(tǒng)計(jì)了領(lǐng)域詞典條目的翻譯準(zhǔn)確率（實(shí)驗(yàn)結(jié)果如表格7所示）。實(shí)驗(yàn)結(jié)果表明，即使采用詞約束解碼算法Grid Beam Search（GBS），自適應(yīng)模型也無法100%正確翻譯出領(lǐng)域詞典中的領(lǐng)域詞語。為了進(jìn)一步分析在細(xì)粒度領(lǐng)域自適應(yīng)中使用詞典資源的挑戰(zhàn)，我們嘗試了調(diào)節(jié)GBS算法中的權(quán)重超參數(shù)（實(shí)驗(yàn)結(jié)果如圖4所示）。實(shí)驗(yàn)結(jié)果表明盡管我們可以調(diào)節(jié)GBS算法中的權(quán)重超參數(shù)強(qiáng)制模型翻譯出更多領(lǐng)域詞語，但是翻譯結(jié)果的BLEU分?jǐn)?shù)會(huì)大幅下降。這說明，簡單地通過詞約束解碼的方式并不能翻譯好領(lǐng)域詞語，如何更好地利用領(lǐng)域詞典仍然有待探索。

表格7領(lǐng)域詞典條目翻譯準(zhǔn)確率（%）

圖4不同權(quán)重下詞典詞語翻譯準(zhǔn)確率和BLEU分?jǐn)?shù)的變化情況

在wiki資源方面，現(xiàn)有的領(lǐng)域自適應(yīng)方法主要將wiki頁面中包含的文本作為單語數(shù)據(jù)使用，忽視了wiki頁面中包含的各種結(jié)構(gòu)化知識(shí)。這些知識(shí)對(duì)于理解領(lǐng)域詞語語義可能會(huì)起到非常重要的作用。我們?cè)谶@里列舉出兩種重要的結(jié)構(gòu)化知識(shí)：（1）wiki頁面正文的第一句話通常是標(biāo)題的定義。以圖2中的頁面標(biāo)題“HDR”為例，正文的第一句話“High dynamic range (HDR) is a dynamic range higher than usual”，這是“HDR”的定義，可以幫助理解HDR的含義。（2）當(dāng)前wiki頁面中鏈接到其他wiki頁面的詞語往往和當(dāng)前wiki頁面的標(biāo)題是高度相關(guān)的。同樣以圖2中的頁面標(biāo)題“HDR”為例，該頁面中包含的“dynamic range”，“display devices”，“photography”等詞語都是和“HDR”高度相關(guān)的，也可以幫助理解“HDR”的含義。

在領(lǐng)域?qū)蛹?jí)方面，現(xiàn)有的領(lǐng)域自適應(yīng)方法只考慮使用目標(biāo)領(lǐng)域?qū)?yīng)的領(lǐng)域資源進(jìn)行領(lǐng)域自適應(yīng)，忽略了利用相近細(xì)粒度領(lǐng)域中的資源。為了量化細(xì)粒度領(lǐng)域之間的近似關(guān)系，我們?cè)u(píng)估了適應(yīng)到各個(gè)領(lǐng)域的模型在另外三個(gè)領(lǐng)域的翻譯性能（實(shí)驗(yàn)結(jié)果如表格8所示）。從翻譯性能的差異可以看出細(xì)粒度領(lǐng)域之間有的差距較大，有的差距較小。如何利用相近細(xì)粒度領(lǐng)域中的資源輔助當(dāng)前目標(biāo)細(xì)粒度領(lǐng)域建模，以及如何利用粗細(xì)粒度領(lǐng)域間的層級(jí)關(guān)系仍然是值得探究的問題。

表格8遷移到不同細(xì)粒度領(lǐng)域上的模型翻譯性能對(duì)比（BLEU）

—

總結(jié)

本文從實(shí)際問題出發(fā)，構(gòu)建了細(xì)粒度領(lǐng)域自適應(yīng)機(jī)器翻譯數(shù)據(jù)集FGraDA。我們?cè)贔GraDA 數(shù)據(jù)集對(duì)比了現(xiàn)有的部分領(lǐng)域自適應(yīng)方法，發(fā)現(xiàn)細(xì)粒度領(lǐng)域的翻譯效果仍然有待提升。進(jìn)一步的分析顯示FGraDA數(shù)據(jù)集中提供的多樣非平行資源中仍然存在著非常多有待挖掘的、對(duì)自適應(yīng)有益的信息。如何從各種不同資源中挖掘、利用這些信息建模細(xì)粒度領(lǐng)域，實(shí)現(xiàn)細(xì)粒度領(lǐng)域自適應(yīng)是一個(gè)有待研究的重要課題。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14880
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24689

原文標(biāo)題：LREC'22 | 機(jī)器翻譯中細(xì)粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準(zhǔn)實(shí)驗(yàn)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

空間光調(diào)制器自適應(yīng)激光光束整形

Fusion軟件為自適應(yīng)激光整形系統(tǒng)設(shè)計(jì)提供了一系列可靠的、快速的以及靈活的工具。可以計(jì)算出位相掩膜并將數(shù)據(jù)轉(zhuǎn)移至SLM。VirtualLab Fusion能夠?qū)τ诎瑥?fù)雜光源、光束傳輸光學(xué)以及衍射SLM(詳見

發(fā)表于 12-12 10:33

Perforce Helix Core通過ISO 26262認(rèn)證！為汽車軟件開發(fā)團(tuán)隊(duì)提供無限可擴(kuò)展性、細(xì)粒度安全性、文件快速訪問等

News！Helix Core通過ISO 26262認(rèn)證，符合汽車系統(tǒng)開發(fā)所需的安全和可靠性標(biāo)準(zhǔn)，助力汽車軟件安全合規(guī)！具備無限可擴(kuò)展性、細(xì)粒度安全性、文件快速訪問...是眾多汽車OEM和供應(yīng)商的首選版本控制工具。

發(fā)表于 11-12 14:41 ?821次閱讀

Perforce Helix Core通過ISO 26262認(rèn)證！為汽車軟件開發(fā)團(tuán)隊(duì)提供無限可擴(kuò)展性、<b class='flag-5'>細(xì)粒度</b>安全性、文件快速訪問等

如何設(shè)定機(jī)器人語義地圖的細(xì)粒度級(jí)別

0. 這篇文章干了啥？ 機(jī)器人學(xué)中的一個(gè)基本問題是創(chuàng)建機(jī)器人觀察到的場(chǎng)景的有用地圖表示，其中有用性由機(jī)器人利用地圖完成感興趣的任務(wù)的能力來衡量。最近的研究，包括構(gòu)建語義度量三維地圖，通

發(fā)表于 11-12 10:54 ?302次閱讀

如何設(shè)定<b class='flag-5'>機(jī)器</b>人語義地圖的<b class='flag-5'>細(xì)粒度</b>級(jí)別

步進(jìn)電機(jī)如何自適應(yīng)控制？步進(jìn)電機(jī)如何細(xì)分驅(qū)動(dòng)控制？

步進(jìn)電機(jī)是一種將電脈沖信號(hào)轉(zhuǎn)換為角位移或線位移的電機(jī)，廣泛應(yīng)用于各種自動(dòng)化控制系統(tǒng)中。為了提高步進(jìn)電機(jī)的性能，自適應(yīng)控制和細(xì)分驅(qū)動(dòng)控制是兩種重要的技術(shù)手段。一、步進(jìn)電機(jī)的自適應(yīng)控制 自適應(yīng)

發(fā)表于 10-23 10:04 ?469次閱讀

偏置備用運(yùn)行中自適應(yīng)定時(shí)控制裝置的分析與風(fēng)險(xiǎn)評(píng)估

電子發(fā)燒友網(wǎng)站提供《偏置備用運(yùn)行中自適應(yīng)定時(shí)控制裝置的分析與風(fēng)險(xiǎn)評(píng)估.pdf》資料免費(fèi)下載

發(fā)表于 09-13 10:08 ?0次下載

如何在自己的固件中增加wifi自適應(yīng)性相關(guān)功能,以通過wifi自適應(yīng)認(rèn)證測(cè)試？

目前官方提供了自適應(yīng)測(cè)試固件 ESP_Adaptivity_v2.0_26M_20160322.bin 用于進(jìn)行 wifi 自適應(yīng)認(rèn)證測(cè)試. 請(qǐng)問如何在自己的固件中增加 wifi 自適應(yīng)

發(fā)表于 07-12 08:29

如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集

理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集，是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了

發(fā)表于 07-10 15:45 ?3807次閱讀

杭州中天微系統(tǒng)：自適應(yīng)時(shí)鐘頻率控制領(lǐng)域創(chuàng)新技術(shù)獲碩果

　此項(xiàng)發(fā)明主要涉及一種運(yùn)用自適應(yīng)時(shí)鐘實(shí)現(xiàn)頻率控制的方法、電路及硬件芯片，其適用范圍十分廣泛，如基于RISC-V架構(gòu)指令集（或ARM架構(gòu)、X86架構(gòu)）以及人工智能物聯(lián)網(wǎng)芯片等各類芯片產(chǎn)品。

發(fā)表于 05-06 10:31 ?370次閱讀

什么是自適應(yīng)光學(xué)？自適應(yīng)光學(xué)原理與方法的發(fā)展

目前，世界上大型的望遠(yuǎn)鏡系統(tǒng)都采用了自適應(yīng)光學(xué)技術(shù)，自適應(yīng)光學(xué)的出現(xiàn)為補(bǔ)償動(dòng)態(tài)波前擾動(dòng)，提高光波質(zhì)量提供了新的研究方向。 60多年來，自適應(yīng)光學(xué)技術(shù)獲得蓬勃發(fā)展，現(xiàn)已應(yīng)用于天文學(xué)、空間光學(xué)、激光、生物醫(yī)學(xué)等

發(fā)表于 03-11 10:27 ?2038次閱讀

TCP協(xié)議技術(shù)之自適應(yīng)重傳

自適應(yīng)重傳是TCP協(xié)議中的一種擁塞控制機(jī)制，旨在通過智能的方式處理網(wǎng)絡(luò)擁塞，并進(jìn)行相應(yīng)的數(shù)據(jù)重傳，以提高網(wǎng)絡(luò)的可靠性和性能。

發(fā)表于 02-03 17:03 ?1497次閱讀

語音數(shù)據(jù)集：智能駕駛中車內(nèi)語音識(shí)別技術(shù)的基石

的發(fā)展趨勢(shì)。二、語音數(shù)據(jù)集在智能駕駛中的應(yīng)用訓(xùn)練與優(yōu)化：高質(zhì)量的語音數(shù)據(jù)集是訓(xùn)練和優(yōu)化語音識(shí)別模型的基礎(chǔ)。通過大量的語音

發(fā)表于 01-31 16:07 ?543次閱讀

ICLR 2024 清華/新國大/澳門大學(xué)提出一模通吃的多粒度圖文組合檢索MUG：通過不確定性建模，兩行代碼完成部署

如上圖所示，不再采用嚴(yán)格的一對(duì)一匹配，而是促使模型專注于一對(duì)多匹配，即從細(xì)粒度過渡到粗粒度。因此，首先引入了一個(gè)用于噪聲增強(qiáng)的Augmenter來生成抖動(dòng)，這個(gè)模塊直接作用于最終的特征空間。

發(fā)表于 01-25 16:53 ?616次閱讀

Spring Boot和飛騰派融合構(gòu)建的農(nóng)業(yè)物聯(lián)網(wǎng)系統(tǒng)-改進(jìn)自適應(yīng)加權(quán)融合算法

融合之前需用箱線圖法檢測(cè)和剔除異常值。箱線圖法中反映數(shù)據(jù)結(jié)構(gòu)的參數(shù)有：第一四分位數(shù) Q1、第三四分位數(shù) Q3以及四分位間距IQR。 2自適應(yīng)加權(quán)融合算法為了確保參數(shù)估計(jì)的準(zhǔn)確性和穩(wěn)定性，本文

發(fā)表于 01-06 12:18

創(chuàng)想焊縫跟蹤系統(tǒng)在爾必地機(jī)器人自適應(yīng)焊接中的應(yīng)用案例

隨著制造業(yè)的不斷發(fā)展，焊接技術(shù)在各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用。在焊接過程中，焊縫的質(zhì)量直接影響著產(chǎn)品的性能和壽命。為了提高焊接效率和質(zhì)量，自適應(yīng)焊接技術(shù)逐漸成為焊接領(lǐng)域的研究熱點(diǎn)之一，創(chuàng)

發(fā)表于 01-02 17:37 ?544次閱讀

Kubernetes RBAC：掌握權(quán)限管理的精髓

Kubernetes RBAC（Role-Based Access Control）是 Kubernetes 中一項(xiàng)關(guān)鍵的安全功能，它通過細(xì)粒度的權(quán)限控制機(jī)制，確保集群資源僅被授權(quán)的用戶或服務(wù)賬號(hào)訪問。

發(fā)表于 12-25 09:43 ?473次閱讀