得益于神經(jīng)機(jī)器翻譯 (NMT) 的進(jìn)步,譯文更加自然流暢,但與此同時(shí),這些譯文也反映出訓(xùn)練數(shù)據(jù)存在社會(huì)偏見和刻板印象。因此,Google 持續(xù)致力于遵循 AI 原則,開發(fā)創(chuàng)新技術(shù),減少機(jī)器翻譯中的性別偏見。
神經(jīng)機(jī)器翻譯
https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
其中一個(gè)研究領(lǐng)域是利用句子或段落等上下文,來(lái)提高性別表述的準(zhǔn)確性。傳統(tǒng) NMT 方法是單獨(dú)翻譯句子,但單獨(dú)的句子中并不是總能帶有對(duì)性別信息的明確說(shuō)明,因此這無(wú)疑會(huì)帶來(lái)挑戰(zhàn)。例如,在下方西班牙語(yǔ)(該語(yǔ)言并不總是明確提及主語(yǔ) (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語(yǔ),但第二句話沒有明確提及主語(yǔ)。孤立來(lái)看,第二句話可以指任何性別的人。然而,在翻譯成英語(yǔ)時(shí),需要選擇一個(gè)代詞,而翻譯準(zhǔn)確所需的信息就在第一句話中。
西班牙語(yǔ)文本 | 英語(yǔ)譯文 |
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. | Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties. |
如果想推動(dòng)翻譯技術(shù),讓其不止步于單句翻譯,則需要新指標(biāo)來(lái)衡量進(jìn)展,并且需要新數(shù)據(jù)集,其中包括最常見的上下文錯(cuò)誤。翻譯性別錯(cuò)誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認(rèn)同方式,因此尤其敏感。而這一點(diǎn)則進(jìn)一步加劇了挑戰(zhàn)。
為應(yīng)對(duì)上下文翻譯的常見挑戰(zhàn)(如代詞省略、性別一致和準(zhǔn)確使用所有格),我們發(fā)布了 Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集,可用于評(píng)估翻譯模型的性別偏見。發(fā)布此數(shù)據(jù)集的目的在于提供衡量模型改變前后的翻譯準(zhǔn)確性的基準(zhǔn),從而對(duì)翻譯中代詞和性別的 ML 系統(tǒng)進(jìn)行長(zhǎng)期改進(jìn)。
Translated Wikipedia Biographies(維基百科傳記譯本)
https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html
常見翻譯錯(cuò)誤的來(lái)源
“維基百科傳記 (Wikipedia:Biographies of living persons) ”經(jīng)過(guò)精心撰寫,涵蓋多個(gè)地域,包含多個(gè)句子,并以第三人稱指代主語(yǔ)(所以包含大量代詞)。因此極有可能出現(xiàn)性別相關(guān)的翻譯錯(cuò)誤。當(dāng)文章在段落前幾句中明確提及某人,但在后面的句子中沒有明確提及時(shí),通常會(huì)出現(xiàn)性別相關(guān)的翻譯錯(cuò)誤。一些示例如下:
翻譯錯(cuò)誤 | 文本 | 譯文 |
西班牙語(yǔ)→英語(yǔ)中的代詞省略 (Pro-drop language) |
Marie Curie nació en Varsovia. Recibió el Premio Nobel en 1903 y en 1911. |
Marie Curie was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911. |
西班牙語(yǔ)→英語(yǔ)中的中性所有格(Possessive determiner) | Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. |
Marie Curie was born in Warsaw.Hisprofessional career was developed in France. |
英語(yǔ)→德語(yǔ)中的性別一致(Grammatical gender) |
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize in 1903 and in 1911. |
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens- chaftlererhielt1903 und 1911den Nobelpreis. |
英語(yǔ)→西班牙語(yǔ)中的性別一致 (Grammatical gender) |
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
|
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911. |
構(gòu)建數(shù)據(jù)集
如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集旨在分析機(jī)器翻譯中常見的性別表述錯(cuò)誤。該數(shù)據(jù)集中的每個(gè)實(shí)例代表個(gè)人(在傳記中被認(rèn)為是女性或男性)、搖滾樂(lè)隊(duì)或運(yùn)動(dòng)隊(duì)(被視為性別無(wú)關(guān))。每個(gè)實(shí)例都均由 8 到 15 個(gè)相互關(guān)聯(lián)的句子組成的長(zhǎng)文本翻譯來(lái)表示,且這些句子中會(huì)提到中心主語(yǔ)(人、搖滾樂(lè)隊(duì)或運(yùn)動(dòng)隊(duì))。文章撰寫的源語(yǔ)言為英語(yǔ),并由專業(yè)人士處理,翻譯成西班牙語(yǔ)和德語(yǔ)。我們已針對(duì)代詞省略,對(duì)西班牙語(yǔ)譯文進(jìn)行優(yōu)化,因此可以使用相同的集合來(lái)分析代詞省略(西班牙語(yǔ)→英文)和性別一致(英語(yǔ)→西班牙語(yǔ))。
我們選擇一組在不同地域和性別之間具有同等代表性的實(shí)例構(gòu)建該數(shù)據(jù)集。為此,我們根據(jù)職業(yè)、專業(yè)、工作和/或活動(dòng),從維基百科中提取傳記。為了確保職業(yè)選擇的公平性,我們根據(jù)維基百科的統(tǒng)計(jì)數(shù)據(jù),選擇了九種職業(yè)。這些職業(yè)代表了一系列刻板的性別聯(lián)想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見,之后我們根據(jù)不同地域來(lái)劃分所有這些實(shí)例。對(duì)于每個(gè)職業(yè)類別,我們希望每個(gè)地區(qū)(使用 census.gov 中的地區(qū)作為不同地域的代表)都有一名人選。在關(guān)聯(lián)實(shí)例與地區(qū)時(shí),我們會(huì)檢查被選者是否與指定地區(qū)的國(guó)家具有相關(guān)性(國(guó)籍、出生地、長(zhǎng)期居住之地等等)。該數(shù)據(jù)集使用此標(biāo)準(zhǔn),包含了來(lái)自世界 90 多個(gè)國(guó)家和所有地區(qū)的個(gè)人條目。
雖然性別并非二元化,但我們專注于令“女性”和“男性”實(shí)體具有同等代表性。值得一提的是,由于維基百科通過(guò)這種方式來(lái)表示實(shí)體,目前其中的實(shí)例還不足以準(zhǔn)確反映非二元群體。因此很遺憾,該集合并不包括標(biāo)識(shí)為非二元的個(gè)人。為了將每個(gè)實(shí)例貼上“女性”或“男性”標(biāo)簽,我們依靠的是維基百科上的傳記信息,其中包含對(duì)此人特定性別的參考資料(她、他、女人、兒子、父親等)。
在應(yīng)用所有這些過(guò)濾條件之后,我們會(huì)為每個(gè)“職業(yè)-地區(qū)-性別”三元組隨機(jī)選擇一個(gè)實(shí)例。針對(duì)七個(gè)地理區(qū)域的每一種職業(yè),我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。
最后,我們添加了 12 個(gè)性別無(wú)關(guān)實(shí)例。之所以選擇搖滾樂(lè)隊(duì)和運(yùn)動(dòng)隊(duì),是因?yàn)樗鼈兺ǔS蔁o(wú)性別的第三人稱代詞(如“它”或復(fù)數(shù)形式的“它們”)所指代。包含這些實(shí)例是為了研究過(guò)度觸發(fā) (over triggering),即當(dāng)模型得知其因產(chǎn)生特定性別的代詞而獲得獎(jiǎng)勵(lì)時(shí),它們會(huì)在本不應(yīng)該的情況下產(chǎn)生這些代詞。
結(jié)果和應(yīng)用
該數(shù)據(jù)集為降低機(jī)器翻譯中的性別偏見提供了一種新的評(píng)估方法(前一篇文章中已有所介紹)。每個(gè)實(shí)例都指向已知性別的主語(yǔ),因此我們可以計(jì)算出指向該主語(yǔ)的、特定性別翻譯的準(zhǔn)確性。在翻譯成英語(yǔ)(該語(yǔ)言有代詞省略或中性代詞)時(shí),因?yàn)橹饕?jì)算基于英語(yǔ)的特定性別代詞,所以這種計(jì)算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數(shù)據(jù)集,將錯(cuò)誤數(shù)量減少了 67%。如前所述,我們可利用中性實(shí)體,如使用陰性或陽(yáng)性代詞來(lái)指代無(wú)性別實(shí)體,來(lái)發(fā)現(xiàn)過(guò)度觸發(fā)的情況。這個(gè)新數(shù)據(jù)集還為不同類型的職業(yè)或地理區(qū)域中不同模型的性能提供了新的研究方向。
比如,我們利用該數(shù)據(jù)集,在翻譯自西班牙語(yǔ)的 Marie Curie 傳記節(jié)選中發(fā)現(xiàn)了改進(jìn)之處。
結(jié)論
Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集是我們?cè)谘芯孔R(shí)別與性別和機(jī)器翻譯有關(guān)的偏見方面的工作成果。該數(shù)據(jù)集側(cè)重于與性別偏見有關(guān)的具體問(wèn)題,并不旨在涵蓋整個(gè)問(wèn)題。值得一提的是,我們發(fā)布此數(shù)據(jù)集的目的并不在于強(qiáng)調(diào)確定解決性別偏見的最佳方法,而是幫助推動(dòng)全球研究界在應(yīng)對(duì)這一方面挑戰(zhàn)。
致謝
這些數(shù)據(jù)集的構(gòu)建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。
責(zé)任編輯:haq
-
谷歌
+關(guān)注
關(guān)注
27文章
6172瀏覽量
105622 -
AI
+關(guān)注
關(guān)注
87文章
31097瀏覽量
269430 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132765
原文標(biāo)題:用于研究翻譯中性別偏見的數(shù)據(jù)集
文章出處:【微信號(hào):yingjiansanrenxing,微信公眾號(hào):硬件三人行】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論