色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google遵循AI原則減少機(jī)器翻譯的性別偏見

硬件三人行 ? 來(lái)源:TensorFlow ? 作者:Romina Stella ? 2021-08-24 10:14 ? 次閱讀

得益于神經(jīng)機(jī)器翻譯 (NMT) 的進(jìn)步,譯文更加自然流暢,但與此同時(shí),這些譯文也反映出訓(xùn)練數(shù)據(jù)存在社會(huì)偏見和刻板印象。因此,Google 持續(xù)致力于遵循 AI 原則,開發(fā)創(chuàng)新技術(shù),減少機(jī)器翻譯中的性別偏見。

神經(jīng)機(jī)器翻譯

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一個(gè)研究領(lǐng)域是利用句子或段落等上下文,來(lái)提高性別表述的準(zhǔn)確性。傳統(tǒng) NMT 方法是單獨(dú)翻譯句子,但單獨(dú)的句子中并不是總能帶有對(duì)性別信息的明確說(shuō)明,因此這無(wú)疑會(huì)帶來(lái)挑戰(zhàn)。例如,在下方西班牙語(yǔ)(該語(yǔ)言并不總是明確提及主語(yǔ) (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語(yǔ),但第二句話沒有明確提及主語(yǔ)。孤立來(lái)看,第二句話可以指任何性別的人。然而,在翻譯成英語(yǔ)時(shí),需要選擇一個(gè)代詞,而翻譯準(zhǔn)確所需的信息就在第一句話中。

西班牙語(yǔ)文本 英語(yǔ)譯文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推動(dòng)翻譯技術(shù),讓其不止步于單句翻譯,則需要新指標(biāo)來(lái)衡量進(jìn)展,并且需要新數(shù)據(jù)集,其中包括最常見的上下文錯(cuò)誤。翻譯性別錯(cuò)誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認(rèn)同方式,因此尤其敏感。而這一點(diǎn)則進(jìn)一步加劇了挑戰(zhàn)。

為應(yīng)對(duì)上下文翻譯的常見挑戰(zhàn)(如代詞省略、性別一致和準(zhǔn)確使用所有格),我們發(fā)布了 Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集,可用于評(píng)估翻譯模型的性別偏見。發(fā)布此數(shù)據(jù)集的目的在于提供衡量模型改變前后的翻譯準(zhǔn)確性的基準(zhǔn),從而對(duì)翻譯中代詞和性別的 ML 系統(tǒng)進(jìn)行長(zhǎng)期改進(jìn)。

Translated Wikipedia Biographies(維基百科傳記譯本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常見翻譯錯(cuò)誤的來(lái)源

“維基百科傳記 (Wikipedia:Biographies of living persons) ”經(jīng)過(guò)精心撰寫,涵蓋多個(gè)地域,包含多個(gè)句子,并以第三人稱指代主語(yǔ)(所以包含大量代詞)。因此極有可能出現(xiàn)性別相關(guān)的翻譯錯(cuò)誤。當(dāng)文章在段落前幾句中明確提及某人,但在后面的句子中沒有明確提及時(shí),通常會(huì)出現(xiàn)性別相關(guān)的翻譯錯(cuò)誤。一些示例如下:

翻譯錯(cuò)誤 文本 譯文
西班牙語(yǔ)→英語(yǔ)中的代詞省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙語(yǔ)→英語(yǔ)中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英語(yǔ)→德語(yǔ)中的性別一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英語(yǔ)→西班牙語(yǔ)中的性別一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

構(gòu)建數(shù)據(jù)集

如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集旨在分析機(jī)器翻譯中常見的性別表述錯(cuò)誤。該數(shù)據(jù)集中的每個(gè)實(shí)例代表個(gè)人(在傳記中被認(rèn)為是女性或男性)、搖滾樂(lè)隊(duì)或運(yùn)動(dòng)隊(duì)(被視為性別無(wú)關(guān))。每個(gè)實(shí)例都均由 8 到 15 個(gè)相互關(guān)聯(lián)的句子組成的長(zhǎng)文本翻譯來(lái)表示,且這些句子中會(huì)提到中心主語(yǔ)(人、搖滾樂(lè)隊(duì)或運(yùn)動(dòng)隊(duì))。文章撰寫的源語(yǔ)言為英語(yǔ),并由專業(yè)人士處理,翻譯成西班牙語(yǔ)和德語(yǔ)。我們已針對(duì)代詞省略,對(duì)西班牙語(yǔ)譯文進(jìn)行優(yōu)化,因此可以使用相同的集合來(lái)分析代詞省略(西班牙語(yǔ)→英文)和性別一致(英語(yǔ)→西班牙語(yǔ))。

我們選擇一組在不同地域和性別之間具有同等代表性的實(shí)例構(gòu)建該數(shù)據(jù)集。為此,我們根據(jù)職業(yè)、專業(yè)、工作和/或活動(dòng),從維基百科中提取傳記。為了確保職業(yè)選擇的公平性,我們根據(jù)維基百科的統(tǒng)計(jì)數(shù)據(jù),選擇了九種職業(yè)。這些職業(yè)代表了一系列刻板的性別聯(lián)想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見,之后我們根據(jù)不同地域來(lái)劃分所有這些實(shí)例。對(duì)于每個(gè)職業(yè)類別,我們希望每個(gè)地區(qū)(使用 census.gov 中的地區(qū)作為不同地域的代表)都有一名人選。在關(guān)聯(lián)實(shí)例與地區(qū)時(shí),我們會(huì)檢查被選者是否與指定地區(qū)的國(guó)家具有相關(guān)性(國(guó)籍、出生地、長(zhǎng)期居住之地等等)。該數(shù)據(jù)集使用此標(biāo)準(zhǔn),包含了來(lái)自世界 90 多個(gè)國(guó)家和所有地區(qū)的個(gè)人條目。

雖然性別并非二元化,但我們專注于令“女性”和“男性”實(shí)體具有同等代表性。值得一提的是,由于維基百科通過(guò)這種方式來(lái)表示實(shí)體,目前其中的實(shí)例還不足以準(zhǔn)確反映非二元群體。因此很遺憾,該集合并不包括標(biāo)識(shí)為非二元的個(gè)人。為了將每個(gè)實(shí)例貼上“女性”或“男性”標(biāo)簽,我們依靠的是維基百科上的傳記信息,其中包含對(duì)此人特定性別的參考資料(她、他、女人、兒子、父親等)。

在應(yīng)用所有這些過(guò)濾條件之后,我們會(huì)為每個(gè)“職業(yè)-地區(qū)-性別”三元組隨機(jī)選擇一個(gè)實(shí)例。針對(duì)七個(gè)地理區(qū)域的每一種職業(yè),我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。

最后,我們添加了 12 個(gè)性別無(wú)關(guān)實(shí)例。之所以選擇搖滾樂(lè)隊(duì)和運(yùn)動(dòng)隊(duì),是因?yàn)樗鼈兺ǔS蔁o(wú)性別的第三人稱代詞(如“它”或復(fù)數(shù)形式的“它們”)所指代。包含這些實(shí)例是為了研究過(guò)度觸發(fā) (over triggering),即當(dāng)模型得知其因產(chǎn)生特定性別的代詞而獲得獎(jiǎng)勵(lì)時(shí),它們會(huì)在本不應(yīng)該的情況下產(chǎn)生這些代詞。

結(jié)果和應(yīng)用

該數(shù)據(jù)集為降低機(jī)器翻譯中的性別偏見提供了一種新的評(píng)估方法(前一篇文章中已有所介紹)。每個(gè)實(shí)例都指向已知性別的主語(yǔ),因此我們可以計(jì)算出指向該主語(yǔ)的、特定性別翻譯的準(zhǔn)確性。在翻譯成英語(yǔ)(該語(yǔ)言有代詞省略或中性代詞)時(shí),因?yàn)橹饕?jì)算基于英語(yǔ)的特定性別代詞,所以這種計(jì)算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數(shù)據(jù)集,將錯(cuò)誤數(shù)量減少了 67%。如前所述,我們可利用中性實(shí)體,如使用陰性或陽(yáng)性代詞來(lái)指代無(wú)性別實(shí)體,來(lái)發(fā)現(xiàn)過(guò)度觸發(fā)的情況。這個(gè)新數(shù)據(jù)集還為不同類型的職業(yè)或地理區(qū)域中不同模型的性能提供了新的研究方向。

比如,我們利用該數(shù)據(jù)集,在翻譯自西班牙語(yǔ)的 Marie Curie 傳記節(jié)選中發(fā)現(xiàn)了改進(jìn)之處。

結(jié)論

Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集是我們?cè)谘芯孔R(shí)別與性別和機(jī)器翻譯有關(guān)的偏見方面的工作成果。該數(shù)據(jù)集側(cè)重于與性別偏見有關(guān)的具體問(wèn)題,并不旨在涵蓋整個(gè)問(wèn)題。值得一提的是,我們發(fā)布此數(shù)據(jù)集的目的并不在于強(qiáng)調(diào)確定解決性別偏見的最佳方法,而是幫助推動(dòng)全球研究界在應(yīng)對(duì)這一方面挑戰(zhàn)。

致謝

這些數(shù)據(jù)集的構(gòu)建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6172

    瀏覽量

    105622
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31097

    瀏覽量

    269430
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8424

    瀏覽量

    132765

原文標(biāo)題:用于研究翻譯中性別偏見的數(shù)據(jù)集

文章出處:【微信號(hào):yingjiansanrenxing,微信公眾號(hào):硬件三人行】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Google兩款先進(jìn)生成式AI模型登陸Vertex AI平臺(tái)

    生成式 AI 正在引領(lǐng)商業(yè)增長(zhǎng)與轉(zhuǎn)型。在已經(jīng)將生成式 AI 部署到生產(chǎn)環(huán)境的企業(yè)中,有86%的企業(yè)表示其帶來(lái)了收入增長(zhǎng),估計(jì)增長(zhǎng)率為 6%。這就是為什么 Google 正持續(xù)投資其 AI
    的頭像 發(fā)表于 12-30 09:56 ?86次閱讀

    AI大模型的倫理與社會(huì)影響

    個(gè)人隱私得到保護(hù),防止數(shù)據(jù)泄露和濫用。 對(duì)于敏感數(shù)據(jù)的處理,如生物識(shí)別信息或健康記錄,需要遵循更嚴(yán)格的隱私和安全標(biāo)準(zhǔn)。 偏見與歧視 AI大模型可能會(huì)從訓(xùn)練數(shù)據(jù)中繼承偏見,導(dǎo)致對(duì)某些群體
    的頭像 發(fā)表于 10-23 15:13 ?524次閱讀

    Google AI技術(shù)助力中國(guó)品牌出海增長(zhǎng)

    人工智能的技術(shù)創(chuàng)新與突破正在給各行各業(yè)帶來(lái)全新的變革與機(jī)遇。在數(shù)字營(yíng)銷領(lǐng)域,AI 也為整個(gè)營(yíng)銷流程開啟了全新的可能。從全新的沉浸式廣告體驗(yàn)到效果出色的廣告素材,Google AI 正在助力廣告創(chuàng)意
    的頭像 發(fā)表于 10-16 11:08 ?506次閱讀

    RISC-V如何支持不同的AI機(jī)器學(xué)習(xí)框架和庫(kù)?

    RISC-V如何支持不同的AI機(jī)器學(xué)習(xí)框架和庫(kù)?還請(qǐng)壇友們多多指教一下。
    發(fā)表于 10-10 22:24

    PCB GND設(shè)計(jì)原則和注意事項(xiàng)

    在PCB設(shè)計(jì)過(guò)程中,應(yīng)盡可能遵循單點(diǎn)接地的原則。單點(diǎn)接地意味著將所有地線連接到一個(gè)公共位置,避免在多個(gè)位置形成地線,以減少干擾和返回路徑的不對(duì)稱。這種設(shè)計(jì)有助于減少地線之間的電位差,從
    的頭像 發(fā)表于 10-09 10:28 ?904次閱讀

    組成放大電路時(shí)必須遵循原則

    組成放大電路時(shí)必須遵循原則主要包括以下幾個(gè)方面: 一、電源與偏置設(shè)置 直流電源設(shè)置 :必須根據(jù)所用放大管的類型提供直流電源,以便設(shè)置合適的靜態(tài)工作點(diǎn),并作為輸出的能源。對(duì)于晶體管放大電路,電源
    的頭像 發(fā)表于 09-03 10:24 ?669次閱讀

    組合邏輯電路設(shè)計(jì)時(shí)應(yīng)遵循什么原則

    一、引言 組合邏輯電路是數(shù)字電路中的一種基本類型,它由邏輯門、觸發(fā)器等基本元件組成,通過(guò)邏輯門的組合實(shí)現(xiàn)特定的邏輯功能。組合邏輯電路廣泛應(yīng)用于計(jì)算機(jī)、通信、控制等領(lǐng)域。在設(shè)計(jì)組合邏輯電路時(shí),需要遵循
    的頭像 發(fā)表于 08-11 11:26 ?1531次閱讀

    DeepL推出新一代翻譯編輯大型語(yǔ)言模型

    在人工智能與語(yǔ)言處理領(lǐng)域,DeepL再次以其創(chuàng)新實(shí)力引領(lǐng)潮流,宣布成功推出新一代面向翻譯與編輯應(yīng)用的大型語(yǔ)言模型。這一里程碑式的進(jìn)展,不僅鞏固了DeepL作為頂尖語(yǔ)言人工智能公司的地位,更標(biāo)志著機(jī)器翻譯技術(shù)向更高質(zhì)量、更智能化方向邁出了堅(jiān)實(shí)的一步。
    的頭像 發(fā)表于 07-19 15:56 ?696次閱讀

    超ChatGPT-4o,國(guó)產(chǎn)大模型竟然更懂翻譯,8款大模型深度測(cè)評(píng)|AI 橫評(píng)

    隨著AI工具的不斷增多,各家模型的能力也日益提升,現(xiàn)在無(wú)論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當(dāng)下,越來(lái)越多的論文和前沿信息需要快速翻譯和解讀,依賴傳統(tǒng)的
    的頭像 發(fā)表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國(guó)產(chǎn)大模型竟然更懂<b class='flag-5'>翻譯</b>,8款大模型深度測(cè)評(píng)|<b class='flag-5'>AI</b> 橫評(píng)

    使用google-translate和wwe合并后無(wú)法使用google-tts怎么解決?

    我打算使用lyrat-mini做一個(gè)使用喚醒詞喚醒然后后續(xù)通過(guò)google-sr和google-tts進(jìn)行交流的聊天機(jī)器人,但是當(dāng)我合并了adf的例子中的wwe和google-tran
    發(fā)表于 06-28 06:05

    信號(hào)分析和信號(hào)處理必須遵循原則

    在信息技術(shù)的快速發(fā)展中,信號(hào)分析與信號(hào)處理作為信息科學(xué)的重要組成部分,扮演著至關(guān)重要的角色。無(wú)論是通信、控制、圖像處理還是生物醫(yī)學(xué)等領(lǐng)域,信號(hào)分析與處理都發(fā)揮著不可或缺的作用。因此,深入探討信號(hào)分析與信號(hào)處理必須遵循原則,對(duì)于提高信號(hào)處理的效率與準(zhǔn)確性、推動(dòng)相關(guān)領(lǐng)域的進(jìn)
    的頭像 發(fā)表于 05-17 14:19 ?1113次閱讀

    電路仿真所遵循的基本原則是什么

    電路仿真是一種基于電子計(jì)算機(jī)進(jìn)行模擬的技術(shù),用于分析和預(yù)測(cè)電路的行為和性能。它可以幫助設(shè)計(jì)師優(yōu)化電路的功能、減少成本和提高可靠性。為了保證仿真結(jié)果的準(zhǔn)確性和可靠性,電路仿真需要遵循一些基本原則。本文
    的頭像 發(fā)表于 04-21 10:20 ?1297次閱讀

    機(jī)器學(xué)習(xí)怎么進(jìn)入人工智能

    ,人工智能已成為一個(gè)熱門領(lǐng)域,涉及到多個(gè)行業(yè)和領(lǐng)域,例如語(yǔ)音識(shí)別、機(jī)器翻譯、圖像識(shí)別等。 在編程中進(jìn)行人工智能的關(guān)鍵是使用機(jī)器學(xué)習(xí)算法,這是一類基于樣本數(shù)據(jù)和模型訓(xùn)練來(lái)進(jìn)行預(yù)測(cè)和判斷的算法。下面將介紹使用機(jī)器學(xué)習(xí)算法進(jìn)行人工智能
    的頭像 發(fā)表于 04-04 08:41 ?345次閱讀

    谷歌AI聊天機(jī)器人改名為Gemini

    谷歌(Google)近日宣布,旗下備受矚目的AI聊天機(jī)器人Bard正式更名為Gemini,并推出了一款功能更加強(qiáng)大的付費(fèi)版本——Gemini Advanced。這一戰(zhàn)略調(diào)整旨在與微軟、OpenAI等科技巨頭在
    的頭像 發(fā)表于 02-18 11:28 ?1133次閱讀

    安裝電源濾波器要遵循原則有哪些?

    安裝電源濾波器要遵循原則有哪些? 安裝電源濾波器是一項(xiàng)關(guān)鍵的任務(wù),旨在凈化傳輸?shù)皆O(shè)備的電源,并保護(hù)其免受電源干擾的影響。以下是安裝電源濾波器時(shí)應(yīng)遵循原則: 了解電源濾波器的類型和功
    的頭像 發(fā)表于 01-11 15:59 ?452次閱讀
    主站蜘蛛池模板: 13一18TV处流血TV| 11 13加污女qq看他下面| 亚洲 无码 在线 专区| 岳打开双腿开始配合日韩视频| 凤楼app| 后入式狂顶免费视频| 日本经典片免费看| 在线天天看片免费视频观看| 国产精品线路一线路二| 男女啪啪抽搐呻吟高潮动态图 | 久久re视频这里精品09免费| 日本一区二区三区在线观看网站 | 千禧金瓶梅快播| 午夜国产高清精品一区免费| 97人妻在线公开视频在线观看| 国产精品人妻久久无码不卡| 久久两性视频| 超碰 无码 中文字幕| yellow日本动漫观看免费| 打卡中国各地奋斗第一线| 开心片色99xxxx| 亚洲日韩欧美国产中文在线| 4399日本电影完整版在线观看免费 | 国产免费网站看v片在线| 日本精品久久久久中文字幕2| 中文字幕免费在线视频| 教室眠催白丝美女校花| 甜性涩爱免费下载| 大胸美女被c| 琪琪色在线播放| 9国产露脸精品国产麻豆| 久久精品中文闷骚内射| 亚洲蜜芽在线观看精品一区 | 日本肉肉口番工全彩动漫 | 杨幂视频在线观看1分30秒| 国产亚洲欧美日韩综合综合二区| 无人视频在线观看免费播放影院| 又爽又黄又粗又大免费视频| 精品欧美一区二区三区四区| 亚洲色欲啪啪久久WWW综合网| 娇妻被朋友玩得呻吟在线电影|