如何消除 AI 帶來的性別偏見是個令人頭疼的問題,那究竟有沒有方法去解決?
12 月 6 日,Google 宣布他們邁出了減少 Google 翻譯中性別偏見的第一步,并且還詳細介紹了如何為 Google 翻譯上的性別中性詞提供女性化和男性化兩種翻譯結果的技術原理。
過去幾年,Google 翻譯通過使用基于端到端的神經網絡系統大大提高了翻譯質量,但與此同時,模型的翻譯結果呈現出了社會偏見,尤其是性別偏見。具體而言,由于 Google 翻譯的結果一直都是從網上數以億計的已翻譯數據中學習得到,這造成的后果是,即使翻譯結果可能具有女性化或男性化形式的傾向,但它也只為查詢提供一種翻譯。因而,這無可避免地復制了已有的性別偏見。例如,像“強壯”或“醫生”這樣的詞語,它會生成偏向于男性化的翻譯結果,而對于“護士”或“美麗”等詞匯,則會生成偏向于女性化的翻譯。
現在,Google 翻譯解決了上述問題。當你把諸如“外科醫生”這樣的單字從英語翻譯成法語、意大利語、葡萄牙語或西班牙語時,會得到的男性化和女性化的兩種翻譯結果。另外,當把短語和句子從土耳其語翻譯成英語時,你也會得到這兩類翻譯,比如你用土耳其語輸入“o bir doktor”,就會得到“she is a doctor”和“he is a doctor”這兩種按性別翻譯的結果。
Google 翻譯中有特定性別的翻譯
Google 團隊是如何做的?
要知道,支持單字查詢的特定性別翻譯涉及到用性別屬性豐富 Google 的底層詞庫。支持較長(短語和句子)查詢的性別翻譯尤其具有挑戰性,這甚至需要對翻譯框架進行部分重構。對于這些較長的查詢,他們最初將重點放在從土耳其語到英文的翻譯上。總體而言,他們制訂了三步法來解決土耳其語中性別中立查詢的問題,即同時提供英文的男性化和女性化翻譯結果。
檢測性別中立查詢
許多土耳其語中提到人的句子都是性別中立的,但并不是全部都這樣。檢測哪些查詢符合特定性別的翻譯是一個難題,由于土耳其語在形態學上的很復雜,這意味著指代一個人可以是明確的性別中立代詞(例如 O,Ona)或隱式編碼。例如,“Biliyor mu?”沒有明確的性別中立代名詞,可以翻譯為“她知道嗎?”或“他知道嗎?”這種復雜性導致我們不能使用簡單的性別中性代詞列表來檢測性別中立的土耳其語查詢,另外我們還需要一個機器學習系統。Google 團隊估計大約有 10% 的土耳其語的翻譯查詢含糊不清,能同時符合女性化和男性化翻譯的條件。
為了檢測這些查詢,他們使用了最先進的文本分類算法(與他們的云自然語言 API 中使用的算法相同)來構建一個系統,該系統能夠檢測給定的土耳其語查詢何時是性別中立的。這就導致在翻譯前新增了一個步驟,所以他們必須平衡模型在延遲時的復雜性。Google 團隊對數千個土耳其人進行系統培訓,要求這些人判斷出一個給定的例子是否是性別中立的。而他們最終的分類系統是卷積神經網絡,以此可以準確檢測出需要按性別翻譯的查詢。
生成特定性別翻譯
隨后,Google 團隊增強了基礎神經機器翻譯(NMT)系統,以便在需要時生成女性化和男性化翻譯。當沒有要求區分性別時,訓練模型生成的是默認翻譯。這主要包括:
識別并將平行訓練數據劃分為具有女性化詞語、男性化詞語和性別不明詞語。
在句子的開頭添加一個新增的輸入標記,以指定要翻譯的所需性別,類似于已構建的多語言 NMT 系統的方式:
<2MALE> O bir doktor→他是一名醫生
<2FEMALE> O bir doktor→她是一名醫生
訓練增強的 NMT 模型對女性、男性和性別中立數據源的影響。他們對這些來源進行了各種混合比試驗,使模型在這三個任務中的表現同樣出色。
如果確定用戶查詢是性別中立的,他們會在翻譯請求中添加性別前綴。對于這些要求,他們的最終 NMT 模型可以在 99% 情況下生成可靠的女性化和男性化性別的翻譯結果。此外,系統在沒有性別前綴的查詢中還能保持翻譯質量。
檢查準確性
最后的一個步驟決定是否顯示特定性別的翻譯結果。由于產生男性化翻譯的訓練數據與產生女性化翻譯的訓練數據不同,因此在與性別無關的兩種翻譯間可能存在差異。如果確定特定性別的翻譯質量低,則只顯示單一的默認翻譯。為了確定特定性別的句子翻譯質量,他們進行以下驗證:
要求的女性翻譯是女性化的;
要求的男性化翻譯是男性化的;
除了與性別相關的變化,如果女性化和男性化翻譯完全相同,即使翻譯結果間的措辭發生微小變化也會被系統過濾掉。
男性化和女性化翻譯僅在性別方面有所不同,即“he”和“his”與“she”和“her”。因此,他們展示了特定性別的翻譯。底部:男性化和女性化翻譯在性別方面有所不同,即“he”與“she”。但是,從“really”到“actually”的變化與性別無關。因此,系統將過濾特定性別的翻譯并顯示默認翻譯結果。
如果將所有內容放在一起,輸入句子首先會通過分類器,分類器檢測它們是否可以進行特定性別翻譯。如果分類器說“是”,系統則向增強型 NMT 模型發送三個請求:女性化翻譯請求、男性化翻譯請求和性別中立翻譯請求。最后一步考慮了所有的三個答案,并決定是否顯示特定性別翻譯或單個默認翻譯。Google 團隊認為,這一步仍然相當保守,為了最大限度提高所顯示的特定性別的翻譯質量,因此系統的整體召回率僅為 60% 左右。
對 Google來說,這只是他們解決機器翻譯系統中性別偏見的第一步,未來,他們計劃將特定性別的翻譯擴展到更多語言,并解決自動完成查詢等功能中的性別偏見問題。此外,他們已經在考慮如何在翻譯中解決非二元性別的問題。
-
Google
+關注
關注
5文章
1762瀏覽量
57507 -
神經網絡
+關注
關注
42文章
4771瀏覽量
100720 -
機器翻譯
+關注
關注
0文章
139瀏覽量
14880
原文標題:“男醫生,女護士?”消除偏見,Google有大招
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論