在线观看99,曰曰碰天天碰国产,在线观看一区二区麻豆

本筆記基于斯坦福大學2019年冬季CS224N最新課程:基于深度學習的自然語言處理，希望可以接觸到最前沿的進展。

主要內容

這一節主要討論自然語言處理中的旗艦任務：機器翻譯。

神經機器翻譯之前機器翻譯早期機器翻譯：1950s統計機器翻譯：1990s-2010s對齊很復雜對齊學習SMT解碼SMT特點神經機器翻譯序列到序列模型用途廣泛條件語言模型NMT訓練貪心解碼窮舉搜索解碼柱搜索解碼終止條件最終修正NMT優點NMT缺點機器翻譯評測機器翻譯進展NMT仍然存在問題NMT研究仍在繼續注意力序列到序列的瓶頸問題注意力注意力很厲害注意力應用廣泛注意力變體下節預告閱讀更多

神經機器翻譯之前

講神經機器翻譯之前，先來看看機器翻譯的歷史。

機器翻譯

機器翻譯任務是將一種語言(原始語言)的句子x翻譯成另一種語言(目標語言)的句子y。

例如：

x: L'homme est né libre, et partout il est dans les fers

y: Man is born free, but everywhere he is in chains

早期機器翻譯：1950s

機器翻譯研究始于1950年初。

1954 年，美國喬治敦大學（Georgetown University）在 IBM 公司協同下，用 IBM-701計算機首次完成了英俄機器翻譯試驗，向公眾和科學界展示了機器翻譯的可行性，從而拉開了機器翻譯研究的序幕。

中國開始這項研究也并不晚，早在1956年，國家就把這項研究列入了全國科學工作發展規劃，課題名稱是“機器翻譯、自然語言翻譯規則的建設和自然語言的數學理論”。1957 年，中國科學院語言研究所與計算技術研究所合作開展俄漢機器翻譯試驗，翻譯了9 種不同類型的較為復雜的句子。

早期機器翻譯大都基于規則，并使用雙語詞典。

統計機器翻譯：1990s-2010s

核心思想：從數據中學習概率模型。

假定翻譯方向是從法語到英語。

給定法語句子x，那么目標就是找到最佳英語句子y：

也就是找到概率分布P。

通常的做法是使用貝葉斯法則，將上式分解成兩項，便于分別學習：

其中：

是翻譯模型，是關于詞語和短語如何翻譯的模型，考查的是忠實度。翻譯模型從平行數據中學習；

是語言模型，是關于如何書寫正確英語的模型，考查的是流暢度。語言模型從單語數據中學習。之前已經學過。

那么如何學習翻譯模型？

首先需要平行語料庫。

舉世聞名的羅賽塔石碑就是一個早期的平行語料庫。

羅賽塔石碑

在這個石碑上，同一文本被書寫成了三種語言。而這恰恰成了19世紀人們破解古埃及文的關鍵。如果你在倫敦，不妨親自去大英博物館看一看這個平行語料庫。

當然，我們需要的平行語料庫要大得多，遠非一塊石碑所能寫下。

有了大規模平行語料庫后，如何從中學習翻譯模型？

方法是進一步分解。實際上我們希望考慮：

其中a是對齊，即法語句子x和英語句子y之間的詞語對齊。

所謂對齊就是句對之間詞語的對應。

對齊很復雜

無對應

多對一

一對多（這樣的詞稱為能產詞）

一對多

一對很多

多對多（短語對齊）

多對多

對齊學習

學習就是學習多種因素的組合，包括：

詞語對齊的概率（同時取決于詞語在句子中的位置）

詞語具有特定能產度（對應詞的個數）的概率

等等

所有這些都是從平行數據中學習。

SMT解碼

有了翻譯模型和語言模型后，如何計算？

一種暴力解法就是枚舉每一個可能的y，然后計算概率。很明顯，這樣做的計算代價非常高。

解決辦法：使用啟發式搜索算法找到最佳翻譯，忽略掉概率非常低的翻譯。

這一過程稱為解碼。

SMT示例

SMT解碼示例

SMT特點

曾經是個非常熱門的研究領域

最好的系統都極其復雜

有很多單獨設計的子系統

大量的特征工程

需要收集和整理大量的外部資源，例如平行短語表

需要大量人力維護

直到2014年，神經機器翻譯橫空出世！

神經機器翻譯

神經機器翻譯(NMT)是一種只使用神經網絡做機器翻譯的方法。

這種神經網絡稱為序列到序列結構(seq2seq)，包括兩個RNN。

序列到序列模型

序列到序列模型由兩個RNN組成：編碼器RNN和解碼器RNN。

Seq2Seq

編碼器RNN通過最后的隱層狀態對原始句子進行編碼。原始句子的編碼就是解碼器RNN的初始隱層狀態。這相當于將原始句子編碼傳入解碼器RNN。

解碼器RNN相當于語言模型，根據前面的編碼一步一步來生成目標句子。

注意：上圖顯示的是測試模型，解碼器的輸出作為下一步的輸入，進而生成文本。

另外，每種語言各有一個單獨的詞表和詞嵌入。

用途廣泛

序列到序列模型不僅僅用于機器翻譯。很多其他NLP任務本質上也是序列到序列。

摘要生成（長文本-->短文本）

對話（上一句話-->下一句話）

句法分析（輸入文本-->輸出句法分析序列）

代碼生成（自然語言-->Python代碼）

條件語言模型

序列到序列模型屬于條件語言模型。

說它是語言模型，因為解碼器所做的就是預測目標句子y的下一個詞

說它是條件的，因為解碼器的預測是以原始句子x為條件的

NMT的強大之處在于它直接計算概率P(y|x)：

即給定原始句子x和當前所有的目標詞語，計算下一個目標詞語。

NMT訓練

如何訓練一個NMT系統？

首先要有一個大的平行語料庫。

將原始句子送入編碼器RNN，然后將目標句子送入解碼器RNN，同時編碼器RNN最終隱層狀態會傳入解碼器RNN的初始隱層狀態。在解碼器RNN的每一步會產生下一個單詞的概率分布，進而通過交叉熵計算損失。將每一步損失加總取平均，就得到了整個句子的損失。

如下圖所示：

NMT訓練

Seq2Seq作為整個系統進行優化。反向傳播方式為"端到端"，一端連接最終損失，一端連接編碼器RNN的開始。反向傳播穿過了整個系統。

注意，訓練期間，解碼器的輸入來自語料庫。解碼器每一步的輸出僅僅用于計算損失，不會送入下一步輸入。

貪心解碼

我們看到，對解碼器的每一步輸出求argmax，就能生成（或解碼）目標句子。

貪心解碼

這就是貪心解碼（在每一步取概率最高的詞）

貪心解碼的問題是每一步取概率最高的詞并不必然導致整個句子概率最高！

貪心解碼無法取消上一步決策。

例如，輸入是il a m’entarté （he hit me with a pie ）

he_

he hit_

he hit a___

糟糕！解碼到第3步時，概率最高的詞是a，這不是想要的結果，現在想回到上一步，怎么辦？

這就是貪心解碼的問題，無法返回上一步。

窮舉搜索解碼

我們的目標其實是找到使下述概率最大的翻譯y(長度T)：

我們可以計算所有可能的序列y，這意味著解碼器在每一步t，都要追蹤個可能的未完成翻譯。計算代價非常高。我們需要高效的搜索算法。

柱搜索解碼

核心思想：在解碼器的每一步，只追蹤k個概率最高的翻譯（亦稱為假設）。k就是柱搜索的大小（一般是5-10）。

我們使用對數概率作為假設的分值：

分值都是負數，數值越大越好。我們只搜索分值高的假設，在每一步，只追蹤前k個。

柱搜索解碼

柱搜索不能保證找到最優解，但效率要遠遠高于窮舉搜索。

終止條件

在貪心搜索中，解碼的終止條件是符號。

例如： he hit me with a pie

在柱搜索中，不同的假設可能會在不同的時間步產生符號。

如果一個假設已經產生符號，則該假設已經完成。將該假設放在一邊。

繼續通過柱搜索探索其他假設。

通常，柱搜索的終止條件是：

達到時間步T（T是事先預定的數值）

已經得到至少n個完整的假設（n是事先預定的數值）

最終修正

現在我們有了完成的假設列表。如何選擇分值最高的一個？

列表中每一個假設都有一個分值

問題在于假設越長，分值越低。

修正：用長度作歸一化。

NMT優點

與SMT相比，NMT具有很多優點：

效果更好

更流暢

更充分利用上下文

更充分利用短語相似度

單個神經網絡，端到端優化

無須針對子系統進行逐個優化

人工參與更少

無特征工程

適用于所有語言對

NMT缺點

與SMT相比：

NMT可解釋性差

難以調試

NMT難以控制

無法指定翻譯規則或原則

安全問題

機器翻譯評測

目前比較流行的自動評測方法是IBM提出的BLEU(bilingual evaluation understudy)算法。

BLEU的核心思想就是機器翻譯的譯文越接近人工翻譯的結果，它的翻譯質量就越高。BLEU如何定義機器翻譯與參考譯文之間的相似度？

n元文法精度（通常是一、二、三、四元文法）

對過于簡短的譯文作懲罰

BLEU非常有用，但并非完美無缺

一句話有多種有效的翻譯方式

如果與人工翻譯的n元文法重疊度低，即使翻譯再好，BLEU也會偏低

機器翻譯進展

2014年，神經機器翻譯只是非常邊緣的研究范疇；但在2016年，神經機器翻譯已經成為主流的標準方法。

2014年，第一篇seq2seq論文發布

2016年，谷歌翻譯從SMT切換到NMT

僅僅兩年，NMT實現驚人逆襲！

SMT系統，需要數以百計的工程師，經年累月，方能搭建；而NMT系統，只需幾個工程師幾個月內就能搭建，而且效果反超SMT。

NMT仍然存在問題

NMT雖然大獲成功，但仍然存在很多問題：

未登錄詞

訓練數據和測試數據領域不匹配

長文本上下文問題

有些語言對數據量不夠

利用常識仍然困難

沒有常識

NMT學到了數據中的偏見

數據偏見

不可解釋的系統會做一些莫名其妙的事情

不可解釋

NMT研究仍在繼續

NMT是深度自然語言處理的旗艦任務。

NMT研究引領了NLP深度學習的很多創新

2019年，NMT研究仍在蓬勃發展

研究人員發現了上面標準seq2seq的很多改進方法，其中有一項改進如此不可或缺，已經成為新的標準方法。那就是Attention(注意力)

注意力

序列到序列的瓶頸問題

信息瓶頸問題

在編碼器RNN的最后一步，這里的隱層狀態需要獲得原始句子的所有信息。這就存在信息瓶頸的問題。

注意力

注意力的核心思想是在解碼器的每一步，都與編碼器直接相連，以便對原始句子的特定部分進行關注。先上圖。

基于注意力的序列到序列模型

編碼器隱層狀態為：

到第t時間步，解碼器的隱層狀態為：

此步的注意力分值為：

使用softmax獲得該步的注意力分布：

然后使用對編碼器的隱層狀態加權求和，獲得注意力輸出：

最后，將注意力輸出和編碼器隱層狀態拼接：

后續過程就與普通Seq2Seq一樣了。

注意力很厲害

注意力允許解碼器關注原始句子的特定部分，顯著提高了NMT效果

注意力允許解碼器直接查看原始句子，解決了信息瓶頸的問題

注意力提供了遙遠狀態的捷徑，有助于緩解梯度消失的問題

注意力提供了某種可解釋性：

查看注意力分布，可以了解解碼器所關注的內容

免費自動實現了軟對齊，無需單獨訓練一套對齊系統

注意力應用廣泛

已經看到，注意力可以大大改善機器翻譯的效果。

然而不僅于此，注意力同樣適用于很多其他神經網絡結構和很多其他任務。

注意力的廣義定義：

給定一組向量值(value)和一個向量查詢(query)，注意力就是根據向量查詢來計算向量值加權求和。

例如在seq2seq+attention模型中，每個解碼器隱層狀態就是查詢，它會去關注編碼器的所有隱層狀態（值）。

加權求和就是對數值中的信息進行選擇性摘取，查詢決定了需要關注哪些數值。

注意力可根據某些表示（查詢）將任意一組表示（值）轉換為固定大小的表示。

注意力變體

假設有若干值和一個查詢。

注意力通常包括：

計算注意力分值

用softmax獲得注意力分布：

使用注意力分布計算值的加權求和，這就是注意力輸出（亦稱為語境向量）：

這里注意力分值計算有若干種方法：

基本點乘：

矩陣乘法：，其中是權重矩陣

加法：

其中：

是權重矩陣

是權重向量

是注意力的維度，是超參數

總結一下：我們學習了機器翻譯的歷史、神經機器翻譯的序列到序列模型和注意力機制。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器翻譯

機器翻譯

+關注

關注
0

文章
139

瀏覽量
14914
深度學習

深度學習

+關注

關注
73

文章
5507

瀏覽量
121272
自然語言處理

自然語言處理

+關注

關注
1

文章
619

瀏覽量
13581

原文標題：機器翻譯、Seq2Seq、注意力(CS224N-2019-8)

文章出處：【微信號：gh_b11486d178ef，微信公眾號：語言和智能】歡迎添加關注！文章轉載請注明出處。

GloVe模型的思想方法

CS224n自然語言處理與深度學習 Lecture Notes Two

發表于 08-26 14:31

【推薦體驗】騰訊云自然語言處理

`相信大家對NLP自然語言處理的技術都不陌生，它是計算機科學領域和AI領域中的一個分支，它與計算機和人類之間使用自然語言進行交互密切相關，而NLP的最終目標是使計算機能夠像人類一樣理解語言

發表于 10-09 15:28

自然語言處理之66參數學習

自然語言處理——66參數學習

發表于 07-16 09:43

什么是自然語言處理

什么是自然語言處理？自然語言處理任務有哪些？自然語言處理的方法是什么？

發表于 09-08 06:51

什么是人工智能、機器學習、深度學習和自然語言處理？

領域，包括機器學習、深度學習、數據挖掘、計算機視覺、自然語言處理和其他幾個學科。首先，人工智能涉及使計算機具有自我意識，利用計算機視覺、

發表于 03-22 11:19

從語言學到深度學習NLP，一文概述自然語言處理

本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念，再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文，希望詳細了解

發表于 08-22 14:56 ?6382次閱讀

深度學習與自然語言處理的工作概述及未來發展

深度學習是機器學習的一個領域，研究復雜的人工神經網絡的算法、理論、及應用。自從2006年被Hinton等提出以來［1］，深度

發表于 10-13 10:59 ?1次下載

自然語言處理的優點有哪些_自然語言處理的5大優勢

在自然語言處理領域，深度學習的承諾是：給新模型帶來更好的性能，這些新模型可能需要更多數據，但不再需要那么多的語言學專業知識。

發表于 12-29 13:52 ?2.8w次閱讀

閑談深度學習在自然語言處理領域的5大關鍵優勢

在自然語言處理領域，深度學習將給予最大的幫助，深度學習方法主要依靠一下這五個關鍵優勢，閱讀本文將

發表于 01-12 16:00 ?4395次閱讀

深入機器學習之自然語言處理

和方法。隨著深度學習在圖像識別、語音識別領域的大放異彩，人們對深度學習在NLP的價值也寄予厚望。自然語言

發表于 09-18 22:31 ?758次閱讀

采用深度學習對自然語言處理進行分類

用深度學習對自然語言處理（NLP）進行分類

發表于 11-05 06:51 ?3240次閱讀

斯坦福AI Lab主任、NLP大師Manning：將深度學習應用于自然語言處理領域的領軍者

像Alexa和Siri那樣的對話助手對自然語言處理產生了巨大的影響。最開始這些變化跟深度學習和自然語言處

發表于 07-07 07:47 ?4253次閱讀

自然語言處理（NLP）的學習方向

自然語言處理（Natural Language Processing，NLP）是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然語言進行有效通信的理論和方法。融語言

發表于 07-06 16:30 ?1.3w次閱讀

基于深度學習的自然語言處理對抗樣本模型

深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊，但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然語言處理模型的安全問題。針對自然語

發表于 04-20 14:36 ?39次下載

自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學領域的一個分支，它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器

發表于 12-05 15:21 ?528次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

2019年冬季CS224N最新課程:基于深度學習的自然語言處理

評論

GloVe模型的思想方法

【推薦體驗】騰訊云自然語言處理

自然語言處理之66參數學習

什么是自然語言處理

什么是人工智能、機器學習、深度學習和自然語言處理？

從語言學到深度學習NLP，一文概述自然語言處理

深度學習與自然語言處理的工作概述及未來發展

自然語言處理的優點有哪些_自然語言處理的5大優勢

閑談深度學習在自然語言處理領域的5大關鍵優勢

深入機器學習之自然語言處理

采用深度學習對自然語言處理進行分類

斯坦福AI Lab主任、NLP大師Manning：將深度學習應用于自然語言處理領域的領軍者

自然語言處理（NLP）的學習方向

基于深度學習的自然語言處理對抗樣本模型

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟