自然語言理解是AI皇冠上的明珠。在大數(shù)據(jù)、深度學(xué)習(xí)和云計算推動下,自然語言理解的各個領(lǐng)域都孕育著無窮的機(jī)會。這份書單介紹了兩本來自微軟亞洲研究院自然語言計算組的全新力作:《智能問答》和《機(jī)器翻譯》,分別對智能問答和機(jī)器翻譯這兩個具有廣泛應(yīng)用場景的研究領(lǐng)域進(jìn)行了系統(tǒng)性的介紹。
作為全球知名的研發(fā)機(jī)構(gòu),微軟亞洲研究院在自然語言處理方面一直有著獨特優(yōu)勢。最近出版的《智能問答》和《機(jī)器翻譯》兩本技術(shù)著作凝結(jié)了微軟亞洲研究院在自然語言處理上的最新成果,獲得了業(yè)內(nèi)諸多專家的好評和推薦。
本期書單向各位讀者重點介紹這兩本書。
推薦專家及推薦理由
自然語言處理是中文信息處理的重要技術(shù),我很高興地看到,中國的自然語言處理在最近二十年取得了長足的進(jìn)步。最新的深度學(xué)習(xí)進(jìn)一步推動了本領(lǐng)域的發(fā)展。《智能問答》和《機(jī)器翻譯》兩本書詳細(xì)地介紹了最新的理論、方法和技術(shù),是難得的技術(shù)參考書。
——李生
哈爾濱工業(yè)大學(xué)教授,原中國中文信息學(xué)會理事長
早在1991年,當(dāng)比爾·蓋茨創(chuàng)建微軟研究院時,就提出過一個愿景:讓計算機(jī)能看會聽,并可理解人類的想法。從那時開始,自然語言處理和計算機(jī)視覺、語音和圖像識別等一直就是重要的研發(fā)方向。這兩本書體現(xiàn)了微軟亞洲研究院在自然語言處理方面的卓越進(jìn)展。
——洪小文
微軟全球資深副總裁、微軟亞太研發(fā)集團(tuán)主席、微軟亞洲研究院院長
兩本書分別系統(tǒng)地介紹了兩個領(lǐng)域的關(guān)鍵技術(shù),深入淺出,理論與實踐完美結(jié)合,對有志于進(jìn)入本領(lǐng)域?qū)W習(xí)的人士大有幫助。懂語言者得天下!
——沈向洋
微軟全球執(zhí)行副總裁、微軟人工智能及研究事業(yè)部負(fù)責(zé)人
微軟是繼IBM深度問答系統(tǒng)問世以來率先從事開放式智能問答系統(tǒng)研究的著名團(tuán)隊之一,而微軟亞洲研究院的機(jī)器翻譯團(tuán)隊也是該領(lǐng)域全球最著名的團(tuán)隊之一。《智能問答》和《機(jī)器翻譯》兩本書的作者就分別來自于這兩個團(tuán)隊,我對他們的學(xué)術(shù)造詣深信不疑,并對他們在研究中做出的貢獻(xiàn)充滿自豪。
《智能問答》一書深入地介紹了不同類型的智能問答系統(tǒng),對于其底層的深度學(xué)習(xí)理論和知識圖譜、語義表示做了深入淺出的闡述。《機(jī)器翻譯》一書深入地介紹了近三十年來得到階躍式發(fā)展的統(tǒng)計機(jī)器翻譯和神經(jīng)機(jī)器翻譯的理論、方法和工具。鑒于兩本書的理論高度和實踐深度,它不僅可以作為大學(xué)本科和研究生的教科書使用,也定將會成為相關(guān)科研工作者和企業(yè)開發(fā)人員案頭常備的專業(yè)參考書。
——黃昌寧
國際著名NLP專家、清華大學(xué)NLP團(tuán)隊和MSRA自然語言處理團(tuán)隊創(chuàng)始人
第一本書:《智能問答》
內(nèi)容簡介
作為搜索引擎和智能語音助手的核心功能,智能問答(Question Answering)近年來受到學(xué)術(shù)界和工業(yè)界的一致關(guān)注和深入研究,各種問答數(shù)據(jù)集和方法層出不窮。《智能問答》一書簡要回顧了該研究領(lǐng)域的發(fā)展歷史和背景知識,并在此基礎(chǔ)上系統(tǒng)介紹了包括知識圖譜問答、表格問答、文本問答、社區(qū)問答和問題生成在內(nèi)的五個典型的問答任務(wù)。
全書共分為十個章節(jié):第一章概述智能問答的歷史沿革、任務(wù)分類和問答測評等基本問題;第二章介紹了智能問答研究中幾種常用的統(tǒng)計學(xué)習(xí)和深度學(xué)習(xí)模型;第三章介紹了自然語言處理任務(wù)的基礎(chǔ)——實體鏈接,并詳細(xì)闡述了長文本實體鏈接的典型方法及其在智能問答系統(tǒng)中的應(yīng)用;第四章對智能問答最重要的組成部分,自然語言中實體間的關(guān)系進(jìn)行了講解,并介紹了四種不同的關(guān)系分類方法;第五章至第八章針對四類不同的智能問答任務(wù),分別介紹了它們不同的解答方法;除此之外,本書的第九章還介紹了問題生成任務(wù),解釋其如何從數(shù)據(jù)和模型訓(xùn)練兩個角度進(jìn)一步提升智能問答系統(tǒng)的性能;最后,第十章對全書內(nèi)容加以總結(jié)。
精彩章節(jié)節(jié)選
3.2.2 基于無監(jiān)督學(xué)習(xí)的方法
為了減少實體鏈接系統(tǒng)對標(biāo)注數(shù)據(jù)的需求,可以將無監(jiān)督學(xué)習(xí)方法用于候選實體排序任務(wù)。常用的方法包括基于向量空間模型的方法和基于信息檢索的方法。
基于向量空間模型的方法首先將實體提及m和m對應(yīng)的某個候選實體e_i分別轉(zhuǎn)化為向量表示。然后,通過計算這兩個向量表示之間的距離對不同候選實體進(jìn)行排序。實體提及和候選實體的不同向量表示生成方法對應(yīng)了不同的工作。
基于信息檢索的方法將每個知識圖譜實體對應(yīng)的維基百科文檔作為該實體的表示,并基于該類文檔對全部知識圖譜實體建立索引。給定輸入文本中的一個實體提及m,該類方法首先從輸入文本中找到包含m的全部句子集合,并通過去停用詞等過濾操作生成一個查詢語句。然后,使用該查詢語句從知識圖譜實體對應(yīng)的索引中查找得到相關(guān)性最高的知識圖譜實體,作為m的實體鏈接結(jié)果。
無監(jiān)督學(xué)習(xí)方法通常適用于長文本實體鏈接任務(wù),這是由于短文本無法很好地生成實體提及對應(yīng)的向量表示或查詢語句。
5.3 基于答案排序的方法
絕大多數(shù)基于語義分析的知識圖譜問答需要帶有語義標(biāo)注的問題集合作為訓(xùn)練數(shù)據(jù)。這類數(shù)據(jù)需要花費的時間和成本很高,而且要求標(biāo)注人員對語義表示有一定程度的理解。使用答案作為弱監(jiān)督訓(xùn)練語義分析模型,能夠在一定程度上緩解數(shù)據(jù)標(biāo)注難度高、開銷大和標(biāo)注量有限等問題,但按照答案選擇出來的正例語義分析候選存在一定的噪音,這在一定程度上也會對語義分析模型的質(zhì)量造成影響。
基于答案排序(Answer Ranking)的知識圖譜問答將該任務(wù)看成一個信息檢索任務(wù):即給定輸入問題Q和知識圖譜KB,通過對KB中實體進(jìn)行打分和排序,選擇得分最高的實體或?qū)嶓w集合作為答案輸出。
具體來說,該類知識圖譜問答方法主要包含下述四個模塊:
1.問題實體識別。問題實體是指問題Q中提到的知識庫實體,例如在Who founded Microsoft這個問題中,Microsoft在知識圖譜中對應(yīng)的實體是該問題的問題實體。每個問題可能對應(yīng)多個問題實體,該類實體的識別通常采用實體鏈接技術(shù)完成。
2.答案候選檢索。根據(jù)識別出來的一個問題實體,從知識圖譜中查找與之滿足特定約束條件的知識庫實體集合,作為該問題的答案候選。最常用的約束條件是:在知識圖譜中,與問題實體最多通過兩個謂詞相連的知識庫實體。該做法假設(shè)問題對應(yīng)的答案實體和問題實體在知識圖譜中的距離通常不會很遠(yuǎn)。
3.答案候選表示。由于每個答案候選無法直接與輸入問題進(jìn)行比較,該模塊基于答案候選所在的知識圖譜上下文,生成答案候選對應(yīng)的向量表示。這樣,輸入問題和答案候選之間的相關(guān)度計算就轉(zhuǎn)化為輸入問題和答案候選對應(yīng)向量表示之間的相關(guān)度計算。具體方法的不同主要體現(xiàn)就在如何生成答案的向量表示上。
4.答案候選排序。使用排序模型對不同答案候選進(jìn)行打分和排序,并返回得分最高的答案候選集合作為輸出結(jié)果。
圖5-5給出基于答案排序的知識圖譜問答方法的工作流程示意圖,按照對答案候選的不同表示方法,本章將介紹五種具體的方法,包括特征工程方法、問題生成方法、子圖匹配方法、向量表示方法和記憶網(wǎng)絡(luò)方法。
圖5-5:基于答案排序的知識圖譜問答流程圖
作者介紹
段楠博士,微軟亞洲研究院自然語言計算組主管研究員,主要從事包括智能問答、語義理解、對話系統(tǒng)和網(wǎng)絡(luò)搜索等在內(nèi)的自然語言處理基礎(chǔ)研究,在ACL、EMNLP、COLING、AAAI、IJCAI、CVPR、KDD等國際會議中發(fā)表論文40余篇,發(fā)明專項6項,其多項研究成果已成功應(yīng)用到微軟核心人工智能產(chǎn)品中,包括必應(yīng)搜索、Cortana語音助手和微軟小冰等。
周明博士,微軟亞洲研究院副院長,國際計算語言學(xué)協(xié)會(ACL)會長,中國計算機(jī)學(xué)會理事、中文信息技術(shù)專委會主任、中國中文信息學(xué)會常務(wù)理事、中國五所頂尖大學(xué)的博士生導(dǎo)師。周明博士1991年獲哈爾濱工業(yè)大學(xué)博士學(xué)位。1991-1993年清華大學(xué)博士后,隨后留校任副教授。1996-1999訪問日本高電社公司領(lǐng)導(dǎo)中日機(jī)器翻譯研究。1999年,周明博士加入微軟亞洲研究院。長期擔(dān)任微軟亞洲研究院的自然語言處理的負(fù)責(zé)人。他是2018首都勞動獎?wù)芦@得者。
第二本書:《機(jī)器翻譯》
內(nèi)容簡介:
《機(jī)器翻譯》一書以簡明易懂的語言對機(jī)器翻譯技術(shù)給予了全面介紹,兼顧經(jīng)典的統(tǒng)計機(jī)器翻譯以及目前飛速發(fā)展的神經(jīng)機(jī)器翻譯技術(shù)。同時,此書注重理論和實踐結(jié)合。讀者在深入淺出地理解理論體系后,可以借助實例和本書所介紹的工具快速入門,掌握機(jī)器翻譯的訓(xùn)練和解碼的主要技術(shù)。
本書分為七章:第一章回顧機(jī)器翻譯發(fā)展的歷史并介紹機(jī)器翻譯技術(shù)的各種應(yīng)用;第二章介紹如何獲取用于機(jī)器翻譯模型訓(xùn)練的單語和雙語數(shù)據(jù)的方法以及機(jī)器翻譯自動評價方法;第三章介紹統(tǒng)計機(jī)器翻譯系統(tǒng)的基礎(chǔ)架構(gòu)、建模方法和基本模型以及模型的參數(shù)訓(xùn)練方法;第四章介紹典型的統(tǒng)計機(jī)器翻譯系統(tǒng)模型,包括基于短語的、基于形式文法的和基于句法的統(tǒng)計機(jī)器翻譯模型系統(tǒng);第五章介紹深度學(xué)習(xí)的基礎(chǔ)知識,包括感知機(jī)、詞語嵌入模型、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò);第六章系統(tǒng)介紹神經(jīng)機(jī)器翻譯,包括神經(jīng)聯(lián)合模型和基于序列映射的神經(jīng)機(jī)器翻譯模型以及注意力機(jī)制。除此之外,還介紹了基于卷積神經(jīng)網(wǎng)絡(luò)的編碼器和解碼器的神經(jīng)機(jī)器翻譯模型以及完全基于注意力網(wǎng)絡(luò)的模型;第七章進(jìn)一步深入討論了神經(jīng)機(jī)器翻譯在模型改進(jìn)、模型訓(xùn)練、翻譯解碼等方面的前沿進(jìn)展。
精彩章節(jié)節(jié)選
6.6 完全基于注意力網(wǎng)絡(luò)的神經(jīng)翻譯模型
在前邊我們提到,注意力網(wǎng)絡(luò)通過將源語言句子的隱含狀態(tài)和目標(biāo)語言句子的隱含狀態(tài)直接鏈接,從而縮短了源語言詞的信息到生成對應(yīng)目標(biāo)語言詞的傳遞路徑,顯著得提高了翻譯質(zhì)量。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器和解碼器,每個詞的隱含狀態(tài)都依賴于前一個詞的信息,所以編碼的狀態(tài)是順序生成的。這用編碼的順序生成嚴(yán)重影響了模型的并行能力。
另一方面,盡管基于門的循環(huán)神經(jīng)單元可以解決梯度消失或者爆炸的問題,然而相距太遠(yuǎn)的詞的信息仍然不能保證被考慮進(jìn)來。盡管卷積神經(jīng)網(wǎng)絡(luò)可以提高并行化的能力,然而只能考慮一定窗口內(nèi)的歷史信息。為了同時解決這些問題,可以將兩個額外的注意力網(wǎng)絡(luò)引入編碼器和解碼器的內(nèi)部,分別用于解決源語言句子和目標(biāo)語言句子內(nèi)部詞語之間的依賴關(guān)系。基于這樣的考慮, Vaswani 等人提出了完全基于注意力網(wǎng)絡(luò)的神經(jīng)翻譯模型(Transformer),在本節(jié)中將對該方法進(jìn)行詳細(xì)的介紹。
6.6.1 基于注意力網(wǎng)絡(luò)的編碼器和解碼器
如圖 6-22 所示,編碼器由 N 個同構(gòu)的網(wǎng)絡(luò)層堆疊而成,每一個網(wǎng)絡(luò)層包含兩個子網(wǎng)絡(luò)層:
第一個子網(wǎng)絡(luò)層稱為分組自注意力網(wǎng)絡(luò),用于將同層的源語言句子里的其它詞的信息通過自注意力網(wǎng)絡(luò)考慮進(jìn)來以生成當(dāng)前當(dāng)前詞的上下文向量;
第二個子網(wǎng)絡(luò)層是一個全聯(lián)通的前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的作用是將自注意力網(wǎng)絡(luò)生成的源語言句子內(nèi)的上下文向量同當(dāng)前詞的信息進(jìn)行整合,從而生成考慮了整個句子上下文的當(dāng)前時刻的隱含狀態(tài)。
為提高模型的訓(xùn)練速度,殘差鏈接(Residual Connection)和層規(guī)范化(Layer Normalization)被用于這兩個子網(wǎng)絡(luò)層,即圖中的 Add&Norm 層,定義為LayerNorm(x +SubLayer(x)),其中x為子網(wǎng)絡(luò)的輸入,SubLayer為該子網(wǎng)絡(luò)的處理函數(shù),LayerNorm為層規(guī)范化函數(shù)。通過對 N 個這樣的網(wǎng)絡(luò)層堆疊可以對信息進(jìn)一步地進(jìn)行抽象和融合。為了引入殘差網(wǎng)絡(luò),同構(gòu)網(wǎng)絡(luò)中每242個子網(wǎng)絡(luò)的輸出,以及詞向量和位置編碼(Positional Encoding)都需要保持同樣的長度。
圖 6-22:完全基于注意力網(wǎng)絡(luò)的神經(jīng)翻譯模型
解碼器同樣包含堆疊的N個同構(gòu)網(wǎng)絡(luò)層,每個網(wǎng)絡(luò)層包含三個子網(wǎng)絡(luò)層:
第一個子網(wǎng)絡(luò)層同編碼器的第一個子網(wǎng)絡(luò)層類似,是一個分組自注意力網(wǎng)絡(luò),負(fù)責(zé)將同層的目標(biāo)語言句子里的其它詞的信息考慮進(jìn)來生成一個目標(biāo)語言句子內(nèi)的上下文向量。不同于編碼器的自注意力網(wǎng)絡(luò),解碼器在解碼的時候只能夠看到已經(jīng)生成的詞的信息,對于未生成的內(nèi)容,可以使用掩碼(mask)機(jī)制將其屏蔽掉。
第二個子網(wǎng)絡(luò)層為分組的注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)作用同 6.4 節(jié)中原始的注意力網(wǎng)絡(luò)層類似,負(fù)責(zé)將源語言句子的隱含狀態(tài)同目標(biāo)語言的隱含狀態(tài)進(jìn)行比較生成源語言句子的上下文向量。
第三個子網(wǎng)絡(luò)層同編碼器的第二個子網(wǎng)絡(luò)層類似,是一個全聯(lián)通的前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的作用是將自注意力網(wǎng)絡(luò)生成的目標(biāo)語言句子內(nèi)的上下文向量,注意力網(wǎng)絡(luò)生成的源語言句子的上下文向量,以及當(dāng)前詞的信息進(jìn)行整合,從而更好的預(yù)測下一個目標(biāo)語言測。同編碼器類似,殘差網(wǎng)絡(luò)(Residual Connection)和層規(guī)范化(Layer Normalization)也被用于解碼器的三個子網(wǎng)絡(luò)層。
作者介紹
李沐博士,曾任微軟亞洲研究院自然語言計算組資深研究員。研究領(lǐng)域和興趣包括自然語言處理,大規(guī)模數(shù)據(jù)挖掘,深度學(xué)習(xí),機(jī)器翻譯等。在國際知名期刊和會議上發(fā)表論文70余篇,并對Windows、Office以及必應(yīng)等多項微軟產(chǎn)品做出過重要貢獻(xiàn)。
劉樹杰博士,微軟研究院自然語言計算組主管研究員,主要研究領(lǐng)域為自然語言處理、機(jī)器學(xué)習(xí)、機(jī)器翻譯以及深度神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用等。
張冬冬博士,微軟亞洲研究院自然語言計算組主管研究員,主要從事機(jī)器翻譯的理論研究與系統(tǒng)開發(fā)工作,發(fā)表學(xué)術(shù)論文近50篇,是微軟翻譯、必應(yīng)詞典、Skype Translator等產(chǎn)品的重要貢獻(xiàn)者。
周明博士,微軟亞洲研究院副院長,國際計算語言學(xué)協(xié)會(ACL)會長,中國計算機(jī)學(xué)會理事、中文信息技術(shù)專委會主任、中國中文信息學(xué)會常務(wù)理事、中國五所頂尖大學(xué)的博士生導(dǎo)師。周明博士1991年獲哈爾濱工業(yè)大學(xué)博士學(xué)位。1991-1993年清華大學(xué)博士后,隨后留校任副教授。1996-1999訪問日本高電社公司領(lǐng)導(dǎo)中日機(jī)器翻譯研究。1999年,周明博士加入微軟亞洲研究院。長期擔(dān)任微軟亞洲研究院的自然語言處理的負(fù)責(zé)人。他是2018首都勞動獎?wù)芦@得者。
-
微軟
+關(guān)注
關(guān)注
4文章
6603瀏覽量
104153 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14909 -
自然語言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13359
原文標(biāo)題:沈向洋力薦,周明、李沐執(zhí)筆:要了解智能問答和機(jī)器翻譯,先看這兩本書!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論