基于門控圖神經網絡的圖序列學習
Graph-to-Sequence Learning using Gated Graph Neural Networks
墨爾本大學
University of Melbourne
本文是澳大利亞墨爾本大學發表于 ACL 2018 的工作,提出了一個在圖中編碼完整結構信息的新模型,將門控圖神經網絡與輸入變換耦合,該輸入變換允許節點和邊緣具有它們自己的隱層表示,并解決了先前工作中存在的參數爆炸問題。實驗結果表明,在AMR圖和基于句法的神經機器翻譯中,本文模型優于業內的最好方法。
1 引言
圖結構普遍存在于自然語言的表示中。尤其是,許多句子的語義框架使用有向無環圖作為基礎形式,而大多數基于樹的句法表示也可以看作圖。NLP應用的范圍可以看作將圖結構轉換成序列的過程。例如,句法機器翻譯需要將帶樹形標注的源語句轉換為其翻譯。
前人工作大多依賴于基于語法的方法,如tree transducers和超邊替換文法。這些方法的一個關鍵限制是需要在圖形節點和tokens之間進行對齊。這些對齊通常是自動生成的,構建語法時會傳播錯誤。
在本文中,我們提出了一個圖到序列(g2s)學習模型,該模型利用神經編碼器-解碼器架構的最新進展。具體地說,我們采用了一種基于門控圖神經網絡的編碼器,它能夠在不損失信息的情況下生成完整的圖結構。這樣的網絡用邊的信息作為標注參數,即使對于小規模標注詞匯(按幾百的順序)來說,這都可能是有問題的。為了解決這個問題,本文還引入了一個圖形變換,將邊改變到其他節點,解決了參數爆炸問題。這也確保了邊具有特定于圖的隱藏向量,給網絡中的注意力和解碼模塊提供更多信息。
我們將本文模型與兩個圖序列問題進行比較,即摘要意義表示(AMRS)和基于源依存的信息神經機器翻譯(NMT)。與以前的工作相比,我們的方法在不依賴于標準RNN編碼的情況下,優于兩個任務中的強大的S2S基線。特別地,對于NMT,我們發現,通過在依存樹中添加相鄰單詞之間的連續邊,避免了對RNNs的需要。這說明了我們的方法的適用性:可以通過簡單的圖形變換將語言偏差添加到輸入,而不需要對模型體系結構進行改變。
2 模型
本文架構圖如下所示,以AMR圖為例,并將其轉換為其表面形式。與標準的S2S模型相比,主要的差別在于編碼器,在這里我們使用GGNN來構建圖形表示。在下文中,我們將詳細解釋該體系結構的組件。
門控圖神經網絡
關于圖的遞歸網絡的早期方法假設參數的不動點表示并使用contraction maps學習。而這限制了模型的容量,使得學習節點間的長距離關系變得很困難。為了解決這些問題,提出了門控圖神經網絡,以與門控遞歸單元類似的方式用門控機制擴展了這些結構。這允許通過現代反向傳播過程學習網絡。
給定有向圖
,
是節點
的集合,
是邊
的集合,
和
分別代表節點和邊的詞匯表。給定一個輸入圖,節點嵌入為
,GGNN定義如下:
在注意力編碼階碼模型中使用GGNNs
在S2S模型中,輸入是tokens序列,其中每個token由嵌入向量表示。然后,編碼器通過合并上下文(通常通過遞歸或卷積網絡)將這些向量轉換為隱藏狀態表示。這些被饋送到注意力機制中,產生單個上下文向量,通知解碼器中的下一步操作。
我們的模型遵循類似的結構,其中編碼器是一個GGNN,它接收節點嵌入作為輸入,并使用圖結構作為上下文,生成節點隱藏狀態作為最終輸出。從上圖的示例中可以看出,我們在AMR圖中每個節點上有4個隱藏向量。注意力和解碼器組件遵循類似的標準s2s模型,其中我們使用雙線性注意機制和2層LSTM作為解碼器。
雙向和位置嵌入
雖然我們的體系結構在理論上可以與一般圖一起使用,但是有根有向無環圖(DAG)可以說是我們所處理的問題中最常見的一類。這意味著節點嵌入信息以自上而下的方式傳播。在這項工作中,我們也遵循這一過程,確保信息均勻地在圖中傳播。然而,這又帶來了另一個限制:因為圖形基本上是無方向的,所以編碼器現在不知道輸入中存在的任何內在層次結構。受Geern等人的啟發,本文通過在每個節點中加入位置嵌入來解決這個問題。這些嵌入被表示為與根節點的最小距離的整數值索引,并且被學習為模型參數。這種位置嵌入被限制為有根DAG:對于一般圖,可以使用不同的距離概念。
Levi Graph Transformation
本文提出將輸入圖轉換為等價Levi圖。給定一個圖
,Levi圖定義為
,
,新的邊集合
包含出現在原始圖中的每一個(node,edge)對的一個邊。
直觀地,將圖轉換成其Levi圖等價為將邊轉換為附加節點。因為Levi圖沒有標記的邊,所以沒有參數爆炸的風險:原始的邊標簽以與節點相同的方式表示為嵌入。此外,編碼器自然生成原始邊的隱藏狀態。圖2詳細地展示了轉換步驟。
3 實驗
我們使用最新的AMR語料,包含36521/1368/1371個訓練、開發和測試集合的切分。每一個圖首先使用一個包含實體簡化和匿名現象的方法。這個預處理步驟在將圖轉換為等價Levi圖之前進行。對于s2s基線,我們也同樣添加了范圍標記。本文的基線模型采用基于注意力機制的s2s模型。對于g2s模型,設置GGNN編碼器層次為8。維度設置為512,GGNN編碼器為576。所以模型都使用Adam進行訓練,初始學習率設置為0.0003,batch大小設置為16。本文使用BLEU進行評價,采用bootstrap resampling檢查統計的重要性。
下圖展示了在測試集上的結果。當使用相當數量的參數時,我們的方法在單個模型和集成中都顯著優于s2s基線。
在圖3中,我們展示了一個例子,我們的模型優于基線。AMR圖包含四個重新引用,謂詞引用圖中先前定義的概念。我們可以看到,S2S預測超越了“India and China”這一短語。G2S預測避免了超生成,并且幾乎完全匹配參考。雖然這只是一個示例,但是它提供了保留完整的圖形結構對這個任務有益的證據,我們的定量結果證實了這一點。
我們的第二個評價是NMT,使用AS圖源語言依賴句法樹。在專注于一個媒體資源的情況下,額外的語言信息往往更有益。我們的實驗包括兩種語言對:英語德語和英語捷克語。下圖顯示了g2s+的輸入圖的示例,其中附加的順序邊連接單詞(為了簡單起見,省略了反向和自身邊)。上部:具有相應的依賴樹的句子。底部:轉換后的樹變成Levi圖,在單詞(虛線)之間有附加的順序連接。完整的圖還包含反向和自邊緣,在圖中省略。
下表顯示了這兩種語言對在測試集上的結果。不考慮序列信息的G2S模型落后于我們的基線。另外。我們發現BNNN層是獲得最佳結果的關鍵。然而,在相同的參數預算下,在單個模型和集成場景中,g2s+模型在BLEU得分方面優于基線。這個結果表明,在不依賴于RN或體系結構中的任何其他修改的情況下,在我們的模型中合并順序偏差是可能的。
有趣的是,分析CHRF++數時我們發現了不同的趨勢。這個度量在兩種語言對上都展示了PB-SMT模型的優勢,同時在En-Cs中還顯示了s2s的改進性能。在兩個語言對中,無論是在系統層面還是句子層面上,CHRF++已經顯示出更好的與人類判斷相聯系的BLEU。
4 總結
我們提出一種新的用于圖到序列學習的編碼器-解碼器結構,在兩個NLP任務中的表現都優于基線:AMR圖生成和基于語法的NMT。我們的方法解決了以前工作中的線性信息丟失、參數爆炸等缺點。我們還特別展示了圖轉換如何在不改變底層架構的情況下解決基于圖的網絡的問題。這就是所提出的Levi圖轉換的情況,它確保解碼器可以關注邊和節點,而且在NMT的情況下也可以關注添加到依賴樹的順序連接。總的來說,因為我們的體系結構可以處理一般的圖,所以以額外的節點和/或邊信息的形式添加語言偏差是很簡單的。我們相信這在應用方面是一個有趣的研究方向。
然而,我們的架構有兩個主要的限制。第一種是GGN具有固定數量的層,即使圖在節點和邊的數量方面可以改變大小。更好的方法是允許編碼器具有動態數量的層,可能基于輸入圖中的直徑(最長路徑)。第二個限制來自Levi圖轉換:因為邊標簽表示為節點,所以它們最終共享詞匯表,因此共享相同的語義空間。但這是不理想的,因為節點和邊是不同的實體。一個有趣的替代方案是Weave Module Networks,它顯式地解耦節點和邊表示,而不會引起參數爆炸。未來工作中,我們考慮將這兩種思想結合到我們的架構中。
-
解碼器
+關注
關注
9文章
1144瀏覽量
40794 -
編碼器
+關注
關注
45文章
3648瀏覽量
134731 -
神經網絡
+關注
關注
42文章
4773瀏覽量
100883
發布評論請先 登錄
相關推薦
評論