色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

兩個NLP模型的預測分析

深度學習自然語言處理 ? 來源:圖與推薦 ? 作者:圖與推薦 ? 2021-04-04 17:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖數據的天然優勢是為學習算法提供了豐富的結構化信息,節點之間鄰接關系的設計成為了重要的先驗信息和交互約束。然而,有一部分邊上的消息是可以忽略的,論文首先提出方法在不影響模型預測效果的情況下,將圖結構中冗余的邊drop掉。通過分析剩余邊上具有怎樣的先驗知識,實現對GNN的預測過程加以解釋。

0. Abstract

GNN 能夠將結構歸納偏置(structural inductive biases) 整合到 NLP 模型中。然而,卻鮮有工作對于這種結構偏置的原理加以解釋,特別是在理解圖結構的哪些部分有助于模型的預測方面。因此,本文介紹了一種事后(post-hoc)方法,來對 GNN 的預測加以解釋,它能夠識別出不必要的邊。給定一個訓練過的GNN模型,本文通過學習一個簡單的分類器,對于每一層中的每條邊,預測那條邊是否可以被丟棄。作者證明了這樣的分類器的訓練可以用完全可微分的方式,使用隨機門,并通過范數促進稀疏性。此外,作者還進行了非常有意義的實驗,將提出的技術作為歸因方法,同時分析了兩個 NLP 任務中的GNN模型——問題回答和語義角色標注,并提供了對這些模型中信息流的理解。實驗結果表明,可以丟棄大量的邊卻不會影響到模型的性能,同時通過分析剩余的重要邊來解釋模型的預測過程。

1. Introduction

基于GNN的NLP任務

1.應用現狀

近年來,圖神經網絡(GNNs)成為了一種可擴展和高性能的方法,能夠將語言信息和其他結構偏置整合到NLP模型中。GNN 能夠用于文本數據的表示,例如:語法和語義圖、共指結構、知識庫與文本鏈接等。也能夠用在多種NLP任務中,例如:關系抽取,問題回答,語義語法解析,文本摘要,機器翻譯,社交網絡中的濫用語言檢測等。

2.應用瓶頸——在NLP任務中的可解釋性

雖然 GNN 性能較好,但模型還是相對復雜的,很難理解模型預測背后的“原因”。對于NLP從業者來說,知道給定的模型編碼了哪些語言信息以及編碼是如何發生的是非常重要的,GNN 可解釋性差是實現這種分析的障礙。此外,這種不透明性降低了用戶的信任,阻礙了有害偏置的發現,并使錯誤分析復雜化;在這篇論文中,著重于對 GNN 的事后分析,并對解釋GNN的方法制定了以下要求:

能夠識別層之間的相關路徑,因為路徑是向用戶展示 GNN 推理模式的最自然的方式之一;

易于處理,適用于現代基于 GNN 的 NLP 模型;

盡可能的提升可信度,為模型如何真正的達到預測效果提供解釋。

前置知識:擦除搜索(erasure search)

1.定義

執行解釋的一個簡單方法是使用擦除搜索[1],這是一種歸因的方法,在不影響模型預測的情況下,查找到可以被完全刪除的最大特征子集。刪除意味著模型丟棄的所有特征信息都能夠被忽略。

2.擦除搜索應用于GNN

對于GNN 而言,擦除搜索需要找到可以完全丟棄的最大子圖。對于上面提到的三點需求,擦除搜索只能滿足(1)和(3),在易處理性上失敗了。在實際場景中是不可行的,一次只刪除一個特征的花銷非常大,并且由于飽和性會低估特征的貢獻;此外,在擦除搜索中,優化是針對每個例子單獨進行的。由于使用另一個可選擇的較小子圖也可以做出類似的預測,即使是非冗余的邊也會被積極地修剪,這可能會導致過擬合,作者將這個問題稱為事后偏差(hindsight bias)。

GRAPHMASK 方法

論文提出的 GRAPHMASK 旨在通過可擴展的方式實現與擦除搜索相同的優點,從而滿足上述的需求。也就是說,作者的方法對保留或丟棄邊做出了可解釋的硬性選擇,從而使被丟棄的邊與模型預測沒有相關性,同時保持了易處理性。GRAPHMASK 可以理解為子集擦除的一種可微的形式。其中,作者不是為每個給定的例子找到一個需要擦除的最佳子集,而是學習一個參數化的擦除函數,該函數可以預測是否應該保留第層的每條邊。給定一個示例圖 ,作者的方法為第 層返回一個子圖 ,這樣就可以認為 之外的任何邊都不會影響模型的預測。由于作者的模型依賴于參數化的擦除函數,而不是對每條邊單獨進行選擇,作者可以通過在訓練數據集上攤開參數學習,這種策略避免了事后偏差。

論文的貢獻

作者提出了一種新的針對GNN可解釋性的方法,適用于任何以GNN為組件的端到端神經模型(作者將發布代碼)。

作者用人工數據證明了現有最新方法的缺點,并展示了論文的方法如何解決這些缺點并提高可信度。

作者使用GRAPHMASK來分析兩個NLP任務中的GNN模型:語義角色標注和多跳問題回答。

2. Methods

GNN

給定輸入圖 ,GNN 第層的工作機制能夠通過一個消息函數 和一個聚合函數 定義:

其中, 表示節點 和 之間的關系類型, 是節點 的鄰居集合, 是第 層節點的表示。

GRAPHMASK

目標:獲得原始圖數據中的冗余信息,檢測在不影響模型預測的情況下,第 層的哪些邊上的消息 可以被忽略,作者將這些邊和邊上的消息視為冗余的。

整體思路(如下圖):節點的隱藏狀態和消息被喂入一個分類器 ,預測得到一個掩碼 ,作者用 來代替第 層的消息,并使用修改后的節點狀態重新計算前向傳播。分類器 在不改變模型預測的情況下,盡可能多的遮蔽隱藏狀態。

d4aa2812-88e9-11eb-8b86-12bb97331649.jpg

模型框架

Original Model當節點 和 之間有邊連接時,那么消息 能夠自由的傳遞給節點 ;

Gated Model訓練一個分類器 控制原始消息 是否要被遮蔽,若原始消息被遮蔽,則計算一個新的消息 ,再傳遞給節點 。

Gated Model 中消息的計算

作者通過一個二元選擇模型 查找需要丟棄的邊, 并通過一個可學習的基線 替換被丟棄的消息:

即,當 時,原始消息被遮蔽掉,使用學習到的參數 作為新的消息。

二元選擇模型的局限

不滿足作者在 Introduction 中提出的要求:1)該過程涉及到對所有可能被丟棄的候選邊進行搜索,所以不是易處理的。2)搜索過程是對每一個例子單獨進行的,存在事后偏見的危險。

為了克服這些問題,作者通過一個簡單的函數來計算 ,對每個任務跨數據點學習一次:

其中 是分類器 的參數,以單層神經網絡的形式實現。

分類器 的優勢

不是根據給定的預測值來選擇門值 ,而是在多個數據點上訓練參數 ,并用于解釋在訓練階段未見的例子上的預測。

的計算僅依靠模型在當前階段的可用信息(即 , , ),而不是讓模型提供一個lookahead.

這兩個方面的設計,防止了事后偏差。作者把這種策略稱為amortization。另一種選擇是為每個門獨立的選擇參數,不在門間共享任何參數,直接在測試樣本上執行優化,作者將這種策略稱為 GraphMask 的non-amortized版本。將在后面看到,與 amortization 版本不同的是,它容易受到事后偏見的影響。

計算過程

當獲得訓練好的分類器 后,使用論文提出的 GRAPHMASK 方法分析一個數據點過程如下:

1)在該數據點上執行原始模型,得到 , , 。

2)對每一層的每一條邊進行門計算,并執行如圖1所示模型的稀疏化版本。根據公式3對原始模型的消息進行門控。

3)對于后續各層,使用公式2對被遮蔽后的消息進行聚合,以獲得頂點嵌入 ,然后用它來獲得下一組被掩蔽的消息。

GRAPHMASK 唯一學習的參數是擦除函數的參數 和學習到的基線向量 ,原 GNN 模型的參數保持不變。只要依靠稀疏化圖的預測與使用原始圖的預測相同,我們就可以將被掩蓋的信息解釋為冗余的信息。

模型參數估計

問題定義

給定:具有 層的 GNN 函數 , 圖 , 輸入嵌入

任務:找到一個信息量大的子圖集合 , ,也就是每一層GNN網絡對應一個子圖,找到邊數目最少的子圖,并使得:.

約束優化過程

用約束優化的語言來形式化上述問題,并采用一種能夠實現梯度下降的方法,如拉格朗日松弛。一般來說,不可能保證)和 相等,因為是一個平穩函數,輸入數據的最小變化也無法產生完全相同的輸出。

為了衡量兩個輸出的不一致程度,作者引入了一個散度:,和一個容忍度:, 在該范圍內的差異是可接受的。 的選擇取決于原始模型的輸出結構。最小化分類器 預測的非零值數目(即未被遮蔽的邊的總數),比較常見的方法是最小化 范數。因此,從形式上講,在數據集 上定義本文的目標函數為:

其中1是指示函數, 是拉格朗日乘子。

以上目標函數不可微,由于:1) 不連續,導數幾乎處處為0;2)輸出的二值需要一個不連續的激活,如階躍函數。因此沒辦法使用基于梯度的優化方法,作者采用稀疏松弛解決以上問題,并采用 Hard Concrete 分布(封閉區間[0,1]上的混合離散連續分布)。

4. Experiments

作者進行了三個系列的實驗,本文將呈現重要的表格和結果,具體實驗細節和分析參閱論文。

綜合實驗

作者首先將GRAPHMASK應用在一個已知真實屬性的 Toy 數據集中,對方法的忠誠度進行評估。

任務描述給定一個星形圖 ,有一個單獨的中心頂點,葉節點,以及邊,圖中每條邊都事先分配好了一種顏色 。然后,給定一個查詢 ,

需要預測的是分配給顏色 的邊數是否大于分配給顏色 的邊數。我們事先明確已知與 兩種顏色相匹配的邊是重要的,除此之外的其它邊都不影響預測。作者定義了一個忠實度的黃金標準:對于,所有 和 類型的邊都應該被保留, 而所有其他的邊都應該被丟棄。

GRAPHMASK與三個基線方法比較

d4e58b78-88e9-11eb-8b86-12bb97331649.jpg

只有本文提出的方法的 amortized 版本近似復制了黃金標準,事實上,擦除搜索、GNNExplainer 和 non-amortized 的GRAPHMASK只召回了一小部分非冗余邊。

d52a348a-88e9-11eb-8b86-12bb97331649.jpg

圖2 可視化每種方法的分數分配情況

擦除搜索、GNNExplainer 和 non-amortized 版本 GRAPHMASK 只保留一條黑色邊,造成過擬合。集成梯度和信息瓶頸方法給出了不滿意的結果,因為所有邊邊都有屬性。只有amortized -GRAPHMASK能夠正確地將屬性分配給且僅分配給黑色和藍色邊,amortized 可以防止目標過擬合。

問題回答任務

任務描述給定一個查詢句和一組上下文文檔,在上下文中找到最能回答查詢的實體。GNN圖中的節點對應于查詢和上下文中實體的提及,并在這些實體之間引入了四種類型的邊:字符串匹配(MATCH)、文檔級共現(DOC-BASED)、核心參考解析(COREF),沒有任何其他邊(COMPLEMENT)。

d576780e-88e9-11eb-8b86-12bb97331649.jpg

GRAPHMASK復制了原始模型的性能,雖然準確度下降0.4%,但是僅有27%的邊被保留,保留的邊大部分存在于底層(底層的邊比較重要)。作者測量了每一層保留邊的百分比,這些邊發生在源于查詢實體的路徑上。觀察發現,發生在源于查詢的提及的路徑上的邊的比例按層急劇增加,從0層的11.8%,到1層的42.7%,在頂層達到73.8%。與預測答案相對應的一些提及在99.7%的情況下是一些保留邊的目標。然而,預測實體與查詢連接的幾率(72.1%)與平均候選實體的幾率(69.2%)幾乎相同。因此,GNN不僅負責通過圖傳播證據到預測答案,還負責傳播證據到備選候選實體。大多數路徑采取兩種形式之一,即一條COMPLEMENT邊之后是一條MATCH或一條DOC-BASED邊(22%),或者一條COMPLEMENT邊之后是兩條MATCH或DOC-BASED邊(52%)。

d5b470b4-88e9-11eb-8b86-12bb97331649.jpg

圖3 QA任務中邊的保留情況

查詢 "record label Phi" 的保留子圖(占原始邊的21%)。黑色邊類型是DOC-BASED,藍色是COMPLEMENT,黃色是MATCH,其中邊上的數字表示在哪一層保留了這種邊。可以看到 Japan 和 Johnny & Associates 之間第2層中的 DOC-BASED 類型邊的情況。事實上,在第0層、第1層和第2層中,分別有49%、98%和79%的保留邊也保留了它們的逆向邊。換句話說,提及之間 "不定向 "的信息交換,使得它的表征更加豐富。

語義角色標注任務

d5f0a106-88e9-11eb-8b86-12bb97331649.jpg

圖4 GNN+LSTM模型的語義角色標注的實例分析(丟棄冗余弧)

任務描述基于GNN的語義角色標注系統,識別給定謂詞的論元,并將它們分配到語義角色上,見圖4中句子下面的標簽。該 GNN 模型依賴于自動預測的句法依賴樹,允許信息雙向流動。作者針對[2]中性能最好的模型,包括BiLSTM+GNN,以及GNN-only 模型。對于LSTM+GNN,遮蔽模型的性能變化非常小,F1 僅下降0.62%,卻只保留了其中4%的消息。GNN-only 模型的性能變化同樣很小,F1 下降了 0.79%,保留了16%的消息。

d62c48be-88e9-11eb-8b86-12bb97331649.jpg

LSTM+GNN 模型(左)和 GNN-only 模型(右)的預測中使用的路徑百分比(縱坐標),橫坐標是謂詞和預測角色之間距離。

[2] 的原始研究結果表明,GNN對于預測遠離謂詞的角色特別有用,LSTM對于傳播信息的可靠性較低。GNN可以實現這一目標的方式是使用圖中的路徑;要么依賴整個路徑,要么部分依賴路徑中的最后幾條邊。其中連接謂詞和論元的路徑代表語義角色標注任務的重要特征。為了研究這個問題,作者在圖5中繪制了從謂詞到預測論元的路徑的百分比,從而保留了以預測論元為終點的子路徑(即至少一條邊),通過觀察圖5發現:

LSTM+GNN 模型:隨著與謂詞距離的增加,對路徑的依賴性會降低。

GNN-only 模型:隨著與謂詞距離的增加,對路徑的依賴性會增加。

d6794970-88e9-11eb-8b86-12bb97331649.jpg

表3 兩種模型保留0、1或2條邊的路徑百分比,按路徑長度和謂詞類型劃分

通過觀察表3發現:

幾乎所有的謂詞和角色之間的直接連接都被保留了下來,因為這些邊構成了它們句法關系的最直接的指示。

較長的路徑在兩種模型中都是非常有用的--然而,在LSTM+GNN模型中,名詞謂詞對長路徑的使用率要低得多。

在這種特殊情況下,LSTM捕捉到了路徑上存在的信息,在其他情況下,GNN通過對連接謂詞和論元的路徑進行建模來補充LSTM。

5. Conclusion

論文介紹了GRAPHMASK,這是一種適用于任何GNN模型的事后解釋方法。通過學習每條消息的端到端可微分的hard gates,并在訓練數據上進行攤銷,GRAPHMASK 可擴展到其它的GNN模型,并且能夠識別邊和路徑如何影響預測。作者應用提出的方法分析了兩個NLP模型的預測——語義角色標簽模型和問題回答模型。GRAPHMASK發現了這些模型依賴于哪些類型的邊,以及它們在進行預測時如何運用路徑。

原文標題:【GNN】別用Attention了,用GNN來解釋NLP模型吧

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    48987

    瀏覽量

    248984
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22599
收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型在半導體行業的應用可行性分析

    有沒有這樣的半導體專用大模型,能縮短芯片設計時間,提高成功率,還能幫助新工程師更快上手。或者軟硬件可以在設計和制造環節確實有實際應用。會不會存在AI缺陷檢測。 能否應用在工藝優化和預測性維護中
    發表于 06-24 15:10

    雙伺服電機驅動的鉆床齒隙模型仿真分析

    雙電機同步聯動伺服系統是用兩個具有相同參數的交流同步電機!共同驅動一大齒輪的轉動,每個交流同步電機各自帶動一小齒輪,小齒輪再與大齒輪嚙合,從而帶動大齒輪轉動。當黏性摩擦力忽略不計時,根據齒輪系統
    發表于 06-18 16:26

    請問是否可以在模型服務器中使用REST請求OpenVINO?預測

    是否可以在模型服務器中使用 REST 請求OpenVINO?預測
    發表于 03-05 08:06

    信道預測模型在數據通信中的作用

    在現代通信系統中,數據傳輸的可靠性和效率是衡量系統性能的關鍵指標。信道預測模型作為通信系統中的一核心組件,其作用在于預測信道條件的變化,從而優化數據傳輸策略,提高通信質量。 信道
    的頭像 發表于 01-22 17:16 ?785次閱讀

    【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用

    用戶體驗和滿意度,進而增加轉化率。通過精準匹配消費者需求和產品特性,大模型幫助企業實現更高效的市場滲透和銷售增長。 大模型能夠處理和分析大量的市場數據,預測市場趨勢和消費者需求的變化。
    發表于 12-24 12:48

    ads1013有兩個模擬輸入,可以接不同的兩個模擬輸入嗎?

    ads1013有兩個模擬輸入,可以接不同的兩個模擬輸入嗎,驅動程序中怎么分別讀兩個模擬輸入的轉換結果?
    發表于 12-02 08:02

    從時域和頻域兩個角度對信號進行分析

    一般來說,我們會從時域和頻域兩個角度,分別對信號進行分析。 時域 時域是真實世界存在的域,按時間順序呈現。例如,在某個時鐘信號的時域圖中,可以觀察到兩個重要的參數,波形的周期和上升沿: 時鐘周期即
    的頭像 發表于 11-19 10:18 ?3290次閱讀
    從時域和頻域<b class='flag-5'>兩個</b>角度對信號進行<b class='flag-5'>分析</b>

    電梯按需維保——“故障預測”算法模型數據分析

    梯云物聯的智能AI終端在故障預測算法模型數據分析中扮演著核心角色,其工作流程涵蓋了數據采集、特征提取、模型構建、故障預測與預警等多個環節,形
    的頭像 發表于 10-15 14:32 ?1125次閱讀

    兩個開關電源可以并聯使用嗎

    兩個開關電源并聯使用是一相對復雜的話題,涉及到電子電路設計、電源管理、安全規范等多個方面。 1. 開關電源的基本原理 開關電源是一種通過電子開關元件(如晶體管、MOSFET等)快速切換來控制電流
    的頭像 發表于 10-09 16:04 ?4703次閱讀

    單相電機兩個繞組都在定子上嗎

    單相電機的兩個繞組,即起動線圈(或稱為輔助繞組、副繞組)和運行線圈(或稱為主繞組),都位于定子上 。這兩個繞組在電機中起著關鍵作用,共同協作以產生旋轉磁場,從而使電機能夠運轉。 單相電機通常由一
    的頭像 發表于 09-03 15:10 ?2149次閱讀

    ad如何設置兩個元器件的距離

    在Altium Designer(簡稱AD)中設置兩個元器件之間的距離,主要是通過設置元器件間的安全間距(Clearance)規則來實現的。這個規則定義了元器件之間、元器件與走線之間以及其他設計元素
    的頭像 發表于 09-02 15:31 ?1.7w次閱讀

    功放機AB兩個聲道輸出怎么接

    功放機AB兩個聲道輸出的接線方式,主要取決于您想要實現的音頻效果以及音箱的配置。以下將詳細介紹幾種常見的接線方式,以及它們各自的特點和適用場景。 一、基礎接線方式 在大多數情況下,功放機的AB兩個
    的頭像 發表于 08-23 10:40 ?9144次閱讀

    觸發器的兩個穩定狀態分別是什么

    觸發器作為數字電路中的基本邏輯單元,具有兩個穩定狀態,這兩個狀態通常用于表示二進制數碼中的0和1。
    的頭像 發表于 08-12 11:01 ?3054次閱讀

    雙穩態電路的兩個穩定狀態是什么

    雙穩態電路是一種具有兩個穩定狀態的電子電路,廣泛應用于數字電路、通信系統、存儲器等領域。 雙穩態電路的基本概念 雙穩態電路是一種具有兩個穩定狀態的電路,即在沒有外部輸入信號的情況下,電路可以保持在
    的頭像 發表于 08-11 15:00 ?2620次閱讀

    雙穩態觸發器的兩個基本性質是什么

    雙穩態觸發器(Bistable Trigger)是一種具有兩個穩定狀態的邏輯電路,廣泛應用于數字電路設計中。它具有兩個基本性質:記憶性和切換性。 一、雙穩態觸發器的基本概念 1.1 雙穩態觸發器
    的頭像 發表于 08-11 10:08 ?1366次閱讀
    主站蜘蛛池模板: 一本道久久综合久久88 | 午夜伦伦电影理论片费看 | 日本久久精品毛片一区随边看 | 欧美性动漫3d在线观看完整版 | 达达兔欧美午夜国产亚洲 | 茎身铃口调教 | 国产精品高清m3u8在线播放 | 亚洲一区自拍高清亚洲精品 | 精品午夜寂寞影院在线观看 | 2021久久最新国产精品 | 草久久久久 | 成人免费观看在线视频 | 中文字幕人成乱码中国 | 国产人人为我我为人人澡 | 国产日韩在线欧美视频 | 天美传媒在线观看免费完整版 | 超碰免费视频在线观看 | 强奸美女老师 | 国产午夜人做人免费视频中文 | 蜜桃视频一区二区 | 亚洲欧洲日本无在线码播放 | 亚洲色图在线播放 | 国产偷抇久久精品A片蜜臀A | 囯产精品久久久久免费蜜桃 | 国产精品人妻无码久久久蜜桃臀 | 嗯呐啊唔高H兽交 | 久久一er精这里有精品 | 国产一区私人高清影院 | china男士同性视频tv | 久久99亚洲热最新地址获取 | 免费国产成人手机在线观看 | 激情女人花 | yellow免费观看完整版直播 | 狼人大香伊蕉国产WWW亚洲 | 亚洲AV美女成人网站P站 | 亚洲成年男人的天堂网 | 久久精品123 | 欧美多人群p刺激交换电影 欧美多毛的大隂道 | a久久99精品久久久久久蜜芽 | 久久99re6热在线播放 | 久久伊人网站 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品