本系列文章主要分享近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:
定義(Define)
綜述(Survey)
模型(Models)
數據集(Datasets)
挑戰與展望(Future Research Challenges)
Github地址:https://github.com/xiaoqian19940510/Event-Extraction
Few-shot or zero-shot
2020
Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection, WSDM 2020[1]
事件檢測(ED)是事件抽取的一個子任務,涉及到識別觸發器和對提到的事件進行分類。現有的方法主要依賴于監督學習,并需要大規模的標記事件數據集,不幸的是,這些數據集在許多實際應用中并不容易獲得。
在這篇論文中,考慮并重新制定了一個有限標記數據的教育任務作為一個少樣本的學習問題。提出了一個基于動態記憶的原型網絡(DMB-PN),它利用動態記憶網絡(DMN)不僅可以更好地學習事件類型的原型,還可以為提到事件生成更健壯的句子編碼。傳統的原型網絡只使用一次事件提及次數,通過平均計算事件原型,與之不同的是,由于DMNs的多跳機制,我們的模型更加健壯,能夠從多次提及的事件中提取上下文信息。
實驗表明,與一系列基線模型相比,DMB-PN不僅能更好地解決樣本稀缺問題,而且在事件類型變化較大、實例數量極小的情況下性能更強。
Exploiting the Matching Information in the Support Set for Few Shot Event Classification, PAKDD 2020[2]
現有的事件分類(EC)的工作主要集中在傳統的監督學習設置,其中模型無法提取的事件提到新的/看不見的事件類型。盡管EC模型能夠將其操作擴展到未觀察到的事件類型,但在這一領域還沒有研究過少樣本習。為了填補這一空白,在本研究中,我們調查了在少樣本學習設置下的事件分類。
針對這一問題們提出了一種新的訓練方法,即在訓練過程中擴展利用支持集。特別地,除了將查詢示例與用于訓練的支持集中的示例進行匹配之外,我們還試圖進一步匹配支持集中本身的示例。該方法為模型提供了更多的訓練信息,可應用于各種基于度量學習的少樣本學習方法。我們在兩個EC基準數據集上的廣泛實驗表明,該方法可以提高事件分類準確率達10%
Towards Few-Shot Event Mention Retrieval : An Evaluation Framework and A Siamese Network Approach, LREC 2020[3]
在大量的文本中自動分析事件對于情境意識和決策是至關重要的。以前的方法將事件抽取視為“一刀切”,并預先定義了本體。所建立的提取模型用于提取本體中的類型。這些方法不能很容易地適應新的事件類型或感興趣的新領域。
為了滿足以事件為中心的個性化信息需求,本文引入了少樣本事件提及檢索(EMR)任務:給定一個由少量事件提及組成的用戶提供的查詢,返回在語料庫中找到的相關事件提及。這個公式支持“按例查詢”,這大大降低了指定以事件為中心的信息需求的門檻。檢索設置還支持模糊搜索。我們提供了一個利用現有事件數據集(如ACE)的評估框架。
2018
Zero-Shot Transfer Learning for Event Extraction, ACL 2018[4]
以前的大多數事件抽取研究都嚴重依賴于從標注的事件提及中衍生出來的特性,因此如果不進行注釋就不能應用于新的事件類型。在這項工作中,我們重新審視事件抽取,并將其建模為一個接地問題。我們設計一個Transfer的神經結構,映射事件提及和類型共同到一個共享語義空間使用神經網絡結構和組成,每個事件提及的類型可以由所有候選人的最親密的類型。
通過利用一組現有事件類型可用的手工標注和現有事件本體,我們的框架應用于新的事件類型而不需要額外的標注。在現有事件類型(如ACE、ERE)和新事件類型(如FrameNet)上的實驗證明了我們的方法的有效性。對于23種新的事件類型,我們的zero-shot框架實現了可以與最先進的監督模型相比較的性能,該模型是從500個事件提及的標注數據中訓練出來的。
中文事件抽取
2019
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction, EMNLP2019 [5]
任務: 與其他研究不同,該任務被定義為:事件框架填充:也就是論元檢測+識別
不同點有:不需要觸發詞檢測;文檔級的抽取;論元有重疊
動機: 解碼論元需要一定順序,先后有關
主要思想:發布數據集,具有特性:arguments-scattering and multi-event,先對事件是否觸發進行預測;然后,按照一定順序先后來分別解碼論元
數據集:ten years (2008-2018) Chinese financial announcements:ChFinAnn;
Cross-lingual Structure Transfer for Relation and Event Extraction, EMNLP 2019) [6]
動機:從資源不足以及注釋不足的語料庫中進行復雜語義結構的識別(例如事件和實體關系)是很困難的,這已經變成了一個很有挑戰性的信息抽取任務。
主要思想:通過使用卷積神經網絡,將所有實體信息片段、事件觸發詞、事件背景放入一個復雜的、結構化的多語言公共空間,然后我們可以從源語言注釋中訓練一個事件抽取器,并將它應用于目標語言。
數據集:ACE2005
2018
DCFFE: A Document-level Chinese Financial Event Extraction System based on Automatically Labelled Training Data, ACL 2018 [7]
動機:在某些特定領域,例如金融,醫療和司法領域,由于數據標記過程的成本很高,因此標記數據不足。此外,當前大多數方法都關注于從一個句子中提取事件,但通常在一個文檔中,一個事件由多個句子表示。我們提出一種方法來解決這個問題。
主要思想:我們提供了一個名為DCFEE的框架,該框架可以從被自動標記過的訓練數據中抽取文檔級事件。我們使用一個序列標記模型來自動抽取句子級事件,并且提出了一個關鍵事件檢測模型和一個論元填充策略,進而從文檔中提取整個事件。
數據集:Chinese financial event dataset
2016
A convolution bilstm neural network model for chinese event extraction, NLPCC 2016 [8]
動機:在中文的事件抽取中,以前的方法非常依賴復雜的特征工程以及復雜的自然語言處理工具。本文提出了一種卷積雙向LSTM神經網絡,該神經網絡將LSTM和CNN結合起來,可以捕獲句子級和詞匯信息,而無需任何人為提供的特征。
主要思想:首先使用雙向LSTM將整個句子中的單詞的語義編碼為句子級特征,不做任何句法分析。然后,我們利用卷積神經網絡來捕獲突出的局部詞法特征來消除觸發器的歧義,整個過程無需來自POS標簽或NER的任何幫助。
數據集:ACE2005, KBP2017 Corpus
半監督遠程監督事件抽取
2018
Semi-supervised event extraction with paraphrase clusters, NAACL 2018[9]
動機:受監督的事件抽取系統由于缺乏可用的訓練數據而其準確性受到限制。我們提出了一種通過對額外的訓練數據進行重復抽樣來使事件抽取系統自我訓練的方法。這種方法避免了訓練數據缺乏導致的問題。
主要思想:我們通過詳細的事件描述自動生成被標記過的訓練數據,然后用這些數據進行事件觸發詞識別。具體來說,首先,將提及該事件的片段聚集在一起,形成一個聚類。然后用每個聚類中的簡單示例來給整個聚類貼一個標簽。最后,我們將新示例與原始訓練集結合在一起,重新訓練事件抽取器。
數據集:ACE2005, TAC-KBP 2015
開放域事件抽取
2020
Open-domain Event Extraction and Embedding for Natural Gas Market Prediction, arxiv 2020
動機:以前的方法大多數都將價格視為可推斷的時間序列,那些分析價格和新聞之間的關系的方法是根據公共新聞數據集相應地修正其價格數據、手動注釋標題或使用現成的工具。與現成的工具相比,我們的事件抽取方法不僅可以檢測現象的發生,還可以由公共來源檢測變化的歸因和特征。
主要思想:依靠公共新聞API的標題,我們提出一種方法來過濾不相關的標題并初步進行事件抽取。價格和文本均被反饋到3D卷積神經網絡,以學習事件與市場動向之間的相關性。
數據集:NYTf、FT、TG
2019
Open Domain Event Extraction Using Neural Latent Variable Models, ACL2019 [10]
動機:我們考慮開放領域的事件抽取,即從新聞集群中抽取無約束的事件類型的任務。結果表明,與最新的事件模式歸納方法相比,這種無監督模型具有更好的性能。
主要思想:以前關于生成模式歸納的研究非常依賴人工生成的指標特征,而我們引入了由神經網絡產生的潛在變量來獲得更好的表示能力。我們設計了一種新穎的圖模型,該模型具有潛在的事件類型矢量以及實體的文本冗余特征,而這些潛在的事件類型矢量來自全局參數化正態分布的新聞聚類。
數據集:GNBusiness
Reporting the unreported: Event Extraction for Analyzing the Local Representation of Hate Crimes, EMNLP 2019[11]
動機:將事件抽取和多實例學習應用于本地新聞文章的語料庫,可以用來預測仇恨犯罪的發生。
主要思想:根據是否為仇恨罪標記每篇文章的任務被定義為多實例學習(MIL)問題。我們通過使用文章所有句子中嵌入的信息來確定文章是否報道了仇恨犯罪。在一組帶注釋的文章上測試了模型之后,我們將被訓練過的模型應用于聯邦調查局沒有報道過的城市,并對這些城市中仇恨犯罪的發生頻率進行了下界估計。
多語言事件抽取
2019
Cross-lingual Structure Transfer for Relation and Event Extraction, EMNLP 2019) [12]
動機:從資源不足以及標注不足的語料庫中進行復雜語義結構的識別(例如事件和實體關系)是很困難的,這已經變成了一個很有挑戰性的信息抽取任務。
主要思想:通過使用卷積神經網絡,將所有實體信息片段、事件觸發詞、事件背景放入一個復雜的、結構化的多語言公共空間,然后我們可以從源語言標注數據中訓練一個事件抽取器,并將它應用于目標語言。
數據集:ACE2005
2016
Leveraging Multilingual Training for Limited Resource Event Extraction, COLING 2016[13]
動機:迄今為止,利用跨語言訓練來提高性能的工作非常有限。因此我們提出了一種新的事件抽取方法。
主要思想:在本文中,我們提出了一種新穎的跨語言事件抽取方法,該方法可在多種語言上進行訓練,并利用依賴于語言的特征和不依賴于語言的特征來提高性能。使用這種系統,我們旨在同時利用可用的多語言資源(帶標注的數據和引入的特征)來克服目標語言中的標注數據稀缺性問題。從經驗上我們認為,我們的方法可以極大地提高單語系統對中文事件論元提取任務的性能。與現有工作相比,我們的方法是新穎的,我們不依賴于使用高質量的機器翻譯的或手動對齊的文檔,這因為這種需求對于給定的目標語言可能是無法滿足的。
數據集:ACE2005
數據生成
2019
Exploring Pre-trained Language Models for Event Extraction and Geenration, ACL 2019[14]
動機:ACE事件抽取任務的傳統方法通常依賴被手動標注過的數據,但是手動標注數據非常耗費精力并且也限制了數據集的規模。我們提出了一個方法來克服這個問題。
主要思想:本文提出了一個基于預訓練語言模型的框架,該框架包含一個作為基礎的事件抽取模型以及一種生成被標注事件的方法。我們提出的事件抽取模型由觸發詞抽取器和論元抽取器組成,論元抽取器用前者的結果進行推理。此外,我們根據角色的重要性對損失函數重新進行加權,從而提高了論元抽取器的性能。
數據集:ACE2005
Open Event Extraction from Online Text using a Generative Adversarial Network, EMNLP 2019 [15]
動機:提取開放域事件的結構化表示的方法通常假定文檔中的所有單詞都是從單個事件中生成的,因此他們通常不適用于諸如新聞文章之類的長文本。為了解決這些局限性,我們提出了一種基于生成對抗網絡的事件抽取模型,稱為對抗神經事件模型(AEM)。
主要思想:AEM使用Dirichlet先驗對事件建模,并使用生成器網絡來捕獲潛在事件的模式。鑒別符用于區分原始文檔和從潛在事件中重建的文檔。鑒別器的副產品是鑒別器網絡生成的特征允許事件抽取的可視化。
數據集:Twitter, and Google datasets
Reporting the unreported: Event Extraction for Analyzing the Local Representation of Hate Crimes, EMNLP 2019[16]
動機:將事件抽取和多實例學習應用于本地新聞文章的語料庫,可以用來預測仇恨犯罪的發生。
主要思想:根據是否為仇恨罪標記每篇文章的任務被定義為多實例學習(MIL)問題。我們通過使用文章所有句子中嵌入的信息來確定文章是否報道了仇恨犯罪。在一組帶標注數據的文章上測試了模型之后,我們將被訓練過的模型應用于聯邦調查局沒有報道過的城市,并對這些城市中仇恨犯罪的發生頻率進行了下界估計。
2017
Automatically Labeled Data Generation for Large Scale Event Extraction, ACL 2017 [17]
動機:手動標記的訓練數據成本太高,事件類型覆蓋率低且規模有限,這種監督的方法很難從知識庫中抽取大量事件。
主要思想:1)提出了一種按重要性排列論元并且為每種事件類型選取關鍵論元或代表論元方法。2)僅僅使用關鍵論元來標注事件,并找出關鍵詞。3)用外部語言知識庫FrameNet來過濾噪聲觸發詞并且擴展觸發詞庫。
數據集:ACE2005
閱讀理解式事件抽取
2020
Event Extraction by Answering (Almost) Natural Questions, EMNLP 2020 [18]
主要思想:事件抽取問題需要檢測事件觸發并提取其相應的參數。事件參數抽取中的現有工作通常嚴重依賴于作為預處理/并發步驟的實體識別,這導致了眾所周知的錯誤傳播問題。為了避免這個問題,我們引入了一種新的事件抽取范式,將其形式化為問答(QA)任務,該任務以端到端的方式抽取事件論元。實證結果表明,我們的框架優于現有的方法; 此外,它還能夠抽取訓練時未見角色的事件論元。
數據集:ACE
2019
Neural Cross-Lingual Event Detection with Minimal Parallel Resources, EMNLP2019[19]
標注數據的缺乏給事件檢測帶來了巨大的挑戰。跨語言教育旨在解決這一挑戰,通過在不同語言之間傳遞知識,提高性能。但是,以前用于ED的跨語言方法對并行資源有嚴重依賴,這可能限制了它們的適用性。
在本文中,我們提出了一種跨語言的ED的新方法,證明了并行資源的最小依賴性。具體來說,為了構建不同語言之間的詞匯映射,我們設計了一種上下文依賴的翻譯方法; 為了解決語序差異問題,我們提出了一種用于多語言聯合訓練的共享句法順序事件檢測器。通過在兩個標準數據集上的大量實驗,研究了該方法的有效性。實證結果表明,我們的方法在執行不同方向的跨語言遷移和解決注解不足的情況下是有效的。
Entity-relation extraction as multi-turn question answering, ACL2019[20]
提出了一種新的實體-關系抽取的范式。我們把任務作為多向問答的問題,也就是說,實體和關系的抽取轉化為確定答案的任務。這種多輪QA形式化有幾個關鍵的優點:
首先,問題查詢為我們想要識別的實體/關系類編碼重要的信息;
其次,QA為實體與關系的聯合建模提供了一種自然的方式;
第三,它允許我們開發良好的機器閱讀理解(MRC)模型。
在ACE和CoNLL04語料庫上的實驗表明,提出的范式顯著優于之前的最佳模型。我們能夠在所有的ACE04、ACE05和CoNLL04數據集上獲得最先進的結果,將這三個數據集上的SOTA結果分別提高到49.4(+1.0)、60.2(+0.6)和68.9(+2.1)。此外,我們構建了一個新開發的中文數據集恢復,它需要多步推理來構建實體依賴關系,而不是以往數據集的三元提取的單步依賴關系抽取。提出的多輪質量保證模型在簡歷數據集上也取得了最好的效果。
2017
Zero-shot relation extraction via reading comprehension, CoNLL 2017[21]
通過將一個或多個自然語言問題與每個關系槽相關聯,可以將關系提取簡化為回答簡單的閱讀理解問題。減少有幾個好處:我們可以
學習relation-extraction模型通過擴展最近神經閱讀理解技術
為這些模型相結合構建大訓練集關系專用眾包與遠方監督問題,
zero-shot學習通過提取新關系類型,只有指定的測試時間,我們沒有標簽的訓練例子。
在Wikipedia填槽任務上的實驗表明,該方法可以高精度地將已知關系類型的新問題概括為新問題,并且在較低的精度水平下,Zero-shot地概括為不可見的關系類型是可能的,這為該任務的未來工作設置了標準。
責任編輯:xj
原文標題:超全必讀!NLP 事件抽取綜述(下)
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
事件
+關注
關注
0文章
12瀏覽量
9945 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13581 -
nlp
+關注
關注
1文章
489瀏覽量
22053
原文標題:超全必讀!NLP 事件抽取綜述(下)
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論