本系列文章主要總結近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:
定義(Define)
綜述(Survey)
模型(Models)
數據集(Datasets)
挑戰與展望(Future Research Challenges)
Github地址:https://github.com/xiaoqian19940510/Event-Extraction
任務定義
Closed-domain
Closed-domain事件抽取使用預定義的事件模式從文本中發現和提取所需的特定類型的事件。事件模式包含多個事件類型及其相應的事件結構。D.Ahn首先提出將ACE事件抽取任務分成四個子任務:觸發詞檢測、事件/觸發詞類型識別、事件論元檢測和參數角色識別。我們使用ACE術語來介紹如下事件結構:
「事件提及」:描述事件的短語或句子,包括觸發詞和幾個參數。
「事件觸發詞」:最清楚地表達事件發生的主要詞,一般指動詞或名詞。
「事件論元」:一個實體,時間表達式,作為參與者的值和在事件中具有特定角色的屬性。
「論元角色」:論元與它所參與的事件之間的關系
Open domain
在沒有預定義的事件模式的情況下,開放域事件抽取的目的是從文本中檢測事件,在大多數情況下,還可以通過提取的事件關鍵詞聚類相似的事件。事件關鍵詞指的是那些主要描述事件的詞/短語,有時關鍵詞還進一步分為觸發器和參數。
「故事分割」:從新聞中檢測故事的邊界。
「第一個故事檢測」:檢測新聞流中討論新話題的故事。
「話題檢測」:根據討論的主題將故事分組。
「話題追蹤」:檢測討論先前已知話題的故事。
「故事鏈檢測」:決定兩個故事是否討論同一個主題。
前兩個任務主要關注事件檢測;其余三個任務用于事件集群。雖然這五項任務之間的關系很明顯,但每一項任務都需要一個不同的評價過程,并鼓勵采用不同的方法來解決特定問題。
綜述
元事件抽取研究綜述, 2019[1]
事件抽取是信息抽取領域的一個重要研究方向,在情報收集、知識提取、文檔摘要、知識問答等領域有著廣泛應用。寫了一篇對當前事件抽取領域研究得較多的元事件抽取任務的綜述。
首先,簡要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實現方法。然后,重點闡述了元事件抽取的主要任務,詳細介紹了元事件檢測過程,并對其他相關任務進行了概述。最后,總結了元事件抽取面臨的問題,在此基礎上展望了元事件抽取的發展趨勢。
An Overview of Event Extraction from Text, 2019[2]
文本挖掘的一個常見應用是事件抽取,它包括推導出與事件相關的特定知識,這些知識重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻回顧了用于各種事件抽取目的的文本挖掘技術。它提供了關于如何根據用戶、可用內容和使用場景選擇特定事件抽取技術的一般指南。
A Survey of Event Extraction from Text, 2019[3]
事件抽取的任務定義、數據源和性能評估,還為其解決方案方法提供了分類。在每個解決方案組中,提供了最具代表性的方法的詳細分析,特別是它們的起源、基礎、優勢和弱點。最后,對未來的研究方向進行了展望。
A Survey of Textual Event Extraction from Social Networks, 2017[4]
過去的十年中,在社交網絡上挖掘文本內容以抽取相關數據和有用的知識已成為無所不在的任務。文本挖掘的一種常見應用是事件抽取,它被認為是一個復雜的任務,分為不同難度的多個子任務。
在本文中,對現有的主要文本挖掘技術進行了概述,這些技術可用于許多不同的事件抽取目標。首先,介紹基于統計模型將數據轉換為知識的主要數據驅動方法。其次,介紹了基于專家知識的知識驅動方法,通常通過基于模式的方法來抽取知識。然后,介紹結合了數據驅動和知識驅動方法的主要現有混合方法。最后,比較社交網絡事件抽取研究,概括了每種提出的方法的主要特征。
A Survey of event extraction methods from text for decision support systems, 2016[5]
事件抽取是一種可以追溯到20世紀80年代的專門的信息抽取流程,由于大數據的出現以及文本挖掘和自然語言處理等相關領域的發展,事件抽取技術得到了極大的普及。然而,到目前為止,對這一特殊領域的概述仍然是難以捉摸的。
因此,總結了文本數據的事件抽取技術,劃分成數據驅動、知識驅動和混合方法三類,并對這些方法進行了定性評價。此外,還討論了從文本語料庫中抽取事件的常見決策支持應用。最后,對事件抽取系統的評價進行了闡述,并指出了當前的研究問題。
數據集
英文數據集
ACE2005 English Corpus[6]
ACE 2005多語種訓練語料庫包含了用于2005年自動內容抽取(ACE)技術評價的完整的英語、阿拉伯語和漢語訓練數據集。語料庫由語言數據聯盟(LDC)為實體、關系和事件注釋的各種類型的數據組成,該聯盟得到了ACE計劃的支持和LDC的額外幫助。
Rich ERE[7]
Rich ERE擴展了實體、關系和事件本體,并擴展了什么是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰,特別是關于在文檔內和文檔之間的事件提及和事件參數粒度變化,從而為創建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。
TAC2015[8]
TAC KBP事件跟蹤的目標是提取關于事件的信息,以便這些信息適合作為知識庫的輸入。軌跡包括用于檢測和鏈接事件的事件塊任務,以及用于提取屬于同一事件的事件參數和鏈接參數的事件參數(EA)任務。2015年TAC KBP賽事軌跡分為5個子任務
KBP2017[9]
TAC知識庫填充(KBP)的目標是開發和評估從非結構化文本中填充知識庫的技術。KBP包括為KBP開發特定組件和功能的組件跟蹤,以及稱為“冷啟動”的端到端KB構建任務,該任務通過在技術成熟時集成選定的組件從頭開始構建KB。與在冷啟動KB任務中執行的功能相比,組件跟蹤中所需的功能可以“更多”,也可以“更少”。組件軌道比冷啟動“更多”,因為每個軌道可能探索未立即集成到冷啟動任務中的試點任務; 他們是“少”,將組件集成到一個KB需要額外協調與和解各個組件之間的不匹配,這樣KB符合知識庫模式(例如,知識庫不能斷言一個實體是一個事件的“地方”如果它還斷言,實體是一個“人”)。
其他的還有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等
中文數據集
ACE2005 Chinese Corpus[10]
ACE 2005多語種訓練語料庫包含了用于2005年自動內容抽取(ACE)技術評價的完整的英語、阿拉伯語和漢語訓練數據集。語料庫由語言數據聯盟(LDC)為實體、關系和事件注釋的各種類型的數據組成,該聯盟得到了ACE計劃的支持和LDC的額外幫助。
未來展望與挑戰
數據層面
領域數據難構造,標注成本大
生成標注數據 or 無標注式事件抽取論元
模型層面
pipeline方式存在錯誤信息的傳遞,如何減小錯誤信息傳遞
論元之間的關聯關系的有效利用
性能評估層面
無標注數據的評價指標設計
責任編輯:xj
原文標題:超全必讀!事件抽取綜述(上)
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
數據
+關注
關注
8文章
7122瀏覽量
89356 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13605
原文標題:超全必讀!事件抽取綜述(上)
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論