什么是關系抽取
知識就是力量。使人類及機器能夠更好地利用知識是提升工作效率及實現(xiàn)人工智能的關鍵所在,也催生了包括知識表示、知識推理在內(nèi)的一系列研究。作為一切對知識的利用的基礎,我們首先要獲取知識,即知識抽取。
與我們一般通過閱讀書籍來獲取知識一樣,知識抽取的主要數(shù)據(jù)來源是文本(如新聞、小說、維基百科等)。通常來講,我們可以直接從文本中獲取的知識包含兩類:實體 (entity) 和關系 (relation) [1],這也對應了兩類知識抽取任務:實體識別 (entity recognition) 和關系抽取 (relation extraction)。下表給出了一個從句子中進行知識抽取的示例。在本文中,我們將主要關注「關系抽取」。
ID | 文本 | 實體 | 關系 |
---|---|---|---|
1 | 北京是中國的首都,具有悠久的歷史。 | 北京,中國 | 首都 |
2 | 比爾蓋茨是微軟的創(chuàng)始人。 | 比爾蓋茨,微軟 | 創(chuàng)始人 |
3 | 合肥位于安徽中部,是安徽省會。 | 合肥,安徽 | 位于,是省會 |
顧名思義,關系抽取的目的就是從文本數(shù)據(jù)中抽取出關系。直觀來講,關系必然存在于兩個(或多個實體)之間,比如在“合肥位于安徽中部”這一文本中,“位于”是“合肥”和“安徽”之間的關系,而撇開實體或者單看某單一實體時不會有關系這一概念的出現(xiàn)。從上表第三個例子又可以看出,”合肥“和”安徽“之間同時具有”位于“和”省會“兩個關系,即一個文本中的實體對之間事實上可以存在多個不同的關系。因此,在不考慮發(fā)現(xiàn)未知的新關系時,我們可以將關系抽取定義成一個「給定實體對」情況下的「多標簽分類」(multi-label classification) 任務,其中的標簽即為實體對之間的關系。
關系抽取的難點
從上一節(jié)對關系抽取任務的定義可以看出,要訓練一個關系抽取模型,數(shù)據(jù)中應同時包含對實體對和關系的標注。實體的標注對應了實體識別任務,目前可以通過較為成熟的命名實體識別 (NER) 等技術來進行高質(zhì)量自動標注。但關系的標注通常較為困難,一些句子中甚至不會顯式的出現(xiàn)定義好的關系的相近描述。如“合肥是安徽的省會”一句中事實上是蘊含了“位于”這一關系,但句子中并沒有顯式地出現(xiàn)“位于”的相關描述,我們需要通過一些人類的常識進行推斷。因此,在構建精確標注的關系抽取數(shù)據(jù)集時,大量人工標注通常是必不可少的,這就導致數(shù)據(jù)集的構建成本非常高昂。
此外,如 Mintz 等人指出,在特定領域的語料上進行關系標注而訓練得到的關系抽取模型通常具有偏置 (bias) [2]。比如,發(fā)表于 ACL2020 的一篇文章 [3] 中對關系抽取中存在的性別偏見 (Gender Bias) 進行了討論,感興趣的讀者可以去讀一下這篇文章。
在上文中我們提到了僅利用給定語料上精確標注數(shù)據(jù)集進行關系抽取模型訓練存在的兩個問題,即「標注成本高」和存在「偏置」。那么該怎樣解決這些問題呢?
標注成本高問題
如果我們繼續(xù)采用監(jiān)督學習 (supervised learning) 來對模型進行訓練,那這個問題就很難回避。盡管我們可以通過少樣本學習 (few shot learning) 等技術來充分利用已有的少量精確標注數(shù)據(jù),但這些標注本身就更容易產(chǎn)生偏置,這就會導致第二個問題變得更加突出。
因此,要想從根本上緩解標注成本高問題,我們應該考慮放棄監(jiān)督學習,轉(zhuǎn)而采用弱監(jiān)督、無監(jiān)督,或者探索一種新的學習方式。
偏置問題
偏置問題產(chǎn)生的主要原因是在若干個特定領域的標注語料庫上進行訓練,因此解決偏置問題最簡單粗暴的做法自然是選擇覆蓋面較廣的數(shù)據(jù)。幸運地是,我們并不缺少這種數(shù)據(jù):現(xiàn)在網(wǎng)絡、書刊等媒體上充斥著大量文本,這些文本獲取成本低且覆蓋領域廣,如果能夠有效利用這些數(shù)據(jù),那偏置問題將在很大程度上得到緩解。然而,這些數(shù)據(jù)又轉(zhuǎn)而面臨標注成本高問題。
遠程監(jiān)督
為同時解決以上兩個問題,Mintz 等人于 2009 年提出一種能夠在未經(jīng)精確標注的文本上進行關系抽取的新學習框架---「遠程監(jiān)督」(distant supervision) [2]。
何為遠程監(jiān)督
遠程監(jiān)督通過文本之外的、由大量實體對與關系構成的知識庫來對文本進行關系標注。其中,“遠程”可以理解為利用了文本之外的知識庫,而“監(jiān)督”可以理解為提供了關系標簽(即監(jiān)督信息)。
遠程監(jiān)督的基本假設
遠程監(jiān)督具有如下假設 [2]:
「如果一對實體之間具有某種關系,那么所有包含這對實體的句子都將表達這個關系的含義。」
因此,對于一個已經(jīng)識別出某實體對的句子,知識庫中所有該實體對之間具有的關系都可以被看成句子的標簽。
遠程監(jiān)督的基本流程
從上文介紹中可以看出,利用遠程監(jiān)督進行關系抽取模型的學習,我們只需要收集文本,在文本中識別實體對,然后與知識庫中進行比對以標注關系即可。需要注意,根據(jù)遠程監(jiān)督的基本假設,實體對之間所有能夠成立的關系都會成為句子的標簽。其基本流程可用下例來表示。
很明顯,遠程監(jiān)督方法極大地擴充了關系抽取能夠利用的數(shù)據(jù)量,其標注成本極低,覆蓋面可以極廣。如果標注的每個句子都是正確的,那么問題就歸結(jié)于一個相對較為簡單的文本分類任務。
但是,細心的讀者可能已經(jīng)發(fā)現(xiàn)了,我們假定存在給定實體對的句子就能表示這對實體之間的所有關系,這勢必會「引入錯誤的標注」。如“合肥”和“安徽”之間同時存在“位于”、“是省會”兩個關系,那對于“合肥位于安徽”這一句子,我們也會同時給他標注“位于”和“是省會”兩個關系。但很明顯,這句話并沒有表達”是省會“這一關系的含義。如果模型在這錯誤的標注上進行訓練并將這個模式“記住”,即”A位于B“蘊含了A是B的省會,那在遇到”黃山位于安徽“這一句子時,它就會認為”黃山“和”安徽“之間也具有”是省會“這一關系,這明顯是不合理的。因此,利用遠程監(jiān)督進行關系抽取的關鍵在于「如何消除錯誤標注樣本對模型訓練的影響」。
遠程監(jiān)督關系抽取模型
為了消除錯誤標注樣本的影響,遠程監(jiān)督關系抽取模型主要采用了兩種方法:錯誤標注樣本「篩除」法和錯誤標注樣本「轉(zhuǎn)正確標注」法。
在本節(jié)中,我們將從上述兩種方法出發(fā)簡單介紹幾個經(jīng)典的模型。受篇幅限制,我們在本文中僅介紹這些模型的核心思路,技術細節(jié)請參照原文。因此類模型大都考慮句子級文本,在下文中涉及到數(shù)據(jù)的描述時我們不再對“句子”和“文本”進行區(qū)分。
錯誤標注樣本篩除
PCNN
可以設想,在遠程監(jiān)督框架下,如果我們每次都將一個帶標注的句子作為模型訓練的樣本,那甚至可以說訓練過程中所使用的大部分樣本都是被錯誤標注的,這將會極大地影響模型在實際應用中的效果。
因此,Zeng 等 在 PCNN [4] 一文中提出將多實例學習 (multi-instance learning) 應用于遠程監(jiān)督中。其采用 expressed-at-least-once [5] 假設:
「當一對實體之間存在某個關系,那么包含這對實體的句子中至少有一個能夠表達這個關系。」
在上述假設下,Zeng 等不再將帶標注的句子逐個送入模型進行訓練,而是將具有相同實體對和關系標注的所有(也可以是一部分,但直觀上來講越多越好)句子看成一個整體,稱為「包 (bag)」,然后將標注的關系作為整個包的標簽進行訓練。如下圖
這樣一來,即便存在句子是被錯誤標注為了某關系的,但包中有這么多句子,我們總能找到一個句子是具有這個關系的吧!再退一步,就算包中所有句子都不表達所標注的關系,那結(jié)果也不會變得更壞了。因此從整體上來看,錯誤標注的幾率被降低。
顯然,接下來的工作就是如何「從包中選擇」出那個被正確標注的樣本來進行接下來的訓練了。PCNN 一文中采取的方式是挑選使得條件概率 p(包的標簽|句子) 最大的那個句子作為正確標注樣本,具體實現(xiàn)細節(jié)在此不再贅述。
其他模型
PCNN 每次只選取包中一個句子作為正確標注樣本的做法存在一個問題:如果包中有多個句子是被正確標注的,那么它們中的大部分都將被舍棄,從而造成了數(shù)據(jù)的浪費。為此,一系列基于「注意力機制」(attention mechanism) 的模型被提出 [6,7,8],它們通過對包中的句子進行注意力權重的分配來同時選擇多個句子。若包中存在多個被正確標注的句子,那么它們的注意力權重都會較高,從而都會在最終關系預測中發(fā)揮作用;此外,被正確標注的置信度(即注意力權重)越高,發(fā)揮的作用將越大。這種軟選擇 (soft selection) 機制有效地緩解了 PCNN 中硬選擇 (hard selection) 帶來的數(shù)據(jù)浪費問題,從而可能在相同樣本量的情況下達到更高的性能。
錯誤標注樣本轉(zhuǎn)正確標注
無論怎樣進行樣本的篩選,部分確定被錯誤標注的樣本總是可以被看成在數(shù)據(jù)集中剔除掉了。那么,這些錯誤標注的樣本真的對遠程監(jiān)督關系抽取不起作用嗎?(此句借用了 Shang 等論文 [9] 的題目)至少在一些論文的作者看來,答案是否定的。
比如,Shang 等 [9] 利用無監(jiān)督聚類的方法來為錯誤標注的樣本重新分配新的標簽;而 Wu 等 [10] 認為每個句子的現(xiàn)有標注和其應有標注之間存在映射關系,于是通過學習轉(zhuǎn)移矩陣來模擬該映射,進而將每個句子的標注都轉(zhuǎn)換成其應有標注。
通過將錯誤標注樣本轉(zhuǎn)換為正確標注,此類模型在一定程度上擴充了數(shù)據(jù)量,也為提升關系抽取的質(zhì)量提供了新的可能性。但要注意的是,轉(zhuǎn)換后的樣本標注可能還是錯的,有時仍需要進行進一步的篩選。
總結(jié)
在不考慮發(fā)現(xiàn)未知的新關系時,關系抽取本質(zhì)上是一個多標簽分類任務。但因任務的特殊性,關系抽取常面臨標注數(shù)據(jù)不足等問題。遠程監(jiān)督的提出在一定程度上解決了這些問題,但它同時也引入了錯誤標注樣本。因此,如何在存在錯誤標注樣本的數(shù)據(jù)上學習一個優(yōu)秀的分類器成為遠程監(jiān)督關系抽取模型的關鍵。
[1] Ji, S., Pan, S., Cambria, E., Marttinen, P., & Yu, P. S. (2020). A Survey on Knowledge Graphs: Representation, Acquisition and Applications. arXiv preprint arXiv:2002.00388.
[2] Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - ACL-IJCNLP ’09, 2(2005), 1003.
[3] Gaut, A., Sun, T., Tang, S., Huang, Y., Qian, J., ElSherief, M., Zhao, J., Mirza, D., Belding, E., Chang, K.-W., & Wang, W. Y. (2020). Towards Understanding Gender Bias in Relation Extraction. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1(1), 2943–2953.
[4] Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant supervision for relation extraction via Piecewise Convolutional Neural Networks. Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing, September, 1753–1762.
[5] Riedel, S., Yao, L., & McCallum, A. (2010). Modeling relations and their mentions without labeled text. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 6323 LNAI(PART 3), 148–163.
[6] Lin, Y., Shen, S., Liu, Z., Luan, H., & Sun, M. (2016). Neural relation extraction with selective attention over instances. 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers, 4, 2124–2133.
[7] Han, X., Yu, P., Liu, Z., Sun, M., & Li, P. (2018). Hierarchical relation extraction with coarse-to-fine grained attention. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018, 2236–2245.
[8] Ye, Z.-X., & Ling, Z.-H. (2019). Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 2810–2819.
[9] Shang, Y., Huang, H.-Y., Mao, X.-L., Sun, X., & Wei, W. (2020). Are Noisy Sentences Useless for Distant Supervised Relation Extraction? Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 8799–8806.
[10] Wu, S., Fan, K., & Zhang, Q. (2019). Improving Distantly Supervised Relation Extraction with Neural Noise Converter and Conditional Optimal Selector. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 7273–7280.
作者簡介:張占秋,2018年畢業(yè)于中國科學技術大學數(shù)學科學學院,獲得理學學士學位。現(xiàn)于中國科學技術大學電子工程與信息科學系的 MIRA Lab 實驗室攻讀博士生,師從王杰教授。研究興趣包括知識圖譜與自然語言處理。
責任編輯:xj
原文標題:遠程監(jiān)督在關系抽取中的應用
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
-
人工智能
+關注
關注
1792文章
47409瀏覽量
238924 -
機器學習
+關注
關注
66文章
8424瀏覽量
132765 -
深度學習
+關注
關注
73文章
5507瀏覽量
121272
原文標題:遠程監(jiān)督在關系抽取中的應用
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論