色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

預訓練模型技術在金融事件分析中有何作用

深度學習自然語言處理 ? 來源:瀾舟科技 ? 作者:馬永亮 ? 2022-09-02 10:39 ? 次閱讀

金融事件分析背景

在金融領域,事件是理解信息的有效載體,如何更好的理解和分析事件一直是金融領域研究的熱點。預訓練模型技術在翻譯、搜索、生成等領域都體現了它強大的能力,應用在金融事件分析中也取得非常顯著的進步

040271bc-29e5-11ed-ba43-dac502259ad0.png

圖 1

金融事件分析的主要任務有三塊:

第一塊是非結構化數據智能解析。金融領域的信息多數以非結構化的數據形式存在,比如PDF。從非結構數據中解析出重要的、準確的、格式語義清楚的文本對后面的事件分析至關重要,它能有效減少噪音數據、臟數據對模型的干擾,提高結果的準確度。

第二塊是事件語義理解。這里主要涉及事件類型的檢測、事件要素的抽取和事件之間的關系,在這些對事件的理解基礎之上。

第三塊就可以構建事件圖譜并進行事件圖譜的分析,包括事件鏈分析和事件預測。

為了完成這些任務,這里面涉及到的技術主要有兩個:金融事件體系和金融事件圖譜。

金融領域,有不同的主體,不同的主體也有不一樣的場景,為了能最好的支持這些主體和場景,需要建立相應的事件體系,這里面既有領域知識的人工工作,也結合技術做無監督的歸納學習,從而能夠提供場景化、完整性和可擴展的事件體系。金融事件圖譜把事件分析技術集成在了一起,抽取事件和事件關系,學習事件的表示,然后結合圖的信息進行預測。

有了這些技術和能力,我們對事件的分析,讓我們能夠回答諸如“這是一家什么公司的事?是一件什么事?人們對事情評價的情緒如何?為什么會發生?”等等。能夠回答這些問題對金融領域的很多場景都是非常有價值的。

金融事件體系

0452660e-29e5-11ed-ba43-dac502259ad0.png

圖 2

圖 2 是一個金融事件體系的例子。我們將金融事件分為兩級:

第一級根據事件的主體分為5類,分別是企業、股票、行業和宏觀、債券和基金。這些都是金融領域非常重要和常見的對象。

第二級將每種類型主體事件的再進行的細分,比如企業這個一級事件類型下面有股東減持事件。那么最后,一個二級事件類型將包含這個事件相關的主要元素。再拿股東減持為例,減持的時間,哪個股東減持,減持每股交易價格等等。

一個定義完整、對場景有針對性的事件體系,是事件分析最后能夠達成目標的重要前提。比如股東減持事件沒有被減持的股票,你就沒有辦法了解當前發生的事情影響了那家公司。

1. 事件圖譜

047a32f6-29e5-11ed-ba43-dac502259ad0.png

圖 3

事件圖譜首先是個「圖」,一個圖是由節點和邊組成。在事件圖譜中,節點可以是事件,也可以是事件的元素對應的實體,比如公司。邊就是事件與事件間的關系,實體-事件間的關系,實體與實體間的關系。

我們來看一個例子,如圖 3 所示,這是一篇報道亞馬遜收購iRobot公司的新聞。這篇報道中,一共有四個事件,其中兩個收購事件,一個合作事件和一個創立公司事件,將這些事件連接起來的關系是時間順序關系。除了事件,這里面還有其他一些實體,比如公司和時間。這些實體和時間之間也由相應的關系連接。這樣看來,一個非結構化網頁信息,通過解析出正文文本和段落,抽取事件和關系,建立事件圖譜,最終就轉化成了一個結構化的信息。

結構化的信息,更容易進行理解和處理,可以應用在搜索、問答這樣的信息獲取場景,或者風險監控、量化投資分析這樣的金融業務場景。

2. 事件鏈

04c8c65a-29e5-11ed-ba43-dac502259ad0.png

圖 4

事件鏈是事件圖譜的一種特殊的、簡化的形式,它主要關注一個參與者發生的一系列事件與事件之間的關系,是一個偏序事件集合。

圖 4 例子中,事件圖譜簡化為兩個事件鏈,每個事件鏈中只有事件節點,其他信息都是節點的屬性信息。這種簡化對于將事件圖譜應用落地是有很大幫助的,它的關系和節點類型簡化后,對圖譜的學習和處理都是只針對事件一種節點和事件間的一種關系。

那么基于事件鏈,如何對事件進行預測呢?

05123452-29e5-11ed-ba43-dac502259ad0.png

圖 5

基于事件鏈的時間預測模型主要有三部分,首先是對事件的表示,歷史事件和要預測的候選事件的表示是將事件觸發詞和事件元素拼接起來表示,為了更好的捕捉歷史事件信息,也將歷史事件的上下文表示和歷史事件的表示融合起來,這些表示被輸入第二部分,一個LSTM網絡,LSTM網絡可以將事件之間順序信息(哪些事件發生在哪些事件之前等)融入到事件的表示中。

最后將LSTM編碼后的每個事件信息傳入動態記憶網絡,這個網絡的設計是為了在事件鏈中對不同的事件,根據他他們與候選事件的關系,進行加權。也就是說跟候選事件聯系重要的具有更高的權重,最后計算給定歷史事件的情況下,候選事件發生的概率。

3. 事件問答

基于事件鏈的事件預測能夠提供信息對還沒有發生的情況做判斷,事件分析也能夠幫助人們更好的了解已經發生的情況,比如事件問答。

0531acd8-29e5-11ed-ba43-dac502259ad0.png

圖 6

事件問答支持用自然語言對事件進行語義查詢。比如查詢阿里巴巴的高管變動。通過對語料進行事件抽取,建立一個結構化事件庫,不同的事件類型存放在不同的表中。利用NL2SQL技術對問題理解后轉化為數據庫查詢SQL語句,找到對應的表和符合條件的事件返回。

事件分析框架

0570c63e-29e5-11ed-ba43-dac502259ad0.png

圖 7

綜合前面介紹的各種事件分析技術和應用場景,一個完整的事件分析框架支持4大能力:搜索某個事,搜索某個主體的事件,結合產業鏈搜索等業務數據搜索相應主體的公司,以及根據搜索到的一個主體的已經發生的時間預測可能發生的事件。

瀾舟事件分析技術的最新進展

接下來介紹我們在事件分析領域上的一些工作,時間所限,今天我將主要介紹兩個技術:事件檢測和事件抽取。

1. 事件檢測

05a1bd52-29e5-11ed-ba43-dac502259ad0.png

圖 8

事件檢測是從文本中檢測是否有事件以及事件的類型。通常還會抽取對應事件類型的觸發詞。例如,“公司副董事長、副總經理黃世霖因個人事業考慮將辭去公司副董事長、董事、董事會戰略委員會委員和副總經理職務”,事件檢測的結果是一個“企業-高管變動”事件,觸發詞是“辭去”。

事件檢測的挑戰一個來自事件觸發詞的標注,通常的事件檢測任務要求訓練數據有觸發詞的標注,標注工作量大。另外一個是事件類型的變化,有的時候是增加新的類型,有的時候是對原有類型進行合并或者拆分,這些變化都涉及到標注數據和模型的改變。

064cfc80-29e5-11ed-ba43-dac502259ad0.png

圖 9

針對上述挑戰,我們使用了基于提示(也就是prompt)的事件檢測模型。事件檢測的prompt模板中拼接了四種信息,一種是事件類型,另外一個是事件的觸發詞,觸發詞可以有多個,還有就是事件的描述信息和事件元素的角色,這兩個信息會融合在一個字段中。

根據某個事件類型的prompt,模型在輸入文本上進行token的BIO標簽分類,抽取相應事件的觸發詞。如果針對當前的prompt類型能夠抽出觸發詞,則對應的事件類型和觸發詞就得到了。

對于zero-shot的情況,定義相應事件類型的prompt模型則可以進行事件檢測了。為了對比SOTA方法的方便,我們在英文數據集ACE05上進行了實驗。實驗顯示,對比另外兩個事件模型,我們的方法在全量訓練數據和zero-shot和few-shot上都有明顯的優勢(見圖 9 右側表格)。

2. 事件抽取

事件抽取任務是事件檢測任務的基礎上做了功能擴展,它不僅檢測了事件類型、觸發詞,還將事件的詳細信息抽取出來作為事件元素。例如,“格力電器9月9日宣布回購完成,累計成交金額為150億元,其中最高成交價為56.11元/股,最低成交價為40.21元/股”。除了事件類型和觸發詞外,抽取結果還包括像時間,交易金額等事件元素。

在一個完善的金融事件體系中,要完整的定義一個事件類型所涉及的元素,這樣在抽取中才能盡可能將一個文本中的事件的完整信息抽取出來,否則一個不完整的事件抽取結果意味著在結構化過程中流失了。

067eaf0a-29e5-11ed-ba43-dac502259ad0.png

圖 10

事件抽取的挑戰主要來自于訓練數據的標注,有些事件要素的標注會和領域知識緊密相關,可能需要標注人員有一定的專業知識。這種標注成本高,難以擴展到大量的數據和事件類型上。

針對上述挑戰,我們基于生成式抽取的方法,提出了一些改進的技術,在ACE05上達到SOTA的效果,并且顯著提升了模型的zero-shot和few-shot能力。

06ecf172-29e5-11ed-ba43-dac502259ad0.png

圖 11

基于模板的生成式事件抽取將事件抽取轉換為一個生成任務,這種方法的一個好處就是可以將模板當成是prompt,通過改寫模板支持新的事件類型,或者改變已有的事件類型,比如增加事件元素。提示信息為GTEE提供了語義指導,以便利用標簽語義更好地捕獲事件要素,提示中編碼的事件描述使GTEE能夠使用附加的弱監督信息。prompt和context輸入到encoder后,decoder段輸出填充之后的模板,根據模板得到事件的元素信息。GTEE做為這種方法的一個代表,證明了基于生成式的事件抽取方法也可以做到SOTA,超過傳統的基于序列標注的方法。

07104064-29e5-11ed-ba43-dac502259ad0.png

圖 12

但是,現有的生成式事件抽取方法還存在幾個不足,第一,觸發詞和事件元素之間的聯系較弱,他們都定義在模板中,沒有顯示的對應關系。第二,模型推理時,針對一個輸入文本,每個事件類型都要進行一次推理,推理的計算量和事件類型成正比。事件檢測和事件抽取采用了pipeline的方式組織,導致錯誤傳播,不能聯合學習優化。

為解決以上不足,我們提出基于觸發詞檢測增強的生成式事件抽取,如下圖所示:

0754bfdc-29e5-11ed-ba43-dac502259ad0.png

圖 13

在TDE-GTEE中,事件檢測模塊提供觸發詞和事件類型信息,在輸入中標注觸發詞得到新的輸入,并且根據事件類型信息選擇相應的模板,新的輸入和事件模板輸入concat后的表示結合事件檢測模型中觸發詞的表示輸入bart模型,最終得到填充后的模板,進而得到事件元素信息。

這里事件觸發詞在輸入中的標注,以及觸發詞表示和prompt表示融合,都是在加強觸發詞與輸入和模板中信息的交互,同時,檢測模型過濾了無關的事件類型模板,推理效率更高。最后,檢測模型和事件抽取模型融入一個端到端的模型,并聯合訓練。

079c8f6a-29e5-11ed-ba43-dac502259ad0.png

圖 14

基于以上改進,TDE-GTEE在ACE05和ERE上都達到了SOTA水平,如圖 14 表格所示。

07bfcb92-29e5-11ed-ba43-dac502259ad0.png

圖 15

為支持zero-shot 和few-shot,在TDE-GTEE的基礎上,我們將前面介紹過的基于prompt的事件檢測模塊集成進來。同樣在ACE05上對比GTEE等模型,TDE-GTEE的 zero-shot和few-shot 事件抽取效果也達到了SOTA水平。

總結

事件分析在金融領域廣泛,應用場景眾多,一個完善的覆蓋金融事件體系和核心技術的金融事件分析框架,為金融領域的信息理解提供了強有力的支持。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    767

    瀏覽量

    44173
  • 編碼
    +關注

    關注

    6

    文章

    946

    瀏覽量

    54869
  • PDF
    PDF
    +關注

    關注

    1

    文章

    169

    瀏覽量

    33733

原文標題:基于預訓練模型的金融事件分析及應用

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    KerasHub統一、全面的訓練模型

    深度學習領域正在迅速發展,處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這一動向的前沿。Keras 擁有專用的內
    的頭像 發表于 12-20 10:32 ?120次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發表于 11-25 09:29 ?1773次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b><b class='flag-5'>作用</b>

    AI大模型訓練數據來源分析

    AI大模型訓練數據來源廣泛且多元化,這些數據源對于構建和優化AI模型至關重要。以下是對AI大模型訓練數據來源的
    的頭像 發表于 10-23 15:32 ?742次閱讀

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    神經網絡,特別是訓練的基礎模型研究得到了廣泛的應用,但其仍然主要依賴于大量樣本上的批量式訓練。本報告將探討實現
    的頭像 發表于 10-18 08:09 ?239次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    蘋果揭示AI新動向:Apple Intelligence模型谷歌云端芯片上訓練

    蘋果公司最新的技術論文中披露了一項重要信息,其全新的人工智能系統Apple Intelligence所依賴的模型并非傳統上大型科技公司首選的NVIDIA GPU,而是選擇了谷歌設計
    的頭像 發表于 07-30 15:00 ?556次閱讀

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵
    的頭像 發表于 07-11 10:12 ?1108次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過海量無標簽數據上進行
    的頭像 發表于 07-11 10:11 ?448次閱讀

    pytorch中有神經網絡模型

    當然,PyTorch是一個廣泛使用的深度學習框架,它提供了許多訓練的神經網絡模型。 PyTorch中的神經網絡模型 1. 引言 深度學習是一種基于人工神經網絡的機器學習
    的頭像 發表于 07-11 09:59 ?723次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?1111次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?2935次閱讀

    大語言模型:原理與工程時間+小白初識大語言模型

    種語言模型進行訓練,此處訓練為自然語言處理領域的里程碑 分詞技術(Tokenization)
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型訓練

    數據格式的轉換、數據字段的匹配和整合等。通過數據級凈化,可以進一步提高數據的質量和可用性,為后續的數據分析和建模提供更有價值的數據支持。 得到了大語言模型的數據之后,就是對其進行
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然語言處理
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    訓練和微調,直到模型的部署和性能評估。以下是對這些技術的綜述: 模型架構: LLMs通常采用深層的神經網絡架構,最常見的是Transf
    發表于 05-05 10:56

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是一種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且效率上更勝一籌。
    的頭像 發表于 02-29 17:37 ?810次閱讀
    主站蜘蛛池模板: 国产精品人妻无码77777| 亚洲精品第一综合99久久| 欧美高清另类video| 欧美激情社区| 女人高潮了拔出来了她什么感觉 | 99精品国产在热久久| 2020年国产理论| 粉嫩小护士| 黄色网址在线看| 女仆翻身大作战| 双性诱受灌满哭求饶BL| 亚洲人成网77777色在线播放| 最近韩国HD免费观看国语| 4484在线观看视频| caoporon超碰在线视频| 久久re亚洲在线视频| 琪琪电影午夜理论片YY6080 | 免费在线观看一区| 香蕉97超级碰碰碰碰碰久| 2019在秋霞理论| 黄页网址大全免费观看| 色琪琪丁香婷婷综合久久| 34g污奶绵uk甩奶| 精品一区二区三区在线成人| 玩弄放荡人妻一区二区三区| 99热这里只有精品6| 九色PORNY丨视频入口| 日韩欧美 亚洲视频| 中文字幕 亚洲 有码 在线| 精品午夜中文字幕熟女人妻在线| 色欲AV精品一区二区入口| 中文无码第3页不卡av| 久久99免费视频| 亚洲欧洲日本无在线码播放| 国产手机在线亚洲精品观看| 小寡妇水真多好紧| 国产成人精品自线拍| 日本午夜精品一区二区三区电影| 97精品少妇偷拍AV| 免费三级现频在线观看| 99精品国产免费久久久久久下载 |