色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于e-CARE的因果推理相關任務

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:哈工大SCIR ? 2022-05-16 16:21 ? 次閱讀

論文名稱:e-CARE: a New Dataset for Exploring Explainable Causal Reasoning

論文作者:杜理,丁效,熊凱,劉挺,秦兵原創作者:杜理出處:哈工大SCIR

1. 簡介

因果推理是人類的一項核心認知能力。借助因果推理能力,人類得以理解已觀測到的各種現象,并預測將來可能發生的事件。然而,盡管當下的各類因果推理模型已經在現有的因果推理數據集上取得了令人印象深刻的性能,然而,這些模型與人類的因果推理能力相比仍存在顯著差距。

造成這種差距的原因之一在于,當下的因果推理模型往往僅能夠從數據中捕獲到經驗性的因果模式,但是人類則能夠進一步追求于對于因果關系的相對抽象的深入理解。如圖1中例子所示,當觀察到原因事件: 將石頭加入鹽酸造成結果:石頭溶解 之后,人類往往不會停留在經驗性地觀察現象這一層面,而會進一步深入思考,為什么這一現象能夠存在?通過種種手段,最終得到一個概念性的解釋,即酸具有腐蝕性。值得注意的是,這一對于因果現象的概念性解釋是超越具體的現象本身,能夠解釋一系列相關現象的。借助此類解釋信息,模型將可能產生對于因果命題的更加深入的理解。

雖然這種概念性解釋在因果推理過程中具有相當的重要性,迄今的因果推理數據集中尚未具備這一信息以支撐訓練更強的、更接近人類表現的因果推理模型。為此,我們提供了一個人工標注的可解釋因果推理數據集( explainable CAusal REasoning dataset, e-CARE)。e-CARE數據集包含超過2萬個因果推理問題,這使得e-CARE成為目前最大的因果推理數據集。并且對于每個因果推理問題,提供了一個自然語言描述的,有關于因果關系為何能夠成立的解釋。下表提供了一個e-CARE數據集的例子。

依托于e-CARE數據集,在傳統的多項選擇式的因果推理任務之外,我們還進一步提出了一個因果解釋生成任務,即給定一個因果事件對,模型需要為這個因果事件對生成合理的解釋,并提出了一個新指標衡量解釋生成的質量。

Key Value
Premise Tom holds a copper block by hand and heats it on fire.
Ask-for Effect
Hypothesis 1 His fingers feel burnt immediately. ()
Hypothesis 2 The copper block keeps the same. ()
Conceptual Explanation Copper is a good thermal conductor.

2. 基于e-CARE的因果推理相關任務

基于e-CARE數據集,我們提出了兩個任務以評價模型因果推理能力:

  1. 因果推理任務
  2. 解釋生成任務

2.1 因果推理:

這一任務要求模型從給定的兩個候選hypothesis中選出一個,使得其與給定的premise構成一個合理的因果事實。例如,如下例所示,給定premise "Tom holds a copper block by hand and heats it on fire.", hypothesis 1 "His fingers feel burnt immediately."能夠與給定premise構成合理的因果事件對。

{
"index":"train-0",
"premise":"Tomholdsacopperblockbyhandandheatsitonfire.",
"ask-for":"effect",
"hypothesis1":"Hisfingersfeelburntimmediately.",
"hypothesis2":"Thecopperblockkeepsthesame.",
"label":1
}

2.2 解釋生成:

這一任務要求模型為給定的由<原因,結果>構成的因果事件對生成一個合理解釋,以解釋為何該因果事件對能夠存在。例如, 給定因果事件對<原因: Tom holds a copper block by hand and heats it on fire. 結果: His fingers feel burnt immediately.>, 模型需要生成一個合理的解釋,如"Copper is a good thermal conductor."。

{
"index":"train-0",
"cause":"Tomholdsacopperblockbyhandandheatsitonfire.",
"effect":"Hisfingersfeelburntimmediately.",
"conceptual_explanation":"Copperisagoodthermalconductor."
}

3. 數據集統計信息

  • 問題類型分布
Ask-for Train Test Dev Total
Cause 7,617 2,176 1,088 10881
Effect 7,311 2,088 1,044 10443
Total 14,928 4,264 2,132 21324
  • 解釋信息數量
Overall Train Test Dev
13048 10491 3814 2012

4. 解釋生成質量評價指標CEQ Score

當用于評價解釋生成的質量時,經典的生成質量自動評價指標,如BLEU,Rough等僅從自動生成的解釋與給定的人工標注的解釋的文本或語義相似度來評判解釋生成的質量。但是,理想的解釋生成質量評價指標需要能夠直接評價自動生成的解釋是否恰當地解釋了給定的因果事實。為此,我們提出了一個新的解釋生成質量評價指標CEQ Score (Causal Explanation Quality Score)。

簡言之,一個合理的解釋,需要能夠幫助預測模型更好理解因果事實,從而更加合理準確地預測給定事實的因果強度。其中因果強度是一個[0,1]之間的數值,衡量給定因果事實的合理性。因此,對于確證合理的因果事實,其因果強度應該等于1.

因此,我們可以通過衡量生成的解釋能夠為因果強度的度量帶來何種程度的增益,來衡量解釋生成的質量。因此,我們將CEQ定義為:

756fe008-d460-11ec-bce3-dac502259ad0.png

其中,和分別是原因與結果,是因果強度預測模型度量的原始的因果強度,是給定解釋后,因果預測模型給出的因果強度。

值得注意的是,這一指標依賴于具體的因果強度預測方式的選取,以及如何將解釋信息融入因果強度預測過程。在本文中,我們選擇基于統計的、不依賴具體模型的因果強度預測方式CausalNet[5]。CausalNet能夠依賴大語料上的統計信息,得到給定原因與結果間的因果強度。而為將解釋信息融因果強度預測過程以得到,我們定義(其中+為字符串拼接操作):

7581f644-d460-11ec-bce3-dac502259ad0.png

5. 數據集下載與模型性能評價

5.1 數據集下載

模型的訓練與開發集可在以下鏈接下載: https://github.com/Waste-Wood/e-CARE/files/8242580/e-CARE.zip

5.2 模型性能評測

為提升方法結果的可比性,我們提供了leaderboard用以評測模型性能:https://scir-sp.github.io/

6. 實驗結果

6.1 因果推理

表1 因果推理實驗結果

75979e68-d460-11ec-bce3-dac502259ad0.png

針對多項選擇式的因果推理任務,我們利用一系列預訓練語言模型(均為base-sized版本)進行了實驗。我們使用準確率衡量模型性能。其中,ALBERT取得了最高性能,但是和人類表現(92%)仍有較大差距。這顯示e-CARE所提供的因果推理任務仍為一相對具有挑戰性的任務。

6.2 解釋生成

表2 解釋生成實驗結果

75b66c12-d460-11ec-bce3-dac502259ad0.png

為測試模型在給定因果事實后生成合理的解釋的能力,我們利用經典的GRU-Seq2Seq模型以及GPT2進行了解釋生成實驗。其中,我們使用自動評價指標AVG-BLEU、ROUGH-l、PPL,以及人工評價衡量生成質量。由表2可得,雖然相比于GRU-Seq-Seq,GPT2性能有明顯提高,但是和人類生成的解釋質量相比仍存在巨大差距,尤其在人工評價指標上。這顯示,深度理解因果事實,并為此生成合理解釋仍是相當具有挑戰性的任務。而無法深度理解因果事實也可能是阻礙當前的因果推理模型性能進一步提高的主要因素之一。另一方面,這也一定程度顯示所提出的解釋生成質量評價指標CEQ的合理性。

7. 潛在研究方向

7.1 作為因果知識庫

因果知識對于多種NLP任務具有重要意義。因此,e-CARE中包含的因果知識可能能夠提升因果相關任務上的模型性能。為了驗證這一點,我們首先在e-CARE上微調了e-CARE模型,并將微調后的模型(記作BERTE)分別 遷移至因果抽取數據集EventStoryLine[1]、兩個因果推理數據集BECauSE 2.0[2]和COPA[3],和一個常識推理數據集CommonsenseQA[4]上,并觀察模型性能。如下表所示,e-CARE微調后的模型在四個因果相關任務上均表現出了更好性能。這顯示e-CARE能夠提供因果知識以支撐相關任務上的性能。

75d5ae60-d460-11ec-bce3-dac502259ad0.png

表3 知識遷移實驗結果

7.2 支持溯因推理

前期研究將解釋生成過程總結為一個溯因推理過程。并強調了溯因式的解釋生成的重要性,因為它可以與因果推理過程相互作用,促進對因果機制的理解,提高因果推理的效率和可靠性。

例如,如下圖所示,人們可能會觀察到 C1: 將巖石加入鹽酸中 導致 E1: 巖石溶解。通過溯因推理,人們可能會為上述觀察提出一個概念性解釋,即酸具有腐蝕性。之后,可以通過實驗驗證,或者外部資料來確認或糾正解釋。通過這種方式,關于因果關系的知識可以被引入到因果推理過程中。如果解釋得到證實,它可以通過幫助解釋和驗證其他相關的因果事實,來進一步用于支持因果推理過程,例如 C2:將鐵銹加入硫酸可能導致 E2:鐵銹溶解。這顯示了概念解釋在學習和推斷因果關系中的關鍵作用,以及 e-CARE 數據集在提供因果解釋并支持未來對更強大的因果推理系統的研究中可能具有的意義。

76396a90-d460-11ec-bce3-dac502259ad0.png

圖1 溯因推理與因果推理關系示意圖

8. 結論

本文關注于因果推理問題中的可解釋性。針對這一點,本文標注了一個可解釋因果推理數據集e-CARE,這一數據集包含21K因果推理問題,并為每個問題提供了一個解釋因果關系為何能夠成立的自然語言形式的解釋。依托于這一數據集,我們進一步提出了一個因果推理和一個因果生成任務。實驗顯示,當前的預訓練語言模型在這兩個任務上仍面臨較大困難。

歡迎大家共同推動因果推理領域的研究進展!

原文標題:ACL'22 | e-CARE: 可解釋的因果推理數據集

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 推理
    +關注

    關注

    0

    文章

    8

    瀏覽量

    7268
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689

原文標題:ACL'22 | e-CARE: 可解釋的因果推理數據集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發表于 12-11 20:13 ?91次閱讀
    如何開啟Stable Diffusion WebUI模型<b class='flag-5'>推理</b>部署

    阿里云開源推理大模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現了開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。 據評測數據顯示,QwQ預覽版本已具備研究生水平的科學
    的頭像 發表于 11-29 11:30 ?532次閱讀

    使用ReMEmbR實現機器人推理與行動能力

    、對其進行推理并以結構化的格式返回輸出結果。由于經過大量預訓練,只需要為這些模型提供新的提示或進行參數高效微調,它們就能輕松適應不同的視覺相關任務
    的頭像 發表于 11-19 15:37 ?226次閱讀
    使用ReMEmbR實現機器人<b class='flag-5'>推理</b>與行動能力

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有的關于高效
    的頭像 發表于 11-15 11:45 ?338次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中的故障檢測對其可維護性和安全性至關重要。然而,系統監測變量往往具有復雜的聯系,很難表征它們的關系并提取有效的特征。本文開發了一種基于因果路徑的層次圖卷積注意力網絡(HGCAN),以提高復雜
    的頭像 發表于 11-12 09:52 ?252次閱讀
    一種基于<b class='flag-5'>因果</b>路徑的層次圖卷積注意力網絡

    定時器技術:Air780E如何革新定時任務管理?

    今天講的是關于Air780E如何革新定時任務管理的內容,希望大家有所收獲。
    的頭像 發表于 11-07 13:50 ?215次閱讀
    定時器技術:Air780<b class='flag-5'>E</b>如何革新定時<b class='flag-5'>任務</b>管理?

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發表于 10-29 14:12 ?387次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發任務中,還是在高并發推理場景下,都能夠確保項
    的頭像 發表于 10-27 10:03 ?207次閱讀
    NVIDIA助力麗蟾科技打造AI訓練與<b class='flag-5'>推理</b>加速解決方案

    【飛凌嵌入式OK3576-C開發板體驗】rkllm板端推理

    /to/rkllm_model 通過以上步驟,即可在開發板上正常啟動推理任務。執行結果如下: 可以看到模型能夠正常進行推理,但是0.5B參數量的模型推理結果還差強人意。
    發表于 08-31 22:45

    當系統鬧脾氣:用「因果推斷」哄穩技術的心

    背景 系統穩定性問題往往涉及復雜的因果關系。例如,一個系統的崩潰可能由多個因素引起,包括硬件故障、軟件bug、業務配置、外部攻擊或其他操作不當等。理解這些因素之間的因果關系對于系統穩定性建設至關重要
    的頭像 發表于 08-14 10:42 ?268次閱讀
    當系統鬧脾氣:用「<b class='flag-5'>因果</b>推斷」哄穩技術的心

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、解碼方法優化、底層優化、分布式并行
    的頭像 發表于 07-24 11:38 ?856次閱讀

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    能力,使其能夠應對更復雜和抽象的語言任務。神經網絡的前向傳播和反向傳播算法是其核心技術。前向傳播中,模型根據輸入文本的上下文和先前知識生成相關輸出;而在反向傳播中,模型通過調整參數使輸出更接近預期結果
    發表于 05-04 23:55

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務和基準,用于評估LLMs在不同領域(如常識、數學推理、常識推理、事實
    發表于 03-19 14:32 ?354次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠?

    基于LLM的表格數據的大模型推理綜述

    面向表格數據的推理任務,在計算機領域,特別是自然語言處理(Natural Language Processing,NLP)領域的研究中扮演著重要角色[1]。該任務要求模型在給定一個或多個表格的情況下,按照
    發表于 01-08 09:56 ?1578次閱讀
    基于LLM的表格數據的大模型<b class='flag-5'>推理</b>綜述

    ChatGPT是一個好的因果推理器嗎?

    因果推理能力對于許多自然語言處理(NLP)應用至關重要。最近的因果推理系統主要基于經過微調的預訓練語言模型(PLMs),如BERT [1] 和RoBERTa [2]。
    的頭像 發表于 01-03 09:55 ?842次閱讀
    ChatGPT是一個好的<b class='flag-5'>因果</b><b class='flag-5'>推理</b>器嗎?
    主站蜘蛛池模板: 国产亚洲美女在线视频视频| 野花韩国视频中文播放| 暖暖日本免费播放| 久久亚洲精品无码A片大香大香 | 色一欲一性一乱一区二区三区| 男助理憋尿PLAY灌尿BL出去| 久久深夜视频| 久久国语露脸精品国产| 久久99这里只有精品| 狠狠国产欧美在线视频| 狠狠撸亚洲视频| 99久久久精品免费观看国产| 4hu四虎免费影院www| 97久久超碰中文字幕| 99久久蜜臀AV免费看蛮| DASD-700美谷朱里| freevideoshd| 成人在线观看视频免费| 国产99久久九九免费精品无码| 国产69精品久久久久乱码| 国产精品久久久久久日本| 国产婷婷午夜无码A片| 狠狠色狠色综合曰曰| 久久久精品久久久久久| 久久亚洲网站| 欧美同志高清vivoeso| 日产精品久久久久久久蜜殿| 午夜AV内射一区二区三区红桃视| 小SAO货水真多把你CAO烂| 亚洲美女视频高清在线看| 又黄又粗又爽免费观看| 99精品日韩| 国产AV电影区二区三区曰曰骚网| 国产精品自在拍在线播放| 精品久久久久久久久免费影院 | 国产偷国产偷亚洲高清app| 好大好硬好湿再深一点网站| 久久性综合亚洲精品电影网| 男人扒开添女人屁股| 双性大乳浪受噗呲噗呲h总| 亚洲国产日韩制服在线观看 |