天天舔天天干天天操,在线观看深夜视频,夜夜爽一区二区三区精品

在科研領域，同行評審(review-rebuttal)是保證學術質量的關鍵環節。這一過程中的辯論和反駁非常具有挑戰性。傳統的同行評審生成任務通常集中在表面層面的推理。研究人員發現，考慮論點背后的態度根源和主題可以提高反駁的有效性。

今天介紹的這篇研究將心理學理論與辯論技術相結合，為計算辯論領域帶來了新的視角。具體來說，文章主要做了以下工作：

提出了一種全新的同行評審反駁生成任務——柔道辯論(Jiu-Jitsu Argumentation)，結合態度根源和主題進行辯論。
開發了JITSUPEER數據集，包含豐富的態度根源、主題和典型反駁案例。
為同行評審反駁生成提供了強大的基準線。

Paper: Exploring Jiu-Jitsu Argumentation for Writing Peer Review Rebuttals
Link: https://arxiv.org/pdf/2311.03998.pdf

做一個專門面向年輕NLPer的每周在線論文分享平臺

Jiu-Jitsu Argumentation

同行評審對于確?？茖W的高質量至關重要：作者提交研究成果，而審稿人則辯論應不應該接受其發表。通常評審后還會有一個反駁階段。在這里，作者有機會通過反駁論點來說服審稿人提高他們的評估分數。

這篇文章探索了同行評審領域中態度根源的概念，即在審查科學論文的標準時，識別審稿人的潛在信仰和觀點。

作者首先定義典型的rebuttal為：一種與潛在態度根源相一致并解決它們的反駁論點。它足夠通用，可以作為模板用于許多相同（態度根源-主題）審稿元組的實例，同時表達特定的反駁行動。

根據這個定義，作者提出了態度根源和主題引導的反駁生成任務：給定一個同行評審論點rev和一個反駁行動a，任務是根據rev的態度根源和主題生成典型反駁c。

下圖展示了如何通過一系列中間步驟，將審稿內容映射到標準的反駁上。這個審稿的主要觀點是關于清晰度和整體性。

JITSUPEER 數據集

為了評估反駁生成任務，作者構建了JITSUPEER數據集。該數據集專注于同行評審過程中的態度根源和主題，通過連接這些元素與基于特定反駁行動的典型反駁，實現了一種態度和主題引導的反駁生成方法。

態度根源與主題分布： 大多數審稿句子的態度根源是“實質性”（Substance），這也是擁有最多主題（29個）的根源。最常見的主題是方法論（Methodology）、實驗（Experiments）和相關工作（Related Work）。這一發現符合直覺，因為機器學習領域的審稿者通常非常關注方法論的穩健性和實用性。
典型反駁識別： 研究團隊為不同的態度根源和反駁行動識別了302個典型反駁。這些典型反駁可以映射到2,219個審稿句子（總共2,332個）。與“完成任務”（Task Done）這一反駁行動和“實質性”態度根源相關的典型反駁句子數量最多。
典型反駁示例： 在報告的表格中，研究團隊展示了一些典型反駁的例子。顯然，不同的態度根源-主題描述與不同的典型反駁相關聯。

起始數據集

作為JITSUPEER的基礎，研究團隊采用了名為DISAPERE的數據集，該數據集包含了2019年和2020年ICLR會議的審稿和相應反駁。這些審稿和反駁被細致地分解成單個句子，并被三層注釋標記，包括審稿方面和極性、審稿與反駁之間的鏈接，以及反駁行動的直接注釋。特別地，研究團隊關注于需要反駁的負面審稿句子，探索了審稿方面的使用，以此來體現社區共享的科學價值觀。

此外，研究者還使用了另一數據集PEER-REVIEW-ANALYZE，該數據集是一個基準資源，包含2018年ICLR的審稿，同樣配備了多層注釋。這些注釋包括了審稿句子所指目標論文的特定部分，如方法、問題陳述等，這些信息被視為態度主題的關鍵元素。這一研究提供了一個獨特的視角，通過關注論文的特定部分，進一步豐富了對工作的潛在信仰和主題信息的理解。

數據集豐富化

在這項研究中，研究團隊的目標是創建一個詳盡的語料庫，其中審稿句子不僅被標注為態度根源和主題，而且還與特定反駁行動的典型反駁句子相連接。為了實現這一目標，研究團隊采用了一系列方法來豐富DISAPERE數據集。

主題預測

首先，他們使用了PEER-REVIEW-ANALYZE數據集來預測態度主題，即審稿句子中所涉及的論文部分。研究團隊測試了不同的模型，包括通用模型和針對同行評審領域的專門模型，如BERT、RoBERTa和SciBERT。他們通過中間層的遮蔽語言模型(MLM)對這些模型進行了領域專門化處理，并在多個配置下進行了訓練和優化。研究團隊在變壓器的頂部添加了sigmoid分類頭，以進行微調，并對不同的學習率進行了網格搜索。他們基于驗證性能采用早期停止策略，并在PEER-REVIEW-ANALYZE數據集上評估了模型的性能。結果顯示，所有變壓器模型的性能都顯著優于基線模型，其中經過領域專門化處理的SciBERTds_neg模型表現最佳。

根源–主題集群描述

接下來，研究團隊對每個態度根源–主題集群添加額外的自然語言描述，旨在提供比單純標簽元組更豐富的人類可解釋性。他們通過比較自動和手動生成的摘要來完成這一步驟。

摘要生成：在自動摘要方面，研究團隊采用了領域特定的SciBERTds_neg模型對句子進行嵌入，并根據余弦相似度選擇最具代表性的審稿句子。

評估： 研究團隊通過展示摘要和相應的集群句子給注釋者，讓他們選擇更好地描述集群的摘要。他們使用INCEpTION開發了注釋界面，并雇用了額外的計算機科學博士生進行標注。通過測量注釋者間的一致性，研究團隊確保了摘要的質量和準確性。

確定典型反駁

研究團隊為每個態度根源-主題集群確定典型的反駁，這是通過考慮特定的反駁行動來完成的。這一過程分為三個步驟：首先，減少候選典型反駁的數量；其次，手動比較縮減后候選集中的反駁句子對；最后，基于成對比較的分數計算排名，并選擇排名最高的候選作為典型反駁。

候選集減少：為了縮減典型反駁的候選集，研究團隊采用了兩種適用性分類器得出的分數。首先是一個二元分類器，基于自行訓練，用于預測一個反駁句子作為典型反駁的整體適用性。其次，考慮到典型反駁的原型性質，他們還使用了SPECIFICITELLER模型來獲得特定性分數。該模型是一個預訓練的基于特征的模型，用來評估句子是通用的還是具體的。通過這兩個步驟，研究團隊最終將候選集縮減至1,845個候選。

手動標注：在手動決定典型反駁方面，研究團隊設計了一套方法：展示來自特定態度根源和主題集群的≤5個審稿句子，并將這些信息與特定的反駁行動配對。然后，他們隨機選擇兩個反駁句子，這些句子與集群中的任一審稿句子相關，并對應于所選的反駁行動。標注者需要從這對反駁句子中選擇更好的一個。對于每個（態度根源、態度主題、反駁行動）三元組的n個反駁句子，成對標注設置需要對n(n ? 1)/2對句子進行評判。研究團隊雇傭了兩名計算機科學博士生進行這項任務。

典型反駁選擇:研究團隊基于收集的偏好通過注釋圖排名得出最佳反駁。具體來說，他們為每個根源-主題-行動集群創建了一個有向圖，圖中的節點是反駁句子。邊的方向基于偏好：如果A優于B，則創建A → B的邊。然后，他們使用PageRank算法對節點進行排名，每條邊的權重為0.5。排名最低的節點，即很少或沒有入邊的節點，被選為典型反駁。這種方法不僅提高了數據集的質量和實用性，也為未來在類似領域的研究提供了一個有力的方法論參考。

實驗分析

研究團隊提出了三項新穎的任務，以在其數據集上進行測試。分別是典型反駁評分，審稿意見生成，典型反駁生成。

典型反駁評分

這個任務的目標是給定一個自然語言描述d和一個反駁行動a，對所有反駁r（與特定態度根源-主題集群相關）進行評分，以表明r作為該集群的典型反駁的適用性。

這個任務被視為一個回歸問題。只考慮有典型反駁的反駁行動和態度根源-主題集群的組合（50個態度根源-主題集群描述，3,986個反駁句子，其中302個是典型反駁）。使用之前的PageRank分數作為模型訓練的預測目標。

結果

從下表可以看出，大多數領域專門化模型的表現優于它們的非專門化對應模型。

SciBERTds_all 在所有方面都有最高的皮爾遜相關系數，然而，BERTds_neg 在排名分數方面表現最佳。
使用其他與集群相關的信息，如代表性審稿句子，以及對描述進行釋義，可能會帶來進一步的收益，這將留待未來研究探究。

審稿描述生成

給定一條同行評審句子rev，任務是生成該句子所屬集群的抽象描述d 。

實驗設置

數據集由2,332個審稿句子組成，每個句子都屬于144個集群之一，并且每個集群都有相關的描述。
采用70/10/20的訓練-驗證-測試分割。
使用以下序列到序列（seq2seq）模型：BART (bart-large)、Pegasus (pegasus-large) 和 T5 (t5-large)。
對訓練周期數e∈{1, 2, 3, 4, 5}和學習率λ∈{1 * 10^-4, 5 * 10^-4, 1 * 10^-5}進行網格搜索，批量大小b = 32。
使用帶有5個束的束搜索作為解碼策略。
在完全微調設置以及零次和少次（few-shot）場景中進行實驗（隨機選擇次數）。
根據詞匯重疊和語義相似性（ROUGE-1 (R-1), ROUGE-2 (R-2), ROUGE-L (R-L) 和 BERTscore）報告性能。

結果

R-1分數展示在下圖中，完整結果在表中。

有趣的是，所有模型都表現出非常陡峭的學習曲線，在僅看到一個例子時，根據大多數指標，性能大致翻了一番。
在zero shot和one shot設置中，BART在所有方面表現出色。
但在完全微調模型時，T5的表現最佳。研究團隊推測這可能與T5更大的容量有關（BART有406M參數，而T5有770M參數）。

典型反駁生成

給定一條審稿句子rev 和一個反駁a，任務是生成典型反駁c。

實驗設置

從2,219個有至少一個行動的典型反駁的審稿句子開始。
輸入為將rev和a與分隔符連接在一起，產生17,873個獨特的審稿-反駁行動實例。
使用與前面實驗相同的超參數、模型和度量標準，并進行完全微調以及零次和少次預測實驗。
對這些實驗，應用70/10/20的訓練-驗證-測試分割，以獲取訓練-驗證-測試部分，以典型反駁（302個反駁與17,873個獨特實例相連）為層次。

結果

模型間的差異與之前的發現一致：BART在零次和少次設置中表現出色，T5雖然起點最低，但很快趕上其他模型。

模型的表現比以前更加陡峭，并在兩次嘗試后就似乎達到了一個平臺。研究團隊認為這與典型反駁的有限多樣性有關，以及他們決定在典型反駁層次上進行的訓練-測試分割——任務是生成模板，并對這些模板進行概括。看到其中只有幾個模板后，模型很快就能抓住一般的要點，但無法超越它們所展示的內容。

結語

在這項工作中，研究團隊探索了基于審稿者潛在態度驅動的同行評審中的柔術式論證，為此他們創建了JITSUPEER數據集。這個新穎的數據集包含與典型反駁相連的審稿句子，這些典型反駁可以作為撰寫有效同行評審反駁的模板。團隊在這個數據集上提出了不同的自然語言處理任務，并對多種基線策略進行了基準測試。JITSUPEER的注釋將公開提供，研究團隊相信這個數據集將成為促進計算論證領域中有效同行評審反駁寫作研究的寶貴資源。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據集

數據集

+關注

關注
4

文章
1209

瀏覽量
24768
自然語言處理

自然語言處理

+關注

關注
1

文章
619

瀏覽量
13603
LLM

LLM

+關注

關注
0

文章
298

瀏覽量
360

原文標題：用LLM生成反駁：首先洞察審稿人的心理，再巧妙回應！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

恩智浦如何在邊緣設備上部署LLM

近來，與AI相關的周期性熱點幾乎都圍繞著大語言模型 (LLM) 和生成式AI模型，這樣的趨勢反映出這些話題近年來日益增強的影響力和普及程度。與大語言模型和生成式AI模型相關的應用涵蓋了廣泛的領域，從

發表于 11-29 09:39 ?444次閱讀

什么是LLM？LLM在自然語言處理中的應用

所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術，尤其是變換器（Transformer）架構。變換器模型因其自注意力（Self-Attention）機制而聞名，這種機制使得模型能夠捕捉文本中的長距

發表于 11-19 15:32 ?775次閱讀

如何訓練自己的LLM模型

訓練自己的大型語言模型（LLM）是一個復雜且資源密集的過程，涉及到大量的數據、計算資源和專業知識。以下是訓練LLM模型的一般步驟，以及一些關鍵考慮因素：定義目標和需求：確定你的LLM將用

發表于 11-08 09:30 ?703次閱讀

LLM技術對人工智能發展的影響

隨著人工智能技術的飛速發展，大型語言模型（LLM）技術已經成為推動AI領域進步的關鍵力量。LLM技術通過深度學習和自然語言處理技術，使得機器能夠理解和生成自然語言，極大地擴展了人工智能的應用范圍

發表于 11-08 09:28 ?465次閱讀

使用LLM進行自然語言處理的優缺點

自然語言處理（NLP）是人工智能和語言學領域的一個分支，它致力于使計算機能夠理解、解釋和生成人類語言。大型語言模型（LLM）是NLP領域的一項重要技術，它們通過深度學習和大量的數據訓練，能夠執行各種

發表于 11-08 09:27 ?572次閱讀

亞馬遜云科技賦能Shulex打造基于生成式AI的客服和消費者洞察

"Shulex"）在亞馬遜云科技的技術賦能下，打造基于生成式AI的"AI Agent客服機器人"和"VOC Insight消費者洞察"等產品解決?案，重塑跨境電商行業客戶服務與運營交互方式。這些創新

發表于 08-13 20:38 ?316次閱讀

LLM預訓練的基本概念、基本原理和主要優勢

理解和生成自然語言的能力，為各種NLP任務提供了強大的支持。本文將詳細介紹LLM預訓練的基本概念、基本原理以及主要優勢，并附上相關的代碼示例。

發表于 07-10 11:03 ?1191次閱讀

大模型LLM與ChatGPT的技術原理

與機器的交互方式。這些技術通過深度學習和自然語言生成（Natural Language Generation, NLG）的結合，實現了對復雜語言任務的高效處理。本文將深入探討大模型LLM和ChatGPT的技術原理，并通過代碼示例展示其應用。

發表于 07-10 10:38 ?953次閱讀

llm模型和chatGPT的區別

LLM（Large Language Model）是指大型語言模型，它們是一類使用深度學習技術構建的自然語言處理（NLP）模型。LLM模型可以處理各種語言任務，如文本生成、文本分類、機器翻譯等。目前

發表于 07-09 09:55 ?1232次閱讀

LLM模型的應用領域

在本文中，我們將深入探討LLM（Large Language Model，大型語言模型）的應用領域。LLM是一種基于深度學習的人工智能技術，它能夠理解和生成自然語言文本。近年來，隨著計算能力的提高

發表于 07-09 09:52 ?664次閱讀

什么是LLM？LLM的工作原理和結構

隨著人工智能技術的飛速發展，大型語言模型（Large Language Model，簡稱LLM）逐漸成為自然語言處理（NLP）領域的研究熱點。LLM以其強大的文本生成、理解和推理能力，在文本生

發表于 07-02 11:45 ?8419次閱讀

AI初創公司Alembic攻克LLM虛假信息難題

近日，AI領域的創新者Alembic公司宣布了一項重大突破：其全新AI系統成功解決了LLM（大型語言模型）中的虛假信息生成問題。這一成就標志著長久以來困擾LLM的“幻覺”問題被徹底攻克。

發表于 06-18 14:26 ?562次閱讀

英特爾攜手騰訊云用CPU打造LLM時代數據中樞，共筑AGI基建

英特爾攜手騰訊云用CPU打造LLM時代數據中樞，共筑AGI基建

發表于 05-27 11:53 ?550次閱讀

解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運行

LLM 的發展仍保持著驚人的速度。盡管現有的 LLM 已經具備強大的功能，但通過 OpenVINO? 的優化和推理加速，可以對這些復雜模型的執行進行精煉，實現更快、更高效的處理，減少計算開銷并最大限度發揮硬件潛力，這將直接導致 LLM

發表于 05-10 10:36 ?564次閱讀

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個問題隨著LLM規模的增大愈發嚴重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個解碼步只能生成一個token。這導致GPU計算資源利用率

發表于 01-29 15:54 ?3047次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

用LLM生成反駁：首先洞察審稿人的心理，再巧妙回應！

Jiu-Jitsu Argumentation