色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

三種pooling策略的對比

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-09-25 16:46 ? 次閱讀

?一、背景介紹

BERT和RoBERTa在文本語義相似度等句子對的回歸任務上,已經達到了SOTA的結果。但是,它們都需要把兩個句子同時喂到網絡中,這樣會導致巨大的計算開銷:從10000個句子中找出最相似的句子對,大概需要5000萬(C100002=49,995,000)個推理計算,在V100GPU上耗時約65個小時。這種結構使得BERT不適合語義相似度搜索,同樣也不適合無監督任務(例如:聚類)。

本文基于BERT網絡做了修改,提出了Sentence-BERT(SBERT)網絡結構,該網絡結構利用孿生網絡和三胞胎網絡結構生成具有語義意義的句子embedding向量,語義相近的句子其embedding向量距離就比較近,從而可以用來進行相似度計算(余弦相似度、曼哈頓距離、歐式距離)。該網絡結構在查找最相似的句子對,從上述的65小時大幅降低到5秒(計算余弦相似度大概0.01s),精度能夠依然保持不變。這樣SBERT可以完成某些新的特定任務,例如相似度對比、聚類、基于語義的信息檢索。

二、模型介紹

1)pooling策略

SBERT在BERT/RoBERTa的輸出結果上增加了一個pooling操作,從而生成一個固定大小的句子embedding向量。實驗中采取了三種pooling策略做對比:

直接采用CLS位置的輸出向量代表整個句子的向量表示

MEAN策略,計算各個token輸出向量的平均值代表句子向量

MAX策略,取所有輸出向量各個維度的最大值代表句子向量

三個策略的實驗對比效果如下:

可見三個策略中,MEAN策略是效果最好的,所以后面實驗默認采用的是MEAN策略。

2)模型結構

為了能夠fine-tune BERT/RoBERTa,文章采用了孿生網絡和三胞胎網絡來更新權重參數,以達到生成的句子向量具有語義意義。該網絡結構依賴于具體的訓練數據,文中實驗了下面幾種結構和目標函數:

Classification Objective Function:

這里將embedding向量u和v以及它們之間的差向量拼接在一起,組成一個新的向量,乘以權重參數Wt∈R3n*k,n表示向量的維度,k是分類標簽數量。

優化的時候采用交叉熵損失函數。

Regression Objective Function:

兩個句子嵌入向量u和v的相似度計算結構如下:

采取MAE(mean squared error)損失作為優化的目標函數。

Triplet Objective Function:

給定一個主句a、一個正面句子p和一個負面句子n,三元組損失調整網絡,使得a和p之間的距離小于a和n之間的距離。數學上,我們最小化以下損失函數:

s表示a、p、n的句子嵌入向量,||·||表示距離,邊緣參數ε表示sp與sa的距離至少比sn近ε。

3)模型訓練

文中訓練結合了SNLI(Stanford Natural Language Inference)和Multi-Genre NLI兩種數據集。SNLI有570,000個人工標注的句子對,標簽分為矛盾、蘊含、中立三種;MultiNLI是SNLI的升級版,格式和標簽都一樣,有430,000個句子對,主要是一系列口語和書面語文本。文本蘊含關系描述的是兩個文本之間的推理關系,其中一個文本作為前提(premise),另一個文本作為假設(hypothesis),如果根據前提P能夠推理得出假設H,那么就說P蘊含H,記做P->H。參考樣例如下:

實驗時,每個epoch作者用3-way softmax分類目標函數對SBERT進行fine-tune,batch_size=16,采用Adam優化器,learning rate=2e-5,pooling策略是MEAN。

三、評測-語義文本相似度(Semantic Textual Similarity-STS)

在評測的時候,這里采用余弦相似度來比較兩個句子向量的相似度。

1)無監督STS

本次評測采用的是STS 2012-2016 五年的任務數據、STS benchmark數據(2017年構建)、SICK-Relatedness數據,這些數據集都是標好label的句子對,label表示句子之間的相互關系,范圍為0~5,樣例如下:

無監督評測不采用這些數據集的任何訓練數據,直接用上述訓練好的模型來計算句子間的相似度,然后通過斯皮爾曼等級相關系數來衡量模型的優劣。結果如下:

結果顯示直接采用BERT的輸出結果,效果挺差的,甚至不如直接計算GloVe嵌入向量的平均值效果好;采用本文的孿生網絡在NLI數據集上fine-tuning后的模型效果明顯要好很多,SBERT和SRoBERTa差異不大。

2)有監督STS

有監督STS數據集采用的是STS benchmark(簡稱STSb)數據集,就是上面提到的2017年抽取構建的,是當前比較流行的有監督STS數據集。它主要來自三個方面:字幕、新聞、論壇,包含8,628個句子對,訓練集5,749,驗證集1,500,測試集1,379。BERT將句子對同時輸入網絡,最后再接一個簡單的回歸模型作為輸出,目前在此數據集上取得了SOTA的效果。

上述實驗結果分為三塊:

not trained for STS:表示直接采用的是跟上面無監督評測一樣的模型,結果也一樣;

Trained on STS benchmark:表示沒有使用NLI數據集,直接在STSb訓練數據集上利用孿生網絡結構構建回歸模型fine-tuning;

Trained on NLI data+STS benchmark:表示利用孿生網絡先在NLI數據集上訓練分類模型學習句子向量表示,然后在STSb訓練集上再利用回歸模型再次學習句子embedding,相當于利用兩種數據集進行了兩次fine-tuning。

評測的時候都是采用的STSb的測試集進行評測。可以看到,最后一種訓練方式表現最好,尤其單純的BERT架構有較大的提升幅度。

四、評測-SentEval

SentEval是一個當前流行的用來評測句子embedding質量的工具,這里句子embedding可以作為邏輯回歸模型的特征,從而構建一個分類器,并在test集上計算其精度。這里利用SentEval工具在下面幾個遷移任務上對比SBERT與其它生成句子embedding的方法:

MR(movie review):電影評論片段的情感預測,二分類

CR(product review):顧客產品評論的情感預測,二分類

SUBJ(subjectivity status):電影評論和情節摘要中句子的主觀性預測,二分類

MPQA(opinion-polarity):來自新聞網的短語級意見極性分類,二分類

SST(Stanford sentiment analysis):斯坦福情感樹庫,二分類

TREC(question-type classification):來自TREC的細粒度問題類型分類,多分類

MRPC:Microsoft Research Paraphrase Corpus from parallel news sources,釋義檢測。

實驗結果顯示,SBERT生成的句子向量似乎能夠很好捕獲情感信息,在MR、CR、SST上都有較大的提升;BERT在之前的STS數據集上表現比較差,但是在SentEval上卻有了不錯的效果表現,這是因為STS數據集上利用余弦相似度衡量句子向量,余弦相似度對于向量的每一個維度都是同等的,然而SentEval是利用邏輯回歸分類器來評測,這樣某些維度會對最終的分類結果產生影響。

所以,BERT的直接輸出結果無論是CLS位置的還是平均embedding都不適合用來計算余弦相似度、曼哈頓距離和歐式距離。雖然BERT在SentEval上面表現稍微好一些,但是基于NLI數據集的SBERT還是達到了SOTA的效果。

五、消融研究

為了對SBERT的不同方面進行消融研究,以便更好地了解它們的相對重要性,我們在SNLI和Multi-NLI數據集上構建了分類模型,在STSb數據集上構建了回歸模型。在pooling策略上,對比了MEAN、MAX、CLS三種策略;在分類目標函數中,對比了不同的向量組合方式。結果如下:

在pooling策略上,MEAN效果最好;在向量組合模式上,只有在分類訓練的時候才使用,結果顯示element-wise的|u-v|影響最大。

責任編輯:xj

原文標題:Sentence-BERT: 一種能快速計算句子相似度的孿生網絡

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5504

    瀏覽量

    121244
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13357

原文標題:Sentence-BERT: 一種能快速計算句子相似度的孿生網絡

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    三種封裝形式下的400G光模塊概述

    本文主要就三種封裝形式(QSFP-DD、OSFP、QSFP112)的400G光模塊做了簡單的梳理,從為什么會有400G光模塊問世?400G光模塊在三種封裝形式下的各個具體型號(以短距離為主,最遠2km),三種封裝形式的
    的頭像 發表于 11-11 11:35 ?404次閱讀
    <b class='flag-5'>三種</b>封裝形式下的400G光模塊概述

    什么是PID調節器的三種模式

    (Proportional)、積分(Integral)和微分(Derivative)。這三種控制動作可以單獨使用,也可以組合使用,形成三種基本的控制模式:比例控制(P)、積分控制(I)和微分控制(D)。 1. 比例控制(P) 比例控制是PID調節器中最基本的控制模式。在比
    的頭像 發表于 11-06 10:38 ?499次閱讀

    I2S有左對齊,右對齊跟標準的I2S三種格式,那么這三種格式各有什么優點呢?

    大家好,關于I2S格式,有兩個疑問請教一下 我們知道I2S有左對齊,右對齊跟標準的I2S三種格式,那么這三種格式各有什么優點呢? 而且對于標準的I2S格式,32FS傳輸16bit的數據,48fs傳輸24bit的數據,最低位會移動到右聲道,是否意味著該數據被丟棄了?還是有
    發表于 10-21 08:23

    基本放大電路有哪三種

    基本放大電路是電子電路中至關重要的組成部分,它能夠將輸入信號放大到所需的電平,以便后續電路進行處理。在電子工程中,基本放大電路主要有三種形式,分別是共發射極放大電路(簡稱共射放大電路)、共基極放大
    的頭像 發表于 10-15 11:07 ?1633次閱讀

    mosfet的三種工作狀態及工作條件是什么

    的工作狀態及工作條件對于理解和設計相關電路至關重要。以下是MOSFET的三種主要工作狀態及其工作條件的介紹。 一、MOSFET的三種工作狀態 MOSFET根據其柵源電壓(VGS)和漏源電壓(VDS
    的頭像 發表于 10-06 16:51 ?2170次閱讀

    單片機的三種總線結構

    單片機的三種總線結構包括地址總線(Address Bus, AB)、數據總線(Data Bus, DB)和控制總線(Control Bus, CB)。這三種總線在單片機內部及與外部設備之間的數據傳輸
    的頭像 發表于 09-10 11:32 ?3186次閱讀

    放大電路的三種組態可以放大什么

    放大電路是電子學中非常重要的組成部分,它們可以將輸入信號的幅度放大,以滿足各種應用的需求。放大電路的三種基本組態包括共射放大電路、共集放大電路和共基放大電路。每種組態都有其特定的應用和特點。以下
    的頭像 發表于 07-09 14:31 ?1216次閱讀

    晶體管的三種工作狀態

    晶體管作為現代電子技術的基石,其工作狀態直接影響電子設備的性能和功能。晶體管通常具備三種基本的工作狀態:截止狀態、放大狀態和飽和狀態。這三種狀態不僅決定了晶體管在電路中的行為,也反映了晶體管作為半導體器件的基本特性。本文將詳細闡述晶體管的這
    的頭像 發表于 05-28 14:53 ?1546次閱讀

    簡述斬波電路的三種控制方式

    斬波電路是一常見的電力電子器件,廣泛應用于直流電壓調節、電壓變換、電流變換等領域。它可以實現對電流和電壓的控制,以滿足不同的電氣設備的需求。斬波電路的控制方式主要有三種:脈寬調制控制、頻率調制控制
    的頭像 發表于 03-11 15:22 ?4284次閱讀

    VMware虛擬機的三種網絡模式

    VMware虛擬機的三種網絡模式 VMware是一廣泛使用的虛擬機軟件,可以創建和管理多個虛擬機。在使用VMware虛擬機時,網絡設置非常重要,因為它決定了虛擬機如何與物理網絡或其他虛擬機進行通信
    的頭像 發表于 02-04 11:17 ?2039次閱讀

    運放的三種應用

    運放在電路中主要存在三種應用,放大器,濾波器,振蕩器。再這三種應用電路中,運放的兩大特點虛短虛斷仍然成立嗎? 在阻尼振蕩器中,工作過程是否按照我描述的這樣,在反相輸入端加一個近似鋸齒波的電流源,正半
    發表于 01-26 16:18

    運動控制的三種控制方式

    非標項目中有非常多的運動控制,根據系統配置、電機類型以及精度需求的不同主要有三種控制方式:開環控制、半閉環控制、全閉環控制。
    的頭像 發表于 01-23 09:48 ?1522次閱讀
    運動控制的<b class='flag-5'>三種</b>控制方式

    嵌入式Linux開發的三種方式

    嵌入式Linux開發主要有三種方式:裸機開發、SDK開發和驅動開發。
    的頭像 發表于 01-22 14:22 ?989次閱讀

    示波器的三種觸發模式

    示波器的觸發模式有自動模式(Auto)、正常模式(Norm)和單次模式(Single)三種。在測不同信號時,采用不同的觸發模式,才能準確測量到所需要的波形。下面以我司靜電發生器TEH-10030
    的頭像 發表于 01-18 08:12 ?2677次閱讀
    示波器的<b class='flag-5'>三種</b>觸發模式

    3極管的三種工作狀態條件

    極管是一重要的電子元器件,廣泛應用于電子電路中。它具有放大、開關等多種功能,在各個領域中都有著重要的應用。為了深入理解極管的工作原理,我們需要掌握其三種基本工作狀態條件。本文將詳
    的頭像 發表于 01-15 17:37 ?2949次閱讀
    主站蜘蛛池模板: 樱花之恋动漫免费观看| 国产高潮国产高潮久久久久久| 国产亚洲精品成人a在线| 亚洲精品AV中文字幕在线| 九九精品视频一区二区三区| 亚洲综合中文| 欧美日韩一二区旡码高清在线| 纯肉合集(高H)| 野花视频在线观看免费| 男人插女人动态图| 国产精品久人妻精品| 中文字幕在线观看国产| 三级全黄的视频| 久久精品热只有精品| 成人网站国产在线视频内射视频| 亚洲高清视频在线| 欧美s00老人| 国内精品自产拍在线少密芽| 99久久热视频只有精品| 午夜婷婷精品午夜无码A片影院| 久久青青热| 国产精品毛片在线视频| 最新果冻传媒在线观看免费版| 日本19xxxx撤尿| 精品久久久久久电影网| 成人毛片大全| 中文字幕人成人乱码亚洲AV| 少妇仑乱A毛片| 蜜桃精品成人影片| 国产亚洲欧美日韩综合综合二区| 97在线播放| 亚洲欧美国产旡码专区| 日本国产精品无码一区免费看| 黄色片网站下载| 动漫美女被爆挤奶歪歪漫画| 在线观看国产精美视频| 无修肉动漫在线观看影片| 尿了么app| 久久久久青草大香线综合精品| 国产成人aaa在线视频免费观看| 最近韩国HD免费观看国语|