色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

我們嘗試提出一些新的觀點和假設來解釋BERT的強大功能

電子工程師 ? 來源:lp ? 2019-03-20 16:47 ? 次閱讀

BERT是google最近提出的一個自然語言處理模型,它在許多任務檢測上表現非常好。如:問答、自然語言推斷和釋義而且它是開源的。因此在社區中非常流行。

下圖展示了不同模型的GLUE基準測試分數(不同NLP評估任務的平均得分)變化過程。

盡管目前還不清楚是否所有的GLUE任務都非常有意義,但是基于Trandformer編碼器的通用模型(Open-GPT、BERT、BigBird),在一年內縮小了任務專用模型和人類的差距。

但是,正如Yoav Goldberg所說,我們并不能完全理解Transformer模型是如何編碼句子的:

Transformer和RNN模型不同,它只依賴于注意力機制。除了標志每個單詞的絕對位置嵌入,它沒有明確的單詞順序標記。對注意力的依賴可能會導致Transformer模型在處理語法敏感的任務中相對于RNN(LSTM)模型性能表現較差——因為RNN模型是直接根據詞序訓練模型,并且明確地追蹤句子的狀態。

一些文章深入地研究了BERT的技術細節。這里,我們將嘗試提出一些新的觀點和假設來解釋BERT的強大功能。

一種語言理解的框架:句法解析/語義合成

人類能夠理解語言的方式是一個由來已久的哲學問題。在20世紀,兩個互補的原理闡明了這個問題:

“語義合成性原理”表明復合詞的含義來源于單個詞的含義以及這些單詞的組合方式。根據這個原理,名詞短語“carnivorous plants” (食肉植物)的含義可以通過“carnivorous”(食肉的)這個詞的含義和“plant”(植物)這個詞的含義組合得到。

另一個原理是“語言的層次結構”。它表明通過句法解析,句子可以分解為簡單的結構——比如從句。從句又可以分解為動詞短語和名詞短語等等。

句法解析層次結構以及遞歸是從組成成分中提取含義,直到達到句子級別,這對于語言理解是一個很有吸引力的方法。考慮到這個句子“Bart watched a squirrel with binoculars” (Bart用雙筒望遠鏡觀察松鼠),一個好的句法解析會返回以下句法解析樹:

“Bart watched a squirrel with binoculars”基于結構的句法解析樹

這個句子的含義可根據連續的語義合成推導出來(將“a”和“squirrel” 語義合成,“watched”和“a squirrel” 語義合成, “watched a squirrel”和“ with binoculars” 語義合成),直到句子的含義完全得到。

向量空間可以用來表示一個單詞、短語和其他成分。語義合成的過程可以被構造為一個函數f,f將(“a”,”squirrel”) 語義合成為“a squirrel”的一個有意義向量,表示為“a squirrel”= f(“a”,”squirrel”)。

相關鏈接:

http://csli-lilt.stanford.edu/ojs/index.php/LiLT/article/view/6

但是,語義合成和句法解析都是很難的任務,而且它們互相需要。

顯然,語義合成依賴句法解析的結果來決定哪些應該被語義合成。但是即使有正確的輸入,語義合成也是一個困難的問題。例如,形容詞的含義會隨著單詞的不同而變化:“white wine” (白葡萄酒)的顏色實際上是黃色的,但是一只白貓(white cat)就是白色的。這種現象被稱作聯合語義合成(co-composition)。

相關鏈接:

http://gl-tutorials.org/wp-content/uploads/2017/07/Pustejovsky-Cocompositionality-2012.pdf

“white wine” (白葡萄酒)和 “white cat” (白貓)在二維語義空間中的表征(空間的維度是顏色)

對于語義合成,還需要更廣泛的上下文。舉個例子,“green light”(綠燈)單詞的語義合成要根據語境來定?!癵reen light”可以表示授權或者實際的綠燈。一些習慣用語需要經驗記憶而不是簡單地組合它們。因此,在向量空間中進行語義合成需要強大的非線性函數,例如深度神經網絡,也具有記憶功能。

相關鏈接:

https://arxiv.org/abs/1706.05394

相反,為了在一些特定情形下奏效,句法解析操作可能需要語義合成。考慮下面這個句子的句法解析樹(和之前相同的句子) “Bart watched a squirrel with binoculars”

另一個"Bart watched a squirrel with binoculars"的基于結構的句法解析樹

盡管它在語法上有效,但是句法解析操作導致了句子的畸形翻譯,Bart watches (with his bare eyes) a squirrel holding binoculars(Bart(用他的裸眼)看到一個舉著望遠鏡的小松鼠)。

因此,需要進行一些單詞語義合成才能判斷“松鼠舉著望遠鏡”是不可能的!一般地說,在獲得句子正確結構前,必須要一些消除歧義的操作和背景知識的整合。但是這種操作也可以通過一些句法解析和語義合成的形式完成。

一些模型嘗試將句法解析和語義合成的操作同時結合應用到實踐中。

相關鏈接:

https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf

然而,它們依賴于受限制的人工注釋的標準句法解析樹設置,并且性能還沒有一些更簡單的模型好。

BERT是如何實現句法解析/語義合成操作的

我們假設Transformer創新地依賴這兩個操作(句法解析/語義合成):由于語義合成需要句法解析,句法解析需要語義合成,Transformer便迭代地使用句法解析和語義合成的步驟,來解決它們相互依賴的問題。

實際上,Transformer由一些堆疊層組成(也叫做block)。每個block塊由一個注意力層以及一個應用在每個輸入元素的非線性函數組成。

我們試著展示Transformer的這些組件與句法解析/語義合成框架之間的聯系:

一個視為連續的句法解析和語義合成步驟

將注意力視為一個句法解析步驟

在BERT中,一個注意力機制讓輸入序列(比如:由單詞或子單詞組成的元素)中的每個元素聚焦到其它的元素上。

出于解釋的目的,我們根據這篇文章(https://medium.com/dissecting-bert/dissecting-bert-part2-335ff2ed9c73)使用的可視化工具來深入研究注意力頭,并在預訓練的的BERT模型上驗證我們的假設。在下面對注意力頭的解釋中,單詞“it”參與到其它所有元素中,看起來它會關注“street”和“animal”這兩個單詞。

可視化第0層1號注意力頭上的注意力值,用于標記“it”

BERT為每一層使用12個獨立的注意力機制。因此,在每一層,每個token可以專注于其他標記的12個不同側面。由于Transformers使用許多不同的注意力頭(12 * 12 = 144用于基礎BERT模型),每個頭部可以專注于不同類型的成分組合。

我們忽略了與“[CLS]”和“[SEP]”標記相關的注意力值。我們嘗試使用了幾個句子,發現想不過度解釋它們的結果很難。所以你可以隨意用幾個句子在這個colab notebook上測試我們的假設。請注意,在圖中,左側序列“注意”右側序列。

相關鏈接:

https://colab.research.google.com/drive/1Nlhh2vwlQdKleNMqpmLDBsAwrv_7NnrB

第2層1號注意力頭似乎基于相關性來生成成分

可視化第2層1號頭上的注意力值

更有趣的是,在第3層中,9號頭似乎顯示出更高級別的成分:一些token注意到相同的中心詞(if,keep,have)。

第3層11號頭的注意力值的可視化,一些標記似乎注意到特定的中心詞(例如,have,keep)

在第5層中,由6號注意力頭執行的匹配似乎集中于特定組合,特別是涉及動詞的組合。像[SEP]這樣的特殊標記似乎用于表示沒有匹配。這可以使注意力頭能夠檢測適合該語義合成的特定結構。這種一致的結構可以用于語義合成函數。

可視化第5層6號頭注意力值,更關注組合(we,have),(if,we),(keep,up)(get,angry)

可以用連續的淺層的句法解析層表示解析樹,如下圖所示:

若干注意力層如何表示成樹結構

在檢查BERT注意力頭時,我們沒有找到這種清晰的樹結構。但是Transformers仍有可能表示它們。

我們注意到,由于編碼是在所有層上同時執行的,因此很難正確解釋BERT正在做什么。對指定層的分析只是對它自己的下一層和前一層才有意義。句法解析也分布在各注意力頭上。

下圖展示了兩個注意力頭的情況下,BERT注意力更為實際的樣子:

BERT中注意力值更實際的展現

然而,正如我們之前所見,句法解析樹是一種高級別的展示,它可能建立在更復雜的“根莖”結構上。例如,我們可能需要找出代詞所引用的內容,以便對輸入進行編碼(共指消解)。在其他情況下,消除歧義也可能需要全文背景。

令人驚訝的是,我們發現一個注意力頭(第6層0號頭)似乎實際上執行了共指消解。

相關鏈接:

https://medium.com/dissecting-bert/dissecting-bert-part2-335ff2ed9c73

一些注意力頭似乎為每一個單詞(第0層0號頭)都提供全文信息

在第6層的頭0號頭中發生的共指消解

每個單詞都會注意句子中的所有其它單詞。這可能允許對每個單詞建立一個粗略的語境。

語義合成階段

在每一層中,所有注意力頭的輸出被拼接并被送到可以表示復雜非線性函數(表達語義合成所需要的)的神經網絡。

依靠來自注意力頭的結構化輸入,該神經網絡可以執行各種語義合成。 在先前顯示的第5層中,6號注意力頭可以引導模型執行以下語義合成:(we,have),(if,we),(keep,up)(get,angry)。該模型可以非線性地組合它們并返回語義合成表示。因此,多注意力頭可以作為輔助語義合成的工具。

注意力頭如何輔助特定的語義合成,例如形容詞/名詞語義合成

雖然我們沒有發現注意力頭集中關注形容詞/名詞等更一致的組合,但是動詞/副詞的語義合成與模型所衍生的其它語義合成之間可能存在一些共同點。

有許多可能的相關語義合成(單詞-子詞,形容詞-名詞,動詞-介詞,子句-子句)。更進一步,我們可以將消歧看作把一個歧義詞(如 bank)與其相關的上下文單詞(如 river 或 cashier)語義合成的過程。在語義合成期間也可以執行與給定上下文的概念相關的背景常識知識的集成。這種消歧也可能發生在其它層面(例如句子層面、子句層面)。

作為一種語義合成的消歧

此外,語義合成也可能涉及詞序推理。有人認為,位置編碼可能不足以正確編碼單詞的順序,然而位置編碼被設計為編碼每個token的粗略、精細和可能精確的位置。(位置編碼是與輸入嵌入平均求和的向量,以為輸入序列中的每個 token 生成能夠感知位置的表征)。因此,基于兩個位置編碼,非線性合成理論上可以基于單詞相對位置執行一些關系推理。

我們假設語義合成階段也在BERT自然語言理解中起到了重要作用:并不只需要注意力。

總結

我們提出了對Transformers的歸納偏差的見解。但我們的解釋對Transformer的功能持樂觀態度。作為提醒,LSTM顯示能夠隱性地處理樹結構和語義合成。由于LSTM仍存在一些局限性,部分是因為梯度消失造成的。因此,需要進一步的研究來闡明Transformer的局限性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4338

    瀏覽量

    62739
  • 遞歸
    +關注

    關注

    0

    文章

    28

    瀏覽量

    9038
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13581

原文標題:深入理解BERT Transformer ,不僅僅是注意力機制

文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一些tranceiver設計GND沒有工作的原因是什么?

    般來說,何時使用GND,浮動,AVTT和可編程終端。我正在做一些tranceiver設計,并嘗試過GND和AVTT,而GND沒有工作,但AVTT確實有效。有人可以解釋或指向
    發表于 07-21 12:24

    一些電磁標準的解釋

    通用電磁兼容標準(EMC Standard)對照表目的,給予電源及相關電行業開發或測試人員參考,查找或引用更加方便。包括傳導、輻射以及諧波。下面對常見的一些標準做一些對應解釋,特別是針對在通用
    發表于 10-29 08:33

    BERT中的嵌入層組成以及實現方式介紹

    介紹在本文中,我將解釋BERT中嵌入層的實現細節,即token嵌入、Segment嵌入和Position嵌入。簡介這是張來自論文的圖,它恰當地描述了BERT中每
    發表于 11-02 15:14

    如何利用Sparkfun Arduino Qwiic Shield驅動一些I2C 5.0v/3.3v外圍設備呢

    我正在嘗試通過連接到 STM32H7451-DISCO 的 Sparkfun Arduino Qwiic Shield 驅動一些 I2C 5.0v/3.3v 外圍設備。盡管能夠與同總線上的音頻
    發表于 12-20 06:18

    真人秀《 ALL STARS》使用AR元素可以讓觀眾可以嘗試其中的一些造型

    部名為《 ALL STARS》的新節目中實現了,它讓觀眾可以嘗試其中的一些造型。
    發表于 07-05 09:30 ?2357次閱讀

    關于C語言的一些特殊功能介紹

    C語言之所以那么受歡迎,除了C語言歷史悠久之外,還有它具有一些編程語言沒有的功能。那么,今年我們就來了解下C語言的一些特殊
    的頭像 發表于 08-18 15:31 ?2469次閱讀
    關于C語言的<b class='flag-5'>一些</b>特殊<b class='flag-5'>功能</b>介紹

    Flutter的一些技巧

    想你非常有必要嘗試一下。 我接觸Android開發也有幾年了,前段時間公司大力推廣Flutter技術,所以有幸嘗試下。本人直信奉善于總結是不斷進步的不二法寶,這樣你才能不斷的超越
    的頭像 發表于 02-12 11:46 ?2055次閱讀
    Flutter的<b class='flag-5'>一些</b>技巧

    資深工程師分享對 MOSFET 規格書/datasheet 的理解和一些觀點資料下載

    電子發燒友網為你提供資深工程師分享對 MOSFET 規格書/datasheet 的理解和一些觀點資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發表于 04-12 08:51 ?12次下載
    資深工程師分享對 MOSFET 規格書/datasheet 的理解和<b class='flag-5'>一些</b><b class='flag-5'>觀點</b>資料下載

    35KV變配電綜自系統一些常見名稱解釋

    35KV變配電綜自系統一些常見名稱解釋
    發表于 11-18 15:18 ?3892次閱讀

    介紹一些大功率IGBT模塊應用中的一些技術

    PPT主要介紹了大功率IGBT模塊應用中的一些技術,包括參數解讀、器件選型、驅動技術、保護方法以及失效分析等。
    發表于 09-05 11:36 ?802次閱讀

    如何使用 Python 來創建一些強大的應用和實用工具

    本文將探討如何以 Zynq UltraScale 器件上的 IP 核為目標,使用 Python 來創建一些強大的應用和實用工具。此處提供了個程序包,供您用于讀取設備樹和訪問 IP 核。此外還提供
    發表于 09-08 10:23 ?696次閱讀

    LVDS一些信號的觀點非常亮眼

    今天聽了下公司analog designer的介紹課程,有一些LVDS在信號上的觀點非常亮,我做了點筆記,跟大家分享下。
    發表于 05-25 11:28 ?2168次閱讀
    LVDS<b class='flag-5'>一些</b>信號的<b class='flag-5'>觀點</b>非常亮眼

    STM32F10x中一些專業術語解釋

    STM32F10x中一些專業術語解釋
    的頭像 發表于 11-01 16:59 ?565次閱讀

    我們為什么需要了解一些先進封裝?

    我們為什么需要了解一些先進封裝?
    的頭像 發表于 11-23 16:32 ?592次閱讀
    <b class='flag-5'>我們</b>為什么需要了解<b class='flag-5'>一些</b>先進封裝?

    大功率插件電感損壞的一些常見表現

    大功率插件電感是電子電路中非常重要的種電子元器件,它對于設備的穩定運行有直接的影響的。如果在設備的日常運行中遇到故障,如何辨別是否是大功率插件電感損壞造成的呢?本篇我們就來簡單探討
    發表于 12-11 16:22 ?3次下載
    主站蜘蛛池模板: 亚洲精品久久久无码一区二区 | 国产成人a v在线影院| yellow片在线观看免费观看动漫| X8X8拨牐拨牐X8免费视频8午夜| 成人国产在线观看| 国产 日韩 欧美 综合 激情| 国产午夜精品鲁丝片| 精品国产在天天线在线麻豆| 麻豆一区二区三区蜜桃免费| 欧美亚洲精品真实在线| 熟女啪啪白浆嗷嗷叫| 亚洲精品久久午夜麻豆| 最近日本MV字幕免费观看视频| 99久久国产露脸精品竹菊传煤| 公开超碰在线视频| 精品国产自在天天线2019| 麻豆久久国产亚洲精品超碰热| 全黄H全肉细节文NP| 午夜伦理电影在线观免费| 孕交videosgratis乌克兰| 被cao的奶水直喷高H| 国产婷婷色综合AV蜜臀AV| 久久夜色噜噜噜亚洲AV0000| 青青久久久| 亚洲乱妇88网| WWW国产精品内射熟女| 国产亚洲精品视频在线网| 美女脱精光让男生桶下面| 私人玩物在线观看| 在线视频中文字幕| 粉色视频午夜网站入口| 久久99亚洲AV无码四区碰碰| 欧美四虎精品二区免费| 亚洲国产成人在线| 99久久香蕉国产线看观看| 国产精品午夜小视频观看| 久久亚洲视频| 小便japanesewctv| 99视频国产热精品视频| 国产在线午夜| 青青草原91|