色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Transformer模型的上下文嵌入何時真正值得使用?

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者: Victor Karlsson ? 2020-08-28 10:44 ? 次閱讀

不知道大家在平時使用時有沒有發(fā)現,BERT的上下文嵌入非常『昂貴』,并且可能無法在所有情況下帶來價值。分享一篇ACL2020的論文,介紹了一些思路。

論文:Contextual Embeddings: When Are They Worth It?

代碼:https://github.com/HazyResearch/random_embedding

寫在前面

諸如BERT或其改進后代之類的SOTA模型,使用起來十分"昂貴"。僅僅是預訓練的『BERT-base』模型(用今天的標準幾乎可以認為是很小的模型),也需要在16個TPU芯片上花費了超過4天的時間,而這需要花費數千美元。這甚至都沒有考慮對模型進行進一步的微調或最終使用,這兩者都只會增加最終的總成本。

與其嘗試找出創(chuàng)建更小的Transformer模型的方法(如何修剪BERT達到加速目的?理論與實現),不如退后一步去問:「基于Transformer模型的上下文嵌入何時真正值得使用?」在什么情況下,使用GloVe或甚至是隨機嵌入等計算成本較低的非上下文嵌入(non-contextual embeddings ),可能達到類似的性能?

這些是Arora等人提出的一些問題,而答案就在他們的研究中:Contextual Embeddings: When Are They Worth It[1]?本文將概述他們的研究并重點介紹他們的主要發(fā)現。

研究內容

該研究分為兩個部分,首先檢查訓練數據量的影響,然后檢查這些數據集的語言特性。

訓練數據大小

作者發(fā)現,在決定BERT-embedding和Glove-embedding的效果性能方面,訓練數據量起著關鍵作用。通過使用更多的訓練數據,非上下文嵌入很快得到了改善,并且在使用所有可用數據時,通常能夠在BERT模型用時的5-10%之內完成。

另一方面,作者發(fā)現在某些情況下,可以用少于16倍的數據來訓練上下文化嵌入,同時仍然與非上下文化嵌入所獲得的最佳性能相當。這就需要在推理(計算和內存)和標記數據的成本之間進行了權衡,或者如Arora等人所說:

ML practitioners may find that for certain real-world tasks the large gains in efficiency [when using non-contextual embeddings] are well worth the cost of labelling more data. ——— Arora et al

數據集的語言特性

對訓練數據量的研究表明,在某些任務中,上下文嵌入比非上下文嵌入的表現要好得多,而在其他情況下,這些差異要小得多。這些結果激發(fā)了作者們的思考,是否有可能找到并量化語言特性,以表明這種情況何時發(fā)生。

為此,他們定義了三個度量標準,用于量化每個數據集的特征。根據設計,這些度量沒有給出一個單一的定義,而是用來編碼哪些特征影響模型性能的直覺。這使得我們可以對它們進行解釋,然后對它們進行嚴格的定義,以用于我們研究的任務。因此,下面以命名實體識別數據集舉例作者提出的指標:

文本結構的復雜性:表示一個句子中詞與詞之間的依賴性。在NER中表現為每個實體跨越的token數量,如“George Washington”橫跨兩個token。

詞義模糊:每個token在訓練數據集中分配的不同標簽的數量,如“Washington”可以指定人員、地點和組織,這需要考慮到它的背景。

未出現詞的流行度:表示在訓練過程出現從未見過詞的概率。在NER中定義為token出現次數的倒數。

這些指標被用來給數據集中的每一項打分,以便我們將它們分成“困難”和“容易”。這使得我們能夠比較來自同一數據集的這兩個分區(qū)的嵌入性能。

如果這些指標是非信息性的,那么這兩個分區(qū)的性能差異將是相等的。幸運的是,作者們發(fā)現并非如此。相反,他們觀察到,在42個案例中,有30個案例,上下文嵌入和非上下文嵌入之間的差異在困難分區(qū)?上高于簡單分區(qū)。

這意味著,這些指標可以作為一個代理,來自BERT之類模型的上下文嵌入將優(yōu)于非上下文嵌入!然而,從另一個角度來看,它可能更有用——用于指示來自glove的非上下文嵌入何時足以達到最先進的性能。

結論

在研究Contextual Embeddings: When Are They Worth It? 中,Arora等人強調了數據集的關鍵特征,這些特征指示上下文嵌入何時值得使用。首先,訓練數據集大小決定了非上下文化嵌入的潛在有用性,即越多越好。其次,數據集的特征也起著重要作用。作者定義了三個指標,即文本結構的復雜性,詞匯使用的模糊性,以及未出現詞的流行度,這有助于我們理解使用上下文嵌入可能帶來的潛在好處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48809
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689
  • 文本
    +關注

    關注

    0

    文章

    118

    瀏覽量

    17082
  • Transformer
    +關注

    關注

    0

    文章

    143

    瀏覽量

    5995

原文標題:ACL2020 | 什么時候值得用BERT上下文嵌入

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    為什么transformer性能這么好?Transformer上下文學習能力是哪來的?

    為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領域里,transformer
    的頭像 發(fā)表于 09-25 12:05 ?1360次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么好?<b class='flag-5'>Transformer</b>的<b class='flag-5'>上下文</b>學習能力是哪來的?

    關于進程上下文、中斷上下文及原子上下文的一些概念理解

    開講之前,咱們有必要看看這兩個概念:a -- 上下文 上下文是從英文context翻譯過來,指的是一種環(huán)境。相對于進程而言,就是進程執(zhí)行時的環(huán)境; 具體來說就是各個變量和數據,包括所有的寄存器變量
    發(fā)表于 09-06 09:58

    進程上下文與中斷上下文的理解

    來源 網絡一.什么是內核態(tài)和用戶態(tài)內核態(tài):在內核空間執(zhí)行,通常是驅動程序,中斷相關程序,內核調度程序,內存管理及其操作程序。用戶態(tài):用戶程序運行空間。 二.什么是進程上下文與中斷上下文1.進程上下文
    發(fā)表于 12-11 19:45

    JavaScript的執(zhí)行上下文

    JavaScript執(zhí)行上下文之執(zhí)行上下文
    發(fā)表于 05-29 16:12

    進程上下文/中斷上下文及原子上下文的概念

    為什么會有上下文這種概念進程上下文/中斷上下文及原子上下文的概念
    發(fā)表于 01-13 07:17

    中斷中的上下文切換詳解

    接口的實現,在中斷上下文中的信號量post動作,調用的是isrRtxSemaphoreRelease接口,此接口調用osRtxPostProcess進行真正的post動作,在isr_queue_put
    發(fā)表于 03-23 17:18

    基于多Agent的用戶上下文自適應站點構架

    自適應站點很少考慮對用戶環(huán)境的自適應。為此,提出用戶上下文自適應站點的概念,給出基于多Agent技術的用戶上下文自適應站點構架模型。闡述用戶上下文獲取、挖掘過程以及站
    發(fā)表于 04-11 08:49 ?13次下載

    基于交互上下文的預測方法

    傳統(tǒng)的上下文預測是在單用戶的上下文基礎上進行的,忽視了實際普適計算環(huán)境中由于用戶交互活動導致的上下文變化因素。為了合理、有效地解決上述局限性問題,該文提出基
    發(fā)表于 10-04 14:08 ?7次下載

    終端業(yè)務上下文的定義方法及業(yè)務模型

    該文針對業(yè)務上下文僅關注業(yè)務質量較少考慮用戶終端環(huán)境的現狀,提出終端業(yè)務上下文的概念,為普適業(yè)務的開展提供必要的信息支撐。給出一種終端業(yè)務上下文的通用定義方法
    發(fā)表于 03-06 11:06 ?11次下載

    基于Pocket PC的上下文菜單實現

    介紹了基于 Pocket PC 中的點按操作概念, 論述了在Pocket PC 中上下文菜單的實現原理及方法, 并給出了基于MFC 下的Windows CE 應用程序實現上下文菜單的步驟和代碼實例。
    發(fā)表于 07-25 18:26 ?17次下載

    基于Pocket PC的上下文菜單實現

    本文介紹了基于 Pocket PC 中的“點按”操作概念 論述了在 Pocket PC 中上下文菜單的實現原理及方法 并給出了基于 MFC 下的 Windows CE 應用程序實現上下文菜單的步驟和代碼實例 。
    發(fā)表于 04-18 10:46 ?0次下載

    基于上下文相似度的分解推薦算法

    模型,再對目標用戶的K個鄰居用戶建立移動用戶一上下文一移動服務三維張量分解模型,獲得目標用戶的移動服務預測值,生成移動推薦。實驗結果顯示,與余弦相似性方法、Pearson相關系數方法和Cosinel改進相似度
    發(fā)表于 11-27 17:42 ?0次下載

    Web服務的上下文的訪問控制策略模型

    的訪問控制策略模型模型的核心思想是將各種與訪問控制有關的信息統(tǒng)一抽象表示為一個上下文概念,以上下文為中心來制定和執(zhí)行訪問控制策略,上下文
    發(fā)表于 01-05 16:32 ?0次下載

    初學OpenGL:什么是繪制上下文

    初學OpenGL,打開紅寶書,會告訴你OpenGL是個狀態(tài)機,OpenGL采用了客戶端-服務器模式,那時覺得好抽象,直到后來了解了繪制上下文才把這些聯系起來。我們可以認為每一個硬件GPU是個服務器
    發(fā)表于 04-28 11:47 ?2455次閱讀

    如何分析Linux CPU上下文切換問題

    在我的上一篇文章:《探討 Linux CPU 的上下文切換》中,我談到了 CPU 上下文切換的工作原理。快速回顧一下,CPU 上下文切換是保證 Linux 系統(tǒng)正常運行的核心功能。可分為進程
    的頭像 發(fā)表于 05-05 20:11 ?1940次閱讀
    主站蜘蛛池模板: AV天堂AV亚洲啪啪久久无码| 日韩人妻无码精品久久中文字幕| 美女被抽插到哭内射视频免费| 久久视频在线视频| 尿了么app| 神马伦理不卡午夜电影| 亚洲免费无l码中文在线视频| 中文字幕高清在线观看| 被老头下药玩好爽| 国产偷国产偷亚州清高| 猫咪www958ii| 色柚视频网站ww色| 伊人无码高清| 城中村快餐嫖老妇对白| 国产精品一区二区亚瑟不卡| 久久99re2在线视频精品| 全黄h全肉细节全文| 亚洲精品久久午夜麻豆| 俄罗斯孩交精品| 成人免费公开视频| 国内久经典AAAAA片| 九九黄色大片| 欧美日韩久久久精品A片| 泰国淫乐园实录| 亚洲欧美一区二区三区久久| 欲乱艳荡少寡妇全文免费| 最新老头恋老OLDMAN| 成人免费公开视频| 中文在线观看免费网站| xxnx日本| 娇喘嗯嗯 轻点啊视频福利| 免费看美女的网站| 午夜理伦片免费| 亚洲国产日韩欧美视频二区 | 国产免费网站看v片在线| 国产亚洲精品久久777777| 啦啦啦 中文 日本 韩国 免费 | 久久免费视频| 日本国产黄色片| 在线看片成人免费视频| adc免费观看|