校花好湿好紧好浪好大好爽,污污的动态图合集,椎名空被强制中出在线观看

來自：NLPCAB

句子表示在很多任務(wù)中都是重要的一環(huán)。尤其是在大數(shù)據(jù)量的場景下，很多場景都需要召回+排序兩個步驟，如果第一個環(huán)節(jié)沒有召回候選結(jié)果，那最后的排序模型再怎么優(yōu)秀也沒法給出正確答案。

今天就給大家介紹一個微軟在EMNLP2020上發(fā)表的最新工作，利用transformer生成更高質(zhì)量的句子編碼。

雖然BERT式模型的出現(xiàn)解決了很多判別問題，但直接用無監(jiān)督語料訓練出的BERT做句子表示并不理想：

如果只取CLS，這個表示是針對NSP進行優(yōu)化的，表示的信息有限

如果取平均或最大池化，可能會把無用信息計算進來，增加噪聲

所以作者的改進目的是設(shè)計一個下游任務(wù)，直接優(yōu)化得到的句子embedding。

那怎么設(shè)計目標才能充分利用無監(jiān)督數(shù)據(jù)呢？

作者給出了一個巧妙的方法，就是用周邊其他句子的表示預測當前句子的token。

具體的做法是：先利用Transformer抽取句子表示，再對句子表示進行attention，選取相關(guān)的句子預測當前token。有點Hierarchical Attention的意思。

比如在預測上圖中最后一句的黃藍兩個token時，明顯第一句的信息就夠用了，那目標函數(shù)的設(shè)置會讓第一句的權(quán)重變大，也會讓抽取出的句子表示去包含這些信息。

接下來詳細介紹一下預訓練和精調(diào)的步驟，以及作者加入的其他tricks。

Cross-Thought模型

預訓練

下圖是預訓練的模型結(jié)構(gòu)，計算的步驟是：

將段落按順序拆成獨立短句，通過12層Transformer（藍色半透明的矩形）分別進行編碼。在實際的預訓練中，每個sample包含500個長度為64的短句，batch size是128（16張V100）

取出 ... 等special token的輸出（大紅點）作為句子表示

把每列句子表示作為一個序列輸入到cross-sequence transformer（藍色弧線，每一列的cross-sequence transformer參數(shù)都不同），輸出attention分數(shù)加權(quán)后的新表示

將新的句子表示與第一步的token表示進行拼接，經(jīng)過一層transformer，預測被mask的15%個token（每個句子都這么處理，圖中只畫了第一個句子的）

整體流程理解起來比較簡單，作者還用了一些額外的tricks提升效果：

為了抽取更多的信息，在句子開頭加入了多個占位token（之前BERT只有一個[CLS]），在實驗結(jié)論中發(fā)現(xiàn)5個占位的表現(xiàn)較好（但占位token的增加會加大計算量）

占位token的位置表示是固定的，而真實token是隨機從0-564中抽取連續(xù)的64個，這樣可以訓練更多的位置表示，方便之后對更長的序列進行編碼

精調(diào)

精調(diào)主要是考慮和下游任務(wù)的銜接。作者選擇了問答和句子對分類來驗證模型的表現(xiàn)。

對于問答任務(wù)，假設(shè)答案句子的表示都已經(jīng)編碼好了：

輸入問題，經(jīng)過12層Transformer得到問題表示

利用cross-sequence transformers，對問題表示與答案表示進行計算，得到各個答案的權(quán)重（每列都會得到一個，作者對所有列取了平均）

根據(jù)gold answer的index m，計算Ranking loss（代表第0個答案的權(quán)重）

對于句子對分類任務(wù)比較簡潔，輸入兩個句子A和B：

分別對A和B進行編碼，取出句子表示，輸入cross-sequence transformers得到融合后的句子表示

將兩個句子的所有表示拼接起來，得到2Nxd的矩陣（N是占位token的個數(shù)，d是表示的維度）

把第二步得到的表示flatten，得到一個長度 2Nd 的一維向量，輸入到分類層

實驗效果

作者在不少數(shù)據(jù)集上都驗證了效果，單純從輸出句子表示的效果來看，不僅是句間關(guān)系還是問答的候選召回上都有不小的提升，尤其是召回：

除了指標對比外，作者還展示了兩個無監(jiān)督預訓練模型的打分結(jié)果：

總結(jié)

近兩年句子表示的研究越來越少了，因為句子表示經(jīng)常用于句間關(guān)系判斷的任務(wù)，而交互式的判別顯然比雙塔效果要好。所以研究者們要不在研究更輕量的句間匹配模型（比如RE2、Deformer），要不就是繼續(xù)用BERT類模型做出更好的效果。但對于業(yè)界來說，句子表示在召回上的速度還是最快的，效果也比單純的字面匹配要好。

為了充分利用無監(jiān)督數(shù)據(jù)、得到更高質(zhì)量的句子表示，Cross-Thought提供了一個新的預訓練思路：用句子表示預測token。同時也給我們展現(xiàn)出了它在候選召回上的巨大潛力，添加的額外cross-sequence transformer對速度的影響也不會太大。另外，作者只使用了wiki語料進行預訓練，如果有更多語料相信效果會更好。

目前源碼還未放出，希望開源社區(qū)的富有大佬們早日訓一個中文的Cross-Thought～

原文標題：【EMNLP2020】超越MLM，微軟打造全新預訓練任務(wù)

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6600

瀏覽量
104120
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4333

瀏覽量
62687

原文標題：【EMNLP2020】超越MLM，微軟打造全新預訓練任務(wù)

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

微軟尋求在365 Copilot中引入非OpenAI模型

擔心企業(yè)用戶在使用365 Copilot時面臨的成本和速度問題，因此正在尋求更多樣化的技術(shù)來源。盡管微軟與OpenAI之間有著緊密的合作關(guān)系，并允許微軟定制OpenAI的模型，但微軟仍

發(fā)表于 12-25 10:41 ?225次閱讀

微軟在美國面臨反壟斷調(diào)查

近日，美國聯(lián)邦貿(mào)易委員會(FTC)宣布已正式對微軟公司啟動了一項廣泛的反壟斷調(diào)查。此次調(diào)查旨在深入了解微軟在多個領(lǐng)域的市場行為，以判斷其是否存在濫用市場支配地位的行為。據(jù)悉，調(diào)查內(nèi)容涵蓋了微

發(fā)表于 11-28 10:47 ?273次閱讀

微軟發(fā)布Azure AI Foundry，推動云服務(wù)增長

。 Azure AI Foundry為用戶提供了一個更為便捷的平臺，使得在支持人工智能的大型語言模型之間切換變得輕松自如。這一創(chuàng)新工具的發(fā)布，無疑將極大地降低AI應(yīng)用的開發(fā)門檻，進一步推動AI技術(shù)的普及與應(yīng)用。在11月19日于

發(fā)表于 11-21 11:32 ?434次閱讀

微軟在東京開設(shè)日本首個研究基地

近日，微軟在東京正式啟用了其日本首個研究基地——微軟亞洲研究院東京分院。作為微軟在全球技術(shù)實驗室網(wǎng)絡(luò)中的最新成員，該基地將專注于人工智能和機

發(fā)表于 11-19 16:26 ?258次閱讀

NVIDIA Research在ECCV 2024上展示多項創(chuàng)新成果

在米蘭舉行的歐洲計算機視覺國際會議 (ECCV) 上，NVIDIA Research 展示了多項突破性的創(chuàng)新成果，共發(fā)表了 14 篇論文。

發(fā)表于 11-19 15:07 ?321次閱讀

微軟高管談AI將如何改變工作方式

企業(yè)領(lǐng)導者們渴望了解AI將如何改變工作方式，微軟愿意為他們提供所需的幫助。在整個公司范圍內(nèi)，智能 Copilot 副駕駛(國際版)已成為我們提升工作效率、重塑涵蓋客戶服務(wù)至銷售等多個環(huán)

發(fā)表于 11-15 14:00 ?264次閱讀

經(jīng)緯恒潤功能安全AI 智能體論文成功入選EMNLP 2024！

近日，經(jīng)緯恒潤在智能體（AIAgent）領(lǐng)域再獲佳績，其論文《Aegis

發(fā)表于 10-18 08:00 ?355次閱讀

【P2020無法上電】付費咨詢

P2020RDB-PCA NXP加載Linux時卡死，斷電重啟后無法上電。P2020通過TFTP的方式加載Linux鏡像和設(shè)備樹，一般情況下卡死后斷電可正常重啟并加載uboot，但某次斷電后再也

發(fā)表于 10-16 10:55

芯思杰楊彥偉團隊榮獲“示范性勞模和工匠人才創(chuàng)新工作室”授牌

近日，深圳市南山區(qū)總工會舉行2023年度各級勞模和工匠人才創(chuàng)新工作室授牌儀式，芯思杰楊彥偉團隊榮獲“示范性勞模和工匠人才創(chuàng)新工作室”授牌。

發(fā)表于 05-15 09:52 ?419次閱讀

微軟關(guān)閉旗下四家游戲工作室

近日，微軟的游戲業(yè)務(wù)部門Xbox作出了一個引人矚目的決策——關(guān)閉四家游戲工作室，其中不乏知名的工作室如Arkane Austin和Tango Gameworks。

發(fā)表于 05-13 11:28 ?722次閱讀

喜訊！堅持技術(shù)創(chuàng)新，華秋獲評深圳市示范性勞模和工匠人才創(chuàng)新工作室

技術(shù)無止境研發(fā)無止境他熱衷鉆研在自主研發(fā)工作中不斷提高業(yè)務(wù)水平致力打造國內(nèi)領(lǐng)先產(chǎn)品他胸懷大局，有著勇者的擔當帶領(lǐng)硬件研發(fā)團隊淬煉本領(lǐng)、迎難而上、突破創(chuàng)新他始終以“刀在石上磨，人在事

發(fā)表于 05-10 08:07 ?322次閱讀

微軟MSN天氣服務(wù)引入全新AI模型

微軟在天氣預測領(lǐng)域取得了突破性的進展，為MSN天氣服務(wù)引入了全新的AI預測模型。該模型由微軟Start團隊精心研發(fā)，并基于他們在arXiv上

發(fā)表于 05-07 09:25 ?571次閱讀

耗資6600萬美元！索尼在泰國開設(shè)汽車圖像傳感器新工廠

現(xiàn)有工廠的基礎(chǔ)上建設(shè)新的工廠。索尼新工廠于今年2月份投產(chǎn)，使生產(chǎn)規(guī)模擴大了70%。擴產(chǎn)后，該公司預計到2026年將創(chuàng)造2000個新就業(yè)崗位，其中20%為工程師。索尼集團在新工廠預留

發(fā)表于 03-30 08:42 ?266次閱讀

AI新工具DUSt3R走紅GitHub，兩秒完成3D重建驚艷網(wǎng)友

近日，一款名為DUSt3R的AI新工具在微軟旗下的GitHub平臺上引發(fā)了廣泛關(guān)注。這款神奇的工具僅需兩張圖片和兩秒鐘的時間，便能完成精確的3D重建，且無需額外測量任何數(shù)據(jù)。上線不久，DUSt3R便迅速登上GitHub熱榜第二的

發(fā)表于 03-08 14:02 ?1185次閱讀

微軟將舉辦工作新時代發(fā)布會

微軟宣布將于3月21日舉辦名為“工作新時代”的數(shù)字發(fā)布會。這次活動，微軟將重點展示其Copilot人工智能計劃的最新進展，以及Windows和Surface系列的全新更新。

發(fā)表于 03-08 11:24 ?820次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

微軟在EMNLP2020上發(fā)表最新工作

評論

微軟尋求在365 Copilot中引入非OpenAI模型

微軟在美國面臨反壟斷調(diào)查

微軟發(fā)布Azure AI Foundry，推動云服務(wù)增長

微軟在東京開設(shè)日本首個研究基地

NVIDIA Research在ECCV 2024上展示多項創(chuàng)新成果

微軟高管談AI將如何改變工作方式

經(jīng)緯恒潤功能安全AI 智能體論文成功入選EMNLP 2024！

【P2020無法上電】付費咨詢

芯思杰楊彥偉團隊榮獲“示范性勞模和工匠人才創(chuàng)新工作室”授牌

微軟關(guān)閉旗下四家游戲工作室

喜訊！堅持技術(shù)創(chuàng)新，華秋獲評深圳市示范性勞模和工匠人才創(chuàng)新工作室

微軟MSN天氣服務(wù)引入全新AI模型

耗資6600萬美元！索尼在泰國開設(shè)汽車圖像傳感器新工廠

AI新工具DUSt3R走紅GitHub，兩秒完成3D重建驚艷網(wǎng)友

微軟將舉辦工作新時代發(fā)布會