色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

21個(gè)Transformer面試題的簡(jiǎn)單回答

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:研究員易顯維 ? 2021-04-15 14:09 ? 次閱讀

1.Transformer為何使用多頭注意力機(jī)制?(為什么不使用一個(gè)頭)

答:多頭可以使參數(shù)矩陣形成多個(gè)子空間,矩陣整體的size不變,只是改變了每個(gè)head對(duì)應(yīng)的維度大小,這樣做使矩陣對(duì)多方面信息進(jìn)行學(xué)習(xí),但是計(jì)算量和單個(gè)head差不多。

2.Transformer為什么Q和K使用不同的權(quán)重矩陣生成,為何不能使用同一個(gè)值進(jìn)行自身的點(diǎn)乘?

答:請(qǐng)求和鍵值初始為不同的權(quán)重是為了解決可能輸入句長(zhǎng)與輸出句長(zhǎng)不一致的問題。并且假如QK維度一致,如果不用Q,直接拿K和K點(diǎn)乘的話,你會(huì)發(fā)現(xiàn)attention score 矩陣是一個(gè)對(duì)稱矩陣。因?yàn)槭峭瑯右粋€(gè)矩陣,都投影到了同樣一個(gè)空間,所以泛化能力很差。

3.Transformer計(jì)算attention的時(shí)候?yàn)楹芜x擇點(diǎn)乘而不是加法??jī)烧哂?jì)算復(fù)雜度和效果上有什么區(qū)別?

答:K和Q的點(diǎn)乘是為了得到一個(gè)attention score 矩陣,用來(lái)對(duì)V進(jìn)行提純。K和Q使用了不同的W_k, W_Q來(lái)計(jì)算,可以理解為是在不同空間上的投影。正因?yàn)?有了這種不同空間的投影,增加了表達(dá)能力,這樣計(jì)算得到的attention score矩陣的泛化能力更高。

4.為什么在進(jìn)行softmax之前需要對(duì)attention進(jìn)行scaled(為什么除以dk的平方根),并使用公式推導(dǎo)進(jìn)行講解

答:假設(shè) Q 和 K 的均值為0,方差為1。它們的矩陣乘積將有均值為0,方差為dk,因此使用dk的平方根被用于縮放,因?yàn)椋琎 和 K 的矩陣乘積的均值本應(yīng)該為 0,方差本應(yīng)該為1,這樣可以獲得更平緩的softmax。當(dāng)維度很大時(shí),點(diǎn)積結(jié)果會(huì)很大,會(huì)導(dǎo)致softmax的梯度很小。為了減輕這個(gè)影響,對(duì)點(diǎn)積進(jìn)行縮放。

643dedc2-9cd8-11eb-8b86-12bb97331649.png

5.在計(jì)算attention score的時(shí)候如何對(duì)padding做mask操作?

答:對(duì)需要mask的位置設(shè)為負(fù)無(wú)窮,再對(duì)attention score進(jìn)行相加

6.為什么在進(jìn)行多頭注意力的時(shí)候需要對(duì)每個(gè)head進(jìn)行降維?

答:將原有的高維空間轉(zhuǎn)化為多個(gè)低維空間并再最后進(jìn)行拼接,形成同樣維度的輸出,借此豐富特性信息,降低了計(jì)算量

7.大概講一下Transformer的Encoder模塊?

答:輸入嵌入-加上位置編碼-多個(gè)編碼器層(每個(gè)編碼器層包含全連接層,多頭注意力層和點(diǎn)式前饋網(wǎng)絡(luò)層(包含激活函數(shù)層))

8.為何在獲取輸入詞向量之后需要對(duì)矩陣乘以embedding size的開方?

embedding matrix的初始化方式是xavier init,這種方式的方差是1/embedding size,因此乘以embedding size的開方使得embedding matrix的方差是1,在這個(gè)scale下可能更有利于embedding matrix的收斂。

9.簡(jiǎn)單介紹一下Transformer的位置編碼?有什么意義和優(yōu)缺點(diǎn)?

答:因?yàn)閟elf-attention是位置無(wú)關(guān)的,無(wú)論句子的順序是什么樣的,通過(guò)self-attention計(jì)算的token的hidden embedding都是一樣的,這顯然不符合人類的思維。因此要有一個(gè)辦法能夠在模型中表達(dá)出一個(gè)token的位置信息,transformer使用了固定的positional encoding來(lái)表示token在句子中的絕對(duì)位置信息。

10.你還了解哪些關(guān)于位置編碼的技術(shù),各自的優(yōu)缺點(diǎn)是什么?

答:相對(duì)位置編碼(RPE)1.在計(jì)算attention score和weighted value時(shí)各加入一個(gè)可訓(xùn)練的表示相對(duì)位置的參數(shù)。2.在生成多頭注意力時(shí),把對(duì)key來(lái)說(shuō)將絕對(duì)位置轉(zhuǎn)換為相對(duì)query的位置3.復(fù)數(shù)域函數(shù),已知一個(gè)詞在某個(gè)位置的詞向量表示,可以計(jì)算出它在任何位置的詞向量表示。前兩個(gè)方法是詞向量+位置編碼,屬于亡羊補(bǔ)牢,復(fù)數(shù)域是生成詞向量的時(shí)候即生成對(duì)應(yīng)的位置信息。

11.簡(jiǎn)單講一下Transformer中的殘差結(jié)構(gòu)以及意義。

答:encoder和decoder的self-attention層和ffn層都有殘差連接。反向傳播的時(shí)候不會(huì)造成梯度消失。

12.為什么transformer塊使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?

答:多頭注意力層和激活函數(shù)層之間。CV使用BN是認(rèn)為channel維度的信息對(duì)cv方面有重要意義,如果對(duì)channel維度也歸一化會(huì)造成不同通道信息一定的損失。而同理nlp領(lǐng)域認(rèn)為句子長(zhǎng)度不一致,并且各個(gè)batch的信息沒什么關(guān)系,因此只考慮句子內(nèi)信息的歸一化,也就是LN。

13.簡(jiǎn)答講一下BatchNorm技術(shù),以及它的優(yōu)缺點(diǎn)。

答:批歸一化是對(duì)每一批的數(shù)據(jù)在進(jìn)入激活函數(shù)前進(jìn)行歸一化,可以提高收斂速度,防止過(guò)擬合,防止梯度消失,增加網(wǎng)絡(luò)對(duì)數(shù)據(jù)的敏感度。

14.簡(jiǎn)單描述一下Transformer中的前饋神經(jīng)網(wǎng)絡(luò)?使用了什么激活函數(shù)?相關(guān)優(yōu)缺點(diǎn)?

答:輸入嵌入-加上位置編碼-多個(gè)編碼器層(每個(gè)編碼器層包含全連接層,多頭注意力層和點(diǎn)式前饋網(wǎng)絡(luò)層(包含激活函數(shù)層))-多個(gè)解碼器層(每個(gè)編碼器層包含全連接層,多頭注意力層和點(diǎn)式前饋網(wǎng)絡(luò)層)-全連接層,使用了relu激活函數(shù)

15.Encoder端和Decoder端是如何進(jìn)行交互的?

答:通過(guò)轉(zhuǎn)置encoder_ouput的seq_len維與depth維,進(jìn)行矩陣兩次乘法,即q*kT*v輸出即可得到target_len維度的輸出

16.Decoder階段的多頭自注意力和encoder的多頭自注意力有什么區(qū)別?

答:Decoder有兩層mha,encoder有一層mha,Decoder的第二層mha是為了轉(zhuǎn)化輸入與輸出句長(zhǎng),Decoder的請(qǐng)求q與鍵k和數(shù)值v的倒數(shù)第二個(gè)維度可以不一樣,但是encoder的qkv維度一樣。

17.Transformer的并行化提現(xiàn)在哪個(gè)地方?

答:Transformer的并行化主要體現(xiàn)在self-attention模塊,在Encoder端Transformer可以并行處理整個(gè)序列,并得到整個(gè)輸入序列經(jīng)過(guò)Encoder端的輸出,但是rnn只能從前到后的執(zhí)行

18.Decoder端可以做并行化嗎?

訓(xùn)練的時(shí)候可以,但是交互的時(shí)候不可以

19.簡(jiǎn)單描述一下wordpiece model 和 byte pair encoding,有實(shí)際應(yīng)用過(guò)嗎?

答“傳統(tǒng)詞表示方法無(wú)法很好的處理未知或罕見的詞匯(OOV問題)

傳統(tǒng)詞tokenization方法不利于模型學(xué)習(xí)詞綴之間的關(guān)系”BPE(字節(jié)對(duì)編碼)或二元編碼是一種簡(jiǎn)單的數(shù)據(jù)壓縮形式,其中最常見的一對(duì)連續(xù)字節(jié)數(shù)據(jù)被替換為該數(shù)據(jù)中不存在的字節(jié)。后期使用時(shí)需要一個(gè)替換表來(lái)重建原始數(shù)據(jù)。優(yōu)點(diǎn):可以有效地平衡詞匯表大小和步數(shù)(編碼句子所需的token次數(shù))。

缺點(diǎn):基于貪婪和確定的符號(hào)替換,不能提供帶概率的多個(gè)分片結(jié)果。

20.Transformer訓(xùn)練的時(shí)候?qū)W習(xí)率是如何設(shè)定的?Dropout是如何設(shè)定的,位置在哪里?Dropout 在測(cè)試的需要有什么需要注意的嗎?

LN是為了解決梯度消失的問題,dropout是為了解決過(guò)擬合的問題。在embedding后面加LN有利于embedding matrix的收斂。

21.bert的mask為何不學(xué)習(xí)transformer在attention處進(jìn)行屏蔽score的技巧?

答:BERT和transformer的目標(biāo)不一致,bert是語(yǔ)言的預(yù)訓(xùn)練模型,需要充分考慮上下文的關(guān)系,而transformer主要考慮句子中第i個(gè)元素與前i-1個(gè)元素的關(guān)系。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3646

    瀏覽量

    134647
  • 矩陣
    +關(guān)注

    關(guān)注

    0

    文章

    423

    瀏覽量

    34564
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    143

    瀏覽量

    6014

原文標(biāo)題:21個(gè)Transformer面試題的簡(jiǎn)單回答

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Redis使用重要的兩個(gè)機(jī)制:Reids持久化和主從復(fù)制

    持久化的,也就是說(shuō)要先存儲(chǔ)到磁盤上嘛,這樣才方便主從之間的數(shù)據(jù)同步。 此外,因?yàn)镽edis 主從復(fù)制的原理也是后端面試必考知識(shí)點(diǎn),所以先送上一份福利【77道redis高頻面試題匯總(帶答案)】,面試用到率85%! 部分內(nèi)容展示:
    的頭像 發(fā)表于 12-18 10:33 ?125次閱讀
    Redis使用重要的兩<b class='flag-5'>個(gè)</b>機(jī)制:Reids持久化和主從復(fù)制

    面試題】人工智能工程師高頻面試題匯總:機(jī)器學(xué)習(xí)深化篇(題目+答案)

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,這些都是加分項(xiàng),能有效提高面試通過(guò)率。本篇小編整理了一些高頻的機(jī)器學(xué)習(xí)深化方面的面試題,這些題目都是從實(shí)際面試中總結(jié)出來(lái)的,非
    的頭像 發(fā)表于 12-16 13:42 ?1966次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:機(jī)器學(xué)習(xí)深化篇(題目+答案)

    面試題】人工智能工程師高頻面試題匯總:Transformer篇(題目+答案)

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,Transformer的一些知識(shí),這些都是加分項(xiàng),能有效提高面試通過(guò)率。本篇小編整理了一些高頻的Transformer方面的面
    的頭像 發(fā)表于 12-13 15:06 ?519次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:<b class='flag-5'>Transformer</b>篇(題目+答案)

    人工智能工程師高頻面試題匯總——機(jī)器學(xué)習(xí)篇

    ,或者深度學(xué)習(xí)的框架,還有怎么優(yōu)化模型,這些都是加分項(xiàng),能有效提高面試通過(guò)率。本篇小編整理了一些高頻的機(jī)器學(xué)習(xí)方面的面試題,這些題目都是從實(shí)際面試中總結(jié)出來(lái)的,非常具
    的頭像 發(fā)表于 12-04 17:00 ?866次閱讀
    人工智能工程師高頻<b class='flag-5'>面試題</b>匯總——機(jī)器學(xué)習(xí)篇

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?458次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?321次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動(dòng)駕駛中一直說(shuō)的BEV+Transformer到底是個(gè)啥?

    在很多車企的自動(dòng)駕駛介紹中,都會(huì)聽到一個(gè)關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個(gè)啥?為什么很多車企在自動(dòng)駕駛技術(shù)中都十分追捧這項(xiàng)技術(shù)?其
    的頭像 發(fā)表于 11-07 11:19 ?410次閱讀
    自動(dòng)駕駛中一直說(shuō)的BEV+<b class='flag-5'>Transformer</b>到底是<b class='flag-5'>個(gè)</b>啥?

    程序員去面試只需一個(gè)技能征服所有面試官!

    個(gè)車輛工程專業(yè)的研究生去面試面試官最后問他會(huì)不會(huì)嵌入式。雖然應(yīng)聘的崗位不是嵌入式工程師,但看來(lái)老板還是希望他能懂點(diǎn)這方面的知識(shí)。這個(gè)小插曲就說(shuō)明了一個(gè)重要的就業(yè)
    的頭像 發(fā)表于 11-05 19:35 ?207次閱讀
    程序員去<b class='flag-5'>面試</b>只需一<b class='flag-5'>個(gè)</b>技能征服所有<b class='flag-5'>面試</b>官!

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    在自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于神經(jīng)機(jī)器翻譯
    的頭像 發(fā)表于 07-10 11:48 ?1771次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來(lái),在自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)練過(guò)程、關(guān)鍵組件以及實(shí)現(xiàn)細(xì)節(jié)。
    的頭像 發(fā)表于 07-02 11:41 ?1664次閱讀

    大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識(shí) #面試題

    電子工程師電路
    安泰小課堂
    發(fā)布于 :2024年04月30日 17:33:15

    視覺Transformer基本原理及目標(biāo)檢測(cè)應(yīng)用

    視覺Transformer的一般結(jié)構(gòu)如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個(gè)多頭自注意力模塊(self-attention)和一個(gè)位置前饋神經(jīng)網(wǎng)絡(luò)(FFN)。
    發(fā)表于 04-03 10:32 ?3535次閱讀
    視覺<b class='flag-5'>Transformer</b>基本原理及目標(biāo)檢測(cè)應(yīng)用

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題是很困難的。
    發(fā)表于 01-23 11:39 ?860次閱讀
    基于<b class='flag-5'>Transformer</b>的多模態(tài)BEV融合方案

    什么是守護(hù)線程?守護(hù)線程的底層原理和使用示例

    大家好,今天這篇文章來(lái)梳理一下有關(guān)守護(hù)線程的相關(guān)問題,這也是之前曾經(jīng)有被問到過(guò)的面試題,在此之前我們先看一看守護(hù)線程的使用示例。
    的頭像 發(fā)表于 01-05 11:01 ?1436次閱讀
    什么是守護(hù)線程?守護(hù)線程的底層原理和使用示例

    經(jīng)典Linux面試題總結(jié)

    絕對(duì)路徑用什么符號(hào)表示?當(dāng)前目錄、上層目錄用什么表示?主目錄用什么表示? 切換目錄用什么命令?
    的頭像 發(fā)表于 01-04 11:01 ?379次閱讀
    主站蜘蛛池模板: 超碰97人人做人人爱少妇| 久久天天婷婷五月俺也去| 国产午夜高潮熟女精品AV| 久久精品AV一区二区无码| 欧美日韩亚洲综合2019| 午夜国产视频| 7723手机游戏破解版下载| 高h肉文合集| 久久成人亚洲| 日韩一区二区三区射精| 亚洲天堂久久久| 成 人 网 站毛片| 久久re热在线视频精6| 日本性xxx| 伊人久久精品午夜| 顶级少妇AAAAABBBBB片| 久久久午夜精品福利内容| 日本漫画之无彩翼漫画| 野花韩国高清完整版在线| 大胸美女被吊起来解开胸罩| 久久99国产精品一区二区| 日韩精品a在线视频| 伊人久久亚洲精品一区| 丰满的女朋友 在线播放| 久久热免费观看视频| 吻嘴胸全身好爽床大全| 99这里只有是精品2| 精品亚洲一区二区三区在线播放| 日韩亚射吧| 97国产在线观看| 果冻传媒剧情在线观看| 日韩欧美视频一区| 666永久视频在线| 和尚扒开双腿蹂躏| 日韩一本道无码v| 99re6久久在热线视频| 国自产拍 高清精品| 乳交高H糙汉宠文| 99久久亚洲| 久久青青草原综合伊人| 羞羞漫画在线播放|