色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

21個Transformer面試題的簡單回答

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:研究員易顯維 ? 2021-04-15 14:09 ? 次閱讀

1.Transformer為何使用多頭注意力機制?(為什么不使用一個頭)

答:多頭可以使參數矩陣形成多個子空間,矩陣整體的size不變,只是改變了每個head對應的維度大小,這樣做使矩陣對多方面信息進行學習,但是計算量和單個head差不多。

2.Transformer為什么Q和K使用不同的權重矩陣生成,為何不能使用同一個值進行自身的點乘?

答:請求和鍵值初始為不同的權重是為了解決可能輸入句長與輸出句長不一致的問題。并且假如QK維度一致,如果不用Q,直接拿K和K點乘的話,你會發現attention score 矩陣是一個對稱矩陣。因為是同樣一個矩陣,都投影到了同樣一個空間,所以泛化能力很差。

3.Transformer計算attention的時候為何選擇點乘而不是加法?兩者計算復雜度和效果上有什么區別?

答:K和Q的點乘是為了得到一個attention score 矩陣,用來對V進行提純。K和Q使用了不同的W_k, W_Q來計算,可以理解為是在不同空間上的投影。正因為 有了這種不同空間的投影,增加了表達能力,這樣計算得到的attention score矩陣的泛化能力更高。

4.為什么在進行softmax之前需要對attention進行scaled(為什么除以dk的平方根),并使用公式推導進行講解

答:假設 Q 和 K 的均值為0,方差為1。它們的矩陣乘積將有均值為0,方差為dk,因此使用dk的平方根被用于縮放,因為,Q 和 K 的矩陣乘積的均值本應該為 0,方差本應該為1,這樣可以獲得更平緩的softmax。當維度很大時,點積結果會很大,會導致softmax的梯度很小。為了減輕這個影響,對點積進行縮放。

643dedc2-9cd8-11eb-8b86-12bb97331649.png

5.在計算attention score的時候如何對padding做mask操作?

答:對需要mask的位置設為負無窮,再對attention score進行相加

6.為什么在進行多頭注意力的時候需要對每個head進行降維?

答:將原有的高維空間轉化為多個低維空間并再最后進行拼接,形成同樣維度的輸出,借此豐富特性信息,降低了計算量

7.大概講一下Transformer的Encoder模塊?

答:輸入嵌入-加上位置編碼-多個編碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網絡層(包含激活函數層))

8.為何在獲取輸入詞向量之后需要對矩陣乘以embedding size的開方?

embedding matrix的初始化方式是xavier init,這種方式的方差是1/embedding size,因此乘以embedding size的開方使得embedding matrix的方差是1,在這個scale下可能更有利于embedding matrix的收斂。

9.簡單介紹一下Transformer的位置編碼?有什么意義和優缺點?

答:因為self-attention是位置無關的,無論句子的順序是什么樣的,通過self-attention計算的token的hidden embedding都是一樣的,這顯然不符合人類的思維。因此要有一個辦法能夠在模型中表達出一個token的位置信息,transformer使用了固定的positional encoding來表示token在句子中的絕對位置信息。

10.你還了解哪些關于位置編碼的技術,各自的優缺點是什么?

答:相對位置編碼(RPE)1.在計算attention score和weighted value時各加入一個可訓練的表示相對位置的參數。2.在生成多頭注意力時,把對key來說將絕對位置轉換為相對query的位置3.復數域函數,已知一個詞在某個位置的詞向量表示,可以計算出它在任何位置的詞向量表示。前兩個方法是詞向量+位置編碼,屬于亡羊補牢,復數域是生成詞向量的時候即生成對應的位置信息。

11.簡單講一下Transformer中的殘差結構以及意義。

答:encoder和decoder的self-attention層和ffn層都有殘差連接。反向傳播的時候不會造成梯度消失。

12.為什么transformer塊使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?

答:多頭注意力層和激活函數層之間。CV使用BN是認為channel維度的信息對cv方面有重要意義,如果對channel維度也歸一化會造成不同通道信息一定的損失。而同理nlp領域認為句子長度不一致,并且各個batch的信息沒什么關系,因此只考慮句子內信息的歸一化,也就是LN。

13.簡答講一下BatchNorm技術,以及它的優缺點。

答:批歸一化是對每一批的數據在進入激活函數前進行歸一化,可以提高收斂速度,防止過擬合,防止梯度消失,增加網絡對數據的敏感度。

14.簡單描述一下Transformer中的前饋神經網絡?使用了什么激活函數?相關優缺點?

答:輸入嵌入-加上位置編碼-多個編碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網絡層(包含激活函數層))-多個解碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網絡層)-全連接層,使用了relu激活函數

15.Encoder端和Decoder端是如何進行交互的?

答:通過轉置encoder_ouput的seq_len維與depth維,進行矩陣兩次乘法,即q*kT*v輸出即可得到target_len維度的輸出

16.Decoder階段的多頭自注意力和encoder的多頭自注意力有什么區別?

答:Decoder有兩層mha,encoder有一層mha,Decoder的第二層mha是為了轉化輸入與輸出句長,Decoder的請求q與鍵k和數值v的倒數第二個維度可以不一樣,但是encoder的qkv維度一樣。

17.Transformer的并行化提現在哪個地方?

答:Transformer的并行化主要體現在self-attention模塊,在Encoder端Transformer可以并行處理整個序列,并得到整個輸入序列經過Encoder端的輸出,但是rnn只能從前到后的執行

18.Decoder端可以做并行化嗎?

訓練的時候可以,但是交互的時候不可以

19.簡單描述一下wordpiece model 和 byte pair encoding,有實際應用過嗎?

答“傳統詞表示方法無法很好的處理未知或罕見的詞匯(OOV問題)

傳統詞tokenization方法不利于模型學習詞綴之間的關系”BPE(字節對編碼)或二元編碼是一種簡單的數據壓縮形式,其中最常見的一對連續字節數據被替換為該數據中不存在的字節。后期使用時需要一個替換表來重建原始數據。優點:可以有效地平衡詞匯表大小和步數(編碼句子所需的token次數)。

缺點:基于貪婪和確定的符號替換,不能提供帶概率的多個分片結果。

20.Transformer訓練的時候學習率是如何設定的?Dropout是如何設定的,位置在哪里?Dropout 在測試的需要有什么需要注意的嗎?

LN是為了解決梯度消失的問題,dropout是為了解決過擬合的問題。在embedding后面加LN有利于embedding matrix的收斂。

21.bert的mask為何不學習transformer在attention處進行屏蔽score的技巧?

答:BERT和transformer的目標不一致,bert是語言的預訓練模型,需要充分考慮上下文的關系,而transformer主要考慮句子中第i個元素與前i-1個元素的關系。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3701

    瀏覽量

    135690
  • 矩陣
    +關注

    關注

    0

    文章

    425

    瀏覽量

    34725
  • Transformer
    +關注

    關注

    0

    文章

    147

    瀏覽量

    6149

原文標題:21個Transformer面試題的簡單回答

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Nginx常見面試題總結

    Nginx是一 輕量級/高性能的反向代理Web服務器,用于 HTTP、HTTPS、SMTP、POP3 和 IMAP 協議。
    的頭像 發表于 03-03 09:36 ?108次閱讀
    Nginx常見<b class='flag-5'>面試題</b>總結

    硬件面試(一)

    硬件面試(一)
    的頭像 發表于 02-26 13:55 ?166次閱讀
    硬件<b class='flag-5'>面試</b>(一)

    面試題】人工智能工程師高頻面試題匯總:概率論與統計篇(題目+答案)

    、機器學習的那些算法,或者深度學習的框架,還有怎么優化模型,Transformer等,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的概率論與統計——貝
    的頭像 發表于 01-22 13:00 ?503次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:概率論與統計篇(題目+答案)

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統治世界。 我們花了兩年時間打造Sohu,這是世界上第一用于transformer(ChatGPT中的“T”)的專用芯片。 將transform
    的頭像 發表于 01-06 09:13 ?510次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    Redis使用重要的兩機制:Reids持久化和主從復制

    持久化的,也就是說要先存儲到磁盤上嘛,這樣才方便主從之間的數據同步。 此外,因為Redis 主從復制的原理也是后端面試必考知識點,所以先送上一份福利【77道redis高頻面試題匯總(帶答案)】,面試用到率85%! 部分內容展示:
    的頭像 發表于 12-18 10:33 ?194次閱讀
    Redis使用重要的兩<b class='flag-5'>個</b>機制:Reids持久化和主從復制

    面試題】人工智能工程師高頻面試題匯總:機器學習深化篇(題目+答案)

    ,或者深度學習的框架,還有怎么優化模型,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的機器學習深化方面的面試題,這些題目都是從實際面試中總結出來的,非
    的頭像 發表于 12-16 13:42 ?2212次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:機器學習深化篇(題目+答案)

    面試題】人工智能工程師高頻面試題匯總:Transformer篇(題目+答案)

    ,或者深度學習的框架,還有怎么優化模型,Transformer的一些知識,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的Transformer方面的面
    的頭像 發表于 12-13 15:06 ?696次閱讀
    【<b class='flag-5'>面試題</b>】人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:<b class='flag-5'>Transformer</b>篇(題目+答案)

    人工智能工程師高頻面試題匯總——機器學習篇

    ,或者深度學習的框架,還有怎么優化模型,這些都是加分項,能有效提高面試通過率。本篇小編整理了一些高頻的機器學習方面的面試題,這些題目都是從實際面試中總結出來的,非常具
    的頭像 發表于 12-04 17:00 ?1068次閱讀
    人工智能工程師高頻<b class='flag-5'>面試題</b>匯總——機器學習篇

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer
    的頭像 發表于 11-20 09:28 ?881次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發表于 11-20 09:27 ?546次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動駕駛中一直說的BEV+Transformer到底是啥?

    在很多車企的自動駕駛介紹中,都會聽到一關鍵技術,那就是BEV+Transformer,那BEV+Transformer到底是啥?為什么很多車企在自動駕駛技術中都十分追捧這項技術?其
    的頭像 發表于 11-07 11:19 ?685次閱讀
    自動駕駛中一直說的BEV+<b class='flag-5'>Transformer</b>到底是<b class='flag-5'>個</b>啥?

    程序員去面試只需一技能征服所有面試官!

    車輛工程專業的研究生去面試面試官最后問他會不會嵌入式。雖然應聘的崗位不是嵌入式工程師,但看來老板還是希望他能懂點這方面的知識。這個小插曲就說明了一重要的就業
    的頭像 發表于 11-05 19:35 ?316次閱讀
    程序員去<b class='flag-5'>面試</b>只需一<b class='flag-5'>個</b>技能征服所有<b class='flag-5'>面試</b>官!

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型由谷歌在2017年提出,并首次應用于神經機器翻譯
    的頭像 發表于 07-10 11:48 ?2357次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、訓練過程、關鍵組件以及實現細節。
    的頭像 發表于 07-02 11:41 ?2025次閱讀

    大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識 #面試題

    電子工程師電路
    安泰小課堂
    發布于 :2024年04月30日 17:33:15
    主站蜘蛛池模板: 99热都是精品 | 三级黄色在线观看 | 国产午夜精品久久理论片 | 久久网站视频 | 四虎国产一区 | 三级色视频 | 11 13加污女qq看他下面 | 精品国产手机视频在在线 | 亚洲午夜精品A片久久WWW软件 | 成人无码在线超碰视频 | 试看2分钟AA片 | 老师我好爽再深一点老师好涨 | 99免费在线观看视频 | 美女视频秀色福利视频 | 国产人成高清在线视频99 | 国产欧美国产综合第一区 | 一本色道久久综合亚洲精品加 | 亚洲无码小格式 | 国产AV无码熟妇人妻麻豆 | 成年人免费观看的视频 | 久久成人免费观看草草影院 | 国产精品高清在线观看地址 | 丰满老熟好大bbbxxx | 女教师の诱惑 | 久久秋霞理伦片 | 国模沟沟一区二区三区 | 久久成人无码国产免费播放 | 98色精品视频在线 | 贤妻良母电影日本 | 色精品极品国产在线视频 | 伊人久久丁香色婷婷啪啪 | 全黄h全肉短篇禁乱np | 一区二一二 | 久久这里的只有是精品23 | 久久草这里全是精品香蕉频线观 | 夜夜女人国产香蕉久久精品 | 国产精品久久人妻拍拍水牛影视 | 粉嫩极品国产在线观看 | 午夜宅宅伦电影网中文字幕 | 国产人妻人伦精品久久无码 | 亚洲 欧美 另类 中文 在线 |