色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么樣的模型更適合zero-shot?

深度學(xué)習(xí)自然語言處理 ? 來源:無數(shù)據(jù)不智能 ? 2023-05-12 15:40 ? 次閱讀

什么樣的模型更適合zero-shot?

對于模型架構(gòu),不同的論文有不同的分發(fā),不同的名稱。我們不必糾結(jié)于稱謂,在這里我們延續(xù)BigScience的概念來討論,即:

  1. 架構(gòu):自回歸、非自回歸、編碼器-解碼器
  2. 目標(biāo):全語言模型、前綴語言模型、掩碼語言模型
  3. 適配器:不添加適配器、將自回歸模型用于掩碼目標(biāo)訓(xùn)練的適配器、將掩碼為目標(biāo)的模型轉(zhuǎn)化為純語言模型目標(biāo)
  4. 是否經(jīng)過多任務(wù)微調(diào)
  5. 評估數(shù)據(jù)集:EAI-Eval、T0-Eval

f1e805b4-ef0f-11ed-90ce-dac502259ad0.png

BigScience有兩項重要的結(jié)論,但這兩項結(jié)論是在控制預(yù)訓(xùn)練的預(yù)算的基礎(chǔ)上的,而非控制參數(shù)量。如此實驗編碼器-解碼器用了11B參數(shù)量,而純解碼器卻是4.8B。

  1. 如果不經(jīng)過多任務(wù)微調(diào),自回歸模型最好,掩碼語言模型跟隨機(jī)結(jié)果一樣。
  2. 如果經(jīng)過多任務(wù)微調(diào),編碼器-解碼器掩碼模型最好【這參數(shù)量都翻倍了,很難說不是參數(shù)量加倍導(dǎo)致的】。換個角度想,在多任務(wù)微調(diào)之后,自回歸全語言模型在參數(shù)量不到編碼器-解碼器掩碼模型一半,計算量還少10%的情況下,效果還能差不多。

f209e242-ef0f-11ed-90ce-dac502259ad0.png

來自科學(xué)空間的對比實驗【https://spaces.ac.cn/archives/9529】更是印證了這一點:

在同等參數(shù)量、同等推理成本下,Decoder-only架構(gòu)很可能是最優(yōu)選擇。

效果和模型形狀有沒有關(guān)系

在openAI的實驗中,通過控制參數(shù)量,分別調(diào)整模型形狀的三個指標(biāo)前饋維度比、寬高比、注意力頭維度,實驗表明,模型形狀對性能的依賴非常輕微。

f21ca788-ef0f-11ed-90ce-dac502259ad0.png

單獨研究層數(shù),排除嵌入層的影響,除了一層這種極端情況之外,同樣參數(shù)下,不同的層數(shù)傾向于收斂于同樣的損失。

f237de0e-ef0f-11ed-90ce-dac502259ad0.png

到底需要多少數(shù)據(jù)訓(xùn)練

在GPT-3中參數(shù)數(shù)據(jù)比約為1:1.7,而Chinchilla是為1:20。然而GPT-3參數(shù)量是Chinchilla的2.5倍,下游任務(wù)卻大范圍地輸給了Chinchilla。再看LLaMA就更離譜了約為1:77,只有13B參數(shù)量很多任務(wù)就超越了GPT-3。這是不是和咱公眾號名字很符合:【無數(shù)據(jù)不智能】,海量高質(zhì)量數(shù)據(jù)才是王道。

Model Parameters Training Tokens
LaMDA (2022) 137 Billion 168 Billion
GPT-3 (2020) 175 Billion 300 Billion
Jurassic (2021) 178 Billion 300 Billion
Gopher (2021) 280 Billion 300 Billion
MT-NLG 530B (2022) 530 Billion 270 Billion
Chinchilla(202) 70 Billion 1.4 Trillion
LLaMA(202) 13 Billion 1.0 Trillion

批次大小設(shè)置為多少好

f252e94c-ef0f-11ed-90ce-dac502259ad0.png

【Scaling Laws for Neural Language Models】實驗中表明batch size和模型大小無關(guān),只和想達(dá)到的loss有關(guān)(冪次關(guān)系),同時也受到噪聲數(shù)據(jù)的影響。

學(xué)習(xí)率多大合適

f264f2a4-ef0f-11ed-90ce-dac502259ad0.png

  1. 只要學(xué)習(xí)率不是太小,衰減不是太快,性能對學(xué)習(xí)率的依賴性并不強。
  2. 較大的模型需要較小的學(xué)習(xí)率來防止發(fā)散,而較小的模型可以容忍較大的學(xué)習(xí)率。
  3. 經(jīng)驗法則:LR(N) ≈ 0.003239 ? 0.0001395log(N),N:模型參數(shù)量

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時長和loss什么關(guān)系

f2812640-ef0f-11ed-90ce-dac502259ad0.png

參數(shù)量、數(shù)據(jù)量、訓(xùn)練時長和loss都存在冪指數(shù)關(guān)系

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1144

    瀏覽量

    40852
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3662

    瀏覽量

    135010
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3290

    瀏覽量

    49023

原文標(biāo)題:引用

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于將 CLIP 用于下游few-shot圖像分類的方案

    對比性圖像語言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強大的視覺領(lǐng)域遷移能力,可以在一個全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識別。
    的頭像 發(fā)表于 09-27 09:46 ?5435次閱讀

    震動環(huán)境下適合什么樣的液晶屏

    `經(jīng)常有客戶會問我們,因為終端的使用環(huán)境比較惡劣,基本上在不停的震動,選用什么樣的液晶屏可以在震動環(huán)境下長久使用呢?當(dāng)遇到這種問題的時候,我們首先會從液晶屏的結(jié)構(gòu)和連接方式上考慮。其實,液晶屏的顯示
    發(fā)表于 12-13 15:28

    什么樣的程序適合在GPU上運行呢

    算法計算力CPU、GPU、TPUCPU和GPU的簡單對比:CPU主要適合I/O密集型的任務(wù)GPU主要適合計算密集型的任務(wù)那么什么樣的程序適合在GPU上運行呢?1...
    發(fā)表于 09-07 07:56

    什么樣的示波器適合你?

    什么樣的示波器適合你?示波器自從問世以來,它一直是最重要、最常用的電子測試儀器之一。由于電子技術(shù)的發(fā)展,示波器的能力在不
    發(fā)表于 07-01 15:57 ?789次閱讀
    <b class='flag-5'>什么樣</b>的示波器<b class='flag-5'>適合</b>你?

    NLP事件抽取綜述之挑戰(zhàn)與展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的頭像 發(fā)表于 01-18 16:33 ?3849次閱讀
    NLP事件抽取綜述之挑戰(zhàn)與展望

    Zero-shot-CoT是multi-task的方法

    大規(guī)模預(yù)訓(xùn)練語言模型借助于針對特定任務(wù)設(shè)計的prompt(無論是few shot還是zero shot),在單步驟的system-1任務(wù)上有著出色表現(xiàn),但是對于那些緩慢和需要多步推理的
    的頭像 發(fā)表于 06-15 10:53 ?2475次閱讀

    基于Zero-Shot的多語言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標(biāo)注語料。但是對于其他小語種語言,目前很難得到大規(guī)模的標(biāo)注數(shù)據(jù)。
    的頭像 發(fā)表于 07-08 10:49 ?1561次閱讀

    介紹一個基于CLIP的zero-shot實例分割方法

    CLIP是近年來在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對模型進(jìn)行預(yù)訓(xùn)練,模型Zero-shot性能非??捎^,甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。
    的頭像 發(fā)表于 10-13 09:13 ?4833次閱讀

    從預(yù)訓(xùn)練語言模型看MLM預(yù)測任務(wù)

    為了解決這一問題,本文主要從預(yù)訓(xùn)練語言模型看MLM預(yù)測任務(wù)、引入prompt_template的MLM預(yù)測任務(wù)、引入verblize類別映射的Prompt-MLM預(yù)測、基于zero-shot
    的頭像 發(fā)表于 11-14 14:56 ?3180次閱讀

    基于GLM-6B對話模型的實體屬性抽取項目實現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過程中的no gradient upd
    的頭像 發(fā)表于 03-28 10:11 ?7063次閱讀

    模型LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?

    隨著全球大煉模型不斷積累的豐富經(jīng)驗數(shù)據(jù),人們發(fā)現(xiàn)大模型呈現(xiàn)出很多與以往統(tǒng)計學(xué)習(xí)模型、深度學(xué)習(xí)模型、甚至預(yù)訓(xùn)練小模型不同的特性,耳熟能詳?shù)娜鏔
    的頭像 發(fā)表于 05-29 14:36 ?1183次閱讀
    大<b class='flag-5'>模型</b>LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?

    邁向多模態(tài)AGI之開放世界目標(biāo)檢測

    OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shotzero-shot兩大類場景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別,zero-shot則是指不存在任何人
    的頭像 發(fā)表于 06-15 16:08 ?877次閱讀
    邁向多模態(tài)AGI之開放世界目標(biāo)檢測

    基于通用的模型PADing解決三大分割任務(wù)

    數(shù)據(jù)需要消耗巨大的時間以及人力成本。為處理上述難題,零本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒有訓(xùn)練樣本的新對象,并擴(kuò)展到分割任務(wù)中,例如零本語義分割(Zer
    的頭像 發(fā)表于 06-26 10:39 ?561次閱讀
    基于通用的<b class='flag-5'>模型</b>PADing解決三大分割任務(wù)

    為什么叫shot?為什么shot比掩膜版尺寸小很多?

    其中,步進(jìn)投影式光刻機(jī)(stepper)的一個shot一個shot進(jìn)行曝光的,并不是一整張晶圓同時曝光,那么stepper的shot什么樣的?多大尺寸?需要多大的掩膜版?
    的頭像 發(fā)表于 10-09 18:13 ?6901次閱讀
    為什么叫<b class='flag-5'>shot</b>?為什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

    最近,上下文學(xué)習(xí)策略已被證明在沒有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進(jìn)行zero-shot信息提取。不幸的是,推理的證據(jù)在思維鏈提示的構(gòu)建過程中沒有被考慮或隱式建模。
    的頭像 發(fā)表于 11-20 17:44 ?941次閱讀
    基于顯式證據(jù)推理的few-<b class='flag-5'>shot</b>關(guān)系抽取CoT
    主站蜘蛛池模板: ⅹxx日本护土| 一二三四在线视频社区| 国精产品一区一区三区有限在线| 中文字幕一区二区三区在线播放| 色综合久久88一加勒比| 久青草国产在线观看视频| 亚洲AVAV天堂AV在线网爱情| 美女被日出水| 精品亚洲AV无码蜜芽麻豆| 国产成人精品综合在线观看| 99九九精品视频| 伊人影院网| 亚州三级视频| 色偷偷777| 欧美一级久久久久久久久大| 久久久久久久久免费视频| 国产亚洲999精品AA片在线爽| 动漫美女被h动态图| a级全黄试频试看30分钟| 最美白虎逼| 与嫂子同居的日子在线观看 | 性xxx在线观看| 欧美夜夜噜2017最新| 久色乳综合思思在线视频| 国厂精品114福利电影| 国产精品久久久久久久A片冻果| 白百合在线观看| CHINESE熟女老女人HD视频| 337p啪啪人体大胆| 中文字幕日本一区| 在线高清电影理论片4399| 亚洲狠狠网站色噜噜| 亚洲AV一宅男色影视| 小草视频免费观看在线| 翁用力的抽插| 麻豆成人AV久久无码精品| 亚洲一区二区三区91| 亚洲成人黄色片| 喜马拉雅听书免费版| 性奴公司 警花| 午夜噜噜噜私人影院在线播放|