色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RoPE可能是LLM時(shí)代的Resnet

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-07-14 16:58 ? 次閱讀

因?yàn)楹吞K神做過一段時(shí)間同事,所以2021年就知道RoPE了,當(dāng)時(shí)也沒太在意,因?yàn)槲恢镁幋a是在為transformer類模型提供位置信息,在我實(shí)際實(shí)驗(yàn)中不同位置編碼對最終效果差別很小。

2023年LLM大爆發(fā),facebook開源了LLAMA模型,并且采用了RoPE,我也第一時(shí)間用上了LLAMA,那會(huì)感覺RoPE有點(diǎn)東西,但是還是心理覺得位置編碼沒那么重要

直到最近fb發(fā)了一篇文章《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》通過線性插值+少量微調(diào)的方式將LLAMA原始2k的模型輕松拓展到了32k,這時(shí)候我感覺到RoPE的強(qiáng)大之處。

進(jìn)NLP群—>加入NLP交流群

通過線性插值RoPE擴(kuò)張LLAMA context長度最早其實(shí)是在llamacpp項(xiàng)目中被人發(fā)現(xiàn),有人在推理的時(shí)候直接通過線性插值將LLAMA由2k拓展到4k,性能沒有下降,引起了很多人關(guān)注。fb的論文給這個(gè)發(fā)現(xiàn)提供了理論和實(shí)驗(yàn)支撐,進(jìn)一步發(fā)現(xiàn)通過線性插值+微調(diào)可以擴(kuò)展到32k長度。實(shí)現(xiàn)非常簡單,只需要對位置編碼進(jìn)行線性插值,初始化的時(shí)候增加幾行代碼就行

defRotaryEmbedding(torch.nn.Module):
def__init__(self,dim,max_position_embeddings=2048,base=10000,device=None):
super().__init__()
inv_freq=1.0/(base**(torch.arange(0,dim,2).float().to(device)/dim))
self.register_buffer("inv_freq",inv_freq)

max_position_embeddings=8192

#Buildheretomake`torch.jit.trace`work.
self.max_seq_len_cached=max_position_embeddings
t=torch.arange(
self.max_seq_len_cached,
device=self.inv_freq.device,
dtype=self.inv_freq.dtype,
)

self.scale=1/4
t*=self.scale

freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1)
self.register_buffer(
"cos_cached",emb.cos()[None,None,:,:],persistent=False
)
self.register_buffer(
"sin_cached",emb.sin()[None,None,:,:],persistent=False
)

這兩天reddit上又出現(xiàn)了ntk RoPE通過引入新的插值的scale,來擴(kuò)展context,甚至微調(diào)都不需要!讓人震撼。實(shí)現(xiàn)也是極其簡單

importtransformers

old_init=transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__
defntk_scaled_init(self,dim,max_position_embeddings=2048,base=10000,device=None):

#Themethodisjustthesethreelines
max_position_embeddings=16384
a=8#Alphavalue
base=base*a**(dim/(dim-2))#Basechangeformula

old_init(self,dim,max_position_embeddings,base,device)


transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__=ntk_scaled_init

具體解釋可以參考蘇神自己寫的文章[1]

為什么說RoPE會(huì)成為LLM時(shí)代的Resnet,首先是兩者解決的問題有相似性。

Resnet解決了卷積模型變深之后梯度消失的問題,使的深度模型大放光彩。

RoPE類似的也解決了LLM context過長之后引起的上下文無法關(guān)聯(lián)問題。

兩者都有結(jié)構(gòu)簡單,方法有效的優(yōu)點(diǎn),這個(gè)在工程上有極大的優(yōu)勢,個(gè)人預(yù)感RoPE將會(huì)被大規(guī)模采用。如同當(dāng)年Resnet一樣。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3254

    瀏覽量

    48878
  • resnet
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    3171
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    290

    瀏覽量

    351

原文標(biāo)題:RoPE可能是LLM時(shí)代的Resnet

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    labview中while循環(huán)不執(zhí)行可能是什么原因

    請教一下,labvlew中while循環(huán)不執(zhí)行可能是什么原因?
    發(fā)表于 05-13 18:29

    請問這個(gè)可能是什么IC

    請問這個(gè)可能是什么IC
    發(fā)表于 02-15 10:23

    IPv6協(xié)議棧中AH可能是和諧的嗎

    在IPv6協(xié)議棧中,AH可能是和諧的嗎?如果你使用的是MZ芯片上的密碼?隨著最近基于物聯(lián)網(wǎng)的攻擊,安全性成為了一個(gè)大話題。
    發(fā)表于 04-26 09:28

    基于resnet10+ssd的虹膜檢測方式

    基于resnet10+ssd的虹膜檢測
    發(fā)表于 05-01 15:17

    這個(gè)三腳的元器件可能是什么東西

    這個(gè)三腳的東西可能是什么,在電路板上是個(gè)很小的元件,一開始猜是個(gè)穩(wěn)壓管,但是上側(cè)的二極管和電阻說不通
    發(fā)表于 05-15 20:33

    伺服電機(jī)異響可能是哪方面的原因?

    伺服電機(jī)異響可能是哪方面的原因?
    發(fā)表于 11-15 07:02

    5G難改手機(jī)市場格局 更大的可能是強(qiáng)者恒強(qiáng)

    4G時(shí)代國內(nèi)手機(jī)市場形成了華米歐維新四大,有人認(rèn)為5G時(shí)代的到來或?qū)⑷?G時(shí)代一樣導(dǎo)致國內(nèi)智能手機(jī)市場的變局,不過筆者認(rèn)為這種可能性不大,更大的可能
    的頭像 發(fā)表于 07-30 10:10 ?3076次閱讀

    移動(dòng)空間可能是Microsoft面臨的最大問題之一

    移動(dòng)空間可能是Microsoft面臨的最大問題之一。該公司的Windows Mobile平臺仍在由創(chuàng)新的觸摸屏平臺(如Apple的iOS和Google的Android操作系統(tǒng))主導(dǎo)的市場中苦苦掙扎。
    的頭像 發(fā)表于 04-16 14:51 ?2787次閱讀

    單片機(jī)程序死機(jī),可能是這幾個(gè)原因

    單片機(jī)程序死機(jī),可能是這幾個(gè)原因
    的頭像 發(fā)表于 06-19 17:18 ?8892次閱讀
    單片機(jī)程序死機(jī),<b class='flag-5'>可能是</b>這幾個(gè)原因

    基于ResNet的手勢識別邊緣計(jì)算項(xiàng)目

    電子發(fā)燒友網(wǎng)站提供《基于ResNet的手勢識別邊緣計(jì)算項(xiàng)目.zip》資料免費(fèi)下載
    發(fā)表于 06-14 14:53 ?0次下載
    基于<b class='flag-5'>ResNet</b>的手勢識別邊緣計(jì)算項(xiàng)目

    PLC指示燈異常閃爍可能是哪些原因造成的?

    PLC指示燈異常閃爍可能是由多種原因造成的。以下是一些常見的可能原因
    的頭像 發(fā)表于 12-05 09:03 ?1.5w次閱讀

    英特爾攜手騰訊云用CPU打造LLM時(shí)代數(shù)據(jù)中樞,共筑AGI基建

    英特爾攜手騰訊云用CPU打造LLM時(shí)代數(shù)據(jù)中樞,共筑AGI基建
    的頭像 發(fā)表于 05-27 11:53 ?534次閱讀
    英特爾攜手騰訊云用CPU打造<b class='flag-5'>LLM</b><b class='flag-5'>時(shí)代</b>數(shù)據(jù)中樞,共筑AGI基建

    什么是LLMLLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力,在文本
    的頭像 發(fā)表于 07-02 11:45 ?7876次閱讀

    LLM模型的應(yīng)用領(lǐng)域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然語言文本。近年來,隨著計(jì)算能力的提高
    的頭像 發(fā)表于 07-09 09:52 ?612次閱讀

    什么是LLMLLM在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型(LLM)的出現(xiàn),標(biāo)志著我們對語言理解能力的一次飛躍。LLM通過深度學(xué)習(xí)和海量數(shù)據(jù)訓(xùn)練,使得機(jī)器能夠以前
    的頭像 發(fā)表于 11-19 15:32 ?626次閱讀
    主站蜘蛛池模板: 大香伊蕉在人线国产97| 超碰97人人做人人爱少妇| 日本无码人妻丰满熟妇5G影院| 久久re热在线视频精69| 国产亚洲国际精品福利| 国产ts在线| 丰满大爆乳波霸奶| 超碰在线视频地址| 成人性生交大片免费看中文| wwwzzz日本| TUBE69CHINESE学生| AV72啪啪网站| jizz老太婆| 办公室激情在线观看| WRITEAS塞红酒瓶| 柏木舞子在线| 给个男人都懂的网址2019| 国产99视频精品一区| 国产精品欧美久久久久天天影视 | zooskoo1videos人与狗| mxgs-877痉挛媚药按摩| 被黑人群jian又粗又大H| 波多结衣一区二区三区| 高hh乱亲女真实| 国产成人在线小视频| 国产欧美二区综合| 国产午夜电影院| 黑人强伦姧人妻日韩那庞大的| 紧缚束缚调教丨vk| 久久久久综合一本久道| 麻豆无人区乱码| 欧美日韩高清一区| 日韩丰满少妇无码内射| 挺进绝色老师的紧窄小肉六| 亚洲a视频在线观看| 亚洲永久免费视频| 24小时日本在线观看片免费| xxx日本免费| 国产免费午夜高清| 精品国产自在自线官方| 麻豆一区二区三区蜜桃免费|