色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長文本擴(kuò)展技術(shù),打破LLM遺忘魔咒

人工智能與大數(shù)據(jù)技術(shù) ? 來源:新智元 ? 2023-10-18 15:54 ? 次閱讀

【導(dǎo)讀】大模型上下文從此不再受限!港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布了全新超長文本擴(kuò)展技術(shù)LongLoRA,只需2行代碼,讓LLM看小說,讀論文,輕松拿捏。

中途迷失、模型偷懶、上下文越長大模型越笨……

體驗(yàn)過LLM的人,多少都會(huì)對文本輸入長度帶來的限制有所感觸:

想和大模型討論一些稍長的內(nèi)容,就需要拆分輸入,而前面輸入的要點(diǎn),很快就會(huì)被大模型忘記。

實(shí)際上,這些都是典型的大語言模型對話缺陷。就像先天有注意力缺陷的兒童,難以專注看完一本新書。而缺陷的關(guān)鍵,在于模型缺乏長文本處理能力。

如今,這個(gè)局面已經(jīng)被打破了!

就在近日,由賈佳亞團(tuán)隊(duì)聯(lián)合MIT發(fā)布的新技術(shù)和新模型,悄然登上各大開源網(wǎng)站的熱榜:

Hugging Face熱榜第一、Papers With Code熱度第一,Github全部Python項(xiàng)目熱度第五、Github Stars一周內(nèi)破千,Twitter上的相關(guān)技術(shù)帖子瀏覽量近18萬。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2309.12307

代碼和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已達(dá)1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相關(guān)技術(shù)帖子瀏覽量近18萬

這項(xiàng)名為LongLoRA的技術(shù)實(shí)用但卻簡單得令人驚訝:

只需兩行代碼、一臺(tái)8卡A100機(jī)器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens。

同時(shí),該研究團(tuán)隊(duì)還發(fā)布了首個(gè)擁有70B參數(shù)量的長文本對話大語言模型LongAlpaca。

全球首個(gè)70B長文本大語言模型發(fā)布

LongLoRA的提出,讓全球大語言模型的對話缺陷第一次得到解決,自此,幾十頁的論文、幾百頁的報(bào)告、鴻篇巨制不再成為大模型盲區(qū)。

對此,有專業(yè)人士激動(dòng)地表示,LongLoRA是大語言模型迷宮中的希望之燈!

它代表著業(yè)界對長文本大語言模型的重新思考和關(guān)注,有效擴(kuò)展了大語言模型的上下文窗口,允許模型考慮和處理較長的文本序列,是大語言模型的革新性發(fā)明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技術(shù)革新外,大語言模型處理長文本問題的一大難點(diǎn)還在于缺少公開的長文本對話數(shù)據(jù)。

為此,研究團(tuán)隊(duì)特意收集了9k條長文本問答語料對,包含針對名著、論文、深度報(bào)道甚至財(cái)務(wù)報(bào)表的各類問答。

光會(huì)回答長問題還不夠,該團(tuán)隊(duì)又挑選了3k的短問答語料與9K的長問答語料混合訓(xùn)練,讓長文本大模型同時(shí)具備短文本對話能力。這個(gè)完整的數(shù)據(jù)集被稱為LongAlpaca-12k,目前已經(jīng)開源。

在LongAlpaca-12k數(shù)據(jù)集基礎(chǔ)上,研究團(tuán)隊(duì)對不同參數(shù)大小7B、13B、70B進(jìn)行了訓(xùn)練和評(píng)測,開源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小說、改論文、指點(diǎn)經(jīng)濟(jì)堪稱全能王

話不多說,盲選幾個(gè)demo,一起看看應(yīng)用了LongLoRA技術(shù)疊加12K問答語料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

讓系統(tǒng)新讀一篇論文,并根據(jù)ICLR的審查指南,對其提出修改意見,從而提升該論文的接收率:

LongAlpaca的意見是:通過更精確地闡明新穎性,提供更嚴(yán)格和更有對比性的實(shí)驗(yàn)結(jié)果(包括具體的數(shù)據(jù)集和指標(biāo))、更廣泛的應(yīng)用和未來發(fā)展方向,重點(diǎn)呈現(xiàn)關(guān)鍵貢獻(xiàn)和影響,論文被接受的機(jī)會(huì)將得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

現(xiàn)在,讓系統(tǒng)讀兩篇新的不同的論文,讓LongAlpaca概括ICLR和CVPR兩個(gè)會(huì)議之間的風(fēng)格區(qū)別:

LongAlpaca總結(jié)認(rèn)為,CVPR論文傾向更具結(jié)構(gòu)性和實(shí)驗(yàn)性的風(fēng)格,專注于實(shí)用性和技術(shù)性。而ICLR的論文風(fēng)格更加靈活,側(cè)重關(guān)鍵的理論分析和數(shù)學(xué)推導(dǎo),而非標(biāo)準(zhǔn)格式。

可以看出,經(jīng)過訓(xùn)練的LongAlpaca模型已經(jīng)可以很輕松地接受新的長篇學(xué)術(shù)論文,在學(xué)術(shù)相關(guān)問題的回答上相當(dāng)精準(zhǔn)。

接下來,再看看LongAlpaca模型在頗高閱讀和理解門檻的經(jīng)濟(jì)領(lǐng)域的解讀表現(xiàn)。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根據(jù)國際貨幣基金組織從2012年到2023年的全球經(jīng)濟(jì)展望的概述合集,對經(jīng)濟(jì)形勢進(jìn)行逐年總結(jié)以及對未來經(jīng)濟(jì)趨勢進(jìn)行預(yù)測:

LongAlpaca告訴我們,2023年全球經(jīng)濟(jì)形勢不明朗,跟2022年相比,增長預(yù)計(jì)放緩;未來幾年,全球經(jīng)濟(jì)擴(kuò)張速度偏溫和并將低于預(yù)期,而地緣政治緊張、金融市場波動(dòng)等大的挑戰(zhàn)依然存在,需通過多邊合作和結(jié)構(gòu)性改革小心應(yīng)對。

此外,LongAlpaca還可以讀新的長篇小說,讀完后對內(nèi)容進(jìn)行分析。

下面選取的對比模型是13B參數(shù)的LongAlpaca和Llama2,且看各自表現(xiàn)。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游記》中,為什么孫悟空在大鬧天宮時(shí)很厲害,但取經(jīng)路上卻屢屢受挫?

LongAlpaca給出了5點(diǎn)原因,大概可總結(jié)為:「孫悟空的不成熟、強(qiáng)大的對手、力量的限制、敵人的欺騙、最初缺少同伴等因素導(dǎo)致了他在旅途中的失敗。但隨著時(shí)間推移,他獲得了智慧、經(jīng)驗(yàn)和戰(zhàn)友,使他最終戰(zhàn)勝了最強(qiáng)大的敵人?!?/p>

而Llama2并沒有給出正確答案:「雖然他確實(shí)大鬧天宮,但說他代表著不敗的力量并不一定準(zhǔn)確。事實(shí)上,他最終在西游記中被強(qiáng)大的唐三藏打敗。」

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

這一次讓系統(tǒng)新讀一次《三體》,然后問第一部中,葉文潔為什么要聯(lián)系外星人,而后期又為什么后悔?

LongAlpaca認(rèn)為,葉文潔最初接觸外星人是出于理想主義和復(fù)仇,但隨著時(shí)間的推移,她對人類的看法發(fā)生了變化,意識(shí)到自己可能給全人類帶來的危險(xiǎn),她的悔恨與日俱增?;卮鸬檬智逦?/p>

而Llama2的回答則是,「通過與外星人的互動(dòng),她希望能更深入地了解宇宙的本質(zhì),以及自己在宇宙中的位置。葉文潔逐漸意識(shí)到,外星人和他們的技術(shù)并不能解決她的問題?!够卮鸹\統(tǒng),之后開始對小說整體進(jìn)行評(píng)論,答非所問。

從模型給出的答案可發(fā)現(xiàn),一些模型如Llama2[2]可能在預(yù)訓(xùn)練過程中見過相關(guān)小說,但如果在提問時(shí)進(jìn)行僅根據(jù)小說題目進(jìn)行短文本提問的話,回答并不理想。

兩個(gè)模型的回答對比,高下立見。LongAlpaca改學(xué)術(shù)論文、點(diǎn)評(píng)全球經(jīng)濟(jì)大勢和讀小說,都是一把好手,完勝Llama2。

兩行代碼和三個(gè)關(guān)鍵結(jié)論

Llama2可以說是AI社區(qū)內(nèi)最強(qiáng)大的開源大模型之一,行業(yè)位置領(lǐng)先,LongAlpaca居然可以完勝。其背后的LongLoRA技術(shù)成功引起網(wǎng)友們的注意,到底是怎么做到的?

原來大語言模型對長文本處理過程中,計(jì)算量的主要開銷集中在自注意力機(jī)制(self-attention),其開銷隨著文本長度成平方次地增加。

針對這個(gè)問題,研究團(tuán)隊(duì)提出LongLoRA技術(shù),并用分組和偏移的方式來對全局自注意力機(jī)制進(jìn)行模擬

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

簡單來說,就是將長文本對應(yīng)的tokens拆分成不同的組,在每組內(nèi)部做自注意力計(jì)算,而分組的方式在不同注意力頭(attention head)上有所偏移。

這樣的方式既可以大幅度節(jié)約計(jì)算量,又可以維持全局感受野的傳遞。

而且,這個(gè)實(shí)現(xiàn)方法也非常簡潔,僅兩行代碼即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA還探索了低秩訓(xùn)練的方式。

原有的低秩訓(xùn)練方式,如LoRA[5],無法在文本長度遷移上取得良好的效果。

而LongLoRA在低秩訓(xùn)練的基礎(chǔ)上,引入嵌入層(Embedding layer和 Normalization layers)進(jìn)行微調(diào),從而達(dá)到可以和全參數(shù)微調(diào)(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

進(jìn)行不同長度文本擴(kuò)展和訓(xùn)練時(shí),LongLoRA、LoRA和全參數(shù)微調(diào)不同技術(shù)的具體效果如何,可以參考三個(gè)維度表現(xiàn):

在Perplexity-困惑度上,原有LoRA方法的性能在不斷惡化,而LongLoRA和全參數(shù)微調(diào)都能在各種文本長度下維持很好的效果;

在顯存消耗上,相比于全參數(shù)微調(diào),LongLoRA和原有LoRA都有大幅度的節(jié)省。例如,對于8k長度的模型訓(xùn)練,相比于全參數(shù)微調(diào),LongLoRA將顯存消耗從46.3GB降低到25.6GB。

在訓(xùn)練時(shí)間上,對于64k長度的模型訓(xùn)練,相比于常規(guī)LoRA,LongLoRA將訓(xùn)練時(shí)間從90~100小時(shí)左右降低到52.4小時(shí),而全參數(shù)微調(diào)超過1000小時(shí)。

極簡的訓(xùn)練方法、極少的計(jì)算資源和時(shí)間消耗,以及極佳的準(zhǔn)確性,令LongLoRA大規(guī)模推廣成為可能。

目前,相關(guān)技術(shù)與模型已全部開源,感興趣的用戶們可以自己部署感受。

值得一提的是,這是賈佳亞團(tuán)隊(duì)繼8月9日發(fā)布的「可以分割一切」的多模態(tài)大模型LISA后的又一力作。

相距不過短短兩個(gè)月,不得不說,這研究速度和能力跟LongLoRA一樣驚人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    527

    瀏覽量

    10287
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24726
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    290

    瀏覽量

    351

原文標(biāo)題:2行代碼,「三體」一次讀完!港中文賈佳亞團(tuán)隊(duì)聯(lián)手MIT發(fā)布超長文本擴(kuò)展技術(shù),打破LLM遺忘魔咒

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    單日獲客成本超20萬,國產(chǎn)大模型開卷200萬字以上的長文本處理

    更精準(zhǔn)的推理和高并發(fā)流量以外,似乎已經(jīng)沒有太多值得廠商大肆宣傳的特性了,直到最近超長文本處理的爆火。 ? 國產(chǎn)大模型的新卷法,長文本處理 ? 當(dāng)下將大模型長文本處理炒熱的,無疑是來自月之暗面的Kimi。作為去年
    的頭像 發(fā)表于 03-27 00:53 ?3387次閱讀
    單日獲客成本超20萬,國產(chǎn)大模型開卷200萬字以上的<b class='flag-5'>長文本</b>處理

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉
    的頭像 發(fā)表于 11-19 15:32 ?636次閱讀

    LLM技術(shù)的未來趨勢分析

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM)已經(jīng)成為自然語言處理(NLP)領(lǐng)域的一個(gè)熱點(diǎn)。這些模型通過分析和學(xué)習(xí)大量的文本數(shù)據(jù),能夠執(zhí)行多種語言任務(wù),如文本生成、翻譯、問答和情感
    的頭像 發(fā)表于 11-08 09:35 ?272次閱讀

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型(LLM)是一個(gè)復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)鍵考慮因素: 定義目標(biāo)和需求 : 確定你的LLM將用
    的頭像 發(fā)表于 11-08 09:30 ?584次閱讀

    LLM技術(shù)對人工智能發(fā)展的影響

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM技術(shù)已經(jīng)成為推動(dòng)AI領(lǐng)域進(jìn)步的關(guān)鍵力量。LLM技術(shù)通過深度學(xué)習(xí)和自然語言處理
    的頭像 發(fā)表于 11-08 09:28 ?406次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是一些常見的LLM模型格式
    的頭像 發(fā)表于 07-09 09:59 ?650次閱讀

    llm模型和chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務(wù),如文本生成、
    的頭像 發(fā)表于 07-09 09:55 ?1114次閱讀

    LLM模型的應(yīng)用領(lǐng)域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然語言文本。近年來,隨著計(jì)
    的頭像 發(fā)表于 07-09 09:52 ?614次閱讀

    什么是LLMLLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力,
    的頭像 發(fā)表于 07-02 11:45 ?7914次閱讀

    MiniMax推出“海螺AI”,支持超長文本處理

    近日,大模型公司MiniMax宣布,其全新產(chǎn)品“海螺AI”已正式上架。這款強(qiáng)大的AI工具支持高達(dá)200ktokens的上下文長度,能夠在1秒內(nèi)處理近3萬字的文本
    的頭像 發(fā)表于 05-17 09:30 ?748次閱讀

    日本團(tuán)隊(duì)發(fā)布在富岳超算上訓(xùn)練的Fugaku-LLM大模型

    自2023年5月起,F(xiàn)ugaku-LLM模型的開發(fā)工作開始展開,最初參與團(tuán)隊(duì)包括富士通、東京工業(yè)大學(xué)、日本東北大學(xué)以及日本理化學(xué)研究所(簡稱理研)。
    的頭像 發(fā)表于 05-11 10:05 ?414次閱讀

    訊飛星火長文本功能全新升級(jí)

    科大訊飛近日宣布,其首個(gè)長文本、長圖文、長語音大模型已完成全新升級(jí)。這一大模型不僅具備強(qiáng)大的學(xué)習(xí)能力,可以快速吸收海量文本、圖文資料以及會(huì)議錄音等多元化信息,更能在各行業(yè)場景中提供精準(zhǔn)、專業(yè)的回答。
    的頭像 發(fā)表于 05-06 11:22 ?563次閱讀

    科大訊飛創(chuàng)新推出長文本、長圖文、長語音大模型,解決落地難題

    近期,科大訊飛推出了首個(gè)支持長文本、長圖及語音大數(shù)據(jù)處理的大模型,該系統(tǒng)融合了多元化數(shù)據(jù)源,包括海量文字、圖片以及會(huì)議音頻等,能為各行業(yè)場景提供專業(yè)化、精準(zhǔn)化的答案。
    的頭像 發(fā)表于 04-28 09:32 ?380次閱讀

    Kimi爆火背后的技術(shù)奧秘 大模型長文本能力的技術(shù)難點(diǎn)

    當(dāng)用戶認(rèn)為在國內(nèi)的大模型中,長文本=kimi的時(shí)候,除非競爭對手能以絕對的實(shí)力碾壓幾個(gè)量級(jí),但凡與kimi打平或者是微弱超越,都很難威脅到kimi在用戶心目中的地位。
    發(fā)表于 04-17 10:11 ?1273次閱讀
    Kimi爆火背后的<b class='flag-5'>技術(shù)</b>奧秘 大模型<b class='flag-5'>長文本</b>能力的<b class='flag-5'>技術(shù)</b>難點(diǎn)

    快速全面了解大模型長文本能力

    那關(guān)于LLM長文本能力,目前業(yè)界通常都是怎么做的?有哪些技術(shù)點(diǎn)或者方向?今天我們就來總結(jié)一波,供大家快速全面了解。
    發(fā)表于 02-22 14:04 ?870次閱讀
    快速全面了解大模型<b class='flag-5'>長文本</b>能力
    主站蜘蛛池模板: 99久久久无码国产精品AAA| 凤楼app| 亚洲视频国产| 东北小伙FREECHINESE野外| 亚洲精品一二三区-久久| 亚洲欧洲免费三级网站| 一个人的免费高清影院| 优菈的乳液狂飙天堂W98| 5G在线观看免费年龄确认18| 99在线精品国自产拍| 俄罗斯性xxxx| 国产一区二区三区国产精品| 广播电台在线收听| nxgx69日本护士| 粉嫩极品国产在线观看| 国产亚洲美女精品久久久2020| 精品亚洲AV无码蜜芽麻豆| 簧片高清在线观看| 国内一级一级毛片a免费| 久久er国产免费精品| 免费视频久久只有精品| 乳欲性高清在线| 亚洲欧洲日产国码久在线| 91桃色污无限免费看| 76人遣返航班上71人呈阳性| 把腿张开JI巴CAO死你H教室| 国产精品久久久久久久久99热 | 精品国产原创在线观看视频| 就去色一色| 色99蜜臀AV无码| 亚洲天堂一区二区三区| 99精品影院| 国产亚洲精品久久久无码狼牙套| 久久精品无码人妻无码AV蜜臀| 亲爱的妈妈6韩国电影免费观看| 欧美四虎精品二区免费| 全黄h全肉短篇禁乱np| 亚洲精品久久久久久蜜臀| 69久久国产精品热88人妻| 国产精品7777人妻精品冫| 久久久无码精品亚洲欧美 |