色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

深度學習自然語言處理 ? 來源:YeungNLP ? 2023-04-14 10:30 ? 次閱讀

在文章Firefly(流螢): 中文對話式大語言模型中,我們介紹了關于Firefly(流螢)項目的工作,并且分享了我們訓練的firefly-1b4模型。這是Firefly項目開源的第一個模型,雖然取得了還不錯的效果,但無論是訓練數據還是模型參數量,都還有很大的優化空間。

所以,在firefly-1b4實驗的基礎上,我們對訓練數據進行清洗,并且增加了數據量,得到210萬數據,并用它訓練得到了firefly-2b6模型。

在本文中,我們將對該模型進行分享和介紹。與firefly-1b4相比,firefly-2b6的代碼生成能力取得了較大的進步,并且在古詩詞生成、對聯、作文、開放域生成等方面也有不錯的提升。

firefly-1b4和firefly-2b6的訓練配置如下表所示。無論是訓練數據量,還是訓練步數,firefly-2b6都更加充分。

參數 firefly-1b4 firefly-2b6
batch size 16 8
learning rate 3e-5 3e-5
warmup step 3000 3000
lr schedule cosine cosine
max length 512 512
training step 90k 260k
訓練集規模 160萬 210萬

項目地址:

https://github.com/yangjianxin1/Firefly

模型權重鏈接見文末。

模型使用

使用如下代碼即可使用模型:

from transformers import BloomTokenizerFast, BloomForCausalLM
device = 'cuda'
path = 'YeungNLP/firefly-2b6'


tokenizer = BloomTokenizerFast.from_pretrained(path)
model = BloomForCausalLM.from_pretrained(path)
model.eval()
model = model.to(device)
text = input('User:')
while True:
    text = '{}'.format(text)
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    input_ids = input_ids.to(device)
outputs=model.generate(input_ids,max_new_tokens=250,do_sample=True,top_p=0.7,temperature=0.35,
                             repetition_penalty=1.2, eos_token_id=tokenizer.eos_token_id)
    rets = tokenizer.batch_decode(outputs)
    output = rets[0].strip().replace(text, "").replace('', "")
    print("Firefly:{}".format(output))
    text = input('User:')

代碼生成

盡管在訓練集中,代碼的數據量不多,但令人驚喜的是,firefly-2b6已經具備一定的代碼生成能力。

在筆者的實測中,對于一些編程題,firefly-2b6生成的代碼可以做到無需修改,直接運行成功,并且得到正確的答案。下面將展示一些編程題的生成例子。

示例1:幫我用python寫一個冒泡排序算法

dee31870-d9b9-11ed-bfe3-dac502259ad0.png

示例2:用python實現一個快速排序算法,輸入為一個數組,返回排序好之后的數組。

deec2f32-d9b9-11ed-bfe3-dac502259ad0.png

示例3:用python寫一個二分查找算法。

defb67b8-d9b9-11ed-bfe3-dac502259ad0.png

示例4:寫一個函數,計算數組中偶數的個數,輸入為數組,輸出為偶數的個數。

df04d12c-d9b9-11ed-bfe3-dac502259ad0.png

示例5:用html生成一個教務管理系統的登錄界面,要求包含用戶名、密碼輸入框和登錄按鈕。

df0d21ce-d9b9-11ed-bfe3-dac502259ad0.png

該html代碼在瀏覽器中的效果如下圖:

df142ce4-d9b9-11ed-bfe3-dac502259ad0.png

其他樣例

同樣,我們也對文言文、古詩詞、文章生成等數據進行了清洗,提高數據的質量。實測下來,我們發現firefly-2b6的生成效果,確實提升了不少。

數據質量的優化,對文言文翻譯任務的提升,尤為明顯。在訓練firefly-1b4時,文言文數據為較短的句子對。但在訓練firefly-2b6時,我們使用了較長篇幅的文本對。

下面為一些實測的例子。

df1b8c28-d9b9-11ed-bfe3-dac502259ad0.png

df286d30-d9b9-11ed-bfe3-dac502259ad0.png

df352c5a-d9b9-11ed-bfe3-dac502259ad0.png

df3dc2e8-d9b9-11ed-bfe3-dac502259ad0.png

df457308-d9b9-11ed-bfe3-dac502259ad0.png

df4cf9ac-d9b9-11ed-bfe3-dac502259ad0.png

df5354dc-d9b9-11ed-bfe3-dac502259ad0.png

df59bf2a-d9b9-11ed-bfe3-dac502259ad0.png

df615a96-d9b9-11ed-bfe3-dac502259ad0.png

df6d2b96-d9b9-11ed-bfe3-dac502259ad0.png

文章小結

雖然firefly-2b6已經初步具備代碼生成能力,但由于訓練集中的代碼數據的數量不多,對于一些編程題,效果不如人意。我們覺得仍有非常大的優化空間,后續我們也將收集更多代碼數據,提升模型的代碼能力。

經過firefly-1b4和firefly-2b6兩個模型的迭代,能明顯感受到增加數據量、提升數據質量、增大模型參數量,對模型的提升非常大。

在前文中,我們提到,firefly-1b4在訓練數據量、訓練步數上都略有不足。為了探索"小"模型的效果上限,我們也將使用更多數量、更高質量的數據對firefly-1b4進行迭代。該項工作正在進行。

后續,我們也將在多輪對話、增大模型參數量、模型量化等方向上進行迭代,我們也將陸續開源訓練代碼以及更多的訓練數據。期待大家的意見和建議。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3255

    瀏覽量

    48905
  • 代碼
    +關注

    關注

    30

    文章

    4798

    瀏覽量

    68715
  • 語言模型
    +關注

    關注

    0

    文章

    527

    瀏覽量

    10291

原文標題:中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI大模型訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl :提供了大量的網頁抓取數據以供自然
    的頭像 發表于 10-23 15:32 ?727次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成 AI
    的頭像 發表于 09-06 14:59 ?332次閱讀
    NVIDIA Nemotron-4 340<b class='flag-5'>B</b><b class='flag-5'>模型</b>幫助開發者生成合成<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?443次閱讀

    英偉達開源Nemotron-4 340B系列模型,助力大型語言模型訓練

    近日,英偉達宣布開源了一款名為Nemotron-4 340B的大型模型,這一壯舉為開發者們打開了通往高性能大型語言模型(LLM)
    的頭像 發表于 06-17 14:53 ?577次閱讀

    語言模型:原理與工程實踐+初識2

    的一系列變革。 大語言模型是深度學習的應用之一,可以認為,這些模型的目標是模擬人類交流,為了理解和生成人類語言。為此,模型需要在大量文本
    發表于 05-13 00:09

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數據時表現出色,
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模預訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    和優化至關重要,它們能夠提供準確的反饋,指導模型訓練和調優過程中的改進方向。 大語言模型對話能力評測:
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然語言文本。這些
    發表于 05-04 23:55

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型,開發者可以免費使用,而Meta公司還將陸續推出一系列具備多模態、多語言對話、更
    的頭像 發表于 04-19 17:00 ?850次閱讀

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    等多種形式和任務。這個階段是從語言模型對話模型轉變的關鍵,其核心難點在于如何構建訓練數據,包括
    發表于 03-11 15:16

    機器人基于開源的多模態語言視覺大模型

    ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作
    發表于 01-19 11:43 ?424次閱讀
    機器人基于<b class='flag-5'>開源</b>的多模態<b class='flag-5'>語言</b>視覺大<b class='flag-5'>模型</b>

    書生?浦語 2.0(InternLM2)大語言模型開源

    這個模型在 2.6 萬億 token 的高質量語料基礎上進行訓練,包含 7B 和 20B 兩種參數規格以及基座、對話等版本,以滿足不同復雜應
    發表于 01-19 09:39 ?273次閱讀
    書生?浦語 2.0(InternLM<b class='flag-5'>2</b>)大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>開源</b>
    主站蜘蛛池模板: 久久久无码精品一区二区三区 | 亚洲永久免费视频| 伊人网综合在线观看| 69亞洲亂人倫AV精品發布| 大肥婆丰满大肥奶bbw肥| 果冻传媒APP免费网站在线观看| 蜜柚在线观看免费高清官网视频| 十八禁肉动漫无修在线播放| 亚洲一区在线观看视频| RUNAWAY韩国动漫免费网| 国产午夜在线观看视频播放| 免费国产足恋网站| 亚洲 视频 在线 国产 精品| 7m凹凸国产刺激在线视频| 囯产精品久久久久久久久蜜桃| 久艾草在线精品视频在线观看| 日本国产黄色片| 亚洲一区二区三区乱码在线欧洲| 宝贝好紧好爽再搔一点试視頻 | 日韩成人在线视频| 亚洲一区精品在线| 古风一女N男到处做高H| 久久久久久久久久综合情日本| 色多多旧版污污破解版| 中文日产无乱码AV在线观| 国产传媒在线播放| 伦理电影2499伦理片| 午夜福利体验试看120秒| av无码在线日本天堂| 九九在线精品视频| 深爱激情站| 99福利影院| 精品爽爽久久久久久蜜臀| 色婷婷欧美在线播放内射| 6080yy奇领电影在线看| 国语自产偷成人精品视频| 日本一区精品久久久久影院| 2021国产精品视频一区| 和美女啪啪啪动态图| 色欲AV亚洲永久无码精品麻豆 | 亚洲中文字幕无码一去台湾|