色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

深度學習自然語言處理 ? 來源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀

為了助力大模型研究,復旦大學自然語言處理實驗室開源了中文圖書數(shù)據(jù)集合CBook-150K,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領(lǐng)域。

當前很多研究表明,高質(zhì)量數(shù)據(jù)對于訓練大規(guī)模語言模型具有至關(guān)重要的作用。圖書中的內(nèi)容在質(zhì)量、專業(yè)水準、可靠性等方面遠高于互聯(lián)網(wǎng)數(shù)據(jù)。OpenAI在訓練GPT 3時,也使用了大量圖書資源。但是目前還缺乏大規(guī)模的中文圖書開放集合。此外,由于絕大多數(shù)電子書籍的保存方式為PDF格式,從其中抽取文本內(nèi)容也需要分析工具支持。復旦大學自然語言處理實驗室結(jié)合此前自主開發(fā)的相關(guān)PDF分析工具,開源了中文語料圖書集合CBook-150K。

復旦大學自然語言處理實驗室,自2019年起,自研了PDF處理工具DocAI,針對非掃描件PDF,具有能夠處理復雜格式、高效、高準確率、可私有化部署等特點。DocAI在全CPU解決方案下,單核CPU處理100頁文檔僅需10秒。提取字符準確率100%,結(jié)構(gòu)分析準確率95%。DocAI智能文檔解析系統(tǒng)支持對DOC、PDF等常見電子文檔進行智能解析,對文檔中的標題、段落、表格等半結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化分析還原。該應(yīng)用場景具有文件類型多,格式復雜,兼容性要求高等特點,特別是對于跨頁表格,多欄排版等復雜場景的支持。是目前支持段落、表格融合識別的為數(shù)不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環(huán)境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結(jié)合DocAI工具以及搜索引擎,復旦大學自然語言處理實驗室從互聯(lián)網(wǎng)中篩選了大量中文圖書資源鏈接,并構(gòu)造了內(nèi)容抽取算法,助力廣大學者NLP大模型研究,同時也在實踐與操作中不斷迭代更新,完善大型語料庫的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3363

    瀏覽量

    42544
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    618

    瀏覽量

    13573
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22052

原文標題:NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    開源模型在多個業(yè)務(wù)場景的應(yīng)用案例

    在人工智能發(fā)展浪潮中,大模型開源與閉源之爭一直是業(yè)內(nèi)的熱點話題。隨著技術(shù)的不斷進步和應(yīng)用場景的日益豐富,如何降低大模型的使用門檻,讓更多人能夠便捷地應(yīng)用于實際業(yè)務(wù)場景,成為了推動行業(yè)發(fā)展的關(guān)鍵所在。而
    的頭像 發(fā)表于 12-30 10:16 ?113次閱讀

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經(jīng)過訓練,能夠執(zhí)
    的頭像 發(fā)表于 12-14 10:33 ?197次閱讀

    阿里通義千問代碼模型全系列開源

    近日,阿里云通義大模型團隊宣布了一項重大決策:將通義千問代碼模型全系列正式開源。此次開源模型系列共包含6款Qwen2.5-Coder
    的頭像 發(fā)表于 11-14 15:26 ?359次閱讀

    科技云報到:假開源真噱頭?開源模型和你想的不一樣!

    查看、修改、分發(fā)。開源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業(yè)界關(guān)注焦點,對于開源和閉源的爭論也久久未能平息。然而,大
    的頭像 發(fā)表于 11-03 10:46 ?236次閱讀

    Llama 3 與開源AI模型的關(guān)系

    在人工智能(AI)的快速發(fā)展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術(shù)的創(chuàng)新,還促進了全球開發(fā)者社區(qū)的合作。Llama 3,作為一個新興的AI項目,與開源AI模型的關(guān)系
    的頭像 發(fā)表于 10-27 14:42 ?381次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次
    的頭像 發(fā)表于 07-09 10:39 ?407次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是一種心理學方法,它研究人類思維、語言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發(fā)表于 07-09 10:35 ?790次閱讀

    nlp自然語言處理基本概念及關(guān)鍵技術(shù)

    、問答系統(tǒng)、文本摘要等眾多領(lǐng)域有著廣泛的應(yīng)用。 1. NLP的基本概念 1.1 語言模型 語言模型NLP的基礎(chǔ),它用于描述一個句子在自然語言中出現(xiàn)的概率。語言
    的頭像 發(fā)表于 07-09 10:32 ?636次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是一些常見的LLM
    的頭像 發(fā)表于 07-09 09:59 ?650次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構(gòu)建過程,包括數(shù)據(jù)預處理、模型選擇、訓練與優(yōu)化等方面。 數(shù)據(jù)預處理 數(shù)據(jù)預處理是NLP模型構(gòu)建的第一步,其
    的頭像 發(fā)表于 07-05 09:59 ?654次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領(lǐng)域一些模型的介紹
    的頭像 發(fā)表于 07-05 09:57 ?763次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨特的優(yōu)勢,適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN
    的頭像 發(fā)表于 07-03 15:59 ?551次閱讀

    通義千問推出1100億參數(shù)開源模型

    通義千問近日震撼發(fā)布1100億參數(shù)的開源模型Qwen1.5-110B,這一舉措標志著通義千問在AI領(lǐng)域邁出了重大步伐。該模型成為通義千問全系列首個千億級參數(shù)開源
    的頭像 發(fā)表于 05-06 10:49 ?590次閱讀

    模型開源開放評測體系司南正式發(fā)布

    近日,大模型開源開放評測體系司南(OpenCompass2.0)正式發(fā)布,旨在為大語言模型、多模態(tài)模型等各類模型提供一站式評測服務(wù)。Open
    的頭像 發(fā)表于 02-05 11:28 ?1075次閱讀

    機器人基于開源的多模態(tài)語言視覺大模型

    ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發(fā)表于 01-19 11:43 ?424次閱讀
    機器人基于<b class='flag-5'>開源</b>的多模態(tài)語言視覺大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 纯h超级大尺度小黄文| 嫩草国产精品99国产精品| 亚洲精品日韩在线观看视频| 欧美人与动牲交ZOOZ特| 国产伦精品一区二区三区免费观看| 40分钟超爽大片黄| 亚洲绝美精品一区二区| 色综合五月激情综合色一区| 久久中文字幕乱码免费| 国产在线观看成人免费视频| 持田香织abc| 99热精品在线视频观看| 暖暖 免费 高清 日本在线 | 2022年国产精品久久久久| 性满足久久久久久久久| 日日噜噜夜夜躁躁狠狠| 奶水太多h室友| 另类欧美尿交| 久久久久综合网| 精品国产高清自在线看| 国产嫩草影院精品免费网址| 成在线人免费视频| yellow2019在线观看视频 | 混乱家庭电影完整版在线看| 国产精品999| 给个男人都懂的网址2019| JIZZ学生13| 99视频在线观看免费| 2022国产91精品久久久久久| 在线电台收听| 日本另类xxxx| 欧美一区二区激情视频| 免费高清国产| 免费成年人在线视频| 久章草一区二区| 两个人的视频hd全免费| 啦啦啦WWW在线观看免费高清版 | 国产午夜精品理论片| 国产欧美日韩亚洲第一页| 国产人妻精品无码AV在线五十路| 国产免费阿v精品视频网址|