色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大語言模型“書生·浦語”多項專業評測拔頭籌

商湯科技SenseTime ? 來源:未知 ? 2023-08-25 13:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,AI大模型測評火熱,尤其在大語言模型領域,“聰明”的上限不斷刷新。

商湯與上海AI實驗室等聯合打造的大語言模型“書生·浦語”(InternLM)也表現出色,分別在智源FlagEval大語言模型評測8月排行榜中文通用大模型綜合性評測基準SuperCLUE 7月評測榜兩項業內權威大模型評測榜單中獲得優異成績。 FlagEval是知名人工智能新型研發機構北京智源人工智能研究院推出的大模型評測體系及開放平臺。FlagEval大模型評測體系構建了“能力-任務-指標”三維評測框架,可視化呈現評測結果,總計600+評測維度,包括22個主觀、客觀評測數據集,84433道評測題目。除知名的公開數據集 HellaSwag、MMLU、C-Eval外,FlagEval還集成了包括智源自建的主觀評測數據集Chinese Linguistics & Cognition Challenge (CLCC),北京大學等單位共建的詞匯級別語義關系判斷、句子級別語義關系判斷、多義詞理解、修辭手法判斷評測數據集。
SuperCLUE是由創立于2019年的CLUE學術社區最新發布的中文通用大模型綜合性評測基準,包含SuperCLUE-Opt客觀題測試、SuperCLUE-Open主觀題測試、SuperCLUE-LYB瑯琊榜用戶投票的匿名對戰測試三大基準組成。為更好地反映國內大模型與國際領先大模型間的差距和優勢,SuperCLUE選取了多個國內外有代表性的可用模型進行評測,同時由于其數據集保密性高,對大模型來說是‘閉卷考試’,減少了模型訓練數據混入評測數據的可能性。此外,SuperCLUE還通過自動化評測方式測試不同模型效果,可一鍵對大模型進行評測,相對更客觀。 “書生·浦語”:不僅善于考試,還是開源大模型中的佼佼者

“書生·浦語”,是商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學打造的大語言模型,具有千億參數,在包含1.8萬億token的高質量語料上訓練而成。

今年6月,“書生·浦語”聯合團隊曾選取20余項評測進行檢驗,包括全球最具影響力的四個綜合性考試評測。結果顯示,“書生·浦語”在綜合性考試中表現突出,在多項中文考試中超越ChatGPT。(詳情可參考AI考生今日抵達,商湯與上海AI實驗室等發布“書生·浦語”大模型報道) 7月,“書生·浦語”正式開源70億參數的輕量級版本InternLM-7B。(https://github.com/InternLM/InternLM)

后續又推出升級版對話模型InternLM-Chat-7Bv1.1,成為首個具有代碼解釋能力的開源對話模型,能根據需要靈活調用Python解釋器等外部工具,解決復雜數學計算等任務的能力顯著提升。

此外,該模型還可通過搜索引擎獲取實時信息,提供具有時效性的回答。

在北京智源人工智能研究院FlagEval大語言模型評測體系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分別在監督微調模型(SFT Model)榜單、基座模型(Base Model)榜單中取得第一和第二名

“InternLM-chat-7B”還刷新中英客觀評測記錄。 「什么是“基座模型”、“有監督微調模型”?」 基座模型(Base Model)是經過海量數據預訓練(Pre-train)得到的,它具備一定的通用能力,比如:GPT-3。 有監督微調模型(SFT Model)則是經過指令微調數據(包含了各種與人類行為及情感相關的指令和任務的數據集)訓練后得到的,具備了與人類流暢對話的能力,如:ChatGPT。 普遍的觀點認為,基座模型在很大程度上決定了微調模型的能力。 因此,FlagEval大語言模型評測體系針對基座模型的評測主要從“提示學習評測”和“適配評測”兩方面進行;針對有監督微調模型的評測則從“復用針對基座模型的客觀評測” 進一步增加“引入主觀評測”。 此次兩個榜單中,“InternLM-chat-7B”和“InternLM-7B”均表現出優異的綜合性能,超越備受關注的Llama2-chat-13B/7B和Llama2-13B/7B 特別在SFT Model測試中,InternLM-chat-7B中文能力大幅領先同時,英文能力也與對手保持在相近水平,展現出更強的實用性能 wKgZomToSjaAS-sLAAFBK8bU_fs988.jpgwKgZomToSjaAaVfdAAEPh3f12d8810.jpg ?

SuperCLUE評測從基礎能力、專業能力、中文特性能力三個不同維度對國內外通用大模型產品進行評價,考察大模型在70余個任務上的綜合表現。

“書生·浦語”InternLM-chat-7B在7月公布SuperCLUE評測榜單中表現出色,SuperCLUE-Opt開源大模型榜單拔得頭籌 wKgZomToSjaACTy0AAQPBYmSqG8574.png ?作為SuperCLUE綜合性三大基準之一,SuperCLUE-Opt評測基準每期有3700+道客觀題(選擇題),由基礎能力(10個子任務)、中文特性能力(10個子任務)、學術專業能力(50+子任務)組成,采用封閉域測試方式。 相比第二名ChatGLM2-6B,InternLM-chat-7B主要在學術專業方面取得較大領先,同時全面領先于第三名Baichuan-13B-Chat。

wKgZomToSjaAH4hcAAATzh3tzFA763.gif

相關閱讀,戳這里

讓大模型“百花齊放”,商湯大裝置SenseCore提供一片沃土

《商湯發布多模態多任務通用大模型“書生2.5”》

《商湯聯合發布通才AI智能體通關<我的世界>》

wKgZomToSjaAQE8DAAC4LKEIjVg960.jpg


原文標題:大語言模型“書生·浦語”多項專業評測拔頭籌

文章出處:【微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 商湯科技
    +關注

    關注

    8

    文章

    561

    瀏覽量

    36742

原文標題:大語言模型“書生·浦語”多項專業評測拔頭籌

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    語言模型管理的作用

    要充分發揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發表于 01-02 11:06 ?364次閱讀

    云知聲山海大模型多項評測名列前茅

    近日,智源研究院發布并解讀了國內外100余個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言模型綜合及專項評測結果。
    的頭像 發表于 12-24 10:29 ?477次閱讀

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-06 10:28 ?508次閱讀

    語言模型開發語言是什么

    在人工智能領域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-04 11:44 ?650次閱讀

    名單公布!【書籍評測活動NO.52】基于大模型的RAG應用開發與優化

    這樣的應用還遠遠不能發揮出大模型的真正價值,我們期望大模型在更專業的生產領域發揮作用,提升生產力,引領真正的科技變革。 當前大模型被普遍看好的兩個
    發表于 12-04 10:50

    語言模型如何開發

    語言模型的開發是一個復雜且細致的過程,涵蓋了數據準備、模型架構設計、訓練、微調和部署等多個階段。以下是對大語言模型開發步驟的介紹,由AI部
    的頭像 發表于 11-04 10:14 ?587次閱讀

    科大訊飛發布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其一貫的創新精神,開創性地發布了星火多語言模型。這一創新之舉不僅進一步鞏固了科大訊飛在中文和英文處理領域的領先地位,更將語言的支持范圍大幅擴展,涵蓋了俄語、日語、阿拉伯
    的頭像 發表于 10-24 13:58 ?862次閱讀

    云知聲山海大模型多項能力全球領跑

    國內人工智能權威機構清華大學基礎模型研究中心發布SuperBench九月綜合榜單。本次評測選取海內外24個具有代表性的大模型,結果顯示,山海大模型對齊、智能體、安全等
    的頭像 發表于 10-12 14:30 ?793次閱讀
    云知聲山海大<b class='flag-5'>模型</b><b class='flag-5'>多項</b>能力全球領跑

    名單公布!【書籍評測活動NO.41】大模型時代的基礎架構:大模型算力中心建設指南

    工作日內未聯系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入
    發表于 08-16 18:33

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。 主要是基于深度學習和自然語言處理技術。 大語言
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    今天開始學習《大語言模型應用指南》第一篇——基礎篇,對于人工智能相關專業技術人員應該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業術語比較陌生,需要網上搜索學習更多的資
    發表于 07-25 14:33

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    松。 入門篇主要偏應用,比如大語言模型的三種交互方式,分析了提示工程、工作記憶和長短期記憶,此篇最后講了ChatGPT的接口和擴展功能應用,適合大語言模型應用技術人員閱讀。 進階篇就非
    發表于 07-21 13:35

    語言模型的預訓練

    隨著人工智能技術的飛速發展,自然語言處理(NLP)作為人工智能領域的一個重要分支,取得了顯著的進步。其中,大語言模型(Large Language Model, LLM)憑借其強大的語言
    的頭像 發表于 07-11 10:11 ?949次閱讀

    坤川大模型智能體平臺亮相2024世界人工智能大會

    坤川大模型智能體平臺兼容多種多尺寸的大語言模型及多模態模型,并可以使用訓推平臺組件進行模型
    的頭像 發表于 07-09 14:38 ?466次閱讀
    視<b class='flag-5'>語</b>坤川大<b class='flag-5'>模型</b>智能體平臺亮相2024世界人工智能大會

    如何加速大語言模型推理

    隨著人工智能技術的飛速發展,大語言模型(LLM)已成為自然語言處理領域的核心工具,廣泛應用于智能客服、文本生成、機器翻譯等多個場景。然而,大語言模型
    的頭像 發表于 07-04 17:32 ?1006次閱讀
    主站蜘蛛池模板: 国产-第1页-浮力影院 | 91精品国产91热久久p | 午夜福利在线观看6080 | 最近2019中文字幕免费 | 秋霞午夜理论理论福利无码 | 影音先锋男人资源813. | 情欲.美女高潮 | 欧美巨大xxxx做受孕妇视频 | jjzzz日本| 国产免费69成人精品视频 | 日本xxxxxxxxx老师59| 校花的奶好大好浪 | 亚洲国产精麻豆 | 一级毛片皇帝 宫女 | 久久有码中文字幕 | 午夜福利免费院 | 欧美另类z0z000高清 | 九色PORNY真实丨国产大胸 | 精子网久久国产精品 | 国产精品久久久久秋霞影视 | 内射白浆一区二区在线观看 | 99久久久免费精品免费 | 91免费永久在线地址 | 挠黑色超薄丝袜脚心vk40分钟 | 日韩精品卡1卡2三卡四卡乱码 | 日本熟妇乱妇熟色A片蜜桃亚洲 | 二色AV天堂在线 | 成人毛片免费播放 | 伊人角狠狠狠狠 | 成年妇女免费播放 | 精品国产乱码久久久久乱码 | 免费国产黄线在线播放 | 神马电影我不卡4k手机在线观看 | 国产人妻人伦精品无码.麻豆 | 久久一er精这里有精品 | 99久久久国产精品免费调教 | 国产精品人成视频免费999 | 怪物高h粗暴无尽 | 免费的av不用播放器的 | 国产99视频精品一区 | 人妻互换免费中文字幕 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品