色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內最好成績

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2024-05-21 14:45 ? 次閱讀

編者按:日前,中文大模型測評基準SuperCLUE發布最新榜單,對商湯科技全新升級「日日新SenseNova 5.0」大模型進行了全方位綜合性測評,結果顯示在SuperCLUE綜合基準上,日日新 5.0表現不俗,以總分80.03分的優異成績刷新國內最好成績,并在中文綜合成績上超過GPT-4-Turbo-0125。

SuperCLUE是由創立于2019年的CLUE學術社區最新發布的中文通用大模型綜合性評測基準,是被行業廣泛認可的AI大模型權威評測榜單。以下評測報告轉載自 SuperCLUE官方發布報道。

4月23日,商湯科技正式發布全新大模型日日新5.0(SenseChat V5),采用混合專家架構(MoE),參數量高達6000億,支持200K的上下文窗口。據官方披露,SenseChat V5具備更強的知識、數學、推理及代碼能力,綜合性能全面對標GPT-4 Turbo。

那么,SenseChat V5在SuperCLUE中文基準上的表現如何?與國內外代表性大模型相比處于什么位置?在各項基礎能力上如計算推理、長文本、代碼生成、生成創作上會有怎樣的表現?

SuperCLUE團隊對SenseChat V5在SuperCLUE通用大模型綜合性中文測評基準上,進行了全方位綜合性測評。

測評環境

參考標準:SuperCLUE綜合性測評標準

評測模型:SenseChat V5(官方于5月11日提供的內測API版本)

評測集:SuperCLUE綜合性測評基準4月評測集,2194道多輪簡答題,包括計算、邏輯推理、代碼、長文本在內的基礎十大任務。

模型GenerationConfig配置:

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

測評方法

本次測評為自動化評測,具體評測方案可點擊查閱SuperCLUE綜合性測評標準。本次測評經過人工抽樣校驗。

ce86e4cc-173c-11ef-b74b-92fbcf53809c.png

ceaa17ee-173c-11ef-b74b-92fbcf53809c.png

先說結論

結論1:在SuperCLUE綜合基準上,SenseChat V5表現不俗,以總分80.03分的優異成績刷新國內最好成績,并且在中文綜合成績上超過GPT-4-Turbo-0125有0.9分。

結論2:在本次測評中,理科任務上SenseChat V5取得國內最好成績,較GPT-4-Turbo-0125低4.35分,還有一定提升空間;文科任務上SenseChat V5表現十分出色,以82.20分取得國內外最高分。

結論3:在本次測評中,SenseChat V5在各項能力上表現較為均衡,尤其在長文本、生成創作、角色扮演、安全能力、工具使用上處于全球領先位置,適用于智能體、內容創作、長程對話等應用場景。代碼能力還有一定提升空間。

cee721ca-173c-11ef-b74b-92fbcf53809c.png

對比模型數據來源: SuperCLUE, 2024年4月30日

以下是我們從定量定性兩個角度對模型進行的測評分析。

測評分析

1定量分析

在SuperCLUE測評中,SenseChat V5總體表現如下:

SenseChat V5總體表現

cfdfe652-173c-11ef-b74b-92fbcf53809c.png

注:對比模型數據均來源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分數較為接近,為了減少問題波動對排名的影響,本次測評將相距0.25分區間的模型定義為并列,以上排序不代表實際排名。

在SuperCLUE通用綜合測評基準上,SenseChat V5取得80.03分,表現出色,刷新國內大模型最好成績。并且,SenseChat V5在中文綜合能力上較GPT-4-Turbo-0125高0.9分。

SenseChat V5在理科任務上的表現

d01b3496-173c-11ef-b74b-92fbcf53809c.png

對比模型數據來源:SuperCLUE SenseChat V5在理科任務上表現不俗,取得76.78分,國內模型中排名第一,較GPT-4-Turbo-0125低4.35分,還有一定提升空間。其中,計算(80.6)、邏輯推理(73.8)、工具使用(80.8)均刷新國內最好成績;在代碼能力上還有一定優化空間。

SenseChat V5在文科任務上的表現

d06b3e78-173c-11ef-b74b-92fbcf53809c.png

對比模型數據來源:SuperCLUE SenseChat V5在文科任務上表現出色,取得82.20的高分,國內外模型中排名第一,較GPT-4-Turbo-0125高4.40分。其中,知識百科(82.4)、長文本(79.2)、角色扮演(80.4)、語義理解(81.6)、生成創作(79.4)、傳統安全(90.2)均刷新國內最好成績;

d0d7487a-173c-11ef-b74b-92fbcf53809c.png

對比數據來源:SuperCLUE, 2024年4月30日 將SenseChat V5與國內大模型平均得分對比,我們可以發現,SenseChat V5在所有能力上均高于平均線,展現出較均衡的綜合能力。尤其在計算(+16.15)、邏輯推理(+18.89)、代碼(+19.06)、長文本(+21.16)能力上遠高出平均線15分以上。

SenseChat V5與國外代表模型對比

d13c66a6-173c-11ef-b74b-92fbcf53809c.png

將SenseChat V5與國外代表大模型對比,SenseChat V5在文科類中文任務上好于國外大模型,尤其在長文本、生成創作能力較為領先。在理科如計算、邏輯推理、代碼能力上與GPT-4-Turbo-0125還有一定提升空間。

小結

從評測結果我們發現,SenseChat V5綜合能力上表現不俗,在總分上刷新了國內外最好成績,其中文科任務上有超過GPT-4 Turbo的表現,理科任務上刷新國內最好成績,與GPT-4 Turbo還有一定距離。 2定性分析

通過一些典型示例,對比定性分析SenseChat V5的特點。

示例1:長文本

d15b7834-173c-11ef-b74b-92fbcf53809c.png

示例2:生成創作

d18d438c-173c-11ef-b74b-92fbcf53809c.png

示例3:邏輯推理

d1ca9c14-173c-11ef-b74b-92fbcf53809c.png

模型技術特點

據官方介紹,SenseChat V5模型能力顯著提升,其背后是訓練數據的全面升級與訓練方法的有效提升。

在數據方面,SenseChat V5采用了新一代數據生產管線,生產了10T tokens的高質量訓練數據。通過多個模型進行數據的過濾和提煉,顯著提升了預料質量和信息密度;基于精細聚類的均衡采樣確保對世界知識覆蓋的完整性。同時,SenseChat V5還大規模采用了思維型的合成數據(數千億tokens量級),這對于模型在邏輯推理、數學和編程等方面的能力提升起到了關鍵作用。

SenseChat V5采用了自研的多階段訓練鏈路,包括三階段預訓練、雙階段SFT和在線RLHF。通過在每個階段設定更加清晰聚焦的目標,實現更敏捷的調優,也避免了不同目標之間的相互干擾。其中在預訓練階段,分階段培養模型的基礎語言和知識能力、長文建模能力、以及復雜邏輯推理能力(規模化采用合成數據);在 SFT 階段,把任務指令遵循和對話體驗優化分解到雙階段進行;在 RLHF 階段,采用統一的多維度獎勵模型和動態系統提示詞對多維度偏好進行打分,從而更好地實現模型在多個維度和人類期望對齊。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • GPT
    GPT
    +關注

    關注

    0

    文章

    352

    瀏覽量

    15342
  • AI大模型
    +關注

    關注

    0

    文章

    315

    瀏覽量

    305

原文標題:中文大模型測評基準SuperCLUE:商湯「日日新5.0」總分80.03刷新最好成績,文科能力領跑

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    商湯日日新多模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova多模態大模型,在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?128次閱讀

    商湯日日新·商量大模型位列國內模型第一梯隊

    剛剛,中文模型測評基準SuperCLUE發布《中文模型
    的頭像 發表于 11-08 15:38 ?293次閱讀

    商湯日日新模型中標上海電信訂單

    近日,中國電信上海公司公布《產數開發代碼助手》項目采購結果:憑借「日日新」大模型出色的代碼能力,商湯科技中標。由「商湯?小浣熊家族」系列產品團隊提供相關業務產品服務支持。
    的頭像 發表于 07-29 14:25 ?534次閱讀

    商湯日日新”大模型全面賦能2024 WAIC

    7月6日,WAIC 2024迎來第三天。 商湯科技全新升級的「日日新SenseNova 5.5」備受熱議,作為國內首個具備流式原生多模態交互能力的大模型,交互效果和多項核心指標實現
    的頭像 發表于 07-08 15:54 ?618次閱讀

    商湯科技發布日日新5.5大模型體系

    商湯科技近日震撼發布其最新的日日新5.5大模型體系,標志著人工智能領域又邁出了堅實的一步。該體系以6000億參數的超大規?;A模型——日日新
    的頭像 發表于 07-08 15:05 ?556次閱讀

    商湯宣布將免費向粵語區用戶推出粵語大模型Web版及App版

    繼4月發布「日日新SenseNova 5.0」以來,商湯模型繼續日日精進,新技頻出!
    的頭像 發表于 05-31 10:51 ?791次閱讀
    <b class='flag-5'>商湯</b>宣布將免費向粵語區用戶推出粵語大<b class='flag-5'>模型</b>Web版及App版

    商湯發布日日新模型5.0粵語版

    近日,人工智能領軍企業商湯科技正式對外發布了其最新研發成果——日日新模型5.0粵語版。該模型針對粵語用戶進行了深度優化,旨在提供更精準、更
    的頭像 發表于 05-30 09:21 ?618次閱讀

    商湯科技即將推出日日新模型5.0粵語版本

    在盛大的“新質企業家聯合會”成立典禮上,商湯科技副總裁、智慧城市與商業事業群總裁張果琲宣布了一項重要消息。商湯科技即將推出日日新模型5.0
    的頭像 發表于 05-13 10:58 ?581次閱讀

    商湯將發布日日新模型5.0粵語版本

    商湯科技即將迎來一項重要更新,他們將發布日日新模型5.0的粵語版本。這一版本是基于商湯科技現有的大裝置和
    的頭像 發表于 05-08 09:33 ?493次閱讀

    商湯科技發布“日日新SenseNova 5.0”大模型

    商湯科技近日隆重推出全新升級的“日日新SenseNova 5.0”大模型,其卓越性能贏得了業界的廣泛贊譽。憑借這一行業領先的技術實力,商湯
    的頭像 發表于 05-07 14:13 ?556次閱讀

    商湯科技發布日新5.0模型,對標GPT-4 Turbo,預計2024年落地端側

    據了解,4月23日,商湯科技在上海舉行了技術交流日活動,公布了“云、端、邊”全棧大模型產品矩陣,并對“日日新SenseNova 5.0”大模型
    的頭像 發表于 04-25 09:30 ?566次閱讀

    商湯科技新升級大模型,對標GPT-4 Turbo?

    昨日,商湯科技在滬舉辦技術交流日活動,公布了其“云、端、邊”全棧大模型產品矩陣,并對“日日新SenseNova 5.0”大模型體系進行了全面
    的頭像 發表于 04-24 17:17 ?683次閱讀

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo

    場景應用需求;升級“日日新SenseNova 5.0”大模型體系,綜合能力全面對標GPT-4 Turbo。 此外對于文生視頻徐立也表示商湯科技很快就會發布相關的平臺產品。 備受矚目的
    的頭像 發表于 04-24 16:49 ?1099次閱讀

    商湯日日新SensNova 4.0發布

    商湯科技“日日新SenseNova 4.0”正式發布,標志著大模型體系的一次重大飛躍。該模型在知識覆蓋、推理能力、長文本理解、數字推理以及代碼生成等多個維度上實現了全面升級。
    的頭像 發表于 02-05 10:29 ?910次閱讀

    商湯科技發布新版日日新·商量大語言模型

    商湯科技近日發布了新版的日日新·商量大語言模型-通用版本(SenseChat V4)。這一版本的模型在知識理解、閱讀理解、綜合推理、數理、代碼和長文本理解等領域的通用能力得到了顯著提升
    的頭像 發表于 02-04 10:30 ?955次閱讀
    主站蜘蛛池模板: 伊人久久影院| 久久精品亚洲AV中文2区金莲| 青青草视频在线ac| 中文在线日韩亚洲制服| 国产午夜在线观看视频| 外女思春台湾三级| 丰满老熟好大bbbxxx| 日本高清免费看| 99视频全部看免费观| 男女牲交大战免费播放| 最近日本字幕MV免费观看在线| 精品九九视频| 亚洲精品久久久992KVTV| 国产午夜在线观看视频| 校花在公车上被内射好舒| 国产成人ae在线观看网站站| 日韩视频在线观看| 成人在线视频免费| 日本亚洲中文字幕无码区| cntv官网| 青草国产超碰人人添人人碱| jaPanesmature儿母| 欧美日韩中文国产一区发布| 99无人区码一码二码三| 欧美日韩中文在线字幕视频| 白丝萝莉喷水| 日韩a视频在线观看| 高hnp肉文| 天天久久狠狠色综合| 国产麻豆精品久久一二三| 午夜影院c绿象| 国产亚洲精品网站在线视频| 亚洲精品视频免费看| 精品国产国产精2020久久日| 亚洲熟少妇在线播放999| 久久超碰色中文字幕| 中文字幕伊人香蕉在线| 免费观看久久| www.狠狠色| 涩涩在线视频| 果冻传媒视频在线播放|