編者按:日前,中文大模型測評基準SuperCLUE發布最新榜單,對商湯科技全新升級「日日新SenseNova 5.0」大模型進行了全方位綜合性測評,結果顯示在SuperCLUE綜合基準上,日日新 5.0表現不俗,以總分80.03分的優異成績刷新國內最好成績,并在中文綜合成績上超過GPT-4-Turbo-0125。
SuperCLUE是由創立于2019年的CLUE學術社區最新發布的中文通用大模型綜合性評測基準,是被行業廣泛認可的AI大模型權威評測榜單。以下評測報告轉載自 SuperCLUE官方發布報道。
4月23日,商湯科技正式發布全新大模型日日新5.0(SenseChat V5),采用混合專家架構(MoE),參數量高達6000億,支持200K的上下文窗口。據官方披露,SenseChat V5具備更強的知識、數學、推理及代碼能力,綜合性能全面對標GPT-4 Turbo。
那么,SenseChat V5在SuperCLUE中文基準上的表現如何?與國內外代表性大模型相比處于什么位置?在各項基礎能力上如計算推理、長文本、代碼生成、生成創作上會有怎樣的表現?
SuperCLUE團隊對SenseChat V5在SuperCLUE通用大模型綜合性中文測評基準上,進行了全方位綜合性測評。
測評環境
參考標準:SuperCLUE綜合性測評標準
評測模型:SenseChat V5(官方于5月11日提供的內測API版本)
評測集:SuperCLUE綜合性測評基準4月評測集,2194道多輪簡答題,包括計算、邏輯推理、代碼、長文本在內的基礎十大任務。
模型GenerationConfig配置:
temperature=0.01
repetition_penalty=1.0
top_p=0.8
max_new_tokens=2048
stream=false
測評方法:
本次測評為自動化評測,具體評測方案可點擊查閱SuperCLUE綜合性測評標準。本次測評經過人工抽樣校驗。
先說結論
結論1:在SuperCLUE綜合基準上,SenseChat V5表現不俗,以總分80.03分的優異成績刷新國內最好成績,并且在中文綜合成績上超過GPT-4-Turbo-0125有0.9分。
結論2:在本次測評中,理科任務上SenseChat V5取得國內最好成績,較GPT-4-Turbo-0125低4.35分,還有一定提升空間;文科任務上SenseChat V5表現十分出色,以82.20分取得國內外最高分。
結論3:在本次測評中,SenseChat V5在各項能力上表現較為均衡,尤其在長文本、生成創作、角色扮演、安全能力、工具使用上處于全球領先位置,適用于智能體、內容創作、長程對話等應用場景。代碼能力還有一定提升空間。
對比模型數據來源: SuperCLUE, 2024年4月30日
以下是我們從定量和定性兩個角度對模型進行的測評分析。
測評分析
1定量分析
在SuperCLUE測評中,SenseChat V5總體表現如下:
SenseChat V5總體表現
注:對比模型數據均來源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分數較為接近,為了減少問題波動對排名的影響,本次測評將相距0.25分區間的模型定義為并列,以上排序不代表實際排名。
在SuperCLUE通用綜合測評基準上,SenseChat V5取得80.03分,表現出色,刷新國內大模型最好成績。并且,SenseChat V5在中文綜合能力上較GPT-4-Turbo-0125高0.9分。
SenseChat V5在理科任務上的表現
對比模型數據來源:SuperCLUE SenseChat V5在理科任務上表現不俗,取得76.78分,國內模型中排名第一,較GPT-4-Turbo-0125低4.35分,還有一定提升空間。其中,計算(80.6)、邏輯推理(73.8)、工具使用(80.8)均刷新國內最好成績;在代碼能力上還有一定優化空間。
SenseChat V5在文科任務上的表現
對比模型數據來源:SuperCLUE SenseChat V5在文科任務上表現出色,取得82.20的高分,國內外模型中排名第一,較GPT-4-Turbo-0125高4.40分。其中,知識百科(82.4)、長文本(79.2)、角色扮演(80.4)、語義理解(81.6)、生成創作(79.4)、傳統安全(90.2)均刷新國內最好成績;
對比數據來源:SuperCLUE, 2024年4月30日 將SenseChat V5與國內大模型平均得分對比,我們可以發現,SenseChat V5在所有能力上均高于平均線,展現出較均衡的綜合能力。尤其在計算(+16.15)、邏輯推理(+18.89)、代碼(+19.06)、長文本(+21.16)能力上遠高出平均線15分以上。
SenseChat V5與國外代表模型對比
將SenseChat V5與國外代表大模型對比,SenseChat V5在文科類中文任務上好于國外大模型,尤其在長文本、生成創作能力較為領先。在理科如計算、邏輯推理、代碼能力上與GPT-4-Turbo-0125還有一定提升空間。
小結:
從評測結果我們發現,SenseChat V5綜合能力上表現不俗,在總分上刷新了國內外最好成績,其中文科任務上有超過GPT-4 Turbo的表現,理科任務上刷新國內最好成績,與GPT-4 Turbo還有一定距離。 2定性分析
通過一些典型示例,對比定性分析SenseChat V5的特點。
示例1:長文本
示例2:生成創作
示例3:邏輯推理
模型技術特點
據官方介紹,SenseChat V5模型能力顯著提升,其背后是訓練數據的全面升級與訓練方法的有效提升。
在數據方面,SenseChat V5采用了新一代數據生產管線,生產了10T tokens的高質量訓練數據。通過多個模型進行數據的過濾和提煉,顯著提升了預料質量和信息密度;基于精細聚類的均衡采樣確保對世界知識覆蓋的完整性。同時,SenseChat V5還大規模采用了思維型的合成數據(數千億tokens量級),這對于模型在邏輯推理、數學和編程等方面的能力提升起到了關鍵作用。
SenseChat V5采用了自研的多階段訓練鏈路,包括三階段預訓練、雙階段SFT和在線RLHF。通過在每個階段設定更加清晰聚焦的目標,實現更敏捷的調優,也避免了不同目標之間的相互干擾。其中在預訓練階段,分階段培養模型的基礎語言和知識能力、長文建模能力、以及復雜邏輯推理能力(規模化采用合成數據);在 SFT 階段,把任務指令遵循和對話體驗優化分解到雙階段進行;在 RLHF 階段,采用統一的多維度獎勵模型和動態系統提示詞對多維度偏好進行打分,從而更好地實現模型在多個維度和人類期望對齊。
審核編輯:劉清
-
GPT
+關注
關注
0文章
352瀏覽量
15342 -
AI大模型
+關注
關注
0文章
315瀏覽量
305
原文標題:中文大模型測評基準SuperCLUE:商湯「日日新5.0」總分80.03刷新最好成績,文科能力領跑
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論