近日,智源研究院發布并解讀了國內外100余個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。云知聲山海大模型(UniGPT4.0-0730)在此次評測中表現優異。云知聲山海大模型在100多個參評大語言模型中,客觀評測全球第6,國內第3;主觀評測全球第12,國內第8,繼續穩居我國大語言模型第一梯隊。這一佳績不僅彰顯了云知聲在人工智能領域的深厚技術底蘊,也標志著公司在大模型技術的應用和綜合能力提升方面取得了顯著的進展。云知聲山海大模型的卓越表現,證明了其在激烈的市場競爭中具備強勁的競爭力,并且在技術創新和應用實踐上不斷取得突破。
能力卓越,山海大模型多項評測名列前茅
智源研究院的大模型評測平臺FlagEval自2023年6月上線以來,已覆蓋全球800余個開閉源模型,超過200萬條評測題目,成為全球大模型評測的重要平臺。此次評測,FlagEval在評測方法與工具上聯合了全國10余家高校和機構合作共建,不僅擴展、豐富和細化了評測任務,還新增了數據處理、高級編程和工具調用的相關能力與任務,以及面向真實金融量化交易場景的應用能力評估。
在FlagEval“大語言模型評測能力榜單”中,山海大模型(UniGPT4.0-0730)在主客觀兩大評測維度中均展現出了非凡的實力。本輪評測主要聚焦對話模型,其中主觀評測更側重于考察中文能力。在涉及約2.2萬道題目、覆蓋40余個語言模型的廣泛評測中,山海大模型憑借其卓越的性能,贏得了業界的廣泛認可。
在客觀評測方面,該榜單詳盡涵蓋了語言能力、知識運用、推理能力、數學能力、代碼能力、指令遵循、工具調用七大評估類別,全方位考察各項技能。山海大模型(UniGPT4.0-0730)以54.46的綜合評分,在榜單中位列第3,這充分彰顯了其堅實的綜合基礎。特別是在代碼能力方面,山海大模型得分高達55.05,榮獲國內第1,進一步凸顯了其在編程和代碼處理方面的卓越才能。同時,其數學能力得分53.56,也使其榮獲國內第2,再次證明了其在解決復雜數學問題上的非凡實力。
在主觀評測方面,該榜單精心設置了簡單理解、知識運用、推理能力、數學能力、任務解決、安全與價值觀六大評估維度,全面衡量各項能力。山海大模型(UniGPT4.0-0730)憑借69.63的綜合評分,在榜單中脫穎而出,位列第8名,充分展示了其強大的綜合性能。此外,其數學能力得分高達71,位居國內第3名,進一步凸顯了山海大模型在解決復雜數學問題上的出色能力。
智慧賦能,加速AI應用落地與產業升級
隨著人工智能技術的快速發展,大模型已成為全球科技競爭的新高地、未來產業的新賽道、經濟發展的新引擎。當前,通用大模型、行業大模型以及端側大模型正如雨后春筍般層出不窮,大模型產業的應用落地步伐顯著加快。
作為國內頂尖的人工智能獨角獸企業,云知聲于2016年開始建立Atlas人工智能基礎設施,并以此為基礎,構建云知大腦(UniBrain)技術中臺——以山海(UniGPT)通用認知大模型為核心,結合多模態感知與生成、知識圖譜、物聯平臺等智能組件,為云知聲智慧物聯、智慧醫療、智慧座艙、智慧交通等業務提供高效的產品化支撐,持續推動千行百業的智慧化升級。
山海大模型作為云知大腦的核心,在實際應用中展現出了卓越的潛力與實力。通過持續的技術創新和豐富的應用場景實踐,山海大模型不僅在通用能力上達到了世界一流水平,而且在專業能力上也表現出色,處于行業領先地位。
目前,山海大模型已相繼在OpenCompass大模型評測、SuperCLUE中文大模型基準測評、MedBench評測、Flageval大模型評測、SuperBench、MMMU等多個權威評測中屢創佳績,穩居國內大模型第一梯隊,展現了其強大的通用能力。在專業能力層面,其基于山海大模型孵化的醫療大模型在CCKS 2023 PromptCBLUE醫療大模型評測中奪得通用賽道一等獎,并在2024年5月和6月的MedBench評測中連續登頂榜首。此外,在2024年全國智慧醫保大賽中,憑借“基于大模型的DRG結算清單智能生成方案”,團隊在總決賽中榮獲一等獎。
此次榮登智源FlagEval“百模”評測榜前列,不僅是對山海大模型技術實力的有力證明,更是對其在人工智能領域持續創新和深耕細作的肯定。未來,云知聲將繼續秉承創新理念,不斷突破技術瓶頸,為人工智能產業的發展貢獻更多力量,推動AI技術創新與行業應用的深度融合。
-
人工智能
+關注
關注
1791文章
47244瀏覽量
238369 -
云知聲
+關注
關注
0文章
185瀏覽量
8390 -
大模型
+關注
關注
2文章
2439瀏覽量
2676
原文標題:智源FlagEval“百模”評測揭曉:云知聲山海大模型表現卓越,名列前茅
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論