深夜影院深a久久,色呦呦网站在线观看,色婷婷久久综合中文久久一本`

作者：一號

編輯：美美

從手機到大模型，國內產品為啥都這么熱衷跑分？

IDC AI大模型技術能力評估，12項指標，7項滿分，文心大模型3.5“大滿貫”；360智腦在SuperCLUE評測中多項能力位列國產大模型第一，某些方面甚至跑贏了GPT-4；夸克大模型在C-Eval和CMMLU兩大權威評測榜單中名列第一，顯示出其在寫作、考試等部分場景中甚至優于GPT-4......

今年以來，國產AI大模型發展趨勢之迅猛，不得不讓人感慨。截至目前，國產大模型數量已經超過了200個，而且，這些大模型紛紛表現不俗，從百度文心一言到阿里巴巴的夸克大模型，國產AI在各類評測榜單上的表現引人注目。有人對此評價，“跑分沒輸過，體驗沒贏過”。

這種似曾相識的“跑分”現象，不禁讓人想到手機市場里類似的做法。這種在評測中名列前茅、表現出色，但實際用戶體驗一言難盡的情況，究竟意味著什么？

為何跑分與體驗不符?

回顧手機市場，“跑分沒輸過，體驗沒贏過”這句話最開始就是從手機圈中興起的，各大廠商通過不斷疊加定語，來讓自己獲得第一；還有的手機會自動識別跑分軟件，針對性地開啟性能模式，讓自己的跑分數據好看些，從而實現“作弊”。用戶買到跑分高的手機后，實際體驗并不是那么回事。

而在AI大模型領域，評估標準則相對公平，并且是同意的，其中包括MMLU（用于衡量多任務語言理解能力）、Big-Bench（用于量化和外推LLMs的能力），以及AGIEval(用于評估人類級任務的能力）。

目前國內廠商經常飲用的榜單就是SuperCLUE、CMMLU和C-Eval，其中C-Eval是由清華大學、上海交通大學和愛丁堡大學合作構建的綜合性考試評測集，CMMLU則是MBZUAI、上海交通大學、微軟亞洲研究院共同推出，至于SuperCLUE，則是由各大高校的AI專業人士設立的。

盡管大模型的評測標準相對公平，但其仍有一定的局限性，實際的測評之中總會出現問題，其中一個最大的問題就是“考題泄露”。

大模型評測的一個主要方法就是做題。為了讓評測相對透明公開，避免暗箱操作，評測機構通常會將評測的方法、標準甚至是題庫對外公開。例如C-Eval榜單在上線之初就有13948道題目，由于題庫有限，并且更新頻率不是特別高，這就給了一些大模型刷題“鉆空子”的機會。

我們都知道，如果在考試之前知道會考哪些題目，那考生完全可以做針對性的學習，大模型也一樣，并且大模型最擅長的就是記憶。在評測之前，把題庫直接加入大模型的訓練集，訓練之后的大模型就能在評測中表現得比實際能力更好，甚至跑出一些夸張的成績，例如1.3B的模型在某些任務上超越了10倍體量的大模型。

那么這樣的評測結果，跟實際體驗一定會很不相符。

為何熱衷于跑分？

無論是國產手機廠商還是AI大模型公司，他們對跑分的熱衷，本質上是一種營銷策略。跑分成績容易被量化、對比，因此成為了向公眾展示技術實力的便捷手段。這種做法在短期內可能會吸引消費者和投資者的注意，但它也可能引起誤導，使人們過分關注理論性能，而忽視了實際應用中的體驗和效能。

這種營銷策略的問題在于，它可能導致公司本末倒置，過分投入于提高特定測試的分數，而非真正的技術創新。在手機行業，這可能意味著優化設備性能以提升特定跑分軟件的測試成績；在AI領域，則可能表現為優化模型以應對評測榜單的特定題目。這種做法雖然能在短期內提高產品在評測榜單上的排名，但卻可能忽視了產品在真實使用環境中的性能和用戶體驗。

這種以跑分為核心的營銷策略需要被重新審視。盡管高分成績在營銷中具有吸引力，但它們并不總是反映產品的真實價值。對于消費者而言，理論上的高性能與日常使用中的實際體驗之間往往存在差距。因此，無論是手機行業還是AI領域，公眾和行業都應該更加關注產品在真實世界中的表現。

要放棄跑分嗎？

從隋唐的科舉到今天的高考，從國內的四六級到國外的托福雅思，考試在時間和空間的維度上，都是一種相對公平的衡量機制。因此，大模型評測作為大模型的“考試”，同樣不能被輕易拋棄。

倘若評測相對準確、靠譜、權威，那么對于所有的大模型公司來說都是好事。研發者可以通過評測結果了解自家大模型的優缺點，查漏補缺，找到正確的方向鉆研算法、提升技術、加強訓練，不斷攻克，進行優化迭代，從而讓產品更具有競爭力。

對于AI大模型開發者而言，榜單的排名不應該成為最終目的，真正的挑戰在于如何將先進的技術轉化為實際應用中的有效工具，這不僅僅是一場分數的競賽，更是對技術創新和實用性的追求。我們期待一個更加全面和科學的評測體系的出現，這不僅能正確評估AI模型的實際能力，還能促進整個行業向著更加健康、理性的方向發展。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31000

瀏覽量
269335
大模型

大模型

+關注

關注
2

文章
2476

瀏覽量
2819

MCU芯片跑分大戰

今天我們來個中國通用32位MCU芯片跑分大戰！說起MCU，在物聯網，智能硬件興起的當...

發表于 11-03 06:08

小米新機成為再次跑分王！小米6跑分達到了21萬！

早幾年前，小米是很喜歡玩跑分這個概念的。因此小米在之前的口號直接就有：不服跑個分！不過隨著高通處理器被越來越多的手機廠商所接納和采用，國產手機在跑

發表于 01-06 23:28 ?776次閱讀

不服跑個分！小米6搭載高通835跑分高達110萬

　隨著小米6發布日期的不斷推進近日網上曝出一張小米6跑分的情況，確認搭載高通835處理器魯大師跑分竟然高達110萬分之多！我很確定這是真的魯

發表于 01-17 08:44 ?1794次閱讀

不服來跑分，小米占安兔兔跑分TOP10近半席

　不服跑個分曾經是小米手機發布會的“口頭禪”，雖然跑分不是評判手機優劣的唯一標準，但確實是真實反饋出設備的整體狀態的量化標準。在上周的性價比榜單之后，今日安兔兔又帶來了2017年1月份

發表于 02-28 10:37 ?1403次閱讀

三星Exynos 9815處理器跑分曝光？跑分超過蘋果A11？

近日一款型號為SM-N960F的三星手機現身Geekbench4跑分網站，在內置8GB內存的情況下，單核5162的跑分，多核10704的成績遠遠的把蘋果的A11甩在了身后(A11單核跑

發表于 05-16 11:17 ?9009次閱讀

新版iPhone跑分現身Geekbench

近日，知名跑分應用 Geekbench 的資料庫出現一款疑似 2018 年新款 iPhone 的跑分結果。

發表于 07-05 14:30 ?4897次閱讀

都2019年了為什么還需要跑分

如今跑分不再是展現一款手機有多優秀的重要指標，但發布會上多少會提及幾句作為陪襯，媒體也會把跑分依舊作為評測的固定環節存在。

發表于 05-15 15:02 ?2675次閱讀

魅族16s Pro的Geekbench跑分曝光單核成績為3570分多核成績為9493分

其實兩周之前，魅族16s Pro的安兔兔跑分就被曝光了。不過那一款的配置為6GB+128GB的規格，而今天曝光的Geekbench跑分的機型配置為8GB+128GB的規格，當然，內存配

發表于 08-26 16:11 ?1650次閱讀

三星Note10 Lite跑分曝光單核跑分為667分多核跑分為2030分

11月28日，三星Note10 Lite的GeekBench 5跑分在網上曝光，同時還曝光了部分配置信息。這款手機單核跑分667，多核跑分2

發表于 11-29 15:15 ?1109次閱讀

一加8跑分曝光該機單核跑分為4276分多核跑分達12541分

這款手機單核跑分為4276分，多核跑分達12541分，同時輔以8GB運行內存和Android10系統，僅從分數而言，這款手機的性能表現相當可

發表于 02-15 12:51 ?1871次閱讀

一加8 Pro 5G跑分曝光多核跑分達12686

近日，知名跑分軟件Geekbench出現了一加8 Pro 5G的跑分成績，讓我們提前一睹這款驍龍865旗艦的性能吧。

發表于 03-02 09:43 ?2236次閱讀

Cinebench R23 多款 CPU 的跑分蘋果開發者套裝的 A12Z 跑分 987 分

IT之家 11 月 12 日消息昨天，知名 CPU 跑分軟件 Cinebench 現已發布 R23 版本，支持了搭載蘋果 M1 芯片的設備。現在，根據數碼博主 @EpKong，CHH 統計了

發表于 11-12 14:57 ?3247次閱讀

麒麟950是幾納米工藝_麒麟950跑分

華為麒麟950跑分是多少？跑分，也許是衡量一款處理器是否彪悍的最簡單暴力手段了。

發表于 11-17 15:24 ?1w次閱讀

聯發科全新芯片跑分公布

11月30日消息，安兔兔今天曝光了聯發科全新芯片的跑分成績，綜合跑分高達62萬分，綜合跑分情況已

發表于 12-01 09:38 ?3169次閱讀

基于牛頓法的自適應高階跑分距離推薦模型

基于牛頓法的自適應高階跑分距離推薦模型

發表于 06-17 15:34 ?10次下載

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

跑分沒輸過，體驗沒贏過，大模型刷分何時休？

評論

MCU芯片跑分大戰

小米新機成為再次跑分王！小米6跑分達到了21萬！

不服跑個分！小米6搭載高通835跑分高達110萬

不服來跑分，小米占安兔兔跑分TOP10近半席

三星Exynos 9815處理器跑分曝光？跑分超過蘋果A11？

新版iPhone跑分現身Geekbench

都2019年了為什么還需要跑分

魅族16s Pro的Geekbench跑分曝光單核成績為3570分多核成績為9493分

三星Note10 Lite跑分曝光單核跑分為667分多核跑分為2030分

一加8跑分曝光該機單核跑分為4276分多核跑分達12541分

一加8 Pro 5G跑分曝光多核跑分達12686

Cinebench R23 多款 CPU 的跑分蘋果開發者套裝的 A12Z 跑分 987 分

麒麟950是幾納米工藝_麒麟950跑分

聯發科全新芯片跑分公布

基于牛頓法的自適應高階跑分距離推薦模型