色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

跑分沒輸過,體驗沒贏過,大模型刷分何時休?

新火種 ? 來源:新火種 ? 作者:新火種 ? 2023-12-13 09:09 ? 次閱讀

作者:一號

編輯:美美

手機到大模型,國內產品為啥都這么熱衷跑分?

IDCAI大模型技術能力評估,12項指標,7項滿分,文心大模型3.5“大滿貫”;360智腦在SuperCLUE評測中多項能力位列國產大模型第一,某些方面甚至跑贏了GPT-4;夸克大模型在C-Eval和CMMLU兩大權威評測榜單中名列第一,顯示出其在寫作、考試等部分場景中甚至優于GPT-4......

wKgZomV3wHeANcIXAAumtSt2Mh4559.jpg

今年以來,國產AI大模型發展趨勢之迅猛,不得不讓人感慨。截至目前,國產大模型數量已經超過了200個,而且,這些大模型紛紛表現不俗,從百度文心一言到阿里巴巴的夸克大模型,國產AI在各類評測榜單上的表現引人注目。有人對此評價,“跑分沒輸過,體驗沒贏過”。

這種似曾相識的“跑分”現象,不禁讓人想到手機市場里類似的做法。這種在評測中名列前茅、表現出色,但實際用戶體驗一言難盡的情況,究竟意味著什么?

為何跑分與體驗不符?

回顧手機市場,“跑分沒輸過,體驗沒贏過”這句話最開始就是從手機圈中興起的,各大廠商通過不斷疊加定語,來讓自己獲得第一;還有的手機會自動識別跑分軟件,針對性地開啟性能模式,讓自己的跑分數據好看些,從而實現“作弊”。用戶買到跑分高的手機后,實際體驗并不是那么回事。

而在AI大模型領域,評估標準則相對公平,并且是同意的,其中包括MMLU(用于衡量多任務語言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于評估人類級任務的能力)。

wKgaomV3wHmAKZdKAKNpTklkemA192.png

目前國內廠商經常飲用的榜單就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清華大學、上海交通大學和愛丁堡大學合作構建的綜合性考試評測集,CMMLU則是MBZUAI、上海交通大學、微軟亞洲研究院共同推出,至于SuperCLUE,則是由各大高校的AI專業人士設立的。

盡管大模型的評測標準相對公平,但其仍有一定的局限性,實際的測評之中總會出現問題,其中一個最大的問題就是“考題泄露”。

大模型評測的一個主要方法就是做題。為了讓評測相對透明公開,避免暗箱操作,評測機構通常會將評測的方法、標準甚至是題庫對外公開。例如C-Eval榜單在上線之初就有13948道題目,由于題庫有限,并且更新頻率不是特別高,這就給了一些大模型刷題“鉆空子”的機會。

我們都知道,如果在考試之前知道會考哪些題目,那考生完全可以做針對性的學習,大模型也一樣,并且大模型最擅長的就是記憶。在評測之前,把題庫直接加入大模型的訓練集,訓練之后的大模型就能在評測中表現得比實際能力更好,甚至跑出一些夸張的成績,例如1.3B的模型在某些任務上超越了10倍體量的大模型。

那么這樣的評測結果,跟實際體驗一定會很不相符。

為何熱衷于跑分?

無論是國產手機廠商還是AI大模型公司,他們對跑分的熱衷,本質上是一種營銷策略。跑分成績容易被量化、對比,因此成為了向公眾展示技術實力的便捷手段。這種做法在短期內可能會吸引消費者和投資者的注意,但它也可能引起誤導,使人們過分關注理論性能,而忽視了實際應用中的體驗和效能。

wKgaomV3wHqAfwrnAAkbdfqpYbk268.jpg

這種營銷策略的問題在于,它可能導致公司本末倒置,過分投入于提高特定測試的分數,而非真正的技術創新。在手機行業,這可能意味著優化設備性能以提升特定跑分軟件的測試成績;在AI領域,則可能表現為優化模型以應對評測榜單的特定題目。這種做法雖然能在短期內提高產品在評測榜單上的排名,但卻可能忽視了產品在真實使用環境中的性能和用戶體驗。

這種以跑分為核心的營銷策略需要被重新審視。盡管高分成績在營銷中具有吸引力,但它們并不總是反映產品的真實價值。對于消費者而言,理論上的高性能與日常使用中的實際體驗之間往往存在差距。因此,無論是手機行業還是AI領域,公眾和行業都應該更加關注產品在真實世界中的表現。

要放棄跑分嗎?

從隋唐的科舉到今天的高考,從國內的四六級到國外的托福雅思,考試在時間和空間的維度上,都是一種相對公平的衡量機制。因此,大模型評測作為大模型的“考試”,同樣不能被輕易拋棄。

倘若評測相對準確、靠譜、權威,那么對于所有的大模型公司來說都是好事。研發者可以通過評測結果了解自家大模型的優缺點,查漏補缺,找到正確的方向鉆研算法、提升技術、加強訓練,不斷攻克,進行優化迭代,從而讓產品更具有競爭力。

對于AI大模型開發者而言,榜單的排名不應該成為最終目的,真正的挑戰在于如何將先進的技術轉化為實際應用中的有效工具,這不僅僅是一場分數的競賽,更是對技術創新和實用性的追求。我們期待一個更加全面和科學的評測體系的出現,這不僅能正確評估AI模型的實際能力,還能促進整個行業向著更加健康、理性的方向發展。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31000

    瀏覽量

    269335
  • 大模型
    +關注

    關注

    2

    文章

    2476

    瀏覽量

    2819
收藏 人收藏

    評論

    相關推薦

    MCU芯片大戰

    今天 我們來個中國通用32位MCU芯片 大戰!說起MCU,在物聯網,智能硬件興起的當...
    發表于 11-03 06:08

    小米新機成為再次王!小米6達到了21萬!

    早幾年前,小米是很喜歡玩這個概念的。因此小米在之前的口號直接就有:不服!不過隨著高通處理器被越來越多的手機廠商所接納和采用,國產手機在
    發表于 01-06 23:28 ?776次閱讀

    不服! 小米6搭載高通835高達110萬

     隨著小米6發布日期的不斷推進近日網上曝出一張小米6的情況,確認搭載高通835處理器魯大師竟然高達110萬之多!我很確定這是真的魯
    發表于 01-17 08:44 ?1794次閱讀

    不服來,小米占安兔兔TOP10近半席

     不服曾經是小米手機發布會的“口頭禪”,雖然不是評判手機優劣的唯一標準,但確實是真實反饋出設備的整體狀態的量化標準。在上周的性價比榜單之后,今日安兔兔又帶來了2017年1月份
    發表于 02-28 10:37 ?1403次閱讀
    不服來<b class='flag-5'>跑</b><b class='flag-5'>分</b>,小米占安兔兔<b class='flag-5'>跑</b><b class='flag-5'>分</b>TOP10近半席

    三星Exynos 9815處理器曝光?超過蘋果A11?

    近日一款型號為SM-N960F的三星手機現身Geekbench4分網站,在內置8GB內存的情況下,單核5162的,多核10704的成績遠遠的把蘋果的A11甩在了身后(A11單核
    的頭像 發表于 05-16 11:17 ?9009次閱讀
    三星Exynos 9815處理器<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光?<b class='flag-5'>跑</b><b class='flag-5'>分</b>超過蘋果A11?

    新版iPhone現身Geekbench

    近日,知名應用 Geekbench 的資料庫出現一款疑似 2018 年新款 iPhone 的結果。
    的頭像 發表于 07-05 14:30 ?4897次閱讀

    都2019年了為什么還需要

    如今不再是展現一款手機有多優秀的重要指標,但發布會上多少會提及幾句作為陪襯,媒體也會把依舊作為評測的固定環節存在。
    的頭像 發表于 05-15 15:02 ?2675次閱讀

    魅族16s Pro的Geekbench曝光單核成績為3570多核成績為9493

    其實兩周之前,魅族16s Pro的安兔兔就被曝光了。不過那一款的配置為6GB+128GB的規格,而今天曝光的Geekbench的機型配置為8GB+128GB的規格,當然,內存配
    發表于 08-26 16:11 ?1650次閱讀

    三星Note10 Lite曝光單核分為667多核分為2030

    11月28日,三星Note10 Lite的GeekBench 5分在網上曝光,同時還曝光了部分配置信息。這款手機單核667,多核2
    發表于 11-29 15:15 ?1109次閱讀

    一加8曝光該機單核分為4276多核達12541

    這款手機單核分為4276,多核達12541,同時輔以8GB運行內存和Android10系統,僅從分數而言,這款手機的性能表現相當可
    發表于 02-15 12:51 ?1871次閱讀
    一加8<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光該機單核<b class='flag-5'>跑</b>分為4276<b class='flag-5'>分</b>多核<b class='flag-5'>跑</b><b class='flag-5'>分</b>達12541<b class='flag-5'>分</b>

    一加8 Pro 5G曝光 多核達12686

    近日,知名軟件Geekbench出現了一加8 Pro 5G的分成績,讓我們提前一睹這款驍龍865旗艦的性能吧。
    的頭像 發表于 03-02 09:43 ?2236次閱讀
    一加8 Pro 5G<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光 多核<b class='flag-5'>跑</b><b class='flag-5'>分</b>達12686

    Cinebench R23 多款 CPU 的 蘋果開發者套裝的 A12Z 987

    IT之家 11 月 12 日消息 昨天,知名 CPU 軟件 Cinebench 現已發布 R23 版本,支持了搭載蘋果 M1 芯片的設備。現在,根據數碼博主 @EpKong,CHH 統計了
    的頭像 發表于 11-12 14:57 ?3247次閱讀

    麒麟950是幾納米工藝_麒麟950

    華為麒麟950是多少?,也許是衡量一款處理器是否彪悍的最簡單暴力手段了。
    的頭像 發表于 11-17 15:24 ?1w次閱讀

    聯發科全新芯片公布

    11月30日消息,安兔兔今天曝光了聯發科全新芯片的分成績,綜合高達62萬,綜合情況已
    的頭像 發表于 12-01 09:38 ?3169次閱讀

    基于牛頓法的自適應高階距離推薦模型

    基于牛頓法的自適應高階距離推薦模型
    發表于 06-17 15:34 ?10次下載
    主站蜘蛛池模板: 97蜜桃网123.com| 中文字幕永久在线观看| 老头操美女| 激情内射亚州一区二区三区爱妻| 二级特黄绝大片免费视频大片| 999视频精品全部免费观看| 在线观看国产区| 野草观看免费高清视频| 亚洲欧美日韩高清专区| 亚洲欧美综合中文字幕| 亚洲乱码AV久久久久久久| 亚洲成人一区二区| 亚洲AV精品无码成人| 亚洲国产精品一区二区三区在线观看 | 伊人久99久女女视频精品免| 做暖免费观看日本| 欧美日韩1区| 欧美成人精品高清在线观看| 免费被靠视频动漫| 欧美freesex黑人又粗又| 女人操男人| 任你躁国语自产二区在线播放| 日韩久久影院| 忘忧草日本在线WWW日本| 我年轻漂亮的继坶2中字在线播放| 午夜影院c绿象| 亚洲色综合中文字幕在线| 亚洲综合AV在线在线播放| 淫品色影院| 97综合久久| 成人网站国产在线视频内射视频| 国产AV天堂一区二区三区| 国产精品久久久久久久久爆乳| 国产亚洲一区二区三区啪| 久久aa毛片免费播放嗯啊| 美女隐私黄www视频| 日韩a视频在线观看| 校花在公车上被内射好舒| 亚洲中文热码在线视频| 嘴巴舔着她的私处插| YELLOW免费观看完整视频|