斯坦福大學(xué)研發(fā)的大語(yǔ)言模型評(píng)測(cè) AlpacaEvalLeaderboard備受業(yè)內(nèi)認(rèn)可,在 2023 年 12 月 7 日 更新的排行榜中,Yi-34B-Chat 以 94.08% 的勝率,超越 LLaMA2 Chat 70B、Claude 2、ChatGPT,在 Alpaca 經(jīng)認(rèn)證的模型類別中,成為僅次于 GPT-4 英語(yǔ)能力的大語(yǔ)言模型。
同一周,在加州大學(xué)伯克利分校主導(dǎo)的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo評(píng)分,晉升最新開(kāi)源SOTA開(kāi)源模型之列,性能表現(xiàn)追平GPT-3.5。
多個(gè)Benchmark遙遙領(lǐng)先
在五花八門的大模型評(píng)測(cè)中,伯克利LMSYS ORG排行榜采用了一個(gè)最為接近用戶體感的「聊天機(jī)器人競(jìng)技場(chǎng)」特殊測(cè)評(píng)模式,讓眾多大語(yǔ)言模型在評(píng)測(cè)平臺(tái)隨機(jī)進(jìn)行一對(duì)一 battle,通過(guò)眾籌真實(shí)用戶來(lái)進(jìn)行線上實(shí)時(shí)盲測(cè)和匿名投票,11月份經(jīng)25000的真實(shí)用戶投票總數(shù)計(jì)算了20個(gè)大模型的總得分。
Elo評(píng)分越高,說(shuō)明模型在真實(shí)用戶體驗(yàn)上的表現(xiàn)越出色,可說(shuō)是眾多大模型評(píng)測(cè)集中最能展現(xiàn)「Moment of Truth」真實(shí)關(guān)鍵一刻” 的用戶導(dǎo)向體驗(yàn)對(duì)決。
在開(kāi)源模型中,Yi-34B-Chat成為當(dāng)之無(wú)愧的「最強(qiáng)王者」之一(英語(yǔ)能力),LMSYS ORG 在12月8日官宣11月份總排行時(shí)評(píng)價(jià):「Yi-34B-Chat 和 Tulu-2-DPO-70B 在開(kāi)源界的進(jìn)擊表現(xiàn)已經(jīng)追平 GPT-3.5」。
風(fēng)波終結(jié),爭(zhēng)議理清
Yi-34B開(kāi)源發(fā)布后,開(kāi)發(fā)者Eric Hartford發(fā)現(xiàn)了模型存在的一個(gè)問(wèn)題,就簡(jiǎn)略留言在 Yi 的項(xiàng)目頁(yè)面。然而Eric自己也沒(méi)有預(yù)想到,他的留言引發(fā)了后續(xù)輿論關(guān)于Yi模型「抄襲」LLaMA的質(zhì)疑。
他在郵件中寫道,「感謝你們提供了一個(gè)優(yōu)秀的模型。Yi模型使用了與LLaMA模型完全相同的架構(gòu),只是將兩個(gè)張量改了名字。由于圍繞LLaMA架構(gòu)有很多投資和工具,保持張量名稱的一致性是有價(jià)值的?!笶ric建議,在Yi被廣泛傳播前,及時(shí)恢復(fù)張量名稱。 客觀來(lái)說(shuō),一個(gè)模型核心技術(shù)護(hù)城河是在架構(gòu)之上,通過(guò)數(shù)據(jù)訓(xùn)練獲得的參數(shù)和代碼。大多數(shù)有志于參與基座大模型競(jìng)爭(zhēng)的團(tuán)隊(duì),也多是從零開(kāi)始,用高質(zhì)量的數(shù)據(jù)集再進(jìn)行訓(xùn)練,普遍都是在沿用LLaMA架構(gòu)。零一后來(lái)解釋他們?yōu)榱藞?zhí)行對(duì)比實(shí)驗(yàn)的需要,對(duì)部分推理參數(shù)進(jìn)行了重新命名,原始出發(fā)點(diǎn)是為了充分測(cè)試模型,而非刻意隱瞞來(lái)源。
身處這場(chǎng)輿論風(fēng)暴的中心,Eric 意識(shí)到了可能給一些人帶來(lái)了誤解,開(kāi)始解釋自己之前的發(fā)言。
他在X(twitter)上寫道,「他們沒(méi)有在任何事情上撒謊。所有的模型都是在相互借鑒架構(gòu)。架構(gòu)是學(xué)術(shù)研究的產(chǎn)物,已經(jīng)發(fā)表在論文中,任何人都可以自由使用,這絲毫不減損Yi團(tuán)隊(duì)的成就。他們從零開(kāi)始使用自己創(chuàng)建的數(shù)據(jù)集訓(xùn)練Yi,對(duì)開(kāi)源領(lǐng)域的貢獻(xiàn)是值得贊揚(yáng)的。使用Llama架構(gòu)沒(méi)有任何問(wèn)題。訓(xùn)練才是關(guān)鍵。Yi給了我們目前可獲得的最佳模型,沒(méi)有任何可抱怨的?!?現(xiàn)在,Eric 自己也在使用Yi-34B 系列,用Yi-34b-200k數(shù)據(jù)集訓(xùn)練其他的模型產(chǎn)品。 Yi模型開(kāi)源首月,數(shù)據(jù)也很亮眼。在Hugging Face社區(qū)下載量為16.8萬(wàn),魔搭社區(qū)下載量1.2萬(wàn)。在GitHub 獲得超過(guò)4900個(gè)Stars。
由于性能表現(xiàn)強(qiáng)勁,多家知名公司和機(jī)構(gòu)推出了基于Yi模型基座的微調(diào)模型,比如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大學(xué)和粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(簡(jiǎn)稱IDEA研究院)認(rèn)知計(jì)算與自然語(yǔ)言研究中心(簡(jiǎn)稱CCNL中心)聯(lián)合發(fā)布的SUS-Chat-34B等,均性能表現(xiàn)優(yōu)異。 而AMD和Hugging Face合作的GPU加速大模型的實(shí)驗(yàn)中,也選擇了Yi-6B作為范例項(xiàng)目。
模型好不好,開(kāi)發(fā)者最知道在大模型實(shí)際使用體驗(yàn)上,最有發(fā)言權(quán)的還是一線的開(kāi)發(fā)者。 知名技術(shù)作者蘇洋表示,在他觀察的近期Hugging Face榜單中,前三十名有一半多都是 Yi 和其他用戶微調(diào)的 Yi-34B 的變體模型,原本占據(jù)榜單頭部的 68B 和 70B 模型的數(shù)量目前只留有幾個(gè),「從這點(diǎn)看 Yi 對(duì)于開(kāi)源生態(tài)的幫助還是非常巨大的。」 他會(huì)時(shí)不時(shí)的瀏覽下 HF 的榜單,在最近榜單中的前三十名,有一半多都是 Yi 和其他用戶微調(diào)的 Yi-34B 的變體模型,原本占據(jù)榜單頭部的 68B 和 70B 模型的數(shù)量目前只留有幾個(gè),從這點(diǎn)看 Yi 對(duì)于開(kāi)源生態(tài)的幫助還是非常巨大的。
蘇洋還將他的訓(xùn)練經(jīng)驗(yàn)和心得在CSDN上做了分享(https://blog.csdn.net/soulteary/article/details/134904434)。
蘇洋認(rèn)為 34B 普通用戶努努力還是能自己相對(duì)低成本跑起來(lái)的,68 和 70B 的模型想要本地運(yùn)行,需要更多的資源。但其實(shí)目前分?jǐn)?shù)其實(shí)相比較 34B 拉不開(kāi)太多,也就三四分平均分,但參數(shù)量差了一倍。換言之,企業(yè)想部署使用,所需要的成本也可以得到非常大的節(jié)約。
目前國(guó)產(chǎn)大模型在開(kāi)源榜單上已經(jīng)是第一梯隊(duì),但如果把競(jìng)爭(zhēng)范圍追加到閉源模型、尤其是海外的模型,仍有很大的距離要去追趕。目前的普遍體驗(yàn)是開(kāi)源模型最多只有 GPT-3.5 + 的水平。
蘇洋認(rèn)為國(guó)產(chǎn)大模型,是能夠很快追趕至第一梯隊(duì)的。時(shí)間也會(huì)證明大模型自身的價(jià)值,以及驗(yàn)證出團(tuán)隊(duì)是否對(duì)開(kāi)源有真的持續(xù)投入。
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
521瀏覽量
10268 -
聊天機(jī)器人
+關(guān)注
關(guān)注
0文章
339瀏覽量
12306 -
大模型
+關(guān)注
關(guān)注
2文章
2427瀏覽量
2650
原文標(biāo)題:開(kāi)源風(fēng)波后在 AlpacaEval 直追 GPT4,零一靠技術(shù)如何重建生態(tài)信心
文章出處:【微信號(hào):AI科技大本營(yíng),微信公眾號(hào):AI科技大本營(yíng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論