色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

分析自動評測器的工具包

除了各類開源模型外，還有GPT-4、PaLM 2等眾多「閉源」模型，甚至還開設了一個「準中文」排行榜。

最近，來自斯坦福的團隊，也發布了一款LLM自動評測系統——AlpacaEval，以及對應的AlpacaEval Leaderboard。

在斯坦福的這個排行榜中，GPT-4依然以絕對領先的優勢奪得第一，勝率超過了95%。

緊隨其后的是，勝率都在80%以上的Claude和ChatGPT。其中，Claude以不到3%的優勢拿下第二，而ChatGPT則位列第三。

此次獲得第四名的，則是一位排位賽新人——微軟華人團隊發布的WizardLM。

UC伯克利的Vicuna發揮依然穩定，憑借著超過70%的勝率排在第六。

相比之下，斯坦福自己的Alpaca卻只排到了第16……

其實，團隊自從原始的Alpaca推出以來，已經做了不小的改進——勝率從26%提升到了44%，但依然距離領獎臺很遠。

對此，其中一位作者有些無奈地表示：「是不是我們哪里做的不對？」

AlpacaEval：易使用、速度快、成本低、經過人類標注驗證

AlpacaEval把AlpacaFarm和Aviary進行了結合。

一方面使用與AlpacaFarm相同的代碼（緩存/隨機排列/超參數），另一方面則使用類似于Aviary的排序提示。

與此同時，還對Aviary的提示進行了修改，從而減少對較長輸出的偏見。

團隊表示，AlpacaEval有著拔群的效果：

與人類多數票的一致性，高于單個人類標注者

勝率與人類標注高度相關（0.94）

相比于lmsys評測器，有顯著提升（從63%提高到69%）

勝率

模型的輸出在每個指令上優于text-davinci-003（即參考文本）的比例。

具體而言，首先從AlpacaEval數據集中收集了期望模型在每個指令上的輸出對，并將每個輸出與相同指令下的參考模型（text-davinci-003）的輸出進行配對。

隨后，把這些輸出同時喂給自動評測器，讓它去判斷哪一個更好（也就是評測器的偏好）。

最后，將數據集中所有指令的偏好進行平均，從而得到模型相對于text-davinci-003的勝率。如果兩個模型打平，那么就算半個偏好。

論文地址：
https://arxiv.org/pdf/2305.14387.pdf

標準誤差

勝率的標準誤差（通過N-1進行歸一化），即不同指令上的平均偏好。

不同評測器的對比

團隊通過與收集的2.5K個人工標注（每個指令平均包含4個人工標注）進行比較，評測了AlpacaEval數據集上的不同自動標注程序。

▲斯坦福的評測器（alpaca_eval_gpt4）、之前的自動評測器（alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4）、人類（humans）以及不同基準模型（gpt4、claude、text_davinci_003、guanaco_33b、chatgpt）的測試結果

人類一致性：標注者與交叉標注集中人類多數票之間的一致性

為了估計單個人類標注者（表格中的humans行）與多數人類之間的一致性，首先需要選取一個標注，并計算其在預測其他3個標注的眾數時的準確率。

然后，將所有4個標注和650個指令上的準確率求平均，得到人類一致性，即計算預期的（對于人類和樣本）留一法一致性。如果眾數不唯一，我們隨機選擇其中一個眾數。

對于自動標注器，我們進行完全相同的計算，以便最終的結果可以進行比較。

價格：每1000個標注的平均價格

對于人類來說，這是支付眾包工人進行這些標注的價格（每小時18美元）。如果價格取決于用于計算標注的機器（例如Guanaco），則將其留空。

時間：計算1000個標注所需的平均時間

對于人類來說，這是每個眾包工人標注1000個示例所需時間的中位數。

對于自動標注器，這是運行標注所需的平均時間。值得注意的是，這可能取決于不同用戶的API限制以及集群正在處理的請求數量。

最后，為了進一步改善自動評測流程，團隊發布了：

一個易于定制的流程

模型和自動評測器的排行榜

分析自動評測器的工具包

18K人類標注

2K人類交叉標注

局限性

雖然AlpacaEval提供了一個有用的比較模型，但它并不是一個全面的的模型能力評測系統，其局限性可以概括為以下三點：

指令比較簡單

評分時可能更偏向于風格而非事實

沒有衡量模型可能造成的危害
責任編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6591

瀏覽量
104026
代碼

代碼

+關注

關注
30

文章
4780

瀏覽量
68527
工具包

工具包

+關注

關注
0

文章
46

瀏覽量
9529

原文標題：斯坦福最新LLM排行榜發布！自家Alpaca墊底，華人團隊WizardLM開源第一，GPT-4、Claude穩居前二

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

fastrbf工具包

求matlab中fastrbf的工具包 ，有誰有這個工具包呢？求分享？急需

發表于 03-05 20:05

SAM9G45-EK評測工具包怎么樣？

愛特梅爾公司(Atmel? Corporation)宣布推出SAM9G45-EK評測工具包，支持基于愛特梅爾400 MHz ARM926?之嵌入式微處理器(MPU)并帶有DDR2存儲器

發表于 09-19 07:14

并口開發調試工具包

并口開發調試工具包：開發調試工具包包括三個功能模塊：“并口調試器”、“并口測試信號發生器”和“并口監視器”。

發表于 05-26 09:53 ?37次下載

并口開發調試工具包（推薦）

并口開發調試工具包 （推薦）:

發表于 05-27 10:15 ?35次下載

并口開發調試<b class='flag-5'>工具包</b> （推薦）

固件工具包

固件工具包 修改工具包 高興向大家公布這個信息！首先介紹一下這個工具地用途： 1、修改固件 - 通過此工具能夠修改固件中絕大多數地信息及配置。 2、...

發表于 03-16 14:49 ?71次下載

SAM9G45評測工具包（Atmel）

SAM9G45評測工具包（Atmel）愛特梅爾公司(Atmel® Corporation)宣布推出SAM9G45-EK評測工具包，支持基于愛特梅爾400 MHz ARM92

發表于 11-02 09:35 ?1183次閱讀

愛特梅爾推出SAM9G45評測工具包

愛特梅爾推出SAM9G45評測工具包 愛特梅爾公司(Atmel Corporation)宣布推出SAM9G45-EK評測工具包，支持基于愛特梅爾400 MHz ARM926之嵌入式微

發表于 11-05 09:46 ?736次閱讀

有刷迷你四軸飛行器工具包

有刷迷你四軸飛行器工具包.有刷迷你四軸飛行器工具包.有刷迷你四軸飛行器工具包.有刷迷你四軸飛行

發表于 11-17 17:07 ?9次下載

Labview2013各工具包的功能簡介

Labview2013各工具包的功能簡介Labview2013各工具包的功能簡介

發表于 11-20 11:20 ?0次下載

WEBENCH 設計工具包綜合概述

WEBENCH 設計工具包綜合概述

發表于 09-15 09:28 ?6次下載

WEBENCH 設計<b class='flag-5'>工具包</b>綜合概述

用于代碼編碼器的分析工具包V1.3版本的詳細資料概述

分析工具包（ATK）是一種有助于增強魯棒性的工具，并分析了嵌入式DSP應用的性能。工具包提供源行覆蓋信息的可視化，幫助您構建測試以確保代碼的

發表于 05-04 17:29 ?0次下載

用于代碼編碼<b class='flag-5'>器</b>的<b class='flag-5'>分析</b><b class='flag-5'>工具包</b>V1.3版本的詳細資料概述

Microchip蘋果配件開發工具包

這一講是Microchip蘋果配件開發工具包蘋果配件開發工具包

的頭像

發表于 06-06 13:45 ?2289次閱讀

SM2246XT工具包

SM2246XT工具包免費下載。

發表于 04-23 09:35 ?24次下載

iSCSI驅動器工具包

電子發燒友網站提供《iSCSI驅動器工具包.exe》資料免費下載

發表于 08-01 14:43 ?0次下載

iSCSI驅動<b class='flag-5'>器</b><b class='flag-5'>工具包</b>

OneInstall工具包

電子發燒友網站提供《OneInstall工具包.exe》資料免費下載

發表于 08-18 14:54 ?0次下載

OneInstall<b class='flag-5'>工具包</b>

主站蜘蛛池模板：伦理电影2499伦理片| 高清欧美性猛交xxxx黑人猛交| 亚洲AV无码国产精品色午夜情| 日本中文字幕伊人成中文字幕| 男人天堂黄色| 美女被黑人巨大进入| 久久一区精品| 老头xxx| 久久久精品免费免费直播| 精品国产乱码久久久久乱码| 国产深夜福利视频在线| 国产精品系列在线一区| 国产精品亚洲在钱视频| 国产伦精品一区二区三区免费观看| 国产精品国产三级国AV在线观看| 第一次处破女高清电影| 大胸美女被cao哭| 国产69精品9999XXXX| 钉钉女老师| 国产传媒18精品免费1区| 国产精品视频在线自在线| 国产精品一区二区人妻无码| 国产精品人妻久久无码不卡| 国产午夜精品一区理论片飘花| 国产在线午夜| 久久成人无码国产免费播放| 旧里番ovaの催○セイ活指导| 理论片午午伦夜理片久久| 免费黄色网址在线观看| 欧美兽交YOYO| 爽爽影院线观看免费| 亚洲精品偷拍影视在线观看| 一个人在线观看视频| 在线播放免费人成毛片视频| 97人妻在线公开视频在线观看| h片下载地址| 国产精品18久久久久久欧美网址| 国内精品视频一区二区在线观看| 久久精品一卡二卡三卡四卡视频版| 美女脱了内裤张开腿让男人爽| 人妻少妇69式99偷拍|