色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

技術速遞 | 論文分享《Holistic Evaluation of Language Models》

華為DevCloud ? 來源:未知 ? 2023-05-11 20:16 ? 次閱讀
【摘要】 大模型(LLM)已經成為了大多數語言相關的技術的基石,然而大模型的能力、限制、風險還沒有被大家完整地認識。該文為大模型評估方向的綜述論文,由Percy Liang團隊打造,將2022年四月份前的大模型進行了統一的評估。其中,被評估的模型包括GPT-3,InstructGPT等。在經過大量的實驗之后,論文提出了一些可供參考的經驗總結。

1. 在所有被評估的模型中,InstructGPT davinci v2(175B)在準確率,魯棒性,公平性三方面上表現最好。論文主要聚焦的是國外大公司的語言大模型,而國內的知名大模型,如華為的Pangu系列以及百度的文心系列,論文并沒有給出相關的測評數據。下圖展示了各模型間在各種NLP任務中頭對頭勝率(Head-to-head win rate)的情況。可以看到,出自OpenAI的InstructGPT davinci v2在絕大多數任務中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后,因此這篇論文沒有對ChatGPT的測評,但ChatGPT是InstructGPT的升級版,相信ChatGPT可以取得同樣優異的成績。在下圖中,準確率的綜合第二名由微軟的TNLG獲得,第三名由初創公司Anthropic獲得。同時我們也可以看到,要想在準確率額上獲得55%及以上的勝率,需要至少50B的大小,可見大模型是趨勢所向。8317f780-e42d-11ed-ab56-dac502259ad0.png

2. 由于硬件、架構、部署模式的區別,不同模型的準確率和效率之間沒有強相關性。而準確率與魯棒性(Robustness)、公平性(Fairness)之間有一定的正相關關系(如下圖所示)。

8335fb7c-e42d-11ed-ab56-dac502259ad0.png

如今,大模型的參數規模都非常巨大。GPT-3具有1750億個參數,部署這樣一個大模型,無論在成本上還是工程上都是極大的挑戰。同時,由于需要開放API給用戶使用,OpenAI還需要考慮GPT-3的推理速度。文章的測試結果顯示,GPT-3的推理速度并沒有顯著地比參數更少地模型慢,可能是在硬件、架構和部署模式上都有一定地優勢,足以彌補參數規模上的劣勢。

3. InstructGPT davinci v2(175B)在知識密集型的任務上取得了遠超其他模型的成績,在TruthfulQA數據集上獲得了62.0%的準確率,遠超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績。(TruthfulQA是衡量語言模型在生成問題答案時是否真實的測評數據集。該數據集包括817個問題,涵蓋38個類別,包括健康,法律,金融和政治。作者精心設計了一些人會因為錯誤的先驗知識或誤解而錯誤回答的問題。)與此同時,TNLG v2(530B)在部分知識密集型任務上也有優異的表現。作者認為模型的規模對學習真實的知識起到很大的貢獻,這一點可以從兩個大模型的優異表現中推測得到。

4. 在推理(Reasoning)任務上,Codex davinci v2在代碼生成和文本推理任務上表現都很優異,甚至遠超一些以文本為訓練語料的模型。這一點在數學推理的數據上表現最明顯。在GSM8K數據集上,Codex davinci v2獲得了52.1%的正確率,第二名為InstructGPT davinci v2(175B)的35.0%,且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關的問題,例如代碼生成、代碼總結、注釋生成、代碼修復等,它在文本推理任務上的優秀表現可能是其在代碼數據上訓練的結果,因為代碼是更具有邏輯關系的語言,在這樣的數據集上訓練也許可以提升模型的推理能力。

5. 所有的大模型都對輸入(Prompt)的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強輸入(Prompt)。

835fb868-e42d-11ed-ab56-dac502259ad0.png

如上圖所示,在不同任務上,in-context examples的數量影響不同,在不同的模型上也是如此。由于有些任務比較簡單,例如二分類的IMDB數據庫,增加in-context examples并不會對結果有明顯的影響。在模型方面,由于window size的限制,過多的in-context examples可能導致剩余的window size不足以生成一個完成答案,因而對生成結果造成負面的影響。

點擊“閱讀原文”,了解更多!


原文標題:技術速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信公眾號:華為DevCloud】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    216

    文章

    34471

    瀏覽量

    251990

原文標題:技術速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信號:華為DevCloud,微信公眾號:華為DevCloud】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大語言模型開發語言是什么

    在人工智能領域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發語言和工具的支持。下面,AI部落小編為您介紹大語言模型開發所依賴的主要編程語言。
    的頭像 發表于 12-04 11:44 ?137次閱讀

    TMAG6180EVM,TMAG6181EVM Evaluation Module用戶指南

    電子發燒友網站提供《TMAG6180EVM,TMAG6181EVM Evaluation Module用戶指南.pdf》資料免費下載
    發表于 11-14 16:09 ?0次下載
    TMAG6180EVM,TMAG6181EVM <b class='flag-5'>Evaluation</b> Module用戶指南

    LMK5C33414A Evaluation Module用戶指南

    電子發燒友網站提供《LMK5C33414A Evaluation Module用戶指南.pdf》資料免費下載
    發表于 11-07 09:12 ?0次下載
    LMK5C33414A <b class='flag-5'>Evaluation</b> Module用戶指南

    30s高能速遞 | 第三屆 OpenHarmony技術大會精彩搶鮮看

    技術引領筑生態 萬物智聯創未來 第三屆 OpenHarmony技術大會 如約而至 高燃登場 10月12-13日,上海世博中心 重磅嘉賓,前沿議題 看億萬代碼如何改變未來,與卓越伙伴共繪閃耀繁星 亮點
    發表于 10-08 17:36

    新品速遞 | TOF反射型光電,突破檢測距離天花板

    新品速遞 | TOF反射型光電,突破檢測距離天花板
    的頭像 發表于 08-13 08:24 ?374次閱讀
    新品<b class='flag-5'>速遞</b> | TOF反射型光電,突破檢測距離天花板

    微軟GitHub推出Models服務,賦能AI工程師

    微軟旗下的代碼托管巨頭 GitHub 近期宣布了一項重大更新——GitHub Models 服務,旨在成為 AI 工程師的得力助手。該服務專為開發者設計,旨在幫助他們輕松選擇并優化最適合其應用需求的 AI 模型。
    的頭像 發表于 08-05 14:16 ?498次閱讀

    GitHub推出GitHub Models服務,賦能開發者智能選擇AI模型

    8月2日,全球領先的代碼托管平臺GitHub宣布了一項重大創新——GitHub Models服務的正式推出。該服務被定位為AI時代的工程師助手,旨在幫助全球超過1億的GitHub用戶輕松找到并應用最適合其項目需求的AI模型。
    的頭像 發表于 08-02 15:39 ?603次閱讀

    地平線科研論文入選國際計算機視覺頂會ECCV 2024

    近日,地平線兩篇論文入選國際計算機視覺頂會ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發表于 07-27 11:10 ?936次閱讀
    地平線科研<b class='flag-5'>論文</b>入選國際計算機視覺頂會ECCV 2024

    大模型LLM與ChatGPT的技術原理

    在人工智能領域,大模型(Large Language Model, LLM)和ChatGPT等自然語言處理技術(Natural Language Processing, NLP)正逐步改變著人類
    的頭像 發表于 07-10 10:38 ?883次閱讀

    寬帶數控延時線芯片的研制論文

    電子發燒友網站提供《寬帶數控延時線芯片的研制論文.pdf》資料免費下載
    發表于 07-02 17:26 ?0次下載

    如何使用Wavetool Evaluation Software軟件在ADPD4100評估板上設置進行多波長監測?

    目前已有設備:1.EVAL-ADPD4100-4101;2.EVAL-ADPDUCZ; 問題情況:成功連接到電腦Wavetool Evaluation Software軟件,但是通過配置dcfg
    發表于 05-24 07:23

    【大語言模型:原理與工程實踐】核心技術綜述

    我也不打算把網上相關的信息在總結一下,這樣的話,工作量很大。 我主要看了-大語言模型基礎技術這節 大語言模型(Large Language Models,LLMs)的核心技術涵蓋了從模
    發表于 05-05 10:56

    如何在PSoC62 Evaluation kit開發板上運行RT-Thread呢?

    本文主要介紹如何在PSoC62 Evaluation kit開發板上運行RT-Thread,如何連接CYW43012 WiFi藍牙模組,以及如何進行WiFi聯網、網絡延遲、網絡帶寬測試。
    的頭像 發表于 02-27 10:49 ?1039次閱讀
    如何在PSoC62 <b class='flag-5'>Evaluation</b> kit開發板上運行RT-Thread呢?

    為什么TLE9879 Evaluation Kit提供的原理圖是空的?

    為什么TLE9879 Evaluation Kit提供的原理圖是空的,用AD19打開,啥都沒有,PCB版本為:TLE9879 EvalKit V1.2
    發表于 02-20 06:57

    無法下載48V MOTIXTM Gate Driver TLE9140EQW Evaluation Board demo例程,打開顯示出錯的原因?

    無法下載48 V MOTIXTM Gate Driver TLE9140EQW Evaluation Board demo例程,打開顯示出錯。
    發表于 01-19 07:17
    主站蜘蛛池模板: 麻豆沈芯语| 儿媳妇完整版视频播放免费观看| 51国产偷自视频在线视频播放 | 国产午夜一级淫片| 亚洲精品一区三区三区在线观看| 国产自拍视频在线一区| 日韩一区二区三区四区区区| 97午夜精品| 辣文肉高h粗暴| 0855福利| 美女伸开两腿让我爽| 在线天天看片免费视频观看| 极品少妇高潮啪啪AV无码| 亚洲AV午夜精品麻豆AV| 国产精品成久久久久三级四虎| 神马影院午夜理论二| 高清无码中文字幕影片| 色综合久久88一加勒比| 高清国产一区| 少妇人妻偷人精品视蜜桃| 古装性艳史电影在线看| 台湾佬休闲中性娱乐网| 国产精品久久久久影院色| 性生交片免费无码看人| 国产不卡视频在线| 快播在线电影网站| 最近的中文字幕免费完整| 狼人射综合| 2022国产麻豆剧传媒剧情| 免费看黄色小说| 亚洲AV无码乱码国产麻豆P| 国色精品VA在线观看免费视频| 亚洲精品www久久久久久久软件| 好硬好湿好爽再深一点视频 | 久久精品国产福利电影网| 在线播放毛片| 欧美丰满白嫩bbxx| 国产成人99久久亚洲综合精品 | 视频成人永久免费看| 国产欧美亚洲综合第一页| 日本日本熟妇中文在线视频|