色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT-4拿下最難數學推理數據集新SOTA!新型Prompting讓大模型推理能力狂升!

CVer ? 來源:機器之心 ? 2023-05-15 15:35 ? 次閱讀

模擬人類推理過程,華為諾亞提出 Progressive-Hint Prompting (PHP) 引導大模型漸近正確答案。

近期,華為聯和港中文發表論文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出 Progressive-Hint Prompting (PHP),用來模擬人類做題過程。在 PHP 框架下,Large Language Model (LLM) 能夠利用前幾次生成的推理答案作為之后推理的提示,逐步靠近最終的正確答案。要使用 PHP,只需要滿足兩個要求: 1) 問題能夠和推理答案進行合并,形成新的問題;2) 模型可以處理這個新的問題,給出新的推理答案。

f01d6272-f2cc-11ed-90ce-dac502259ad0.png

結果表明,GP-T-4+PHP 在多個數據集上取得了 SOTA 結果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。該方法大幅超過 GPT-4+CoT。比如,在現在最難的數學推理數據集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 數據集的 Nember Theory (數論) 子集提升 6.1%, 將 MATH 整體提升到 53.9%,達到 SOTA。

f03d20da-f2cc-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2304.09797

代碼鏈接:https://github.com/chuanyang-Zheng/Progressive-Hint

介紹

隨著 LLM 的發展,涌現了關于 prompting 的一些工作,其中有兩個主流方向:

一個以 Chain-Of-Thought( CoT,思維鏈) 為代表,通過清楚得寫下推理過程,激發模型的推理能力;

另一個以 Self-Consistency (SC) 為代表,通過采樣多個答案,然后進行投票得到最終答案。

顯然,現存的兩種方法,沒有對問題進行任何的修改,相當于做了一遍題目之后就結束了,而沒有反過來帶著答案進行再次檢查。PHP 嘗試模擬更加類人推理過程:對上次的推理過程進行處理,然后合并到初始的問題當中,詢問 LLM 進行再次推理。當最近兩次推理答案一致時,得到的答案是準確的,將返回最終答案。具體的流程圖如下所示:

f05a770c-f2cc-11ed-90ce-dac502259ad0.png

在第一次與 LLM 交互的時候,應當使用 Base Prompting (基礎提示), 其中的 prompt(提示)可以是 Standard prompt,CoT prompt 或者其改進版本。通過 Base Prompting,可以進行第一次交互,然后得到初步的答案。在隨后的交互中,應當使用 PHP,直至最新的兩個答案一致。

PHP prompt 基于 Base Prompt 進行修改。給定一個 Base Prompt,可以通過制定的 PHP prompt design principles 來得到對應的 PHP prompt。具體如下圖所示:

f07a0d24-f2cc-11ed-90ce-dac502259ad0.png

作者希望 PHP prompt 能夠讓大模型學習到兩種映射模式:

1)如果給的 Hint 是正確答案,那么返回的答案依然要是正確答案 (具體如上圖所示的「Hint is the correct answer」);

2)如果給的 Hint 是錯誤答案,那么 LLM 要通過推理,跳出錯誤答案的 Hint,返回正確答案(具體如上圖所示的「Hint is the incorrect answer」)。

按照這種 PHP prompt 的設計規則,給定任意現存的 Base Prompt,作者都可以設定出對應的 PHP Prompt。

實驗

作者使用七個數據集,包括 AddSub、MultiArith、SingleEQ、SVAMP、GSM8K、 AQuA 和 MATH。同時,作者一共使用了四個模型來驗證作者的想法,包括 text-davinci-002、text-davinci-003、GPT-3.5-Turbo 和 GPT-4。

主要結果

f0a6858e-f2cc-11ed-90ce-dac502259ad0.png

當語言模型更強大、提示更有效時,PHP 的效果更好。相比于 Standard Prompt 和 CoT Prompt,Complex CoT prompt 表現出了顯著的性能提升。分析還顯示,使用強化學習進行微調的 text-davinci-003 語言模型比使用監督指令微調的 text-davinci-002 模型表現更好,能夠提升文檔效果。text-davinci-003 的性能提高歸因于其增強的能力,使其更好地理解和應用給定的提示。同時,如果只是使用 Standard prompt,那么 PHP 所帶來的提升并不明顯。如果需要讓 PHP 起到效果,至少需要 CoT 來激發模型的推理能力。

f0c754ee-f2cc-11ed-90ce-dac502259ad0.png

同時,作者也探究了交互次數與模型、prompt 之間的關系。當語言模型更強大,提示更弱時,交互次數會減少。交互次數指代智能體與 LLMs 互動的次數。當收到第一個答案時,交互次數為 1;收到第二個答案時,交互次數增加到 2。在圖 2 中,作者展示了各種模型和提示的交互次數。作者的研究結果表明:

1)在給定相同提示的情況下,text-davinci-003 的交互次數通常低于 text-davinci-002。這主要是由于 text-davinci-003 的準確性更高,導致基礎答案和后續答案的正確率更高,因此需要更少的交互才能得到最終的正確答案;

2)當使用相同的模型時,隨著提示變得更強大,交互次數通常會增加。這是因為當提示變得更有效時,LLMs 的推理能力會得到更好的發揮,從而使它們能夠利用提示跳出錯誤答案,最終導致需要更高的交互次數才能達到最終答案,這使得交互次數增加。

Hint 質量的影響

f0e53df6-f2cc-11ed-90ce-dac502259ad0.png

為了增強 PHP-Standard 的性能,將 Base Prompt Standard 替換為 Complex CoT 或 CoT 可以顯著提高最終性能。對 PHP-Standard 而言,作者觀察到在 Base Prompt Standard 下,GSM8K 的性能從 16.0% 提高到了在基礎提示 CoT 下的 50.2%,再提高到在基礎提示 Complex CoT 下的 60.3%。相反,如果將 Base Prompt Complex CoT 替換為 Standard,則最終性能會降低。例如,在將基礎提示 Complex CoT 替換為 Standard 后,PHP-Complex CoT 在 GSM8K 數據集上的性能從 71.6% 下降到了 65.5%。

如果 PHP 不是基于相應的 Base Prompt 進行設計,那么效果可能進一步提高。使用 Base Prompt Complex CoT 的 PHP-CoT 在六個數據集中的四個數據集表現優于使用 CoT 的 PHP-CoT。同樣地,使用基礎提示 CoT 的 PHP-Complex CoT 在六個數據集中的四個數據集表現優于使用 Base Prompt Complex CoT 的 PHP-Complex CoT。作者推推測這是因為兩方面的原因:1)在所有六個數據集上,CoT 和 Complex CoT 的性能相似;2)由于 Base Answer 是由 CoT(或 Complex CoT)提供的,而后續答案是基于 PHP-Complex CoT(或 PHP-CoT),這就相當于有兩個人合作解決問題。因此,在這種情況下,系統的性能可能進一步提高。

消融實驗

f117002a-f2cc-11ed-90ce-dac502259ad0.png

將句子 P1 和 P2 納入模型可以提高 CoT 在三個數據集上的表現,但當使用 Complex CoT 方法時,這兩個句子的重要性尤為明顯。在加入 P1 和 P2 后,該方法在六個數據集中有五個數據集的表現得到了提升。例如,在 SVAMP 數據集上,Complex CoT 的表現從 78.0% 提高到了 80.0%,在 GSM8K 數據集上從 68.3% 提高到了 71.6%。這表明,尤其是在模型的邏輯能力更強時,句子 P1 和 P2 的效果更為顯著。

f12df8a2-f2cc-11ed-90ce-dac502259ad0.png

在設計提示時需要同時包含正確和錯誤的提示。當設計的提示同時包含正確和錯誤的提示時,使用 PHP 的效果優于不使用 PHP。具體來說,提示中提供正確的提示會促進生成與給定提示相符的答案。相反,提示中提供錯誤的提示則會通過給定的提示鼓勵生成其他答案

PHP+Self-Consistency

f144ceb0-f2cc-11ed-90ce-dac502259ad0.png

f1aff58c-f2cc-11ed-90ce-dac502259ad0.png

使用 PHP 可以進一步提高性能。通過使用類似的提示和樣本路徑數量,作者發現在表 6 和圖 3 中,作者提出的 PHP-CoT 和 PHP-Complex CoT 總是比 CoT 和 Complex CoT 表現更好。例如,CoT+SC 的樣本路徑為 10、20 和 40 時,能夠在 MultiArith 數據集上達到 96.5% 的準確率。因此,可以得出結論,CoT+SC 的最佳性能為 96.5%,使用 text-davinci-003。然而,在實施 PHP 之后,性能升至 97.1%。同樣,作者還觀察到在 SVAMP 數據集上,CoT+SC 的最佳準確率為 83.3%,在實施 PHP 后進一步提高到 83.7%。這表明,PHP 可以打破性能瓶頸并進一步提高性能。

使用 PHP 可以降低 SC 的成本,眾所周知,SC 涉及更多的推理路徑,導致成本更高。表 6 說明,PHP 可以是降低成本的有效方法,同時仍保持性能增益。如圖 3 所示,使用 SC+Complex CoT,可以使用 40 個樣本路徑達到 78.1% 的準確率,而加入 PHP 將所需平均推理路徑降低到 10×2.1531=21.531 條路徑,并且結果更好,準確率達到了 78.2%。

GPT-3.5-Turbo 和 GPT-4

f1d1231a-f2cc-11ed-90ce-dac502259ad0.png

作者按照以前的工作設置,使用文本生成模型進行實驗。隨著 GPT-3.5-Turbo 和 GPT-4 的 API 發布,作者在相同的六個數據集上驗證了具有 PHP 的 Complex CoT 的性能。作者對這兩個模型都使用貪心解碼(即溫度 = 0)和 Complex CoT 作為提示。

如表 7 所示,提出的 PHP 增強了性能,在 GSM8K 上提高了 2.3%,在 AQuA 上提高了 3.2%。然而,與 text-davinci-003 相比,GPT-3.5-Turbo 表現出對提示的依附能力降低。作者提供了兩個例子來說明這一點:a)在提示缺失的情況下,GPT-3.5-Turbo 無法回答問題,并回復類似于 “由于答案提示缺失,我無法回答此問題。請提供答案提示以繼續” 的聲明。相比之下,text-davinci-003 在回答問題之前會自主生成并填充缺失的答案提示;b)當提供超過十個提示時,GPT-3.5-Turbo 可能會回復 “由于給出了多個答案提示,我無法確定正確的答案。請為問題提供一個答案提示。”

f1ec7ba6-f2cc-11ed-90ce-dac502259ad0.png

在部署 GPT-4 模型后,作者能夠在 SVAMP、GSM8K、AQuA 和 MATH 基準測試上實現新的 SOTA 性能。作者提出的 PHP 方法不斷改善了 GPT-4 的性能。此外,與 GPT-3.5-Turbo 模型相比,作者觀察到 GPT-4 所需的交互次數減少了,這與 “當模型更加強大時,交互次數會減少” 的發現相一致。

總結

本文介紹了 PHP 與 LLMs 交互的新方法,具有多個優點:1)PHP 在數學推理任務上實現了顯著的性能提升,在多個推理基準測試上領先于最先進的結果;2)使用更強大的模型和提示,PHP 可以更好地使 LLMs 受益;3)PHP 可以與 CoT 和 SC 輕松結合,進一步提高性能。

為了更好地增強 PHP 方法,未來的研究可以集中在改進問題階段的手工提示和答案部分的提示句子的設計上。此外,除了將答案當作 hint,還可以確定和提取有助于 LLMs 重新考慮問題的新 hint。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3229

    瀏覽量

    48811
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24690
  • GPT
    GPT
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15345

原文標題:GPT-4拿下最難數學推理數據集新SOTA!新型Prompting讓大模型推理能力狂升!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OpenAI全新GPT-4o能力炸場!速度快/成本低,能讀懂人類情緒

    ”的意思。GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-
    的頭像 發表于 05-15 00:15 ?7817次閱讀

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    大語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然語言文本。這些模型通過訓練海量的文本數據
    發表于 05-04 23:55

    壓縮模型會加速推理嗎?

    你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導入到 STM32L462RCT我發現壓縮模型推理時間沒有影響。aiRun 程序在 8
    發表于 01-29 06:24

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    使用 MindSpore Lite 推理引擎進行模型推理的通用開發流程。 基本概念 在進行開發前,請先了解以下概念。 張量 :它與數組和矩陣非常相似,是 MindSpore Lite 網絡運算中的基本
    發表于 12-14 11:41

    全新科學問答數據ScienceQA深度學習模型推理有了思維鏈

    和艾倫人工智能研究院(AI2)提出了首個標注詳細解釋的多模態科學問答數據 ScienceQA,用于測試模型的多模態推理能力。在 Scie
    的頭像 發表于 11-01 16:30 ?1361次閱讀

    深度:構建GPT-4模型,如何商業落地?

    GPT-4引發海量算力需求,把握算力產業鏈機會。根據測算,我們認為,在中性假設下,ChatGPT一年產生的API調用費用約為6.2億美元,與此同時,ChatGPT將在訓練和推理層面對GPU產生巨大需求。
    的頭像 發表于 05-06 11:24 ?1168次閱讀
    深度:構建<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>,如何商業落地?

    華為諾亞提出新型Prompting (PHP),GPT-4拿下最難數學推理數據SOTA

    結果表明,GP-T-4+PHP 在多個數據上取得了 SOTA 結果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53
    的頭像 發表于 05-15 09:23 ?1081次閱讀
    華為諾亞提出<b class='flag-5'>新型</b><b class='flag-5'>Prompting</b> (PHP),<b class='flag-5'>GPT-4</b><b class='flag-5'>拿下</b><b class='flag-5'>最難</b><b class='flag-5'>數學</b><b class='flag-5'>推理</b><b class='flag-5'>數據</b><b class='flag-5'>集</b>新<b class='flag-5'>SOTA</b>

    GPT-4模型結構和訓練方法

    GPT-4 的發布報道上,GPT-4 的多模態能力人印象深刻,它可以理解圖片內容給出圖片描述,甚至能在圖片內容的基礎上理解其中的隱喻或推斷下一時刻的發展。
    的頭像 發表于 05-22 15:21 ?2633次閱讀
    <b class='flag-5'>GPT-4</b> 的<b class='flag-5'>模型</b>結構和訓練方法

    基準數據(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

    ? 因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣,但其主要依賴于從常識知識中發現因果關系。本研究提出了一個基準數據(CORR2CAUSE)來測試大語言模型
    的頭像 發表于 06-20 15:39 ?1825次閱讀
    基準<b class='flag-5'>數據</b><b class='flag-5'>集</b>(CORR2CAUSE)如何測試大語言<b class='flag-5'>模型</b>(LLM)的純因果<b class='flag-5'>推理</b><b class='flag-5'>能力</b>

    爆了!GPT-4模型架構、訓練成本、數據信息都被扒出來了

    文章稱,他們從許多來源收集了大量有關 GPT-4 的信息,包括模型架構、訓練基礎設施、推理基礎設施、參數量、訓練數據組成、token 量、
    的頭像 發表于 07-12 14:16 ?810次閱讀
    爆了!<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>架構、訓練成本、<b class='flag-5'>數據</b><b class='flag-5'>集</b>信息都被扒出來了

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發布了 GPT-4模型,帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發了
    的頭像 發表于 08-11 14:20 ?890次閱讀
    <b class='flag-5'>GPT-4</b>沒有<b class='flag-5'>推理</b><b class='flag-5'>能力</b>嗎?

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理數學、編碼、多語言理解和視覺方面全面超越了包括
    的頭像 發表于 03-05 09:58 ?648次閱讀

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布了行業首個云、端、邊全棧大
    的頭像 發表于 04-24 16:49 ?1100次閱讀

    商湯科技推出6000億參數大模型,全力對標GPT-4 Turbo?

    稍晚些時候,商湯科技發布公告稱,4月23日在上海臨港AIDC舉辦技術交流日活動,推出了6000億參數大模型(日日新5.0),其知識、數學推理和代碼
    的頭像 發表于 04-25 10:11 ?392次閱讀

    OpenAI即將發布“草莓”推理模型

    科技界迎來新動態,據可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發布——預計在兩周內,將正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務中。這款以卓越推理能力
    的頭像 發表于 09-11 16:53 ?516次閱讀
    主站蜘蛛池模板: 亚洲AV永久无码精品澳门| 一边捏奶头一边啪高潮会怎么样| 亚洲AV久久久噜噜噜噜| xxx日本免费| 狼人大香伊蕉国产WWW亚洲| 小夫妻天天恶战| 成人欧美一区二区三区白人| 旧里番YY6080在线播放| 亚洲国产日韩制服在线观看| 国产69精品久久久久无码麻豆| 久久中文字幕亚洲精品最新| 亚洲国产精品免费线观看视频| 穿着丝袜被男生强行啪啪| 嫩草影院久久精品| 4399亚洲AV无码V无码网站| 久久久青青| 中文字幕人成人乱码亚洲影视S | 国产露脸无码A区久久蘑菇| 肉动漫h黄动漫日本免费观看| a亚洲在线观看不卡高清| 欧美高清一区二区三| 九九99热久久精品在线6| 污文乖不疼的| 国产欧美一区二区三区久久| 婷婷五月久久丁香国产综合| 国产成人精品自拍| 午夜天堂一区人妻| 国产亚洲精品久久久久久一区二区 | 都市妖奇谈有声| 无码人妻少妇色欲AV一区二区| 国产精品视频一区二区猎奇| 午夜色情影院色a国产| 果冻传媒在线播放| 与子敌伦刺激对白亂輪亂性| 蜜臀亚洲AV永久无码精品老司机| 99久久国内精品成人免费| 日本久久久久亚洲中字幕| 国产成人免费视频| 伊人大香线蕉精品在线播放| 美女大BXXXXN内射| 国产福利高清在线视频|