Recursive prompting增強語言模型方案

1 簡介?????????

有的工作嘗試引出中間推理步驟，通過將復雜問題顯示分解為多個子問題，從而以分而治之的方式來解決。考慮到組合泛化對于語言模型有一定的挑戰，這種遞歸方法的對于復雜任務特定有用。根據解決子問題的方式可以分為串行跟并行兩種，串行的方式每個子問題相互依賴，前面子問題的答案會加入到后續子問題的prompt中，生成后續子問題的答案，而并行的方式則各個子問題的答案生成是獨立的，最后再將多個子問題的答案融合到一起。

2 并行式??????????

DECOMPRC

在閱讀理解場景下，多跳閱讀理解要求從眾多段落中進行推理跟歸納。于是出現了新的方案DECOMPRC，將多跳閱讀理解問題分解成多個相對簡單的子問題（現有閱讀理解模型可以回復），從而提高閱讀理解準確性。

圖1:?DECOMPRC示例

整個方案分為三個部分

a)?將原始的多跳閱讀理解問題分解為多個單跳子問題。可以根據多個不同的推理類型得到多種分解方式，這里需要根據不同推理類型分別訓練多個用于問題分解的模型，對于每個分解模型，采用Point的方式，利用BERT對原問題進行預測，得到幾個關鍵位置，利用關鍵位置原文本進行劃分，再加上一些規則手段，就可以得到對應的子問題了。例如預測出一個中間位置，就可以將原問題分割成兩部分，第一部分作為第一個子問題，第二部分作為第二個子問題，考慮到第二部分可能都是陳述句，就將前面的詞轉換成which。這里將分解模型簡化為一個span prediction問題，只需要400個訓練數據就得到很不錯的效果了。

b)?在第一步會產生多種問題分解方式，對于每一種分解方式，利用單跳閱讀理解模型回復每個子問題，然后根據不同分分解類型的特性得到最終的答案。

c)?對于每一種分解方式，將原問題，分解類型，該分解方式下的問題跟對應答案一同作為模型輸入，預測哪種分解方式對應的結果最合理，將該分解方式下的答案作為多跳閱讀理解問題的答案。

整個流程可以簡單理解為，系統提供了幾種將多跳問題分解為子問題的方式，分別計算每個分解方式的合理性，再選擇其中最優的分解方式對應的答案作為原問題最終答案。

在QA場景下，通過將復雜問題分解為相對簡單的子問題（QA模型可以回復），從而提高問答的效果。具體到多跳QA問題上，現將復雜問題分解為多個子問題，利用單跳QA模型生成全部子問題的答案并融合到一起作為復雜問題的答案。

圖2: QA場景下的recursive prompting方案示例?

整個系統分為三個部分

a)?無監督問題分解，將原問題分解為多個相對簡單的子問題。這里需要訓練一個分解模型，用于將復雜問題分解成多個子問題。由于這個任務下的監督訓練數據構造成本高昂，于是提出了一種無監督的訓練數據構造方式，對于每一個復雜問題q，從語料集Q中檢索召回得到N個對應的簡單問題s作為q的子問題，N的取值可以依賴于具體任務或者具體問題。我們希望這些簡單問題在某些方面跟q足夠相似，同時這些簡單問題s之間有明顯差異。從而構造出復雜問題跟子問題序列之間的偽pair對（q, [s1,…sN]）,用于訓練分解模型。

b)?生成子問題回復，利用現有的QA模型，去生成各個子問題的回復。這里不對QA模型有太多限制，只要它能正確回復語料庫S中的簡單問題即可，所以盡量采用在S中效果優異的QA模型。

c)?生成復雜問題回復，將復雜問題，各個子問題跟對應回復一同作為QA模型的輸入，生成復雜問題的回復。這里的QA模型可以采用跟第二步一樣的模型，只要將輸入做對應調整即可。

圖3: QA場景下的recursive prompting方案示例

圖4: 實驗結果對比

從實驗效果上可以明顯看出這些問題分解的方式能夠顯著提升模型效果。

串行式

SEQZERO

如何利用大規模語言模型將自然語言問題轉化為SQL語句？SEQZERO就是一種解法。由于SQL這種規范語言的復合結構，SQL語句很多情況下會顯得復雜且冗長，要讓語言模型學會生草本跟SQL語言需要大量訓練數據，于是出現了一種基于few-shot的方法SEQZERO。

一個SQL語句包括多個部分，例如From **，SELCT **， WHERE **，只要能從自然語言問題中提出這幾個部分對應的元素，然后通過規則可以轉化為對應的SQL語句。于是SEQZERO的做法就是先利用語言模型預測得到其中一個元素，將該元素加入到原問題中生成下個元素，重復此操作直到生成全部元素，然后通過規則將所有結果組合起來的就得到對應的SQL語句。在預測每個元素的過程中，為了得到更加強大的泛化能力，采用了few-shot跟zero-shot的集成策略。

圖5: SEQZERO示例

Least-to-most

雖然chain-of-thought prompting在很多自然語言推理任務有顯著效果，但是當問題比prompt里的示例更難時，它的表現會很糟糕。舉個例子，比如任務抽取文本每個單詞最后一個字母，prompt的示例輸入是3個單詞，輸入相對較短，但是問題的長度卻是10個單詞，這種情況下chain-of-thought prompting的策略就會失效。于是提出了Least-to-most，通過兩階段的prompting來解決這種問題，第一階段通過prompting將原問題分解為一系列子問題，第二階段則是通過prompting依次解決子問題，前面子問題的問題跟答案會加入到候選子問題的模型輸入中去，方便語言模型更好地回復候選子問題。由于這兩個階段任務有所區別，對應的prompt內容也不同。

圖6: Least-to-most示例

4 其他

Successive prompting

前面幾種方法都是一開始就將問題分解為多個子問題，然后在通過串行或者并行的方式回復所有子問題，而successive prompting則是每次分解出一個子問題，讓語言模型去回復該子問題，再將該子問題以及對應答案加入到模型輸入種，進而分解出下一個子問題，重復這個過程直到沒有新的子問題生成，那么最后一個子問題的答案就是原問題的答案。

圖7: successive prompting示例

5 總結???????????????

Recursive prompting這種思路其實蠻好理解的，目前大規模語言模型處理這些簡單任務效果是很不錯的，但是復雜問題就比較糟糕了，一方面構造這些復雜問題相關數據的工作很艱巨，另一方面直接讓語言模型在這些復雜問題數據上訓練效果也很一般（想想為什么有些數據集上sota指標也很低）。但是讓語言模型學會根據具體問題進行拆解，通過將復雜問題分解為相對簡單的子問題，采用分而治之的方式，再將子問題答案匯總，不就得到原問題的答案了嘛。這也跟我們人類的行為模式更加接近，對于復雜任務，我們會通過合理規劃將其劃分為具體多個子任務，然后再去一一解決這些子任務。想想中華民族偉大復興的道路，不也是通過一個又一個的五年計劃逐步向前推進的嘛。

編輯：黃飛

閱讀全文

語言模型(9992) 語言模型(9992)
無監督學習(2732) 無監督學習(2732)

拆解大語言模型RLHF中的PPO算法

由于本文以大語言模型 RLHF 的 PPO 算法為主，所以希望你在閱讀前先弄明白大語言模型 RLHF 的前兩步，即 SFT Model 和 Reward Model 的訓練過程。另外因為本文不是純講強化學習的文章，所以我在敘述的時候不會假設你已經非常了解強化學習了。

2023-12-11 18:30:49

1151

一文詳解知識增強的語言預訓練模型

等，在實際應用場景中效果不好。為了解決這個問題，將知識注入到PLMs中已經成為一個非常活躍的研究領域。本次分享將介紹三篇知識增強的預訓練語言模型論文，分別通過基于知識向量、知識檢索以及知識監督的知識注入方法來增強語言預訓練模型。

2022-04-02 17:21:43

8765

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結合了視覺和語言模態的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

665

大型語言模型在關鍵任務和實際應用中的挑戰

大型語言模型的出現極大地推動了自然語言處理領域的進步，但同時也存在一些局限性，比如模型可能會產生看似合理但實際上是錯誤或虛假的內容，這一現象被稱為幻覺（hallucination）。幻覺的存在使得

2023-08-15 09:33:45

1090

如何在Saber中使用C語言進行建模呢？

Saber不僅支持MAST語言和VHDL‐AMS語言建立模型，也支持C語言建立器件模型，這對熟悉C語言編程的用戶帶來了很大的方便和實用。采用C語言建立的模型可以像用硬件語言建立的模型一樣保存和使用。

2023-12-05 11:30:42

454

使用Huggingface創建大語言模型RLHF訓練流程

ChatGPT已經成為家喻戶曉的名字，而大語言模型在ChatGPT刺激下也得到了快速發展，這使得我們可以基于這些技術來改進我們的業務。

2023-12-06 17:02:27

719

大語言模型背后的Transformer，與CNN和RNN有何不同

? 電子發燒友網報道（文/李彎彎）近年來，隨著大語言模型的不斷出圈，Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系

電子發燒友網報道（文/李彎彎）大語言模型（LLM）是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

400mhz語言視頻傳輸方案怎么實現？

400mhz語言視頻傳輸方案怎么實現

2023-10-17 07:22:27

語言模型和N-gram基本原理介紹

DeepLearning筆記語言模型和 N-gram

2019-07-23 17:13:48

HarmonyOS/OpenHarmony應用開發-Stage模型ArkTS語言AbilityStage

進行初始化時回調。context接口示例：*附件：HarmonyOSOpenHarmony應用開發-stage模型ArkTS語言AbilityStage.docx

2023-04-07 15:16:35

LabVIEW進行癌癥預測模型研究

，然后將得到的特征向量輸入到SVM中進行分類。 LabVIEW是一種視覺編程語言，與傳統的文本編程語言不同，更適合于進行復雜數據分析和預測模型的開發。 LabVIEW使用數據流模型，可以并行處理多個過程

2023-12-13 19:04:23

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

2022年11月，ChatGPT的問世展示了大模型的強大潛能，對人工智能領域有重大意義，并對自然語言處理研究產生了深遠影響，引發了大模型研究的熱潮。距ChatGPT問世不到一年，截至2023年10

2024-03-11 15:16:39

【書籍評測活動NO.31】大語言模型：原理與工程實踐

深遠影響，尤其在優化業務流程和重塑組織結構方面。然而，在研究和實踐過程中，我們遇到了一個主要挑戰：市場上缺乏大語言模型在實際應用方面的資料。現有的資料多聚焦于理論研究，而具體的實踐方法多被保密，難以獲得

2024-03-18 15:49:46

關于自然語言處理之54 語言模型(自適應)

自然語言處理——54 語言模型(自適應)

2020-04-09 08:20:30

圖像的對數增強問題

如圖前兩張為一張圖片的R通道進行增強的小程序，可以實現讀片的增強，我想問各路大神，如果單純地從數組方面進行圖像增強，如對數增強，那該怎么操作呢，就在第三章圖里面，就對一個數組進行處理，后面再由數組轉變為圖片。

2017-09-26 17:13:37

求增強電源模塊系統穩定性的幾個方案

如何提升EMC性能？求增強電源模塊系統穩定性的幾個方案

2021-03-16 06:48:24

測試藍牙增強數據率產品的創新解決方案

2019-09-11 14:07:11

自然語言處理的語言模型

自然語言處理——53 語言模型（數據平滑）

2020-04-16 11:11:25

新的標準模型下基于身份的環簽名方案

該文提出了一種新的基于身份的環簽名方案，并在標準模型下證明其能抵抗簽名偽造攻擊，且具有無條件匿名性。與現有標準模型下基于身份的環簽名方案相比，新方案具有更短的

2009-11-13 11:49:03

重新增強高可用性縮減IT基礎設施模型

重新增強高可用性縮減 IT 基礎設施模型

2016-01-06 17:33:54

重新增強高可用性縮減 IT 基礎設施模型

voico 重新增強高可用性縮減 IT 基礎設施模型

2016-06-02 15:41:58

唇語識別中的話題相關語言模型研究_王淵

2017-03-19 11:28:16

一種新的動態微觀語言競爭社會仿真模型

語言競爭傳播演化現象是典型的不能假設、無法進行真實性實驗的社會科學問題，而建立在社會仿真模型基礎上的計算實驗是可行的方案。利用基于Agent的社會圈子網絡理論并引入語言的內部詞匯結構給出一種新的動態

2017-11-23 15:41:04

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發包有哪些？

2017-12-28 15:42:30

5382

預訓練語言模型設計的理論化認識

在這篇文章中，我會介紹一篇最新的預訓練語言模型的論文，出自MASS的同一作者。這篇文章的亮點是：將兩種經典的預訓練語言模型（MaskedLanguage Model, Permuted

2020-11-02 15:09:36

2334

一種注意力增強的自然語言推理模型aESIM

在自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此，提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應方向權重層添加到ESIM模型的雙向LSTM網絡中，從而更有

2021-03-25 11:34:15

知識圖譜與BERT相結合助力語言模型

感謝清華大學自然語言處理實驗室對預訓練語言模型架構的梳理，我們將沿此脈絡前行，探索預訓練語言模型的前沿技術，紅框中為已介紹的文章，綠框中為本期介紹的模型，歡迎大家留言討論交流。在之前的一期推送

2021-05-19 15:47:41

3355

如何向大規模預訓練語言模型中融入知識？

本文關注于向大規模預訓練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

3468

詳解剖析Go語言調度模型的設計

golang的MPG調度模型是保障Go語言效率高的一個重要特性，本文詳細介紹了Go語言調度模型的設計。前言 Please remember that at the end of the day

2021-07-26 10:12:43

1726

超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐，探索這一框架如何助力

2021-10-11 16:46:05

2226

使用DeepSpeed和Megatron驅動MT-NLG語言模型

盡管巨型語言模型正在推動語言生成技術的發展，但它們也面臨著偏見和毒性等問題。人工智能社區正在積極研究如何理解和消除語言模型中的這些問題，包括微軟和 NVIDIA 。

2022-04-17 11:25:34

1946

Multilingual多語言預訓練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預訓練多語言模型，整體思路基于BERT，并提出了針對多語言預訓練的3個優化任務。后續很多多語言預訓練工作都建立在XLM的基礎上，我們來詳細看看XLM的整體訓練過程。

2022-05-05 15:23:49

2521

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

預訓練語言模型的字典描述

今天給大家帶來一篇IJCAI2022浙大和阿里聯合出品的采用對比學習的字典描述知識增強的預訓練語言模型-DictBERT，全名為《Dictionary Description Knowledge

2022-08-11 10:37:55

866

NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平臺訓練大型語言模型

韓國先進的移動運營商構建包含數百億個參數的大型語言模型，并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓練該模型。

2022-09-27 09:24:30

915

摘要模型理解或捕獲輸入文本的要點

輸入文本的要點； ? （2）模型過度依賴語言模型，生成流暢但不充分的單詞。 ? 在本文研究中，提出了一個忠實增強摘要模型（FES），旨在解決這兩個問題，提高抽象摘要的忠實度。對于第一個問題，本文使用問答（QA）來檢查編碼器是否完全掌握輸入文檔，并

2022-11-01 11:37:57

692

CogBERT：腦認知指導的預訓練語言模型

另一方面，從語言處理的角度來看，認知神經科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計了預訓練的模型來捕捉大腦如何表示語言的意義。之前的工作主要是通過明確微調預訓練的模型來預測語言誘導的大腦記錄，從而納入認知信號。

2022-11-03 15:07:08

707

谷歌提出Flan-T5，一個模型解決所有NLP任務

（需要有Decoder部分，所以「不包括BERT這類純Encoder語言模型」），論文的核心貢獻是提出一套多任務的微調方案（Flan），來極大提升語言模型的泛化性。

2022-11-24 11:21:56

1040

基于視頻語言模型LiteVL的無參的特征池化方法

我們提出了LiteVL，這是一種視頻語言模型，它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經學習的對齊。然后，我們提出

2022-12-05 10:54:49

413

介紹幾篇EMNLP'22的語言模型訓練方法優化工作

來自：圓圓的算法筆記今天給大家介紹3篇EMNLP 2022中語言模型訓練方法優化的工作，這3篇工作分別是：針對檢索優化語言模型：優化語言模型訓練過程，使能夠生成更合適的句子表示用于檢索

2022-12-22 16:14:56

679

基因組學大型語言模型在多項任務中均展現出卓越的性能和應用擴展空間

InstaDeep、慕尼黑工業大學（TUM）和 NVIDIA 之間的合作推動了面向基因組學的多超級計算規模的基礎模型開發進程。這些模型在大量預測任務（例如啟動子和增強子位點預測）中展示了最先進的性能

2023-01-17 01:05:04

444

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數

2023-01-17 14:29:53

692

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復雜任務的能力。標準 prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經被證明不足以解決需要多個推理步驟的下游任務（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

利用視覺+語言數據增強視覺特征

傳統的多模態預訓練方法通常需要"大數據"+"大模型"的組合來同時學習視覺+語言的聯合特征。但是關注如何利用視覺+語言數據提升視覺任務（多模態->單模態）上性能的工作并不多。本文旨在針對上述問題提出一種簡單高效的方法。

2023-02-13 13:44:05

727

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可用于解決總結文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

LeCun新作：全面綜述下一代「增強語言模型」

最近圖靈獎得主Yann LeCun參與撰寫了一篇關于「增強語言模型」的綜述，回顧了語言模型與推理技能和使用工具的能力相結合的工作，并得出結論，這個新的研究方向有可能解決傳統語言模型的局限性，如可解釋性、一致性和可擴展性問題。

2023-03-03 11:03:20

673

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

2023-03-08 13:57:00

6989

翻譯要失業了？谷歌正在開發“能夠理解1000種常用語言”的AI模型

谷歌正在朝著構建支持1000種不同語言的人工智能語言模型的目標邁進……

2023-03-07 10:22:58

466

對標 ChatGPT，百度正式推出大語言模型“文心一言”！；日媒：與中國“脫鉤”蔓延至軟件開發

能力。從現場展示來看，文心一言某種程度上具有了對人類意圖的理解能力。但李彥宏也多次提及，這類大語言模型還遠未到發展完善的階段，進步空間很大。百度同時公布了文心一言的邀請測試方案。3 月 16 日起，首批用戶即可通過邀請測試碼，在

2023-03-17 04:40:01

604

Firefly(流螢): 中文對話式大語言模型

Bloom是個多語言模型，由于需要兼容多語言，所以詞表有25w之多，在中文領域中，大部分詞表并不會被用到。我們通過刪減冗余的詞表，從多語言模型中提取常用的中英文詞表，最終詞表從25w減少到46145，縮減為原來的18.39%，在保留預訓練知識的同時，有效減少參數量，提高訓練效率。

2023-04-07 10:36:08

4319

使用LoRA和Hugging Face高效訓練大語言模型

在本文中，我們將展示如何使用大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models，LoRA) 技術在單 GPU 上微調 110 億參數的 FLAN-T5 XXL 模型。

2023-04-14 17:37:40

1503

各種大語言模型是徹底被解封了

基礎 LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結構，Multi-task 是指 ERNIE 3.0 的模型結構

2023-04-20 11:25:44

1071

一套開源的大型語言模型（LLM）—— StableLM

對于任何沒有額外微調和強化學習的預訓練大型語言模型來說，用戶得到的回應質量可能參差不齊，并且可能包括冒犯性的語言和觀點。這有望隨著規模、更好的數據、社區反饋和優化而得到改善。

2023-04-24 10:07:06

2168

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構的大語言模型，近年迭代演進迅速。構建語言模型是自然語言處理中最基本和最重要的任務之一。GPT是基于Transformer架構衍生出的生成式預訓練的單向語言模型，通過對大量語料數據進行無監督學習

2023-04-28 10:01:59

585

如何通過一個簡單的方法來解鎖大型語言模型的推理能力？

近來NLP領域由于語言模型的發展取得了顛覆性的進展，擴大語言模型的規模帶來了一系列的性能提升，然而單單是擴大模型規模對于一些具有挑戰性的任務來說是不夠的

2023-05-10 11:13:17

1377

利用大語言模型做多模態任務

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。

2023-05-10 16:53:15

701

大語言模型的多語言機器翻譯能力分析

以ChatGPT為代表的大語言模型（Large Language Models, LLM）在機器翻譯（Machine Translation, MT）任務上展現出了驚人的潛力。

2023-05-17 09:56:26

903

PyTorch教程9.3.之語言模型

電子發燒友網站提供《PyTorch教程9.3.之語言模型.pdf》資料免費下載

2023-06-05 09:59:00

PyTorch教程-9.3. 語言模型

9.3. 語言模型? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

淺析AI大型語言模型研究的發展歷程

大型語言模型研究的發展有三條技術路線：Bert 模式、GPT 模式、混合模式。其中國內大多采用混合模式，多數主流大型語言模型走的是 GPT 技術路線，直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。

2023-06-09 12:34:53

3162

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統模型表現更好 CoOp 增加一些 prompt 會讓模型能力進一步提升怎么讓能力更好？可以引入其他知識，即其他的預訓練模型，包括大語言模型、多模態模型也包括

2023-06-15 16:36:11

277

一文讀懂大語言模型

本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一種基于*大語言模型(Large Language Model)* 的對話式AI聊天機器人。

2023-06-16 09:59:04

1036

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部

2023-06-25 15:08:49

991

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型（LLM）代表著 AI 領域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

墨芯人工智能發布大模型算力方案的最新成果

7月6日，在世界人工智能大會WAIC上，墨芯人工智能發布了大模型算力方案的最新成果，宣告進入“千億”時代：墨芯AI計算平臺率先支持高達千億參數的大語言模型，并在吞吐、延時等多項指標上表現優異，創下

2023-07-07 14:41:17

535

語言模型的發展歷程基于神經網絡的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務。

2023-07-14 11:45:40

454

基于MNN在個人設備上流暢運行大語言模型該如何實現呢？

LLM（大語言模型）因其強大的語言理解能力贏得了眾多用戶的青睞，但LLM龐大規模的參數導致其部署條件苛刻；

2023-07-20 10:49:29

655

清華大學大語言模型綜合性能評估報告發布！哪個模型更優秀？

近日，清華大學新聞與傳播學院發布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領域的一大熱點。它們

2023-08-10 08:32:01

607

檢索增強的語言模型方法的詳細剖析

? 本篇內容是對于ACL‘23會議上陳丹琦團隊帶來的Tutorial所進行的學習記錄，以此從問題設置、架構、應用、挑戰等角度全面了解檢索增強的語言模型，作為對后續工作的準備與入門，也希望能給大家帶來

2023-08-21 09:58:01

1234

大語言模型“書生·浦語”多項專業評測拔頭籌

最近，AI大模型測評火熱，尤其在大語言模型領域，“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯合打造的大語言模型“書生·浦語”（InternLM）也表現出色，分別在智源FlagEval

2023-08-25 13:00:02

315

FPGA加速語言模型如何重塑生成式人工智能

大語言模型的構建通常需要一個大規模的系統來執行該模型，這個模型會持續變大，在其發展到一定程度后，僅靠在CPU上的運行就不再具有成本、功耗或延遲的優勢了。

2023-08-31 15:34:36

505

訓練大語言模型帶來的硬件挑戰

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰，以及GPU和網絡行業如何針對訓練的工作負載不斷優化硬件。

2023-09-01 17:14:56

1046

FPGA加速器支撐ChatGPT類大語言模型創新

作者：Bill Jenkins，Achronix人工智能/機器學習產品營銷總監探索FPGA加速語言模型如何通過更快的推理、更低的延遲和更好的語言理解來重塑生成式人工智能簡介：大語言模型近年來

2023-09-04 16:55:25

345

騰訊發布混元大語言模型

騰訊發布混元大語言模型騰訊全球數字生態大會上騰訊正式發布了混元大語言模型，參數規模超千億，預訓練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創作能力、任務執行

2023-09-07 10:23:54

815

本地化ChatGPT？Firefly推出基于BM1684X的大語言模型本地部署方案

自ChatGPT發布以來，生成式AI在全球引起了新的浪潮，它影響著各行各業，為世界帶來智能化的發展。然而，類ChatGPT的大語言模型極度依賴算力巨大的服務器，導致目前大部分應用只能通過集中調用

2023-09-09 08:02:39

952

CLE Diffusion：可控光照增強擴散模型

本文提出了新型的可控光照增強框架，主要采用了條件擴散模型來控制任意區域的任意亮度增強。通過亮度控制模塊（Brightness Control Module)將亮度信息信息融入Diffusion網絡中，并且設計了和任務適配的條件控制信息和損失函數來增強模型的能力。

2023-09-11 17:20:14

384

虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

基礎模型和高性能數據層這兩個基本組件始終是創建高效、可擴展語言模型應用的關鍵，利用Redis搭建大語言模型，能夠實現高效可擴展的語義搜索、檢索增強生成、LLM 緩存機制、LLM記憶和持久

2023-09-18 11:26:49

316

怎樣使用FHE實現加密大語言模型？

近來，大語言模型 (LLM) 已被證明是提高編程、內容生成、文本分析、網絡搜索及遠程學習等諸多領域生產力的可靠工具。

2023-10-19 09:13:57

410

揭秘編碼器與解碼器語言模型

Transformer 架構的問世標志著現代語言大模型時代的開啟。自 2018 年以來，各類語言大模型層出不窮。

2023-10-24 11:42:05

337

研討會回顧：NVIDIA 助力汽車行業大語言模型創新與發展

10 月 28 日，汽車行業大語言模型研討會正式結束。 NVIDIA 解決方案架構師陳文愷在研討會中講解了汽車行業如何開發企業級大語言模型，以加速行業創新和發展。同時，NVIDIA 汽車行業

2023-11-03 19:10:03

356

如何在搜索引擎中應用AI大語言模型，提高企業生產力？

人工智能尤其是大型語言模型的應用，重塑了我們與信息交互的方式，也為企業帶來了重大的變革。將基于大模型的檢索增強生成（RAG）集成到業務實踐中，不僅是一種趨勢，更是一種必要。它有助于實現數據驅動型決策

2023-11-06 08:10:02

216

跨語言提示：改進跨語言零樣本思維推理

進一步地，提出了Cross-Lingual Self-consistent Prompting (CLSP)，利用不同語言專家的知識和不同語言間更加多樣的思考方式，集成了多個推理路徑，顯著地提高了self-consistency的跨語言性能。CLSP 都能夠在CLP的基礎上更進一步地有效提高零樣本跨語言 CoT 性能。

2023-11-08 16:59:42

261