探索高效的大型語言模型！大型語言模型的高效學習方法

作者：Xnhyacinth

近年來，大型語言模型（LLMs）在自然語言處理領域取得了顯著的進展，如GPT-series(GPT-3, GPT-4)、Google-series(Gemini, PaLM), Meta-series(LLAMA1&2), BLOOM, GLM等模型在各種任務中展現出驚人的能力。然而，隨著模型規模的不斷增大和參數數量的劇增，這些模型的成功往往伴隨著巨大的計算和存儲資源消耗，給其訓練和推理帶來了巨大挑戰，也在很大程度上限制了它們的廣泛應用。因此，研究如何提高LLMs的效率和資源利用，使其在保持高性能的同時降低資源需求，成為了當前領域的熱點問題。

今天這篇工作是一篇survey，旨在全面調查和總結提高LLMs效率的最新研究進展。工作首先概述了LLMs面臨的挑戰，隨著模型規模的增大，傳統的訓練方法難以適應龐大的模型參數和計算資源需求。接下來，詳細介紹了從模型為中心、數據為中心和框架為中心三個角度出發的一系列高效技術。這些技術涵蓋了量化、參數修剪、低秩逼近、知識蒸餾等模型壓縮方法，推理加速、混合專家訓練等高效結構以及數據選擇、提示工程等數據為中心策略。最后，討論了支持高效訓練和推理的LLM框架，為實際應用提供了有力支持。

該工作的目的是為研究人員和從業者提供一個關于高效LLMs技術的全面了解，以期激發更多關于這一重要領域的研究和創新。在這個信息爆炸的時代，提高LLMs的效率對于推動自然語言處理技術的發展具有重大意義，同時也將為人工智能的廣泛應用奠定堅實基礎。接下來就讓我們一起探索高效的大型語言模型！

下面將從以模型為中心，包括模型壓縮，高效預訓練，高效微調，高效推理，高效結構設計五個部分；以數據為中心，包括數據選擇，提示工程兩個部分；以框架為中心介紹該篇工作。

模型為中心

模型壓縮

模型壓縮方法的總結

模型壓縮部分主要關注于減少大型語言模型（LLMs）的計算和存儲需求，同時盡量保持其性能。這部分的技術主要包括量化、參數修剪、低秩逼近和知識蒸餾等方法。下面我們將詳細介紹這些技術。

量化

量化是一種通過減少模型權重和激活的位寬來壓縮模型的技術。常見的量化方法包括權重量化、激活量化和權重-激活共量化。量化可以降低計算和存儲需求，但可能會帶來一定的性能損失。為了解決這個問題，研究者們提出了多種量化技術，如動態范圍量化（DRQ）、知識蒸餾量化（KDQ）等，它們在保持模型性能的同時實現了高效的壓縮。

參數修剪

參數修剪是一種通過移除模型中不重要的參數來減小模型大小的方法。參數修剪可以分為結構化修剪和非結構化修剪。結構化修剪關注于移除模型中的整個子結構，如行、列或子塊；非結構化修剪則關注于移除單個參數。參數修剪可以在一定程度上降低模型復雜度，但過度修剪可能導致性能下降。為了解決這個問題，研究者們提出了一些策略，如基于敏感度的修剪、低秩分解修剪等，以實現性能和壓縮之間的平衡。

低秩逼近

低秩逼近通過將模型權重矩陣近似表示為低秩矩陣來減小模型大小。這種方法可以顯著降低模型的計算和存儲需求。常見的低秩逼近技術包括矩陣分解、核方法和秩限制等。為了保持模型性能，研究者們還提出了一些優化策略，如迭代訓練、低秩補償等。

知識蒸餾

知識蒸餾是一種通過訓練一個較小的學生模型來模仿大型教師模型的行為，從而實現模型壓縮的方法。知識蒸餾可以分為白盒知識蒸餾和黑盒知識蒸餾。白盒知識蒸餾利用教師模型的內部信息進行訓練，而黑盒知識蒸餾僅依賴于教師模型的輸入輸出。為了提高蒸餾效果，研究者們提出了一些改進策略，如多任務學習、多階段訓練等。

模型壓縮技術通過各種方法降低大型語言模型的計算和存儲需求，使其在實際應用中更具可行性。然而，這些技術在壓縮模型的同時也需要權衡性能損失。未來的研究將繼續探索更高效、更精確的模型壓縮方法，以實現性能與壓縮之間的最佳平衡。

高效預訓練

高效預訓練技術的總結

在大型語言模型（LLMs）的研究中，預訓練是一個至關重要的步驟，它為模型提供了豐富的知識和表示能力。然而，預訓練過程通常需要大量的計算資源和時間，這對于許多研究者和從業者來說是一個巨大的挑戰。因此，研究者們提出了許多高效預訓練技術，以降低預訓練的成本和復雜性。下面將從四個方面介紹這些技術：混合精度加速、模型縮放、初始化技術和優化策略。

混合精度加速

混合精度加速是一種利用低精度數據類型（如16位或32位浮點數）進行計算，同時保持模型的高性能的方法。這種技術通過減少數據類型的位寬來降低計算和存儲需求，從而提高預訓練效率。常見的混合精度加速方法包括自動混合精度（AMP）、BF16等。這些方法在保持模型性能的同時，顯著降低了預訓練過程中的計算和內存開銷。

模型縮放

模型縮放技術通過利用較小模型的信息來指導較大模型的預訓練，從而提高預訓練效率。這些方法包括漸進式堆疊、多階段層訓練（MSLT）、復合增長等。它們通過在預訓練過程中逐步增加模型的規模、深度和寬度，實現了更快的收斂速度和更高的性能。此外，一些研究還利用知識繼承等技術，通過教師模型的知識來加速學生模型的預訓練。

初始化技術

合適的初始化方法對于預訓練過程的收斂速度和模型性能至關重要。一些研究者提出了特定的初始化技術，如函數保留初始化（FPI）和高級知識初始化（AKI），以提高大型模型預訓練的效率。這些方法通過在預訓練初期為大型模型提供良好的初始狀態，有助于加快收斂速度并提高最終性能。

優化策略

優化策略在預訓練過程中起到了關鍵作用。一些研究者提出了新的優化器，如Lion和Sophia，以提高預訓練效率。這些優化器通過調整學習率、動量等超參數，以及引入第二階信息，實現了更快的收斂速度和更高的內存利用率。此外，一些研究還探討了分布式預訓練技術，如數據并行、流水線并行和張量并行等，以利用多設備并行計算來加速預訓練過程。

高效預訓練技術通過混合精度加速、模型縮放、初始化技術和優化策略等方法，顯著降低了大型語言模型預訓練過程中的計算和時間成本。這些技術為LLMs的研究和應用提供了有力支持，有助于推動自然語言處理領域的發展。然而，這些技術仍然存在一定的局限性，未來的研究應該繼續探索更高效、更實用的預訓練方法。

高效微調

高效微調方法的總結

在大型語言模型（LLMs）的應用中，微調是一個關鍵步驟，它使模型能夠適應特定的任務和領域。然而，微調過程可能會消耗大量計算資源和時間。為了提高微調效率，研究者們提出了許多高效微調方法。接下來將從兩個方面介紹這些技術：參數高效微調和內存高效微調。

參數高效微調

參數高效微調方法旨在通過減少模型參數的更新來提高微調效率。這些方法主要包括適配器調優、低秩適應和前綴調優等。

1.1 適配器調優（Adapter-Tuning）

適配器調優是一種將適配器模塊集成到LLMs中的方法，這些適配器模塊可以在微調過程中更新，而模型的其他部分保持不變。適配器可以是串聯適配器，每個LLM層都添加一個適配器模塊；也可以是并聯適配器，每個適配器模塊與LLM層并行。適配器調優的典型技術包括LLM-Adapte rs、Compacter、(IA)3、Meta-Adapters等。

1.2 低秩適應（Low-Rank Adaptation）

低秩適應（LoRA）是一種通過引入兩個低秩矩陣來更新模型參數的方法。在微調過程中，原始模型參數保持不變，而是更新這兩個低秩矩陣。LoRA及其變體（如LoRA-FA、LongLoRA等）在保持較高性能的同時，顯著降低了微調過程中的計算和內存需求。

1.3 前綴調優（Prefix-Tuning）

前綴調優在LLMs的每一層添加一系列可訓練的前綴令牌，這些令牌針對特定任務進行定制。前綴調優的典型技術包括Prefix Tuning、P-Tuning v2和LLaMA-Adapter。通過使用前綴令牌，這些方法可以在微調過程中實現參數效率和性能提升。

內存高效微調

內存高效微調方法關注于降低微調過程中的內存消耗。這些方法主要包括選擇性微調和分階段微調等。

2.1 選擇性微調

選擇性微調通過僅更新模型的部分中間激活來降低內存需求。典型的選擇性微調技術包括Selective Fine-Tuning、CocktailSGD和LOMO。這些方法在保持較高性能的同時，顯著降低了微調過程中的內存消耗。

2.2 分階段微調

分階段微調將微調過程分為多個階段，每個階段僅更新部分模型參數。這種方法可以降低內存需求，同時保持模型性能。典型的分階段微調技術包括Staged Training和MeZO。

高效微調方法通過參數高效微調和內存高效微調等技術，顯著降低了大型語言模型在微調過程中的計算、時間和內存成本。

高效推理

高效推理技巧的總結

在大型語言模型（LLMs）的應用中，高效的推理技巧對于實現實時響應和降低計算成本至關重要。接下來將從算法層面和系統層面兩個方面介紹高效推理技巧。

一、算法層面的高效推理技巧

投機解碼

投機解碼（Speculative Decoding）是一種在解碼過程中采用多個候選模型并行計算的技術。通過使用較小的草稿模型創建投機前綴，然后評估這些前綴與大型目標模型的初步輸出，可以加速解碼過程。典型的投機解碼方法包括Chen等人提出的快速自回歸模型（Faster Autoregressive Model） 和BiLD，它們分別采用不同的策略來提高投機解碼的性能。

KV-Cache優化

KV-Cache優化旨在減少LLMs推理過程中Key-Value（KV）緩存的計算和存儲開銷。一些方法如SkipDecode和Heavy Hitter Oracle（A^2A）通過跳過較低層和中間層的計算來加速推理過程。而Dynamic Context Pruning和Scissorhands則利用可學習機制來識別和移除非信息性的KV-Cache tokens，從而提高計算效率和模型可解釋性。

分享式注意力加速

分享式注意力加速通過不同KV頭共享方案來加速注意力計算。例如，多查詢注意力（MQA）和分組查詢注意力（GQA） 分別共享一組KV或多個KV頭的線性變換，從而減少計算復雜度。這些方法在保持較高性能的同時，顯著降低了計算和內存需求。

二、系統層面的高效推理技巧

FlexGen

FlexGen是一個針對內存受限GPU的高吞吐量推理引擎。通過集成CPU、GPU和磁盤的計算資源，以及采用線性編程搜索策略來管理硬件組件，FlexGen能夠在有限的硬件資源下實現高效的LLM推理。

Deja Vu

Deja Vu定義了一種上下文稀疏性概念，并利用預測器預測這種稀疏性。通過使用內核融合、內存合并等技術，Deja Vu能夠在推理過程中實現高效的計算和內存優化。

EdgeMoE

EdgeMoE是一種針對LLMs的設備端處理系統，基于Mixture-of-Experts（MoE）結構進行內存和計算管理。通過將模型劃分為不同部分并分配到不同存儲級別，EdgeMoE能夠在推理過程中實現高效的資源利用。

S3系統通過預測輸出序列的長度并根據預測結果規劃生成請求，以優化設備資源的使用。同時，S3能夠處理任何不正確的預測，實現高效的推理過程。

PagedAttention

PagedAttention受到傳統虛擬內存和分頁方法的啟發，為LLMs設計了一個允許在請求之間高效共享KV-Cache的系統。這種方法有助于降低內存消耗并加速高吞吐量推理。

FlashAttention

FlashAttention通過融合矩陣乘法和softmax操作，以及采用張量核心自動調整和調度策略，實現高效的注意力計算。FlashAttention-1和FlashAttention-2分別針對不同硬件平臺進行了優化，以實現更快速的推理過程。

高效結構

高效架構設計總結

在大型語言模型（LLMs）的研究中，高效的結構設計對于提高模型性能和降低計算成本具有重要意義。接下來將從四個方面介紹高效結構設計：注意力優化、混合專家（Mixture of Experts, MoE）模型、長上下文LLMs和Transformer替代結構。

注意力優化

注意力優化主要關注于降低自注意力機制的計算復雜度。這些方法包括：

特征信息縮減：通過減少序列中的特征信息，如Funnel-Transformer、Nystr?mformer和Set Transformer等，降低計算需求。

核化或低秩：利用低秩表示或注意力核化技術，如Sumformer、FluRKA、Scatterbrain等，提高計算效率。

固定模式策略：通過局部窗口或固定步長塊模式，如Paliotta等人的方法、Big Bird、Poolingformer等，實現注意力矩陣的稀疏化。

可學習模式策略：通過學習序列的組織方式，如Reformer、Skinhorn Transformer、Clustered Attention等，實現更高效的注意力計算。

硬件輔助注意力：通過定制硬件實現，如A3、ELSA、PagedAttention等，進一步提高注意力計算的效率。

混合專家（Mixture of Experts, MoE）模型

MoE模型將任務劃分為多個子任務，并為每個子任務訓練一個專家模型。這些專家模型共同為輸入生成輸出。MoE模型可以有效地管理大量參數，降低計算和內存需求。典型的MoE模型包括GShard、Switch Transformer、Sparse Experts等。此外，還有一系列算法層面和系統層面的MoE優化技術，如Expert Choice、StableMoE、FastMoE等。

長上下文LLMs

長上下文LLMs關注于處理長序列輸入。為解決這個問題，研究者們提出了一系列方法，如：

外推和插值：通過優化位置嵌入，實現對更長序列的泛化，如ALiBi、xPOS等。

循環結構：通過引入記憶單元和循環機制，實現長序列建模，如∞-former、Recurrent Memory Transformer等。

窗口和流結構：通過設計新的窗口機制和流式處理，降低固定窗口的限制，如StreamingLLM、Parallel Context Windows等。

記憶檢索增強：利用最近鄰查找和內存增強技術，實現長序列的高效處理，如NN-Augmented Transformer、Landmark Attention等。

Transformer替代結構

除了優化現有的Transformer結構，研究者們還提出了一些替代結構，如：

狀態空間模型：通過將注意力機制替換為狀態空間模型，實現近線性的計算復雜度，如Structured State Space（S4）、Diagonal State Space（DSS）等。

其他序列模型：結合循環神經網絡和Transformer的優點，如RWKV、Hyena Operator等，實現高效的長序列處理。

以數據為中心

數據選擇

數據選擇技巧的總結

在大型語言模型（LLMs）的研究和應用中，數據選擇對于提高模型性能和效率具有重要意義。合適的數據選擇可以降低訓練成本、提高泛化能力，并使模型更適應特定任務。加下來將從兩個方面介紹數據選擇技巧：高效預訓練數據選擇和高效微調數據選擇。

高效預訓練數據選擇

預訓練數據的選擇對LLMs的性能至關重要。高質量的預訓練數據可以幫助模型學習通用的知識表示，從而提高在各種任務上的表現。高效預訓練數據選擇技巧包括：

數據清洗：通過去除無關、重復或低質量的數據，降低噪聲對模型學習的影響。

數據平衡：確保數據集中各類樣本的比例均衡，避免模型在某些類別上過擬合。

數據增強：通過對原始數據進行擴充，如同義詞替換、句子重組等，增加模型的泛化能力。

領域自適應：選擇與目標任務相關的數據，使預訓練模型更適應特定領域的任務。

高效微調數據選擇

微調數據選擇關注于為特定任務選取合適的訓練數據。高效的微調數據選擇可以降低微調成本，提高模型在目標任務上的性能。高效微調數據選擇技巧包括：

任務相關性：選擇與目標任務緊密相關的數據，以便模型能快速學習任務特定的知識。

數據篩選：通過評估數據與目標任務的相似性，篩選出最具代表性和價值的樣本。

在線學習：利用在線學習策略，根據模型在驗證集上的表現動態調整微調數據。

少樣本學習：通過元學習、遷移學習等技術，利用少量標注數據實現高效的微調。

其他數據選擇技巧

除了預訓練和微調階段的數據選擇，還有一些其他技巧可以提高LLMs的效率：

示范選擇：通過選擇與目標任務相似的示范數據，引導模型更快地學習任務。

示范組織：合理組織示范數據，使其更符合模型的學習規律，提高學習效果。

模板格式化：設計合適的輸入模板，以便模型能更好地理解任務需求。

提示工程

提示工程的總結

在大型語言模型（LLMs）的應用中，提示工程（Prompt Engineering）是一種關鍵技術，用于引導模型生成特定輸出或執行特定任務。通過精心設計的提示，可以顯著提高LLMs的性能和適用性。本文將介紹提示工程的主要方法和技巧，包括少樣本提示、提示壓縮和提示生成。

少樣本提示

少樣本提示是一種使用有限的示例來引導LLMs執行特定任務的方法。這些示例被稱為“示范”（Demonstrations）。少樣本提示技術主要包括：

示范選擇：從訓練數據中挑選與目標任務最相關的示例。這些示例應該具有代表性，以便模型能夠從中學習到任務的關鍵特征。

示范組織：合理地組織示范，以便模型能夠更好地理解任務。這可能包括調整示范的順序、分組或格式化。

模板格式化：設計一個合適的輸入模板，以便模型能夠清楚地理解任務需求。模板應該簡潔明了，同時包含足夠的信息來引導模型生成正確輸出。

提示壓縮

提示壓縮旨在通過壓縮提示輸入來降低LLMs的計算和存儲需求。主要方法包括：

概要：將長文本概要為較短的表示，如提取關鍵信息或使用句子級別的概要。

壓縮向量：將提示轉換為緊湊的向量表示，如使用BERT等模型生成的句子嵌入。

結構化提示：設計結構化的提示格式，以便模型能夠更高效地處理輸入。這可能包括使用特定的語法規則或標記。

提示生成

提示生成旨在自動創建有效提示，以引導LLMs執行特定任務，而無需人工標注數據。主要方法包括：

自我指導：讓LLMs根據自己的輸出生成提示，從而實現自我學習和優化。

強化學習：使用強化學習技術訓練LLMs生成高質量的提示。這通常涉及與環境（如用戶或其他LLMs）的交互，以便根據反饋優化提示。

生成模型：利用生成模型（如GPT系列）為特定任務創建提示。這些模型可以根據輸入的上下文生成合適的提示。

提示工程通過少樣本提示、提示壓縮和提示生成等技術，提高了LLMs的性能和適用性。這些方法使LLMs能夠在各種任務中更好地理解和執行用戶需求，同時降低了計算和存儲成本。然而，提示工程仍然面臨一些挑戰，如如何平衡提示的簡潔性和有效性，以及如何處理多樣化和復雜的任務需求。未來的研究將繼續探索更高效、更實用的提示工程技術。

以框架為中心

在大型語言模型（LLMs）的研究和應用中，以框架為中心的方法關注于構建和優化支持LLMs的軟件框架。這些框架旨在簡化LLMs的開發、訓練和部署過程，提高計算資源的利用率，并支持各種高效算法和技術。接下來將介紹幾個主要的以框架為中心的LLM框架，以及它們的特點和優勢。

DeepSpeed

DeepSpeed是由微軟開發的一個集成框架，用于訓練和部署LLMs。它提供了諸如數據并行、模型并行、流水線并行、提示批處理、量化和內核優化等功能。DeepSpeed Inference模塊是其關鍵組件之一，其中的ZeRO-Inference技術可以解決GPU內存約束問題。DeepSpeed還支持混合精度訓練、梯度累積、動態并行和分布式訓練等技術，以提高訓練效率。

Megatron

Megatron是一個面向訓練和部署LLMs的框架，由NVIDIA和微軟共同開發。它支持數據并行、模型并行、流水線并行等技術，并提供了自動混合精度、選擇性激活重計算等優化方法。Megatron的核心技術是戰略性地分解模型張量操作，將它們分布式到多個GPU上，以提高處理速度和內存利用率。Megatron還支持BERT、GPT和T5等模型。

Alpa

Alpa是一個用于訓練和部署大型神經網絡的庫，它通過自動并行化技術來解決LLMs的計算和內存挑戰。Alpa支持數據并行、模型并行、流水線并行等技術，并提供了自動調諧框架，以找到最佳的并行策略。Alpa還可以與流行的深度學習框架（如PyTorch和TensorFlow）無縫集成，簡化LLMs的開發和訓練過程。

ColossalAI

ColossalAI是一個面向大規模并行訓練的集成深度學習系統，支持LLMs的訓練和部署。它提供了數據并行、模型并行、流水線并行等技術，并采用了一種模塊化設計，以實現高效的算法和資源管理。ColossalAI還支持混合精度訓練、梯度累積、動態并行等優化方法，以提高訓練效率。此外，它還具有設備原生AI和用戶友好的工具，以降低AI模型開發的門檻。

Hugging Face Transformers

Hugging Face Transformers是一個流行的開源庫，提供了大量預訓練的LLMs，如GPT、BERT和T5等。它支持各種高效的推理技術，如令牌級并行、流水線并行和模型并行。Hugging Face Transformers庫簡化了LLMs的部署過程，使開發者能夠輕松地將這些模型集成到各種應用中。

以框架為中心的方法通過構建和優化支持LLMs的軟件框架，提高了LLMs的開發、訓練和部署效率。這些框架通常提供了一系列并行化技術、優化方法和易用的工具，以滿足不同場景和任務的需求。隨著LLMs領域的不斷發展，我們可以期待更多創新的框架和技術來支持這些模型的廣泛應用。

結語

本文綜述了大型語言模型（LLMs）的高效學習方法，主要包括模型壓縮、高效微調和推理、數據選擇、提示工程和框架優化等方面。這些技術旨在降低LLMs的計算和存儲需求，提高訓練和推理效率，同時保持或甚至提高模型性能。

模型壓縮部分涵蓋了量化、參數修剪、低秩逼近和知識蒸餾等方法，可以有效減小模型大小和計算復雜度。數據中心方法則關注數據選擇和提示工程，通過精選訓練數據和設計有效的輸入提示，降低訓練成本并提高模型泛化能力。提示工程通過設計合適的輸入提示，引導LLMs更專注于任務關鍵信息，從而提高推理效果。最后，框架優化部分介紹了支持LLMs的軟件框架，如DeepSpeed、Megatron和Alpa等，它們提供了并行計算、內存管理和優化技術，簡化了LLMs的開發和部署過程。

這些高效學習方法為LLMs的研究和應用提供了有力支持，使這些模型能夠在各種場景中發揮更大價值。然而，這些技術仍然面臨一些挑戰，如如何在壓縮和加速過程中保持模型性能，以及如何適應多樣化和復雜的任務需求。未來的研究將繼續探索更高效、更實用的技術，以推動LLMs領域的發展。

審核編輯：黃飛

閱讀全文

cpu(206166) cpu(206166)
GPT(14803) GPT(14803)
Transformer(5892) Transformer(5892)
大模型(810) 大模型(810)

拆解大語言模型RLHF中的PPO算法

由于本文以大語言模型 RLHF 的 PPO 算法為主，所以希望你在閱讀前先弄明白大語言模型 RLHF 的前兩步，即 SFT Model 和 Reward Model 的訓練過程。另外因為本文不是純講強化學習的文章，所以我在敘述的時候不會假設你已經非常了解強化學習了。

2023-12-11 18:30:49

1151

一文詳解知識增強的語言預訓練模型

隨著預訓練語言模型(PLMs)的不斷發展，各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識，但仍舊存在很多問題，如知識量有限、受訓練數據長尾分布影響魯棒性不好

2022-04-02 17:21:43

8765

基于人工智能的自然語言處理模型GPT-3技術解析

AI的另一個重要推動者是大型預訓練模型的出現，這些模型已經開始廣泛應用于自然語言和圖像處理，以在遷移學習的幫助下處理各種各樣的應用。

2023-03-02 11:23:13

4874

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結合了視覺和語言模態的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

665

大型語言模型在關鍵任務和實際應用中的挑戰

大型語言模型的出現極大地推動了自然語言處理領域的進步，但同時也存在一些局限性，比如模型可能會產生看似合理但實際上是錯誤或虛假的內容，這一現象被稱為幻覺（hallucination）。幻覺的存在使得

2023-08-15 09:33:45

1090

大型語言模型的邏輯推理能力探究

最新研究揭示，盡管大語言模型LLMs在語言理解上表現出色，但在邏輯推理方面仍有待提高。為此，研究者們推出了GLoRE，一個全新的邏輯推理評估基準，包含12個數據集，覆蓋三大任務類型。

2023-11-23 15:05:16

476

NVIDIA 推出大型語言模型云服務以推進 AI 和數字生物學的發展

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA ? 美國加利福尼亞州圣克拉拉

2022-09-21 15:24:52

434

AI大模型在醫療領域起飛

電子發燒友網報道（文/李彎彎）ChatGPT等大型語言模型在語言理解、生成、知識推理等方面正展現出令人驚艷的能力。近段時間，各企業開始探索大模型在不同行業中的應用落地，并針對不同領域推出相對應的行業

2023-07-25 00:12:00

1434

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系

電子發燒友網報道（文/李彎彎）大語言模型（LLM）是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

0基礎，我想學好LV，它跟其它編程語言學習方法有什么注意

就是想高手們分享一下經驗，請問高手們我的學習方法對不對？提高自己的學習效率而已，我是真真的零基礎啊~~~謝謝！

2012-02-27 21:28:57

大型軟件研發項目安全性風險定量分析理論模型

的安全可靠性。因此,該定量方法能夠有效地控制大型軟件研發項目的安全性問題,不僅有效而且可行。【關鍵詞】：大型應用軟件;;軟件安全性;;風險分析;;理論模型【DOI】：CNKI:SUN

2010-04-24 09:54:02

探索一種降低ViT模型訓練成本的方法

Transformers已成為計算機視覺最新進展的核心。然而，從頭開始訓練ViT模型可能會耗費大量資源和時間。在本文中旨在探索降低ViT模型訓練成本的方法。引入了一些算法改進，以便能夠在有限的硬件

2022-11-24 14:56:31

高效C語言編程實驗

高效C語言編程實驗TMFreescale?and the Freescale logo aretrademarks of Freescale Semiconductor, Inc. All

2021-07-15 08:30:33

C語言怎么實現高效編程？

2021-04-28 06:14:33

FPGA技術的學習方法

。那么究竟如何才能高效學習好FPGA技術呢？本期邀請到的FPGA專家梅雪松，將為大家解答FPGA有效學習方法。專家觀點：學習FPGA技術，或者不僅局限于FPGA，學習任何一個新技術只要運用科學

2017-01-11 13:58:34

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

的獎勵模型，對有監督微調模型對用戶提示詞補全結果的質量進行評估，與語言模型建模目標綜合得到更好的效果。這一階段的難點在于解決強化學習方法穩定性不高、超參數眾多及模型收斂困難等問題。除了大語言模型的構建

2024-03-11 15:16:39

【書籍評測活動NO.31】大語言模型：原理與工程實踐

深遠影響，尤其在優化業務流程和重塑組織結構方面。然而，在研究和實踐過程中，我們遇到了一個主要挑戰：市場上缺乏大語言模型在實際應用方面的資料。現有的資料多聚焦于理論研究，而具體的實踐方法多被保密，難以獲得

2024-03-18 15:49:46

初學STM32是否有推薦的學習方法、教程和開發板

大家好，本人只學過AVR單片機，對C語言沒有學過，想學習一下STM32，是否有推薦的學習方法、教程和開發板！非常感謝

2018-09-14 09:40:27

怎么使用VHDL語言設計一個高效的微控制器內核？

通過對傳統MCS-51單片機指令時序和體系結構的分析，使用VHDL語言采用自頂向下的設計方法重新設計了一個高效的微控制器內核。

2021-04-13 06:10:59

求飛思卡爾單片機高效c語言編程參考？

求飛思卡爾單片機高效c語言編程(中文)新，高效C語言編程實驗參考看看？

2021-10-13 09:13:44

用C語言編寫高效的ARM程序

2012-08-19 14:38:53

移動應用高級語言開發——并發探索

）；在IOS上，Swift 5.5實現了結構化編程和Actor，Swift整體并發的演進思路是默認安全的編程模型。 04?OpenHarmony高級語言的并發探索在JS世界的并發中，如前文所提到的JS

2023-08-28 17:08:28

自然語言處理的語言模型

自然語言處理——53 語言模型（數據平滑）

2020-04-16 11:11:25

請教STM32開發板的學習方法

請教STM32開發板的學習方法，請教快速高效的方法

2019-04-22 06:35:06

飛思卡爾單片機高效C語言編程(中文)

飛思卡爾單片機高效c語言編程，pid控制算法的c語言實現

2016-08-26 15:55:17

基于表示學習方法的中文分詞系統

為提高中文分詞的準確率和未登錄詞（ OOV）識別率，提出了一種基于字表示學習方法的中文分詞系統。首先使用Skip-gram模型將文本中的詞映射為高維向量空間中的向量；其次用K-means聚類算法

2017-12-11 14:35:57

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發包有哪些？

2017-12-28 15:42:30

5382

模型驅動深度學習的標準流程與學習方法解析

模型驅動的深度學習方法近年來，深度學習在人工智能領域一系列困難問題上取得了突破性成功應用。

2018-01-24 11:30:13

4608

SiATL——最新、最簡易的遷移學習方法

許多傳統的遷移學習方法都是利用預先訓練好的語言模型（LMs）來實現的，這些模型已經非常流行，并且具有翻譯上下文信息的能力、高級建模語法和語義語言特性，能夠在對象識別、機器翻譯、文本分類等許多任務中生成高質量的結果。

2019-03-12 15:13:59

3319

學習AVR單片機C語言編程的方法和教程說明

問題，為了節省時間：這就需要進行c語言的高度的提煉．本文進行了這方面的探索，提出了一種學習AVR單片機C語言編程的方法一提綱式的學習方法．

2019-12-30 08:00:00

關于語言模型和對抗訓練的工作

訓練方法不僅能夠在BERT上有提高，而且在RoBERTa這種已經預訓練好的模型上也能有所提高，說明對抗訓練的確可以幫助模型糾正易錯點。方法：ALUM（大型神經語言模型的對抗

2020-11-02 15:26:49

1802

AI下個大突破之前奏：研究人員正在教大型語言模型

GPT-3 自動生成的語言竟然能和人類差不多，堪稱奇跡。但在很大程度上，GPT-3 也不過是個噱頭。判斷方法也很簡單。若提問 GPT-3：羊是什么顏色？它會說白色，還會說黑色，頻次一樣

2022-07-10 15:25:08

1366

基于深度學習的自然語言處理對抗樣本模型

深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊，但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然語言處理模型的安全問題。針對自然語言處理領域冋樣面臨對抗樣夲的風險，在闡明對抗樣本

2021-04-20 14:36:57

基于BERT的中文科技NLP預訓練模型

深度學習模型應用于自然語言處理任務時依賴大型、高質量的人工標注數據集。為降低深度學習模型對大型數據集的依賴，提出一種基于BERT的中文科技自然語言處理預訓練模型 ALICE。通過對遮罩語言模型進行

2021-05-07 10:08:16

知識圖譜與BERT相結合助力語言模型

感謝清華大學自然語言處理實驗室對預訓練語言模型架構的梳理，我們將沿此脈絡前行，探索預訓練語言模型的前沿技術，紅框中為已介紹的文章，綠框中為本期介紹的模型，歡迎大家留言討論交流。在之前的一期推送

2021-05-19 15:47:41

3355

探究超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐，探索這一框架如何助力

2021-10-20 09:25:43

2078

NVIDIA為全球企業開發和部署大型語言模型打開一扇新的大門

NVIDIA為全球企業開發和部署大型語言模型打開了一扇新的大門——使這些企業能夠建立他們自己的、特定領域的聊天機器人、個人助理和其他AI應用程序，并能夠以前所未有的水平理解語言中的微妙和細微差別

2021-11-12 14:30:07

1327

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

微調前給預訓練模型參數增加噪音提高效果的方法

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預訓練模型的參數增加少量噪音，給原始模型增加一些擾動，從而提高預訓練語言模型在下游任務的效果，如下圖所示，

2022-06-07 09:57:32

1972

如何更高效地使用預訓練語言模型

本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預訓練模型的參數實在是太多了，很難找到這么多參數的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

935

超分子聚集體的高效率RTP模型和思路

這項工作不僅報道了一維π-π堆積誘導的高效率RTP，為探索超分子聚集體的高效率RTP提供了重要的模型，也為實現三元白光提供了一種新策略。研究者相信，此項研究將會為探索超分子聚集體的高效率RTP提供重要的模型和思路。

2022-08-08 09:49:30

1150

NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平臺訓練大型語言模型

韓國先進的移動運營商構建包含數百億個參數的大型語言模型，并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓練該模型。

2022-09-27 09:24:30

915

NVIDIA AI平臺為大型語言模型帶來巨大收益

隨著大型語言模型（ LLM ）的規模和復雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達 30% 的訓練速度。

2022-10-10 15:39:42

644

SC22 | 解析基因組的“語言”：戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

的 COVID-19 研究。一位決賽入圍選手教會了大型語言模型（LLMs）一種新的語言——基因序列，使這些模型能夠提供基因組學、流行病學和蛋白質工程方面的洞察。這項開創性的成果發表于 10 月，是由來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構的二

2022-11-16 21:40:02

396

基于視頻語言模型LiteVL的無參的特征池化方法

我們提出了LiteVL，這是一種視頻語言模型，它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經學習的對齊。然后，我們提出

2022-12-05 10:54:49

413

基于優化的元學習方法

為了解決上述問題，本文將目光從任務專用的soft prompt模型設計轉移到任務通用的模型參數初始化點搜索，以幫助模型快速適應到不同的少標注任務上。本文采用近年提出的基于優化的元學習方法，例如MAML[4]、Reptile[5]等

2022-12-15 15:19:30

830

介紹幾篇EMNLP'22的語言模型訓練方法優化工作

來自：圓圓的算法筆記今天給大家介紹3篇EMNLP 2022中語言模型訓練方法優化的工作，這3篇工作分別是：針對檢索優化語言模型：優化語言模型訓練過程，使能夠生成更合適的句子表示用于檢索

2022-12-22 16:14:56

679

基因組學大型語言模型在多項任務中均展現出卓越的性能和應用擴展空間

。這一聯合團隊的研究指出，經過基因組學訓練的大型語言模型（LLM）可將應用擴展到大量基因組學任務。該團隊使用 NVIDIA 的超級計算機 Cambridge-1 來訓練參數規模從 500M 到 2.5B 不等的各種大型語言模型（LLM）。這些模型在各種基因組數據集上進行了訓練，以探

2023-01-17 01:05:04

444

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數

2023-01-17 14:29:53

692

深入理解語言模型的突顯能力

最近，人們對大型語言模型所展示的強大能力（例如思維鏈 ^[2]^ 、便簽本 ^[3]^ ）產生了極大的興趣，并開展了許多工作。我們將之統稱為大模型的突現能力 ^[4]^ ，這些能力可能只存在于大型模型

2023-02-22 11:16:05

675

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可用于解決總結文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

2023-03-08 13:57:00

6989

NVIDIA 為全球企業帶來生成式 AI 推出用于創建大型語言模型和視覺模型的云服務

和運行自定義大型語言模型和生成式AI模型，這些模型專為企業所在領域的特定任務而創建，并且在專有數據上訓練。 ? Getty Images、Morningstar、Quantiphi、Shutterstock公

2023-03-22 13:45:40

261

GTC23 | NVIDIA 為全球企業帶來生成式 AI，推出用于創建大型語言模型和視覺模型的云服務

能夠構建、完善和運行自定義大型語言模型和生成式 AI 模型，這些模型專為企業所在領域的特定任務而創建，并且在專有數據上訓練。 Getty Images、Morningstar、Quantiphi、Shutterst

2023-03-23 06:50:04

365

GTC23 | 彌補不足：大型語言模型借企業數據之力變得更加智能

NVIDIA NeMo 服務幫助企業將大型語言模型與其專有數據相結合，賦能智能聊天機器人、客戶服務等更多應用。如今的大型語言模型知識淵博，但它們的工作方式有點像時間膠囊——所收集的信息僅限于第一次

2023-03-25 09:10:03

274

GTC23 | NVIDIA 為全球企業帶來生成式 AI，推出用于創建大型語言模型和視覺模型的云服務

2023-03-25 15:20:04

285

使用LoRA和Hugging Face高效訓練大語言模型

在本文中，我們將展示如何使用大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models，LoRA) 技術在單 GPU 上微調 110 億參數的 FLAN-T5 XXL 模型。

2023-04-14 17:37:40

1503

各種大語言模型是徹底被解封了

基礎 LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結構，Multi-task 是指 ERNIE 3.0 的模型結構

2023-04-20 11:25:44

1071

一套開源的大型語言模型（LLM）—— StableLM

對于任何沒有額外微調和強化學習的預訓練大型語言模型來說，用戶得到的回應質量可能參差不齊，并且可能包括冒犯性的語言和觀點。這有望隨著規模、更好的數據、社區反饋和優化而得到改善。

2023-04-24 10:07:06

2168

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構的大語言模型，近年迭代演進迅速。構建語言模型是自然語言處理中最基本和最重要的任務之一。GPT是基于Transformer架構衍生出的生成式預訓練的單向語言模型，通過對大量語料數據進行無監督學習

2023-04-28 10:01:59

585

如何通過一個簡單的方法來解鎖大型語言模型的推理能力？

近來NLP領域由于語言模型的發展取得了顛覆性的進展，擴大語言模型的規模帶來了一系列的性能提升，然而單單是擴大模型規模對于一些具有挑戰性的任務來說是不夠的

2023-05-10 11:13:17

1377

利用大語言模型做多模態任務

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。

2023-05-10 16:53:15

701

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

確實能學習和表示文本的意義。雖然大型預訓練語言模型（LLM）在一系列下游任務中展現出飛速提升的性能，但它們是否真的理解其使用和生成的文本語義？長期以來，AI社區對這一問題存在很大的分歧。有一種猜測是，純粹基于語言的形式（例

2023-05-25 11:34:11

434

淺析AI大型語言模型研究的發展歷程

大型語言模型研究的發展有三條技術路線：Bert 模式、GPT 模式、混合模式。其中國內大多采用混合模式，多數主流大型語言模型走的是 GPT 技術路線，直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。

2023-06-09 12:34:53

3162

大型語言模型（LLM）的自定義訓練：包含代碼示例的詳細指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關注。但是，要根據特定任務或領域定制LLM，定制培訓是必要的。本文提供了有關自定義訓練 LLM 的詳細分步指南，其中包含代碼示例和示例。

2023-06-12 09:35:43

1782

GPT總設計師：大型語言模型的未來

他預計，深度學習和大型語言模型會繼續發展：這個領域的未來可能會有一小部分重大突破，加之許多細微改進，所有這些都將融入到一個龐大而復雜的工程體系。他還給出了一些有趣、可執行的思想實驗。

2023-06-12 16:38:48

262

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部

2023-06-25 15:08:49

991

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型（LLM）代表著 AI 領域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

大語言模型的炒作曲線

然而，無異于任何一門具有變革性的技術，大型語言模型也經歷過炒作，隨之而來的預期波動以及恐懼。2022 年底，隨著人們對人工智能與生成式 AI 的期望達到高潮，Gartner 發布了一份炒作周期報告。

2023-07-12 16:16:25

235

語言模型的發展歷程基于神經網絡的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務。

2023-07-14 11:45:40

454

2023年發布的25個開源大型語言模型總結

來源： DeepHub IMBA 大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數據集上進行訓練。它們可以用于各種任務，包括生成文本、翻譯語言和編寫不同類型的創意內容。今年開始

2023-07-28 12:20:02

440

ChatGPT等大型語言模型的出現會帶來哪些風險

近日，美智庫蘭德公司高級工程師克里斯托弗·莫頓(Christopher Mouton)在C4ISRNET網站撰文，分析ChatGPT等大型語言模型的出現給國家安全帶來的新風險。主要觀點如下：

2023-08-04 11:44:53

304

2023年發布的25個開源大型語言模型總結

大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數據集上進行訓練。它們可以用于各種任務，包括生成文本、翻譯語言和編寫不同類型的創意內容。今年開始，人們對開源LLM越來越感興趣。這些模型

2023-08-01 00:21:27

554

大型模型的重要基石與洞察力之源之文本數據

。 大型模型，特別是基于深度學習的預訓練語言模型，如GPT-3.5，依賴于大規模的文本數據來進行訓練。這些模型之所以強大，源于它們從這些數據中學習到的語義、關聯和結構。文本數據中蘊含著豐富的知識、思想和信息，通過模型的

2023-08-14 10:06:23

328

人工智能學習什么語言

對于機器學習而言，編程語言是非常重要的，因為機器學習的實現需要大量的算法和模型。而編程語言的選擇，除了開發效率上的因素外，還會影響到模型的速度和精度等方面，從而直接影響到機器學習的效果和應用價值。

2023-08-14 14:40:41

467

清華大學大語言模型綜合性能評估報告發布！哪個模型更優秀？

近日，清華大學新聞與傳播學院發布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領域的一大熱點。它們

2023-08-10 08:32:01

607

檢索增強的語言模型方法的詳細剖析

? 本篇內容是對于ACL‘23會議上陳丹琦團隊帶來的Tutorial所進行的學習記錄，以此從問題設置、架構、應用、挑戰等角度全面了解檢索增強的語言模型，作為對后續工作的準備與入門，也希望能給大家帶來

2023-08-21 09:58:01

1234

中科大提出：LLMs的個性化綜述，詳述大模型與個性化的挑戰與機遇

因此，我們認為現在是時候審視個性化服務的挑戰以及用大型語言模型來解決它們的機會了。特別是，我們在這篇展望性論文中專門討論了以下幾個方面：現有個性化系統的發展和挑戰、大型語言模型新出現的能力，以及如何利用大型語言模型進行個性化的潛在方法。

2023-08-21 16:33:45

484

大型語言模型對數據存儲的影響是什么

OceanStor A310深度學習數據湖存儲，主要面向基礎/行業大模型數據湖場景，實現從數據歸集、預處理到模型訓練、推理應用的AI全流程海量數據管理。

2023-08-23 14:34:32

232

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

2023-08-25 09:06:57

885

訓練大語言模型帶來的硬件挑戰

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰，以及GPU和網絡行業如何針對訓練的工作負載不斷優化硬件。

2023-09-01 17:14:56

1046

FPGA加速器支撐ChatGPT類大語言模型創新

作者：Bill Jenkins，Achronix人工智能/機器學習產品營銷總監探索FPGA加速語言模型如何通過更快的推理、更低的延遲和更好的語言理解來重塑生成式人工智能簡介：大語言模型近年來

2023-09-04 16:55:25

345

騰訊發布混元大語言模型

騰訊發布混元大語言模型騰訊全球數字生態大會上騰訊正式發布了混元大語言模型，參數規模超千億，預訓練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創作能力、任務執行

2023-09-07 10:23:54

815

虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

基礎模型和高性能數據層這兩個基本組件始終是創建高效、可擴展語言模型應用的關鍵，利用Redis搭建大語言模型，能夠實現高效可擴展的語義搜索、檢索增強生成、LLM 緩存機制、LLM記憶和持久

2023-09-18 11:26:49

316

SambaNova即將建立并運行自己的大型語言模型

隨著各大公司爭相加入人工智能的潮流，芯片和人才供不應求。初創公司SambaNova（https://sambanova.ai/）聲稱，其新處理器可以幫助公司在幾天內建立并運行自己的大型語言模型

2023-09-27 16:10:51

305

揭秘編碼器與解碼器語言模型

Transformer 架構的問世標志著現代語言大模型時代的開啟。自 2018 年以來，各類語言大模型層出不窮。

2023-10-24 11:42:05

337

求解大型COMSOL模型需要多少內存？

求解大型COMSOL模型需要多少內存？ COMSOL是一種非常強大的跨學科有限元分析軟件，可以用于解決各種復雜的問題，包括流體力學、電磁學、熱傳遞、結構力學等。但是，在處理大型模型時，COMSOL

2023-10-29 11:35:24

876

時間序列的基礎模型像自然語言處理那樣存在嗎

時間序列預測領域在最近的幾年有著快速的發展，比如N-BEATS、N-HiTS、PatchTST和TimesNet。大型語言模型(LLM)最近在ChatGPT等應用程序中變得非常流行，因為它們可以

2023-11-03 10:15:22

279

基于檢索的大語言模型簡介

簡介章節講的是比較基礎的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

282

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數（B+）的預訓練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

大模型數據集：突破邊界，探索未來

隨著人工智能技術的快速發展，大型預訓練模型如GPT-4、BERT等在自然語言處理領域取得了顯著的成功。這些大模型背后的關鍵之一是龐大的數據集，為模型提供了豐富的知識和信息。本文將探討大模型數據集的突破邊界以及未來發展趨勢。

2023-12-06 16:10:44

247

大規模語言模型的基本概念、發展歷程和構建流程

大規模語言模型（Large Language Models，LLM），也稱大規模語言模型或大型語言模型，是一種由包含數百億以上參數的深度神經網絡構建的語言模型，使用自監督學習方法通過大量無標注

2023-12-07 11:40:43

1141

大語言模型概述

在科技飛速發展的當今時代，人工智能技術成為社會進步的關鍵推動力之一。在廣泛關注的人工智能領域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發展歷史大語言模型是一類基于深度學習技術

2023-12-21 17:53:59

555

大語言模型使用指南

在信息爆炸的時代，我們渴望更智能、更高效的語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機會。這不僅是技術的進步，更是人與機器共舞的一幕。本篇文章將帶你走進這個奇妙的語言王國

2023-12-29 14:18:59

276

2023年大語言模型(LLM)全面調研：原理、進展、領跑者、挑戰、趨勢

大型語言模型(LLM)是基于人工智能的先進模型，經過訓練，它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學習技術和大量訓練數據來全面理解語言結構、語法、上下文和語義。

2024-01-03 16:05:25

441

大語言模型推斷中的批處理效應

隨著開源預訓練大型語言模型（Large Language Model, LLM ）變得更加強大和開放，越來越多的開發者將大語言模型納入到他們的項目中。其中一個關鍵的適應步驟是將領域特定的文檔集成到預訓練模型中，這被稱為微調。

2024-01-04 12:32:39

228

韓國Kakao宣布開發多模態大語言模型“蜜蜂”

韓國互聯網巨頭Kakao最近宣布開發了一種名為“蜜蜂”(Honeybee)的多模態大型語言模型。這種創新模型能夠同時理解和處理圖像和文本數據，為更豐富的交互和查詢響應提供了可能性。

2024-01-19 16:11:20

221

OpenVINO?助力谷歌大語言模型Gemma實現高速智能推理

大型語言模型（LLM）正在迅速發展，變得更加強大和高效，使人們能夠在廣泛的應用程序中越來越復雜地理解和生成類人文本。

2024-03-17 17:17:08

504

已全部加載完成

搜索歷史

探索高效的大型語言模型！大型語言模型的高效學習方法

評論