淺析AI大型語言模型研究的發展歷程

一、大模型發展情況

1、行業發展歷程

語言是人類表達和交流的突出能力，其在兒童早期發展并在一生中不斷演變。然而，除非配備強大的人工智能（AI）算法，機器不會自然地掌握理解和使用人類語言的能力。要讓機器像人類一樣閱讀、寫作和交流一直是一個長期的研究挑戰。從技術上講，語言建模（Language Model, LM）是提高機器語言智能的主要方法之一。一般來說，LM 旨在對單詞序列的生成概率進行建模，以便預測未來（或缺失）單詞的概率。LM 的研究在學界中得到了廣泛的關注，可以分為四個主要發展階段：統計語言模型（SLM）：SLM 是基于 20 世紀 90 年代興起的統計學習方法開發的。其基本思想是基于馬爾可夫假設構建單詞預測模型，例如根據最近的上下文預測下一個單詞。具有固定上下文長度 n 的 SLM 也被稱為 n-gram 語言模型，例如二元和三元語言模型。SLM 已經被廣泛應用于提高信息檢索（IR）和自然語言處理（NLP）任務的性能。然而，它們經常受到維度災難的影響：由于需要估計指數級的轉移概率，因此很難準確估計高階語言模型。因此，專門設計的平滑策略，例如后退估計和 Good-Turing 估計已經被引入為緩解數據稀疏問題。

神經語言模型（NLM）：NLM 通過神經網絡，例如遞歸神經網絡（RNNs），來描述單詞序列的概率。作為一個顯著的貢獻，Y. Bengio 和 R. Ducharme 等人引入了單詞的分布式表示的概念，并構建了基于聚合上下文特征（即分布式單詞向量）的單詞預測函數。通過擴展學習詞或句子有效特征的想法，已有研究開發了一種通用神經網絡方法來為各種自然語言處理任務構建統一解決方案。此外，word2vec 提出了構建一個簡化的淺層神經網絡，用于學習分布式單詞表示，這在各種 NLP 任務中被證明非常有效。這些研究開創了語言模型用于表示學習（超越了詞序列建模）的應用，對 NLP 領域產生了重要影響。預訓練語言模型（PLM）：作為早期嘗試，ELMo 被提出來通過預訓練一個雙向 LSTM（biLSTM）網絡（而不是學習固定的詞表示）來捕捉上下文感知的詞表示，然后根據特定的下游任務微調 biLSTM 網絡。此外，基于高度可并行化的 Transformer 架構和自注意力機制，BERT 提出了通過在大規模無標注語料庫上設計特定的預訓練任務來預訓練雙向語言模型。這些預訓練的上下文感知的單詞表示非常有效，可作為通用語義特征，大大提高了 NLP 任務的性能。這項研究啟發了大量的后續工作，建立了“預訓練和微調”學習范式。在此范式下，開發了大量關于 PLM 的研究，引入了不同的架構（例如 GPT-2 和 BAR）或改進的預訓練策略。在這個范式中，通常需要微調 PLM 以適應不同的下游任務。

大型語言模型（LLM）：研究人員發現，擴展 PLM（例如擴展模型大小或數據大小）通常會導致模型在下游任務上具有更強的能力（即遵循縮放定律）。一些研究探索了通過訓練更大的 PLM（例如 175B 參數的 GPT-3 和 540B 參數的 PaLM）來達到性能極限。盡管縮放主要是在模型大小（具有類似的架構和預訓練任務）方面進行的，但這些大型 PLM 顯示出與較小 PLM（例如 330M 參數的 BERT 和 1.5B 參數的 GPT-2）不同的行為，并展現出令人驚訝的能力（稱為涌現能力）以解決一系列復雜任務。例如，GPT-3 可以通過上下文學習來解決少樣本任務，而 GPT-2 做不好。因此，研究界為這些大型 PLM 創造了“大型語言模型（LLM）”的術語。LLM 的一個顯著應用是 ChatGPT，它利用 GPT 系列的 LLM 適應對話，具有驚人的與人類對話的能力。大語言模型相較于以往的語言模型具備顯著優勢，其具備優秀的上下文學習能力、可觀的知識容量、優秀的泛化性和復雜推理能力。

大型語言模型研究的發展有三條技術路線：Bert 模式、GPT 模式、混合模式。其中國內大多采用混合模式，多數主流大型語言模型走的是 GPT 技術路線，直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。到 2019 年后，Bert 路線基本沒有標志性的新模型更新，而 GPT 技術路線則趨于繁榮。從 Bert 往 GPT 演化的過程中，模型越來越大，所實現的性能也越來越通用。各類大語言模型路線各有側重，GPT 模式在生成類任務表現最優。大型語言模型按照從數據到知識來劃分，數據可分為通用數據和領域數據，知識分為語言知識和世界知識。從任務類型來劃分，大型語言模型可以分為單一任務和多任務、理解類和生成類；Bert 模式有兩階段（雙向語言模型預訓練+任務 Fine-tuning），適用于理解類以及某個場景的具體任務，表現得“專而輕”。GPT 模式是由兩階段到一階段（單向語言模型預訓練+zero-shot prompt），比較適合生成類任務、多任務，表現得“重而通”。T5 模式則將兩者的方法結合，包含有兩階段（單向語言模型預訓練+Fine-tuning）。根據當前研究結論，如果模型規模不特別大，面向單一領域的理解類任務，適合用 T5 模式，而 GPT 模式在做生成類任務時的效果最好。綜合來看，當前幾乎所有參數規模超過千億的大型語言模型都采取 GPT 模式。

如今，LLM 正在對人工智能社區產生重大影響，ChatGPT 和 GPT-4 的出現引發了重新思考人工智能通用智能（AGI）的可能性。OpenAI 已經發表了一篇名為“Planning for AGI and beyond”的技術文章，討論了實現 AGI 的短期和長期計劃，而最近的一篇論文則認為 GPT-4 可能被視為一個早期版本的 AGI 系統。LLM 的快速進步正在徹底改變人工智能的研究領域。在自然語言處理領域，LLM 可以在某種程度上充當通用語言任務求解器，研究范式已經轉向使用 LLM。在信息檢索領域，傳統的搜索引擎正在被 AI 聊天機器人（即 ChatGPT）挑戰，而 New Bing 則是基于 LLM 增強搜索結果的初始嘗試。在計算機視覺領域，研究人員試圖開發類似于 ChatGPT 的視覺語言模型，以更好地服務于多模態對話，而 GPT-4 通過集成視覺信息已經支持多模態輸入。這股新的技術浪潮有可能會導致基于 LLM 的真實世界。例如，Microsoft 365 正在被 LLM（如 Copilot）賦能以自動化辦公工作，而 OpenAI 支持在 ChatGPT 中使用插件來實現特殊功能。

起源于 Transformer 模型，ChatGPT 經過 5 年迭代成功出世。ChatGPT 的誕生經歷了從 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代過程，其具體發展歷程如下：（1）2017 年 6 月，Google 發布論文《Attention is all you need》，首次提出 Transformer 模型，成為 GPT 發展的基礎；（2）2018 年 6 月, OpenAI 發布論文《Improving Language Understanding by Generative Pre-Training》，首次提出 GPT 模型,即 GPT-1，模型參數量達 1.17 億；（3）2019 年 2 月，OpenAI 發布論文《Language Models are Unsupervised Multitask Learners》，提出 GPT-2 模型, 大模型共計 48 層，參數量達 15 億；（4）2020 年 5 月，OpenAI 發布論文《Language Models are Few-Shot Learners》，提出 GPT-3 模型, 參數量達 1750 億；（5）2022 年 2 月底，OpenAI 發布論文《Training language models to follow instructions with human feedback》，公布 Instruction GPT 模型，參數量達 13 億；（6）2022 年 11 月 30 日，OpenAI 推出 ChatGPT 模型，并提供試用。

2、大語言模型概覽

通常，大型語言模型（LLMs）是指包含數千億（或更多）參數的語言模型，它們是在海量文本數據上進行訓練的，例如 GPT-3，PaLM，Galactica 和 LLaMA。具體來說，LLMs 建立在 Transformer 架構之上，其中多頭注意力層在一個非常深的神經網絡中堆疊。現有的 LLMs 主要采用類似的模型架構（即 Transformer）和預訓練目標（即語言建模）作為小型語言模型。作為主要區別，LLMs 大量擴展了模型大小、預訓練數據和總計算量（數量級）。它們可以更好地理解自然語言，并基于給定的上下文（即提示）生成高質量的文本。這種能力提升可以部分地由縮放法則描述，即性能大致隨著模型大小的增加而顯著增加。然而，一些能力（例如上下文學習）是不可預測的，只有當模型大小超過一定水平時才能觀察到。

百億參數量級別的模型：這類模型的參數規模除了 LLaMA（最大版本 65B 參數）和 NLLB（最大版本 54.5B 參數），大多在 10B 至 20B 之間。這一參數范圍內的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中，Flan-T5（11B 版本）可以作為研究指令微調的首選模型，因為它從三個方面探索了指令微調：增加任務數量、擴大模型規模和使用思維鏈提示數據進行微調。CodeGen（11B）是一個為生成代碼設計的自回歸語言模型，可用作探索代碼生成能力的候選模型，其提出了一個新的基準測試 MTPB，專門用于多輪程序合成，由 115 個專家生成的問題組成，為了解決這些問題，需要大語言模型獲得足夠的編程知識（例如數學、數組操作和算法）。對于多語言任務，mT0（13B）可能是一個比較好的候選模型，因為它在多語言任務中使用多語言提示進行微調。此外，對于中文的下游任務，PanGu-α具有較好的表現，特別是在零樣本或小樣本的設置下，該模型基于深度學習框架 MindSpore 開發，擁有多個參數版本（最大版本 200B 參數），而最大的公開版本只有 13B 參數。此外，作為最近發布的模型，LLaMA（65B）在與指令遵循相關的任務中展現了卓越的性能。由于其開放性和有效性，LLaMA 引起了研究界的廣泛關注，許多工作致力于微調或繼續訓練其不同的模型版本以實現新模型或工具的開發。百億參數量級別的模型通常需要數百甚至上千個 GPU 或 TPU。例如，GPT-NeoX-20B 使用了 12 個微服務器，每個服務器配備了 8 個 NVIDIA A100-SXM4-40GBGPU，LLaMA 使用了 2048 個 A100-80GGPU。為了準確估計所需的計算資源，我們還是建議使用衡量涉及計算量的指標，例如計算 FLOPS（每秒浮點數運算次數）。

據中移智庫統計，截止到 2023 年 4 月 18 日，國內至少有 19 家企業及科研院所涉足人工智能大模型訓練，主要分為大型科技公司、科研院校和初創科技團隊三類。具體來看：百度、阿里等 12 家大型科技公司和中國科學院、清華大學等 3 家科研院校已經提供開放測試，或有明確的推出時間計劃；字節跳動、搜狗創始人王小川、美團創始人王慧文、創新工場創始人李開復等則是最近對外宣布組建團隊，進軍大模型研發領域。其中，字節跳動旗下火山引擎于 4 月 18 日發布自研 DPU（數據處理器）等系列云產品，推出新版機器學習平臺，可以支持萬卡級大模型訓練、微秒級延遲網絡，為預訓練模型提供強大的算力支持。

從大模型參數量看，科技大廠的參數量遠大于科研院所。科技大廠的大模型參數量較大：阿里通義千問大模型參數在 10 萬億級以上、騰訊混元大模型和華為盤古大模型參數量均在萬億級以上、百度文心一言大模型參數量在 2 千億級以上、京東言犀大模型的參數量為千億級；垂直行業科技企業已經上線的參數量普遍在千億級以上;而科研院校大模型的參數量在千億級及以下。從大模型應用方向看，大部分企業前期以內部應用為主，后續主要向 B 端企業拓展服務，預計少數企業將在 C 端市場形成規模。目前，百度文心大模型、華為盤古大模型、中國科學院紫東太初大模型均在 B 端垂類市場積累了標桿應用案例，騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業務。而在 C 端市場應用方面，百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展，但目前只有百度文心一言大模型正在進行友好客戶測試，阿里通義千問大模型則計劃在今年 9 月份進行公測，騰訊混元助手大模型則處于計劃開發狀態。

3、產業發展趨勢

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放 API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。大模型的核心作用是突破數據標注的困境，通過學習海量無標注的數據來做預訓練，拓展整體模型前期學習的廣度和深度，以此提升大模型的知識水平，從而低成本、高適應性地賦能大模型在后續下游任務中的應用。在實踐中，預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育，再借助 “預訓練+精調”等模式，在共享參數的情況下，根據具體應用場景的特性，用少量數據進行相應微調，即可高水平完成任務。

大模型增強了 AI 技術的通用性，讓開發者以更低成本、更低門檻，面向場景研發更好的 AI 模型，助力普惠 AI 的實現。但目前，基礎大模型距離大規模產業應用并成為產業基座還有很長的一段路要走，不僅需要有與場景深度融合的大模型體系，也需要有支持全流程應用落地的專業工具和平臺，還需要開放的生態來激發創新；三層之間交互賦能，才能形成良性循環的產業智能化生態共同體。我們看到 OpenAI 在開發 GPT 大模型的過程中具有相似的思路，在不斷加強大模型本身性能的同時，將 GPT 打包成產品，對外提供 API 服務，相關開發者、企業、學術機構以及高校都可以申請使用。開放后，大量開發者利用 API 開發出了各種各樣的功能，例如翻譯機、網站生成器等；OpenAI 則通過用戶獲取了更多的行為數據，形成了對 GPT 的反哺。由此可見，“模型+工具平臺+生態”三層共建有助于業務的良性循環，也更容易借助長期積累形成競爭壁壘。

生態層是基于大模型能力打造共創、共享社區。大模型“預訓練+精調”的新研發范式，讓 AI 在識別、理解、生成等方面的能力實現突破，帶來深度語義理解、智能交互、內容生成的技術與產品變革動能。打造基于大模型能力的生態，提供能力、工具、服務，連接供需，吸引更多的開發者和企業共創、共享，是釋放大模型潛力的重要路徑。“模型+工具平臺+生態”的模式需要協同優化，拓寬人工智能技術落地的場景覆蓋廣度，加深產業實際應用的深度，共同加速產業智能化，推動人工智能技術賦能千行百業，惠及千家萬戶。 “模型+工具平臺+生態”的模式需要協同優化，才能拓寬人工智能技術落地的場景覆蓋廣度，加深產業實際應用的深度，共同加速產業智能化，推動人工智能技術賦能千行百業，惠及千家萬戶。

二、互聯網大廠模型

1、阿里

阿里以“通義大模型+飛天智算平臺+魔塔社區+行業應用”成為大模型全部環節的重要參與者。2019 年，阿里達摩院開啟大模型研究。2022 年 9 月，阿里正式發布通義大模型，包括通義 M6 多模態模型、通義 AliceMind 自然語言處理模型、通義視覺計算機視覺模型。2022 年 11 月，阿里推出 AI 開源社區“魔搭”(ModelScope)，旨在打造下一代“模型即服務”的共享平臺，整合業界多方模型提供者，為開發者提供預訓練基礎模型和 API 接口。目前該平臺已有超過 300 個開源模型，包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外部資源和能力。2023 年 4 月，阿里正式發布了“通義千問”產品，該產品基于 10 萬億級參數的大模型底座 M6-OFA，未來將具有多輪交互及復雜指令理解、可多模態融合、支持外部增強 API 等多種能力。另外，阿里不僅擁有最多的英偉達 A100 芯片，還擁有自研芯片含光 800、倚天 710 芯片，共同為人工智能大模型提供算力。

1.1 模型

阿里推出“通義”系列大模型，由統一底座層、通用模型層、行業模型層組成，不僅通用多種任務，又容易落地應用，其中，應用在 B 端更有優勢。2022 年 9 月 2 日，阿里推出“通義”系列大模型，核心模型通過“魔搭”社區向全球開發者開源開放，推出“飛天智算平臺”提升 AI 訓練效率。通義大模型通過打造業界首個 AI 統一底座并構建大小模型協同的層次化人工智能體系，解決了大模型通用性與易用性仍欠缺的難題。通義大模型由統一底座層、通用模型層、行業模型層組成。其中，統一底座是基于 transformer 框架，由統一學習范式和模塊化設計理念構成；通用模型層主要包括通義-M6、通義-AliceMind 和通義-CV 三大模型體系。由于低訓練能耗優勢，通義大模型運行速度加快，例如，M6 在相同參數規模下的訓練能耗僅是 GPT-3 的 1%。目前，阿里通義大模型已廣泛用于電商、設計、醫療、法律、金融等領域，助力其降本增效。而在落地應用方面，阿里原有的產品資源導致其在 B 端更有優勢。阿里巴巴于 2023 年 4 月 7 日推出通義千問大語言模型內測。在 4 月 11 日的 2023 阿里云峰會上，阿里巴巴 CEO 張勇表示阿里巴巴所有產品未來將接入通義千問大模型，進行全面改造，包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等。阿里將結合 200 多萬的企業用戶和輻射的 2-3 億真實活躍用戶資源,把文本作為核心場景鑲嵌到釘釘的三大入口，預計 2023Q3 推送給部分 B 端客戶的企業釘。

通義-M6 屬于多模態模型，覆蓋文本和語音模態，在短時間內高速發展，并實現架構、模態和任務統一。通義-M6（英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer，6 個 M，簡稱 M6）包括圖文生成，圖文理解，多模態對話，運動預測，運動生成，語音理解，語音生成，多模態檢測和分割。通義-M6 已經從 2020 年 6 月的 3 億參數基礎模型逐漸發展到 2021 年 10 月的 10 萬億參數全球最大預訓練模型再到 2022 年 1 月的業界首個通用統一大模型 M6-OFA。2020 年 1 月，阿里巴巴達摩院啟動中文多模態預訓練模型 M6 項目，同年 6 月推出 3 億參數的基礎模型。2021 年 1 月，模型參數規模到達百億，已經成為世界上最大的中文多模態模型。2021 年 3 月，千億參數模型 KDD2021 發布，與 10B 模型相比：①訓練損失減少 37%，在許多下游任務實現 SOTA 結果；②混合精度提亮 90%的效率；③僅需 32 張 v100GPU 即可完成訓練。 2021 年 5 月，具有萬億參數規模的模型正式投入使用，追上了谷歌的發展腳步。2021 年 10 月，M6 的參數規模擴展到 10 萬億，成為當時全球最大的 AI 預訓練模型。 2022 年 1 月，業界首個通用的統一大模型 M6-OFA 發布。

AliceMind 是 NLP 的深度語言模型體系，以通用預訓練語言模型 StructBERT 為基礎，拓展到超大的領域模型、多語言、多領域、多模態方向，可用于結構化、生成式、知識驅動等應用。AliceMind, 取名來自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo)，是阿里達摩院機器智能技術實驗室傾力打造的具有領先性和系統化的深度語言模型體系。AliceMind 的核心應用場景有：文本標簽分類、序列標注、智能中文生成（如商品描述寫作推薦、小說續寫、古詩生成、菜譜生成等）、多模態問答（如 VQA，圖片問答）、問答對自動生成等。Alicemind 已經服務阿里內部和外部客戶幾百個場景。

通義-視覺屬于 CV 模型，覆蓋圖像，視頻模態。通義-視覺大模型自下往上分為底層統一算法架構、中層通用算法和上層產業應用，由兩個基礎模型構成，能夠實現視頻處理、視覺問答、視覺算數等多種算法，在電商、交通、自動駕駛等領域發揮作用。

1.2 算力

2022 年，阿里云推出全棧智能計算解決方案“飛天智算平臺”，并啟動兩座超大規模智算中心，為科研、公共服務和企業機構提供強大的智能計算服務，可將計算資源利用率提高 3 倍以上，AI 訓練效率提升 11 倍，推理效率提升 6 倍。飛天智算平臺源于阿里巴巴內部廣泛實踐，也源于廣泛的產業智能實踐。目前，該平臺正在支撐建設兩座超大規模智算中心。張北智算中心建設規模為 12 EFLOPS（每秒 1200 億億次浮點運算）AI 算力。在云端，張北智算中心支撐 AI 預訓練大模型、AI Earth、數字人等前沿 AI 應用，將成為全球最大的智算中心。烏蘭察布智算中心建設規模為 3 EFLOPS（每秒 300 億億次浮點運算）AI 算力，位于“東數西算”內蒙古樞紐節點，采用自然風冷、AI 調溫等綠色技術，實現綠色低碳。

智能計算不同于通用型計算，需要海量數據對 AI 模式進行訓練，算力被損耗在數據遷移、同步等環節，千卡以上規模的算力輸出最低往往僅有 40%左右。這導致了智能算力成本高昂，制約了產業發展。阿里云通過體系化的技術創新，改變了智能計算的損耗難題，將千卡并行計算效率提升至 90%以上。在網絡技術上：阿里云采用高性能 RDMA 網絡，實現端對端最低 2 微秒延遲。在通信技術上：阿里云自研的無阻塞通信技術，讓計算過程中的數據交換速度提升了 5 倍以上。在存儲技術上：自研的 IO 加速器讓數據存取實現最高 10 倍性能提升。在大數據 AI 開發層：阿里云提供分布式訓練框架，并通過 API 對分布式策略進行自動組合和調優，將訓練效率提升了 11 倍以上。一站式 AI 計算開發服務：阿里云為用戶提供了一站式的通用推理優化工具，對算法模型進行量化、剪枝、稀疏化、蒸餾等操作，將推理效率提升 6 倍以上。

阿里研發出高質量的大模型壓縮技術，快速匹配客戶計算資源。達摩院推出了大模型落地技術 S4（Sound、 Sparse、Scarce、Scale）框架，就包含了各種微調算法和模型壓縮算法，將稀疏化等技術應用到百億量級的大模型中。基于這一技術，阿里的 270 億參數語言大模型 PLUG 在壓縮率達 99%的情況下，多項任務的精度損失在 1%以內。這意味著百億參數大模型也可能在幾乎不損失精度的情況下進行稀疏化，最終實現單卡運行。

另一方面，基于“通用大模型+行業 knowhow”的方式迭代模型。通用大模型基于“大一統”技術，預訓練時就已經具備了很強的理解和生成能力，只需再針對特定任務進行簡單微調。即先打造一個基礎大模型，再繼續訓練得到領域模型，最后通過微調構建具體行業任務模型。通義大模型的架構設計將這一過程做得更快且更高效。目前，通過部署超大模型的輕量化及專業模型版本，通義大模型已在超過 200 個場景中提供服務，實現了 2%-10%的應用效果提升。比如，通義大模型在淘寶服飾類搜索場景中實現了以文搜圖的跨模態搜索、在 AI 輔助審判中司法卷宗的事件抽取、文書分類等場景任務中實現 3～5%的應用效果提升、在開放域人機對話領域通過建立初步具備“知識、情感以及個性、記憶”的中文開放域對話大模型實現了主動對話、廣泛話題、緊跟熱點等對話體驗。

1.3 平臺

2022 年 11 月，阿里巴巴達摩院與中國計算機學會開源發展委員會共同推出人工智能模型開源社區“魔搭” （Model Scope），首批合作方還包括瀾舟科技、智譜 AI、深勢科技、中國科學技術大學等多家科研機構，旨在打造下一代開源的模型即服務共享平臺，致力降低 AI 應用門檻。 ModelScope Library 為模型貢獻者提供了必要的分層 API，以便將來自 CV、NLP、語音、多模態以及科學計算的模型集成到 ModelScope 生態系統中。所有這些不同模型的實現都以一種簡單統一訪問的方式進行封裝，用戶只需幾行代碼即可完成模型推理、微調和評估。同時，靈活的模塊化設計使得在必要時也可以自定義模型訓練推理過程中的不同組件。除了包含各種模型的實現之外，ModelScope Library 還支持與 ModelScope 后端服務進行必要的交互，特別是與 Model-Hub 和 Dataset-Hub 的交互。這種交互促進了模型和數據集的管理在后臺無縫執行，包括模型數據集查詢、版本控制、緩存管理等。當前，魔搭社區收錄模型共 775 個，其中中文模型約 300 個，主要通過大模型幫助開發者提取、抽象知識，通過下游調優，將下游目標精確化，從而快速形成針對行業的解決模型，解決實際應用問題。

1.4 應用

通義千問將陸續接入阿里巴巴生態的所有商業應用中，如企業通訊、智能語音助手、電子商務、搜索、導航、娛樂等，從而進一步提升用戶體驗。憑借其中英雙語能力，通義千問將首先部署于阿里巴巴的數碼協同辦公和應用開發平臺釘釘，以及物聯網智能家居終端機天貓精靈上。通義千問賦能釘釘：讓職場溝通更高效。例如，釘釘將能夠總結會議紀要、將會議對話生成文字會議記錄、撰寫電子郵件，以及僅用簡單輸入就可創建業務策劃或推廣方案初稿。用戶還可以透過上傳一張構思草圖的圖像，轉瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈：與中國用戶更活潑生動地對話。例如，天貓精靈將能夠為兒童創作和講故事、提供健康食譜和旅行建議，或推薦健身背景音樂等。從應用的角度，在傳統 APP 中，因為各業務邏輯上的不同，比如淘寶與餓了么，飛豬與高德打車，APP 間很難整合，強行整合反而會帶來產品使用復雜度大幅增加，用戶體驗下降。但如果統一接入到通義千問中，參考智能座艙的語音助手，其更強的理解能力將使得交互邏輯變得非常簡單，用戶可以像詢問生活助手一樣詢問通義千問來完成業務交互，不再需要學習操作邏輯，阿里生態中的家庭終端入口將實現統一。

圖像理解和“文生圖（text-to-image）”等多模態能力也將很快添加到通義千問模型中，為用戶提供更具吸引力的 AI 功能。阿里云智能首席技術官周靖人表示：“語言大模型支持下的生成式 AI 正迎來全新的發展階段。在新 AI 時代，我們憑借可靠的公有云基礎設施和久經驗證的 AI 能力，為客戶和廣大社會創造價值。我們正見證 AI 發展的新范式，云和 AI 模型在其中發揮至關重要的作用。我們致力于讓這種范式更普惠，希望以此促進各行各業的數智化轉型，助力提高企業生產力，擴展專業知識和能力，并通過創新釋放更大的機遇。”通義千問基于阿里巴巴自研的“通義”預訓練模型框架，其統一底座包括“文生圖”、“文生短視頻”等 AI 模型。去年，阿里云推出開源“模型即服務”（Model-as-a-Service）平臺“魔搭”（ModelScope），開放了數以百計 AI 模型，包括面向全球開發者和研究人員的通義“文生圖”模型。目前“魔搭”小區擁有超過 100 萬活躍用戶，提供 800 多個模型，模型總下載量超 1600 萬次。

2、百度

百度是國內領先布局 AI 領域的科技大廠，也是我國最早發布知識增強大語言模型產品的企業，其在 AI 領域累計投入研發總額超過千億元,專利數量連續五年居全國第一。2010 年，百度成立了人工智能自然語言處理部,是中國最早布局 AI 的企業之一。2012 年,百度的 AI 戰略已經初步成型,陸續成立了深度學習研究院 IDL、人工智能實驗室。2014 年，百度開始涉足智能駕駛領域,先后推出了深度語音系統、百度大腦、度秘、 Apollo 自動駕駛平臺等技術體系,涉及自然語言處理、機器翻譯、語音、視覺、機器學習、深度學習、知識圖譜等核心技術。2016 年 9 月，百度在百度世界大會上正式對外開放集視覺、語音、自然語言處理、知識圖譜、深度學習等技術于一體的百度大腦,并且每隔一段時間就會進行迭代,合作伙伴可以直接調用百度 AI 的核心能力。同年，百度主導的深度學習框架 PaddlePaddle(飛槳)上線,涵蓋了深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件和豐富的工具組件,填補了中國開源深度學習框架的空白。2017 年開始,百度就開始整合人工智能體系,在 2019 年下半的一次架構調整后,王海峰開始統管 AIG、ACG 和 TG 三塊業務，百度 AI 的打法也進一步清晰,云計算被定義為智能基礎設施的底座,同時將人工智能和底層技術能力灌輸到底座中,進而成為賦能各行各業的“動力工廠”。2020 年，百度智能云確立了“以云計算為基礎,以人工智能為抓手,聚焦重要賽道”的新戰略,選擇智慧城市、智慧金融、智慧醫療、智能制造、智慧能源等為重要賽道,并屢屢簽下數億級別的訂單。2021 年初,百度再次夯實了自身的人工智能戰略,從“AI+云”的整合過渡到云智一體的新階段。2022 年底，百度智能云推出了全棧自研的 AI 基礎設施“百度 AI 大底座”，其包括“芯片–框架–模型”三層技術棧，在各個層面都擁有關鍵自研技術和領先產品，分別對應昆侖芯、飛槳（PaddlePaddle）、文心大模型。百度 AI 大底座對各層的技術棧進行了全棧融合、系統優化，完成了云和智的技術一體化建設，可以實現對大模型訓練的端到端優化和加速。

2.1 模型

文心大模型架構分為“基礎+任務+行業”三級模型。基礎大模型聚焦技術方向的技術挑戰、通用性、泛化性探索；任務大模型深入理解任務特性，構建預訓練算法、訓練數據集，打造緊貼任務的模型能力；行業大模型深度融合行業數據與知識特性，構建更適配行業的模型底座。基礎大模型支撐任務與行業大模型的建設，任務和行業大模型結合真實場景與數據反哺基礎大模型優化。目前，文心大模型已經建設了 36 個大模型，其中基礎大模型包含：NLP（自然語言處理）大模型、CV（計算機視覺）大模型、跨模態大模型，任務大模型包含對話、搜索、信息抽取、生物計算等多個典型任務，行業大模型包含與來自 8 個行業的頭部企業或機構共建的 11 個行業大模型。

2.1.1 文心 NLP 大模型

文心 NLP 大模型發展歷程有三條主線，1）是文心 ERNIE，百度發布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型，并且在 SuperGLUE 和 GLUE 都超過了人類排名第一的水平，以及基于層次化多任務學習的文心 ERNIE 3.0 Zeus。同時為了進一步降低落地門檻，出現了效率高、泛化能力強的輕量級大模型，比如文心 ERNIE 3.0 Tiny。2）對話生成大模型文心 PLATO 的發布，對話的流暢性得到了很大提升。3）文心 ERNIE 在跨模態、跨語言以及長文檔、圖模型等方面獲得了非常好的發展，在各種榜單尤其是視覺語言相關的榜單上獲得第一百，比如文心 ERNIE-ViLG 2.0，該模型可以生成語義更相關、質量更高的圖片。文心一言整合了過往關鍵技術，在文心知識增強大模型 ERNIE 及對話大模型 PLATO 的基礎上研發，基于飛槳深度學習平臺訓練和部署，其關鍵技術包括，有監督精調、人類反饋的強化學習、提示、知識增強、檢索增強和對話增強。前三項是這類大語言模型都會采用的技術，在 ERNIE 和 PLATO 模型中已經有應用和積累，文心一言中又進行了進一步強化和打磨，做到了更懂中文、更懂中國文化、更懂中國的使用場景；后三項則是百度已有技術優勢的再創新。

ERNIE 3.0 系列模型（ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus）有四大特點：從大規模知識圖譜和海量無結構數據中學習，突破異構數據統一表達的瓶頸問題。同時輸入大規模圖譜和相應無標注、無結構化的文本，通過文本的 Mask，能夠推理這個知識圖譜里的關系，從而使這個模型具有知識推理能力。

融合了自編碼和自回歸的結構，使模型既可以做語言理解，也可以做語言生成。在做語言理解時，模型擁有上下文相關的信息，從而做語言理解。在生成的時候，由于模型只看到了上文，所以只能基于自回歸的方式學習。因此，在一個框架中同時能夠擁有語言理解和語言生成兩種能力非常重要。

基于持續學習框架，從不同任務中持續學習。不斷從不同的數據和知識上學習，而不斷地構建新任務，比如文本分類任務、問答任務、完形填空任務等。大模型從不同任務中持續學習，使能力得到持續提升，擁有更多知識。為了進一步學習特定任務的相關知識，ERNIE 3.0 Zeus 提出了層次化提示（Prompt）學習技術。在數據構造時通過層次化的 Text Prompt 庫將百余種不同的任務統一組織成自然語言的形式，和海量無監督文本以及百度知識圖譜聯合學習。此外訓練過程引入了層次化的 Soft Prompt 建模了不同任務之間的共性與特性，進一步提升了模型對于不同下游任務的建模能力。此外，通過持續學習對百余種不同形式的任務數據，實現了任務知識增強，顯著提升了模型的零樣本/小樣本學習能力。

PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一項關鍵技術，主要作用是多輪對話，其發展經歷了三個階段。1）2019 年 10 月，百度首次發布了 PLATO 對話模型，其是全球首個大規模變量對話模型，刷新開放領域對話效果。2）2020 年 7 月，發布 PLATO-2，其是基于課程學習的對話生成模型，進一步刷新了開放領域對話效果。2020 年 10 月，PLATO-2 斬獲全球對話技術競賽 DSTC-9 五項冠軍。3）2021 年 9 月，發布 PLATO-XL，其是首個百億參數中英對話預訓練生成模型。 PLATO 在預訓練模型之上，對對話能力進行增強，讓對話具有人格屬性，包括人設穩定性、知識增強、跨模態對話、情感撫慰、主動對話、長期記憶等。同時，PLATO 也已應用到百度的各個產品線，比如：小度聊天，百度推出的虛擬人對話，領域對話。同時，百度也通過 UNIT 平臺，對外輸出對話技術。

2019 年，百度首次發布了 PLATO 對話模型，首次創新性的提出了“隱變量”的概念。開放型對話具有一對多的特點，用戶輸入 query 后，系統可以有多種多樣的回復。每個回復有不同的性質，比如，輸入“我得健身了，不能放縱了”。可以給用戶建議、詢問、質詢、質疑等類型的回復。除了這種關系外，還會有對話背后的場景信息，這會導致開放型對話一對多的關系，這會導致模型學習很困難。如果針對一個輸入，有特定的輸出，模型的學習會相對簡單。但當模型的輸出不確定，甚至有多種多樣的輸出，這就會導致模型學習復雜。針對這一問題，我們提出隱變量建模輸入和輸出的映射信息。它不是一個顯式的建模，而是一個隱式建模輸入和每一個輸出的對應關系。這就會讓原來的輸入和輸出一對多的關系，轉化為一對一的關系。通過在輸入增加 soft token 的方式，讓 transformer 建立輸入和輸出之間的關系。Transformer 不是獨立的編碼器和解碼器的方式，我們選擇了使用編碼器和解碼器共享參數的方式來實現即 unified transformer。預訓練分為兩個階段，先根據輸入和輸出預測隱變量的分布，然后從分布中采樣隱變量，將其加入輸入中再去學習根據隱變量和輸入預測回答的能力。

2021 年，百度推出 PLATO-XL，將模型的規模推進至 110 億，模型有 72 層。同時引入了 role embedding 的特征來感知角色信息。在對話上文中，既有用戶的輸入，也有系統的輸入，使用 role embedding 來區分用戶和系統的角色。在原有 transformer 模型三個特征,token、sentence type、position 的基礎上，模型新增了 role embedding 的信息，能讓模型更好的掌控角色。

2.1.2 文心 CV 大模型

文心 CV 大模型基于領先的視覺技術，利用海量的圖像、視頻等數據，為企業和開發者提供強大的視覺基礎模型，以及一整套視覺任務定制與應用能力。百度文心發布了 VIMER 系列的 CV 大模型，視覺自監督預訓練大模型 VIMER-CAE 創新性地提出“在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架，在圖像分類、目標檢測、語義分割等經典下游任務上刷新 SOTA 結果。在此之上，多任務學習模型 VIMER-UFO 2.0 可抽取輕量級小模型，兼顧大模型效果和小模型推理性能，單模型覆蓋 20 多個 CV 基礎任務，在 28 個公開測試集上效果刷新 SOTA。端到端文檔 OCR 表征學習預訓練模型 VIMER-StrucTexT 2.0 解決了訓練數據匱乏和傳統 OCR+NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題，能夠廣泛應用于各行各業行的文檔、卡證、票據等圖像文字識別和結構化理解。 VIMER-CAE 基于自監督圖像掩碼建模原理，創新性地提出“在隱含的編碼表征空間完成掩碼預測任務” 的預訓練框架，對編碼模塊和解碼模塊進行分離，通過編碼模塊對輸入的圖像塊進行特征表達，并利用隱式上下文回歸和解碼模塊對輸入圖像的掩碼塊進行特征表達恢復，在圖像掩碼建模問題上提高了預訓練模型的圖像表征能力。基于 VIMER-CAE 的預訓練模型在下游各類圖像任務上取得了明顯的效果提升，其中在目標檢測、實例分割、語義分割等任務的指標上達到最優水平。

VIMER-UFO 2.0 技術方案的主要內容包括：1）All in One——行業最大 170 億參數視覺多任務模型，覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+ CV 基礎任務，單模型 28 個公開測試集效果 SOTA；2） One for All——首創針對視覺多任務的超網絡與訓練方案，支持各類任務、各類硬件的靈活部署，解決大模型參數量大，推理性能差的問題。針對大模型的開發和部署問題，VIMER-UFO 給出了 One for All 的解決方案，通過引入超網絡的概念，超網絡由眾多稀疏的子網絡構成，每個子網絡是超網絡中的一條路徑，將不同參數量、不同任務功能和不同精度的模型訓練過程變為訓練一個超網絡模型。訓練完成的 VIMER-UFO One for All 超網絡大模型即可針對不同的任務和設備低成本生成相應的可即插即用的小模型，實現 One for All Tasks 和 One for All Chips 的能力。

VIMER-UFO 2.0 單個模型一套參數，在不進行下游 fine-tuning 的情況下，在 28 個主流的 CV 公開數據集上取得了 SOTA 的結果。同時，盡管 VIMER-UFO 2.0 大模型參數量達到了 170 億，得益于 Task-MoE 稀疏結構，每個任務推理時只需激活部分參數，計算量相當于 6 億參數模型規模，加速比接近 30 倍。

VIMER-StrucTexT 2.0 是端到端文檔 OCR 表征學習預訓練模型，首次創新性地提出“單模態圖像輸入、多模態表征學習”預訓練框架，僅通過單一文檔圖像的輸入，就能讓模型充分捕獲語義和結構信息。經過大規模文檔圖像數據充分學習后的預訓練模型，顯著提高文檔理解全景應用任務效果，包括文檔圖像分類、文檔版式分析、表格結構解析、文檔 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同時解決了訓練數據匱乏和傳統 OCR + NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題，能夠廣泛應用于各行各業行文檔、卡證、票據等圖像文字識別和結構化理解。

VIMER-UMS (Unified Multi-Source Pre-training for Product)，是百度基于海量的互聯網商品圖文信息提出的多源信息統一建模的商品圖文表征預訓練模型，也是行業首個統一視覺單模態與多源圖文模態表征的商品多模態預訓練模型。針對圖文多模態建模中模態信息殘缺問題，通過構建視覺特征與多源圖文對比的多任務學習框架，實現統一圖文表征預訓練同時覆蓋商品視覺單模態、多模態識別與檢索任務，可以顯著改善商品視覺檢索和商品多模態檢索體驗。

VIMER-UMS 基于端到端 Transformer 訓練方式，通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼，提供多源商品信息的統一表達結構。由于現有主流多模態預訓練方法依靠語言作為弱監督關聯信號，視覺表征能力存在退化現象。為了解決該問題，VIMER-UMS 通過建立視覺與多源圖文對比多任務預訓練，實現視覺特征、圖文特征的統一增強表征。

2.1.3 文心跨模態大模型

文心·跨模態大模型基于知識增強的跨模態語義理解關鍵技術，可實現跨模態檢索、圖文生成、圖片文檔的信息抽取等應用的快速搭建，落實產業智能化轉型的 AI 助力。 ERNIE-ViL 是業界首個融合場景圖知識的多模態預訓練模型。ERNIE-ViL 將場景圖知識融入到視覺-語言模型的預訓練過程，學習場景語義的聯合表示，顯著增強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世界最好效果。并在多模態領域權威榜單視覺常識推理任務（VCR）上登頂榜首。基于文本中解析出的場景圖，ERNIE-ViL 提出了三個多模態場景圖預測任務：物體預測，隨機選取圖中的一部分物體，然后對其在句子中對應的詞進行掩碼和預測；屬性預測，對于場景圖中的屬性-物體組合，隨機選取一部分詞對其中屬性詞進行掩碼和預測；關系預測，對于場景圖中的物體-關系-物體三元組，對其中的關系詞進行掩碼和預測。

ERNIE-ViL 在場景圖里加入知識，通過它的文字信息去構建場景圖，使得模型能夠理解圖中細粒度的語義。舉例而言，下圖中有 6 個人，但只有 5 個人運動員，因為其中一個是裁判，模型要能依據運動場景進行判斷，才能給出正確答案。

文心 ERNIE-ViLG 2.0 采用基于知識增強算法的混合降噪專家建模，是全球首個知識增強的 AI 作畫大模型，也是目前全球參數規模最大的 AI 作畫大模型，在文本生成圖像公開權威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了當前該領域的世界最好效果，并在語義可控性、圖像清晰度、中國文化理解等方面展現出了顯著優勢。文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴散模型學習，強化文圖生成擴散模型對于語義的精確理解，以提升生成圖像的可控性和語義一致性。同時，ERNIE-ViLG 2.0 首次引入基于時間步的混合降噪專家模型來提升模型建模能力，讓模型在不同的生成階段選擇不同的“降噪專家”網絡，從而實現更加細致的降噪任務建模，提升生成圖像的質量。

2.2 算力

百度早在 2011 年就開始布局 AI 芯片領域，并逐步建立 AI 技術的全棧布局，拓展了全面的 AI 應用場景。同時，擁有數億用戶規模的產品百度搜索，以及服務各個行業的百度智能云等。同時，百度依托昆侖芯科技前身為百度智能芯片及架構部，昆侖芯是百度自主研發的云端通用 AI 芯片，目前，昆侖芯 1、2 代已實現量產，并達到數萬片規模部署。昆侖芯 3 代將于 2024 年初量產。依托深厚技術沉淀，昆侖芯科技核心團隊于 2017 年發布 100%自研、面向通用 AI 計算的芯片核心架構昆侖芯 XPU，并從 AI 落地的實際需求出發，按照復雜前沿的人工智能場景需求來迭代架構。2018 年至今，昆侖芯云端 AI 芯片已經迭代兩代，并實現數萬片的規模落地。其中，昆侖芯 1 代已經在百度搜索引擎、小度等業務中部署超過兩萬片，昆侖芯 2 代也于 2021 年 8 月實現量產，并已在互聯網、智慧工業、智慧城市、智算中心、智慧交通、科研等領域實現規模化部署，服務來自千行百業的不同客戶。

針對大模型，昆侖芯持續打磨部署優化方案，領跑產業落地。昆侖芯已將大模型的 Transformer 相關優化技術沉淀為重要基建，優化后的性能比原有方案提升 5 倍以上，壓縮顯存 30% 以上。以文生圖大模型為例，昆侖芯已跑通一條端到端優化、規模落地之路。AI 繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數級增加，同時，圖像生成需要循環采樣數十次，產業落地動輒需要高昂成本的部署集群，嚴重阻礙了 AIGC 模型大規模商業化落地。2022 年第四季度，昆侖芯聯合客戶，基于飛槳 PaddlePaddle 發起了端到端聯合優化項目。在 2-3 周內，項目組快速完成端到端優化，最終實現輸入文本后 2 秒出圖的優化效果，性能提升近 8 倍。目前，昆侖芯 AI 加速卡 R200 已在該客戶的大模型場景完成規模部署，性能數據全面超越同系列主流推理卡，基于昆侖芯 AI 加速卡 R200 高效運算與推理能力，綜合優化方案，在 dpm-25steps 算法下，利用昆侖芯 AI 加速卡 R200，生成 1024*1024 圖像時的推理速度為 10.89 iters/s，相比同能力的主流推理卡快 20%；昆侖芯 AI 加速卡 R200 擁有 32G GDDR6 顯存，為大規模參數提供更大的存儲容量、更高帶寬的內存訪問、更穩定的性能，生成更高分辨率的圖片，為用戶提供高性價比服務。

2.3 平臺

百度飛槳是我國首個自主研發的產業級深度學習開源開放平臺，飛槳在平臺功能上具備豐富的產業級模型庫、端到端開發套件、工具組件，以及零門檻 AI 開發平臺 EasyDL 和全功能 AI 開發平臺 BML、學習與實訓社區 AI Studio，高效支持深度學習模型開發、訓練、部署等全流程，降低 AI 技術應用門檻；在生態上，飛槳推動構建了全方位的生態體系，包括開發者生態、教育生態、企業生態、硬件生態，通過生態共享共創加速產學研用協同創新發展。

飛槳官方精選產業算法新增 100 多個，累計超過 600 個，覆蓋計算機視覺(PaddleCV)、自然語言處理 (PaddleNLP)、推薦(PaddleRec)、語音(PaddleSpeech)四大應用領域，超過 95%的用戶使用模型庫。包含經過產業實踐長期打磨的主流模型，42 個精度與性能平衡的產業級 PP 系列特色模型，以及文心系列大模型。

飛槳硬件生態持續繁榮，包括 Intel、NVIDIA、Arm 等諸多芯片廠商紛紛開展對飛槳的支持，并主動在開源社區為飛槳貢獻代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等 CPU 進行深入融合適配，并結合麒麟、統信、普華操作系統，以及昆侖芯、海光、寒武紀、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度融合，與浪潮、中科曙光等服務器廠商合作形成軟硬一體的全棧 AI 基礎設施。當前已經適配飛槳的芯片或 IP 廠商超過 40 家，處于業界領先地位。2022 年 5 月，飛槳聯合硬件生態伙伴發布“硬件生態共創計劃”，在聯合研發、資源共享、聯合授權、培訓賦能等多個維度全面合作。2022 年 11 月，飛槳“硬件生態共創計劃”成員已經從 13 家增加至 28 家。

飛槳平臺服務規模快速滲透，技術能力創新卓著。截至 2022 年 11 月，飛槳已凝聚國內規模最大的開發者群體（535 萬）、服務 20 萬企事業單位，基于飛槳平臺創造出 67 萬個 AI 模型，超越 TensorFlow 和 PyTorch 成為國內服務規模最為廣泛的框架工具，不斷夯實 AI 工業大生產的基礎，有力推動了我國實體經濟的高質量發展。百度飛槳從 2016 年經歷多年積累、沉淀、探索后，創新成果已經逐步涌現。飛槳 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等開發套件發布后多次登頂 Papers with Code 和 Github 趨勢榜單，引起業界高度關注。此外，針對國內市場需求特點，飛槳提供了大量經過真實應用場景有效驗證的高精度、便捷部署的官方模型庫，相關算法及 API 更加強調對中文情境的支持優化，能夠廣泛支持國產硬件平臺，技術能力優勢逐步凸顯，相較于 TensorFlow 和 PyTorch 成為更滿足國內技術應用需求的開發框架。

2.4 應用

百度文心大模型積極拓展內外部應用，目前面向公眾和企業用戶同時進行開放測試。內部應用層面，文心大模型已經率先應用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內部重要產品上。百度在 5 月 25 日的移動生態大會上展示了全新的 AI 搜索體系。1）極致滿足：搜索結果不再是簡單的文本段落，而是多模態的，包括相關的圖片和視頻，省去了用戶的瀏覽和總結時間。對于那些相對簡單但沒有現成答案的問題，AI 可以展示邏輯推理和計算能力，直接給出可用的結果。對于開放的多答案問題，百度 AI 搜索可以整合多個符合要求的答案，并列出引用和選擇依據，滿足用戶需求。此外，搜索引擎還能自動定位到視頻中相關內容的位置，方便用戶查看。根據介紹，現在百度搜索每天有 70%的問答需求能在首條搜索結果中得到滿足，這一比例在半年前只有 40%，這種改進進一步提升了需求，現在每天有超過 3000 萬次的新增問答需求。2）AI 伙伴：除了提供豐富準確的搜索結果，百度還提出了全能的"AI 伙伴"，使人們能夠以最直接的方式獲取人工智能的能力。通過 AI 伙伴，人們可以使用自然語言或語音作為輸入，獲得準確詳細的搜索結果。 AI 伙伴不僅會在生成答案時標出重點并列出引用鏈接，還能調用其他工具和服務完成任務，并接受進一步追問或指正。AI 伙伴還可以根據用戶意圖生成圖片、進行文案寫作，在不同任務中扮演具體的角色，如旅行時可以充當導游，寫作業時可以充當老師。3）AIBOT：以往人們對搜索引擎結果的準確性有所顧慮，因為無論 AI 算法有多準確，始終只是概率統計的結果，并不能代表專家意見。為解決這個問題，百度推出了全新的 AIBOT。類似于 ChatGPT 的插件，AIBOT 通過與第三方技術提供商的合作，使搜索可以自動接入特定能力。目前亮相的 AIBOT 覆蓋了創作、商業、機構、服務和品牌等多個領域，它們可以利用專業領域知識直接回答用戶的問題。

百度文心圍繞大模型產業應用的不同研發環節，面向各階段不同技術、業務背景的開發者或用戶，打造系列工具平臺與場景化產品。大模型套件：百度文心推出新一代預訓練范式的 NLP 算法定制開發工具集 ERNIEKit，面向 NLP 工程師，提供全流程大模型開發與部署工具集，端到端、全方位發揮大模型效能。包括數據標注與處理、大模型精調、大模型壓縮、高性能部署、場景化工具五大模塊能力； AI 開發平臺：百度 AI 開發以雙平臺模式驅動，面向應用開發者或業務專家提供零門檻 AI 開放平臺 EasyDL，面向 AI 算法開發者提供全功能 AI 開發平臺 BML。EasyDL 使用百度文心 NLP、CV、跨模態大模型作為訓練基座，利用少量數據即可獲得理想的模型效果，具有零門檻、高精度、低成本數據、超靈活部署四大核心優勢。 BML 深度融合文心大模型，提供 Notebook 建模、預置模型調參、可視化建模、模型產線建模、Pipeline 建模、實驗管理等功能，兼具性能和性價比；

3、騰訊

騰訊構建了“太極機器學習平臺+混元大模型”，同時騰訊啟動了“混元助手”知識增強大語言模型項目。 2016 年，騰訊成立了 AI Lab 實驗室。2022 年 4 月，騰訊對外披露了混元大模型，涉及自然語言處理、計算機視覺、多模態等多個領域。騰訊自研的太極機器學習平臺為混元大模型提供算力，可支持 10TB 級模型訓練、 TB 級模型推理計算能力等。騰訊 AI Lab 是騰訊的企業級 AI 實驗室，于 2016 年 4 月在深圳成立，目前有 100 多位頂尖研究科學家及 300 多位應用工程師。2017 年公司提出了“Make AI Everywhere” 的戰略愿景，和“基礎研究—場景共建—能力開放”的三層 AI 戰略架構。作為衡量機構研究實力的重要標準，成立四年多來，騰訊 AI Lab 的基礎研究成果已覆蓋 CVPR、ACL、ICML、NIPS 及 Nature Communications 等國際頂級 AI 學術會議或期刊，發表論文超過 460 篇，位居國內企業前列。截止 2020 年 3 月，騰訊擁有 AI 全球專利超過 6500 個，中國專利超過 5000 個。

3.1 模型

2022 年 4 月，騰訊首次披露了混元 AI 大模型研發進展，先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具權威的跨模態視頻檢索數據集榜單中取得第一名，實現跨模態檢索領域的大滿貫。當月，騰訊混元 AI 大模型又在中文語言理解評測基準 CLUE 分類榜中取得第一名，分數突破了 80.000 分，接近人類語言理解能力，刷新該榜單歷史記錄。這是混元 AI 大模型在斬獲跨模態檢索榜單大滿貫后，取得的又一突破性進展，展現了該模型在自然語言處理上的實力。 2022 年 5 月，騰訊混元 AI 大模型在 CLUE 總排行榜、閱讀理解、大規模知識圖譜三個榜單同時登頂，一舉打破三項紀錄。據了解，CLUE 總榜由分類任務和閱讀理解任務構成。騰訊混元 AI 大模型在一個月內先后實現分類任務、閱讀理解雙佳績，最終以 84.730 的成績取得總榜第一。之后混元 AI 大模型又在多模態理解領域國際權威榜單 VCR（Visual Commonsense Reasoning，視覺常識推理）中登頂，兩個單項成績和總成績均位列第一。這是繼在跨模態檢索領域實現大滿貫、CLUE 自然語言理解分類榜及 CLUE 總榜登頂后，混元 AI 大模型的又一重大突破，展現了其在多模態理解領域的強大實力。

3.2 算力

騰訊發布大模型算力集群 HCC 大幅提速模型訓練。大模型進入萬億參數時代，單體服務器提供的算力有限，需要將大量服務器相連，協同優化單機算力、網絡架構和存儲性能，打造大規模、分布式的高性能計算集群。以新一代集群為標志，基于自研芯片、星星海自研服務器和分布式云操作系統遨馳，騰訊云正通過軟硬一體的方式，打造面向 AIGC 的高性能智算網絡，持續加速全社會云上創新。 2023 年 4 月 14 日，騰訊云發布新一代 HCC 高性能計算集群，其采用最新一代星星海自研服務器，搭載 NVIDIA H800 Tensor Core GPU，并基于自研網絡、存儲架構，帶來 3.2T 超高互聯帶寬 TB 級吞吐能力和千萬級 IOPS。實測結果顯示新一代集群算力性能較前代提升 3 倍。2022 年 10 月，騰訊完成首個萬億參數的 AI 大模型——混元 NLP 大模型訓練。在同等數據集下，將訓練時間由 50 天縮短到 11 天。如果基于新一代集群，訓練時間將進一步縮短至 4 天。服務器單機性能是集群算力的基礎，新一代集群的單 GPU 卡在不同精度下，支持輸出最高 1979 TFlops 的算力。針對大模型場景，星星海自研服務器采用 6U 超高密度設計，相較行業可支持的上架密度提高 30%；利用并行計算理念，通過 CPU 和 GPU 節點的一體化設計，將單點算力性能提升至更高。

此外，新一代集群集成了騰訊云自研的 TACO 訓練加速引擎，對網絡協議、通信策略、AI 框架、模型編譯進行大量系統級優化，大幅節約訓練調優和算力成本。騰訊太極機器學習平臺自研的訓練框架 AngelPTM，也已通過騰訊云 TACO 提供服務，幫助企業加速大模型落地。依托分布式云原生的治理能力，騰訊云智算平臺提供 16 EFLOPS 的浮點算力，規模業界領先。通過騰訊云的大模型能力和工具箱，企業可結合產業場景數據進行精調訓練，提升生產效率、快速創建和部署 AI 應用。

3.3 平臺

騰訊自研搭建了業界一流的太極機器學習平臺，致力于讓用戶更加聚焦業務 AI 問題解決和應用，一站式的解決算法工程師在 AI 應用過程中特征處理，模型訓練，模型服務等工程問題。結合對用戶的習慣理解和功能沉淀，太極在產品層提供數據/特征工程，模型訓練，模型服務三塊。閉環了用戶離線訓練到在線服務的應用，包含了不同場景下的數據訪問訴求，不同訓練模型的訴求，在線服務可靠性的訴求。算法框架&組件層提供了機器學習、深度學習核心組件。可支持 10TB 級模型訓練、TB 級模型推理和分鐘級模型發布上線，擴展集群規模則可支持更大的模型訓練和推理，為實際業務提供大模型的情況下，同時具有很高的性能，達到行業領先水平。太極機器學習平臺采用了分布式參數服務器架構，其是業界第一梯隊企業們公認的最佳選擇。這種架構的特點是，存儲模型參數和執行模型計算，這兩種任務在分別的服務器上運行，增加更多服務器就可以支持更大、計算需求更高的模型。太極機器學習平臺中的參數服務器系統 AngelPS 也是騰訊自研的成果，現在不僅可以承載 10TB 級模型的訓練，對多維特征融合、復雜模型結構等更高級、更前瞻性的功能也有優秀支持。同時太極機器學習平臺還具備超大模型在線推理服務的能力。推理計算方面，不僅支持常規的 CPU 計算，還支持復雜模型的 GPU 計算加速；存儲上，根據在線推理模型大小，自適應選擇小模型本地內存加載和大模型 AngelPS 遠程查詢的部署策略；在線服務運營上，平臺具備多級容災能力，臟模型秒級回滾能力，以及完備的系統和業務運行實時指標監控和報警系統。

太極 AngelPTM 的設計目標是依托太極機器學習平臺，為 NLP、CV 和多模態、AICG 等多類預訓練任務提供一站式服務。其主要由高性能訓練框架、通用加速組件和基礎模型倉庫組成。太極 AngelPTM 主要有三大部分：1）高性能訓練框架：包含大模型訓練框架 ZeRO-Cache，高性能 MOE 組件，以及 3D 并行和自動流水并行策略；2）通用加速組件：包含可減少顯存并提高精度的異構 Adafactor 優化器，可穩定 MOE 半精度訓練 loss 的 Z_loss 組件，選擇性重計算組件和降低通信代價的 PowerSGD 組件；3）基礎模型倉庫：包含 T5、BERT、GPT 以及 Transformer 等基礎模型。

3.4 應用

騰訊 AI Lab 的 AI 技術也廣泛應用在微信、QQ 和騰訊覓影等上百款產品。行業應用上，實驗室研發出的圍棋 AI「絕藝」屢獲國際賽事冠軍，是科技賦能國粹文化的代表；與王者榮耀研發的策略協作型 AI「絕悟」達到職業水平，代表國際水準的研究能力。布局前沿多模態數字人技術，探索數字內容生成的新可能。實驗室支持的國家級 AI+醫療標桿產品「騰訊覓影」與「騰訊醫典」也不斷取得技術突破，「騰訊覓影」從醫療影像延伸到輔助診療等功能，截止 2018 年 10 月，項目已落地 100 多家全國三甲醫院，服務患者近 40 萬人。2020 年，實驗室發布自研智能顯微鏡及 AI 藥物發現平臺「云深智藥」，并初步探索 AI+農業智慧溫室項目。

AI + 生命健康：在醫療領域，騰訊 AI Lab 與北京協和醫院共同發布了具有完全自主知識產權的便攜式智能化手術導航系統，實現高精度、便攜式、低成本等特點，就像給臨床醫生的手術配上了 GPS，輔助醫生精準定位隱藏在腦組織中的病變。該系統在協和神經外科已成功開展了 50 余例臨床試驗，涉及腦出血、垂體腺瘤、膠質瘤、腦膜瘤、顱咽管瘤等多種疾病，臨床初步應用取得成功。騰訊 AI Lab 還與邁瑞共同研發了全自動外周血細胞形態學分析儀，并完成了創新醫療器械特別審查申請公示，正式進入國家藥品監督管理局創新通道，成為國內體外診斷行業首個進入該程序的 AI 類產品。該分析儀通過創新性的形態學檢測方案，以優異的指標及效率，實現白血病等高發惡性腫瘤的早期篩查輔助臨床診斷。

AI+內容：騰訊 AI Lab 持續探索 AI 與人協同合作的內容生成技術，此前相繼發布了文本理解系統 TexSmart、交互翻譯系統 TranSmart 等，并且創新性地探索了 AI 在游戲電競、直播等領域的應用。智能寫作方面，22 年 4 月，發布智能寫作助手「文涌（Effidit）」，用技術助力文思泉涌。初版本融合了知識抽取、文本理解、文本生成、大規模預訓練模型、經典語言模型、搜索等多項技術積累，提供多維度文本補全，多樣化文本潤色等核心功能，及例句推薦、文本糾錯、云輸入法、學術專業版等完整的輔助寫作能力。22 年 12 月，文涌 2.0 版本發布，新版本增加了風格化文本續寫等眾多功能，共包含「文本補全」、「智能糾錯」、「文本潤色」、「超級網典」四個模塊，其中「文本補全」和「超級網典」旨在幫助寫作者在創作時開闊思路、提供彈藥，而「智能糾錯」和「文本潤色」則是重在提升創作后的文本水平和質量。部分功能目前已接入搜狗輸入法 PC 端（「智能汪仔」）和 QQ 瀏覽器移動端。

4、字節

相對于阿里、百度、騰訊均已經推出大模型及布局，字節目前仍未公布內部架構、產品體系及大模型的最新進展。字節的 AI 布局可以追溯到 2016 年成立的字節 AI LAB 的成立，AI Lab 對自身的定位是作為公司內部的研究所和技術服務商，為平臺輸出海量內容提供 AI 技術支持。AI Lab 最初成立的時候聚集了馬維英、李航、李磊等大牛，此后馬維英離開團隊回到學界，目前阿里 M6 大模型的前帶頭人楊紅霞已加入字節 AI Lab（人工智能實驗室），參與語言生成大模型的研發。字節目前大模型仍處于發展階段，現以旗下云平臺火山引擎在算力、平臺和生態端布局為主。大模型團隊由字節搜索部門牽頭，搜索業務部門、AI Lab 和 AML（應用機器學習）團隊均調任部分人馬支援，目前團隊規模在 40 人左右，圖片大模型團隊由產品研發與工程架構部下屬的智能創作團隊牽頭；團隊負責人間接和直接匯報對象，則均為 TikTok 產品技術負責人朱文佳。根據調研情況，字節目前在仍在做模型調優，計劃 23 年 6-9 月達到 3.5 模型相當的水平，9 月之后語言模型可以同步做發布和多模態模型訓練，語言模型發布至少要到 9 月之后。后面會基于當前的語言模型，做多模態的模型，多模態相對來說難度會更大，至少要等到 24 年 3-4 月。

4.1 模型

字節在 AI 方面的積累主要集中在機器翻譯、智能語音、視頻圖像和多模態四個領領域。字節跳動的研究成果包括非自回歸模型 DA-Transformer、端到端語音到文本翻譯模型 ConST、多顆粒度的視覺語言模型 X-VLM、圖片和文本統一生成模型 DaVinci 等。在機器翻譯方面，字節旗下火山翻譯團隊 2022 年在 SC22、ACL2022、ICML2022 等頂會發表學術成果 10 余篇，受邀參加了英偉達 GTC 2022 全球 AI 開發者大會等知名技術論壇，申報翻譯技術專利 15 項，榮獲中國專利優秀獎在 WMT2022 的非洲語向任務上奪得桂冠。目前，火山翻譯提供 9 大領域翻譯，其中包括但不限于人工智能、互聯網行業生物醫療、科學技術、金融財經，支持共 114 個語向的翻譯，其中包括伊博語、亞美尼亞語等小語種。其中，字節和清華聯合發布了 DA-Transformer，DA-Transformer 在機器翻譯上首次達到了 Transformer 同樣的精度，而處理的速度提高了 7~14 倍。DA-Transformer 不僅可以用于機器翻譯，而且可以用于任意的序列到序列任務。

在多模態方面，2022 年 3 月，字節發布的 text2image 模型實現了文生圖能力，實驗數據顯示，其效果比 VQGAN-CLIP 要真實，尤其是泛化能力還比不少用大量文本-圖像數據對訓練出來的模型要好很多。2022 年 5 月，字節跳動 AI Lab Research 團隊提出了 X-VLM，首次提出學習多粒度的視覺和語言對齊。實驗證明，這種預訓練方法十分高效，模型規模無需很大，預訓練數據無需很多，僅 216M 參數量的 X-VLM 就能在廣泛的多模態任務上獲得了十分優秀的表現，例如：圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前，X-VLM 在字節跳動的真實應用場景上超過了業界常用的多個模型，完成了上線，服務于如今日頭條等業務。相關論文已被 ICML 2022 接收。

4.2 算力

2023 年 4 月 18 日，火山引擎在春季火山引擎 FORCE 原動力大會上正式發布自研 DPU 等系列云產品，并正式推出智能推薦-高速訓練引擎，支持 100GB 至 10TB 以上超大模型的高效訓練，采取軟硬一體優化設計等，讓面向推薦場景的高速訓練更快，成本更低。火山引擎智能推薦-高速訓練引擎具備軟硬一體、細粒度算子優化、分布式訓練和推理三大特點，1）軟硬一體化：針對關鍵場景的超大模型，火山引擎智能推薦-高速訓練引擎提供了全 GPU 方案，可以支持 100GB-10TB 的超大模型的高速訓練，綜合 ROI 是 CPU 的 5 倍；覆蓋更多場景的模型，提供了 GPU+CPU 混訓方案，綜合 ROI 是 CPU 的 2 倍；2）細粒度算子優化：針對搜索、推薦和營銷場景，優化細粒度算子，使得在模型推理的過程中有更好的性能表現。在訓練時，通過算子融合并精細調優，性能提升 20%；在推理時，通過算子優化，性能提升 40%；3）分布式訓練和推理：智能推薦-高速訓練引擎為了保障系統的穩定性，支持訓練和推理的全方位容錯，當某一個節點故障時，可以快速恢復；支持分布式推理，包括多分片、多副本，從而保證線上服務的高可用。

4.3 平臺

2022 年 7 月，火山引擎正式發布機器學習平臺，達到 0 碎片的極致性能和優秀的開發體驗，火山引擎機器學習平臺解決方案已在金融、零售、能源、教育等行業落地，幫助更多企業不斷縮短智能業務研發周期，提高模型上線效率和 GPU 使用率，并依靠定制化的智能模型實現業務增長。火山引擎在數據管理、資源管理、流程和模型三大領域具備核心優勢。1）在數據管理場景下，火山引擎機器學習平臺可通過結構化、非結構化數據庫、數據協同標注與版本化管理、多租戶安全等，保護企業數據資產，為機器學習、深度學習開發助力；2）在資源管理場景下，機器學習平臺可通過 GPU、CPU 調度，模型分布式訓練，資源動態分配，彈性線上推理服務等，提供機器學習模型開發所需要的算力。無論是在字節跳動內部還是在外部客戶，該平臺都已實現萬級 GPU 算力資源的池化管理、調度和共享；3）對于流程和模型管理，機器學習平臺提供 DevOps 能力。不同于一般業務，機器學習應用的發布包含了所有規則和處理邏輯，在應用上線后，由于需要周期性地進行更新、優化迭代，模型本身對外部數據有強依賴，這使得整個 DevOps 更復雜。火山引擎機器學習平臺構建了 DevOps 流水線，實現從數據處理、模型訓練、模型評估、模型發布的持續集成，提升端對端業務上線效率。平臺也支持通過超參數自動搜索、多模型自動比對與評估、模型版本化管理、線上模型運維等，降低模型開發和維護門檻。

4.4 應用

火山引擎的 AI 場景產品主要包括智能創作、智能體驗以及智能營銷，目前已服務數百家客戶，分別在視頻創作、互動創作、直播短視頻構建中推動客戶業務增長。在內容視頻化和互動趣味化的大趨勢下，火山引擎創作與體驗場景提供了從算法到平臺的全域解決方案，在 AI 底層算法的支持下，通過全品類的正版素材和特色化的創作工具，快速完成視頻、特效、虛擬形象、XR 等創新內容。不管是企業用戶還是個人用戶，人人都可擁有創作比較專業的短視頻的能力。智能創作云是火山引擎發布的面向企業的創作 AI 產品，智能創作云包括眾多 AI 創作工具，比如圖文轉視頻能力，用戶只需輸入文字即可生成視頻，AI 通過理解文字內容，搭配適合的圖片、音樂和轉場等，快速生成一支專業的視頻；比如視頻模板，剪同款功能就是把優質視頻內容抽象成腳本，用戶只要會打開攝像頭拍攝，就有了專業拍、剪視頻的能力，極大降低了創作門檻，保障了內容生產的質量。

字節旗下云服務平臺云服務平臺火山引擎提供有關音視頻的智能美化特效。智能美化特效基于自主研發的特效 SDK，提供多項圖像渲染和算法，提供貼紙特效/美化濾鏡/人像智能/計算機視覺基礎檢測識別等功能，用于拍照工具、直播、短視頻、在線教育、體感游戲等場景。目前，智能美化特效擁有超過 200 個自研算法、具備小于 2ms 的人臉檢測速度，提供超過 90 萬個抖音同款特效貼紙和濾鏡。此外，字節在內部的相關產品持續引入 AI。2022 年 5 月，字節推出海綿樂隊 App，海綿樂隊是一款手機端的便攜式音頻創作工具，在實現傳統的錄音、效果器同時，引入大量 AI 智能來協助創作，降低使用難度，提高創作趣味和效率。2023 年 4 月 12 日，飛書宣布將推出智能 AI 助手“My AI”， My AI 包括自動匯總會議紀要、創建報告、優化和續寫文字內容等。在飛書 App 中，My AI 也可以通過對話形式，幫助用戶自動創建日程、搜索公司內部知識庫等功能。飛書還表示，My AI 能做的遠不止于此。未來，更強大的智能助手，也會讓工作中的人們更強大。

三、商業模式

當前全球大模型產業落地仍處于早期探索階段。一方面，研發機構在大模型方面的技術研發已較為成熟，如算法架構、預訓練和微調策略、計算并行加速等，但對落地場景不夠熟悉，沒有形成完善的商業化模式，需要與下游場景企業合作建立大模型商業模式；另一方面，絕大多數下游場景的企業對大模型沒有形成基本的概念和認知，同時也沒有能夠支撐模型微調的算力，以及定制、二次開發模型的人力資源和技術實力。此輪基于 ChatGPT 的大模型浪潮興起伊始，結合我國 AI 產業鏈與競爭格局現狀，一種判斷是：基于大模型的通用和泛化性提高，未來手握通用基礎大模型的巨頭企業會逐漸侵蝕垂直領域廠商業務。這種壓力長期來看的確存在，但大模型與產品結合，尤其在非檢索或開放域交互等場景中，需要依賴垂直領域數據和行業 know-how、應用場景和用戶數據反哺、一站式端到端工程化能力等。在此窗口期，垂直領域與應用層廠商應積極將大模型能力整合入自己的技術棧，服務于產品功能優化，建立“數據飛輪”壁壘。在下游豐富的基于大語言模型、AIGC 應用開發需求的影響下，還將分化出一類工具型或平臺型廠商，主要提供基于各類大模型的開發平臺服務，幫助客戶實現便捷的 AIGC 應用開發與落地。

1、API 模式

API 模式指的是由大模型的研發主體（如科研機構）對完成的模型文件進行封裝，將模型在各類任務上的推理能力封裝成統一的應用程序接口，對外提供服務的模式。下游企業可以獲得這些接口，并按照自身的業務需求，將接口作為可以調用的代碼庫、程序包等，植入已有的應用和服務中，讓大模型的 API 為整個程序進行賦能。API 模式的主要優勢在于降低了企業應用大模型的成本。API 將大模型內部的所有技術細節進行封閉，企業不需要過多了解模型的技術細節，也不需要投入額外的開發人力和算力資源進行大模型調優。

2、PaaS 模式

大模型作為一種技術，將其集成在 AI 平臺上，對外提供能力和服務，成為一些技術實力雄厚企業的選擇。這種模式中，企業的主要落地產品的 PaaS 平臺、開發工具、AI 服務等組合而成的套件，大模型是套件中的一個重要的組成部分，但不是全部。用戶購買或使用平臺的過程中，可以利用平臺提供的工具，對大模型進行開發和應用，集成于自有的體系中，為自身業務提供服務。需要注意的是，和 API 模式不同，PaaS 服務模式提供的是包括模型在內的一系列工具和平臺，用戶不能單獨獲得模型的能力。同時，用戶雖然可以通過 PaaS 模式，獲得對模型更高的開發和控制權，但往往需要為此付費，這為 PaaS 服務的供應商帶來了一定的利潤。

以微調對話領域模型為例，英偉達提供了具體的部署流程。用戶首先可以從云上下載已預訓練好的模型，并結合場景數據集，利用 TLT 工具，對數據進行處理、增強，并對預訓練模型進行微調，微調后利用平臺進行測評。待測評結果符合實際應用要求后，可導出模型，進行下一步的使用（如后續用 RIVA 進行模型的應用）.。目前 TLT 平臺已經支持 BERT、Megatron 等預訓練語言模型，以及計算機視覺領域多種任務的模型。英偉達稱，在 TLT 平臺的支持下，相比非遷移學習，用戶只需要使用十分之一的數據進行訓練，模型部署效率提升 10 倍。 TLT 平臺本身是免費的，支持英偉達旗下的 A100、V100GPU 等硬件。國內也有大型科技企業推動 PaaS 模式的發展。例如，2020 年 7 月，百度發布了 NLP 開發與服務平臺文心，其依托 ERNIE 預訓練技術，為開發者提供 NLP 定制與應用能力。文心平臺可通過公有云（如 EasyDL-NLP、 BML 等）和私有化兩種方式為產業提供服務。用戶不需要關注計算開發環境的搭建和算法實現的底層實現細節。對于對場景要求更高的用戶，百度提供全流程、可深度定制、可私有化部署的文心開發套件。用戶可以獲得模型技術選型、本地化訓練、離線部署等深度解決方案。截至目前，文心平臺已累計支持 4 萬開發者，及涵蓋各行各業的 200 多家企業客戶。

3、MaaS 模式

MaaS 商業模式是以算力平臺、模型倉庫及數據集倉庫為基礎的，倡導零門檻的模型體驗，提供簡單快速的模型使用、完整的模型定制鏈路及模型云端部署服務，主要提供給 AI 的愛好者、開發者、研究員以及部分中小型轉型企業的商業化模型使用。 “模型→單點工具→應用場景”是 MaaS 產業結構的核心。大模型是 MaaS 的最重要基座，例如 OpenAI 提供的訪問執行各種自然語言任務的 GPT-3、將自然語言翻譯成代碼的 Codex、創建和編輯原始圖像的 DALL? E；單點工具是大模型應用的補充，例如 ChatGPT 是在 GPT-3.5 模型的基礎上，產生出的能“對話”的 AI 系統；內容寫作工具 Jasper 它基于開源的 GPT-3 模型，它使用人工智能為用戶編寫內容等；各種應用場景是大模型應用的變現，例如商湯科技的書生（INTERN）大模型可以讓 AI 模型處理多樣化的視覺任務；又如 GPT 模型系列作為基于互聯網可用數據訓練的文本生成深度學習模型，應用場景持續擴展。

而除了模型本身進行訂閱收費以外，嵌入其他產品獲得引流式收入也是模式之一，例如，微軟宣布推出高級付費版 Microsoft Teams Premium，這項高級服務將在 6 月份每月收費 7 美元，然后在 7 月份恢復到正常的 10 美元，訂閱者可享用由 OpenAI GPT-3.5 提供支持的“智能回顧（Intelligent Recap）”這一重要功能，該功能將提供自動生成的會議記錄、推薦任務和個性化標亮；微軟旗下 Dynamics 365 產品線宣布旗下客戶關系管理軟件 Viva Sales 也將集成 OpenAI 的技術，通過人工智能幫助銷售人員完成許多繁雜且重復的文字工作。雖然，GPT-3.5 并未在 Viva Sales 中作為單獨的收費項目存在，但是 Viva Sales 作為 CRM 產品本身每月就收費 40 美元，假設有 1000 萬客戶是因為 GPT-3.5 而選購 Viva Sales，則代表 GPT-3.5 每年能夠為微軟帶來 48 億美元的收入。

其它的收費模式還包括不同的 Model 應對不同的客戶需求和客戶定價，如 OpenAI 在推出 ChatGPT 以前，其主要收入來源于對外部客戶開源自身大模型，通過提供 API 接口調用來收費。例如用于創建和編輯原始圖像的 DALL·E 模型，Mixtiles 利用 DALL·E API 來創建和構建能引起情感共鳴的藝術品（圖片）；數字平臺 CALA 同樣調用了 DALL·E 模型，使得 CALA 的智能工具允許用戶從自然文本描述或上傳的參考圖像中生成新的設計理念圖。可以看出，相較于 Mixtiles，CALA 對于 DALL·E 模型的應用更偏商業，對于細節的要求也更高，那在這種情況下，CALA 和 Mixtiles 兩者調用 DALL·E 模型的收費肯定是有所不同的。總結來說，不同的 Model 應對不同的客戶需求和客戶定價肯定也會有所不同，客戶的要求越高，使用的模型越好，那么大模型的收費也將會更高。

編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
AI(263628) AI(263628)
人工智能(229987) 人工智能(229987)
ChatGPT(3870) ChatGPT(3870)

大型語言模型在關鍵任務和實際應用中的挑戰

大型語言模型的出現極大地推動了自然語言處理領域的進步，但同時也存在一些局限性，比如模型可能會產生看似合理但實際上是錯誤或虛假的內容，這一現象被稱為幻覺（hallucination）。幻覺的存在使得

2023-08-15 09:33:45

1090

大型語言模型的邏輯推理能力探究

最新研究揭示，盡管大語言模型LLMs在語言理解上表現出色，但在邏輯推理方面仍有待提高。為此，研究者們推出了GLoRE，一個全新的邏輯推理評估基準，包含12個數據集，覆蓋三大任務類型。

2023-11-23 15:05:16

476

探索高效的大型語言模型！大型語言模型的高效學習方法

在大型語言模型（LLMs）的應用中，提示工程（Prompt Engineering）是一種關鍵技術，用于引導模型生成特定輸出或執行特定任務。通過精心設計的提示，可以顯著提高LLMs的性能和適用性。本文將介紹提示工程的主要方法和技巧，包括少樣本提示、提示壓縮和提示生成。

2023-12-13 14:21:47

274

NVIDIA 推出大型語言模型云服務以推進 AI 和數字生物學的發展

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA ? 美國加利福尼亞州圣克拉拉

2022-09-21 15:24:52

434

AI大模型在醫療領域起飛

電子發燒友網報道（文/李彎彎）ChatGPT等大型語言模型在語言理解、生成、知識推理等方面正展現出令人驚艷的能力。近段時間，各企業開始探索大模型在不同行業中的應用落地，并針對不同領域推出相對應的行業

2023-07-25 00:12:00

1434

!!!!!!!!!C語言淺析簡單易懂強力推薦!!~~~!!!!!!!!

!!!!!!!!!C語言淺析簡單易懂強力推薦!!~~~!!!!!!!!PCB打樣找華強 http://www.hqpcb.com 樣板2天出貨

2013-03-05 16:43:04

3G通信技術的發展歷程，不看肯定后悔

2021-05-25 06:20:15

AI發展對芯片技術有什么影響？

現在說AI是未來人類技術進步的一大方向，相信大家都不會反對。說到AI和芯片技術的關系，我覺得主要體現在兩個方面：第一，AI的發展要求芯片技術不斷進步；第二，AI可以幫助芯片技術向前發展。

2019-08-12 06:38:51

AI算法中比較常用的模型都有什么？

AI算法中比較常用的模型都有什么

2022-08-27 09:19:06

大型軟件研發項目安全性風險定量分析理論模型

【作者】：王長峰;王化蘭;【來源】：《清華大學學報(自然科學版)》2009年S2期【摘要】：為了解決大型軟件研發項目安全性風險概率問題,以軟件編碼階段中的質量風險類的文檔質量風險因素為實際案例,研究

2010-04-24 09:54:02

C語言發展歷程，C語言特點分析

C語言的發展頗為有趣。它的原型ALGOL 60語言。　　1963年，劍橋大學將ALGOL 60語言發展成為CPL(Combined Programming Language)語言。　　1967年

2021-09-10 17:59:13

DDR SDRAM的內存發展歷程

DDR SDRAM內存發展歷程

2021-01-06 06:04:22

Edge Impulse的分類模型淺析

就Edge Impulse的三大模型之一的分類模型進行淺析。針對于圖像的分類識別模型，讀者可參考OpenMv或樹莓派等主流圖像識別單片機系統的現有歷程，容易上手，簡單可靠。單擊此處轉到——星瞳科技OpenMv 所以接下來的分析主要是針對數據進行識別的分類模型。...

2021-12-20 06:51:26

LabVIEW進行癌癥預測模型研究

LabVIEW進行癌癥預測模型研究癌癥是一種細胞異常增生的疾病。隨著年齡的增長，細胞分裂速度放緩，但癌細胞會失去控制地不斷分裂，形成可能良性或惡性的腫瘤。 2012年的國際癌癥數據顯示，新發癌癥

2023-12-13 19:04:23

MCU也需要AI嗎

人工智能（AI）是計算機科學的一個分支，它企圖了解智能的實質，并生產出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能

2021-11-03 09:17:37

《51單片機C語言實例淺析》

2012-08-20 19:33:38

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

2022年11月，ChatGPT的問世展示了大模型的強大潛能，對人工智能領域有重大意義，并對自然語言處理研究產生了深遠影響，引發了大模型研究的熱潮。距ChatGPT問世不到一年，截至2023年10

2024-03-11 15:16:39

一文讀懂語言識別技術原理1

的學科，需要具備生理學、聲學、信號處理、計算機科學、模式識別、語言學、心理學等相關學科的知識。語音識別的研究是個漫長而且艱難的過程，它的發展可以追溯到20世紀50年代，1952年貝爾實驗室首次實現

2018-06-28 11:27:08

世界印制板發展歷程分為哪些時期？

日本是世界印制線路板(PCB)技術50年以來發展的一個側影，從日本PCB的發展看，世界印制板發展歷程分為哪些時期呢？

2019-08-01 06:34:36

為什么生成模型值得研究

1.Why study generative modeling? 人們可能很自然地想知道為什么生成模型值得研究，尤其是那些只能夠生成數據而不能提供密度函數估計的生成模型。畢竟，當應用于圖像時，這樣

2021-09-15 06:03:29

使用cube-AI分析模型時報錯的原因有哪些？

使用cube-AI分析模型時報錯，該模型是pytorch的cnn轉化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai v8.0.0-19389) INTERNAL ERROR: list index out of range ```

2024-03-14 07:09:26

卷積神經網絡模型發展及應用

卷積神經網絡模型發展及應用轉載****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學習是機器學習和人工智能研究的最新趨勢，作為一個

2022-08-02 10:39:39

基于大型圖片的文件讀取方法的研究和探討

2012-08-20 20:02:23

如何加速電信領域AI開發？

。華為輪值董事長徐直軍指出，華為人工智能的發展戰略，是以持續投資基礎研究和AI人才培養、打造全棧全場景AI解決方案和開放全球生態為基礎；面向電信運營商，通過SoftCOM AI促進運維效率提升。運營商

2021-02-25 06:53:41

小白求助，求ARM系列芯片的發展歷程

2021-10-21 08:28:03

嵌入式系統發展歷程是什么

嵌入式系統的發展歷程

2021-12-22 07:30:26

我國電子測量儀器工業發展歷程

請問為什么要設計電子測量儀器？我國電子測量儀器工業發展歷程介紹

2021-04-15 06:27:30

匯編語言的發展歷程和特點

來源：互聯網程序員會用到很多編程語言，下面一起了解下匯編語言，以及發展歷程，語言特點......

2020-10-22 11:49:59

物聯網的發展歷程看完你就知道了

2021-09-26 09:21:24

訓練好的ai模型導入cubemx不成功怎么解決？

訓練好的ai模型導入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

轎車參數化分析模型的構造研究及應用

轎車參數化分析模型的構造研究及應用概念設計階段是車身結構設計中保證性能的重要階段這個階段留下的缺陷往往很難在后續的設計中彌補因而在車身開發中受到廣泛重視目前國內外在這方面都展開了詳細的研究尤其是國外

2009-04-16 13:40:51

電池的發展歷程

電池的發展歷程 1600年Gilbert(美國)建立對電池的研究基礎。1791年Gavani(意大利)提出“動物電”學說。1800年Volta(意大利)制成

2009-10-23 16:07:04

2244

天津力神公司發展歷程史

2009-10-27 17:20:14

2629

LED發展歷程

LED發展歷程 —產業照明技術在IT及BIO革命中起著主角和配角的（舉足輕重）的作用—LED是21世紀的新光，其應用及研究并迅速發展

2009-11-20 09:28:29

2229

51單片機C語言實例淺析

目錄序第一章 C語言第一節為何《實例淺析》選擇 C語言作為 51 單片機開發語言？第二節打好 C語言基礎第三節《C總結》第二章中斷第一節中斷識別方式有哪兩種？第二節中斷

2011-03-14 12:29:02

960

AI大模型可以設計電路嗎?

AI大模型

電子發燒友網官方發布于 2024-01-02 15:09:29

AI大模型怎么解決芯片過剩?

AI大模型

電子發燒友網官方發布于 2024-01-02 15:42:05

大型發電機主絕緣的Cole_Cole模型頻域介電溫度特性研究

大型發電機主絕緣的Cole_Cole模型頻域介電溫度特性研究_張征平

2017-01-05 15:34:54

唇語識別中的話題相關語言模型研究_王淵

2017-03-19 11:28:16

亞馬遜推出AWS Inferentia芯片專門用于部署帶有GPU的大型AI模型

亞馬遜宣布推出Inferentia，這是由AWS設計的芯片，專門用于部署帶有GPU的大型AI模型，該芯片將于明年推出。

2018-12-03 09:46:08

1753

C語言的發展歷程是怎么樣的

C 語言最早的原型是 ALGOL 60 1963 年，劍橋大學將其發展成為 CPL(Combined Programing Language)。

2020-02-06 16:19:34

3183

自然語言處理已成為AI領域的研究熱點，推動著語言智能的持續發展

Processing，簡稱NLP）已成為AI領域的研究熱點，它推動著語言智能的持續發展和突破，并越來越多地應用于各個行業。正如國際知名學者周海中先生曾經所言：“自然語言處理是極有吸引力的研究領域，它具有重大的理論意義和實用價值。”

2020-10-08 11:41:00

2924

AI下個大突破之前奏：研究人員正在教大型語言模型

高。因為英語里有 black sheep（黑羊，引申意為害群之馬）。這就是語言模型的問題。只用文本訓練語言模型，會導致模型缺乏常識。不過，為了改變這種狀況，北卡羅來納大學教堂山分校（下文簡稱 UNC）的學者莫希特?班薩爾和其博士生譚昊研發了一種新技術，研究人員

2022-07-10 15:25:08

1366

阿里巴巴、智源研究院、清華大學聯合發布全新AI模型，提升AI理解能力

1月12日，阿里巴巴、智源研究院、清華大學等聯合研究團隊發布面向認知的超大規模新型預訓練模型“文匯”。該模型不僅能提升AI的理解能力，還可基于常識實現AI創作，未來將應用于文本理解、人機交互、視覺

2021-01-12 17:25:55

2177

淺析碟式離心機的分離影響因素及模型

2021-11-12 17:10:04

NVIDIA為全球企業開發和部署大型語言模型打開一扇新的大門

NVIDIA NeMo Megatron 框架; 可定制的大規模語言模型Megatron 530B；多GPU、多節點 Triton推理服務器助力基于語言的AI開發和部署，推動行業和科學發展

2021-11-12 14:30:07

1327

淺析質構儀在還原劑對熟化陳米品質影響研究中的應用

2022-01-18 09:20:34

使用DeepSpeed和Megatron驅動MT-NLG語言模型

盡管巨型語言模型正在推動語言生成技術的發展，但它們也面臨著偏見和毒性等問題。人工智能社區正在積極研究如何理解和消除語言模型中的這些問題，包括微軟和 NVIDIA 。

2022-04-17 11:25:34

1946

NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平臺訓練大型語言模型

韓國先進的移動運營商構建包含數百億個參數的大型語言模型，并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓練該模型。

2022-09-27 09:24:30

915

NVIDIA AI平臺為大型語言模型帶來巨大收益

隨著大型語言模型（ LLM ）的規模和復雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達 30% 的訓練速度。

2022-10-10 15:39:42

644

邊緣AI的模型壓縮技術

在某個時間點，人們認為大型和復雜的模型表現更好，但現在它幾乎是一個神話。隨著邊緣AI的發展，越來越多的技術將大型復雜模型轉換為可以在邊緣上運行的簡單模型，所有這些技術結合在一起執行模型壓縮。

2022-10-19 14:22:08

768

SC22 | 解析基因組的“語言”：戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

的 COVID-19 研究。一位決賽入圍選手教會了大型語言模型（LLMs）一種新的語言——基因序列，使這些模型能夠提供基因組學、流行病學和蛋白質工程方面的洞察。這項開創性的成果發表于 10 月，是由來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構的二

2022-11-16 21:40:02

396

基因組學大型語言模型在多項任務中均展現出卓越的性能和應用擴展空間

。這一聯合團隊的研究指出，經過基因組學訓練的大型語言模型（LLM）可將應用擴展到大量基因組學任務。該團隊使用 NVIDIA 的超級計算機 Cambridge-1 來訓練參數規模從 500M 到 2.5B 不等的各種大型語言模型（LLM）。這些模型在各種基因組數據集上進行了訓練，以探

2023-01-17 01:05:04

444

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數

2023-01-17 14:29:53

692

淺析預訓練模型的起源與發展

2022年下半年開始，涌現出一大批“大模型”的優秀應用，其中比較出圈的當屬AI作畫與ChatGPT，刷爆了各類社交平臺，其讓人驚艷的效果，讓AI以一個鮮明的姿態，站到了廣大民眾面前，讓不懂AI的人也能直觀地體會到AI的強大。大模型即大規模預訓練模型。

2023-02-20 14:09:11

1391

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可用于解決總結文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

2023-03-08 13:57:00

6989

NASA攜手IBM利用AI基礎模型研究氣候變化的影響

基礎模型是在一組廣泛的未經標記的數據上進行訓練的 AI 模型類型，可用于不同任務，并且可以舉一反三，將某一情況的信息應用于另一種情況。過去五年，這類模型快速推進了AI 自然語言處理（NLP）領域的技術發展

2023-03-09 09:36:57

412

NVIDIA 為全球企業帶來生成式 AI 推出用于創建大型語言模型和視覺模型的云服務

和運行自定義大型語言模型和生成式AI模型，這些模型專為企業所在領域的特定任務而創建，并且在專有數據上訓練。 ? Getty Images、Morningstar、Quantiphi、Shutterstock公

2023-03-22 13:45:40

261

GTC23 | NVIDIA 為全球企業帶來生成式 AI，推出用于創建大型語言模型和視覺模型的云服務

能夠構建、完善和運行自定義大型語言模型和生成式 AI 模型，這些模型專為企業所在領域的特定任務而創建，并且在專有數據上訓練。 Getty Images、Morningstar、Quantiphi、Shutterst

2023-03-23 06:50:04

365

GTC23 | NVIDIA 發布大型語言模型和生成式 AI 服務以推動生命科學研發

年 3 月 21 日 – NVIDIA 今日推出一整套用于自定義 AI 基礎模型的生成式 AI 云服務。這些服務將加速新蛋白質和治療方法的創建以及基因組學、化學、生物學和分子動力學等領域的研究。作為

2023-03-23 06:55:03

328

GTC23 | 彌補不足：大型語言模型借企業數據之力變得更加智能

被訓練時所使用的數據。例如，如果在一年前進行訓練，那么驅動 AI 聊天機器人的大型語言模型就不會知道最近的產品或者服務。通過最近發布的 NVIDIA AI Foundations 云服務系列中的 NVIDIA NeMo 服務，企業可以很好地填補這一缺口。企業用戶可以使用專有

2023-03-25 09:10:03

274

GTC23 | NVIDIA 為全球企業帶來生成式 AI，推出用于創建大型語言模型和視覺模型的云服務

2023-03-25 15:20:04

285

ChatGPT:AI模型框架研究

　　一、AI框架重要性日益突顯，框架技術發展進入繁榮期，國內AI框架技術加速發展：　　1、AI框架作為銜接數據和模型的重要橋梁，發展進入繁榮期，國內外框架功能及性能加速迭代；　　2、Pytorch

2023-03-29 17:06:16

什么是預訓練 AI 模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據不同行業的應用需求進行自定義。如果要教一個剛學會走路的孩子什么是獨角獸，那么我們首先應

2023-04-04 01:45:02

1025

一套開源的大型語言模型（LLM）—— StableLM

對于任何沒有額外微調和強化學習的預訓練大型語言模型來說，用戶得到的回應質量可能參差不齊，并且可能包括冒犯性的語言和觀點。這有望隨著規模、更好的數據、社區反饋和優化而得到改善。

2023-04-24 10:07:06

2168

如何通過一個簡單的方法來解鎖大型語言模型的推理能力？

近來NLP領域由于語言模型的發展取得了顛覆性的進展，擴大語言模型的規模帶來了一系列的性能提升，然而單單是擴大模型規模對于一些具有挑戰性的任務來說是不夠的

2023-05-10 11:13:17

1377

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

? 大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息？這一問題在計算機科學和自然語言處理領域一直存在爭議。然而，MIT的一項新研究表明，僅基于文本形式訓練、用于預測下一個token的語言模型

2023-05-25 11:34:11

434

GPT總設計師：大型語言模型的未來

他預計，深度學習和大型語言模型會繼續發展：這個領域的未來可能會有一小部分重大突破，加之許多細微改進，所有這些都將融入到一個龐大而復雜的工程體系。他還給出了一些有趣、可執行的思想實驗。

2023-06-12 16:38:48

262

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部

2023-06-25 15:08:49

991

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型（LLM）代表著 AI 領域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

AI大模型的的三個發展階段

AI大模型可分為自然語言處理大模型，CV大模型、科學計算大模型等。AI大模型支持的模態更加多樣，從支持文本、圖片、圖像、語音單一模態下的單一任務，逐漸發展為支持多種模態下的多種任務。

2023-07-06 12:31:56

1386

語言模型的發展歷程基于神經網絡的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務。

2023-07-14 11:45:40

454

英特爾通過軟硬件為LIama 2大模型提供加速，持續發力推動AI發展

內容、回答問題、參與對話以及執行復雜任務（如解決數學問題或推理）方面表現出的卓越能力，使其成為最有希望規模化造福社會的AI技術之一。大語言模型有望解鎖更豐富的創意和洞察，并激發AI社區推進技術發展的熱情。 Llama 2旨在幫助開發者、研究人員和

2023-07-21 18:15:04

480

2023年發布的25個開源大型語言模型總結

來源： DeepHub IMBA 大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數據集上進行訓練。它們可以用于各種任務，包括生成文本、翻譯語言和編寫不同類型的創意內容。今年開始

2023-07-28 12:20:02

440

AI和大語言模型給云計算和DevOps帶來了哪些影響？

通過降低認知負載和為即時管理、工單系統和代碼生成等任務提供支持，人工智能（AI）和大型語言模型（LLMs）可能在云計算和 DevOps 領域發揮重要作用。主要的云計算供應商，如微軟、谷歌和亞馬遜云科技等，已經將 AI 集成到他們的產品和服務中，充分展示了行業在 AI 技術上的投入。

2023-08-03 15:26:42

813

ChatGPT等大型語言模型的出現會帶來哪些風險

近日，美智庫蘭德公司高級工程師克里斯托弗·莫頓(Christopher Mouton)在C4ISRNET網站撰文，分析ChatGPT等大型語言模型的出現給國家安全帶來的新風險。主要觀點如下：

2023-08-04 11:44:53

304

AI大模型和小模型是什么？AI大模型和小模型的區別

　　隨著人工智能的不斷發展和應用，機器學習模型的大小越來越成為一個重要的問題。在機器學習中，我們通常將模型分為兩類：大模型和小模型。本文將介紹AI大模型和小模型是什么，并分析它們各自的優缺點以及區別。

2023-08-08 16:55:33

4555

2023年發布的25個開源大型語言模型總結

大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數據集上進行訓練。它們可以用于各種任務，包括生成文本、翻譯語言和編寫不同類型的創意內容。今年開始，人們對開源LLM越來越感興趣。這些模型

2023-08-01 00:21:27

554

清華大學大語言模型綜合性能評估報告發布！哪個模型更優秀？

近日，清華大學新聞與傳播學院發布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領域的一大熱點。它們

2023-08-10 08:32:01

607

大型語言模型對數據存儲的影響是什么

OceanStor A310深度學習數據湖存儲，主要面向基礎/行業大模型數據湖場景，實現從數據歸集、預處理到模型訓練、推理應用的AI全流程海量數據管理。

2023-08-23 14:34:32

232

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

2023-08-25 09:06:57

885

大語言模型“書生·浦語”多項專業評測拔頭籌

最近，AI大模型測評火熱，尤其在大語言模型領域，“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯合打造的大語言模型“書生·浦語”（InternLM）也表現出色，分別在智源FlagEval

2023-08-25 13:00:02

315

盤古ai大模型怎么使用

盤古ai大模型怎么使用盤古AI大模型是一個基于自然語言處理的人工智能模型，是華為公司發布的超大規模預訓練模型，可以進行文本分析、問題回答、智能客服、智能寫作等多種應用。盤古ai大模型

2023-09-04 10:42:44

9386

虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

化。有Redis加持的大語言模型可應用于文檔檢索、虛擬購物助手、客戶服務助理等，為企業帶來益處。一、語言模型構件應用程序生成、理解和使用人類語言的能力正變得越來越重要，從客服機器人到虛擬助手，再到內容生成，人們對AI應用功能的需求橫跨眾多領

2023-09-18 11:26:49

316

SambaNova即將建立并運行自己的大型語言模型

隨著各大公司爭相加入人工智能的潮流，芯片和人才供不應求。初創公司SambaNova（https://sambanova.ai/）聲稱，其新處理器可以幫助公司在幾天內建立并運行自己的大型語言模型

2023-09-27 16:10:51

305

阿里云發布AI大模型，谷歌地熱項目助力綠色能源轉型

大家好，歡迎收看河套IT WALK第124期。今天，阿里云發布了具有720億參數的大型語言模型Qwen-72B，這一創新將助力多語言AI的發展，掀開了AI技術在全球溝通和數據處理方面的新篇章。谷歌

2023-12-01 20:15:01

529

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數（B+）的預訓練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

大規模語言模型的基本概念、發展歷程和構建流程

大規模語言模型（Large Language Models，LLM），也稱大規模語言模型或大型語言模型，是一種由包含數百億以上參數的深度神經網絡構建的語言模型，使用自監督學習方法通過大量無標注

2023-12-07 11:40:43

1141

大語言模型概述

在科技飛速發展的當今時代，人工智能技術成為社會進步的關鍵推動力之一。在廣泛關注的人工智能領域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發展歷史大語言模型是一類基于深度學習技術

2023-12-21 17:53:59

555

自動駕駛和多模態大語言模型的發展歷程

多模態大語言模型(MLLM) 最近引起了廣泛的關注，其將 LLM 的推理能力與圖像、視頻和音頻數據相結合，通過多模態對齊使它們能夠更高效地執行各種任務，包括圖像分類、將文本與相應的視頻對齊以及語音檢測。

2023-12-28 11:45:21

151

OpenVINO? 賦能千元級『哪吒』AI開發套件大語言模型 | 開發者實戰

作者：英特爾AI軟件布道師武卓博士前言在人工智能的飛速發展中，大語言模型，如Stable-Zephyr-3b，已成為研究和應用的熱點。這些模型以其強大的文本理解和生成能力在多個領域大放異彩。然而

2024-01-06 08:05:30

651

OpenVINO?助力谷歌大語言模型Gemma實現高速智能推理

大型語言模型（LLM）正在迅速發展，變得更加強大和高效，使人們能夠在廣泛的應用程序中越來越復雜地理解和生成類人文本。

2024-03-17 17:17:08

504

已全部加載完成

搜索歷史

淺析AI大型語言模型研究的發展歷程

評論