一、大模型發展情況
1、行業發展歷程
語言是人類表達和交流的突出能力,其在兒童早期發展并在一生中不斷演變。然而,除非配備強大的人工 智能(AI)算法,機器不會自然地掌握理解和使用人類語言的能力。要讓機器像人類一樣閱讀、寫作和交流一 直是一個長期的研究挑戰。從技術上講,語言建模(Language Model, LM)是提高機器語言智能的主要方法之 一。一般來說,LM 旨在對單詞序列的生成概率進行建模,以便預測未來(或缺失)單詞的概率。LM 的研究在 學界中得到了廣泛的關注,可以分為四個主要發展階段: 統計語言模型(SLM):SLM 是基于 20 世紀 90 年代興起的統計學習方法開發的。其基本思想是基于馬爾 可夫假設構建單詞預測模型,例如根據最近的上下文預測下一個單詞。具有固定上下文長度 n 的 SLM 也被稱為 n-gram 語言模型,例如二元和三元語言模型。SLM 已經被廣泛應用于提高信息檢索(IR)和自然語言處理(NLP) 任務的性能。然而,它們經常受到維度災難的影響:由于需要估計指數級的轉移概率,因此很難準確估計高階 語言模型。因此,專門設計的平滑策略,例如后退估計和 Good-Turing 估計已經被引入為緩解數據稀疏問題。
神經語言模型(NLM):NLM 通過神經網絡,例如遞歸神經網絡(RNNs),來描述單詞序列的概率。作為 一個顯著的貢獻,Y. Bengio 和 R. Ducharme 等人引入了單詞的分布式表示的概念,并構建了基于聚合上下文特 征(即分布式單詞向量)的單詞預測函數。通過擴展學習詞或句子有效特征的想法,已有研究開發了一種通用 神經網絡方法來為各種自然語言處理任務構建統一解決方案。此外,word2vec 提出了構建一個簡化的淺層神經 網絡,用于學習分布式單詞表示,這在各種 NLP 任務中被證明非常有效。這些研究開創了語言模型用于表示學 習(超越了詞序列建模)的應用,對 NLP 領域產生了重要影響。 預訓練語言模型(PLM):作為早期嘗試,ELMo 被提出來通過預訓練一個雙向 LSTM(biLSTM)網絡(而 不是學習固定的詞表示)來捕捉上下文感知的詞表示,然后根據特定的下游任務微調 biLSTM 網絡。此外,基 于高度可并行化的 Transformer 架構和自注意力機制,BERT 提出了通過在大規模無標注語料庫上設計特定的預 訓練任務來預訓練雙向語言模型。這些預訓練的上下文感知的單詞表示非常有效,可作為通用語義特征,大大 提高了 NLP 任務的性能。這項研究啟發了大量的后續工作,建立了“預訓練和微調”學習范式。在此范式下, 開發了大量關于 PLM 的研究,引入了不同的架構(例如 GPT-2 和 BAR)或改進的預訓練策略。在這個范式中, 通常需要微調 PLM 以適應不同的下游任務。
大型語言模型(LLM):研究人員發現,擴展 PLM(例如擴展模型大小或數據大小)通常會導致模型在下 游任務上具有更強的能力(即遵循縮放定律)。一些研究探索了通過訓練更大的 PLM(例如 175B 參數的 GPT-3 和 540B 參數的 PaLM)來達到性能極限。盡管縮放主要是在模型大小(具有類似的架構和預訓練任務)方面進 行的,但這些大型 PLM 顯示出與較小 PLM(例如 330M 參數的 BERT 和 1.5B 參數的 GPT-2)不同的行為,并 展現出令人驚訝的能力(稱為涌現能力)以解決一系列復雜任務。例如,GPT-3 可以通過上下文學習來解決少 樣本任務,而 GPT-2 做不好。因此,研究界為這些大型 PLM 創造了“大型語言模型(LLM)”的術語。LLM 的 一個顯著應用是 ChatGPT,它利用 GPT 系列的 LLM 適應對話,具有驚人的與人類對話的能力。大語言模型相 較于以往的語言模型具備顯著優勢,其具備優秀的上下文學習能力、可觀的知識容量、優秀的泛化性和復雜推 理能力。
大型語言模型研究的發展有三條技術路線:Bert 模式、GPT 模式、混合模式。其中國內大多采用混合模式, 多數主流大型語言模型走的是 GPT 技術路線,直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。到 2019 年 后,Bert 路線基本沒有標志性的新模型更新,而 GPT 技術路線則趨于繁榮。從 Bert 往 GPT 演化的過程中,模 型越來越大,所實現的性能也越來越通用。各類大語言模型路線各有側重,GPT 模式在生成類任務表現最優。 大型語言模型按照從數據到知識來劃分,數據可分為通用數據和領域數據,知識分為語言知識和世界知識。從 任務類型來劃分,大型語言模型可以分為單一任務和多任務、理解類和生成類;Bert 模式有兩階段(雙向語言 模型預訓練+任務 Fine-tuning),適用于理解類以及某個場景的具體任務,表現得“專而輕”。GPT 模式是由兩階 段到一階段(單向語言模型預訓練+zero-shot prompt),比較適合生成類任務、多任務,表現得“重而通”。T5 模式則將兩者的方法結合,包含有兩階段(單向語言模型預訓練+Fine-tuning)。根據當前研究結論,如果模型 規模不特別大,面向單一領域的理解類任務,適合用 T5 模式,而 GPT 模式在做生成類任務時的效果最好。綜 合來看,當前幾乎所有參數規模超過千億的大型語言模型都采取 GPT 模式。
如今,LLM 正在對人工智能社區產生重大影響,ChatGPT 和 GPT-4 的出現引發了重新思考人工智能通用智 能(AGI)的可能性。OpenAI 已經發表了一篇名為“Planning for AGI and beyond”的技術文章,討論了實現 AGI 的短期和長期計劃,而最近的一篇論文則認為 GPT-4 可能被視為一個早期版本的 AGI 系統。LLM 的快速進步 正在徹底改變人工智能的研究領域。在自然語言處理領域,LLM 可以在某種程度上充當通用語言任務求解器, 研究范式已經轉向使用 LLM。在信息檢索領域,傳統的搜索引擎正在被 AI 聊天機器人(即 ChatGPT)挑戰, 而 New Bing 則是基于 LLM 增強搜索結果的初始嘗試。在計算機視覺領域,研究人員試圖開發類似于 ChatGPT 的視覺語言模型,以更好地服務于多模態對話,而 GPT-4 通過集成視覺信息已經支持多模態輸入。這股新的技 術浪潮有可能會導致基于 LLM 的真實世界。例如,Microsoft 365 正在被 LLM(如 Copilot)賦能以自動化辦公 工作,而 OpenAI 支持在 ChatGPT 中使用插件來實現特殊功能。
起源于 Transformer 模型,ChatGPT 經過 5 年迭代成功出世。ChatGPT 的誕生經歷了從 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代過程,其具體發展歷程如下:(1)2017 年 6 月,Google 發布論文《Attention is all you need》,首次提出 Transformer 模型,成為 GPT 發展的基礎;(2)2018 年 6 月, OpenAI 發布論文《Improving Language Understanding by Generative Pre-Training》,首次提出 GPT 模型,即 GPT-1,模型參數量達 1.17 億;(3)2019 年 2 月,OpenAI 發布論文《Language Models are Unsupervised Multitask Learners》,提出 GPT-2 模型, 大模 型共計 48 層,參數量達 15 億;(4)2020 年 5 月,OpenAI 發布論文《Language Models are Few-Shot Learners》, 提出 GPT-3 模型, 參數量達 1750 億;(5)2022 年 2 月底,OpenAI 發布論文《Training language models to follow instructions with human feedback》,公布 Instruction GPT 模型,參數量達 13 億;(6)2022 年 11 月 30 日,OpenAI 推出 ChatGPT 模型,并提供試用。
2、大語言模型概覽
通常,大型語言模型(LLMs)是指包含數千億(或更多)參數的語言模型,它們是在海量文本數據上進行 訓練的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具體來說,LLMs 建立在 Transformer 架構之上,其中多頭 注意力層在一個非常深的神經網絡中堆疊。現有的 LLMs 主要采用類似的模型架構(即 Transformer)和預訓練 目標(即語言建模)作為小型語言模型。作為主要區別,LLMs 大量擴展了模型大小、預訓練數據和總計算量 (數量級)。它們可以更好地理解自然語言,并基于給定的上下文(即提示)生成高質量的文本。這種能力提升 可以部分地由縮放法則描述,即性能大致隨著模型大小的增加而顯著增加。然而,一些能力(例如上下文學習) 是不可預測的,只有當模型大小超過一定水平時才能觀察到。
百億參數量級別的模型:這類模型的參數規模除了 LLaMA(最大版本 65B 參數)和 NLLB(最大版本 54.5B 參數),大多在 10B 至 20B 之間。這一參數范圍內的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中,Flan-T5(11B 版本)可以作為研究指令微調的首選模型,因為它從三個方面 探索了指令微調:增加任務數量、擴大模型規模和使用思維鏈提示數據進行微調。CodeGen(11B)是一個為生 成代碼設計的自回歸語言模型,可用作探索代碼生成能力的候選模型,其提出了一個新的基準測試 MTPB,專 門用于多輪程序合成,由 115 個專家生成的問題組成,為了解決這些問題,需要大語言模型獲得足夠的編程知 識(例如數學、數組操作和算法)。對于多語言任務,mT0(13B)可能是一個比較好的候選模型,因為它在多 語言任務中使用多語言提示進行微調。此外,對于中文的下游任務,PanGu-α具有較好的表現,特別是在零樣 本或小樣本的設置下,該模型基于深度學習框架 MindSpore 開發,擁有多個參數版本(最大版本 200B 參數), 而最大的公開版本只有 13B 參數。此外,作為最近發布的模型,LLaMA(65B)在與指令遵循相關的任務中展現了卓越的性能。由于其開放性和有效性,LLaMA 引起了研究界的廣泛關注,許多工作致力于微調或繼續訓練 其不同的模型版本以實現新模型或工具的開發。百億參數量級別的模型通常需要數百甚至上千個 GPU 或 TPU。 例如,GPT-NeoX-20B 使用了 12 個微服務器,每個服務器配備了 8 個 NVIDIA A100-SXM4-40GBGPU,LLaMA 使用了 2048 個 A100-80GGPU。為了準確估計所需的計算資源,我們還是建議使用衡量涉及計算量的指標,例 如計算 FLOPS(每秒浮點數運算次數)。
據中移智庫統計,截止到 2023 年 4 月 18 日,國內至少有 19 家企業及科研院所涉足人工智能大模型訓練, 主要分為大型科技公司、科研院校和初創科技團隊三類。具體來看:百度、阿里等 12 家大型科技公司和中國科 學院、清華大學等 3 家科研院校已經提供開放測試,或有明確的推出時間計劃;字節跳動、搜狗創始人王小川、 美團創始人王慧文、創新工場創始人李開復等則是最近對外宣布組建團隊,進軍大模型研發領域。其中,字節 跳動旗下火山引擎于 4 月 18 日發布自研 DPU(數據處理器)等系列云產品,推出新版機器學習平臺,可以支 持萬卡級大模型訓練、微秒級延遲網絡,為預訓練模型提供強大的算力支持。
從大模型參數量看,科技大廠的參數量遠大于科研院所。科技大廠的大模型參數量較大:阿里通義千問大 模型參數在 10 萬億級以上、騰訊混元大模型和華為盤古大模型參數量均在萬億級以上、百度文心一言大模型參 數量在 2 千億級以上、京東言犀大模型的參數量為千億級;垂直行業科技企業已經上線的參數量普遍在千億級 以上;而科研院校大模型的參數量在千億級及以下。 從大模型應用方向看,大部分企業前期以內部應用為主,后續主要向 B 端企業拓展服務,預計少數企業將 在 C 端市場形成規模。目前,百度文心大模型、華為盤古大模型、中國科學院紫東太初大模型均在 B 端垂類市 場積累了標桿應用案例,騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業務。而在 C 端市場應用方面, 百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展,但目前只有百度文心一言大 模型正在進行友好客戶測試,阿里通義千問大模型則計劃在今年 9 月份進行公測,騰訊混元助手大模型則處于 計劃開發狀態。
3、產業發展趨勢
大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開 源或開放 API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低 成本的開發部署方案。大模型的核心作用是突破數據標注的困境,通過學習海量無標注的數據來做預訓練,拓 展整體模型前期學習的廣度和深度,以此提升大模型的知識水平,從而低成本、高適應性地賦能大模型在后續 下游任務中的應用。在實踐中,預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育,再借助 “預訓練+精調”等模式,在共享參數的情況下,根據具體應用場景的特性,用少量數據進行相應微調,即可高 水平完成任務。
大模型增強了 AI 技術的通用性,讓開發者以更低成本、更低門檻,面向場景研發更好的 AI 模型,助力普 惠 AI 的實現。但目前,基礎大模型距離大規模產業應用并成為產業基座還有很長的一段路要走,不僅需要有與 場景深度融合的大模型體系,也需要有支持全流程應用落地的專業工具和平臺,還需要開放的生態來激發創新; 三層之間交互賦能,才能形成良性循環的產業智能化生態共同體。我們看到 OpenAI 在開發 GPT 大模型的過程 中具有相似的思路,在不斷加強大模型本身性能的同時,將 GPT 打包成產品,對外提供 API 服務,相關開發者、 企業、學術機構以及高校都可以申請使用。開放后,大量開發者利用 API 開發出了各種各樣的功能,例如翻譯 機、網站生成器等;OpenAI 則通過用戶獲取了更多的行為數據,形成了對 GPT 的反哺。由此可見,“模型+工 具平臺+生態”三層共建有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。
生態層是基于大模型能力打造共創、共享社區。大模型“預訓練+精調”的新研發范式,讓 AI 在識別、理 解、生成等方面的能力實現突破,帶來深度語義理解、智能交互、內容生成的技術與產品變革動能。打造基于 大模型能力的生態,提供能力、工具、服務,連接供需,吸引更多的開發者和企業共創、共享,是釋放大模型 潛力的重要路徑。“模型+工具平臺+生態”的模式需要協同優化,拓寬人工智能技術落地的場景覆蓋廣度,加深 產業實際應用的深度,共同加速產業智能化,推動人工智能技術賦能千行百業,惠及千家萬戶。 “模型+工具平臺+生態”的模式需要協同優化,才能拓寬人工智能技術落地的場景覆蓋廣度,加深產業實 際應用的深度,共同加速產業智能化,推動人工智能技術賦能千行百業,惠及千家萬戶。
二、互聯網大廠模型
1、阿里
阿里以“通義大模型+飛天智算平臺+魔塔社區+行業應用”成為大模型全部環節的重要參與者。2019 年, 阿里達摩院開啟大模型研究。2022 年 9 月,阿里正式發布通義大模型,包括通義 M6 多模態模型、通義 AliceMind 自然語言處理模型、通義視覺計算機視覺模型。2022 年 11 月,阿里推出 AI 開源社區“魔搭”(ModelScope), 旨在打造下一代“模型即服務”的共享平臺,整合業界多方模型提供者,為開發者提供預訓練基礎模型和 API 接口。目前該平臺已有超過 300 個開源模型,包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外 部資源和能力。2023 年 4 月,阿里正式發布了“通義千問”產品,該產品基于 10 萬億級參數的大模型底座 M6-OFA, 未來將具有多輪交互及復雜指令理解、可多模態融合、支持外部增強 API 等多種能力。另外,阿里不僅擁有最 多的英偉達 A100 芯片,還擁有自研芯片含光 800、倚天 710 芯片,共同為人工智能大模型提供算力。
1.1 模型
阿里推出“通義”系列大模型,由統一底座層、通用模型層、行業模型層組成,不僅通用多種任務,又容 易落地應用,其中,應用在 B 端更有優勢。2022 年 9 月 2 日,阿里推出“通義”系列大模型,核心模型通過“魔 搭”社區向全球開發者開源開放,推出“飛天智算平臺”提升 AI 訓練效率。通義大模型通過打造業界首個 AI 統一底座并構建大小模型協同的層次化人工智能體系,解決了大模型通用性與易用性仍欠缺的難題。通義大模 型由統一底座層、通用模型層、行業模型層組成。其中,統一底座是基于 transformer 框架,由統一學習范式和 模塊化設計理念構成;通用模型層主要包括通義-M6、通義-AliceMind 和通義-CV 三大模型體系。由于低訓練能 耗優勢,通義大模型運行速度加快,例如,M6 在相同參數規模下的訓練能耗僅是 GPT-3 的 1%。目前,阿里通 義大模型已廣泛用于電商、設計、醫療、法律、金融等領域,助力其降本增效。而在落地應用方面,阿里原有 的產品資源導致其在 B 端更有優勢。阿里巴巴于 2023 年 4 月 7 日推出通義千問大語言模型內測。在 4 月 11 日 的 2023 阿里云峰會上,阿里巴巴 CEO 張勇表示阿里巴巴所有產品未來將接入通義千問大模型,進行全面改造, 包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等。阿里將結合 200 多萬的企業用戶和輻射的 2-3 億真實活躍 用戶資源,把文本作為核心場景鑲嵌到釘釘的三大入口,預計 2023Q3 推送給部分 B 端客戶的企業釘。
通義-M6 屬于多模態模型,覆蓋文本和語音模態,在短時間內高速發展,并實現架構、模態和任務統一。 通義-M6(英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer,6 個 M,簡稱 M6)包括圖 文生成,圖文理解,多模態對話,運動預測,運動生成,語音理解,語音生成,多模態檢測和分割。通義-M6 已經從 2020 年 6 月的 3 億參數基礎模型逐漸發展到 2021 年 10 月的 10 萬億參數全球最大預訓練模型再到 2022 年 1 月的業界首個通用統一大模型 M6-OFA。2020 年 1 月,阿里巴巴達摩院啟動中文多模態預訓練模型 M6 項 目,同年 6 月推出 3 億參數的基礎模型。2021 年 1 月,模型參數規模到達百億,已經成為世界上最大的中文多 模態模型。2021 年 3 月,千億參數模型 KDD2021 發布,與 10B 模型相比:①訓練損失減少 37%,在許多下游 任務實現 SOTA 結果;②混合精度提亮 90%的效率;③僅需 32 張 v100GPU 即可完成訓練。 2021 年 5 月,具 有萬億參數規模的模型正式投入使用,追上了谷歌的發展腳步。2021 年 10 月,M6 的參數規模擴展到 10 萬億, 成為當時全球最大的 AI 預訓練模型。 2022 年 1 月,業界首個通用的統一大模型 M6-OFA 發布。
AliceMind 是 NLP 的深度語言模型體系,以通用預訓練語言模型 StructBERT 為基礎,拓展到超大的領域模 型、多語言、多領域、多模態方向,可用于結構化、生成式、知識驅動等應用。AliceMind, 取名來自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo),是阿里達摩院機器智能技術實驗室傾 力打造的具有領先性和系統化的深度語言模型體系。AliceMind 的核心應用場景有:文本標簽分類、序列標注、 智能中文生成(如商品描述寫作推薦、小說續寫、古詩生成、菜譜生成等)、多模態問答(如 VQA,圖片問答)、 問答對自動生成等。Alicemind 已經服務阿里內部和外部客戶幾百個場景。
通義-視覺屬于 CV 模型,覆蓋圖像,視頻模態。通義-視覺大模型自下往上分為底層統一算法架構、中層通 用算法和上層產業應用,由兩個基礎模型構成,能夠實現視頻處理、視覺問答、視覺算數等多種算法,在電商、 交通、自動駕駛等領域發揮作用。
1.2 算力
2022 年,阿里云推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規模智算中心,為科研、 公共服務和企業機構提供強大的智能計算服務,可將計算資源利用率提高 3 倍以上,AI 訓練效率提升 11 倍, 推理效率提升 6 倍。 飛天智算平臺源于阿里巴巴內部廣泛實踐,也源于廣泛的產業智能實踐。目前,該平臺正在支撐建設兩座 超大規模智算中心。張北智算中心建設規模為 12 EFLOPS(每秒 1200 億億次浮點運算)AI 算力。在云端,張 北智算中心支撐 AI 預訓練大模型、AI Earth、數字人等前沿 AI 應用,將成為全球最大的智算中心。烏蘭察布智 算中心建設規模為 3 EFLOPS(每秒 300 億億次浮點運算)AI 算力,位于“東數西算”內蒙古樞紐節點,采用 自然風冷、AI 調溫等綠色技術,實現綠色低碳。
智能計算不同于通用型計算,需要海量數據對 AI 模式進行訓練,算力被損耗在數據遷移、同步等環節,千 卡以上規模的算力輸出最低往往僅有 40%左右。這導致了智能算力成本高昂,制約了產業發展。阿里云通過體 系化的技術創新,改變了智能計算的損耗難題,將千卡并行計算效率提升至 90%以上。在網絡技術上:阿里云 采用高性能 RDMA 網絡,實現端對端最低 2 微秒延遲。在通信技術上:阿里云自研的無阻塞通信技術,讓計算 過程中的數據交換速度提升了 5 倍以上。在存儲技術上:自研的 IO 加速器讓數據存取實現最高 10 倍性能提升。 在大數據 AI 開發層:阿里云提供分布式訓練框架,并通過 API 對分布式策略進行自動組合和調優,將訓練效率 提升了 11 倍以上。一站式 AI 計算開發服務:阿里云為用戶提供了一站式的通用推理優化工具,對算法模型進 行量化、剪枝、稀疏化、蒸餾等操作,將推理效率提升 6 倍以上。
阿里研發出高質量的大模型壓縮技術,快速匹配客戶計算資源。達摩院推出了大模型落地技術 S4(Sound、 Sparse、Scarce、Scale)框架,就包含了各種微調算法和模型壓縮算法,將稀疏化等技術應用到百億量級的大模 型中。基于這一技術,阿里的 270 億參數語言大模型 PLUG 在壓縮率達 99%的情況下,多項任務的精度損失 在 1%以內。這意味著百億參數大模型也可能在幾乎不損失精度的情況下進行稀疏化,最終實現單卡運行。
另一方面,基于“通用大模型+行業 knowhow”的方式迭代模型。通用大模型基于“大一統”技術,預訓 練時就已經具備了很強的理解和生成能力,只需再針對特定任務進行簡單微調。即先打造一個基礎大模型,再 繼續訓練得到領域模型,最后通過微調構建具體行業任務模型。通義大模型的架構設計將這一過程做得更快且 更高效。 目前,通過部署超大模型的輕量化及專業模型版本,通義大模型已在超過 200 個場景中提供服務,實現了 2%-10%的應用效果提升。比如,通義大模型在淘寶服飾類搜索場景中實現了以文搜圖的跨模態搜索、在 AI 輔 助審判中司法卷宗的事件抽取、文書分類等場景任務中實現 3~5%的應用效果提升、在開放域人機對話領域通 過建立初步具備“知識、情感以及個性、記憶”的中文開放域對話大模型實現了主動對話、廣泛話題、緊跟熱 點等對話體驗。
1.3 平臺
2022 年 11 月,阿里巴巴達摩院與中國計算機學會開源發展委員會共同推出人工智能模型開源社區“魔搭” (Model Scope),首批合作方還包括瀾舟科技、智譜 AI、深勢科技、中國科學技術大學等多家科研機構,旨在 打造下一代開源的模型即服務共享平臺,致力降低 AI 應用門檻。 ModelScope Library 為模型貢獻者提供了必要的分層 API,以便將來自 CV、NLP、語音、多模態以及科學 計算的模型集成到 ModelScope 生態系統中。所有這些不同模型的實現都以一種簡單統一訪問的方式進行封裝, 用戶只需幾行代碼即可完成模型推理、微調和評估。同時,靈活的模塊化設計使得在必要時也可以自定義模型 訓練推理過程中的不同組件。除了包含各種模型的實現之外,ModelScope Library 還支持與 ModelScope 后端服 務進行必要的交互,特別是與 Model-Hub 和 Dataset-Hub 的交互。這種交互促進了模型和數據集的管理在后臺 無縫執行,包括模型數據集查詢、版本控制、緩存管理等。當前,魔搭社區收錄模型共 775 個,其中中文模型 約 300 個,主要通過大模型幫助開發者提取、抽象知識,通過下游調優,將下游目標精確化,從而快速形成針 對行業的解決模型,解決實際應用問題。
1.4 應用
通義千問將陸續接入阿里巴巴生態的所有商業應用中,如企業通訊、智能語音助手、電子商務、搜索、導 航、娛樂等,從而進一步提升用戶體驗。憑借其中英雙語能力,通義千問將首先部署于阿里巴巴的數碼協同辦 公和應用開發平臺釘釘,以及物聯網智能家居終端機天貓精靈上。 通義千問賦能釘釘:讓職場溝通更高效。例如,釘釘將能夠總結會議紀要、將會議對話生成文字會議記錄、 撰寫電子郵件,以及僅用簡單輸入就可創建業務策劃或推廣方案初稿。用戶還可以透過上傳一張構思草圖的圖 像,轉瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈:與中國用戶更活潑生動地對話。例如,天貓精 靈將能夠為兒童創作和講故事、提供健康食譜和旅行建議,或推薦健身背景音樂等。 從應用的角度,在傳統 APP 中,因為各業務邏輯上的不同,比如淘寶與餓了么,飛豬與高德打車,APP 間 很難整合,強行整合反而會帶來產品使用復雜度大幅增加,用戶體 驗下降。但如果統一接入到通義千問中,參 考智能座艙的語音助手,其更強的理解能力將 使得交互邏輯變得非常簡單,用戶可以像詢問生活助手一樣詢問 通義千問來完成業務交互,不再需要學習操作邏輯,阿里生態中的家庭終端入口將實現統一。
圖像理解和“文生圖(text-to-image)”等多模態能力也將很快添加到通義千問模型中,為用戶提供更具吸 引力的 AI 功能。阿里云智能首席技術官周靖人表示:“語言大模型支持下的生成式 AI 正迎來全新的發展階段。 在新 AI 時代,我們憑借可靠的公有云基礎設施和久經驗證的 AI 能力,為客戶和廣大社會創造價值。我們正見 證 AI 發展的新范式,云和 AI 模型在其中發揮至關重要的作用。我們致力于讓這種范式更普惠,希望以此促進 各行各業的數智化轉型,助力提高企業生產力,擴展專業知識和能力,并通過創新釋放更大的機遇。”通義千問 基于阿里巴巴自研的“通義”預訓練模型框架,其統一底座包括“文生圖”、“文生短視頻”等 AI 模型。去年, 阿里云推出開源“模型即服務”(Model-as-a-Service)平臺“魔搭”(ModelScope),開放了數以百計 AI 模型, 包括面向全球開發者和研究人員的通義“文生圖”模型。目前“魔搭”小區擁有超過 100 萬活躍用戶,提供 800 多個模型,模型總下載量超 1600 萬次。
2、百度
百度是國內領先布局 AI 領域的科技大廠,也是我國最早發布知識增強大語言模型產品的企業,其在 AI 領 域累計投入研發總額超過千億元,專利數量連續五年居全國第一。2010 年,百度成立了人工智能自然語言處理 部,是中國最早布局 AI 的企業之一。2012 年,百度的 AI 戰略已經初步成型,陸續成立了深度學習研究院 IDL、人 工智能實驗室。2014 年,百度開始涉足智能駕駛領域,先后推出了深度語音系統、百度大腦、度秘、 Apollo 自 動駕駛平臺等技術體系,涉及自然語言處理、機器翻譯、語音、視覺、機器學習、深度學習、知識圖譜等核心技 術。2016 年 9 月,百度在百度世界大會上正式對外開放集視覺、語音、自然語言處理、知識圖譜、深度學習等 技術于一體的百度大腦,并且每隔一段時間就會進行迭代,合作伙伴可以直接調用百度 AI 的核心能力。同年,百 度主導的深度學習框架 PaddlePaddle(飛槳)上線,涵蓋了深度學習核心訓練和推理框架、基礎模型庫、端到端開發 套件和豐富的工具組件,填補了中國開源深度學習框架的空白。2017 年開始,百度就開始整合人工智能體系,在 2019 年下半的一次架構調整后,王海峰開始統管 AIG、ACG 和 TG 三塊業務,百度 AI 的打法也進一步清晰,云計 算被定義為智能基礎設施的底座,同時將人工智能和底層技術能力灌輸到底座中,進而成為賦能各行各業的“動力 工廠”。2020 年,百度智能云確立了“以云計算為基礎,以人工智能為抓手,聚焦重要賽道”的新戰略,選擇智慧城 市、智慧金融、智慧醫療、智能制造、智慧能源等為重要賽道,并屢屢簽下數億級別的訂單。2021 年初,百度再 次夯實了自身的人工智能戰略,從“AI+云”的整合過渡到云智一體的新階段。2022 年底,百度智能云推出了全 棧自研的 AI 基礎設施“百度 AI 大底座”,其包括“芯片–框架–模型”三層技術棧,在各個層面都擁有關鍵自 研技術和領先產品,分別對應昆侖芯、飛槳(PaddlePaddle)、文心大模型。百度 AI 大底座對各層的技術棧進行 了全棧融合、系統優化,完成了云和智的技術一體化建設,可以實現對大模型訓練的端到端優化和加速。
2.1 模型
文心大模型架構分為“基礎+任務+行業”三級模型。基礎大模型聚焦技術方向的技術挑戰、通用性、泛化 性探索;任務大模型深入理解任務特性,構建預訓練算法、訓練數據集,打造緊貼任務的模型能力;行業大模 型深度融合行業數據與知識特性,構建更適配行業的模型底座。基礎大模型支撐任務與行業大模型的建設,任 務和行業大模型結合真實場景與數據反哺基礎大模型優化。目前,文心大模型已經建設了 36 個大模型,其中基 礎大模型包含:NLP(自然語言處理)大模型、CV(計算機視覺)大模型、跨模態大模型,任務大模型包含對 話、搜索、信息抽取、生物計算等多個典型任務,行業大模型包含與來自 8 個行業的頭部企業或機構共建的 11 個行業大模型。
2.1.1 文心 NLP 大模型
文心 NLP 大模型發展歷程有三條主線,1)是文心 ERNIE,百度發布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型,并且在 SuperGLUE 和 GLUE 都超過了人類排名第一的水平,以及基于層次化多任務學習的文心 ERNIE 3.0 Zeus。同時為了進一步降低落地門檻,出現了效率高、泛化能力強的輕量級大模型,比如文心 ERNIE 3.0 Tiny。2)對話生成大模型文心 PLATO 的發布,對話的流暢性得到了很大提升。3)文心 ERNIE 在跨模態、 跨語言以及長文檔、圖模型等方面獲得了非常好的發展,在各種榜單尤其是視覺語言相關的榜單上獲得第一百, 比如文心 ERNIE-ViLG 2.0,該模型可以生成語義更相關、質量更高的圖片。 文心一言整合了過往關鍵技術,在文心知識增強大模型 ERNIE 及對話大模型 PLATO 的基礎上研發,基于 飛槳深度學習平臺訓練和部署,其關鍵技術包括,有監督精調、人類反饋的強化學習、提示、知識增強、檢索 增強和對話增強。前三項是這類大語言模型都會采用的技術,在 ERNIE 和 PLATO 模型中已經有應用和積累, 文心一言中又進行了進一步強化和打磨,做到了更懂中文、更懂中國文化、更懂中國的使用場景;后三項則是 百度已有技術優勢的再創新。
ERNIE 3.0 系列模型(ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus)有四大特點: 從大規模知識圖譜和海量無結構數據中學習,突破異構數據統一表達的瓶頸問題。同時輸入大規模圖譜和 相應無標注、無結構化的文本,通過文本的 Mask,能夠推理這個知識圖譜里的關系,從而使這個模型具有知識 推理能力。
融合了自編碼和自回歸的結構,使模型既可以做語言理解,也可以做語言生成。在做語言理解時,模型擁 有上下文相關的信息,從而做語言理解。在生成的時候,由于模型只看到了上文,所以只能基于自回歸的方式 學習。因此,在一個框架中同時能夠擁有語言理解和語言生成兩種能力非常重要。
基于持續學習框架,從不同任務中持續學習。不斷從不同的數據和知識上學習,而不斷地構建新任務,比 如文本分類任務、問答任務、完形填空任務等。大模型從不同任務中持續學習,使能力得到持續提升,擁有更 多知識。 為了進一步學習特定任務的相關知識,ERNIE 3.0 Zeus 提出了層次化提示(Prompt)學習技術。在數據構 造時通過層次化的 Text Prompt 庫將百余種不同的任務統一組織成自然語言的形式,和海量無監督文本以及百 度知識圖譜聯合學習。此外訓練過程引入了層次化的 Soft Prompt 建模了不同任務之間的共性與特性,進一步 提升了模型對于不同下游任務的建模能力。此外,通過持續學習對百余種不同形式的任務數據,實現了任務知 識增強,顯著提升了模型的零樣本/小樣本學習能力。
PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一項關鍵 技術,主要作用是多輪對話,其發展經歷了三個階段。1)2019 年 10 月,百度首次發布了 PLATO 對話模型, 其是全球首個大規模變量對話模型,刷新開放領域對話效果。2)2020 年 7 月,發布 PLATO-2,其是基于課程 學習的對話生成模型,進一步刷新了開放領域對話效果。2020 年 10 月,PLATO-2 斬獲全球對話技術競賽 DSTC-9 五項冠軍。3)2021 年 9 月,發布 PLATO-XL,其是首個百億參數中英對話預訓練生成模型。 PLATO 在預訓練模型之上,對對話能力進行增強,讓對話具有人格屬性,包括人設穩定性、知識增強、跨 模態對話、情感撫慰、主動對話、長期記憶等。同時,PLATO 也已應用到百度的各個產品線,比如:小度聊天, 百度推出的虛擬人對話,領域對話。同時,百度也通過 UNIT 平臺,對外輸出對話技術。
2019 年,百度首次發布了 PLATO 對話模型,首次創新性的提出了“隱變量”的概念。開放型對話具有一 對多的特點,用戶輸入 query 后,系統可以有多種多樣的回復。每個回復有不同的性質,比如,輸入“我得健 身了,不能放縱了”。可以給用戶建議、詢問、質詢、質疑等類型的回復。除了這種關系外,還會有對話背后的 場景信息,這會導致開放型對話一對多的關系,這會導致模型學習很困難。如果針對一個輸入,有特定的輸出, 模型的學習會相對簡單。但當模型的輸出不確定,甚至有多種多樣的輸出,這就會導致模型學習復雜。針對這 一問題,我們提出隱變量建模輸入和輸出的映射信息。它不是一個顯式的建模,而是一個隱式建模輸入和每一 個輸出的對應關系。這就會讓原來的輸入和輸出一對多的關系,轉化為一對一的關系。通過在輸入增加 soft token 的方式,讓 transformer 建立輸入和輸出之間的關系。Transformer 不是獨立的編碼器和解碼器的方式,我們選擇 了使用編碼器和解碼器共享參數的方式來實現即 unified transformer。預訓練分為兩個階段,先根據輸入和輸出 預測隱變量的分布,然后從分布中采樣隱變量,將其加入輸入中再去學習根據隱變量和輸入預測回答的能力。
2021 年,百度推出 PLATO-XL,將模型的規模推進至 110 億,模型有 72 層。同時引入了 role embedding 的特征來感知角色信息。在對話上文中,既有用戶的輸入,也有系統的輸入,使用 role embedding 來區分用戶 和系統的角色。在原有 transformer 模型三個特征,token、sentence type、position 的基礎上,模型新增了 role embedding 的信息,能讓模型更好的掌控角色。
2.1.2 文心 CV 大模型
文心 CV 大模型基于領先的視覺技術,利用海量的圖像、視頻等數據,為企業和開發者提供強大的視覺基 礎模型,以及一整套視覺任務定制與應用能力。百度文心發布了 VIMER 系列的 CV 大模型,視覺自監督預訓練 大模型 VIMER-CAE 創新性地提出“在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,在圖像分類、 目標檢測、語義分割等經典下游任務上刷新 SOTA 結果。在此之上,多任務學習模型 VIMER-UFO 2.0 可抽取輕 量級小模型,兼顧大模型效果和小模型推理性能,單模型覆蓋 20 多個 CV 基礎任務,在 28 個公開測試集上效 果刷新 SOTA。端到端文檔 OCR 表征學習預訓練模型 VIMER-StrucTexT 2.0 解決了訓練數據匱乏和傳統 OCR+NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于各行各業行的文檔、卡 證、票據等圖像文字識別和結構化理解。 VIMER-CAE 基于自監督圖像掩碼建模原理,創新性地提出“在隱含的編碼表征空間完成掩碼預測任務” 的預訓練框架,對編碼模塊和解碼模塊進行分離,通過編碼模塊對輸入的圖像塊進行特征表達,并利用隱式上 下文回歸和解碼模塊對輸入圖像的掩碼塊進行特征表達恢復,在圖像掩碼建模問題上提高了預訓練模型的圖像 表征能力。基于 VIMER-CAE 的預訓練模型在下游各類圖像任務上取得了明顯的效果提升,其中在目標檢測、 實例分割、語義分割等任務的指標上達到最優水平。
VIMER-UFO 2.0 技術方案的主要內容包括:1)All in One——行業最大 170 億參數視覺多任務模型,覆 蓋人臉、人體、車輛、商品、食物細粒度分類等 20+ CV 基礎任務,單模型 28 個公開測試集效果 SOTA;2) One for All——首創針對視覺多任務的超網絡與訓練方案,支持各類任務、各類硬件的靈活部署,解決大模型參 數量大,推理性能差的問題。 針對大模型的開發和部署問題,VIMER-UFO 給出了 One for All 的解決方案,通過引入超網絡的概念,超網絡由眾多稀疏的子網絡構成,每個子網絡是超網絡中的一條路徑,將不同參數量、不同任務功能和不同精度 的模型訓練過程變為訓練一個超網絡模型。訓練完成的 VIMER-UFO One for All 超網絡大模型即可針對不同的 任務和設備低成本生成相應的可即插即用的小模型,實現 One for All Tasks 和 One for All Chips 的能力。
VIMER-UFO 2.0 單個模型一套參數,在不進行下游 fine-tuning 的情況下,在 28 個主流的 CV 公開數據 集上取得了 SOTA 的結果。同時,盡管 VIMER-UFO 2.0 大模型參數量達到了 170 億,得益于 Task-MoE 稀 疏結構,每個任務推理時只需激活部分參數,計算量相當于 6 億參數模型規模,加速比接近 30 倍。
VIMER-StrucTexT 2.0 是端到端文檔 OCR 表征學習預訓練模型,首次創新性地提出“單模態圖像輸入、 多模態表征學習”預訓練框架,僅通過單一文檔圖像的輸入,就能讓模型充分捕獲語義和結構信息。經過大規 模文檔圖像數據充分學習后的預訓練模型,顯著提高文檔理解全景應用任務效果,包括文檔圖像分類、文檔版 式分析、表格結構解析、文檔 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同時解決了訓練數據匱乏和傳 統 OCR + NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于各行各業行文檔、 卡證、票據等圖像文字識別和結構化理解。
VIMER-UMS (Unified Multi-Source Pre-training for Product),是百度基于海量的互聯網商品圖文信息提 出的多源信息統一建模的商品圖文表征預訓練模型,也是行業首個統一視覺單模態與多源圖文模態表征的商品 多模態預訓練模型。針對圖文多模態建模中模態信息殘缺問題,通過構建視覺特征與多源圖文對比的多任務學 習框架,實現統一圖文表征預訓練同時覆蓋商品視覺單模態、多模態識別與檢索任務,可以顯著改善商品視覺 檢索和商品多模態檢索體驗。
VIMER-UMS 基于端到端 Transformer 訓練方式,通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼, 提供多源商品信息的統一表達結構。由于現有主流多模態預訓練方法依靠語言作為弱監督關聯信號,視覺表征 能力存在退化現象。為了解決該問題,VIMER-UMS 通過建立視覺與多源圖文對比多任務預訓練,實現視覺特 征、圖文特征的統一增強表征。
2.1.3 文心跨模態大模型
文心·跨模態大模型基于知識增強的跨模態語義理解關鍵技術,可實現跨模態檢索、圖文生成、圖片文檔 的信息抽取等應用的快速搭建,落實產業智能化轉型的 AI 助力。 ERNIE-ViL 是業界首個融合場景圖知識的多模態預訓練模型。ERNIE-ViL 將場景圖知識融入到視覺-語言 模型的預訓練過程,學習場景語義的聯合表示,顯著增強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺 常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世 界最好效果。并在多模態領域權威榜單視覺常識推理任務(VCR)上登頂榜首。 基于文本中解析出的場景圖,ERNIE-ViL 提出了三個多模態場景圖預測任務:物體預測,隨機選取圖中的 一部分物體,然后對其在句子中對應的詞進行掩碼和預測;屬性預測,對于場景圖中的屬性-物體組合,隨機選 取一部分詞對其中屬性詞進行掩碼和預測;關系預測,對于場景圖中的物體-關系-物體三元組,對其中的關系詞 進行掩碼和預測。
ERNIE-ViL 在場景圖里加入知識,通過它的文字信息去構建場景圖,使得模型能夠理解圖中細粒度的語義。 舉例而言,下圖中有 6 個人,但只有 5 個人運動員,因為其中一個是裁判,模型要能依據運動場景進行判斷, 才能給出正確答案。
文心 ERNIE-ViLG 2.0 采用基于知識增強算法的混合降噪專家建模,是全球首個知識增強的 AI 作畫大模 型,也是目前全球參數規模最大的 AI 作畫大模型,在文本生成圖像公開權威評測集 MS-COCO 和人工盲評上 均超越了 Stable Diffusion、DALL-E 2 等模型,取得了當前該領域的世界最好效果,并在語義可控性、圖像清 晰度、中國文化理解等方面展現出了顯著優勢。 文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴散模型學習,強化文圖生成擴散模型對于語義的 精確理解,以提升生成圖像的可控性和語義一致性。同時,ERNIE-ViLG 2.0 首次引入基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網絡,從而實現更加細致的降 噪任務建模,提升生成圖像的質量。
2.2 算力
百度早在 2011 年就開始布局 AI 芯片領域,并逐步建立 AI 技術的全棧布局,拓展了全面的 AI 應用場景。 同時,擁有數億用戶規模的產品百度搜索,以及服務各個行業的百度智能云等。同時,百度依托昆侖芯科技前 身為百度智能芯片及架構部,昆侖芯是百度自主研發的云端通用 AI 芯片,目前,昆侖芯 1、2 代已實現量產, 并達到數萬片規模部署。昆侖芯 3 代將于 2024 年初量產。依托深厚技術沉淀,昆侖芯科技核心團隊于 2017 年 發布 100%自研、面向通用 AI 計算的芯片核心架構昆侖芯 XPU,并從 AI 落地的實際需求出發,按照復雜前沿的人工智能場景需求來迭代架構。2018 年至今,昆侖芯云端 AI 芯片已經迭代兩代,并實現數萬片的規模落地。 其中,昆侖芯 1 代已經在百度搜索引擎、小度等業務中部署超過兩萬片,昆侖芯 2 代也于 2021 年 8 月實現量產, 并已在互聯網、智慧工業、智慧城市、智算中心、智慧交通、科研等領域實現規模化部署,服務來自千行百業 的不同客戶。
針對大模型,昆侖芯持續打磨部署優化方案,領跑產業落地。昆侖芯已將大模型的 Transformer 相關優化 技術沉淀為重要基建,優化后的性能比原有方案提升 5 倍以上,壓縮顯存 30% 以上。以文生圖大模型為例, 昆侖芯已跑通一條端到端優化、規模落地之路。AI 繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數級 增加,同時,圖像生成需要循環采樣數十次,產業落地動輒需要高昂成本的部署集群,嚴重阻礙了 AIGC 模型 大規模商業化落地。2022 年第四季度,昆侖芯聯合客戶,基于飛槳 PaddlePaddle 發起了端到端聯合優化項目。 在 2-3 周內,項目組快速完成端到端優化,最終實現輸入文本后 2 秒出圖的優化效果,性能提升近 8 倍。 目前,昆侖芯 AI 加速卡 R200 已在該客戶的大模型場景完成規模部署,性能數據全面超越同系列主流推 理卡,基于昆侖芯 AI 加速卡 R200 高效運算與推理能力,綜合優化方案,在 dpm-25steps 算法下,利用昆侖 芯 AI 加速卡 R200,生成 1024*1024 圖像時的推理速度為 10.89 iters/s,相比同能力的主流推理卡快 20%; 昆侖芯 AI 加速卡 R200 擁有 32G GDDR6 顯存,為大規模參數提供更大的存儲容量、更高帶寬的內存訪問、更穩定的性能,生成更高分辨率的圖片,為用戶提供高性價比服務。
2.3 平臺
百度飛槳是我國首個自主研發的產業級深度學習開源開放平臺,飛槳在平臺功能上具備豐富的產業級模型 庫、端到端開發套件、工具組件,以及零門檻 AI 開發平臺 EasyDL 和全功能 AI 開發平臺 BML、學習與實 訓社區 AI Studio,高效支持深度學習模型開發、訓練、部署等全流程,降低 AI 技術應用門檻;在生態上,飛 槳推動構建了全方位的生態體系,包括開發者生態、教育生態、企業生態、硬件生態,通過生態共享共創加速 產學研用協同創新發展。
飛槳官方精選產業算法新增 100 多個,累計超過 600 個,覆蓋計算機視覺(PaddleCV)、自然語言處理 (PaddleNLP)、推薦(PaddleRec)、語音(PaddleSpeech)四大應用領域,超過 95%的用戶使用模型庫。包含經過產業 實踐長期打磨的主流模型,42 個精度與性能平衡的產業級 PP 系列特色模型,以及文心系列大模型。
飛槳硬件生態持續繁榮,包括 Intel、NVIDIA、Arm 等諸多芯片廠商紛紛開展對飛槳的支持,并主動在開 源社區為飛槳貢獻代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等 CPU 進行深入融合適配,并結合麒麟、統 信、普華操作系統,以及昆侖芯、海光、寒武紀、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度 融合,與浪潮、中科曙光等服務器廠商合作形成軟硬一體的全棧 AI 基礎設施。當前已經適配飛槳的芯片或 IP 廠商超過 40 家,處于業界領先地位。2022 年 5 月,飛槳聯合硬件生態伙伴發布“硬件生態共創計劃”,在聯合 研發、資源共享、聯合授權、培訓賦能等多個維度全面合作。2022 年 11 月,飛槳“硬件生態共創計劃”成員 已經從 13 家增加至 28 家。
飛槳平臺服務規模快速滲透,技術能力創新卓著。截至 2022 年 11 月,飛槳已凝聚國內規模最大的開發者 群體(535 萬)、服務 20 萬企事業單位,基于飛槳平臺創造出 67 萬個 AI 模型,超越 TensorFlow 和 PyTorch 成 為國內服務規模最為廣泛的框架工具,不斷夯實 AI 工業大生產的基礎,有力推動了我國實體經濟的高質量發展。 百度飛槳從 2016 年經歷多年積累、沉淀、探索后,創新成果已經逐步涌現。飛槳 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等開發套件發布后多次登頂 Papers with Code 和 Github 趨勢榜單,引起 業界高度關注。此外,針對國內市場需求特點,飛槳提供了大量經過真實應用場景有效驗證的高精度、便捷部 署的官方模型庫,相關算法及 API 更加強調對中文情境的支持優化,能夠廣泛支持國產硬件平臺,技術能力優 勢逐步凸顯,相較于 TensorFlow 和 PyTorch 成為更滿足國內技術應用需求的開發框架。
2.4 應用
百度文心大模型積極拓展內外部應用,目前面向公眾和企業用戶同時進行開放測試。 內部應用層面,文心大模型已經率先應用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內部 重要產品上。百度在 5 月 25 日的移動生態大會上展示了全新的 AI 搜索體系。1)極致滿足:搜索結果不再是簡 單的文本段落,而是多模態的,包括相關的圖片和視頻,省去了用戶的瀏覽和總結時間。對于那些相對簡單但 沒有現成答案的問題,AI 可以展示邏輯推理和計算能力,直接給出可用的結果。對于開放的多答案問題,百度 AI 搜索可以整合多個符合要求的答案,并列出引用和選擇依據,滿足用戶需求。此外,搜索引擎還能自動定位 到視頻中相關內容的位置,方便用戶查看。根據介紹,現在百度搜索每天有 70%的問答需求能在首條搜索結果 中得到滿足,這一比例在半年前只有 40%,這種改進進一步提升了需求,現在每天有超過 3000 萬次的新增問答 需求。2)AI 伙伴:除了提供豐富準確的搜索結果,百度還提出了全能的"AI 伙伴",使人們能夠以最直接的方 式獲取人工智能的能力。通過 AI 伙伴,人們可以使用自然語言或語音作為輸入,獲得準確詳細的搜索結果。 AI 伙伴不僅會在生成答案時標出重點并列出引用鏈接,還能調用其他工具和服務完成任務,并接受進一步追問 或指正。AI 伙伴還可以根據用戶意圖生成圖片、進行文案寫作,在不同任務中扮演具體的角色,如旅行時可以充當導游,寫作業時可以充當老師。3)AIBOT:以往人們對搜索引擎結果的準確性有所顧慮,因為無論 AI 算 法有多準確,始終只是概率統計的結果,并不能代表專家意見。為解決這個問題,百度推出了全新的 AIBOT。 類似于 ChatGPT 的插件,AIBOT 通過與第三方技術提供商的合作,使搜索可以自動接入特定能力。目前亮相的 AIBOT 覆蓋了創作、商業、機構、服務和品牌等多個領域,它們可以利用專業領域知識直接回答用戶的問題。
百度文心圍繞大模型產業應用的不同研發環節,面向各階段不同技術、業務背景的開發者或用戶,打造系 列工具平臺與場景化產品。 大模型套件:百度文心推出新一代預訓練范式的 NLP 算法定制開發工具集 ERNIEKit,面向 NLP 工程師, 提供全流程大模型開發與部署工具集,端到端、全方位發揮大模型效能。包括數據標注與處理、大模型精調、 大模型壓縮、高性能部署、場景化工具五大模塊能力; AI 開發平臺:百度 AI 開發以雙平臺模式驅動,面向應用開發者或業務專家提供零門檻 AI 開放平臺 EasyDL, 面向 AI 算法開發者提供全功能 AI 開發平臺 BML。EasyDL 使用百度文心 NLP、CV、跨模態大模型作為訓練基 座,利用少量數據即可獲得理想的模型效果,具有零門檻、高精度、低成本數據、超靈活部署四大核心優勢。 BML 深度融合文心大模型,提供 Notebook 建模、預置模型調參、可視化建模、模型產線建模、Pipeline 建模、 實驗管理等功能,兼具性能和性價比;
3、騰訊
騰訊構建了“太極機器學習平臺+混元大模型”,同時騰訊啟動了“混元助手”知識增強大語言模型項目。 2016 年,騰訊成立了 AI Lab 實驗室。2022 年 4 月,騰訊對外披露了混元大模型,涉及自然語言處理、計算機 視覺、多模態等多個領域。騰訊自研的太極機器學習平臺為混元大模型提供算力,可支持 10TB 級模型訓練、 TB 級模型推理計算能力等。 騰訊 AI Lab 是騰訊的企業級 AI 實驗室,于 2016 年 4 月在深圳成立,目前有 100 多位頂尖研究科學家及 300 多位應用工程師。2017 年公司提出了“Make AI Everywhere” 的戰略愿景,和“基礎研究—場景共建—能力開 放”的三層 AI 戰略架構。作為衡量機構研究實力的重要標準,成立四年多來,騰訊 AI Lab 的基礎研究成果已 覆蓋 CVPR、ACL、ICML、NIPS 及 Nature Communications 等國際頂級 AI 學術會議或期刊,發表論文超過 460 篇,位居國內企業前列。截止 2020 年 3 月,騰訊擁有 AI 全球專利超過 6500 個,中國專利超過 5000 個。
3.1 模型
2022 年 4 月,騰訊首次披露了混元 AI 大模型研發進展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具權威的跨模態視頻檢索數據集榜單中取得第一名,實現跨模態檢索領域的大滿貫。當 月,騰訊混元 AI 大模型又在中文語言理解評測基準 CLUE 分類榜中取得第一名,分數突破了 80.000 分,接 近人類語言理解能力,刷新該榜單歷史記錄。這是混元 AI 大模型在斬獲跨模態檢索榜單大滿貫后,取得的又 一突破性進展,展現了該模型在自然語言處理上的實力。 2022 年 5 月,騰訊混元 AI 大模型在 CLUE 總排行榜、閱讀理解、大規模知識圖譜三個榜單同時登頂, 一舉打破三項紀錄。據了解,CLUE 總榜由分類任務和閱讀理解任務構成。騰訊混元 AI 大模型在一個月內先后實現分類任務、閱讀理解雙佳績,最終以 84.730 的成績取得總榜第一。之后混元 AI 大模型又在多模態理 解領域國際權威榜單 VCR(Visual Commonsense Reasoning,視覺常識推理)中登頂,兩個單項成績和總成績 均位列第一。這是繼在跨模態檢索領域實現大滿貫、CLUE 自然語言理解分類榜及 CLUE 總榜登頂后,混元 AI 大模型的又一重大突破,展現了其在多模態理解領域的強大實力。
3.2 算力
騰訊發布大模型算力集群 HCC 大幅提速模型訓練。大模型進入萬億參數時代,單體服務器提供的算力有限, 需要將大量服務器相連,協同優化單機算力、網絡架構和存儲性能,打造大規模、分布式的高性能計算集群。 以新一代集群為標志,基于自研芯片、星星海自研服務器和分布式云操作系統遨馳,騰訊云正通過軟硬一體的 方式,打造面向 AIGC 的高性能智算網絡,持續加速全社會云上創新。 2023 年 4 月 14 日,騰訊云發布新一代 HCC 高性能計算集群,其采用最新一代星星海自研服務器,搭載 NVIDIA H800 Tensor Core GPU,并基于自研網絡、存儲架構,帶來 3.2T 超高互聯帶寬 TB 級吞吐能力和千萬 級 IOPS。實測結果顯示新一代集群算力性能較前代提升 3 倍。2022 年 10 月,騰訊完成首個萬億參數的 AI 大 模型——混元 NLP 大模型訓練。在同等數據集下,將訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓 練時間將進一步縮短至 4 天。 服務器單機性能是集群算力的基礎,新一代集群的單 GPU 卡在不同精度下,支持輸出最高 1979 TFlops 的 算力。針對大模型場景,星星海自研服務器采用 6U 超高密度設計,相較行業可支持的上架密度提高 30%;利 用并行計算理念,通過 CPU 和 GPU 節點的一體化設計,將單點算力性能提升至更高。
此外,新一代集群集成了騰訊云自研的 TACO 訓練加速引擎,對網絡協議、通信策略、AI 框架、模型編譯 進行大量系統級優化,大幅節約訓練調優和算力成本。騰訊太極機器學習平臺自研的訓練框架 AngelPTM,也 已通過騰訊云 TACO 提供服務,幫助企業加速大模型落地。依托分布式云原生的治理能力,騰訊云智算平臺提 供 16 EFLOPS 的浮點算力,規模業界領先。通過騰訊云的大模型能力和工具箱,企業可結合產業場景數據進行 精調訓練,提升生產效率、快速創建和部署 AI 應用。
3.3 平臺
騰訊自研搭建了業界一流的太極機器學習平臺,致力于讓用戶更加聚焦業務 AI 問題解決和應用,一站式的 解決算法工程師在 AI 應用過程中特征處理,模型訓練,模型服務等工程問題。結合對用戶的習慣理解和功能沉 淀,太極在產品層提供數據/特征工程,模型訓練,模型服務三塊。閉環了用戶離線訓練到在線服務的應用,包 含了不同場景下的數據訪問訴求,不同訓練模型的訴求,在線服務可靠性的訴求。算法框架&組件層提供了機 器學習、深度學習核心組件。可支持 10TB 級模型訓練、TB 級模型推理和分鐘級模型發布上線,擴展集群規模 則可支持更大的模型訓練和推理,為實際業務提供大模型的情況下,同時具有很高的性能,達到行業領先水平。 太極機器學習平臺采用了分布式參數服務器架構,其是業界第一梯隊企業們公認的最佳選擇。這種架構的 特點是,存儲模型參數和執行模型計算,這兩種任務在分別的服務器上運行,增加更多服務器就可以支持更大、 計算需求更高的模型。太極機器學習平臺中的參數服務器系統 AngelPS 也是騰訊自研的成果,現在不僅可以承 載 10TB 級模型的訓練,對多維特征融合、復雜模型結構等更高級、更前瞻性的功能也有優秀支持。同時太極 機器學習平臺還具備超大模型在線推理服務的能力。推理計算方面,不僅支持常規的 CPU 計算,還支持復雜模 型的 GPU 計算加速;存儲上,根據在線推理模型大小,自適應選擇小模型本地內存加載和大模型 AngelPS 遠程 查詢的部署策略;在線服務運營上,平臺具備多級容災能力,臟模型秒級回滾能力,以及完備的系統和業務運 行實時指標監控和報警系統。
太極 AngelPTM 的設計目標是依托太極機器學習平臺,為 NLP、CV 和多模態、AICG 等多類預訓練任 務提供一站式服務。其主要由高性能訓練框架、通用加速組件和基礎模型倉庫組成。太極 AngelPTM 主要有三 大部分:1)高性能訓練框架:包含大模型訓練框架 ZeRO-Cache,高性能 MOE 組件,以及 3D 并行和自動 流水并行策略;2)通用加速組件:包含可減少顯存并提高精度的異構 Adafactor 優化器,可穩定 MOE 半精 度訓練 loss 的 Z_loss 組件,選擇性重計算組件和降低通信代價的 PowerSGD 組件;3)基礎模型倉庫:包含 T5、BERT、GPT 以及 Transformer 等基礎模型。
3.4 應用
騰訊 AI Lab 的 AI 技術也廣泛應用在微信、QQ 和騰訊覓影等上百款產品。行業應用上,實驗室研發出的 圍棋 AI「絕藝」屢獲國際賽事冠軍,是科技賦能國粹文化的代表;與王者榮耀研發的策略協作型 AI「絕悟」達 到職業水平,代表國際水準的研究能力。布局前沿多模態數字人技術,探索數字內容生成的新可能。實驗室支 持的國家級 AI+醫療標桿產品「騰訊覓影」與「騰訊醫典」也不斷取得技術突破,「騰訊覓影」從醫療影像延伸 到輔助診療等功能,截止 2018 年 10 月,項目已落地 100 多家全國三甲醫院,服務患者近 40 萬人。2020 年, 實驗室發布自研智能顯微鏡及 AI 藥物發現平臺「云深智藥」,并初步探索 AI+農業智慧溫室項目。
AI + 生命健康:在醫療領域,騰訊 AI Lab 與北京協和醫院共同發布了具有完全自主知識產權的便攜式智 能化手術導航系統,實現高精度、便攜式、低成本等特點,就像給臨床醫生的手術配上了 GPS,輔助醫生精準 定位隱藏在腦組織中的病變。該系統在協和神經外科已成功開展了 50 余例臨床試驗,涉及腦出血、垂體腺瘤、 膠質瘤、腦膜瘤、顱咽管瘤等多種疾病,臨床初步應用取得成功。騰訊 AI Lab 還與邁瑞共同研發了全自動外 周血細胞形態學分析儀,并完成了創新醫療器械特別審查申請公示,正式進入國家藥品監督管理局創新通道, 成為國內體外診斷行業首個進入該程序的 AI 類產品。該分析儀通過創新性的形態學檢測方案,以優異的指標 及效率,實現白血病等高發惡性腫瘤的早期篩查輔助臨床診斷。
AI+內容:騰訊 AI Lab 持續探索 AI 與人協同合作的內容生成技術,此前相繼發布了文本理解系統 TexSmart、交互翻譯系統 TranSmart 等,并且創新性地探索了 AI 在游戲電競、直播等領域的應用。 智能寫作方面,22 年 4 月,發布智能寫作助手「文涌(Effidit)」,用技術助力文思泉涌。初版本融合了知 識抽取、文本理解、文本生成、大規模預訓練模型、經典語言模型、搜索等多項技術積累,提供多維度文本補 全,多樣化文本潤色等核心功能,及例句推薦、文本糾錯、云輸入法、學術專業版等完整的輔助寫作能力。22 年 12 月,文涌 2.0 版本發布,新版本增加了風格化文本續寫等眾多功能,共包含「文本補全」、「智能糾錯」、 「文本潤色」、「超級網典」四個模塊,其中「文本補全」和「超級網典」旨在幫助寫作者在創作時開闊思路、 提供彈藥,而「智能糾錯」和「文本潤色」則是重在提升創作后的文本水平和質量。部分功能目前已接入搜狗 輸入法 PC 端(「智能汪仔」)和 QQ 瀏覽器移動端。
4、字節
相對于阿里、百度、騰訊均已經推出大模型及布局,字節目前仍未公布內部架構、產品體系及大模型的最 新進展。字節的 AI 布局可以追溯到 2016 年成立的字節 AI LAB 的成立,AI Lab 對自身的定位是作為公司內部 的研究所和技術服務商,為平臺輸出海量內容提供 AI 技術支持。AI Lab 最初成立的時候聚集了馬維英、李航、 李磊等大牛,此后馬維英離開團隊回到學界,目前阿里 M6 大模型的前帶頭人楊紅霞已加入字節 AI Lab(人工 智能實驗室),參與語言生成大模型的研發。 字節目前大模型仍處于發展階段,現以旗下云平臺火山引擎在算力、平臺和生態端布局為主。大模型團隊 由字節搜索部門牽頭,搜索業務部門、AI Lab 和 AML(應用機器學習)團隊均調任部分人馬支援,目前團隊規 模在 40 人左右,圖片大模型團隊由產品研發與工程架構部下屬的智能創作團隊牽頭;團隊負責人間接和直接匯 報對象,則均為 TikTok 產品技術負責人朱文佳。根據調研情況,字節目前在仍在做模型調優,計劃 23 年 6-9 月達到 3.5 模型相當的水平,9 月之后語言模型可以同步做發布和多模態模型訓練,語言模型發布至少要到 9 月 之后。后面會基于當前的語言模型,做多模態的模型,多模態相對來說難度會更大,至少要等到 24 年 3-4 月。
4.1 模型
字節在 AI 方面的積累主要集中在機器翻譯、智能語音、視頻圖像和多模態四個領領域。字節跳動的研究成 果包括非自回歸模型 DA-Transformer、端到端語音到文本翻譯模型 ConST、多顆粒度的視覺語言模型 X-VLM、 圖片和文本統一生成模型 DaVinci 等。 在機器翻譯方面,字節旗下火山翻譯團隊 2022 年在 SC22、ACL2022、ICML2022 等頂會發表學術成果 10 余篇,受邀參加了英偉達 GTC 2022 全球 AI 開發者大會等知名技術論壇,申報翻譯技術專利 15 項,榮獲中國 專利優秀獎在 WMT2022 的非洲語向任務上奪得桂冠。目前,火山翻譯提供 9 大領域翻譯,其中包括但不限于 人工智能、互聯網行業生物醫療、科學技術、金融財經,支持共 114 個語向的翻譯,其中包括伊博語、亞美尼 亞語等小語種。其中,字節和清華聯合發布了 DA-Transformer,DA-Transformer 在機器翻譯上首次達到了 Transformer 同樣的精度,而處理的速度提高了 7~14 倍。DA-Transformer 不僅可以用于機器翻譯,而且可以用 于任意的序列到序列任務。
在多模態方面,2022 年 3 月,字節發布的 text2image 模型實現了文生圖能力,實驗數據顯示,其效果比 VQGAN-CLIP 要真實,尤其是泛化能力還比不少用大量文本-圖像數據對訓練出來的模型要好很多。2022 年 5 月,字節跳動 AI Lab Research 團隊提出了 X-VLM,首次提出學習多粒度的視覺和語言對齊。實驗證明,這種 預訓練方法十分高效,模型規模無需很大,預訓練數據無需很多,僅 216M 參數量的 X-VLM 就能在廣泛的多模 態任務上獲得了十分優秀的表現,例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。 目前,X-VLM 在字節跳動的真實應用場景上超過了業界常用的多個模型,完成了上線,服務于如今日頭條等 業務。相關論文已被 ICML 2022 接收。
4.2 算力
2023 年 4 月 18 日,火山引擎在春季火山引擎 FORCE 原動力大會上正式發布自研 DPU 等系列云產品,并 正式推出智能推薦-高速訓練引擎,支持 100GB 至 10TB 以上超大模型的高效訓練,采取軟硬一體優化設計等, 讓面向推薦場景的高速訓練更快,成本更低。 火山引擎智能推薦-高速訓練引擎具備軟硬一體、細粒度算子優化、分布式訓練和推理三大特點,1)軟硬 一體化:針對關鍵場景的超大模型,火山引擎智能推薦-高速訓練引擎提供了全 GPU 方案,可以支持 100GB-10TB 的超大模型的高速訓練,綜合 ROI 是 CPU 的 5 倍;覆蓋更多場景的模型,提供了 GPU+CPU 混訓方案,綜合 ROI 是 CPU 的 2 倍;2)細粒度算子優化:針對搜索、推薦和營銷場景,優化細粒度算子,使得在模型推理的 過程中有更好的性能表現。在訓練時,通過算子融合并精細調優,性能提升 20%;在推理時,通過算子優化, 性能提升 40%;3)分布式訓練和推理:智能推薦-高速訓練引擎為了保障系統的穩定性,支持訓練和推理的全 方位容錯,當某一個節點故障時,可以快速恢復;支持分布式推理,包括多分片、多副本,從而保證線上服務 的高可用。
4.3 平臺
2022 年 7 月,火山引擎正式發布機器學習平臺,達到 0 碎片的極致性能和優秀的開發體驗,火山引擎機器 學習平臺解決方案已在金融、零售、能源、教育等行業落地,幫助更多企業不斷縮短智能業務研發周期,提高 模型上線效率和 GPU 使用率,并依靠定制化的智能模型實現業務增長。 火山引擎在數據管理、資源管理、流程和模型三大領域具備核心優勢。1)在數據管理場景下,火山引擎機 器學習平臺可通過結構化、非結構化數據庫、數據協同標注與版本化管理、多租戶安全等,保護企業數據資產, 為機器學習、深度學習開發助力;2)在資源管理場景下,機器學習平臺可通過 GPU、CPU 調度,模型分布式 訓練,資源動態分配,彈性線上推理服務等,提供機器學習模型開發所需要的算力。無論是在字節跳動內部還 是在外部客戶,該平臺都已實現萬級 GPU 算力資源的池化管理、調度和共享;3)對于流程和模型管理,機器 學習平臺提供 DevOps 能力。不同于一般業務,機器學習應用的發布包含了所有規則和處理邏輯,在應用上線 后,由于需要周期性地進行更新、優化迭代,模型本身對外部數據有強依賴,這使得整個 DevOps 更復雜。火 山引擎機器學習平臺構建了 DevOps 流水線,實現從數據處理、模型訓練、模型評估、模型發布的持續集成, 提升端對端業務上線效率。平臺也支持通過超參數自動搜索、多模型自動比對與評估、模型版本化管理、線上 模型運維等,降低模型開發和維護門檻。
4.4 應用
火山引擎的 AI 場景產品主要包括智能創作、智能體驗以及智能營銷,目前已服務數百家客戶,分別在視頻 創作、互動創作、直播短視頻構建中推動客戶業務增長。在內容視頻化和互動趣味化的大趨勢下,火山引擎創 作與體驗場景提供了從算法到平臺的全域解決方案,在 AI 底層算法的支持下,通過全品類的正版素材和特色化 的創作工具,快速完成視頻、特效、虛擬形象、XR 等創新內容。不管是企業用戶還是個人用戶,人人都可擁有 創作比較專業的短視頻的能力。 智能創作云是火山引擎發布的面向企業的創作 AI 產品,智能創作云包括眾多 AI 創作工具,比如圖文轉視 頻能力,用戶只需輸入文字即可生成視頻,AI 通過理解文字內容,搭配適合的圖片、音樂和轉場等,快速生成 一支專業的視頻;比如視頻模板,剪同款功能就是把優質視頻內容抽象成腳本,用戶只要會打開攝像頭拍攝, 就有了專業拍、剪視頻的能力,極大降低了創作門檻,保障了內容生產的質量。
字節旗下云服務平臺云服務平臺火山引擎提供有關音視頻的智能美化特效。智能美化特效基于自主研發的 特效 SDK,提供多項圖像渲染和算法,提供貼紙特效/美化濾鏡/人像智能/計算機視覺基礎檢測識別等功能,用 于拍照工具、直播、短視頻、在線教育、體感游戲等場景。目前,智能美化特效擁有超過 200 個自研算法、具 備小于 2ms 的人臉檢測速度,提供超過 90 萬個抖音同款特效貼紙和濾鏡。 此外,字節在內部的相關產品持續引入 AI。2022 年 5 月,字節推出海綿樂隊 App,海綿樂隊是一款手機端 的便攜式音頻創作工具,在實現傳統的錄音、效果器同時,引入大量 AI 智能來協助創作,降低使用難度,提高 創作趣味和效率。2023 年 4 月 12 日,飛書宣布將推出智能 AI 助手“My AI”, My AI 包括自動匯總會議紀要、 創建報告、優化和續寫文字內容等。在飛書 App 中,My AI 也可以通過對話形式,幫助用戶自動創建日程、搜 索公司內部知識庫等功能。飛書還表示,My AI 能做的遠不止于此。未來,更強大的智能助手,也會讓工作中 的人們更強大。
三、商業模式
當前全球大模型產業落地仍處于早期探索階段。一方面,研發機構在大模型方面的技術研發已較為成熟, 如算法架構、預訓練和微調策略、計算并行加速等,但對落地場景不夠熟悉,沒有形成完善的商業化模式,需 要與下游場景企業合作建立大模型商業模式;另一方面,絕大多數下游場景的企業對大模型沒有形成基本的概 念和認知,同時也沒有能夠支撐模型微調的算力,以及定制、二次開發模型的人力資源和技術實力。 此輪基于 ChatGPT 的大模型浪潮興起伊始,結合我國 AI 產業鏈與競爭格局現狀,一種判斷是:基于大模 型的通用和泛化性提高,未來手握通用基礎大模型的巨頭企業會逐漸侵蝕垂直領域廠商業務。這種壓力長期來 看的確存在,但大模型與產品結合,尤其在非檢索或開放域交互等場景中,需要依賴垂直領域數據和行業 know-how、應用場景和用戶數據反哺、一站式端到端工程化能力等。在此窗口期,垂直領域與應用層廠商應積 極將大模型能力整合入自己的技術棧,服務于產品功能優化,建立“數據飛輪”壁壘。在下游豐富的基于大語 言模型、AIGC 應用開發需求的影響下,還將分化出一類工具型或平臺型廠商,主要提供基于各類大模型的開 發平臺服務,幫助客戶實現便捷的 AIGC 應用開發與落地。
1、API 模式
API 模式指的是由大模型的研發主體(如科研機構)對完成的模型文件進行封裝,將模型在各類任務上的 推理能力封裝成統一的應用程序接口,對外提供服務的模式。下游企業可以獲得這些接口,并按照自身的業務 需求,將接口作為可以調用的代碼庫、程序包等,植入已有的應用和服務中,讓大模型的 API 為整個程序進行 賦能。API 模式的主要優勢在于降低了企業應用大模型的成本。API 將大模型內部的所有技術細節進行封閉, 企業不需要過多了解模型的技術細節,也不需要投入額外的開發人力和算力資源進行大模型調優。
2、PaaS 模式
大模型作為一種技術,將其集成在 AI 平臺上,對外提供能力和服務,成為一些技術實力雄厚企業的選擇。 這種模式中,企業的主要落地產品的 PaaS 平臺、開發工具、AI 服務等組合而成的套件,大模型是套件中的一 個重要的組成部分,但不是全部。用戶購買或使用平臺的過程中,可以利用平臺提供的工具,對大模型進行開 發和應用,集成于自有的體系中,為自身業務提供服務。需要注意的是,和 API 模式不同,PaaS 服務模式提供 的是包括模型在內的一系列工具和平臺,用戶不能單獨獲得模型的能力。同時,用戶雖然可以通過 PaaS 模式, 獲得對模型更高的開發和控制權,但往往需要為此付費,這為 PaaS 服務的供應商帶來了一定的利潤。
以微調對話領域模型為例,英偉達提供了具體的部署流程。用戶首先可以從云上下載已預訓練好的模型, 并結合場景數據集,利用 TLT 工具,對數據進行處理、增強,并對預訓練模型進行微調,微調后利用平臺進行 測評。待測評結果符合實際應用要求后,可導出模型,進行下一步的使用(如后續用 RIVA 進行模型的應用).。 目前 TLT 平臺已經支持 BERT、Megatron 等預訓練語言模型,以及計算機視覺領域多種任務的模型。英偉達稱, 在 TLT 平臺的支持下,相比非遷移學習,用戶只需要使用十分之一的數據進行訓練,模型部署效率提升 10 倍。 TLT 平臺本身是免費的,支持英偉達旗下的 A100、V100GPU 等硬件。 國內也有大型科技企業推動 PaaS 模式的發展。例如,2020 年 7 月,百度發布了 NLP 開發與服務平臺文心, 其依托 ERNIE 預訓練技術,為開發者提供 NLP 定制與應用能力。文心平臺可通過公有云(如 EasyDL-NLP、 BML 等)和私有化兩種方式為產業提供服務。用戶不需要關注計算開發環境的搭建和算法實現的底層實現細節。 對于對場景要求更高的用戶,百度提供全流程、可深度定制、可私有化部署的文心開發套件。用戶可以獲得模 型技術選型、本地化訓練、離線部署等深度解決方案。截至目前,文心平臺已累計支持 4 萬開發者,及涵蓋各 行各業的 200 多家企業客戶。
3、MaaS 模式
MaaS 商業模式是以算力平臺、模型倉庫及數據集倉庫為基礎的,倡導零門檻的模型體驗,提供簡單快速的 模型使用、完整的模型定制鏈路及模型云端部署服務,主要提供給 AI 的愛好者、開發者、研究員以及部分中小 型轉型企業的商業化模型使用。 “模型→單點工具→應用場景”是 MaaS 產業結構的核心。大模型是 MaaS 的最重要基座,例如 OpenAI 提供的訪問執行各種自然語言任務的 GPT-3、將自然語言翻譯成代碼的 Codex、創建和編輯原始圖像的 DALL? E;單點工具是大模型應用的補充,例如 ChatGPT 是在 GPT-3.5 模型的基礎上,產生出的能“對話”的 AI 系統; 內容寫作工具 Jasper 它基于開源的 GPT-3 模型,它使用人工智能為用戶編寫內容等;各種應用場景是大模型應 用的變現,例如商湯科技的書生(INTERN)大模型可以讓 AI 模型處理多樣化的視覺任務;又如 GPT 模型系列 作為基于互聯網可用數據訓練的文本生成深度學習模型,應用場景持續擴展。
而除了模型本身進行訂閱收費以外,嵌入其他產品獲得引流式收入也是模式之一,例如,微軟宣布推出高 級付費版 Microsoft Teams Premium,這項高級服務將在 6 月份每月收費 7 美元,然后在 7 月份恢復到正常的 10 美元,訂閱者可享用由 OpenAI GPT-3.5 提供支持的“智能回顧(Intelligent Recap)”這一重要功能,該功能將 提供自動生成的會議記錄、推薦任務和個性化標亮;微軟旗下 Dynamics 365 產品線宣布旗下客戶關系管理軟件 Viva Sales 也將集成 OpenAI 的技術,通過人工智能幫助銷售人員完成許多繁雜且重復的文字工作。雖然,GPT-3.5 并未在 Viva Sales 中作為單獨的收費項目存在,但是 Viva Sales 作為 CRM 產品本身每月就收費 40 美元,假設 有 1000 萬客戶是因為 GPT-3.5 而選購 Viva Sales,則代表 GPT-3.5 每年能夠為微軟帶來 48 億美元的收入。
其它的收費模式還包括不同的 Model 應對不同的客戶需求和客戶定價,如 OpenAI 在推出 ChatGPT 以前, 其主要收入來源于對外部客戶開源自身大模型,通過提供 API 接口調用來收費。例如用于創建和編輯原始圖像 的 DALL·E 模型,Mixtiles 利用 DALL·E API 來創建和構建能引起情感共鳴的藝術品(圖片);數字平臺 CALA 同樣調用了 DALL·E 模型,使得 CALA 的智能工具允許用戶從自然文本描述或上傳的參考圖像中生成新的設計 理念圖。可以看出,相較于 Mixtiles,CALA 對于 DALL·E 模型的應用更偏商業,對于細節的要求也更高,那在 這種情況下,CALA 和 Mixtiles 兩者調用 DALL·E 模型的收費肯定是有所不同的。 總結來說,不同的 Model 應對不同的客戶需求和客戶定價肯定也會有所不同,客戶的要求越高,使用的模 型越好,那么大模型的收費也將會更高。
編輯:黃飛
?
評論
查看更多