★AI Agent;人工智能體,RPA;大語言模型;prompt;Copilot;AGI;ChatGPT;LLM;AIGC;CoT;Cortex;Genius;MetaGPT;大模型;人工智能;通用人工智能;數據并行;模型并行;流水線并行;混合精度訓練;梯度累積;Nvidia;A100;H100;A800;H800;L40s;混合專家;910B;HGX H20;L20 PCIe;L2 PCIe
AI Agent是一種智能實體,能夠感知環境、決策并執行動作,具有獨立思考和執行任務的能力。與傳統大模型相比,AI Agent能夠獨立思考目標并采取行動,而不僅僅依賴于提示。AI Agent基于大模型,具備上下文學習、推理和思考的能力,因此是通往AGI(通用人工智能)的主要研究方向。
AI Agent由大模型、規劃、記憶和工具使用四個部分組成,其中大模型是核心,提供推理和規劃等能力。近期在AI Agent領域涌現出多個研究成果,包括在游戲、個人任務助理和情感陪伴方面表現優異的產品。雖然目前AI Agent研究主要集中在學術和開發者領域,商業化產品較少,但在企業環境中,AI Agent建立對某一垂直領域的認知的場景更為適合。一些初創公司已經在以企業級Agent平臺為核心進行產品研發,未來幾年內預計將有更多以Agent為核心的產品涌現。
當然,AI Agent的訓練離不開算力,服務器作為一個強大的計算中心,為AI Agent提供算力基礎,支持其進行復雜計算和處理大規模數據的任務,包括模型訓練、推理和處理大規模數據集。
藍海大腦大模型訓練平臺基于開放加速模組高速互聯的AI加速器,提供強大的算力支持。配置高速內存且支持全互聯拓撲,滿足大模型訓練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數據并行的通信需求。強大的液冷系統熱插拔及智能電源管理技術,當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統的CPU進入ULFM(超低頻模式,以實現最低功耗)。致力于通過“低碳節能”為客戶提供環保綠色的高性能計算解決方案。主要應用于深度學習、學術教育、生物醫藥、地球勘探、氣象海洋、超算中心、AI及大數據等領域。
大模型引領前行:AI Agent
自主智能體在AGI之路的探索
一、AI Agent:探索 AGI 的真實形態
1、什么是 AI Agent?
AI Agent是一種智能實體,具備感知環境、決策和執行動作的能力。與傳統人工智能不同,AI Agent通過獨立思考和調用工具逐步完成給定目標,實現自主操作。雖然AI Agent在人工智能和計算機領域成為研究熱點,但由于數據和算力限制,實現真正智能的AI Agents仍面臨挑戰。
Hyperwrite 研發的 AI Agent 個人助理插件實現自動預訂航班機票
AI Agent與大語言模型和RPA的區別在于,具備獨立思考和行動的能力,相較于大模型需要基于明確的prompt進行交互,而RPA則僅能在預設流程下工作。AI Agent的工作僅需目標就能獨立思考并采取行動,拆解任務并根據反饋自主創建prompt。與RPA相比,AI Agent能處理未知信息和復雜環境,使其成為更靈活的自主智能體。
AI Agent 的工作流程
2、AIAgent 的最終發展目標:通用人工智能 AGI
AI Agent并非新概念,早在多年前已有研究,如2014年AlphaGo和2017年OpenAI Five。這些AI能通過實時信息分析規劃操作,滿足AI Agent基本定義。當時主要應用在具有對抗性和明顯輸贏場景的游戲中,采用強化學習進行訓練。然而,通用性在真實世界中難以實現。
近年來,大語言模型的崛起推動AI Agent相關研究的快速發展。這些模型基于龐大的訓練數據集,包括豐富的人類行為數據,為模擬類人交互提供堅實基礎。大模型的快速發展使其具有上下文學習、推理和思維鏈等類似人類思考方式的能力,成為AI Agent的核心。
大模型的能力涌現現象
盡管大模型在全球范圍內引起熱潮,但隨著時間推移,人們對大模型實際能力的認識更為清晰。大模型仍存在幻覺、上下文容量限制等。因此,AI Agent成為新的研究焦點。通過讓大模型結合一個或多個Agent,構建具備自主思考、決策和執行能力的智能體,繼續探索通往AGI之路。
研究 AI Agent 的最終目標是通向 AGI
AI Agent的發展可以類比為自動駕駛的L4階段,盡管已取得一定進展,但距離真正的實現仍存在一定差距。據甲子光年報告,與人類的協作程度可以與自動駕駛的不同級別相媲美。對話機器人(如ChatGPT)可視為L2級別,人類向AI尋求意見,但AI不直接參與工作;副駕駛工具(如Copilot)相當于L3級別,人類和AI共同協作完成工作,AI生成初稿,人類進行修改;而AI Agent則相當于L4,人類給定目標,Agent自行完成任務規劃和工具調用。然而,類似于L4級別的自動駕駛尚未真正實現,AI Agent雖易于想象和演示,但在真實應用中仍存在一定挑戰,其真正的應用前景仍是未知。
將 AI 和人類協作的程度類比自動駕駛的不同階段
3、應用兩大方向:自動化(自主智能體)、擬人化(智能體模擬)
AI Agent的發展在基于大語言模型(LLM)的應用中呈現出兩大主要趨勢:
1)自主智能體
這類AI Agent致力于實現復雜流程的自動化。當賦予自主智能體一個目標時,能夠自主創建、執行、調整任務,并根據目標優先級不斷重復這個過程,直至完成目標。由于對準確性要求較高,通常需要外部工具輔助,以減少大模型不確定性。
2)智能體模擬
這一類Agent致力于更加擬人和可信的表現。分為強調情感和情商的智能體,以及注重交互的智能體。后者通常在多智能體環境中操作,在預期之外展現出場景和能力。由于具備多樣性的特點,使其能夠充分利用大模型生成不確定性。
當然這兩個方向并非完全獨立,相反自動化和擬人化作為AI Agent的兩大核心能力將同步發展。隨著底層模型的不斷成熟和對不同行業的深入探索,AI Agent的適用范圍和實用性有望進一步擴大。
二、AI Agent 拆解:大模型、規劃、記憶與工具
基于大型語言模型的AI Agent可分為四個主要組件:大型語言模型(LLM)、規劃、記憶和工具使用。
由 LLM 驅動的自主智能體系統的架構
1、大模型+規劃:Agent 的“大腦”,通過思維鏈能力實現任務分解
Agent可以有效引導和激發LLM的邏輯推理能力。當模型規模足夠大時,LLM本身就具備推理能力,在簡單推理問題上展現出良好的表現。然而,在處理復雜推理問題時,LLM有時可能會出現錯誤,導致用戶無法獲得理想回答。這主要是因為prompt不夠合適,無法充分激發LLM的推理能力。通過追加輔助推理prompt,可以顯著提高LLM在推理問題上的效果。在《Large language models are zero-shot reasoners》一文中的測試中,通過在提問時追加“Let’s think step by step”prompt,數學推理測試集GSM8K上的推理準確率從10.4%提升到40.7%。作為智能體Agent能夠自主創建適當的prompt,更好地引發大型模型的推理能力。
通過調整 prompt 可以提升大模型推理效果
在處理復雜任務時,Agent可以調用LLM的思維鏈進行任務分解和規劃。在AI Agent架構中,任務分解和規劃過程依賴于大模型能力。大模型具有思維鏈(CoT)能力,通過提示模型“逐步思考”,充分利用計算時間,將復雜任務逐步分解為更小、更簡單的步驟,從而降低每個子任務難度。
AI Agent 的反思框架
通過反思與自省框架,Agent不斷提升任務規劃能力。其具有對過去行為的自我評估機制,從中學習并改進未來步驟,以提高最終結果質量。自省框架允許Agent修正決策和改正之前錯誤,實現性能不斷優化。在任務執行中,嘗試和錯誤是常態,而反思和自省在這個過程中發揮著核心作用。
2、記憶:用有限的上下文長度實現更多的記憶
AI智能體系統的輸入成為系統記憶,與人類的記憶模式一一對應。記憶是獲取、存儲、保留和檢索信息的過程,包括感覺記憶、短期記憶和長期記憶。對于AI Agent系統而言,與用戶的交互生成內容被視為Agent的記憶。感覺記憶是學習嵌入表示的原始輸入,包括文本、圖像或其他模態;短期記憶是上下文受到有限上下文窗口長度限制;長期記憶可看作是Agent在工作中查詢外部向量數據庫,通過快速檢索進行訪問。目前,Agent主要利用外部長期記憶完成復雜任務,如閱讀PDF、聯網搜索實時新聞等。任務與結果存儲在記憶模塊中,當信息被調用時,存儲在記憶中的信息將回到與用戶的對話中,創造更加緊密的上下文環境。
人類記憶與 AI Agent 記憶映射
向量數據庫通過將數據轉化為向量形式,解決大模型海量知識存儲、檢索和匹配問題。向量成為AI理解世界的通用數據形式,而大模型為獲取豐富語義和上下文信息需要龐大訓練數據,導致數據量呈指數級增長。通過Embedding方法,向量數據庫將非結構化數據如圖像、音視頻等抽象為多維向量,實現結構化管理,從而實現高效數據存儲和檢索過程,為Agent提供“長期記憶”。同時,將多模態數據映射到低維空間,大幅降低存儲和計算成本,向量數據庫存儲成本較存儲在神經網絡中的成本低2到4個數量級。
Embedding技術將非結構化數據轉化為計算機可識別的語言,如地圖對地理信息的Embedding。通過Embedding技術,將文本等非結構化數據轉化為向量后,使用數學方法計算兩個向量之間的相似度,從而實現對文本的比較。向量數據庫基于向量相似度計算實現強大的檢索功能,通過相似性檢索特性,找出近似匹配結果,為模糊匹配提供支持,適用于更廣泛的應用場景。
不同文本在向量空間中的相似度計算
3、工具:懂得使用工具才會更像人類
AI Agent與大模型的一個顯著區別在于,AI Agent能夠利用外部工具拓展模型能力。與人類使用工具相似,為大模型配備外部工具,使其完成原本無法處理的任務。例如,ChatGPT的缺陷是其訓練數據截止到2021年底,無法直接回答關于更新知識的問題。雖然OpenAI為ChatGPT添加插件功能,允許調用瀏覽器插件以獲取最新信息,但仍需用戶明確指定是否需要使用插件,不能實現完全自然回答。相比之下,AI Agent具備自主調用工具能力,對于每個子任務,Agent會判斷是否需要調用外部工具來完成,并將外部工具返回信息提供給LLM,以繼續下一步子任務。此外,OpenAI在6月為GPT-4和GPT-3.5引入函數調用功能,使開發者能夠描述函數,并讓模型智能地選擇輸出函數調用參數的JSON對象。
GPT 模型函數調用功能示例
以HuggingGPT為例,將模型社區HuggingFace和ChatGPT緊密結合,構建成一個綜合AI Agent。在2023年4月,浙江大學和微軟聯合團隊推出HuggingGPT,這一系統能夠連接不同的AI模型來解決用戶提出的各種任務。HuggingGPT整合HuggingFace社區中的眾多模型和GPT,可應對24種任務,包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉換以及文本視頻轉換。其工作流程分為四步:
1)任務規劃:通過使用ChatGPT獲取用戶的請求;
2)模型選擇:基于HuggingFace中函數描述選擇適當模型,并使用選中模型執行AI任務;
3)任務執行:執行由第2步選擇模型完成的任務,將結果總結成回答返回給ChatGPT;
4)回答生成:利用ChatGPT整合所有模型推理,生成回答并返回給用戶。
HuggingGPT 的工作步驟流程
AI Agent智探視野
應用領域深入剖析與龍頭公司
一、自主智能體:自動化,新一輪生產力革命
1、軟件新范式,非大模型玩家亦有機會
自主智能體力圖實現復雜流程自動化,被類比為自動駕駛的L4階段,在任務執行中不僅能夠減輕人類負擔,還需外部輔助和監督。這一新型智能體有望引發軟件行業的交互方式和商業模式變革。交互方式方面,Agent決策、規劃、執行等環節要更深刻理解用戶需求,需要設計更智能架構解決問題。商業模式上,服務內容收費可能會向按token收費轉變,對Agent功能實用性提出更高要求。雖然基座大模型能力重要,但在實際應用中,自主智能體架構設計、工程能力、垂類數據質量同樣至關重要。在企業應用中,準確度和效率是關鍵指標,同時也存在對低門檻定制Agent的需求。
2、實驗性 VS 實操性,單智能體 VS 多智能體
行業內對自主智能體的探索可分為實驗性VS實操性、單智能體VS多智能體兩大類。實驗性項目如AutoGPT雖可能在運行中出錯,但對開發者提供創意、思路和經驗的啟發。實操性應用更注重與實際場景的適配。在單智能體和多智能體之間,單智能體適用于簡單任務,在C端應用上有潛力,但在B端場景中面臨評估不足、任務繁重和大模型幻覺等挑戰,而多智能體在解決復雜工作上具有更突出優勢。
1)單智能體1:實驗性項目
AutoGPT
AutoGPT是由游戲開發者Toran Bruce Richards于2023年3月開源的實驗性AI Agent項目。該項目在GitHub上線5個月,星標數量已超過149K,成為代表性實驗性項目,對后續Agent發展有啟發意義。AutoGPT可以根據用戶目標自動生成提示,利用GPT-4和多種工具API執行多步驟項目,無需人類干預。使用多個外部工具,包括克隆GitHub倉庫、啟動其他Agent、發言、發送推文和生成圖片等,同時支持各種矢量數據庫、LLM提供商、文本到圖片模型和瀏覽器。該項目應用場景主要涉及辦公和開發領域,包括自動化流程、市場研究、代碼編寫和網站/App開發等,但實際效果一般。
代碼開發類 GPTEngineer
GPT Engineer是由Anton Osika于6月11日推出的開源代碼生成工具,基于GPT模型,根據用戶的指示生成高質量代碼,包括創建新函數、修復代碼錯誤等,支持多種編程語言。截至2023年9月,其在GitHub上的星星數量接近44k。
科研類 GPT Researcher
GPT Researcher是哥倫比亞大學研究團隊推出的網絡科研任務專用的AI Agent項目,致力于生成詳盡、精確和客觀的研究報告。該項目已在GitHub上開源,截至2023年9月,星星數量超過4k。
GPT Researcher生成一系列研究問題,通過網絡爬蟲Agent從在線資源中收集與任務相關信息。每個獲取資源都會被概括,并追蹤其來源。當然所有資源都會被篩選、匯總,形成一份完整的研究報告。
創作類 ShortGPT
ShortGPT 可實現自動編輯框架、編輯腳本和提、創建配音/內容、生成字幕、從互聯網上獲取圖像和視頻片段等功能,并根據需要與網絡和 Pexels API 連接;確保使用 TinyDB 自動編輯變量的長期持久性等功能。
2)單智能體 2:實現交互變革,中心化應用
功能升級后的 ChatGPT
ChatGPT在2023年經歷多項功能增強:
- 增加近900個插件,覆蓋多個領域,但每次最多只能啟動3個插件。
- 推出高級數據分析功能,允許編寫和執行Python代碼,并能處理文件上傳,提高處理復雜任務和數學推理準確度。
- 自定義指令功能允許用戶預設身份和指令,提高ChatGPT的個性化水平。
- 9月引入多模態輸入,支持語音對話和圖像輸入,降低使用門檻,使其更具廣泛應用性。
- 企業版本提供更多功能和支持,有望推動ChatGPT在B端應用和商業領域的發展。
Adept AI
AI初創公司Adept于2022年9月發布大型行動模型ACT-1。ACT-1以桌面對話框形式存在,用戶通過自然語言與其進行交互,改變過去鼠標/鍵盤的操作方式。用戶可通過在文本框中輸入命令,在電腦上隨時調用ACT-1,一步步完成操作,并在需要時跨多個工具進行協調。用戶可以即時反饋和修改錯誤。使用示例包括在Google Sheet中創建損益欄、更新收入總值、添加新產品和聯系人,以及在交易平臺上尋找適合商品。
3)單智能體 3:實現交互變革,可定制、平臺化
Cortex
Cortex是由Kinesys AI推出產品,允許用戶在其私有數據上構建AI合作伙伴,提供按使用量計費的定制AI助手服務。Cortex整合多個大型模型并通過調用向量數據、實時聯網搜索和API等方式增強專業領域的實用性。在同一公司內,Cortex根據不同業務部門的需求,輸出適應每個人崗位關鍵點信息,實現個性化服務。Cortex的客戶群體主要包括個人開發者和早期初創企業,旨在減少從調試開始的工作量。已有10多家付費用戶和上千個個人用戶。
MindOS
MindOS是心識宇宙發布的多功能AI Agent引擎和平臺,用戶能在短短3分鐘內開發獨特記憶、個性和專業知識的可定制Genius。平臺提供1000多個具有性格和功能的預置Genius,其準確推斷意圖的準確率高達97%。功能包括Marketplace(分享和發現Genius)、Workflow(通過拖放和簡單配置構建Genius)、Structured Memory(從對話中提取結構化信息),未來還將增加Deep Thinking(深度思考)、Self Learning(自主學習)和Teamwork(團隊協作)等板塊。
4)多智能體:AGENT 團隊完成復雜開發任務
MetaGPT
MetaGPT是深度賦智于7月開源的多智能體框架,旨在幫助用戶快速搭建虛擬公司。虛擬公司中的員工都是智能體,涵蓋工程師、產品經理、架構師和項目經理等角色。用戶只需輸入簡短需求,MetaGPT能輸出整個軟件公司的工作流程和詳細的SOP,如創作故事、競品分析等。
該框架包括基礎組件層和協作層。基礎組件層構建單個Agent操作和全系統信息交換所需的核心構件,包括環境、記憶、角色和工具。協作層在基礎組件層之上建立,協調單個Agent協同解決復雜問題,實現知識共享和封裝工作流程。知識共享允許Agent交換信息,而封裝工作流則利用SOP將任務分解為易于管理的組件,確保符合總體目標。
MetaGPT在橫向對比中展現出較高的實操價值,在GitHub上開源兩個月內獲得超過24K的STAR數量。與大模型相比,MetaGPT基于GPT4-32k,利用4個Agent(工程師、產品經理、架構師、項目經理),在MBPP和HumanEval開源數據集上的單次嘗試通過率明顯優于其他代碼生成LLM,包括GPT4和CODEX等。MetaGPT的獨特之處在于其能夠生成產品需求文檔和技術設計,展示出在不同場景下具有更強通用性項目執行方法。實驗證明,在低成本和低門檻下MetaGPT可以開發簡易軟件項目,平均每個項目消耗26.6k token用于prompt,完成任務后總成本為1.09美元耗時8-9分鐘,遠低于傳統軟件工程開發成本和時間。但MetaGPT偶爾會引用不存在資源文件,容易在執行復雜任務時調用未定義或未導入的類或變量,這些問題可以通過更清晰、更高效的AGENT協作工作流程來處理。
ChatDev
ChatDev是由清華大學NLP實驗室孫茂松教授指導,與面壁智能、北京郵電大學、布朗大學研究人員聯合發布全流程自動化軟件開發框架。
ChatDev采用gpt3.5-turbo-16k版本ChatGPT API,從Camel指令跟隨對話數據集中隨機選擇70個任務,作為CHATDEV軟件開發分析基礎。
該框架驅動智能體對話的關鍵機制包括:
- 角色專業化通過角色扮演確保每個智能體在專業角色下完成相應方案提議和決策討論;
- 記憶流保存每輪對話記錄以確保思路連貫性;
- 自反思當智能體未能滿足要求時,生成一個“偽我”向instructor反饋問題和相關對話。
CHATDEV為軟件開發提供一種高效、無需培訓且具有成本效益新方法。與傳統軟件開發相比,CHATDEV平均生產時間不到7分鐘,成本不到0.3美元,遠低于傳統軟件開發費用和周期(通常需要數周或數月)。然而,在使用CHATDEV時提供更具體的說明可以更好地發揮其功能,尤其適用于中小型軟件項目。
二、智能體模擬:擬人化,新的精神消費品
1、陪伴類,提供情緒價值
陪伴類智能體強調人類特征,包括情感情商和個性化"人格",具備記憶用戶歷史交流能力。隨著大模型情商的不斷迭代和多模態技術的發展,預計未來陪伴類智能體將更加立體擬人,能夠提供更高情感價值。
當前,國內情感消費市場仍有巨大的發展空間,尤其在社會婚姻觀念轉變和現代工作生活緊張的情況下,人們對陪伴的需求不斷增加。陪伴類智能體有望成為LLM時代的重要原生應用。從商業角度出發,預計陪伴類智能體的主要商業價值將集中在知名IP上。當前,那些擁有豐富IP儲備或允許用戶定制智能體的平臺將在市場上有廣闊前景。
具體而言,陪伴類智能體商業應用包括在線社交和秀場直播,但需要注意在線社交可能面臨用戶在建立情感聯系后轉向主流社交平臺問題,而秀場直播用戶價值可能更加集中在熱門主播而非平臺。
1)InflectionAI:高情商個人 AI——Pi
Inflection AI推出名為Pi的個人AI產品于2023年5月正式上線。該初創公司成立于2022年估值已達40億美元,僅次于OpenAI在人工智能領域的地位。Pi與ChatGPT有所不同,并非以專業性或替代人工方式進行宣傳。Pi無法編寫代碼或生成原創內容,與通用聊天機器人不同,Pi專注于友好對話、提供簡潔建議,甚至只是傾聽。其主要特點包括富有同情心、謙虛好奇、幽默創新,具備較高的情商。Pi的定位是個人智能(Personal Intelligence),旨在提供個性化知識和陪伴,而非僅僅是輔助人工作的工具。
Inflection-1 可媲美 GPT-3.5 和 LLaMA(65B)
Pi的核心是Inflection AI開發的Inflection-1大模型其性能與GPT-3.5相當。Inflection-1在多任務語言理解和常識問題等方面表現略勝于GPT-3.5和LLaMA等常見大模型,但在代碼方面稍顯不足。然而,這正是公司的差異化競爭之處,因為Pi作為以情感陪伴為主的Agent,無需具備強大的代碼和輔助工作能力。
與輔助工作的Agent不同,Pi更能滿足情感陪伴需求。作為一個情商高的AI Agent,Pi能夠使用更日常和生活化的語言與用戶進行交流。Pi的回復貼近生活,語氣得體,關心用戶當前狀態和事態發展,就像心理醫生或最好的朋友一樣。在回答可能涉及負面情緒問題時,Pi避免使用冒犯用戶的俏皮表情或輕松口吻。甚至使用表情來增強對話人性化感覺,使用戶感覺像在與真正的人類進行交流。此外,Pi還能記住與用戶的對話,隨著時間的推移更好地理解用戶。Pi填補傳統人工智能對人類情感需求忽視,類似于Pi這樣提供情感陪伴的個人AI Agent在市場上具有巨大潛力。
2)平臺化娛樂化,如 Character.AI、Glow 等
Character.AI成立于2021年10月,創始團隊專注于深度學習、大型語言模型和對話領域,團隊成員曾在Google Brain和Meta AI工作。在2022年9月推出Beta版本,采用GPT-3大模型,通過大量虛構人物數據進行訓練,使聊天機器人能夠根據人物的個性和特征生成對話和文本響應。據Character.AI官方透露,Beta版本推出2個月后,每天生成10億個單詞,截至2022年12月,用戶已創建超過35萬個機器人,涵蓋信息檢索、教練、教育、娛樂等多個領域。類似的產品還包括Replika、Glow等。
2、重交互,提高用戶體驗
交互智能體著重于強化與環境的互動能力,使智能體能夠與其他智能體或虛擬世界內的事物進行實質性互動。這種能力可能導致超越設計者規劃的場景和能力,尤其在開放世界游戲等領域,創造可信的智能體(主要是可信NPC)是為了賦予虛擬世界以生命的感覺。這些智能體能夠做出決策并根據自己的意愿行動,從而創造出更真實的游戲體驗,提升玩家的沉浸感,同時解決開放世界游戲中內容消耗過快的問題。隨著可信智能體技術的成熟,可能會孕育出新的游戲品類,并在AIGC中扮演重要角色。
1)單智能體:游戲世界 AI 玩家,如 Voyager
Voyager是英偉達推出的首個大模型游戲智能體于2023年5月開源。該智能體在《我的世界》中應用,該游戲以無限可能性的虛擬世界而著稱。沒有預定的最終目標或故事情節。Voyager被設計成一個高效的終身學習Agent類似于人類玩家的能力,可以根據當前技能水平和世界狀態發現適當的任務,并通過反饋學習和改進技能,持續探索世界。英偉達采用“無梯度”的訓練方法,使基于GPT-4的Voyager在游戲中表現出色,獨特物品增加3.3倍,行進距離增加2.3倍,解鎖科技樹里程碑的速度更是提高15.3倍。
Voyager 玩游戲的水平相比之前的方法大幅提升
Voyager引入三個創新組件:自動課程、技能庫和迭代prompt機制。自動課程設定開放性探索目標,由GPT-4生成,根據探索進度和Agent狀態最大程度地實現探索。技能庫存儲有助于解決任務行動程序,使Voyager能夠逐步建立起一個技能庫,并隨時間增強其能力,有效緩解“災難性遺忘”問題。迭代prompt機制通過環境反饋、執行錯誤和自我驗證來更新prompt,使GPT-4能夠自主迭代,直到生成足夠完成當前任務的prompt。
Voyager由三大新型組件組成
Voyager在探索性能、科技樹掌握速度和地圖覆蓋率等方面顯著優于其他Agent框架,特別是在解鎖科技樹和拓展地圖范圍方面表現突出。然而,與此強大性能相比,Voyager的高昂成本成為一大制約因素。其使用GPT-4的代碼生成能力導致成本居高不下。此外,存在“幻覺”問題,例如自動課程可能提出無法完成的任務。盡管如此,學界普遍認為Voyager是AI Agent領域的一項重大突破,使得實現真正的AGI更為接近。
Voyager 的探索范圍遠大于其他 Agent 框架
2)多智能體:Smallville 小鎮、網易《逆水寒》手游、昆侖萬維《ClubKoala》虛擬世界
多智能體:Smallville 小鎮,類西部世界的模擬社會
斯坦福大學研究者們在2023年4月首次創造一個虛擬的西部小鎮,其中包含25個生成式AI代理,構成一個交互式沙盒環境。這些智能體展現出類似人類行為,如在公園散步、在咖啡館喝咖啡,甚至規劃舉辦情人節派對。這些Agent具有人類特質、獨立決策和長期記憶等功能,被稱為“原生AI Agent”。在這個虛擬環境中,這些Agent不僅服務于人類工具,還能夠在數字世界中相互合作,建立社交關系。
在西部世界小鎮的AI Agents架構中,記憶流是核心要素,包含三大基本要素:記憶、反思和規劃。記憶流(MemoryStream)存儲Agent的所有經歷記錄,每個觀察包含事件描述、創建時間和最近訪問的時間戳。檢索過程考慮最近性、重要性和相關性三個因素,通過分數確定權重最高記憶,作為prompt傳遞給大模型,決定Agent下一步動作。
網易《逆水寒》手游,AINPC 提高玩家體驗
《逆水寒》手游于2023年6月30日上線,首日登頂iOS游戲免費榜,截至7月3日仍位居榜首。在iOS游戲暢銷榜上,公測當天晚間躍升至第3名,次日晚上進一步升至第2名。游戲引入百位AINPC,這些NPC不僅與玩家互動自如,還具有記憶功能,極大增加游戲的趣味性。AINPC提供豐富的探索劇情,使游戲內容更加豐富多彩。通過與NPC互動,玩家可以深入了解游戲世界,獲取寶貴信息,例如了解boss的弱點。此外,NPC之間的關系網還能幫助玩家巧妙解決難題。
昆侖萬維《ClubKoala》虛擬世界更可信
引入AI NPC,賦予虛擬世界更真實的體驗。采用Play for Fun的Atom AI系統,每個AI NPC都具備獨特的性格和行為模式,自主安排日程并相互影響。加入記憶系統后,AI NPC能夠記住與玩家的互動,根據玩家行為調整自身,展現出逐漸發展的“自我意識”,實現更自然、真實的動作和對話。與AI NPC的互動將被NPC牢記,分析玩家行為并在后續互動中反映,構建真正的玩家與NPC紐帶。
三、AI Agent 應用領域
1、AI Agent 有望多個領域實現落地應用
AI Agent是釋放大型語言模型(LLM)潛能的關鍵,未來將與人類合作更加密切。當前的大模型如GPT-4擁有強大的能力,但其性能仍受用戶prompt質量限制。AI Agent出現將用戶從prompt工程中解放出來,只需提供任務目標,以大模型為核心的AI Agent即可為其提供行動能力,實現任務完成。雖然目前AI Agent主要處理簡單任務,但隨著研究的深入,人類與AI Agent的合作將不斷增多,形成一個自動化的合作體系,推動人類社會的生產結構變革。AI Agent有望在多個領域實現實際應用,一些演示產品已經表現出色。AI Agent已初步應用于各領域,并有望成為AI應用的基礎架構,涵蓋toC、toB等產品領域。
Al Agent 可能的應用領域
2、2B+垂類 Agent 認知正在形成,有望率先落地
AI Agents在2B和垂直領域有望率先實現實際應用。由于Agent對環境反饋的依賴性,特定的企業環境更適合Agent建立對某一垂直領域認知。傳統企業與AI結合應用主要集中在流程任務自動化,而Agent能夠進一步提升一線員工工作質量。通過將企業在私域業務上的知識傳授給Agent,使其成為領域的虛擬專家,指導并幫助一線員工。從時間角度看,經驗豐富的高級員工需要長時間培養,而訓練得到的垂類Agent可以低成本規模化復制。
大模型時代的到來加速AI技術平民化,未來5-10年內AI智能成本有望迅速降低,從而實現企業為每一位員工搭配Agent愿景。用戶對Agent的認知逐漸形成,初創企業正在積極布局。盡管AI Agent的未來形態尚未確定,但用戶對Agent的關注度正在上升,對于提升效率的認知也在形成。未來幾年可能涌現出大量以Agent為核心的產品應用于各行各業。
四、龍頭企業公司
大模型賦能讓進一步智能化的 AI Agent 成為可能。具備底層大模型算法技術的公司以及相關的應用軟件公司有望基于 AI Agent 實現應用的落地。
1、OpenAI:OpenAI GPTs 展現 AI Agent 初級形態
GPTs+Assistants API為用戶提供創建自定義AI Agent的簡便途徑。通過自然語言構建專屬GPT,整合個性化知識,并通過API調用外部功能,使每個人都有可能擁有自己的人工智能助理。
在GPTs方面,OpenAI推出自定義GPT功能,用戶可添加知識、操作和說明,并選擇私有、專屬或公開發布。企業版用戶還可為特定客戶或部門創建專屬ChatGPT。通過GPT Builder,用戶可以以自然語言交互方式創建自定義的GPT,大幅降低開發門檻,GPT應用生態正在迅速發展。
另一方面,Assistants API是OpenAI專為開發者設計的全面API開發助手。提供代碼解釋器、檢索和函數調用等功能,代碼解釋器支持在沙盒中編寫和運行Python代碼,檢索功能增強助手的知識,而函數調用允許助手調用開發者定義的函數,并將函數響應合并到消息中。
OpenAl發布的官方 GPTs
OpenAI即將推出GPT Store成為官方應用商店,為用戶提供GPT iPhone時代可能性。在插件系統基礎上升級,GPT Store將允許開發者分享和提交自定義GPTs,驗證后可供用戶下載使用,并由此創造收入將與OpenAI共享。插件系統已經開放70多個插件,包括網頁創建、視頻編輯、數據分析等功能。自ChatGPT推出以來,已有超過200萬開發者使用API,92%的財富500強公司也在使用API,周活躍用戶已超過1億。
2、科大訊飛:訊飛構建星火助手生態
訊飛星火插件推出AI工具集市,將第三方生產力工具整合到訊飛星火SparkDesk和星火App中。這些插件實現對大模型的即時信息更新和互聯網接入,消除數據集滯后問題有很大幫助。同時,插件擴展模型應用場景,使其適應更多場景和需求,并支持企業私有化部署,確保內部信息隱私和安全。目前,訊飛星火已接入8款插件,包括PPT生成、文檔問答、簡歷生成、ProcessOn、智能翻譯、內容運營、AI面試官、郵件生成等,覆蓋18個主要應用場景,如營銷、工具、旅游、購物、教育和招聘。
星火插件為大模型賦能助力
3、昆侖萬維:昆侖發布天工 SkyAgents
昆侖萬維于12月1日正式發布基于“天工大模型”的全新平臺“天工 SkyAgents”,旨在幫助用戶構建具有自主學習和獨立思考能力的AI個人助理。該平臺涵蓋從感知到決策再到執行的全方位智能,用戶可以通過自然語言構建個性化的“私人助理”,實現協同作業,跨部門和業務流程進行信息整合與傳遞,為每個用戶提供智能管理助手。此外,平臺采用任務模塊化的方式,類似操作系統的模塊,覆蓋問題預設、指定回復、知識庫創建與檢索、意圖識別、文本提取、HTTP請求等多個任務方面。
SkyAgents 六大優勢
SkyAgents的使用無需編碼,用戶能夠通過可視化設計自主定義和配置AI Agent的行為,使搭建過程變得簡單高效。昆侖萬維通過簡化開發流程和降低技術門檻,讓所有開發者都能輕松創建自己的個性化AI。平臺提供多種AI能力模塊組件,覆蓋工作、編輯、金融、寫作、助手、翻譯、營銷、生活等多個應用場景。用戶還可以建立個人的“我的Agents”列表,方便管理和使用。
4、拓爾思:“拓天大模型”發布,AIGC 業務加速進展及落地
公司專注于NLP、知識圖譜、OCR、圖像視頻結構化等多模態內容處理底層技術,構建全面的多模態人工智能產品體系,為客戶提供文本、音視頻、多模態等全棧服務。AIGC業務實現營收782.18萬元同比增長206.02%,主要應用于消保報告自動生成和媒體智能輔助寫稿等領域。
公司當前致力于研發拓天大模型Agent技術,側重提升Agent的任務規劃、記憶、外部工具使用、多Agent協同等能力。拓天大模型主要服務金融、媒體、政務等領域,公司建立基于各行業的主題數據庫,為不同行業提供整合大模型產品,包括內容生成、多輪對話、語義理解、跨模態交互、知識型搜索、邏輯推理、安全合規、數學計算、編程能力和插件擴展等基礎能力。
5、彩訊股份:國產郵箱領軍者,AI、信創鑄就新機遇
公司初期專注基礎互聯網業務,后轉型為產業互聯網技術及服務提供商,聚焦協助企業打造新型產品和渠道。在信創領域,公司的Richmail郵箱產品成為國內主力,其信創適配與數據安全技術領先,已被中央集采郵箱項目采用,并備受政企客戶好評。
隨著大模型技術發展,公司在AI技術領域布局,于2023年發布了下一代智能郵箱demo產品,具備秘書級主動服務、大模型信息整合處理及跨域信息獲取與存儲等核心功能,提升日常郵件辦公效率超過20%。
6、金山辦公:AIGC+Copilot+Insight 三箭齊發,AI 全面賦能 WPS 八大應用
金山辦公是國內領先的辦公軟件及服務提供商,旗下產品包括WPS Office、金山文檔、WPS 365和WPS AI等,具備全球競爭力,毛利率長期保持在80%以上。公司持續投入高強度研發,并在行業信創和辦公軟件數智化趨勢下,WPS AI與WPS 365預計將迎來新的黃金發展期。
WPS AI是國內首個實現AI+辦公軟件的產品,擁有三層次產品結構,包括AIGC輔助文章生成、Copilot實現自動操作和Insight提供個性化知識庫檢索。WPSAI已經在WPS的八大應用中實現全面賦能,涵蓋文檔、表格、文字和演示,通過公測展示在各個場景中的出色表現,實現工作自動化和智能化,提高用戶效率和產品體驗。
WPS AI整合外部和自研模型,采用混合部署策略。與百度文心一言、MiniMax、智譜 AI、科大訊飛、阿里等廠商建立合作關系,同時公司自研的7B和13B模型共同支持WPS AI功能,提高在特定場景中的推理效率和性價比,也滿足具備私有化部署需求的客戶。
六、AI Agent 可能面臨的挑戰
1、安全與隱私
智能體的安全性和隱私性直接關系到用戶和社會的信任和保護。如OpenAI的GPTs在發布后出現的安全漏洞,可能導致用戶數據泄露。
2、倫理與責任
智能體的核心原則包括倫理和責任,不公平、不透明或不可靠的智能體可能會引起用戶和社會擔憂。此外,責任的明確歸屬是重要的議題。
3、經濟和社會影響
智能體的發展對未來工作和社會就業產生影響。例如,智能體平臺可能對傳統自由職業者造成沖擊,而在社會工作中,雇主可能更趨向于減少人力投入,這引發對智能體技術對職業生涯的長期影響的關注。
未來3年,AI Agent能在哪些場景
為企業帶來業務增長與變革
一、AI Agent在企業內的落地方式
盡管AI Agent的概念自今年五、六月份開始引起關注,并在國外涌現多個實際應用場景和案例,但從企業用戶、廠商和學術界的角度來看,對AI Agent的定義存在差異。在企業用戶實施AI Agent的具體方案中,大致將其分為兩類。
1、與整體大模型能力建設密切相關的方案。企業用戶通常認為大模型適用于多種場景,傾向于從中臺或能力層次來考慮大模型的運用。例如,某股份制銀行表示計劃在明年在六到七個特定場景中使用大模型,強調需要構建整體大模型能力。
2、AI Agent在具體應用場景中的應用,如問答、運維管理、客服、數字人等,以及與RPA結合用于流程自動化,擔任招聘助理、人力資源助理、財務助理等。
這兩類方案指引企業用戶在大模型部署中的不同方向,同時需要注意AI Agent是被視為一種能力建設還是一個具體的應用場景建設。
二、打造Agent中臺,建設大模型能力
AI Agent架構的核心組件聚焦于四個關鍵因素:長短時記憶、相關配置工具、整體實現路徑規劃和最終執行。在底層能力方面,依賴于大模型的支持,而這些模型可以是通用、商業或專屬訓練的。
在能力組件層面,AI Agent包括多種通用能力組件,如多模態檢索、內容生成,以及Text to SQL、Text to Chart、Text to BI等數據分析中的處理能力。記憶組件主要依賴于向量數據庫和實時數據庫,賦予Agent特定的記憶功能。AI Agent借鑒RPA機器人的整體構建思路,涵蓋單個設計、整體執行、執行環節實現以及用戶端互動。
在構建AI Agent的整體平臺時,企業需考慮資源投入、底層計算能力、產品工具以及擁有深厚NLP經驗的團隊。不過,大多數企業在初期可能不需直接進行這樣的建設,而可專注于實際應用的需求。
三、AI Agent未來應用場景規劃
企業通過AI Agent在四個方向中尋求不同的價值:變革類、增收類、體驗類和降本類。盡管變革和增收是更大的價值所在,當前許多公司,特別是面向消費者的企業,更傾向于體驗類價值,因為對C端用戶具有高比重,并通過提升用戶體驗收集更多交互數據。
在技術方面,Agent的能力組件包括記憶、相關配置工具、實現路徑規劃和執行。對于大模型的支持,特別是記憶組件的建設,仍面臨挑戰,但體驗類場景為企業提供收集用戶交互數據的機會,彌補一些企業在數據建設方面的不足。
在應用方面,辦公助理和知識庫問答是實際應用較好的領域,而面向整個公司層面的應用尚有提升空間。運維管理、客服領域以及數據分析被認為是未來重要的發展方向。數據分析的價值在于滿足短期和長期的管理和業務需求,促使企業建立更完善的數據文化,提升決策依據。零售場景的導購賦能和銷售賦能也被認為是未來帶來收入增長的關鍵領域。
大型模型訓練
GPU 內存需求與優化筆記
在處理大型模型時,必須綜合考慮計算能力、內存使用以及GPU的適配情況。這不僅影響GPU在推理大型模型時的性能,還直接決定在訓練集群中可用的總GPU內存,從而對能夠訓練的模型規模產生影響。
推理大型模型的內存計算只需考慮模型權重。而在進行大型模型訓練時,內存計算則需要考慮模型權重、反向傳播的梯度、優化器所需的內存以及正向傳播的激活狀態內存。
以ChatGLM-6B為例,其參數設置包括隱藏層神經元數量(hidden_size)為4096,層數(num_layers)為28,token長度為2048,注意力頭數(attention heads)為32。下面將詳細講解如何計算推理內存和訓練內存。
一、推理內存
1、模型權重
對于不同精度的模型內存計算,可以使用以下簡化規則:
int8精度模型內存=參數量的1倍(6GB)
fp16和bf16精度模型內存=參數量的2倍(12GB)
fp32精度模型內存=參數量的4倍(24GB)
因為1 GB ≈ 1B字節,這種簡化規則使得估算ChatGLM-6B模型在不同精度下的內存需求更為便捷。
2、推理總內存
在進行前向傳播時,除了用于存儲模型權重的內存之外,通常會有一些額外的開銷。根據以往經驗,通常被控制在總內存的20%以內。因此,可以估算推理總內存≈1.2×模型內存。
二、訓練
1、模型權重
模型權重的內存需求在訓練階段涉及不同精度的訓練,包括純fp32、純fp16以及混合精度(fp16/bf16 + fp32):
純fp32訓練模型內存=4 * 參數量(字節)
純fp16訓練模型內存=2 * 參數量(字節)
混合精度訓練(fp16/bf16 + fp32)模型內存=2 * 參數量(字節)
對于ChatGLM-6B,這意味著:
純fp32訓練模型內存=4 * 6GB=24GB
純fp16訓練模型內存=2 * 6GB=12GB
混合精度訓練模型內存=2 * 6GB=12GB
這樣的設定允許在訓練過程中選擇不同的精度,權衡模型性能和內存開銷。
2、優化器狀態
不同優化器在內存使用上有不同的計算方式:
純AdamW優化器內存=12 * 參數量(字節)
8位優化器(如bitsandbytes)內存=6 * 參數量(字節)
帶動量的類SGD優化器內存=8 * 參數量(字節)
對于ChatGLM-6B,具體內存計算如下:
純AdamW優化器內存=12 * 6GB=72GB
8位優化器內存=6 * 6GB=36GB
帶動量的類SGD優化器內存=8 * 6GB=48GB
這些設定允許在訓練過程中選擇不同的優化器,權衡模型訓練速度和內存開銷。
3、梯度
梯度的內存需求取決于存儲的數據類型,通常為fp32或fp16。對于不同的數據類型,梯度內存的計算方式如下:
fp32梯度內存=4 * 參數量(字節)
fp16梯度內存=2 * 參數量(字節)
對于ChatGLM-6B,具體梯度內存計算如下:
fp32梯度內存=4 * 6GB=24GB
fp16梯度內存=2 * 6GB=12GB
這些設定允許在混合精度訓練過程中選擇不同的梯度存儲類型,權衡訓練速度和數值穩定性。
訓練總內存=模型內存+優化器內存+激活內存+梯度內存 = 12GB + 72GB + 12Gb + 7.8GB = 103GB
AI Agent對算力的需求
解析人工智能發展中的計算力挑戰
隨著人工智能技術的不斷發展,AI Agent作為其中的關鍵組成部分,對算力的需求日益增加。下面將深入分析AI Agent對算力的具體需求,以及這一需求在人工智能領域中所帶來的挑戰和影響。
一、AI Agent與算力的密切關系
AI Agent作為自主智能體,具備學習、推理和決策的能力,其運行和發揮功能需要強大的算力支持。在訓練階段,AI Agent需要處理大量的數據和復雜的模型,而這就需要大規模的計算資源。算力的提供決定模型的規模、訓練速度和推理效率,直接影響到AI Agent的性能和智能水平。
二、AI Agent的算力需求分析
大規模神經網絡模型的訓練需要處理龐大的數據集和復雜的模型結構。如GPT-3和BERT,其訓練過程更是對算力提出極高要求。隨著模型規模和復雜性的不斷增加,AI Agent對算力的需求也呈現出指數級的增長。大模型在處理更多參數和更復雜的模型結構時能夠獲得更好的性能,但這也帶來訓練和推理時的計算負擔。硬件供應商和云服務提供商需要不斷提升計算資源的性能和規模,以滿足Agent日益增加的需求。
除訓練過程,AI Agent在推理和實時決策中同樣對算力有著高效響應需求。在處理實時數據和作出即時決策情境下,算力的快速響應成為保證Agent高效運行關鍵因素。這對硬件架構和計算資源的設計提出更高的要求,需要實現低延遲和高吞吐量。
AI Agent算力需求不僅僅影響到硬件供應鏈,還對云服務行業和數據中心產業產生深遠影響。云服務提供商需要提供彈性的計算資源,以適應用戶對于AI Agent使用的不斷增長。數據中心的設計和運維也需要根據算力需求的變化進行不斷優化和升級。
三、大模型訓練常用配置推薦
1、處理器CPU:
- Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
- Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
- Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W
- Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W
- AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W
-AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W
2、顯卡GPU:
- NVIDIA L40S GPU 48GB
- NVIDIA NVLink-A100-SXM640GB
- NVIDIA HGX A800 80GB
- NVIDIA Tesla H800 80GB HBM2
- NVIDIA A800-80GB-400Wx8-NvlinkSW
審核編輯 黃宇
-
AI
+關注
關注
87文章
31097瀏覽量
269431 -
Agi
+關注
關注
0文章
82瀏覽量
10210 -
算力
+關注
關注
1文章
992瀏覽量
14861 -
模型訓練
+關注
關注
0文章
18瀏覽量
1351 -
大模型
+關注
關注
2文章
2482瀏覽量
2849
發布評論請先 登錄
相關推薦
評論