導(dǎo)語(yǔ)
2025年3月6日,中國(guó)AI團(tuán)隊(duì)Monica.im推出的通用型AI Agent產(chǎn)品Manus引爆全球科技圈。這款號(hào)稱“全球首款全自主執(zhí)行復(fù)雜任務(wù)的數(shù)字代理人”不僅刷新了GAIA基準(zhǔn)測(cè)試的SOTA記錄,更以“手腦并用”的設(shè)計(jì)哲學(xué)掀起了一場(chǎng)效率革命。然而,在狂熱的市場(chǎng)反響背后,爭(zhēng)議與挑戰(zhàn)也隨之浮現(xiàn)。那么,AI Agent 到底是什么?它又如何在我們的工作和生活中發(fā)揮作用呢?今天,就讓我們一同探索這一奇妙的領(lǐng)域。
一、AI Agent 的介紹
1.1 什么是 AI Agent?
AI Agent,即智能體,是一種能夠自主執(zhí)行任務(wù)并與環(huán)境進(jìn)行交互的智能程序。它通過(guò)感知環(huán)境信息,利用自身的知識(shí)和能力,做出合理的決策并采取行動(dòng),以完成特定的目標(biāo)。AI Agent 的核心在于其自主性和智能性,它能夠像人類一樣思考和學(xué)習(xí),不斷提升自身的性能和適應(yīng)能力。
1.2 AI Agent 的應(yīng)用
AI Agent 的應(yīng)用范圍非常廣泛,涵蓋了多個(gè)領(lǐng)域。例如,在客服領(lǐng)域,AI Agent 可以自動(dòng)回答常見(jiàn)問(wèn)題,提高客戶服務(wù)的效率;在金融領(lǐng)域,它可以用于風(fēng)險(xiǎn)評(píng)估和投資決策;在醫(yī)療領(lǐng)域,它可以輔助醫(yī)生進(jìn)行疾病診斷和治療方案制定;在教育領(lǐng)域,它可以為學(xué)生提供個(gè)性化的學(xué)習(xí)指導(dǎo)。
1.3 打造 AI Agent 的步驟
打造一個(gè)商用 AI Agent 通常需要經(jīng)過(guò)以下幾個(gè)步驟:
1.需求梳理:明確 AI Agent 的目標(biāo)和功能,梳理工作流程,確定哪些任務(wù)可以由 AI 協(xié)助完成。
2.軟件選型:選擇合適的 AI Agent 開(kāi)發(fā)平臺(tái)和工具,根據(jù)需求選擇合適的大模型。
3.提示工程:設(shè)計(jì)有效的提示詞,提高大模型的輸出質(zhì)量和準(zhǔn)確性。
4.數(shù)據(jù)庫(kù)選型:選擇合適的數(shù)據(jù)庫(kù),存儲(chǔ) AI Agent 運(yùn)行過(guò)程中產(chǎn)生的數(shù)據(jù)。
5.構(gòu)建 UI 界面:設(shè)計(jì)用戶界面,提高用戶體驗(yàn)。
6.測(cè)試評(píng)估:對(duì) AI Agent 進(jìn)行測(cè)試和評(píng)估,確保其能夠正確地完成任務(wù)。
7.部署發(fā)布:將 AI Agent 部署到實(shí)際環(huán)境中,供用戶使用。
二、BrowserUse 的介紹
2.1 什么是 BrowserUse?
BrowserUse 是一個(gè)開(kāi)源的 Python 庫(kù),旨在簡(jiǎn)化 AI 代理與瀏覽器之間的交互,在Github上有36K star。通過(guò)集成 Playwright 等瀏覽器自動(dòng)化工具,BrowserUse 允許開(kāi)發(fā)者使用任何支持 LangChain 的大語(yǔ)言模型(如 GPT-4、Claude 等),來(lái)自動(dòng)化瀏覽網(wǎng)頁(yè)、提取信息、模擬用戶操作等。這不僅極大地提高了網(wǎng)頁(yè)數(shù)據(jù)抓取的效率,還為開(kāi)發(fā)者提供了一個(gè)靈活、可擴(kuò)展的框架,用于構(gòu)建復(fù)雜的網(wǎng)頁(yè)自動(dòng)化任務(wù)。之所以這么受歡迎,當(dāng)然是因?yàn)樗男阅苷眩?/p>
2.2 BrowserUse 的應(yīng)用
BrowserUse 在網(wǎng)頁(yè)自動(dòng)化任務(wù)中有著廣泛的應(yīng)用。例如,它可以用于自動(dòng)化的網(wǎng)頁(yè)數(shù)據(jù)抓取,如從新聞網(wǎng)站抓取最新的新聞資訊、從電商網(wǎng)站抓取商品信息等;可以用于自動(dòng)化的網(wǎng)頁(yè)測(cè)試,如測(cè)試網(wǎng)頁(yè)的性能和功能;還可以用于自動(dòng)化的網(wǎng)頁(yè)操作,如自動(dòng)填寫(xiě)表單、自動(dòng)點(diǎn)擊按鈕等。下面的圖來(lái)自項(xiàng)目截圖:
2.3 BrowserUse 的優(yōu)勢(shì)
BrowserUse 的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:
1.支持多模型:BrowserUse 支持多種大語(yǔ)言模型,開(kāi)發(fā)者可以根據(jù)自己的需求選擇合適的模型。
2.易于集成:BrowserUse 提供了簡(jiǎn)單的 API,易于與現(xiàn)有的系統(tǒng)和工具集成。
3.靈活性高:BrowserUse 允許開(kāi)發(fā)者自定義任務(wù)和操作,具有很高的靈活性。
4.性能強(qiáng)大:通過(guò) Playwright 的支持,BrowserUse 能夠高效地完成各種復(fù)雜的網(wǎng)頁(yè)自動(dòng)化任務(wù)。
三、樹(shù)莓派打造 AI Agent
3.1 項(xiàng)目背景
在 AI 應(yīng)用領(lǐng)域,昂貴的云服務(wù)訂閱費(fèi)用和復(fù)雜的硬件配置一直是困擾開(kāi)發(fā)者的問(wèn)題。而樹(shù)莓派的出現(xiàn),為這一困境帶來(lái)了轉(zhuǎn)機(jī)。這款小型計(jì)算機(jī),憑借其強(qiáng)大的性能和豐富的擴(kuò)展性,成為眾多開(kāi)發(fā)者的寵兒。然而,單獨(dú)的樹(shù)莓派在處理復(fù)雜的 AI 任務(wù)時(shí),仍存在一定的局限性。這時(shí),DeepSeek 和 BrowserUse 的出現(xiàn),就像一把鑰匙,打開(kāi)了樹(shù)莓派 AI 應(yīng)用的大門(mén)。一位Mo Zhou的作者就在國(guó)外網(wǎng)站上展示了他的成果。
你可能會(huì)問(wèn):“這真的有用嗎?” 從我們?cè)诰W(wǎng)上看到的各類測(cè)試結(jié)果來(lái)看,DeepSeek R1 在性能上與許多高級(jí)人工智能模型相當(dāng),甚至更優(yōu),只是處理速度稍慢一些。當(dāng)它與用于自動(dòng)化操作的 BrowserUse 搭配使用時(shí),能處理從內(nèi)容排期到市場(chǎng)調(diào)研等一切基于網(wǎng)絡(luò)的任務(wù),而且沒(méi)有月費(fèi)或使用限制。
你能用它自動(dòng)化處理哪些任務(wù)呢?基本上,你在網(wǎng)絡(luò)瀏覽器中進(jìn)行的任何操作都可以實(shí)現(xiàn)自動(dòng)化:
1.監(jiān)測(cè)行業(yè)新聞
2.從網(wǎng)站收集數(shù)據(jù)
3.處理重復(fù)性的在線任務(wù)
4.安排并發(fā)布社交內(nèi)容
5.追蹤競(jìng)爭(zhēng)對(duì)手的價(jià)格
該系統(tǒng)在你的樹(shù)莓派上本地運(yùn)行,這意味著沒(méi)有云服務(wù)費(fèi)用或 API 成本。你的數(shù)據(jù)會(huì)保留在本地硬件中,并且它可以全天候運(yùn)行,耗電量比臺(tái)
拆解你的新型 AI 自動(dòng)化組合
BrowserUse—— 你的自動(dòng)化網(wǎng)絡(luò)導(dǎo)航器
1.從不休息
2.從不抱怨重復(fù)性任務(wù)
3.能完美記住所有操作步驟
4.無(wú)需登錄你的賬戶
5.即使在低功耗硬件上也能流暢運(yùn)行
DeepSeek R1—— 你的本地 AI powerhouse
1.比大多數(shù)商業(yè)人工智能模型更智能
2.可在你的設(shè)備上直接運(yùn)行(沒(méi)錯(cuò),樹(shù)莓派也可以!)
3.做出的決策合理有效
4.零訂閱成本
整套系統(tǒng)都在樹(shù)莓派上運(yùn)行。這臺(tái)微型電腦可以處理:
1.完整的網(wǎng)絡(luò)自動(dòng)化套件
2.本地人工智能模型(140 億參數(shù)版本)
3.多個(gè)并發(fā)任務(wù)
4.全天候運(yùn)行
不同領(lǐng)域的實(shí)際任務(wù)自動(dòng)化
內(nèi)容創(chuàng)作和社交媒體
“為 Instagram、Twitter 和 LinkedIn 制定下個(gè)月的內(nèi)容日歷”
你的自動(dòng)化助手將:
1.規(guī)劃發(fā)布日程
2.為每個(gè)平臺(tái)起草定制內(nèi)容
3.自動(dòng)安排所有內(nèi)容發(fā)布
4.追蹤參與度模式
5.在你的樹(shù)莓派上全天候運(yùn)行,毫不費(fèi)力
設(shè)計(jì)趨勢(shì)分析
“在 Behance、Dribbble 和 Pinterest 上監(jiān)測(cè)金融科技領(lǐng)域新興的 UI 設(shè)計(jì)趨勢(shì)”
你的系統(tǒng)通過(guò)以下方式進(jìn)行跟蹤:
1.掃描多個(gè)設(shè)計(jì)平臺(tái)
2.分析常見(jiàn)模式
3.創(chuàng)建趨勢(shì)報(bào)告
4.保存參考圖片
5.即使你的主設(shè)備關(guān)閉,也能持續(xù)監(jiān)測(cè)
音樂(lè)行業(yè)監(jiān)測(cè)
“追蹤我的樂(lè)隊(duì)在音樂(lè)博客和社交媒體上的提及情況”
它可以處理:
1.持續(xù)的平臺(tái)監(jiān)測(cè)
2.提及和評(píng)論匯總
3.流媒體數(shù)據(jù)追蹤
4.合作機(jī)會(huì)標(biāo)記
5.低功耗的后臺(tái)運(yùn)行
市場(chǎng)分析和競(jìng)爭(zhēng)對(duì)手追蹤
“分析競(jìng)爭(zhēng)對(duì)手全系列產(chǎn)品的價(jià)格變化”
自動(dòng)化追蹤包括:
1.價(jià)格波動(dòng)監(jiān)測(cè)
2.生成對(duì)比報(bào)告
3.促銷模式分析
4.重大變化提醒
5.全天候監(jiān)測(cè),無(wú)云服務(wù)成本
設(shè)置你經(jīng)濟(jì)實(shí)惠的 AI 助手:完整指南
準(zhǔn)備好構(gòu)建自己的人工智能自動(dòng)化系統(tǒng)了嗎?下面我們?cè)敿?xì)拆解每一個(gè)命令,讓你清楚了解每一步操作。把這想象成搭建樂(lè)高積木,每一塊都有其用途,我們將一步一步把它們組合起來(lái)。
第一步:準(zhǔn)備好你的樹(shù)莓派
在開(kāi)始之前,用這個(gè)命令讓你的樹(shù)莓派保持最佳狀態(tài):
sudo apt-getupdate&&sudo apt-getupgrade
這一步在做什么呢?你是在告訴樹(shù)莓派:
1.更新可用軟件列表(update)
2.安裝所有軟件的最新版本(upgrade)
3.sudo 的意思是 “以管理員權(quán)限執(zhí)行此操作”
購(gòu)物清單(必備工具)
首先,獲取這些免費(fèi)工具:
1.Python—— 核心運(yùn)行時(shí)環(huán)境
2.Git—— 代碼管理工具
3.VS Code—— 開(kāi)發(fā)環(huán)境
4.UV—— 環(huán)境管理工具
5.Ollama——AI 模型運(yùn)行器
構(gòu)建你的 AI 助手(分步指南)
步驟 1:設(shè)置 BrowserUse—— 獲取代碼
gitclonehttps://github.com/browser-use/web-uicdweb-ui
這一步的操作是:
下載項(xiàng)目(git clone)
進(jìn)入項(xiàng)目文件夾(cd)
步驟 2:設(shè)置你的工作區(qū)這一步就像是為你的項(xiàng)目打造一個(gè)干凈的空間,就像為每個(gè)工作準(zhǔn)備一個(gè)單獨(dú)的工具箱。
步驟 3:激活你的工作區(qū)
對(duì)于 Windows/Linux 系統(tǒng):無(wú)特殊指令
對(duì)于樹(shù)莓派:
sourcevenv/bin/activateexportPYTHONPATH=$PYTHONPATH:$PWD
這一步的作用是:
啟動(dòng)你項(xiàng)目的 “工具箱”
告訴樹(shù)莓派在哪里找到所有相關(guān)內(nèi)容(export 那一行指令)
步驟 4:安裝 Browseruse
pipinstall browser-useplaywright install
這一步:
安裝自動(dòng)化引擎
設(shè)置網(wǎng)絡(luò)瀏覽器控制器
步驟 5:安裝 DeepSeek R1
ollamapull deepseek-r1:14b # 適用于大多數(shù)用戶# 或者ollama pull deepseek-r1:32b # 適用于高性能計(jì)算機(jī)
這一步會(huì)下載人工智能模型,就像是為你的助手安裝 “大腦”。
最終設(shè)置:配置并啟動(dòng)
1.打開(kāi)你的網(wǎng)絡(luò)瀏覽器
2.訪問(wèn)http://localhost:7860
3.點(diǎn)擊 “設(shè)置”
4.選擇 “本地” 模型
5.選擇 “deepseek-r1”
這里的每一步都是在將各個(gè)組件連接起來(lái):
1.網(wǎng)頁(yè)界面(localhost:7860)是你的控制面板
2.“本地” 表示使用你樹(shù)莓派的 “大腦”(即本地模型)
3.“deepseek-r1” 是你將使用的人工智能模型
常見(jiàn)問(wèn)題排查
當(dāng)出現(xiàn)問(wèn)題時(shí):
1.系統(tǒng)凍結(jié):重啟設(shè)備
2.Python 問(wèn)題:重新安裝通常可以解決
3.瀏覽器問(wèn)題:清除緩存并重啟
4.樹(shù)莓派過(guò)熱:檢查通風(fēng)情況
5.性能滯后:確保沒(méi)有占用大量資源的后臺(tái)任務(wù)
四、提出話題,拋磚引玉,鼓勵(lì)網(wǎng)友討論及
在打造 AI Agent 的過(guò)程中,你遇到了哪些挑戰(zhàn)?是如何解決的?你對(duì) AI Agent 和 BrowserUse 的結(jié)合應(yīng)用有什么獨(dú)特的見(jiàn)解?歡迎在評(píng)論區(qū)分享你的經(jīng)驗(yàn)和想法,讓我們一起探討,共同進(jìn)步!
-
AI
+關(guān)注
關(guān)注
87文章
32906瀏覽量
272536 -
樹(shù)莓派
+關(guān)注
關(guān)注
118文章
1871瀏覽量
106237 -
DeepSeek
+關(guān)注
關(guān)注
1文章
690瀏覽量
568
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論