這篇mylangrobot項(xiàng)目由neka-nat創(chuàng)建,本文已獲得作者Shirokuma授權(quán)進(jìn)行編輯和轉(zhuǎn)載。
https://twitter.com/neka_nat
GitHub-mylangrobot :GitHub - neka-nat/mylangrobot: Language instructions to mycobot using GPT-4V
引言
本項(xiàng)目創(chuàng)建了一個(gè)使用GPT-4V和myCobot的一個(gè)演示,演示機(jī)械臂簡(jiǎn)單得到拾取操作,這個(gè)演示使用了一個(gè)名叫SoM(物體檢測(cè)對(duì)象)的方法,通過(guò)自然語(yǔ)言生成機(jī)器人動(dòng)作。通俗點(diǎn)換一句話來(lái)說(shuō)就是,機(jī)器接受自然語(yǔ)言,去尋找目標(biāo)然后讓機(jī)械臂進(jìn)行抓取的一個(gè)案例。
本項(xiàng)目的亮點(diǎn)主要是GPT-4V的圖像處理和SoM物體檢測(cè)算法相結(jié)合,通過(guò)自然語(yǔ)言和機(jī)器交互實(shí)現(xiàn)機(jī)械臂運(yùn)動(dòng)。
軟件
SoM
Set of Mark(SoM)是一種用于增強(qiáng)大型語(yǔ)言模型的視覺理解能力。圖像經(jīng)過(guò)SoM處理之后能夠在圖像上添加一系列的標(biāo)記,這些標(biāo)記能夠被語(yǔ)言類模型識(shí)別和處理。這些標(biāo)記有助于模型更準(zhǔn)確的識(shí)別和理解圖像中的物體和內(nèi)容。
這使得語(yǔ)言模型能夠針對(duì)圖像中的元素進(jìn)行更精準(zhǔn)的分析和描述,從而提高其在視覺任務(wù)上的表現(xiàn)。
GPT-4V
我們常聊的GPT是一個(gè)大預(yù)言模型,我們可以跟它進(jìn)行對(duì)話聊天。在迭代新的版本的GPT-4V是一個(gè)大模型多模態(tài)語(yǔ)言模型,它不單單能處理文本信息,現(xiàn)在還能夠處理圖像信息。能夠?qū)D像理解,圖像生成,圖像描述的功能,這樣大模型結(jié)合GPT-4的強(qiáng)大自然語(yǔ)言處理能力和現(xiàn)金的圖像分析技術(shù),可以提供更高效和更準(zhǔn)確的視覺和語(yǔ)言綜合能力。
下面是OpenAI 提供的例子
簡(jiǎn)要介紹:將一個(gè)視頻提供給GPT4,通過(guò)GPT-4V對(duì)圖像的處理,生成對(duì)視頻講解的內(nèi)容的過(guò)程。原文鏈接:Processing and narrating a video with GPT's visual capabilities and the TTS API | OpenAI Cookbook
User:
"These are frames from a video that I want to upload. Generate a compelling description that I can upload along with the video."
視頻中某一幀的圖像
#GPT-4V對(duì)圖像的描述處理
GPT4:
"
審核編輯 黃宇
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28466瀏覽量
207311 -
人工智能
+關(guān)注
關(guān)注
1791文章
47350瀏覽量
238759 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15409 -
機(jī)械臂
+關(guān)注
關(guān)注
12文章
515瀏覽量
24609
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論