電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)當(dāng)?shù)貢r(shí)間5月13日,OpenAI舉行春季發(fā)布會(huì),宣布將推出桌面版ChatGPT,并發(fā)布全新旗艦AI模型GPT-4o。
根據(jù)OpenAI官方網(wǎng)站介紹,GPT-4o中的“o”代表Omni,也就是“全能”的意思。GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。
GPT-4o速度更快,且能感知用戶(hù)情緒
根據(jù)OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語(yǔ)音對(duì)談機(jī)制不同。GPT-3.5和GPT-4會(huì)先將音頻轉(zhuǎn)換為文本,再接收文本生成文本,最后將文本轉(zhuǎn)換為音頻,經(jīng)歷這三個(gè)過(guò)程,音頻中的情感表達(dá)等信息會(huì)被折損,而GPT-4o是跨文本、視覺(jué)和音頻的端到端模型,是OpenAI第一個(gè)綜合了這些維度的模型,可更好進(jìn)行對(duì)談。
OpenAI技術(shù)負(fù)責(zé)人Mira Murati表示:“這是我們第一次在易用性方面真正邁出的一大步?!監(jiān)penAI研究員Mark Chen表示,新模型具有“感知情緒”的能力,能輸出笑聲、歌唱或表達(dá)情感,還可以處理用戶(hù)打斷它的情況。
GPT-4o極大地改進(jìn)了OpenAI的AI聊天機(jī)器人ChatGPT的體驗(yàn)。在發(fā)布會(huì)上,OpenAI研究主管Mark Chen和OpenAI的后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人Barret Zoph通過(guò)現(xiàn)場(chǎng)演示展示出了新模型GPT-4o的強(qiáng)大。
如在演示對(duì)話(huà)中,Mark Chen表現(xiàn)得有點(diǎn)緊張,然后開(kāi)始急促地呼吸。當(dāng)GPT-4o聽(tīng)到Chen過(guò)度呼氣時(shí),它似乎從中察覺(jué)到了他的緊張,并說(shuō)到:別緊張,你喘得像個(gè)吸塵器,深呼吸,再吐氣。接著GPT開(kāi)始指導(dǎo)Chen怎么深吸慢呼平復(fù)心情。
在另一段對(duì)話(huà)演示中,Chen讓GPT給Zoph講個(gè)睡前故事哄他入睡,Chen反復(fù)打斷GPT的講述,問(wèn)它能不能講得更刺激點(diǎn),最后GPT用非常迪士尼的方式唱出了一個(gè)故事。
GPT-4o還可以通過(guò)視覺(jué)識(shí)別檢測(cè)人的情緒。在一個(gè)演示中,Zoph將手機(jī)舉到自己面前正對(duì)著臉,要求ChatGPT告訴他自己長(zhǎng)什么樣子。GPT-4o注意到了Zoph臉上的微笑,對(duì)他說(shuō):“看起來(lái)你感覺(jué)非??鞓?lè),喜笑顏開(kāi)?!?br />
GPT-4o也能夠進(jìn)行實(shí)時(shí)快速翻譯,OpenAI技術(shù)負(fù)責(zé)人Mira Murati在現(xiàn)場(chǎng)對(duì)ChatGPT說(shuō)起了意大利語(yǔ),GPT則將她的話(huà)翻譯成英語(yǔ)。
OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)表示,新的語(yǔ)音和視頻模式是他用過(guò)的最好的電腦界面,感覺(jué)就像電影里的AI。達(dá)到人類(lèi)水平的反應(yīng)時(shí)間和表達(dá)能力是一個(gè)很大的變化。
Sam Altman談到:“對(duì)我來(lái)說(shuō),與電腦交談從來(lái)都不是一件很自然的事,現(xiàn)在它做到了。隨著我們?cè)黾樱蛇x的)個(gè)性化、訪問(wèn)你的信息、代表你采取行動(dòng)的能力等等,我真的可以看到一個(gè)令人興奮的未來(lái),我們能夠使用計(jì)算機(jī)做比以往任何時(shí)候都多的事情?!?br />
GPT-4o功能未來(lái)將會(huì)進(jìn)一步發(fā)展
自發(fā)布之日,GPT-4o可在ChatGPT的免費(fèi)版本中使用,并提供給OpenAI的高級(jí)ChatGPT Plus和Team計(jì)劃訂戶(hù),具有“5倍更高”的消息限制。OpenAI指出,當(dāng)用戶(hù)達(dá)到速率限制時(shí),ChatGPT將自動(dòng)切換到GPT-3.5。
OpenAI稱(chēng),基于GPT-4o的ChatGPT文本和圖像輸入功能將于本周一上線,語(yǔ)音和視頻選項(xiàng)將在未來(lái)幾周內(nèi)推出。另外,OpenAI將在未來(lái)1個(gè)月左右向Plus用戶(hù)推出基于GPT-4o改進(jìn)的語(yǔ)音體驗(yàn),目前GPT-4o的API并不包含語(yǔ)音功能。
OpenAI指出,在API使用方面,相比去年11月發(fā)布的GPT-4-turbo,GPT-4o價(jià)格降低一半。成本下降對(duì)于大模型的調(diào)用至關(guān)重要。OpenAI開(kāi)始致力于將大模型推向市場(chǎng)。
另外據(jù)Murati介紹,GPT-4o的功能在未來(lái)將會(huì)進(jìn)一步發(fā)展。比如,盡管目前GPT-4o可以查看不同語(yǔ)言的菜單照片并進(jìn)行翻譯,但未來(lái),該模型可能使ChatGPT能夠觀看直播的體育比賽并向您解釋規(guī)則。
Murati表示:“我們知道這些模型變得越來(lái)越復(fù)雜,但我們希望交互體驗(yàn)實(shí)際上變得更加自然、簡(jiǎn)單,您不需要關(guān)注UI,而只需專(zhuān)注于與ChatGPT的合作?!?br />
對(duì)于大家一直關(guān)注的安全性問(wèn)題,OpenAI也重點(diǎn)提及。據(jù)稱(chēng),通過(guò)過(guò)濾訓(xùn)練數(shù)據(jù)和訓(xùn)練后改進(jìn)模型行為等技術(shù),GPT-4o在設(shè)計(jì)中內(nèi)置了跨模式的安全性,并創(chuàng)建了新的安全系統(tǒng),為語(yǔ)音輸出提供護(hù)欄。
GPT-4o還與來(lái)自社會(huì)心理學(xué)、偏見(jiàn)和公平、錯(cuò)誤信息等領(lǐng)域的70多名外部專(zhuān)家開(kāi)展廣泛的外部合作,以識(shí)別新增加的模式引入或放大的風(fēng)險(xiǎn),提高與GPT-4o互動(dòng)的安全性。
OpenAI表示,將繼續(xù)減少新發(fā)現(xiàn)的風(fēng)險(xiǎn)。由于認(rèn)識(shí)到GPT-4o的音頻模式存在各種新的風(fēng)險(xiǎn),目前公開(kāi)的是文本和圖像輸入以及文本輸出,在接下來(lái)的幾周和幾個(gè)月里將圍繞技術(shù)基礎(chǔ)設(shè)施、訓(xùn)練后的可用性、發(fā)布其他模式所需的安全性開(kāi)展工作,例如音頻輸出將僅限于選定的預(yù)設(shè)聲音,并將遵守現(xiàn)有安全政策。
寫(xiě)在最后
可以看到,大模型技術(shù)正在快速發(fā)展,而OpenAI新模型GPT-4o無(wú)疑又將大模型技術(shù)和應(yīng)用推向了一個(gè)新高度。目前全球科技廠商都在積極角逐,微軟、谷歌等頭部企業(yè)都紛紛召開(kāi)發(fā)布會(huì),密集推出大模型產(chǎn)品,蘋(píng)果傳言也已與OpenAI達(dá)成協(xié)議,在 iPhone使用其技術(shù)。不難看到,接下來(lái)大模型無(wú)論是在技術(shù)升級(jí)還是應(yīng)用落地上都將會(huì)呈現(xiàn)一番新景象。
-
GPT
+關(guān)注
關(guān)注
0文章
352瀏覽量
15342 -
OpenAI
+關(guān)注
關(guān)注
9文章
1079瀏覽量
6480 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1558瀏覽量
7592 -
AI大模型
+關(guān)注
關(guān)注
0文章
315瀏覽量
305
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論