信息是人類進(jìn)步的基石。26 年來,我們始終專注于我們的使命——整合全球信息,供大眾使用,讓人人受益。這也是我們持續(xù)拓展人工智能前沿領(lǐng)域的原因。我們整合來自世界各地的信息,并通過多樣化的輸出方式,讓這些信息觸手可及,真正為您所用。
正是基于這個(gè)愿景,我們在去年年底推出了 Gemini 1.0。作為首個(gè)原生多模態(tài)模型,Gemini 1.0 和 1.5 在多模態(tài)和長上下文處理方面取得了重大進(jìn)展,能夠理解跨越文本、視頻、圖像、音頻和代碼等多種形式的信息,并處理更為龐大的信息。
現(xiàn)在,數(shù)百萬開發(fā)者正在基于 Gemini 進(jìn)行開發(fā)。Gemini 也正在幫助我們自己重新構(gòu)想所有的產(chǎn)品——包括我們擁有 20 億用戶的 7 款產(chǎn)品——并打造新的產(chǎn)品。NotebookLM 就是個(gè)很好的例子,它展示了多模態(tài)和長上下文能夠?yàn)槿藗儙硎裁?,以及為什么如此受大家喜愛?/p>
在過去一年里,我們在持續(xù)開發(fā)更多智能體模型,這也意味著它們可以更好地理解周圍的世界,提前思考多個(gè)步驟,并在您的監(jiān)督下代表您行動。
今天,我們很高興推出了為新智能體時(shí)代構(gòu)建的下一代模型: Gemini 2.0,這是我們迄今為止最強(qiáng)大的模型。憑借在多模態(tài)方面的新進(jìn)展——例如原生圖像和原生音頻的輸出以及原生工具使用——Gemini 2.0 使我們能夠構(gòu)建新的 AI 智能體,從而讓我們離構(gòu)建通用助手的愿景更進(jìn)一步。
今天,我們將 2.0 開放給開發(fā)者以及受信任的測試人員。我們也正在積極推進(jìn)將其整合到我們的產(chǎn)品中,率先從 Gemini 和 Search 開始。從今天開始,Gemini 2.0 Flash 體驗(yàn)版模型將對所有 Gemini 用戶開放。同時(shí),我們還推出了 Deep Research 的新功能,它運(yùn)用高級推理和長上下文處理能力,承擔(dān)研究助手的角色,幫助您探索復(fù)雜的主題并撰寫報(bào)告。該功能自今日起對 Gemini Advanced 用戶開放。
Search 無疑是受到人工智能影響最深遠(yuǎn)、變革最顯著的產(chǎn)品。如今,AI Overviews 已觸達(dá) 10 億用戶,該功能使用戶能夠提出全新的問題類型,迅速成為 Search 有史以來最受歡迎的功能之一。接下來,我們會將 Gemini 2.0 的高級推理能力融入 AI Overviews,以攻克更復(fù)雜的主題和多步驟問題,包括高等數(shù)學(xué)方程、多模態(tài)查詢和編碼。我們本周已經(jīng)在小范圍進(jìn)行了測試,并計(jì)劃于明年年初在更大范圍推出。同時(shí),我們還計(jì)劃明年將 AI Overviews 功能面向更多國家開放,適配更多語言。
2.0 的進(jìn)展得益于我們所特有的長達(dá) 10 年全棧式 AI 創(chuàng)新研究的投入。它基于我們定制的硬件第六代 TPU Trillium 構(gòu)建而成。TPU 為 Gemini 2.0 的訓(xùn)練和推理提供 100% 算力支持,今天 Trillium 也全面向用戶開放,以便他們能夠基于此進(jìn)行開發(fā)。
如果說 Gemini 1.0 是整合和理解信息,那么 Gemini 2.0 能夠讓信息更加有用。我非常期待 Gemini 2.0 時(shí)代的無限可能!
作者:
Demis Hassabis,Google DeepMind CEO
Koray Kavukcuoglu,Google DeepMind CTO
代表 Gemini 團(tuán)隊(duì)
在過去一年中,我們在人工智能領(lǐng)域取得了巨大進(jìn)步。今天,我們發(fā)布 Gemini 2.0 系列模型中的第一個(gè)模型: Gemini 2.0 Flash 的體驗(yàn)版。這是我們的主力模型,具有低延遲特性,而且在我們大規(guī)模技術(shù)前沿中展現(xiàn)了卓越的性能。 同時(shí),我們還通過展示基于 Gemini 2.0 原生多模態(tài)功能的原型來分享我們關(guān)于智能體的前沿研究。
Gemini 2.0 Flash
Gemini 2.0 Flash 是建立在 1.5 Flash 的成功基礎(chǔ)之上,而 1.5 Flash 是我們迄今為止最受開發(fā)者歡迎的版本。與 1.5 Flash 相比,Gemini 2.0 Flash 在同樣快速的響應(yīng)時(shí)間下性能進(jìn)一步增強(qiáng)。值得一提的是,2.0 Flash 在關(guān)鍵基準(zhǔn)測試中甚至超越了 1.5 Pro,其速度是 1.5 Pro 的兩倍。同時(shí) 2.0 Flash 還具有新功能,除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,2.0 Flash 現(xiàn)在還可以支持多模態(tài)輸出,例如可以直接生成圖像與文本混合的內(nèi)容,以及原生生成可控的多語言文本轉(zhuǎn)語音 (TTS) 音頻。它還可以原生調(diào)用 Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。
我們的目標(biāo)是讓人們能夠更安全、快速地使用我們的模型。在過去一個(gè)月,我們分享了 Gemini 2.0 的早期體驗(yàn)版,并得到了開發(fā)者的積極反饋。 作為提供給開發(fā)者的體驗(yàn)版模型,Gemini 2.0 Flash 現(xiàn)在可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 獲取,所有開發(fā)者均可使用多模態(tài)輸入和文本輸出,搶先體驗(yàn)的合作伙伴可使用原生文本轉(zhuǎn)語音和圖像生成功能。該產(chǎn)品將于 1 月份全面上市,屆時(shí)將推出更多型號。 為了幫助開發(fā)者構(gòu)建動態(tài)和交互式應(yīng)用程序,我們還發(fā)布了新的 Multimodal Live API,它具有實(shí)時(shí)音頻、視頻流輸入以及使用多個(gè)組合工具的能力。有關(guān) 2.0 Flash 和 Multimodal Live API 的更多信息,請參閱我們的開發(fā)者博客。
Gemini 2.0 應(yīng)用于
我們 AI 助手 Gemini app
同樣從今天開始,全球的 Gemini 用戶可以通過在電腦端和移動端網(wǎng)頁的模型下拉菜單中進(jìn)行選擇,來開啟基于 2.0 Flash 體驗(yàn)版優(yōu)化后的聊天對話,并且該版本將很快在 Gemini 移動應(yīng)用中推出。同時(shí),基于這個(gè)新模型,用戶還可以體驗(yàn)到更加有用的 Gemini 助手。
明年初,我們還會將 Gemini 2.0 擴(kuò)展到更多 Google 產(chǎn)品中。
解鎖 Gemini 2.0 智能互動新體驗(yàn)
Gemini 2.0 Flash 的原生用戶界面操作能力,以及多模態(tài)推理、長文本理解、復(fù)雜指令跟隨和規(guī)劃能力、組合函數(shù)的調(diào)用,原生工具使用以及延遲優(yōu)化等一系列優(yōu)化改進(jìn),共同促進(jìn)了全新的、更智能化的交互體驗(yàn)。
AI 智能體在現(xiàn)實(shí)中的應(yīng)用是一個(gè)令人振奮且充滿可能性的研究領(lǐng)域。我們正在探索這個(gè)全新的領(lǐng)域,開發(fā)出了一系列原型,這些原型能夠幫助人們完成任務(wù),達(dá)成相應(yīng)的目標(biāo)。其中包括:
Project Astra 的升級版,用于探索未來通用 AI 助手能力的研究原型;
全新的 Project Mariner,從瀏覽器入手,探索人與智能體交互的未來發(fā)展;
Jules,能夠幫助開發(fā)者的 AI 驅(qū)動的編碼智能體。
目前,我們?nèi)蕴幱陂_發(fā)初期,但我們非常期待看到受信任的測試人員來使用這些新功能,并從他們的反饋中汲取經(jīng)驗(yàn),不斷完善,進(jìn)而幫助我們在未來將新功能應(yīng)用到更廣泛的產(chǎn)品中。
Project Astra:使用多模態(tài)理解現(xiàn)實(shí)世界的智能體
自從在 Google I/O 大會上推出 Project Astra 以來,我們一直向那些在 Android 手機(jī)上使用它的受信任的測試人員收集反饋。這些大量且寶貴的意見幫助我們更深入地理解通用 AI 助手在現(xiàn)實(shí)應(yīng)用中的表現(xiàn),包括在安全和倫理方面可能面臨的挑戰(zhàn)?;?Gemini 2.0 版本,我們在以下方面進(jìn)行了改進(jìn):
更流暢的對話:Project Astra 現(xiàn)在可以在多種語言和混合語言之間進(jìn)行對話,并且能夠更好地理解不同口音和生僻單詞。
新工具的使用:借助 Gemini 2.0,Project Astra 可以使用 Google Search、Google Lens 和 Google Maps,從而在日常生活中更好地發(fā)揮助手作用。
更強(qiáng)的記憶力:我們增強(qiáng)了 Project Astra 的記憶能力,同時(shí)確保你可以掌控對話。現(xiàn)在,它最多可以記住長達(dá) 10 分鐘的會話內(nèi)容,并且可以回憶起過去與它進(jìn)行的更多對話,以便為您提供更好的個(gè)性化服務(wù)。
更低的延遲:借助新的流式處理技術(shù)和原生音頻理解能力,該智能體能夠以近于人類對話的延遲來理解語言。
我們正在將這些功能應(yīng)用于 Google 的產(chǎn)品中,例如我們的 AI 助手 Gemini app 以及智能眼鏡等其他設(shè)備。除此之外,我們將逐步擴(kuò)大受信任的測試群體范圍,其中的一小部分受信任的測試人員將很快能夠開始測試 Project Astra 在原型智能眼鏡上的表現(xiàn)。
Project Mariner: 幫您完成
復(fù)雜任務(wù)的智能體
Project Mariner 是使用 Gemini 2.0 構(gòu)建的早期研究原型,旨在從您的瀏覽器開始,探索人機(jī)交互的未來。作為研究原型,它能夠理解和推理瀏覽器頁面中的信息,包括像素和文本、代碼、圖像和表單等網(wǎng)頁元素,然后通過實(shí)驗(yàn)性的 Chrome 擴(kuò)展程序使用這些信息為您完成任務(wù)。 在 WebVoyager 基準(zhǔn)測試 (該測試針對智能體在端到端的真實(shí)世界網(wǎng)頁任務(wù)的性能) 中,Project Mariner 作為單個(gè)智能體設(shè)置實(shí)現(xiàn)了 83.5% 的工作效率,達(dá)到了最先進(jìn)的水平。 雖然目前 Project Mariner 的運(yùn)行并非總是準(zhǔn)確,且完成任務(wù)的速度較慢,但它仍處于早期階段,并且隨著時(shí)間的推移將迅速改善。 為了安全、負(fù)責(zé)任地構(gòu)建這一系統(tǒng),我們正在積極研究新型風(fēng)險(xiǎn)和應(yīng)對措施,始終保持有人類的參與和監(jiān)督。例如,Project Mariner 只能在瀏覽器上的活動標(biāo)簽頁中鍵入、滾動或單擊,而它在采取某些敏感操作 (如購買某物) 之前,會要求用戶進(jìn)行最終確認(rèn)。 受信任的測試人員現(xiàn)在正開始使用實(shí)驗(yàn)性的 Chrome 擴(kuò)展程序測試 Project Mariner,同時(shí),我們正與網(wǎng)絡(luò)生態(tài)系統(tǒng)展開合作。
Jules: 面向開發(fā)者的智能體
接下來,我們會探索人工智能智能體如何通過 Jules (一種實(shí)驗(yàn)性的 AI 代碼智能體,它可以直接集成到 GitHub 工作流程中) 來協(xié)助開發(fā)者。它可以解決問題、制定并執(zhí)行計(jì)劃,所有這些都在開發(fā)者指導(dǎo)和監(jiān)督下進(jìn)行。這項(xiàng)工作是我們長期目標(biāo)的一部分,即構(gòu)建可在所有領(lǐng)域 (包括編碼) 中提供幫助的 AI 智能體。 關(guān)于此實(shí)驗(yàn)的更多信息,請參閱我們的開發(fā)者博客文章。
游戲和其他領(lǐng)域的智能體
Google DeepMind 一直以來都在利用游戲來幫助人工智能模型更好地遵守規(guī)則,進(jìn)行規(guī)劃,并運(yùn)用邏輯思維。比如就在上周,我們推出了 Genie 2,這是一個(gè)可以從單個(gè)圖像創(chuàng)建無限多種可玩 3D 世界的 AI 模型。基于這一傳統(tǒng),我們使用 Gemini 2.0 構(gòu)建了智能體,它們可以幫助您在電子游戲中做出更明智的決策。這些智能體可以根據(jù)屏幕上的實(shí)時(shí)畫面,分析游戲情況,并為您提供下一步行動建議。 我們正在與 Supercell 等頂尖的游戲開發(fā)團(tuán)隊(duì)合作,探索智能體在游戲領(lǐng)域的應(yīng)用。我們通過測試它們在《部落沖突》、《海島奇兵》等各種游戲中的表現(xiàn),來評估它們理解游戲規(guī)則、應(yīng)對挑戰(zhàn)的能力。 除了做虛擬游戲伙伴之外,這些智能體還可以通過 Google Search 讓您接觸到豐富的游戲相關(guān)的知識。 除了探索虛擬世界的智能體能力外,我們還將 Gemini 2.0 的空間推理能力應(yīng)用于機(jī)器人領(lǐng)域,嘗試讓智能體在現(xiàn)實(shí)世界中提供幫助。雖然這項(xiàng)研究仍處于初期階段,但我們對智能體在現(xiàn)實(shí)環(huán)境中的應(yīng)用前景感到非常興奮。 關(guān)于這些研究原型和實(shí)驗(yàn)的更多信息,請您查閱 labs.google。
在智能體時(shí)代負(fù)責(zé)任地進(jìn)行構(gòu)建
通過 Gemini 2.0 Flash 和我們的研究原型,我們能夠不斷測試和迭代 AI 研究的前沿新功能,這些新功能最終將提升 Google 產(chǎn)品的實(shí)用性。 在開發(fā)這些新技術(shù)的同時(shí),我們深知其所帶來的責(zé)任,也意識到 AI 智能體在安全方面可能引發(fā)的諸多問題。正因如此,我們采取探索性和漸進(jìn)式的開發(fā)方式。我們對多個(gè)原型進(jìn)行深入研究,不斷迭代地實(shí)施安全培訓(xùn),與受信任的測試人員和外部專家合作,并進(jìn)行全面的風(fēng)險(xiǎn)評估和安全性測評。
例如
作為我們安全管理流程的一部分,我們一直與內(nèi)部審查小組,責(zé)任與安全委員會 (RSC) 積極合作,以識別和評估潛在風(fēng)險(xiǎn)。
借助 Gemini 2.0 強(qiáng)大的推理能力,我們在 AI 輔助的紅隊(duì)測試中取得了重大進(jìn)展。除了能檢測潛在風(fēng)險(xiǎn),還能夠自動生成評估報(bào)告和訓(xùn)練數(shù)據(jù)來幫助我們減少風(fēng)險(xiǎn),從而讓我們可以更有效地大規(guī)模優(yōu)化模型,提升安全性。
隨著 Gemini 2.0 多模態(tài)能力的增強(qiáng),潛在輸出的復(fù)雜性也隨之增加。為了應(yīng)對這種復(fù)雜性,我們將持續(xù)評估和訓(xùn)練模型處理圖像和音頻的輸入輸出,提升模型的安全性。
通過 Project Astra,我們正在積極探索可能有效的措施,防止用戶無意中將敏感信息泄露給 AI 智能體,并且我們已經(jīng)內(nèi)置了隱私控制功能,用戶可以輕松刪除會話。我們還在繼續(xù)研究如何確保 AI 智能體作為可靠的信息來源,同時(shí)避免執(zhí)行未經(jīng)授權(quán)的操作。
通過 Project Mariner,我們嘗試確保模型能夠優(yōu)先處理用戶指令,并有效抵御外部嘗試輸入的提示詞,從而識別外部來源的潛在惡意指令并防止濫用。這有助于保護(hù)用戶免受隱藏在電子郵件、文檔或網(wǎng)站中的惡意指令的侵害,降低用戶遭受欺詐和網(wǎng)絡(luò)釣魚攻擊的風(fēng)險(xiǎn)。
我們深信,AI 的構(gòu)建必須從一開始就秉持高度的責(zé)任感。我們將始終將安全和責(zé)任置于模型開發(fā)過程的優(yōu)先位置,不斷完善我們的模型和智能體。
Gemini 2.0、AI 智能體以及更多
今天的發(fā)布標(biāo)志著 Gemini 模型邁入了新的發(fā)展階段。隨著 Gemini 2.0 Flash 以及一系列探索 AI 智能體可能性的研究原型的推出,我們非常開心在 Gemini 時(shí)代達(dá)到了一個(gè)重要的里程碑。我們也期待著繼續(xù)安全地探索所有的可能性,向構(gòu)建通用人工智能 (AGI) 不斷邁進(jìn)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6161瀏覽量
105300 -
Gemini
+關(guān)注
關(guān)注
0文章
53瀏覽量
7591 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886
原文標(biāo)題:Gemini 2.0: 我們智能體時(shí)代的最新 AI 模型
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論