多年前,谷歌(Google)憑借AlphaGo的驚艷表現在全球掀起了一波人工智能(AI)浪潮。但近一年來在OpenAI ChatGPT所引發的AI新浪潮中,谷歌被壓著打了一年,急需一款現象級的AI產品來證明自己的實力。
自 ChatGPT 發布以來,人們一直對谷歌聲稱的競品 Gemini 模型的能力非常好奇,這款大模型早在今年 3 月就有了風聲,5 月的 I/O 大會上進入“即將推出”的狀態。
但在11月時曾有(假)消息稱,谷歌的大模型發布時間被推遲到了2024年1月,原因是“發現該AI模型不能可靠地處理一些非英語查詢”, 而對多種語言的支持對Gemini的全球成功至關重要。
虛晃一槍,還是發布了
12月7日凌晨,谷歌終于發布了自家“原生多模態”(natively multimodal)大模型Gemini。谷歌 CEO 桑達爾?皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上線,并表示這是“谷歌迄今為止最大、能力最強的AI模型”。
這樣看來,谷歌是懂放煙幕彈和玩驚喜的。Sundar Pichai在Gemini的官宣博客中寫道:
“在許多領先的基準測試中都具有最先進的性能。谷歌的第一個版本 Gemini 1.0 針對不同尺寸進行了優化:Ultra、Pro 和 Nano。這些是 Gemini 時代的第一個模型,也是谷歌今年早些時候成立 Google DeepMind 時的愿景的首次實現。這個模型的新時代代表了谷歌作為一家公司所做出的最大的科學和工程努力之一。我對未來以及雙子座將為世界各地的人們帶來的機會感到由衷地興奮。”
Gemini和ChatGPT有什么不同
所謂多模態大模型,就是和市面上現有大模型相比,可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數據中心到移動設備上,它都能夠運行,而不需要額外的專門處理或轉換。
如果要問Gemini和GPT-4有什么不同,可以將GPT-4比作一個詩人,他不僅擅長寫詩,還會畫畫,但寫詩是他的職業,畫畫只是他的副業。GPT-4能處理文字(寫詩)和圖片(畫畫),但它主要還是以文字處理為強項。
而具有“原生多模態能力”的Gemini則是一個詩人、畫家“雙料人才”,他在寫詩和畫畫方面同樣出色,沒有哪一方面比另一方面弱。Gemini能夠同時處理文字和圖片,并且在這兩個方面都做得很好,沒有主次之分。
在Gemini發布之前,谷歌在生成式AI和大語言模型(LLM)方面主推的兩款模型PaLM 2和LaMDA,在用戶當中收獲的評價一直不高,相對于業界領軍的GPT-4差距很大。
而這次對于Gemini,谷歌的評價是:“比市面上所有人工智能系統都更強大,連ChatGPT創造者OpenAI開發的技術都要甘拜下風。”
據悉,Gemini也是谷歌大腦(Google Brain)和DeepMind合并組建Google DeepMind之后的首個重要產品。有了AlphaGo戰勝人類圍棋世界冠軍的先例,人們已經不把AI在某些領域超越人類當成是新鮮事了,但在ChatGPT帶來的AGI、強人工智能“威懾”下,任何被稱為超越人類的AI,多多少少都會引發關注。
首個在MMLU測評上超過人類專家的大模型
MMLU(大規模多任務語言理解)是一個結合了數學、物理、歷史、法律、醫學和倫理學等57個科目的測試集。相比于其他測試集,MMLU的廣泛性和深度更強,它通過大量和多樣的任務來測試AI模型在理解自然語言方面的能力,特別是在復雜和多變的真實世界場景中的表現。這使得MMLU成為一個極具挑戰性的評測框架,可以全面地評估和推動大型語言模型的發展。
GPT-4與Gemini在MMLU測試集的對比
這個框架通常包括數以千計的不同任務,涵蓋廣泛的主題和挑戰。MMLU 的目的是提供一個全面且多樣化的方法,測試和評估語言模型在各種復雜和現實世界場景中的表現。其中的測試任務可能包括理解笑話、回答有關世界歷史的問題、解釋科學現象等眾多更接近于人類知識、常識和理解能力的項目。
Gemini Ultra是首個在MMLU測評上超過人類專家的大模型,取得90.0%的成績。作為對比,人類專家的成績為89.8%,GPT-4為86.4%。
谷歌在官方博客中稱:Gemini利用MMLU基準方法使Gemini能夠利用其推理能力在回答難題之前更仔細地思考,從而比僅使用第一印象有顯著改進。
LLM的主流評測數據集包括GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于評估模型在語言理解、推理、閱讀理解和常識推理等方面的能力。
Gemini Ultra在LLM研發中使用的32個多模態基準中取得30個SOTA(當前最優效果),幾乎全方位超越GPT-4。
在包括文本和編碼在內的一系列基準測試中, Gemini 的性能都超過了當前最先進的水平
除此之外,Gemini Ultra 還在新的MMMU(專家 AGI 的大規模多學科多模式理解和推理)基準測試中取得了59.4%的最先進分數,該基準測試由跨越不同領域、需要深思熟慮的推理的多模態任務組成。
測試結果顯示,Gemini Ultra 的性能優于之前最先進的模型,無需從圖像中提取文本以進行進一步處理的對象字符識別 (OCR) 系統的幫助。這些基準凸顯了雙子座天生的多模態性,并表明了雙子座更復雜推理能力的早期跡象。
Gemini在文本和編碼等一系列基準測試中的表現
能幫助碼農和學生解決大量問題
據介紹,Gemini經訓練后,能展現出更像人類的行事方式。“Gemini可以像我們一樣,理解我們周圍的世界。”谷歌DeepMind CEO Demis Hassabis表示。
在發布會上的一段演示視頻中,一個男子做出后仰并躲避的慢動作,AI馬上猜出:這是表演《黑客帝國》中“子彈時間”的場景。
當人類拿起畫筆在一張紙上勾勒出一只鴨子,并為它涂上了藍色。這次AI說道:“這可不是鴨子常見的顏色。”
三個空杯并排放在桌子上,一張藍色紙團被塞進其中一個杯子里,在人類一番眼花繚亂的操作后,AI準確地猜出:“紙團在最左邊的杯子里!”
上傳食材圖像和語音輸入,AI不僅可以指導你做菜,還能在不同階段提出相應的建議。
在視頻演示完后,谷歌 DeepMind產品副總裁Eli Collins表示,“我們離新一代人工智能模型的愿景越來越近了。這是谷歌迄今為止功能最強大、最通用的大模型。”
編程是大模型衡量能力的重要維度,也是很多碼農的剛需。Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval(用于評估編碼任務性能的重要行業標準)和 Natural2Code(谷歌內部數據集),該數據集使用作者生成的源代碼而不是基于網絡的信息。
兩年前,谷歌推出了 AlphaCode,這是第一個在編程競賽中達到競爭性水平的人工智能代碼生成系統。基于Gemini,谷歌本次還推出了更先進的編程系統AlphaCode 2,它能理解、解釋并生成 Python、Java、C++ 和 Go 等編程語言的高質量代碼。
和上一代產品AlphaCode相比,AlphaCode 2解決的問題數量幾乎是原來的兩倍,其表現優于85%的競賽參與者,AlphaCode的這一比例接近50%。如果程序員通過為代碼示例定義某些屬性來與AlphaCode 2協作,它的性能還會更好。
Gemini還擅長解決一些超出編程范圍、涉及復雜數學和理論計算機科學的編程競賽問題。以解題為例,利用Gemini的多模態推理能力,AI能夠讀懂字跡凌亂的手寫內容,正確理解問題的表述,還能夠把問題和解決方案都轉換為數字排版,識別出人類在解決問題時出錯的具體推理步驟,并一步步給出問題的正確解決方案。
例如一位老師畫了一個滑雪者從斜坡上下來的物理問題,而一位學生則提出了一個解決方案來計算滑雪者在斜坡底部的速度。利用Gemini的多模態推理能力,該模型能夠讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉換為數學公式,識別出學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。
三大版本,各有所長
本次發布包含三個版本:
Ultra是性能最強的模型,適用于高度復雜的任務,在云上運作;
Pro是可擴展各種任務的最佳通用模型;
Nano是針對端側設備的小模型,比如在手機、家電等各類消費設備上跑。Nano還細分了兩種型號尺寸:Nano-1(18 億參數)和 Nano-2(32.5 億參數),分別針對低內存和高內存設備。
其中,Gemini Pro和Gemini Nano已分別在聊天機器人Bard和智能手機Pixel 8 Pro上集成,最強大的Gemini Ultra則將在明年發布。屆時其Ultra模型將用于推出聊天機械人的強化版“Bard Advanced”,最初僅向測試受眾提供。
谷歌表示,他們還要先給客戶、開發者、合作伙伴以及安全和責任專家進行早期實驗和反饋,預計在2024年初,Ultra版本會先向開發者和企業客戶提供服務。
從發布之日起,Bard 將使用 Gemini Pro 的微調版本來執行更高級的推理、規劃、理解等。這是 Bard 自推出以來最大的升級,集成Gemini Pro之后,已經在超過170個國家和地區提供英語服務。
谷歌還根據許多行業標準基準,對Pro版本進行了測試。結果顯示,在8個基準測試中的6個里,Gemini Pro的表現優于 GPT-3.5。為了展現升級后的Bard有多強,谷歌甚至請了一個油管(Youtube)教育博主Mark Rober,全程使用Bard作為輔助工具,從零開始畫圖紙,最后真的造出了一架巨大的紙飛機!
雖然能力最弱,但Gemini Nano反倒因為使用前景明確最受關注。根據介紹,Pixel 8 Pro的用戶已經可以使用錄音app來實現“總結錄音內容”的功能,并對WhatsApp等信息服務提供推薦自動回覆文字功能。Pixel 8 Pro 也是為Gemini Nano設計的首款谷歌智能手機,很多功能不用聯網,就能直接調用。
在接下來的幾個月中,Gemini 將出現在谷歌更多的產品和服務中,例如搜索、廣告、Chrome 和 Duet AI。
強大的原因之一:專用 TPU 訓練
谷歌表示,Gemini強于競爭對手的原因之一,是其強大的計算能力。
據悉谷歌使用內部設計的張量處理單元 TPUs v4 和 v5e 在AI優化基礎設施上對 Gemini 1.0 進行了大規模訓練,并將其設計為最可靠、可擴展的訓練模型和最高效的服務模型。
在 TPU 上,Gemini 的運行速度明顯快于早期規模較小、能力較弱的模型。這些定制設計的 AI 加速器是谷歌人工智能產品的核心,這些產品為搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數十億用戶提供服務。它們還幫助世界各地的公司經濟高效地訓練大規模人工智能模型。
在訓練優化方面,Gemini增加了對模型并行性和數據并行性的利用,并對網絡延遲和帶寬進行了優化。Gemini還使用了Jax和Pathways編程模型,為復雜的數學運算(如在機器學習中常見的運算)提供了優化的支持。
Jax特別適用于高效地執行大規模的數組運算。Pathways指用于管理和協調大規模訓練任務的編程模型或框架。通過使用這些工具,Gemini模型的開發者可以使用單個Python進程來協調整個訓練過程,這樣可以簡化開發和訓練工作流,同時利用Jax和Pathways的高效性能。
發布會上,谷歌同時發布了迄今為止最強大、最高效、可擴展的 TPU 系統 —Cloud TPU v5p,稱訓練速度比前代快2.8倍,專為訓練尖端的人工智能模型而設計。新一代 TPU 將加速 Gemini 的發展,幫助開發人員和企業客戶更快地訓練大規模生成式 AI 模型,讓新產品和新功能更快地與客戶見面。
競爭者們也沒閑著
外媒稱,谷歌的Gemini旨在與ChatGPT背后的開發商OpenAI在對話式人工智能領域展開競爭。通過發布Gemini,谷歌不僅希望能與ChatGPT相媲美,還希望能超越它們,提供更無縫、更自然的對話。
雖然這次被cue,OpenAI這邊其實一直也沒閑著。據 The Information 今年9月報道,OpenAI 正在開發一款名為 Gobi 的多模態大模型,對標的正是谷歌Gemini。不過目前關于這款大模型產品的具體信息尚不確認,OpenAI 原本希望可以在谷歌Gemini發布之前推出,但很明顯被“宮斗”耽誤了。
另外就在谷歌發布Gemini之前,微軟剛剛宣布了旗下AI助手Copilot重大升級,將接入OpenAI的最新模型GPT-4 Turbo。
Gemini的發布掀起了多模態領域的冰山一角,這類領域目前還在技術探索初期,技術路徑還未確定。比起大語言模型,多模態模型增加了音頻、視頻、圖片這些數據,訓練難度也更大。
但為什么巨頭們還要做?據思科的年度互聯網報告——視頻已經占據互聯網超過80%的流量。在視頻內容已經稱為信息時代主流的時候,單純只有文字和圖片的大模型顯然是不夠的。
雖然目前看起來, Google Gemini在“跑分”上更勝一籌,但接下來,更重要的是各家大模型在實際應用中的比拼。其中AI安全是最近的熱門話題,也是谷歌本次重點強調的。
谷歌基礎設施與系統副總裁Amin Vahdat表示,Gemini在開發的各個階段都會考慮潛在的風險,并努力進行測試和降低這些風險。
他透露,Gemini的安全評估包括偏見和毒性評估,并應用了 Google Research 的對抗性測試技術,幫助在部署 Gemini 之前檢測關鍵的安全問題。
例如,為了在 Gemini 的訓練階段診斷內容安全問題,并確保其輸出符合政策,谷歌團隊使用了一些基準測試,例如真實毒性提示(Real Toxicity Prompts),這是一套由 Allen Institute of AI 的專家開發的基準測試,包含了從網絡上提取的 10 萬條具有不同程度毒性的提示。
此外,為了減少傷害,團隊還構建了專門的安全分類器來識別、標記和篩選涉及暴力或負面刻板印象等方面的內容。“此外,我們正繼續解決模型面臨的已知挑戰,例如事實性、基礎、歸因性以及協作性。”
谷歌沒有透露未來是否會專門為Gemini定制應用程序,但高管對記者表示,更加希望看到用戶在這種技術的基礎上創建更多的應用程序。
谷歌透露,從 12 月 13 日開始,開發者和企業客戶可以通過 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 獲取 Gemini Pro。
審核編輯:黃飛
評論
查看更多