作者 / 資深開發者關系工程師 Omar Sanseviero;開發者關系工程師 Philipp Schmid
自首次推出以來,Gemma 模型的下載量已超過 1 億次,社區為各種用例創建了超過 60,000 個變體1。我們很高興推出 Gemma 3,這是 Gemma 開放模型系列中最強大、最先進的版本,建立在之前成功推出的 Gemma 版本之上。我們聽取了社區反饋,并添加了最受歡迎的功能,例如更長的上下文、多模態支持等等!
Gemma 有哪些新功能?
Gemma 3 中引入了多模態功能,支持視覺語言輸入和文本輸出。它處理的上下文窗口最多可達 128k tokens,理解超過 140 種語言,并提供經過改進的數學、推理和聊天能力,包括結構化輸出和函數調用。Gemma 3 提供四種規格 (1B、4B、12B 和 27B),既有可針對您自己的用例和領域進行微調的預訓練模型,也有通用指令調優版本。
Gemma 是如何構建的?
Gemma 組合運用蒸餾、強化學習和模型合并等技術,優化了預訓練和后訓練流程。這種方法提高了其在數學、編碼和指令遵循方面的性能。Gemma 3 使用了新的分詞器,以更好地支持 140 多種語言,并在 Google TPU 上使用 JAX 框架進行了訓練,數據量分別為:1B 模型 2T tokens,4B 模型 4T tokens,12B 模型 12T tokens,以及 27B 模型 14T tokens。
對于后訓練流程,Gemma 3 使用 4 個組件:
從較大的 INSTRUCT 模型蒸餾到 Gemma 3 預訓練檢查點。
從人類反饋 (RLHF) 中強化學習,以使模型預測與人類偏好保持一致。
從機器反饋 (RLMF) 中強化學習,以增強數學推理。
從執行反饋 (RLEF) 中強化學習,以提升編碼能力。
這些更新顯著改善了模型的數學、編碼和指令遵循能力,使其成為 LMArena 中最優秀的開源緊湊模型,得分為 1,338。
Gemma 3 的指令版本沿用與 Gemma 2 相同的對話格式,因此您無需更新工具即可更新到最新版本以進行純文本輸入。對于圖像輸入,Gemma 3 允許指定與文本交錯的圖像。
多輪文本示例
user knock knock model who is there user Gemma model Gemma who?
交錯圖像示例
user Image A: Image B: Label A: water lily Label B: model Desert rote
多模態性
Gemma 3 集成了基于 SigLIP 的視覺編碼器。Gemma 3 視覺模型在訓練期間保持凍結狀態,并且在不同規格 (4B、12B 和 27B) 的模型中都是相同的。因此,Gemma 可以使用圖像和視頻作為輸入,從而分析圖像、回答有關圖像的問題、比較圖像、識別物體,甚至回復圖像中的文本。雖然該模型最初是為處理 896x896 像素的圖像而創建的,但由于使用了一種新的自適應窗口算法來分割輸入圖像,Gemma 3 現在能夠處理高分辨率和非方形圖像。
△ 輸出:根據圖像,可能會打開加熱功能的按鈕是暖房 (Danbou)。在日語中,"暖房" 意為 "加熱"。您可以按下該按鈕來激活空調/溫度控制系統的加熱功能。帶有加號 (+) 的按鈕可能會在您選擇加熱模式后用來調節溫度。
ShieldGemma 2
ShieldGemma 2 是基于 Gemma 3 構建的 4B 圖像安全分類器。它針對各個關鍵安全類別輸出標簽,以安全審核合成圖像 (來自圖像生成模型) 和自然圖像 (可作為諸如 Gemma 3 等視覺語言模型的輸入過濾器)。了解有關 ShieldGemma 2 的更多信息。
您要開發哪些應用?
Gemma 社區的創造力和 Gemmaverse 的爆發式增長,正不斷給我們帶來驚喜。從研究實驗室探索創新微調技術的實踐,到開發者用全新模態訓練 Gemma,我們熱切期待看到您的下一個突破。普林斯頓 NLP 開發的 SimPO 方法,該方法在沒有參考模型的情況下直接針對人類偏好進行優化,是實驗室創新微調的典型案例;另一例子是 INSAIT 針對保加利亞語訓練出最先進的大語言模型。而 Nexa 在 OmniAudio 上的嘗試為開發者使用全新模態訓練 Gemma 提供了典型案例。我們迫不及待地想看看您接下來會取得哪些突破。
Gemma 3 快速入門指南
準備好探索 Gemma 3 的潛力了嗎?下面是操作步驟:
直接體驗:只需點擊幾下,即可在 Google AI Studio 中試用 Gemma 3。
下載模型:在 Hugging Face 和 Kaggle 上查找模型權重。
學習并整合:深入了解我們的技術報告和全面的文檔,以快速將 Gemma 集成到您的項目中;您也可以從我們的推理指南開始體驗,或嘗試使用自定義數據集進行微調。
使用您喜歡的開發工具:運用您偏好的工具和框架,包括 Hugging Face Transformers、Ollama、我們的新 Gemma JAX 庫、MaxText、LiteRTGemma.cpp、llama.cpp 和 Unsloth。
靈活部署:Gemma 3 提供多種部署選項,包括 Google GenAI API、Vertex AI、Cloud Run、Cloud TPU、Cloud GPU 以及跨平臺集成,讓您靈活選擇最適合自身用例的方案。
-
Google
+關注
關注
5文章
1782瀏覽量
58540 -
gpu
+關注
關注
28文章
4887瀏覽量
130439 -
AI
+關注
關注
87文章
33642瀏覽量
274376 -
模型
+關注
關注
1文章
3470瀏覽量
49855 -
開發者
+關注
關注
1文章
611瀏覽量
17329
原文標題:Gemma 3 開發者指南 | 快速集成與部署,輕松釋放 AI 潛力
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
谷歌開發者大會2016北京站圖文直播 Google開發者大會精彩內容回顧
Android開發者如何快速體驗Android N
OpenHarmony開發者文檔
java開發者現在可以使用Google的PaaS云服務來構建網頁應用
華為開發者大會OpenHarmony開發樣例共建與開發者成長圖譜

一文知曉 2023 Google 游戲開發者峰會主要產品更新
助力游戲開發者,看 Google 有哪些 "上新"?
明日開幕|2023 Google 谷歌開發者大會線上觀看指南

多元共進|2023 Google 谷歌開發者大會主旨演講亮點回顧

Zynq UltraScale+ MPSoC:軟件開發者指南

評論