本文作者 /ML 谷歌開發者專家王玉成
介紹
在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen 3 模型根據這些提示生成高質量的圖像,您可以獲得卓越的視覺效果。這個過程并不止于此;一旦圖像生成,Imagen 2 可以進一步優化以滿足特定需求,從而創建一個強大的工作流程,用于制作頂級視覺內容。
使用 Gemini 進行提示生成
Gemini 是谷歌開發的強大語言模型,擅長生成連貫且上下文準確的文本。在這個工作流程中,Gemini 用于創建詳細且富有想象力的提示,這些提示將作為圖像生成的基礎。提示的質量至關重要,因為它直接影響 Imagen 2 模型的輸出。通過仔細制作或完善 Gemini 的 Prompt,您可以確保生成的圖像與您的創意愿景相一致。
使用 Imagen 3 生成圖像
一旦從 Gemini 獲得了精心制作的 Prompt,下一步就是使用谷歌的 Imagen 3 模型生成圖像。Imagen 3 是一個尖端的生成式 AI 模型,專門根據文本描述生成高分辨率、細節豐富的圖像。該模型以其能夠以驚人的準確性渲染復雜場景、紋理和光照而脫穎而出。通過將 Gemini 生成的提示輸入到 Imagen 3 中,你可以創建不僅視覺上令人驚嘆,而且精確符合初始概念的圖像。
使用 Imagen 2 精調生成的圖像
該工作流程的最后一步是優化由 Imagen 2 生成的圖像。根據需求,這可能涉及調整顏色、增強細節,甚至合并多張圖像。目標是對來自 Imagen 3 的高質量輸出進行微調,以確保最終圖像完全符合所需的美學和功能標準。
關于 Imagen 模型的有用資源
在 Vertex AI 上查找主題 Imagen | AI 圖像生成器以獲取更多信息。此頁面指導如何請求訪問 Vertex AI 上的 Imagen。
工作流程
準備 Prompt
Vertex AI 提供多個模塊供使用。首先打開 Gemini 以生成滿足我們需求的理想 Prompt。要全面了解 Prompt 創建的關鍵方面,您可以閱讀 Prompt 和圖像屬性指南 (需要有限訪問權限)。
我們選擇 gemini-1.5-flash 作為當前的語言模塊,它為高容量、高質量、具有成本效益的應用提供了速度和效率。有關更多信息,請閱讀 Gemini 模塊。
點擊 Edit 輸入系統指令,然后點擊保存。
System instructions:
You are an experienced article illustrator, skilled in creating illustrations for articles with a deep cultural background, capable of understanding the deeper meaning behind the text.
Prompt:
I'm currently reading the novel `One Hundred Years of Solitude` and plan to write an article expressing my sympathy for the tragic fate of the family. To enrich the content, I intend to include some illustrations in the article. After the title, I need an image that visually represents the time period and setting of the novel. We will generate and modify this image to achieve the desired effect.
I want to generate a prompt to help me generate an image, and the prompt contains the basic rules:
1. Short keyword-based prompts separated by commas.
2. Prompt includes: "A painting of...", "A sketch of..."for example
3. General Modifiers:high-quality, beautiful, stylized for example
4. Photos: like 4K, HDR, Studio Photo for example
5. Art, Illustration:by a professional, detailed for example
輸入 Prompt 并點擊紅色標記的部分以生成結果。
結果:
原始結果:
A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, high-quality, by a professional artist.
Here are some variations for your prompt based on specific aspects of "One Hundred Years of Solitude":
Focus on the Buendía family: "A sketch of, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed"
Highlight the cyclical nature of history: "A photorealistic image of, a crumbling, overgrown mansion in a jungle setting, with the remnants of a forgotten era, HDR, stylized"
Emphasize the magical elements: "A painting of, a vibrant, surreal landscape, with fantastical creatures and strange weather patterns, in a dreamlike style, high-quality, beautiful"
By combining different elements of these prompts, you can create a visually striking image that perfectly captures the essence of "One Hundred Years of Solitude." Remember to experiment with different keywords and art styles to find the ideal representation for your article.
修改結果:
A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.
打開 Imagen 3,檢查高級選項,如下所示:
確保選項 Person/face generation is Allow (Adults Only)
此選擇用于避免產生如下問題 "圖像生成失敗,出現以下錯誤:項目或用戶未被允許關閉兒童檢測過濾器":
輸入 Prompt:
A painting of, a bustling town square in a South American village, early 20th century, with a sense of magic realism, by a professional artist, Focus on the Buendía family, the Buendía family gathered at a table, in a traditional Colombian home, with a feeling of isolation, high-quality, detailed.
點擊 GENERATE,結果應該是這樣的:
我喜歡第二個。我們可以點擊第二張圖片:
對話框顯示如下:
我們使用 UPSCALE/EXPORT 按鈕下載此圖像,選擇 Upscle images (如果需要):
點擊 EXPORT 按鈕以下載 PNG 格式的圖像。
我們想編輯這張圖片,所以我們再次檢查了第二張圖片。
點擊 EDIT IMAGE 按鈕。
頂部有很多工具可以幫助我們編輯圖像。Imagen 3 現在不支持 Edit image,確保模型已更改為 imagen 2 (預計 Imagen 3 將在未來支持 Edit image)。
我想把所有遠離桌子的人都移走,只留下在桌子旁邊的人。所以我添加了一個 Musk box (遮罩盒) 并生成了一張圖像。我們不需要任何提示來進行此操作。
點擊 GENERATE 按鈕后的結果:
為什么?二樓的閣樓消失了,與一樓合并,并創建了 4 幅圖片。
原來,我在原始圖片上添加了三個 Musk box,兩個 Musk box 給人打了 Musk,一個 Musk box 給二樓打了 Musk。Imagan 3 的編輯操作有多智能?我們可以持續編輯圖像。
結果是:
這是我想要的最終圖片。如果您有權限,請閱讀有關圖像編輯的更多信息。
結論
通過將谷歌的 Gemini 模型的創造力與 Imagen 3 的先進圖像生成能力以及 Imagen 2 的編輯能力相結合,您可以開發出一個強大的工作流程,以生成高質量、精致的圖像。這個過程允許從文本到視覺內容的無縫過渡,提供對最終輸出的靈活性和控制。無論是用于廣告、內容創作還是藝術創作,這種方法都提供了一個強大的工具集,以實現卓越的視覺效果。
-
谷歌
+關注
關注
27文章
6171瀏覽量
105494 -
Gemini
+關注
關注
0文章
54瀏覽量
7604 -
AI
+關注
關注
87文章
31000瀏覽量
269333
原文標題:【GDE 分享】利用谷歌的 Gemini 和 Imagen 模型進行高質量圖像生成和優化
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論