中文乱码35页在线观看,真实交videos人妖,驭灵师小说

2. 引言

最近通過文本生成圖像的深度學習相關技術取得了非常大的進展，2021已經成為了圖像生成的一個新的milestone，諸如DALL-E和Stable diffusion這種模型都取得了長足的進步，甚至達到了“出圈”的效果。通過簡單文本prompts，用戶能夠生成前所未有的質量的圖像。這樣的模型可以生成各種各樣的對象、風格和場景，并把它們進行組合排序，這讓現有的圖像生成模型看上去是無所不能的。

但是，盡管這些模型具有多樣性和一些泛化能力，用戶經常希望從他們自己的生活中合成特定的概念。例如，親人、朋友、寵物或個人物品和地點，這些都是非常有意義的concept，也和個人對于生成圖像的信息有對齊。由于這些概念天生就是個人的，因此在大規模的模型訓練過程中很難出現。

事后通過詳細的文字，來描述這種概念是非常不方便的，也無法保留足夠多的視覺細節來生成新的personal的concepts。這就需要模型具有一定的“定制”能力。也就是說如果給定少量用戶提供的圖像，我們能否用新概念（例如寵物狗或者“月亮門”，如圖所示）增強現有的文本到圖像擴散模型？經過微調的模型應該能夠將它們與現有概念進行概括并生成新的變化。這帶來了幾個比較嚴峻的挑戰：

首先，模型傾向于遺忘現有概念的含義：例如，在添加“moon gate”這一concept的時候，“moon”的含義就會丟失。

其次，由于stable diffusion這樣的網絡往往參數會超級多，所以在小數據上訓練模型，容易造成對訓練樣本進行過擬合，而且采樣中變化也有限。

此外，論文還關注了一個更具挑戰性的問題，即組group fine-tuning，即能夠超越單個個體concept的微調，并將多個概念組合在一起。學習多個新的concepts同時也是存在一定的挑戰的，比如 concept mixing以及concept omission。

在這項工作中，論文提出了一種fine-tuning技術，即文本到圖像擴散模型的“定制擴散”。我們的方法在計算和內存方面都很有效。為了克服上述挑戰，新方法固定一小部分模型權重，即文本到潛在特征的key值映射在cross-attention layer中。fine-tuning這些足以更新模型的新concepts。

為了防止模型喪失原來強大的表征能力，新方法僅僅使用一小組的圖像與目標圖像類似的真實圖像進行訓練。我們還在微調期間引入data的augamation，這可以讓模型更快的收斂，并獲得更好的結果。論文提出的方法實驗是構建在Stable Diffusion之上，并對各種數據集進行了實驗，其中最少有四幅訓練圖像。

對于添加單個concept，新提出的方法顯示出比相似任務的作品和基線更好的文本對齊和視覺相似性。更重要的是，我們的方法可以有效地組成多個新concepts，而直接對不同的concepts進行組合的方法則遇到困難，經常會省略一個。最后，我們的方法只需要存儲一小部分參數（模型權重的3％），消耗的GPU memory非常有限，同時也減少了fine-tuning的時間。

3. 方法

總結來講，論文提出的方法，就是僅更新權重的一小部分，即模型的交叉注意力層。此外，由于目標概念的訓練樣本很少，所以使用一個真實圖像的正則化集，以防止過擬合。

對于Single-Concept Fine-tuning，給定一個預訓練的text-to-image diffusion model，我們的目標是在模型中加入一個新的concept，只要給定四張圖像和相應的文本描述進行訓練。fine-tuning后的模型應保留其先驗知識，允許根據文本提示使用新概念生成新的圖像類型。

這可能具有挑戰性，因為更新的文本到圖像的映射可能很容易過擬合少數可用圖像。所以保證泛化性就非常有必要，也比較有挑戰。所以就僅僅fine-tuning新的K和V，而對于query，則保持不變，這樣就可以增加新概念的同時，保證模型的表征能力不受到太多的影響。優化目標還是diffusion的形式：

概括起來實際上非常簡單，就是訓練一個k和v的矩陣，來擴充維度，增加模型的表征能力，使其能生成更為豐富的圖像內容。

而對于Multiple-Concept Compositional Fine-tuning，為了對多個概念進行微調，我們將每個概念的訓練數據集合并，并使用我們的方法將它們聯合訓練。為了表示目標概念，我們使用不同的修飾符的，并將它們與每個層的交叉注意關鍵和值矩陣一起初始化，并優化它們。通過將權重更新限制為交叉注意key和value參數，與DreamBooth等方法相比，可以顯著更好地將兩個概念合并在一起。

可以發現，增加約束還是讓模型具有更強的表征能力的。最下面一行才和真正的門比較相似，同時生成的月亮也非常合理。

4. 實驗

給定一個新concepts的圖像如左側顯示的目標圖像，提出的方法可以在看不見的上下文和藝術風格中生成帶有該概念的圖像。

第一行：代表水彩畫藝術風格中的概念。方法還可以在背景中生成山脈，而 DreamBooth 和 Textual Inversion 忽略了這一點。

第二行：改變背景場景。我們的方法和 DreamBooth 的表現與 Textual Inversion 相似且更好。

第三行：添加另一個對象，例如帶有目標桌子的橙色沙發。新的方法成功地添加了另一個對象。第四行：改變對象屬性，如花瓣的顏色。第五行：用太陽鏡裝飾私人寵物貓。我們的方法比基線更好地保留了視覺相似性，同時僅更改花瓣顏色或為貓添加太陽鏡。

可以發現Multiple-Concept Compositional Fine-tuning的效果也非常驚艷。

風格遷移的效果也不錯。

定量指標也有比較有競爭力的表現：

5. 結論

論文提出了一種基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的圖像示例，新方法就能一高效的方法生成微調概念的新樣本同時保留原有的生成能力。而且，我們只需要保存一小部分模型權重。此外，方法可以連貫地在同一場景中組合多個新概念，這是之前的方法所缺少的能力。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4743

瀏覽量
128988

原文標題：如何簡單高效地定制自己的文本作畫模型？

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

大語言模型優化生成管理方法

大語言模型的優化生成管理是一個系統工程，涉及模型架構、數據處理、內容控制、實時響應以及倫理監管等多個層面。以下，是對大語言模型優化

發表于 12-02 10:45 ?89次閱讀

LLM和傳統機器學習的區別

和訓練方法 LLM：預訓練和微調： LLM通常采用預訓練（Pre-training）和微調（Fine-tuning）的方法。預訓練階段，模型在大規模的文本數據上學習語言的通用特征，微

發表于 11-08 09:25 ?539次閱讀

一種創新的動態軌跡預測方法

本文提出了一種動態軌跡預測方法，通過結合歷史幀和歷史預測結果來提高預測的穩定性和準確性。它引入了歷史預測注意力模塊，以編碼連續預測之間的動態關系，并通過三重因子注意力模塊實現了最先進的性能。本方法能夠

發表于 10-28 14:34 ?436次閱讀

<b class='flag-5'>一種</b>創新的動態軌跡預測<b class='flag-5'>方法</b>

Whatsapp正在開發一種新的生成人工智能功能

據悉，Whatsapp正在開發一種新的生成人工智能功能，該功能應允許用戶制作自己的個性化頭像，用于任何想象中的場景。WABetaInfo在新的Android版WhatsApp測試版2.24.14.7

發表于 07-14 17:50 ?1007次閱讀

使用TensorFlow進行神經網絡模型更新

使用TensorFlow進行神經網絡模型的更新是一個涉及多個步驟的過程，包括模型定義、訓練、評估以及根據新數據或需求進行模型微調（Fine-tuni

發表于 07-12 11:51 ?434次閱讀

大模型為什么要微調？大模型微調的原理

難以達到最佳性能。為了提升模型在特定任務上的表現，微調（Fine-tuning）成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調以及微調的原理，并附上相關的代碼示例。

發表于 07-10 10:43 ?4174次閱讀

rup是一種什么模型

RUP（Rational Unified Process，統一建模語言）是一種軟件開發過程模型，它是一種迭代和增量的軟件開發方法。RUP是由

發表于 07-09 10:13 ?1294次閱讀

如何用C++創建簡單的生成式AI模型

生成式AI（Generative AI）是一種人工智能技術，它通過機器學習模型和深度學習技術，從大量歷史數據中學習對象的特征和規律，從而能夠生成全新的、完全原創的內容，包括文本、圖像、

發表于 07-05 17:53 ?882次閱讀

人工神經網絡模型是一種什么模型

人工神經網絡（Artificial Neural Networks，簡稱ANNs）是一種受生物神經網絡啟發而產生的數學模型，用于模擬人腦處理信息的方式。它由大量的節點（或稱為神經元）相互連接而成

發表于 07-04 16:57 ?965次閱讀

預訓練模型的基本原理和應用

訓練好的模型，這些模型通常在某些通用任務上表現出色，并且可以作為后續特定任務的起點，通過遷移學習或微調（Fine-tuning）等方式進行適應和優化。以下是對預訓練模型的詳細探討，包括

發表于 07-03 18:20 ?2894次閱讀

ISEDA首發！大語言模型生成的代碼到底好不好使

的問題 — 這些自動生成的代碼真的有效嗎？大模型也會犯錯，我們肯定不希望把看似正確的錯誤結果交給用戶，所以需要一個能精確驗證模型生成答案的考

發表于 05-16 13:41 ?343次閱讀

一種利用光電容積描記（PPG）信號和深度學習模型對高血壓分類的新方法

高血壓，因為這種情況的初期癥狀并不明顯。高血壓階段的分類也很有用，這樣一個人就可以根據他所處的階段進行以下生活方式的改變。光電體積描記法（PPG）是一種檢測血液循環變化的光學方法。它主要是表示血容量隨時

發表于 05-11 20:01

生成SPWM波形的方法

生成SPWM波形的方法? SPWM波形產生是一種常見的數字信號生成技術，用于控制交流電子設備的輸出電壓或電流的形狀，使其接近正弦波。 SPWM波形是由

發表于 02-06 13:52 ?3019次閱讀

了解鴻蒙OS Text組件

文本（Text）是用來顯示字符串的組件，在界面上顯示為一塊文本區域。Text 作為一個基本組件，有很多擴展，常見的有按鈕組件 Button，文本編輯組件 TextField。使用

發表于 01-29 15:24 ?1236次閱讀

一種基于PV變換和CNN模型生成BEV數據的方法

車載視覺終端數據提取可以生成一項有價值的信息，那就是檢測捕獲圖像中的目標物體位置信息、方向信息以及與自車之間的距離信息，這樣可以很好的預測自車以及周圍物體未來的運動趨勢，這些信息可以有效的聚合稱一個

發表于 01-23 09:19 ?497次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一種基于new concepts的text-to-image生成模型的fine-tuning方法

評論

大語言模型優化生成管理方法

LLM和傳統機器學習的區別

一種創新的動態軌跡預測方法

Whatsapp正在開發一種新的生成人工智能功能

使用TensorFlow進行神經網絡模型更新

大模型為什么要微調？大模型微調的原理

rup是一種什么模型

如何用C++創建簡單的生成式AI模型

人工神經網絡模型是一種什么模型

預訓練模型的基本原理和應用

ISEDA首發！大語言模型生成的代碼到底好不好使

一種利用光電容積描記（PPG）信號和深度學習模型對高血壓分類的新方法

生成SPWM波形的方法

了解鴻蒙OS Text組件

一種基于PV變換和CNN模型生成BEV數據的方法