一级毛片在线免费视频,四虎永久免费884hutv,视频亚洲一区

論文鏈接：https://arxiv.org/abs/2305.17476

代碼鏈接：

https://github.com/ML-GSAI/Understanding-GDA

概述

生成式數(shù)據(jù)擴(kuò)增通過(guò)條件生成模型生成新樣本來(lái)擴(kuò)展數(shù)據(jù)集，從而提高各種學(xué)習(xí)任務(wù)的分類性能。然而，很少有人從理論上研究生成數(shù)據(jù)增強(qiáng)的效果。為了填補(bǔ)這一空白，我們?cè)谶@種非獨(dú)立同分布環(huán)境下構(gòu)建了基于穩(wěn)定性的通用泛化誤差界。基于通用的泛化界，我們進(jìn)一步了探究了高斯混合模型和生成對(duì)抗網(wǎng)絡(luò)的學(xué)習(xí)情況。

在這兩種情況下，我們證明了，雖然生成式數(shù)據(jù)增強(qiáng)并不能享受更快的學(xué)習(xí)率，但當(dāng)訓(xùn)練集較小時(shí)，它可以在一個(gè)常數(shù)的水平上提高學(xué)習(xí)保證，這在發(fā)生過(guò)擬合時(shí)是非常重要的。最后，高斯混合模型的仿真結(jié)果和生成式對(duì)抗網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果都支持我們的理論結(jié)論。

主要的理論結(jié)果

2.1 符號(hào)與定義

讓作為數(shù)據(jù)輸入空間，作為標(biāo)簽空間。定義為上的真實(shí)分布。給定集合，我們定義為去掉第個(gè)數(shù)據(jù)后剩下的集合，為把第個(gè)數(shù)據(jù)換成后的集合。我們用表示 total variation distance。

我們讓為所有從到的所有可測(cè)函數(shù)，為學(xué)習(xí)算法，為從數(shù)據(jù)集中學(xué)到的映射。對(duì)于一個(gè)學(xué)到的映射和損失函數(shù)，真實(shí)誤差被定義為。相應(yīng)的經(jīng)驗(yàn)的誤差被定義為。

我們文章理論推導(dǎo)采用的是穩(wěn)定性框架，我們稱算法相對(duì)于損失函數(shù) 是一致穩(wěn)定的，如果

2.2 生成式數(shù)據(jù)增強(qiáng)

給定帶有個(gè) i.i.d. 樣本的數(shù)據(jù)集，我們能訓(xùn)練一個(gè)條件生成模型，并將學(xué)到的分布定義為。基于訓(xùn)練得到的條件生成模型，我們能生成一個(gè)新的具有個(gè) i.i.d. 樣本的數(shù)據(jù)集。我們記增廣后的數(shù)據(jù)集大小為。我們可以在增廣后的數(shù)據(jù)集上學(xué)到映射。為了理解生成式數(shù)據(jù)增強(qiáng)，我們關(guān)心泛化誤差。據(jù)我們所知，這是第一個(gè)理解生成式數(shù)據(jù)增強(qiáng)泛化誤差的工作。

2.3 一般情況

我們可以對(duì)于任意的生成器和一致穩(wěn)定的分類器，推得如下的泛化誤差：

▲ general一般來(lái)說(shuō)，我們比較關(guān)心泛化誤差界關(guān)于樣本數(shù) 的收斂率。將看成超參數(shù)，并將后面兩項(xiàng)記為 generalization error w.r.t. mixed distribution，我們可以定義如下的“最有效的增強(qiáng)數(shù)量”：

在這個(gè)設(shè)置下，并和沒(méi)有數(shù)據(jù)增強(qiáng)的情況進(jìn)行對(duì)比（），我們可以得到如下的充分條件，它刻畫(huà)了生成式數(shù)據(jù)增強(qiáng)何時(shí)（不）能夠促進(jìn)下游分類任務(wù)，這和生成模型學(xué)習(xí)分的能力息息相關(guān)：

▲ corollary

2.4 高斯混合模型為了驗(yàn)證我們理論的正確性，我們先考慮了一個(gè)簡(jiǎn)單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務(wù) 。我們假設(shè)真實(shí)分布滿足 and 。我們假設(shè) 的分布是已知的。 線性分類器。我們考慮一個(gè)被參數(shù)化的分類器，預(yù)測(cè)函數(shù)為。給定訓(xùn)練集，通過(guò)最小化負(fù)對(duì)數(shù)似然損失函數(shù)得到，即最小化

學(xué)習(xí)算法將會(huì)推得，which satisfies 條件生成模型。我們考慮參數(shù)為的條件生成模型，其中以及。給定訓(xùn)練集，讓為第類的樣本量，條件生成模型學(xué)到

它們是和的無(wú)偏估計(jì)。我們可以從這個(gè)條件模型中進(jìn)行采樣，即，，其中。我們?cè)诟咚够旌夏Ｐ偷膱?chǎng)景下具體計(jì)算 Theorem 3.1 中的各個(gè)項(xiàng)，可以推得

▲ GMM

當(dāng)數(shù)據(jù)量足夠時(shí)，即使我們采用“最有效的增強(qiáng)數(shù)量”，生成式數(shù)據(jù)增強(qiáng)也難以提高下游任務(wù)的分類性能。
當(dāng)數(shù)據(jù)量較小的，此時(shí)主導(dǎo)泛化誤差的是維度等其他項(xiàng)，此時(shí)進(jìn)行生成式數(shù)據(jù)增強(qiáng)可以常數(shù)級(jí)降低泛化誤差，這意味著在過(guò)擬合的場(chǎng)景下，生成式數(shù)據(jù)增強(qiáng)是很有必要的。

2.5 生成對(duì)抗網(wǎng)絡(luò)

我們也考慮了深度學(xué)習(xí)的情況。我們假設(shè)生成模型為 MLP 生成對(duì)抗網(wǎng)絡(luò)，分類器為層 MLP 或者 CNN。損失函數(shù)為二元交叉熵，優(yōu)化算法為 SGD。我們假設(shè)損失函數(shù)平滑，并且第層的神經(jīng)網(wǎng)絡(luò)參數(shù)可以被控制。我們可以推得如下的結(jié)論：

▲ GAN

當(dāng)數(shù)據(jù)量足夠時(shí)，生成式數(shù)據(jù)增強(qiáng)也難以提高下游任務(wù)的分類性能，甚至?xí)夯?/span>
當(dāng)數(shù)據(jù)量較小的，此時(shí)主導(dǎo)泛化誤差的是維度等其他項(xiàng)，此時(shí)進(jìn)行生成式數(shù)據(jù)增強(qiáng)可以常數(shù)級(jí)降低泛化誤差，同樣地，這意味著在過(guò)擬合的場(chǎng)景下，生成式數(shù)據(jù)增強(qiáng)是很有必要的。

實(shí)驗(yàn)

3.1 高斯混合模型模擬實(shí)驗(yàn)

我們?cè)诨旌细咚狗植忌向?yàn)證我們的理論，我們調(diào)整數(shù)據(jù)量，數(shù)據(jù)維度以及。實(shí)驗(yàn)結(jié)果如下圖所示：

▲ simulation

觀察圖（a），我們可以發(fā)現(xiàn)當(dāng) 相對(duì)于足夠大的時(shí)候，生成式數(shù)據(jù)增強(qiáng)的引入并不能明顯改變泛化誤差。
觀察圖（d），我們可以發(fā)現(xiàn)當(dāng) 固定時(shí)，真實(shí)的泛化誤差確實(shí)是階的，且隨著增強(qiáng)數(shù)量的增大，泛化誤差呈現(xiàn)常數(shù)級(jí)的降低。
另外 4 張圖，我們選取了兩種情況，驗(yàn)證了我們的 bound 能在趨勢(shì)上一定程度上預(yù)測(cè)泛化誤差。

這些結(jié)果支持了我們理論的正確性。3.2 深度生成模型實(shí)驗(yàn)我們使用 ResNet 作為分類器，cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型，在 CIFAR-10 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如下所示。由于訓(xùn)練集上訓(xùn)練誤差都接近 0，所以測(cè)試集上的錯(cuò)誤率是泛化誤差的一個(gè)比較好的估計(jì)。我們利用是否做額外的數(shù)據(jù)增強(qiáng)（翻轉(zhuǎn)等）來(lái)近似是否充足。

▲ deep

在沒(méi)有額外數(shù)據(jù)增強(qiáng)的時(shí)候，較小，分類器陷入了嚴(yán)重的過(guò)擬合。此時(shí)，即使選取的 cDCGAN 很古早（bad GAN），生成式數(shù)據(jù)增強(qiáng)都能帶來(lái)明顯的提升。
在有額外數(shù)據(jù)增強(qiáng)的時(shí)候，充足。此時(shí)，即使選取的 StyleGAN 很先進(jìn)（SOTA GAN），生成式數(shù)據(jù)增強(qiáng)都難以帶來(lái)明顯的提升，在 50k 和 100k 增強(qiáng)的情況下甚至都造成了一致的損害。
我們也測(cè)試了一個(gè) SOTA 的擴(kuò)散模型 EDM，發(fā)現(xiàn)即使在有額外數(shù)據(jù)增強(qiáng)的時(shí)候，生成式數(shù)據(jù)增強(qiáng)也能提升分類效果。這意味著擴(kuò)散模型學(xué)習(xí)分布的能力可能會(huì)優(yōu)于 GAN。

原文標(biāo)題：NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果？

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2909

文章
44578

瀏覽量
372847

原文標(biāo)題：NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果？

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

ADS9234R的采樣速率理論上是多少，在正常設(shè)計(jì)中是否還會(huì)降低？

請(qǐng)問(wèn)，傳統(tǒng)四線SPI的情況下，在一區(qū)傳輸模式中，利用MCU（SPI給的60MHZ最大；MCU主頻480MHZ），它的采樣速率理論上是多少，在正常設(shè)計(jì)中是否還會(huì)降低？

發(fā)表于 11-13 06:04

生成式AI工具作用

生成式AI工具是指那些能夠自動(dòng)生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此，petacloud.ai小編為您整理生成

發(fā)表于 10-28 11:19 ?227次閱讀

運(yùn)放THS4551理論上輸入是線性的，DC掃描，輸出也是線性的，為什么我們的輸出不是線性的？

運(yùn)放THS4551 理論上輸入是線性的，DC掃描，輸出也是線性的，為什么我們的輸出不是線性的？是哪里存在問(wèn)題嗎？請(qǐng)幫忙解決，謝謝

發(fā)表于 08-15 07:20

如何用C++創(chuàng)建簡(jiǎn)單的生成式AI模型

生成式AI（Generative AI）是一種人工智能技術(shù)，它通過(guò)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù)，從大量歷史數(shù)據(jù)中學(xué)習(xí)對(duì)象的特征和規(guī)律，從而能夠生成

發(fā)表于 07-05 17:53 ?850次閱讀

請(qǐng)問(wèn)移動(dòng)端生成式AI如何在Arm CPU上運(yùn)行呢？

2023 年，生成式人工智能 (Generative AI) 領(lǐng)域涌現(xiàn)出諸多用例。這一突破性的人工智能 (AI) 技術(shù)是 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 模型的核心

發(fā)表于 05-21 17:07 ?869次閱讀

美日聯(lián)手研究生成式AI，將建立合作框架

近期，美國(guó)和日本政府宣布將聯(lián)手研究生成式人工智能（AI），并計(jì)劃建立一個(gè)合作框架以共同推進(jìn)該領(lǐng)域的技術(shù)進(jìn)步。

發(fā)表于 04-18 15:15 ?599次閱讀

Bria利用NVIDIA NeMo和Picasso為企業(yè)打造負(fù)責(zé)任的生成式AI

隨著視覺(jué)生成式 AI 從研究階段邁入到商用階段，企業(yè)正在尋求負(fù)責(zé)任的方式來(lái)將這項(xiàng)技術(shù)集成到其產(chǎn)品中。

發(fā)表于 04-12 11:36 ?503次閱讀

檢索增強(qiáng)生成（RAG）如何助力企業(yè)為各種企業(yè)用例創(chuàng)建高質(zhì)量的內(nèi)容？

在生成式 AI 時(shí)代，機(jī)器不僅要從數(shù)據(jù)中學(xué)習(xí)，還要生成類似人類一樣的文本、圖像、視頻等。檢索增強(qiáng)生成（RAG）則是可以實(shí)現(xiàn)的一種突破性方法。

發(fā)表于 03-29 15:09 ?907次閱讀

商湯科技2023年生成式AI收入增至12億元

商湯科技近日發(fā)布的2023年年報(bào)顯示，公司在人工智能領(lǐng)域取得顯著進(jìn)展，特別是其“日日新”大模型與大裝置的組合，驅(qū)動(dòng)生成式AI業(yè)務(wù)實(shí)現(xiàn)了爆發(fā)式增長(zhǎng)，收入達(dá)到12億元，為集團(tuán)貢獻(xiàn)了超過(guò)35%的營(yíng)收。

發(fā)表于 03-27 13:51 ?570次閱讀

NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實(shí)現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?492次閱讀

商湯集團(tuán)2023全年業(yè)績(jī)亮眼，生成式AI業(yè)務(wù)爆發(fā)式增長(zhǎng)

商湯集團(tuán)近日發(fā)布了截至2023年12月31日的經(jīng)審核全年業(yè)績(jī)報(bào)告，展現(xiàn)了集團(tuán)在AI領(lǐng)域的強(qiáng)勁增長(zhǎng)勢(shì)頭。在全新的戰(zhàn)略布局下，商湯明確了三大業(yè)務(wù)板塊：生成式AI、傳統(tǒng)AI和智能汽車，并以生成

發(fā)表于 03-27 09:14 ?585次閱讀

生成式 AI 制作動(dòng)畫(huà)：周期短、成本低！

? 電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）生成式AI在動(dòng)畫(huà)市場(chǎng)中的應(yīng)用正在迅速崛起。根據(jù)市場(chǎng)機(jī)構(gòu)數(shù)據(jù)，預(yù)計(jì)到2023年生成

發(fā)表于 03-18 08:19 ?3619次閱讀

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型：從理論到實(shí)踐

。為了使更多的自然語(yǔ)言處理研究人員和對(duì)大語(yǔ)言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ)，并開(kāi)展大模型實(shí)踐，復(fù)旦大學(xué)張奇教授團(tuán)隊(duì)結(jié)合他們?cè)谧匀徽Z(yǔ)言處理領(lǐng)域的研究經(jīng)驗(yàn)，以及分布式系統(tǒng)和

發(fā)表于 03-11 15:16

請(qǐng)問(wèn)下stm32G0系列理論上的外部中斷響應(yīng)時(shí)間是多少？

大佬們，請(qǐng)問(wèn)下stm32G0系列理論上的外部中斷響應(yīng)時(shí)間是多少？我在spec里面沒(méi)有找到對(duì)這塊的詳細(xì)描述，只有如下描述；看之前的帖子stm32F103的外部中斷響應(yīng)時(shí)間是12個(gè)時(shí)鐘周期，實(shí)際上應(yīng)該會(huì)比這個(gè)時(shí)間長(zhǎng)，G0也是一樣的嗎？

發(fā)表于 03-08 07:41

生成式人工智能和感知式人工智能的區(qū)別

生成新的內(nèi)容和信息的人工智能系統(tǒng)。這些系統(tǒng)能夠利用已有的數(shù)據(jù)和知識(shí)來(lái)生成全新的內(nèi)容，如圖片、音樂(lè)、文本等。生成式人工智能通常基于深度學(xué)習(xí)技術(shù)

發(fā)表于 02-19 16:43 ?1734次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果？

概述