色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途

CVer ? 來源:新智元 ? 2024-01-15 15:40 ? 次閱讀

【導讀】數據獲取最新解,便是從生成模型中學習。

獲取高質量數據,已經成為當前大模型訓練的一大瓶頸。

前幾天,OpenAI被《紐約時報》起訴,并要求索賠數十億美元。訴狀中,列舉了GPT-4抄襲的多項罪證。

甚至,《紐約時報》還呼吁摧毀幾乎所有的GPT等大模型。

236ef1be-b365-11ee-8b88-92fbcf53809c.png

一直以來,AI界多位大佬認為「合成數據」或許是解決這個問題的最優解。

237c6ace-b365-11ee-8b88-92fbcf53809c.png

此前,谷歌團隊還提出了用LLM代替人類標記偏好的方法RLAIF,效果甚至不輸人類。

23821e7e-b365-11ee-8b88-92fbcf53809c.png

現如今,谷歌MIT的研究人員發現,從大模型中學習可以得到使用真實數據訓練的最佳模型的表征。

這一最新方法稱SynCLR,一種完全從合成圖像和合成描述學習虛擬表征的方法,無需任何真實數據。

23864198-b365-11ee-8b88-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2312.17742

實驗結果表明,通過SynCLR方法學習到的表征,能夠與OpenAI的CLIP在ImageNet 上的傳輸效果一樣好。

238a48a6-b365-11ee-8b88-92fbcf53809c.png

從生成模型中學習

目前表現最好的「視覺表征」學習方法依賴于大規模的實際數據集。然而,真實數據的收集卻有不少的困難。

為了降低收集數據的成本,研究人員本文中提出了一個問題:

從現成的生成模型中采樣的合成數據,是否是一條通往大規模策劃數據集的可行之路,從而訓練出最先進的視覺表征?

2394f6fc-b365-11ee-8b88-92fbcf53809c.png

與直接從數據中學習不同,谷歌研究人員稱這種模式為「從模型中學習」。作為建立大規模訓練集的數據源,模型有幾個優勢:

- 通過其潛在變量、條件變量和超參數,為數據管理提供了新的控制方法。

- 模型也更容易共享和存儲(因為模型比數據更容易壓縮),并且可以產生無限數量的數據樣本。

越來越多的文獻研究了生成模型的這些特性和其他優點和缺點,并將其作為訓練下游模型的數據源。

其中一些方法采用混合模式,即混合真實數據集和合成數據集,或需要一個真實數據集來生成另一個合成數據集。

其他方法試圖從純粹的「合成數據」中學習表征,但遠遠落后于表現最好的模型。

論文中,研究人員提出的最新方法,使用生成模型重新定義可視化類的粒度。

如圖2所示,使用2個提示生成了四張圖片「一只戴著墨鏡和沙灘帽的金毛獵犬騎著自行車」和「一只可愛的金毛獵犬坐在壽司做成的房子里」。

2398edf2-b365-11ee-8b88-92fbcf53809c.png

傳統的自監督方法(如Sim-CLR)會將這些圖像視為不同的類,不同圖像的嵌入會被分開,而不會明確考慮圖像之間的共享語義。

另一個極端是,監督學習方法(即SupCE)會將所有這些圖像視為單一類(如「金毛獵犬」)。這就忽略了這些圖像在語義上的細微差別,例如在一對圖像中狗在騎自行車,而在另一對圖像中狗坐在壽司屋內。

相反,SynCLR方法將描述視為類,即每個描述一個可視化類。

這樣,我們就可以按照「騎自行車」和「坐在壽司店里」這兩個概念對圖片進行分組。

這種粒度很難在真實數據中挖掘,因為收集由給定描述的多張圖片并非易事,尤其是當描述數量增加時。

然而,文本到圖像的擴散模型從根本上就具備這種能力。

只需對相同的描述設定條件,并使用不同的噪聲輸入,文本到圖像的擴散模型就能生成與相同描述相匹配的不同圖像。

具體來說,作者研究了在沒有真實圖像或文本數據的情況下,學習視覺編碼器的問題。

最新方法依賴3個關鍵資源的利用:一個語言生成模型(g1),一個文本到圖像的生成模型(g2),以及一個經過整理的視覺概念列表(c)。

前處理包括三個步驟:

(1)使用(g1)合成一組全面的圖像描述T,其中涵蓋了C中的各種視覺概念;

(2)對于T中的每個標題,使用(g2)生成多個圖像,最終生成一個廣泛的合成圖像數據集X;

(3)在X上進行訓練,以獲得視覺表示編碼器f。

然后,分別使用llama-27b和Stable Diffusion 1.5作為(g1)和(g2),因為其推理速度很快。

合成描述

為了利用強大的文本到圖像模型的能力,來生成大量的訓練圖像數據集,首先需要一個不僅精確描述圖像而且展示多樣性的描述集合,以包含廣泛的視覺概念。

對此,作者開發了一種可擴展的方法來創建如此大量的描述集,利用大模型的上下文學習能力。

如下展示了三個合成模板的示例。

239dfde2-b365-11ee-8b88-92fbcf53809c.png

如下是使用Llama-2生成上下文描述,研究人員在每次推理運行中隨機抽取三個上下文示例。

23a225c0-b365-11ee-8b88-92fbcf53809c.png

合成圖像

對于每個文本描述,研究人員都會用不同的隨機噪聲啟動反向擴散過程,從而生成各種圖像。

在此過程中,無分類器引導(CFG)比例是一個關鍵因素。

CFG標度越高,樣本的質量和文本與圖像之間的一致性就越好,而標度越低,樣本的多樣性就越大,也就越符合基于給定文本的圖像原始條件分布。

23acdab0-b365-11ee-8b88-92fbcf53809c.png

表征學習

論文中,表征學習的方法建立在StableRep的基礎上。

作者提出的方法的關鍵組成部分是多正對比學習損失,它的工作原理是對齊(在嵌入空間)從同一描述生成的圖像。

另外,研究中還結合了其他自監督學習方法的多種技術。

與OpenAI的CLIP相媲美

實驗評估中,研究人員首先進行消融研究,以評估管道內各種設計和模塊的有效性,然后繼續擴大合成數據的量。

下圖是不同描述合成策略的比較。

研究人員報告了9個細粒度數據集的ImageNet線性評估準確性和平均準確性。這里的每個項目包括1000萬個描述和每個描述4張圖片。

23b2e8ec-b365-11ee-8b88-92fbcf53809c.png

下表是ImageNet線性評估與細粒度分類的比較。

盡管只使用了合成數據,但SynCLR與OpenAI的CLIP和DINO v2模型取得了不相上下的結果。

23b6b3b4-b365-11ee-8b88-92fbcf53809c.png

下表是在相同的合成數據上比較SynCLR和CLIP,可以看出,SynCLR明顯優于CLIP。

具體設置為,每個標題生成4個圖像,SynCaps-150M為SynCLR和CLIP提供了更好的表示。

23bb41b8-b365-11ee-8b88-92fbcf53809c.png

PCA可視化如下。按照DINO v2,研究人員計算了同一組圖像的斑塊之間的PCA,并根據其前3個分量進行著色。

與DINO v2相比,SynCLR對汽車和飛機的繪制的圖更為準確,而對能繪制的圖則稍差一些。

23cc3496-b365-11ee-8b88-92fbcf53809c.png

圖6和圖7中,分別展示了不同訓練規模下的ImageNet線性準確率,以及不同訓練參數規模下的精細分類。

23d0c47a-b365-11ee-8b88-92fbcf53809c.png

為什么要從生成模型中學習?

一個令人信服的原因是,生成模型可以像數百個數據集一樣同時運作,能夠為策劃訓練數據提供了一種方便有效的方法。

總而言之,最新論文研究了視覺表征學習的新范式——從生成模型中學習。

在沒有使用任何實際數據的情況下,SynCLR學習到的視覺表征,與最先進的通用視覺表征學習器學習到的視覺表征不相上下。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3418

    瀏覽量

    49482
  • GPT
    GPT
    +關注

    關注

    0

    文章

    365

    瀏覽量

    15643
  • OpenAI
    +關注

    關注

    9

    文章

    1184

    瀏覽量

    6927
  • 大模型
    +關注

    關注

    2

    文章

    2793

    瀏覽量

    3437

原文標題:谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    喜報丨阿丘科技榮登蘇州市人工智能大模型高質量數據集雙項榜單

    科技”)憑借自主研發的“PCB缺陷檢測視覺大模型”與“AQ工業基礎材料加工缺陷數據集”,分別入選“蘇州市級培育人工智能大模型”及“蘇州市首批行業高質量數據集”兩大榜單。厚
    的頭像 發表于 02-21 11:18 ?392次閱讀
    喜報丨阿丘科技榮登蘇州市人工智能大<b class='flag-5'>模型</b>與<b class='flag-5'>高質量數據</b>集雙項榜單

    廣汽集團召開高質量發展大會

    春回大地,萬象更新。近兩日廣東省、廣州市聚焦“建設現代化產業體系”主題,相繼召開“新春第一會”——高質量發展大會,吹響奮進號角。廣汽集團黨委書記、董事長馮興亞作為省市重點產業高質量發展代表參加會議,與產學研各界代表共聚一堂,共繪廣東、廣州
    的頭像 發表于 02-07 10:18 ?260次閱讀

    電動工具EMC測試整改:邁向高質量生產的必經之路

    深圳南柯電子|電動工具EMC測試整改:邁向高質量生產的必經之路
    的頭像 發表于 01-14 14:29 ?218次閱讀
    電動工具EMC測試整改:邁向<b class='flag-5'>高質量</b>生產的必經之路

    借助谷歌Gemini和Imagen模型生成高質量圖像

    在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen 3 模型根據這些提示生成
    的頭像 發表于 01-03 10:38 ?546次閱讀
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen<b class='flag-5'>模型</b>生成<b class='flag-5'>高質量</b>圖像

    訊飛星辰MaaS平臺完成全新升級

    高質量數據的助攻,讓微調大模型青出于藍而勝于藍!
    的頭像 發表于 11-22 10:38 ?806次閱讀

    標貝科技:AI基礎數據服務,人工智能行業發展的底層支撐

    隨著不同大模型在語言理解及生成等領域的出色表現,大模型別后的規模規律不斷強化數據在要提升AI性能上的關鍵作用,AI數據服務可加速高質量數據
    的頭像 發表于 11-14 18:32 ?380次閱讀
    標貝科技:AI基礎<b class='flag-5'>數據</b>服務,人工智能行業發展的底層支撐

    使用AI大模型進行數據分析的技巧

    以及后續的分析步驟。 確定需要分析的數據類型、規模和復雜度,以便選擇合適的AI大模型。 二、高質量數據收集與處理 數據來源 :從可靠的來源收集數據
    的頭像 發表于 10-23 15:14 ?1710次閱讀

    白皮書下載丨《生成式AI如何改變AI缺陷檢測的傳統范式》

    在自動化和智能化技術飛速發展的今天,制造業對AI視覺技術的需求日益增長。然而,高質量的訓練數據獲取成為制約AI模型性能提升的關鍵因素。傳統的數據
    的頭像 發表于 10-18 08:05 ?499次閱讀
    白皮書下載丨《生成式AI如何改變AI缺陷檢測的傳統范式》

    中興通訊引領5G-A高質量發展新紀元

    中國5G商用5周年之際,以“智聯未來 無限可能”為主題的2024移動通信高質量發展論壇在北京舉辦。本屆論壇系統呈現總結我國移動通信,特別是5G產業自身高質量發展和引領數字經濟高質量發展的成果和經驗,展望5G-A、6G協同創新發展
    的頭像 發表于 10-15 10:32 ?686次閱讀

    科技創新!國產自主三坐標測量機推動產業高質量發展

    科技創新推動高質量發展,精密幾何測量儀器是核心。中圖三坐標測量機采用創新技術,提升測量精度和穩定性,擁有自主可控軟件,助力產業升級,實現高質量發展。
    的頭像 發表于 07-12 11:32 ?1741次閱讀
    科技創新!國產自主三坐標測量機推動產業<b class='flag-5'>高質量</b>發展

    TVP5147高質量、單芯片數字視頻解碼器數據

    電子發燒友網站提供《TVP5147高質量、單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-09 11:34 ?0次下載
    TVP5147<b class='flag-5'>高質量</b>、單芯片數字視頻解碼器<b class='flag-5'>數據</b>表

    TVP5146高質量、單芯片數字視頻解碼器數據

    電子發燒友網站提供《TVP5146高質量、單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-04 10:00 ?1次下載
    TVP5146<b class='flag-5'>高質量</b>、單芯片數字視頻解碼器<b class='flag-5'>數據</b>表

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    和多樣性。高質量數據能確保模型穩定收斂,而數據的多樣性則有助于模型學習廣泛的通用能力,如文本生成、信息抽取、問答和編程等。此外,數據的多樣性
    發表于 05-07 17:10

    京東方華燦光電獲評國家級綠色工廠,助力行業高質量發展

    “綠色發展是高質量發展的底色,新質生產力本身就是綠色生產力”。日前,根據工業和信息化部公布的2023年度綠色制造名單所示,京東方華燦光電(浙江)有限公司獲評國家級綠色工廠。綠色發展,正成為京東方華燦高質量發展新的底色。
    的頭像 發表于 04-10 11:04 ?848次閱讀

    北斗芯片產業的高質量發展之路

    高質量發展是全面建設社會主義現代化國家的首要任務”,二十大報告中對高質量發展有著明確的論斷和要求。在2023年的全國兩會中還指出,加快實現高水平科技自立自強,是推動高質量發展的必由之路。中國衛星
    的頭像 發表于 03-15 14:03 ?496次閱讀
    北斗芯片產業的<b class='flag-5'>高質量</b>發展之路
    主站蜘蛛池模板: 善良的小峓子2在钱免费中文字 | 一本道久在线综合道 | 久久这里只有精品国产99 | 欧美 亚洲综合在线一区 | 日本69xxxx| 亚洲精品在线看 | 2021乱码精品公司 | 国产盗摄一区二区三区 | 成人在线免费看片 | 亚洲二区电影 | 久久人妻少妇嫩草AV无码 | 国产在线精品亚洲一品区 | 益日韩欧群交P片内射中文 艺术片 快播 | 亚洲午夜精品A片久久WWW解说 | 亚洲性夜色噜噜噜网站2258KK | 动态抽插图视频 | 夜夜穞狠狠穞 | 女人十八毛片水真多啊 | 久久久国产精品免费A片3D | 久久99re2在线视频精品 | 久久亚洲网站 | 天天综合网网欲色 | 菠萝蜜国际一区麻豆 | 久久成人免费观看草草影院 | 亚洲视频在线免费 | 久久九九日本韩国精品 | 蜜桃传媒在线观看 | 羞羞麻豆国产精品1区2区3区 | 99热在线精品免费全部my | 国产WW高清大片免费看 | 老头狠狠挺进小莹体内视频 | 娇小8一12xxxx第一次 | 国内视频在线精品一区 | 久久婷五月综合色啪首页 | 11 13加污女qq看他下面 | 午夜福利电影网站鲁片大全 | 总攻催眠受的高h巨肉np | 亚洲精品无码AAAAAA片 | 亚洲精品国产乱码AV在线观看 | 欧美日韩另类在线专区 | WW.国产人妻人伦精品 |