如果您看不到或想象自己穿著一件衣服,就很難知道它是否適合您。有多少次你在網上買了一件東西,當它送到你家門口時興奮地打開盒子,沖上去試穿,然后……困惑地盯著鏡子?它可能以您意想不到的方式垂墜。或者在您身上看起來與在在線模型上看起來完全不同。
本周,google將在 Google.com 上發布一項新的購物功能,旨在為人們提供更有用的在線購物體驗。虛擬試穿 (VTO) 在具有不同體型和尺寸的真實模特身上生成栩栩如生的服裝寫照。這些圖像包括那些微妙但至關重要的細節,例如某些東西如何懸垂、折疊、緊貼、拉伸和皺紋——所有這些都具有為 VTO 開發的新生成 AI 模型的強大功能。
購物者只需選擇一件他們感興趣的服裝,然后選擇一個款式,瞧,他們已經看到試穿了。
“VTO 是在線購物向前邁出的激動人心的一步,尤其是在顯然需要更多代表性的服裝領域,”購物產品經理 Shyam Sunder 說。“服裝是谷歌搜索最多的購物類別之一,因此對人們和品牌的幫助潛力巨大。統計數據顯示了一個明確的需求:42% 的在線購物者覺得模特圖片無法代表他們,59% 的人對他們在網上購買的商品感到不滿意,因為它看起來與他們預期的不一樣。”
從一開始,該團隊就想為購物者提供一系列可以解決這個問題的模型。“當我們在網絡上搜索服裝時,當涉及到穿著這些衣服的模特時,我們會發現結果差異很小,”Shyam 說。“我記得一個例子,50 張圖片中只有四張是有色人種。所以問題是,即使我們想在購物中顯示不同的圖像,我們也做不到,因為網絡上沒有足夠的圖像。這是我熱切想要解決的問題。”
因此,該團隊創建了他們自己的資料庫,其中包含 80 個代表多種尺寸、膚色、身高、年齡和性別的模特,以便在 Google 上購物的人可以選擇他們最感興趣的模特,并查看衣服穿在身上的效果。
“一個關鍵問題是如何在每個模型上自動生成任何服裝,”購物研究科學家 Ira Kemelmacher-Shlizerman 說。“人們研究類似技術已經有一段時間了,但最終的圖像從來沒有完全達到目標——它們存在視覺缺陷,比如錯位的褶皺,使衣服看起來畸形和不自然。所以我們給自己設定了一個挑戰:創造一種方法,可以為任何體型和體形的人合成逼真的高質量圖像。這就是生成人工智能的用武之地。”
該團隊轉向了 VTO 的文本到圖像模型,該模型能夠從文本輸入創建高度逼真的圖像。尤其重要的是一種稱為擴散的技術,該技術會逐漸將噪聲添加到照片中,并訓練神經網絡去除這些噪聲像素。
對于 VTO,該團隊沒有使用單一的擴散網絡和大型語言模型(如在文本到圖像中使用的那樣),而是創建了一種稱為并行 U-net 的新架構,它接受兩幅圖像:人物圖像和服裝圖像。每張圖片都通過自己的神經網絡——U-net——同時通過稱為“交叉注意力”的過程進一步相互交流。“結果是驚人的,”艾拉說。“我們的用戶研究表明,我們的方法比最先進的方法有很大的優勢——超過 95% 的時間。”
該團隊使用 Google 的 Shopping Graph 對新的 AI 模型進行嚴格訓練,這是世界上最全面的產品、賣家、品牌、評論和庫存數據集。他們使用數百萬對圖像來訓練模型,每對圖像都包括一個穿著衣服的人以兩種不同的姿勢。人工智能模型學習將一個姿勢的襯衫形狀與另一個姿勢的人相匹配,反之亦然,直到它可以從各個角度生成該人穿著襯衫的逼真圖像。
在一個例子中,試穿結果似乎比原來的衣服顏色更亮。該團隊對這些類型的示例進行了數天的審議,但最終決定在發布時謹慎行事,當出現任何此類錯誤時,刪除在模型上虛擬試穿服裝的選項。隨著他們從用戶和品牌那里得到反饋,他們將繼續做出調整。“為生成圖像發明全自動評估仍然是一個懸而未決的問題,我們正在積極努力,”艾拉說。
如今,Google Shopping Graph 上數百個品牌和零售商的女裝上衣均可試穿,包括 Anthropologie、LOFT、H&M 和 Everlane。隨著時間的推移,該工具將變得更加精確并擴展到更多品牌。到目前為止,品牌反響非常積極。
“當我們讓他們了解這項技術時,我們收到了一些很好的反饋,并且也非常渴望參與,”Shyam 說。“他們中的一些人非常喜歡它,他們要求使用這項技術來支持他們自己的網站。”
-
Google
+關注
關注
5文章
1762瀏覽量
57507 -
AI
+關注
關注
87文章
30758瀏覽量
268902 -
人工智能
+關注
關注
1791文章
47206瀏覽量
238276 -
模型
+關注
關注
1文章
3229瀏覽量
48811
原文標題:Google: 時尚與人工智能相遇
文章出處:【微信號:計算機視覺芯片設計,微信公眾號:計算機視覺芯片設計】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論