摘要
基于人們消費習慣的變化,衣服的壽命從原本的使用壽命轉化成“審美壽命”,造成大量的廢舊服裝,致使時尚成為全球第二大污染源,中國更是過度消費和時尚污染的重災區(qū)。為了探索循環(huán)時尚的設計方法,順應循環(huán)經濟的發(fā)展方向,文章基于循環(huán)設計的3R理論分析了紡織服裝業(yè)中的循環(huán)利用法,對其中升級再造的內涵和商業(yè)實踐的現狀進行了分析。通過設計實踐,總結了4大類符合循環(huán)時尚且可操作性較強的升級再造設計方法,共15種再造技術,旨在深入思考和探索可持續(xù)的時尚方式,從設計角度探索廢舊紡織品的循環(huán)利用方法。
研究背景
在電子商務已成必然趨勢的當今社會,網購發(fā)展迅速,越來越多的人通過網購挑選服裝服飾。然而目前線上購物查找大多還是使用文字檢索,這一方式需要對產品進行文字標注,不僅要耗費大量人力,且文字描述的能力也很有限,因此買家要快速搜到滿意的商品非常困難,尤其是對服飾這樣的非標品更加如此。如果能實現圖像檢索,客戶可以直接由圖片搜到心儀的服飾[1],無疑會大幅提高網購便捷性,提升用戶購買欲。
數字圖像技術的發(fā)展使其成為可能,目前已有較多的研究圍繞服裝款式的自動識別[2-4]展開,如利用服裝局部HOG特征,結合關鍵尺寸進行款式分類[5];利用匹配卷積神經網絡和超像素平滑等方法[6]進行語義分割,以及多人的服裝分割算法[7]等。但上述人工構造特征及傳統(tǒng)的分類方法易受檢測圖像多樣性的影響,使檢測效果不夠理想。近年來,深度學習技術在多個領域都有了越來越廣泛的應用,展示出巨大優(yōu)勢,其中CNN(卷積神經網絡)[8]由于可以提取多層特征,無須人工設計特征、分類檢測準確率高等優(yōu)勢而引起廣泛關注[9-10]。
綜上,現有的自動識別技術一般針對服裝的款式展開研究,但是配飾也對著裝的整體效果起著不可或缺的重要作用。高跟鞋作為廣受女性歡迎的服飾之一,本文擬利用卷積神經網絡中的Faster R CNN模型[11]對高跟鞋款式的自動識別加以研究,不僅能促進服裝智能搭配系統(tǒng)的研發(fā),還將有助于電子商務的發(fā)展,對圖像處理技術也有一定的參考。
實 驗
1.1 樣本庫
高跟鞋款式眾多,其中變化最多的部位是鞋跟、鞋面、鞋頭,根據鞋跟高度可分為低跟、中跟、高跟等;根據鞋跟形狀則可分為細跟、粗跟、坡跟等;而按照鞋面沿口高低又可分為淺口款、高幫款、長筒款等。其中淺口高跟鞋的適用性較廣,所以本文以淺口高跟鞋為例展開研究,具體選擇跟高在6~10 cm的三種(細跟、粗跟和坡跟)淺口高跟鞋。所用圖像樣本來源于淘寶、京東等線上銷售網絡平臺,均為純色背景,且側面180°擺放。三款高跟鞋的樣本圖像各300張,共900張,并將其統(tǒng)一裁剪成500像素×500像素。每種款式隨機抽取200張作為訓練集,剩余100張作為測試集,并對圖像進行標記。
1.2 卷積神經網絡
卷積神經網絡的基本結構[10]如圖1所示,分為輸入層、隱含層和輸出層,其中輸入為原始圖像,卷積層、池化層和全連接層構成了其隱含層,輸出層即檢測結果。卷積層類似前饋神經網絡的神經元,對輸入圖像進行特征提取,卷積層參數決定了輸出特征圖的尺寸;池化層對特征提取后輸出的特征圖進行特征選擇;連接層類似傳統(tǒng)前饋神經網絡中的隱含層,并只向其他全連接層傳遞信號。
圖1 卷積神經網絡(CNN)的基本框架
Fig.1 Basic structure of convolution neural network(CNN)
1.3 Faster R CNN檢測模型
Faster R CNN的基本結構[11]如圖2所示,輸入圖片經過底部卷積層提取特征,得到特征圖,區(qū)域建議網絡利用特征圖生成候選區(qū)域,再用分類器對候選區(qū)域進行分類,最后判斷候選區(qū)域中是否含有目標。
圖2 Faster R CNN的基本結構
Fig.2 Basic structure of Faster R CNN
由上述可知,Faster R CNN模型由四個模塊組成:1)卷積層,原始圖像通過一定的卷積層、池化層提取圖像特征,輸出其特征圖;2)區(qū)域建議網絡(RPN),是一個深度全卷積網絡,同時進行邊框預測及得分計算,用于生成建議區(qū)域;3)池化層,PRN在得到候選區(qū)域后,將特征圖與候選區(qū)一起送入池化層;4)Faster R CNN檢測器,從RPN產生的目標框作為輸入提取特征,最后通過Softmax檢測目標類別并做邊框回歸。Faster R CNN通過共享卷積的方式將RPN和R C NN相連接,且進行了聯(lián)合訓練,所以Faster R CNN模型比單一網絡結構更能提升圖像檢測性能。
1.4 基于Faster R CNN的淺口高跟鞋款式識別模型
1.4.1 整體識別框架
圖3為利用Faster R CNN模型對淺口高跟鞋款式進行識別的框架。首先利用訓練集(由粗跟、細跟和坡跟三款組成,每款200張圖片)對Faster R CNN模型(其主要由RPN和R CNN兩部分組成)進行訓練,生成檢測模型,然后將測試集(由粗跟、細跟和坡跟三款組成,每款100張圖片)輸入檢測模型,驗證識別結果(結果為粗跟、細跟或坡跟)。本文使用包含13個卷積層、5個最大池化層和3個全連接層的VGG16[12]作為特征提取網絡,并使用線性整流函數作為激活函數。
圖3 淺口高跟鞋款式識別整體框架
Fig.3 Style recognition framework of shallow opening high-heeled shoes
1.4.2 具體識別流程
圖4為利用Faster R CNN模型對淺口高跟鞋款式進行識別的具體流程。當輸入的淺口高跟鞋圖像經過VGG16特征提取網絡后,會對細跟、粗跟和坡跟鞋的特征信息進行提取,并輸出特征圖,該特征圖被輸入到RPN層和池化層共享。
圖4 基于Faster R CNN的淺口高跟鞋款式識別具體流程
Fig.4 Recognition process of shallow opening high-heeled shoes based on Faster R CNN
特征圖輸入到RPN網絡后,先進行1次3×3的卷積運算,再進行2次1×1的卷積運算。其中一次是計算檢測區(qū)域的前景(識別目標,即本文中的鞋跟款式)或背景概率,另一次1×1卷積運算用于給候選區(qū)域精確定位。換句話說,RPN以特征圖作為輸入,并通過滑動3×3窗口獲得錨(anchor,即每個滑動窗口的中心框),結合不同尺寸和比例的區(qū)域建議,每個錨產生9個不同的錨框,然后輸出可能包含細跟、粗跟和坡跟的矩形候選框及得分。RPN通過滑動窗口,可同時預測多個候選區(qū)[13]。
由于RPN產生的候選區(qū)域尺寸不同,所以池化層以特征圖和RPN網絡輸出的候選框作為輸入,將其映射成固定尺寸的候選框后輸入全連接層。
最后利用Softmax層對每個候選框進行分類并輸出得分;同時利用回歸獲得更精確的邊界框,也就是最終得到高跟鞋類別(細跟、粗跟或坡跟)及得分。
1.4.3 評價指標
在深度學習領域,準確率P(%)和召回率R(%)常被用來評價模型性能[14],因此本文也用其評價淺口高跟鞋檢測模型的性能,并用處理每張圖片所用時間T(s)來評價模型的檢測效率。P是準確識別的目標數與被判定為目標的總數之百分比,即查準率;召回率R是正確識別的目標數與實際目標總數之百分比,即查全率。
(1)
(2)
以粗跟為例,TP表示將粗跟預測為粗跟的樣本數;FN表示將粗跟預測為細跟或坡跟的樣本數;FP表示將細跟或坡跟預測為粗跟的樣本數;TN表示將細跟或坡跟預測為細跟或坡跟的樣本數。
假定實際粗跟有100個樣本,將粗跟檢測為粗跟的樣本數40個(即TP),將粗跟檢測為細跟或坡跟的樣本數為20個(FN),將細跟或坡跟檢測為粗跟的為10個(FP),將細跟或坡跟檢測為細跟或坡跟的樣本數30個(TN)。則計算出的準確率P為80%,召回率R為66.7%。很顯然,準確率和召回率越高,說明模型性能越好。
此外,利用總體精度F(%)來評價模型的整體性能[15]。
(3)
1.4.4 平臺和參數設置
實驗環(huán)境為IntelCore i7-3770 CPU@3.40 GHz,8位英特爾處理器(美國英特爾集成電子公司),NVIDIA Ge Force GTX 1080Ti GPU,使用Tensor Flow作為深度學習框架。在參數設置方面,迭代次數設置為10 000次,初始學習率設為0.001,每次迭代訓練圖像的數量為256張,學習率的衰減系數和網絡訓練動量分別為0.1和0.9[13]。
結果與分析
2.1 測試結果
圖5和圖6是分別以鞋跟和整只鞋為目標區(qū)域,利用訓練好的Faster R CNN模型對淺口高跟鞋款式進行識別的部分結果,其中黑色框標出的為定位區(qū)域,線框內的左上角為檢測結果,包括類別和得分:X為細跟;C為粗跟;P為坡跟。圖5(a)(b)(c)的檢測結果分別為X:1.00;C:0.95;P:0.97,圖6(a)(b)(c)的檢測結果分別為X:1.00;C:1;P:0.98,與實際情況完全吻合。由此可知,無論以鞋跟為目標區(qū)域,還是以整只鞋為檢測區(qū)域,Faster R CNN模型都能對淺口高跟鞋圖像進行良好的檢測識別,且無須經過人為特征提取,方便可行。
圖5 以鞋跟為目標區(qū)域的部分淺口高跟鞋識別結果
Fig.5 Recognition results of some shallow opening high-heeled shoes with the heel as the target area
圖6 以整只鞋為目標區(qū)域的部分淺口高跟鞋識別結果
Fig.6 Recognition results of some shallow opening high-heeled shoes with the whole shoe as the target area
2.2 不同目標區(qū)域對識別結果的影響
以準確率、召回率和總體精度為評價指標,列出了利用Faster R CNN檢測模型進行識別的結果,如表1所示。由表1可知,即使目標區(qū)域相同(鞋跟或整只鞋),高跟鞋種類不同,識別的準確率、召回率也不相同。其中以鞋跟為目標區(qū)域時,細跟和粗跟的檢測準確率都達到了100%;而以整只鞋為目標區(qū)域時,粗跟和坡跟的檢測準確率則為100%。以三類的平均值來看,以鞋跟為目標區(qū)域的召回率高于以整只鞋為目標區(qū)域,而以整只鞋為目標區(qū)域的準確率高于以鞋跟為目標區(qū)域。對總體精度而言,還是以鞋跟為目標區(qū)域稍高,但是二者相差不大。
表1 不同目標區(qū)域對識別結果的影響
Tab.1 Effect of different target area to the recognition results %
2.3 部分識別錯誤的樣本分析
圖7和圖8是分別以整只鞋和以鞋跟為目標區(qū)域時的部分識別錯誤樣本,并以此為例對識別錯誤的可能原因加以分析。
圖7(a)為粗跟鞋,識別結果為X:0.96和P:0.83,識別錯誤的原因主要與這款鞋的材質和款式有關。此款鞋和訓練集中的鞋在款式上有很大的不同,訓練集重的樣本皆為淺口高跟皮鞋,而這款是夏季涼鞋,且鞋跟處的材質由兩部分組成,一大半為透明水晶狀材質,小部分為與鞋底相同的材質。因此計算機在識別的時候,容易將透明水晶材質部分與白色背景相混淆,而將其誤檢測為細跟X,同時也容易將白色背景混為透明水晶狀的鞋跟,從而誤檢測為坡跟P。圖7(b)雖為粗跟鞋,但與其他粗跟鞋也有較大不同,其余的粗跟鞋的鞋跟基本上下粗細差不多,或者上粗下細,而這款鞋跟則呈上細下粗結構,且鞋跟上部粗細與其他細跟鞋的鞋跟上部相差無幾,因此出現了一對一錯2個檢測結果,即X:0.99和C:0.97。圖7(c)雖也為粗跟,但由于鞋跟的顏色和主體顏色相差甚大,所以計算機識別的時候可能將顏色不同的鞋跟部分排除在外,只檢測了前面部分,而將鞋跟與鞋底之間的白色背景當成鞋跟,從而誤判斷為坡跟,因此也出現了一對一錯2個檢測結果,即C:1.00和P:0.97。
圖8(a)為細跟涼鞋,與圖7(a)一樣,都屬于與訓練集中的淺口高跟皮鞋款式差異較大的鞋,而且后跟的較大裝飾品遮住了鞋跟,因此識別時將裝飾品當作了鞋跟,導致2個識別結果都將其檢測為粗跟,C:0.56和C:0.71。圖8(b)雖為粗跟,但鞋跟處上下段的材質截然不同,下半段為完全透明的材質,導致計算機識別時將鞋跟與鞋底部分的白色背景也歸為了鞋跟,因此將其誤判成P:0.57,另外一個則是正確的檢測結果,C:0.93。圖8(c)與圖7(a)為同一只鞋,這是一款與訓練集種的樣本款式完全不同的涼鞋,在以鞋跟為目標檢測時,也出現了識別錯誤,甚至將鞋面部分當成了鞋跟,將其誤判為坡跟P:0.66。
圖7 以整只鞋為目標區(qū)域時識別錯誤的樣本
Fig.7 Samples recognized wrongly with the whole shoe as the target area
圖8 以鞋跟為目標區(qū)域時識別錯誤的樣本
Fig.8 Samples recognized wrongly with the heel as the target area
綜上分析識別錯誤的樣本,可以發(fā)現誤判原因主要是鞋的款式與訓練集相差很大,或者由于鞋上的裝飾物干擾及后跟的材質、顏色等不一致造成。由于測試集樣本存在的這些問題,使得利用Faster R CNN模型進行款式識別時雖然準確率較高(大于94%),但是尚未達到100%。然而這并不影響該方法的有效性,如果摒棄款式過于奇異的及與訓練集款式差別甚大的樣本,相信會大幅提高模型的測試準確率。
2.4 不同識別方法對識別結果的影響
在相同實驗條件下,本文利用不同的檢測方法識別淺口高跟鞋,結果如表2所示。由表2可知,Faster R CNN無論是在總體精度還是在檢測速度上,都優(yōu)于其他方法,尤其是檢測速度。R CNN的訓練和測試尤其耗時,且占用磁盤空間大;SPP-Net對整張圖片只進行一次特征提取,相比R CNN極大提高了檢測速度。而FAST R CNN將整張圖像歸一化后直接送入CNN,且一次性提取CNN特征和建議區(qū)域,候選區(qū)域的前幾層無須重復計算特征,且訓練數據從GPU內存直接進Loss層,不但提高了計算速度,還節(jié)省了存儲空間。而本文運用的Faster R CNN由于用RPN替了前面幾種方法的Selective Search(選擇性搜索)產生建議窗口;同時產生建議窗口的CNN和目標檢測的CNN通過共享卷積的方式相連接,并進行了聯(lián)合訓練,因此無論在總體精度上抑或是檢測速度方面,都比前面幾種方法更具優(yōu)勢。
表2 不同識別方法的對比
Tab.2 Comparison of different recognition methods
結論
為探索利用圖片對服飾款式進行自動識別的技術,本文以淺口高跟鞋為例,通過收集網購平臺上的產品圖像,建立了樣本庫:包含細跟、粗跟、坡跟三款淺口高跟鞋,每款300張圖像。每款隨機抽取200張作為訓練集,剩余100張作為測試集,并對圖像進行標記。然后利用深度學習中的Faster R CNN檢測模型對淺口高跟鞋款式進行訓練和識別,結果表明:
1)無論以鞋跟為目標區(qū)域,還是以整只鞋為檢測區(qū)域,Faster R CNN模型都能對淺口高跟鞋圖像進行良好的檢測識別,準確率可達94%以上,且不用經過人為特征提取,方便可行,具有較好的先進性。
2)識別錯誤的樣本,主要是由于鞋的款式與訓練集相差很大,或者因為鞋上的裝飾物干擾及鞋跟的材質、顏色等不一致的原因造成。如果對測試集中的樣本進行優(yōu)選,去除與訓練集差異甚大的,或者去除款式過于奇異的樣本,準確率將會進一步提高。
3)Faster R CNN由于用RPN代替R CNN、SPP-Net、FAST R CNN這幾種方法利用Selective Search產生建議窗口;同時產生建議窗口的CNN和目標檢測的CNN共享,使檢測模型的總體精度和檢測速度都更具優(yōu)勢。
因此,利用本文設計的方法對淺口高跟鞋的款式進行自動識別是可行的,研究結果可為實現網購時的圖像檢索提供參考,同時還能為買家快速搜到滿意的商品提供幫助。
責任編輯:lq
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100857 -
圖像
+關注
關注
2文章
1086瀏覽量
40492 -
cnn
+關注
關注
3文章
352瀏覽量
22238
原文標題:基于Faster R CNN的淺口高跟鞋款式識別
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論