摘要
本文由深蘭科學(xué)院撰寫,文章將為大家細(xì)致講解一種有效的無監(jiān)督深度表示器(Mix2Vec),該方法可將異構(gòu)數(shù)據(jù)映射到統(tǒng)一的低維向量空間,避免混合異構(gòu)數(shù)據(jù)相似度度量偏差問題。同時,該方法基于深度異構(gòu)信息網(wǎng)絡(luò),采用隨機混洗預(yù)測學(xué)習(xí)機制,并融合先驗分布匹配和結(jié)構(gòu)信息最大化學(xué)習(xí)目標(biāo),學(xué)習(xí)混合異構(gòu)的基于向量空間的通用表示,可以用于無監(jiān)督和有監(jiān)督的學(xué)習(xí)任務(wù)。
隨著機器學(xué)習(xí)的發(fā)展和廣泛應(yīng)用,(無監(jiān)督或有監(jiān)督)表示學(xué)習(xí)被應(yīng)用于處理復(fù)雜(高維、異構(gòu)等)特征數(shù)據(jù)。通過將復(fù)雜特征數(shù)據(jù)映射到統(tǒng)一空間,可以有效避免復(fù)雜數(shù)據(jù)中的差異性,并提供方便有效的數(shù)據(jù)統(tǒng)一處理(例如:距離度量)。
01問題
混合異構(gòu)數(shù)據(jù)中的挑戰(zhàn)
現(xiàn)實生活中的大量數(shù)據(jù)都混合了數(shù)值型和類別型屬性,這些數(shù)據(jù)往往表現(xiàn)出以下一些典型特征:(1)數(shù)據(jù)中一些屬性是靜態(tài)的,而另一些是動態(tài)的;(2)某些屬性經(jīng)常存在缺失值,且不同數(shù)據(jù)的缺失值的稀疏程度不同;(3)數(shù)據(jù)中可能是異構(gòu)的,不同的屬性可能具有不同的分布和結(jié)構(gòu);(4)實際數(shù)據(jù)往往沒有足夠的可用標(biāo)記信息并且標(biāo)記此類數(shù)據(jù)成本太高,或者標(biāo)簽信息(例如:路徑和規(guī)劃)很難用以模型訓(xùn)練。這些數(shù)據(jù)特征在企業(yè)、制造、商業(yè)和醫(yī)療保健等典型應(yīng)用的數(shù)據(jù)中很常見。圖1源自于構(gòu)造的數(shù)據(jù),舉例展示了混合異構(gòu)數(shù)據(jù)中的上述特征。
圖1 現(xiàn)實生活中混合數(shù)據(jù)的特征:動態(tài)性、稀疏性、異質(zhì)性
混合數(shù)據(jù)表示學(xué)習(xí)主要的挑戰(zhàn)是來自多個方面。首先,很難在一個表示模型中處理上述所有特征和學(xué)習(xí)目標(biāo)。因為上述每一種數(shù)據(jù)特征、每一個學(xué)習(xí)目標(biāo)在實際中都非常具有挑戰(zhàn)性,并且將他們組合在一起會使學(xué)習(xí)系統(tǒng)非常復(fù)雜。因此,現(xiàn)有方法要么將混合數(shù)據(jù)類型轉(zhuǎn)換為一種類型,要么對于每種數(shù)據(jù)類型分別學(xué)習(xí)其向量表示,然后所學(xué)的各種類型數(shù)據(jù)的表示合并作為混合數(shù)據(jù)的表示。
此外,混合數(shù)據(jù)可能是靜態(tài)的,也可能是動態(tài)的,并且在結(jié)構(gòu)和分布上呈現(xiàn)出明顯的異質(zhì)性,表示學(xué)習(xí)在保留原始信息的同時捕獲這樣的異質(zhì)性是非常具有挑戰(zhàn)性。現(xiàn)有方法通常側(cè)重于單獨的解決某一個方面,而不是在一個模型中同時解決上述這些問題。然后,在沒有監(jiān)督信息的情況下,確定哪些信息應(yīng)考慮到表示中以及驗證生成的表示是否有效則都具有一定挑戰(zhàn)性。
最后,數(shù)據(jù)本身的質(zhì)量(缺失值)以及其他包括稀疏性、屬性冗余和互補性在內(nèi)的其他問題進一步增加了完成上述表示學(xué)習(xí)任務(wù)的難度,而現(xiàn)有的研究往往只是處理上述問題中的單個問題。
02動機
混合異構(gòu)數(shù)據(jù)表示學(xué)習(xí)的空缺
通過調(diào)研現(xiàn)階段表示學(xué)習(xí)的文獻資料,可知目前沒有一種表示學(xué)習(xí)方法可以同時解決上述的無監(jiān)督混合數(shù)據(jù)表示中挑戰(zhàn)。現(xiàn)有方法可以根據(jù)其學(xué)習(xí)目標(biāo)分為基于下游任務(wù)的方法,自我監(jiān)督的方法和基于重構(gòu)的方法:
1基于下游任務(wù)的方法是學(xué)習(xí)一種數(shù)據(jù)表示,以最大化在特定學(xué)習(xí)任務(wù)的學(xué)習(xí)目標(biāo)(例如,軟聚類)。此類方法學(xué)習(xí)的表示是為提升特定模型的學(xué)習(xí)性能而定制的,但往往很難遷移到其他模型和任務(wù)上。
2自我監(jiān)督方法需要在數(shù)據(jù)中指定特定的關(guān)系(例如,相同上下文中的對象相似)以學(xué)習(xí)數(shù)據(jù)表示,并且用于表示學(xué)習(xí)的監(jiān)督信息是針對單個數(shù)據(jù)類型、特定域(例如,自然語言處理)和假設(shè)(例如,時間一致性),使得這些方法很難應(yīng)用于混合數(shù)據(jù)表示學(xué)習(xí)中。
3基于重構(gòu)的方法最大化了原始輸入及其對應(yīng)表示之間的相互信息性,以保留與原始輸入中足夠多的信息。然而,信息保存并不一定能夠保證表示質(zhì)量,而且現(xiàn)有的基于重建的方法集中于研究數(shù)值型數(shù)據(jù)(例如,圖像和視頻),數(shù)值型數(shù)據(jù)中兩個值之間的距離有特定的語義含義(例如,圖像中的值的大小的表示更暗或更亮)來體現(xiàn)。對于基于重構(gòu)的方法來說,很難重建混合數(shù)據(jù),因為混合數(shù)據(jù)中可能存在各種語義含義,甚至有些沒有特定的語義含義。
03方法
混合異構(gòu)數(shù)據(jù)表示學(xué)習(xí)的目標(biāo)和機制
以下將介紹一種新的混合數(shù)據(jù)表示學(xué)習(xí)器Mix2Vec:嘗試解決上文中所提到的數(shù)據(jù)特點和學(xué)習(xí)挑戰(zhàn),旨在通過構(gòu)建功能強大的混合數(shù)據(jù)表示器來學(xué)習(xí)多方面無監(jiān)督混合數(shù)據(jù)表示。該表示器具有多種機制來應(yīng)對上述數(shù)據(jù)特征和表示學(xué)習(xí)中的挑戰(zhàn)。
Mix2Vec采用以下三種機制來實現(xiàn)上述多方面目標(biāo):
1采用隨機混洗預(yù)測對輸入數(shù)據(jù)進行隨機的變換,并最大化原始數(shù)據(jù)的表示和經(jīng)過混洗后數(shù)據(jù)的表示之間的互信息性。
2采用估計分布匹配的方法來將原始輸入分布中的先驗知識嵌入到學(xué)習(xí)的表示中。
3采用結(jié)構(gòu)信息增強的方法來使表示中的結(jié)構(gòu)信息量最大化。
這些機制將同時在深層神經(jīng)表示器Mix2Vec實現(xiàn),如此一來,Mix2Vec可以有效地將具有上述各種特征的混合數(shù)據(jù)轉(zhuǎn)換為基于向量空間的表示形式。這種學(xué)習(xí)的表示形式是通用的,并且對于不同的學(xué)習(xí)任務(wù)是透明且可復(fù)用的。
圖2 Mix2Vec學(xué)習(xí)機制
給定混合數(shù)據(jù)的輸入,無監(jiān)督表示學(xué)習(xí)將學(xué)習(xí)一種映射函數(shù),在無監(jiān)督的情況下以將混合輸入轉(zhuǎn)換為連續(xù)表示。假定X和Y分別為混合數(shù)據(jù)原始輸入空間和連續(xù)表示空間,無監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一系列可微分參數(shù)方程。對于Mixe2Vec而言,給定來自原始輸入空間的n個樣本,即,需要學(xué)習(xí)一個編碼器來實現(xiàn)以下三個目標(biāo):
01互信息最大化(Mutual Information Maximization)
最大化輸入及其表示之間的互信息,在Mix2Vec中通過隨機混洗預(yù)測(Random Shuffling Prediction,RSP)目標(biāo)機制來實現(xiàn);
02先驗分布匹配(Prior Distribution Matching,PDM)
強制數(shù)據(jù)表示的分布匹配某一先驗分布,使得學(xué)習(xí)的數(shù)據(jù)表示具有所需的特征;
03結(jié)構(gòu)信息量最大化(Structural Informativeness Maximization,SIM)
最大化表示中的結(jié)構(gòu)信息量,這是對上述目標(biāo)的補充,有利于從原始輸入中保留結(jié)構(gòu)信息。
圖2顯示了Mix2Vec表示學(xué)習(xí)的工作流程,其中展示了上述待實現(xiàn)的三個目標(biāo)以及為不同目標(biāo)實現(xiàn)的機制。對于目標(biāo)1,本工作中將原始輸入隨機混洗變成為新輸入,并且將原始輸入和對應(yīng)混洗后的輸入都編碼為其對應(yīng)的數(shù)據(jù)表示,而后通過解碼器從原始輸入和對應(yīng)的混洗后輸入的數(shù)據(jù)表示中預(yù)測混洗位置(屬性);對于目標(biāo)2,基于從輸入中獲得的先驗知識,將從原始輸入編碼的數(shù)據(jù)表示的分布與先驗分布相匹配;最后,對于目標(biāo)3,最大化學(xué)習(xí)到數(shù)據(jù)表示的結(jié)構(gòu)信息。將上述三個目標(biāo)組合起來構(gòu)成Mix2Vec整體的學(xué)習(xí)目標(biāo)和機制,共同指導(dǎo)混合異構(gòu)數(shù)據(jù)的表示學(xué)習(xí)。
04驗證
Mix2Vec學(xué)習(xí)效果
通過可視化包括Mix2Vec及其變體(不同的超參數(shù))在內(nèi)的所有表示器所學(xué)到的數(shù)據(jù)表示,以顯示學(xué)習(xí)到的數(shù)據(jù)表示的可分離性。為了將數(shù)據(jù)集所學(xué)到的表示可視化為二維空間,實驗中引入了t分布的隨機鄰居嵌入可視化法方法,將高維表示向量轉(zhuǎn)換為二維表示向量。
實驗中,為每個數(shù)據(jù)集隨機抽取600個這些二維向量,并在圖3中展示它們的位置,圖3展示在Churn上的可視化效果。
從圖中結(jié)果可知,Mix2Vec可以生成包含更多信息的高度結(jié)構(gòu)化表示,從單個目標(biāo)的可視化效果來看,RSP擅長捕獲單個信息,PDM提供先驗匹配,SIM突出結(jié)構(gòu)表示,符合Mix2Vec在設(shè)置之初融合三個目標(biāo)的原因。
圖3 Mix2Vec在Churn上數(shù)據(jù)表示的結(jié)果可視化
05結(jié)論
在現(xiàn)實世界中,以無監(jiān)督的方式進行混合異構(gòu)數(shù)據(jù)表示是非常苛刻的挑戰(zhàn)。該工作中針對具有稀疏性、動態(tài)性和異構(gòu)性等復(fù)雜特征的混合數(shù)據(jù),引入了一種有效的無監(jiān)督表示方法Mix2Vec。Mix2Vec通過預(yù)測輸入的隨機混洗操作,將數(shù)據(jù)表示的分布與輸入分布匹配,并增強數(shù)據(jù)表示中的結(jié)構(gòu)信息。Mix2Vec可以生成復(fù)雜的混合數(shù)據(jù)的通用且可重復(fù)使用的數(shù)據(jù)表示,以滿足多個方面的目標(biāo),包括解決上述混合數(shù)據(jù)的特征、支持信息表示質(zhì)量以及實現(xiàn)不同學(xué)習(xí)任務(wù)的更好學(xué)習(xí)性能。
下一期將介紹Mix2Vec每個機制具體實現(xiàn)方法,以及Mix2Vec在不同下游任務(wù)上的性能。
請繼續(xù)關(guān)注此頻道以獲取最新的研究成果!
原文標(biāo)題:技術(shù)沖擊波| 異構(gòu)數(shù)據(jù)的無監(jiān)督表示學(xué)習(xí)(一)
文章出處:【微信公眾號:DeepBlue深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7080瀏覽量
89175 -
模型
+關(guān)注
關(guān)注
1文章
3261瀏覽量
48914 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132765 -
深蘭科技
+關(guān)注
關(guān)注
1文章
56瀏覽量
5999
原文標(biāo)題:技術(shù)沖擊波| 異構(gòu)數(shù)據(jù)的無監(jiān)督表示學(xué)習(xí)(一)
文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論