首發(fā)：AI公園公眾號(hào)
作者：Andre Ye
編譯：ronghuaiyang

導(dǎo)讀

為什么半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來。

監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始，無數(shù)的算法，從簡(jiǎn)單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò)，都已經(jīng)被研究用來提高精確度和預(yù)測(cè)能力。
然而，一個(gè)重大突破揭示了添加“無監(jiān)督數(shù)據(jù)”可以提高模型泛化和性能。事實(shí)上，在非常多的場(chǎng)景中，帶有標(biāo)簽的數(shù)據(jù)并不容易獲得。半監(jiān)督學(xué)習(xí)可以在標(biāo)準(zhǔn)的任務(wù)中實(shí)現(xiàn)SOTA的效果，只需要一小部分的有標(biāo)記數(shù)據(jù) —— 數(shù)百個(gè)訓(xùn)練樣本。
在這個(gè)我們對(duì)半監(jiān)督學(xué)習(xí)的探索中，我們會(huì)有：

_半監(jiān)督學(xué)習(xí)簡(jiǎn)介_。什么是半監(jiān)督學(xué)習(xí)，它與其他學(xué)習(xí)方法相比如何，半監(jiān)督學(xué)習(xí)算法的框架/思維過程是什么？
_算法：Semi-Supervised GANs_。與傳統(tǒng)GANs的比較，過程的解釋，半監(jiān)督GANs的性能。
_用例和機(jī)器學(xué)習(xí)的未來_。為什么半監(jiān)督學(xué)習(xí)會(huì)有如此大的需求，哪里可以應(yīng)用。

半監(jiān)督學(xué)習(xí)介紹

半監(jiān)督學(xué)習(xí)算法代表了監(jiān)督和非監(jiān)督算法的中間地帶。雖然沒有正式定義為機(jī)器學(xué)習(xí)的“第四個(gè)”元素(監(jiān)督、無監(jiān)督、強(qiáng)化)，但它將前兩個(gè)方面結(jié)合成一種自己的方法。
這些算法操作的數(shù)據(jù)有一些標(biāo)簽，但大部分是沒有標(biāo)簽的。傳統(tǒng)上，人們要么選擇有監(jiān)督學(xué)習(xí)的方式，只對(duì)帶有標(biāo)簽的數(shù)據(jù)進(jìn)行操作，這將極大地減小數(shù)據(jù)集的規(guī)模，要么，就會(huì)選擇無監(jiān)督學(xué)習(xí)的方式，丟棄標(biāo)簽保留數(shù)據(jù)集的其余部分，然后做比如聚類之類的工作。

這在現(xiàn)實(shí)世界中是很常見的。由于標(biāo)注是很昂貴的，特別是大規(guī)模數(shù)據(jù)集，特別是企業(yè)用途的，可能只有幾個(gè)標(biāo)簽。例如，考慮確定用戶活動(dòng)是否具有欺詐性。在100萬用戶中，該公司知道有1萬用戶是這樣的，但其他9萬用戶可能是惡意的，也可能是良性的。半監(jiān)督學(xué)習(xí)允許我們操作這些類型的數(shù)據(jù)集，而不必在選擇監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)時(shí)做出權(quán)衡。
一般來說，半監(jiān)督學(xué)習(xí)算法在這個(gè)框架上運(yùn)行：

半監(jiān)督機(jī)器學(xué)習(xí)算法使用有限的標(biāo)記樣本數(shù)據(jù)集來訓(xùn)練自己，從而形成一個(gè)“部分訓(xùn)練”的模型。
部分訓(xùn)練的模型對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行標(biāo)記。由于樣本標(biāo)記數(shù)據(jù)集有許多嚴(yán)重的限制(例如，在現(xiàn)實(shí)數(shù)據(jù)中的選擇偏差)，標(biāo)記的結(jié)果被認(rèn)為是“偽標(biāo)簽”數(shù)據(jù)。
結(jié)合標(biāo)記和偽標(biāo)簽數(shù)據(jù)集，創(chuàng)建一個(gè)獨(dú)特的算法，結(jié)合描述和預(yù)測(cè)方面的監(jiān)督和非監(jiān)督學(xué)習(xí)。

半監(jiān)督學(xué)習(xí)利用分類過程來識(shí)別數(shù)據(jù)資產(chǎn)，利用聚類過程將其分成不同的部分。

算法：Semi-Supervised GAN

半監(jiān)督的GAN，簡(jiǎn)稱為SGAN，是[生成對(duì)抗網(wǎng)絡(luò)](https://medium.com/analy tics-... -an-直覺解釋-革命概念-2f962c858b95)架構(gòu)的一個(gè)變體，用于解決半監(jiān)督學(xué)習(xí)問題。
在傳統(tǒng)的GAN中，判別器被訓(xùn)練來預(yù)測(cè)由生成器模型生成的圖像是真實(shí)的還是假的，允許它從圖像中學(xué)習(xí)判別特征，即使沒有標(biāo)簽。盡管大多數(shù)人通常在GANs中使用訓(xùn)練很好的生成器，可以生成和數(shù)據(jù)集中相似的圖像，判別器還是可以通過以轉(zhuǎn)移學(xué)習(xí)作為起點(diǎn)在相同的數(shù)據(jù)集上建立分類器，允許監(jiān)督任務(wù)從無監(jiān)督訓(xùn)練中受益。由于大部分的圖像特征已經(jīng)被學(xué)習(xí)，因此進(jìn)行分類的訓(xùn)練時(shí)間和準(zhǔn)確率會(huì)更好。
然而，在SGAN中，判別器同時(shí)接受兩種模式的訓(xùn)練：無監(jiān)督和監(jiān)督。

在無監(jiān)督模式中，需要區(qū)分真實(shí)圖像和生成的圖像，就像在傳統(tǒng)的GAN中一樣。
在監(jiān)督模式中，需要將一幅圖像分類為幾個(gè)類，就像在標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)分類器中一樣。

為了同時(shí)訓(xùn)練這兩種模式，判別器必須輸出1 + _n_個(gè)節(jié)點(diǎn)的值，其中1表示“真或假”節(jié)點(diǎn)，_n_是預(yù)測(cè)任務(wù)中的類數(shù)。
在半監(jiān)督GAN中，對(duì)判別器模型進(jìn)行更新，預(yù)測(cè)K+1個(gè)類，其中K為預(yù)測(cè)問題中的類數(shù)，并為一個(gè)新的“_假_”類添加額外的類標(biāo)簽。它涉及到同時(shí)訓(xùn)練無監(jiān)督分類任務(wù)和有監(jiān)督分類任務(wù)的判別器模型。整個(gè)數(shù)據(jù)集都可以通過SGAN進(jìn)行傳遞 —— 當(dāng)一個(gè)訓(xùn)練樣本有標(biāo)簽時(shí)，判別器的權(quán)值將被調(diào)整，否則，分類任務(wù)將被忽略，判別器將調(diào)整權(quán)值以更好地區(qū)分真實(shí)的圖像和生成的圖像。

雖然允許SGAN進(jìn)行無監(jiān)督訓(xùn)練，允許模型從一個(gè)非常大的未標(biāo)記數(shù)據(jù)集中學(xué)習(xí)非常有用的特征提取，但有監(jiān)督學(xué)習(xí)允許模型利用提取的特征并將其用于分類任務(wù)。其結(jié)果是一個(gè)分類器可以在像MNIST這樣的標(biāo)準(zhǔn)問題上取得令人難以置信的結(jié)果，即使是在非常非常少的標(biāo)記樣本(數(shù)十到數(shù)百個(gè))上進(jìn)行訓(xùn)練。
SGAN巧妙地結(jié)合了無監(jiān)督和監(jiān)督學(xué)習(xí)的方面，強(qiáng)強(qiáng)聯(lián)合，以最小的標(biāo)簽量，產(chǎn)生難以置信的結(jié)果。

用例和機(jī)器學(xué)習(xí)的未來

在一個(gè)可用數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)的時(shí)代，無監(jiān)督數(shù)據(jù)根本不能停下來等待標(biāo)注。無數(shù)真實(shí)世界的數(shù)據(jù)場(chǎng)景會(huì)像這樣出現(xiàn) —— 例如，YouTube視頻或網(wǎng)站內(nèi)容。從爬蟲引擎和內(nèi)容聚合系統(tǒng)到圖像和語音識(shí)別，半監(jiān)督學(xué)習(xí)被廣泛應(yīng)用。
半監(jiān)督學(xué)習(xí)將監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的過擬合和“不擬合”傾向(分別)結(jié)合起來的能力，創(chuàng)建了一個(gè)模型，在給出最小數(shù)量的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)的情況下，可以出色地執(zhí)行分類任務(wù)。除了分類任務(wù)，半監(jiān)督算法還有許多其他用途，如增強(qiáng)聚類和異常檢測(cè)。盡管這一領(lǐng)域本身相對(duì)較新，但由于在當(dāng)今的數(shù)字領(lǐng)域中發(fā)現(xiàn)了巨大的需求，算法一直在不斷地被創(chuàng)造和完善。
半監(jiān)督學(xué)習(xí)確實(shí)是機(jī)器學(xué)習(xí)的未來。

—END—

英文原文：https://toward sdatascience.co...

推薦閱讀

多攝像頭實(shí)時(shí)目標(biāo)跟蹤和計(jì)數(shù)，使用YOLOv4，Deep SORT和Flask
使用深度學(xué)習(xí)從視頻中估計(jì)車輛的速度
圖像分割2020總結(jié)：結(jié)構(gòu)，損失函數(shù)，數(shù)據(jù)集和框架

關(guān)注圖像處理，自然語言處理，機(jī)器學(xué)習(xí)等人工智能領(lǐng)域,請(qǐng)點(diǎn)擊關(guān)注AI公園專欄。
歡迎關(guān)注微信公眾號(hào)

審核編輯：符乾江

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴