星星动漫无删减在线观看,亚洲综合色站,污污美女

關(guān)于數(shù)據(jù)

機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù)，讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris 鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集，在統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被用作示例。數(shù)據(jù)集內(nèi)包含 3 類共 150 條記錄，每類各 50 個(gè)數(shù)據(jù)，每條記錄都有 4 項(xiàng)特征：花萼長度、花萼寬度、花瓣長度、花瓣寬度，可以通過這4個(gè)特征預(yù)測鳶尾花卉屬于（iris-setosa, iris-versicolour, iris-virginica）中的哪一品種。

數(shù)據(jù)的整體成為數(shù)據(jù)集（dataset），數(shù)據(jù)中的每一行為1個(gè)樣本（sample），除最后一行，每一列表達(dá)樣本的一個(gè)特征（feature），最后一列，通常稱為標(biāo)記（label）。在鳶尾花的數(shù)據(jù)集中，每個(gè)樣本有4個(gè)特征：萼片長度、萼片寬度、花瓣長度、花瓣寬度，下面每一行數(shù)據(jù)稱為一個(gè)樣本的特征向量。所有的特征向量組成的空間稱為特征空間（feature space），而分類任務(wù)的本質(zhì)就是對特征空間的一種切分方式。

特征可以很具體也可以很抽象，在圖像中，每一個(gè)像素點(diǎn)都是一個(gè)特征，一個(gè)28*28的圖像有784個(gè)特征。所以，特征將很大程度上決定了算法結(jié)果的準(zhǔn)確性和可靠性。這就是特征工程。

機(jī)器學(xué)習(xí)的基本任務(wù)1. 分類

二分類，在實(shí)際生活中其實(shí)大多數(shù)都可以用二分類解決，比如垃圾郵件分類，腫瘤辨別等。
多分類，比如手寫數(shù)字識別，比如更加復(fù)雜的圖像識別。在實(shí)際的生活中，很多復(fù)雜問題都可以被轉(zhuǎn)換為是一種多分類問題，但并不是說使用多分類是最佳的一種解決方式。

2. 回歸

回歸任務(wù)的特點(diǎn)：結(jié)果是一個(gè)數(shù)字的值，而非一個(gè)類別。比如預(yù)測房子價(jià)格，比如預(yù)測一個(gè)學(xué)生成績，股票價(jià)格等等。在一些情況下，回歸任務(wù)可以簡化成分類任務(wù)，比如預(yù)測一個(gè)學(xué)生的成績，可以將成績分為幾個(gè)不同的等級，這樣就能將一個(gè)連續(xù)的回歸問題轉(zhuǎn)換為分類問題。

什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)算法的目的就是幫助我們建立一個(gè)模型f（x），而不是我們?nèi)藶榻５玫降?。其?shí)分類和回歸問題大多都是在監(jiān)督學(xué)習(xí)中完成的。

二、機(jī)器學(xué)習(xí)的分類

1、監(jiān)督學(xué)習(xí)
所謂監(jiān)督學(xué)習(xí)其實(shí)就是給機(jī)器的訓(xùn)練數(shù)據(jù)擁有"標(biāo)記"或者"答案"。比如圖像擁有一定的標(biāo)定信息，可能是類別，也可能是定位框等。機(jī)器學(xué)習(xí)的算法中大多都是監(jiān)督學(xué)習(xí)，比如k近鄰、線性回歸和多項(xiàng)式回歸、邏輯回歸、SVM、決策樹和隨機(jī)森林等。

2、非監(jiān)督學(xué)習(xí)

相對于監(jiān)督學(xué)習(xí)，非監(jiān)督學(xué)習(xí)就是給機(jī)器訓(xùn)練的數(shù)據(jù)沒有"標(biāo)記"或者"答案"，通常情況下，非監(jiān)督學(xué)習(xí)用來輔助監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí)一般對沒有“標(biāo)記”的數(shù)據(jù)進(jìn)行分類，這就是聚類。比如電商網(wǎng)站使用非監(jiān)督學(xué)習(xí)，根據(jù)顧客的瀏覽記錄，對顧客進(jìn)行分類，從而完成一些類似推薦的任務(wù)。非監(jiān)督學(xué)習(xí)的意義、聚類、異常檢測

降維

特征提取
特征壓縮，比如剛剛提到的28*28的圖像有784個(gè)特征，那么就可以考慮進(jìn)行一下特征壓縮。
特征壓縮就是在盡可能損失少的信息，將高維向量壓縮成低維向量，這樣可以大大提高機(jī)器學(xué)習(xí)的運(yùn)算效率。
降維處理的另外一個(gè)目的就是對數(shù)據(jù)進(jìn)行可視化，對自己數(shù)據(jù)有一個(gè)大致了解。

3、半監(jiān)督學(xué)習(xí)

所謂的半監(jiān)督學(xué)習(xí)就是我們面對的任務(wù)一部分是有"標(biāo)記"或者"答案"，另一部分沒有。因?yàn)樵诂F(xiàn)實(shí)生活中很多任務(wù)都因?yàn)楦鞣N不同原因造成標(biāo)記的缺失。比如我們手機(jī)中的相冊中照片一些可能是在上海拍的，一些是在北京拍的，但是也會存在一些照片根本沒有標(biāo)記，那么手機(jī)相冊中所有的照片就滿足半監(jiān)督學(xué)習(xí)的這個(gè)形態(tài)。通常都是先使用無監(jiān)督學(xué)習(xí)手段對數(shù)據(jù)做處理，之后使用監(jiān)督學(xué)習(xí)手段做模型的訓(xùn)練與預(yù)測。其實(shí)就是這兩種學(xué)習(xí)模式的結(jié)合。

4、強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是根據(jù)周圍環(huán)境的情況，采取行動，根據(jù)采取行動的結(jié)果，學(xué)習(xí)行動的方式。

比如AlphaGo，無人駕駛都會用到增強(qiáng)學(xué)習(xí)

三、機(jī)器學(xué)習(xí)的其他分類1、批量學(xué)習(xí)（離線學(xué)習(xí)）和在線學(xué)習(xí)

批量學(xué)習(xí)（batch learning）、又叫離線學(xué)習(xí)

優(yōu)點(diǎn)：簡單問題：如何適應(yīng)環(huán)境的變換。比如垃圾郵件的樣式。解決方案：定時(shí)重新批量學(xué)習(xí)，來適應(yīng)環(huán)境的整體變換。缺點(diǎn)：每次重新批量學(xué)習(xí)，運(yùn)算量巨大。在某些環(huán)境變換非?？斓那闆r下，甚至是不可能的。比如股市的變化。

在線學(xué)習(xí)（online learning）

優(yōu)點(diǎn)：及時(shí)反映新的環(huán)境變換問題：新的數(shù)據(jù)帶來不好的變化？解決方案：需要加強(qiáng)對數(shù)據(jù)的監(jiān)控，比如異常檢測。其他適用范圍：數(shù)據(jù)量巨大，無法批量學(xué)習(xí)的環(huán)境。2、參數(shù)學(xué)習(xí)與非參數(shù)學(xué)習(xí)

參數(shù)學(xué)習(xí)（Parameteric learning）

比如一個(gè)線性擬合問題y=wx+b，我們需要學(xué)習(xí)的參數(shù)就是w和b，參數(shù)學(xué)習(xí)的一個(gè)特點(diǎn)就是一旦學(xué)習(xí)到了參數(shù)，就不再需要原來的數(shù)據(jù)集。

非參數(shù)學(xué)習(xí)（Noneparameteric learning）

相對的非參數(shù)學(xué)習(xí)，不需要對模型進(jìn)行過多的假設(shè)，通常在預(yù)測的過程中，喂給機(jī)器學(xué)習(xí)算法的那些數(shù)據(jù)集也要參數(shù)預(yù)測的過程，此外，需要特別注意的一點(diǎn)就是，非參數(shù)學(xué)習(xí)不等于沒參數(shù)！

四、機(jī)器學(xué)習(xí)的“哲學(xué)”思考

數(shù)據(jù)越多越好？

2001年，微軟的一篇論文，對比了四個(gè)不同的機(jī)器學(xué)習(xí)算法，給予足夠多的數(shù)據(jù)時(shí)，四種算法的表現(xiàn)都是隨著數(shù)據(jù)集的不斷增大，準(zhǔn)確率越高，當(dāng)數(shù)據(jù)量大到一定程度的時(shí)候，算法結(jié)果準(zhǔn)確度基本差不多。

這就帶來一個(gè)問題，就是如果數(shù)據(jù)足夠多，那么數(shù)據(jù)即算法？由此，就拉開了大數(shù)據(jù)的帷幕，人們對數(shù)據(jù)也越來月重視。首先，由此可以得出結(jié)論，數(shù)據(jù)確實(shí)非常重要，而且現(xiàn)階段使用到的機(jī)器學(xué)習(xí)算法大多都是以數(shù)據(jù)為驅(qū)動的，高度地依賴數(shù)據(jù)的質(zhì)量，那么由此就需要收集更多的數(shù)據(jù)，提高數(shù)據(jù)的質(zhì)量。也就有了數(shù)據(jù)清理、數(shù)據(jù) 預(yù)處理之說。那么從數(shù)據(jù)層面，我們需要考慮，如何提高數(shù)據(jù)的代表性，研究更重要的特征。算法為王？Alpha Zero的出現(xiàn)，之所以非常的突破，其原因在于我們并沒有給Alpha Zero任何數(shù)據(jù)，所有的數(shù)據(jù)都是由算法產(chǎn)生的，這樣的一個(gè)突破似乎打破了之前的數(shù)據(jù)越多越好，數(shù)據(jù)集算法的這么一個(gè)說法。也是由于圍棋這個(gè)環(huán)境的特殊性導(dǎo)致算法能夠自己產(chǎn)生數(shù)據(jù)，于是就有算法為王這么一種狀況，可能在其他領(lǐng)域并不適用，但是它給予了我們一個(gè)啟示：算法依然很重要。再好的數(shù)據(jù)都需要有高效、優(yōu)秀的算法作為輔助，才能最大成都發(fā)揮數(shù)據(jù)本身的作用。如何選擇機(jī)器學(xué)習(xí)算法？在機(jī)器學(xué)習(xí)算法中，遠(yuǎn)不止下面幾種，那么如何選擇合適的機(jī)器學(xué)習(xí)算法完成自己既定的任務(wù)呢？那么和選擇相關(guān)的問題，最簡單也就是最深刻的就是奧卡姆的剃刀，簡單的就是好的？那么在機(jī)器學(xué)習(xí)的領(lǐng)域中，什么叫簡單？第二個(gè)就是沒有免費(fèi)午餐的定理?？梢試?yán)格地?cái)?shù)學(xué)推導(dǎo)出：任意兩個(gè)算法他們的期望性能是相同的！！！這也就是說其實(shí)沒有那種算法從嚴(yán)格意義上比另外一種算法好，只是都在各自的領(lǐng)域中表現(xiàn)突出。相當(dāng)于是說所有的算法是等價(jià)的，但這有一個(gè)前提，就是任意兩個(gè)算法，把他們作用于所有的問題中，那么對于有些問題A算法比B算法好，但對于有些問題B算法比A算法好，但平均來說，這兩個(gè)算法是一樣的。這就是說需要具體到某個(gè)特定問題的時(shí)候，有些算法可能更好。整體而言，沒有一種算法絕對的比另外一種算法好。也就說脫離具體問題去談哪個(gè)算法好是沒有意義的。最終的結(jié)論就是，我們在面對一個(gè)具體問題的時(shí)候，嘗試使用多種算法進(jìn)行對比實(shí)驗(yàn)是必要的！面對不確定的世界，怎樣看待機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測的結(jié)果？最典型的問題就是比如預(yù)測股市，預(yù)測世界經(jīng)濟(jì)趨勢扥等等等。我們到底應(yīng)該怎樣看待這個(gè)結(jié)果？到底是機(jī)器學(xué)習(xí)算法本身起到了決定性作用，使得我們得到了一個(gè)準(zhǔn)確的預(yù)測結(jié)果，還是其實(shí)只是一個(gè)巧合，機(jī)器學(xué)習(xí)本身并沒有起到太大的作用。在使用機(jī)器學(xué)習(xí)的過程中存在的機(jī)器倫理問題？比如無人駕駛決策的過程中存在的一個(gè)無法避免的問題是車的道路左邊是小孩，右邊是老人，此時(shí)車輛無法避免，必須要做出決策，是老人還是孩子？如果選擇自毀，那么車?yán)镒氖且粋€(gè)孕婦，此時(shí)就牽涉到倫理問題。甚至還會有人說人工智能威脅論等等。

來源：小白學(xué)視覺

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1803

文章
48406

瀏覽量
244633
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8478

瀏覽量
133810
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1220

瀏覽量
25183