一。什么是機(jī)器學(xué)習(xí)
人工智能標(biāo)準(zhǔn)化白皮書(2018版)
機(jī)器學(xué)習(xí)(Machine Learning)是一門涉及統(tǒng)計(jì)學(xué)、系統(tǒng)辨識(shí)、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計(jì)算機(jī)科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科,研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,是人工智能技術(shù)的核心。
基于數(shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一,研究從觀測(cè)數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,利用這些規(guī)律對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
Andrew Ng (吳恩達(dá))
Machine Learning is the science of getting computers to act without being explicitly programmed.
機(jī)器學(xué)習(xí)是一門讓計(jì)算機(jī)無(wú)需顯式編程即可運(yùn)行的科學(xué)。
Microsoft(微軟公司)
Machine learning is a technique of data science thathelps computers learn from existing data in order toforecast future behaviors, outcomes, and trends.
機(jī)器學(xué)習(xí)是一種數(shù)據(jù)科學(xué)技術(shù),它幫助計(jì)算機(jī)從現(xiàn)有數(shù)據(jù)中學(xué)習(xí),從而預(yù)測(cè)未來(lái)的行為、結(jié)果和趨勢(shì)。
二。機(jī)器學(xué)習(xí)的相關(guān)術(shù)語(yǔ)
樣本(sample)、示例(instance):
所研究對(duì)象的一個(gè)個(gè)體。相當(dāng)于統(tǒng)計(jì)學(xué)中的實(shí)例(example,instance)
特征(feature)、屬性(attribute):
反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng),如大小,顏色
屬性值(attribute value):
屬性上的取值,例如“青綠”“烏黑”
屬性張成的空間稱為 “屬性空間”(attribute space)、“ 樣本空間”(sample space)或“輸入空間”。
特征空間(feature space):
分別以每個(gè)特征作為一個(gè)坐標(biāo)軸,所有特征所在坐標(biāo)軸張成一個(gè)用于描述不同樣本的空間,稱為特征空間
在該空間中,每個(gè)具體樣本就對(duì)應(yīng)空間的一個(gè)點(diǎn),在這個(gè)意義下,也稱樣本為樣本點(diǎn)。
每個(gè)樣本點(diǎn)對(duì)應(yīng)特征空間的一個(gè)向量,稱為 “特征向量”
特征的數(shù)目即為特征空間的維數(shù)。
樣本集 (sample set)、數(shù)據(jù)集(data set):
若干樣本構(gòu)成的集合;該集合的每個(gè)元素就是一個(gè)樣本
測(cè)試樣本”(testing sample):
學(xué)得模型后,使用該模型進(jìn)行預(yù)測(cè)的過(guò)程稱為“ 測(cè)試”(testing), 被預(yù)測(cè)的樣本稱為“測(cè)試樣本”。
標(biāo)記(label):
有前面的樣本數(shù)據(jù)顯然是不夠的,要建立這樣的關(guān)于“預(yù)測(cè)”(prediction) 的模型,我們需獲得訓(xùn)練樣本的“結(jié)果”信息,例如“((色澤=青綠;根蒂=蜷縮;敲聲= =濁響),好瓜)”。這里關(guān)于示例結(jié)果的信息,例如“好瓜”,稱為“標(biāo)記”(label); 擁有了標(biāo)記信息的示例,則稱為“樣例”(example)。
分類(classification):
若我們欲預(yù)測(cè)的是離散值,例如“好瓜”“壞瓜”,此類學(xué)習(xí)任務(wù)稱為“分類”
回歸(regression)
若欲預(yù)測(cè)的是連續(xù)值,例如西瓜成熟度0.95、0.37,類學(xué)習(xí)任務(wù)稱為“回歸”。
對(duì)只涉及兩個(gè)類別的稱為“二分類’(binary classification)’
聚類”(clustering)
即將訓(xùn)練集中的樣本分成若干組,每組稱為一個(gè) “簇”(cluster);
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可大致劃分為兩大類:“ 監(jiān)督學(xué)習(xí)”(supervised learning) 和 “無(wú)監(jiān)督學(xué)習(xí)”(unsupervised learning), 分類和回歸是前者的代表,而聚類則是后者的代表.
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28389瀏覽量
206942 -
人工智能
+關(guān)注
關(guān)注
1791文章
47207瀏覽量
238279 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132572
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論