特征工程是用數(shù)學(xué)轉(zhuǎn)換的方法將原始輸入數(shù)據(jù)轉(zhuǎn)換為用于機(jī)器學(xué)習(xí)模型的新特征。特征工程提高了機(jī)器學(xué)習(xí)模型的準(zhǔn)確度和計(jì)算效率,體現(xiàn)在以下五個(gè)方面
1、把原始數(shù)據(jù)轉(zhuǎn)換成與目標(biāo)相關(guān)的數(shù)據(jù)
我們可以使用特征工程對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其更接近目標(biāo)變量,轉(zhuǎn)換后的特征對目標(biāo)更有預(yù)測性。在這種情況下,雖然未加工輸入出現(xiàn)在原始數(shù)據(jù)集中,但如果將轉(zhuǎn)換后的特征作為輸入,則機(jī)器學(xué)習(xí)將提高預(yù)測的準(zhǔn)確性。
2、引入額外的數(shù)據(jù)源
特征工程可以使從業(yè)者向機(jī)器學(xué)習(xí)模型引入額外的數(shù)據(jù)源。對于首次注冊的用戶,我們可以猜測該用戶的終生價(jià)值。在眾多指標(biāo)中,我們可以捕捉每個(gè)用戶的地理位置。雖然這個(gè)數(shù)據(jù)可以直接作為分類特征(例如,IP地址和郵政編碼)提供,但模型基于這些來確定位置信息仍存在困難。
通過第三方的人口統(tǒng)計(jì)數(shù)據(jù),我們可以做的更好。例如,這將允許我們計(jì)算每個(gè)用戶區(qū)域的平均收入和人口密度,并把這些因素直接插入到訓(xùn)練集中。現(xiàn)在,這些預(yù)測性因素立即變得更容易推斷,而不是依賴模型從原始位置數(shù)據(jù)推斷這種微妙的關(guān)系。更進(jìn)一步,位置信息轉(zhuǎn)換成收入和人口密度的特征工程,可使我們估計(jì)這些位置衍生出的特征哪一個(gè)更為重要。
3、使用非結(jié)構(gòu)化的數(shù)據(jù)源
特征工程可使我們在機(jī)器學(xué)習(xí)模型中使用非結(jié)構(gòu)化的數(shù)據(jù)源。許多數(shù)據(jù)源本質(zhì)上并不是結(jié)構(gòu)化的特征向量。非結(jié)構(gòu)化數(shù)據(jù),如文本、時(shí)間序列、圖像、視頻、日志數(shù)據(jù)和點(diǎn)擊流等,占創(chuàng)建數(shù)據(jù)的絕大多數(shù)。特征工程使從業(yè)者從上述原始數(shù)據(jù)流中產(chǎn)生機(jī)器學(xué)習(xí)的特征向量。
4、創(chuàng)建更容易解釋的特征
特征工程使機(jī)器學(xué)習(xí)的從業(yè)者能夠創(chuàng)建更易于解釋和實(shí)用的特征。通常,使用機(jī)器學(xué)習(xí)發(fā)現(xiàn)數(shù)據(jù)中的模式,對于產(chǎn)生精確的預(yù)測十分有用,但會(huì)遇到模型的可解釋性和模型的最終應(yīng)用的一些限制。這些情況下,在驅(qū)動(dòng)數(shù)據(jù)生成、鏈接原始數(shù)據(jù)和目標(biāo)變量的過程中,產(chǎn)生更有指示性的新特征,這樣更有價(jià)值。
5、用大特征集提高創(chuàng)造性
特征工程使得我們可以扔進(jìn)大量的特征,觀察它們代表了什么。我們能創(chuàng)建盡可能多的數(shù)據(jù),觀察在訓(xùn)練模型中哪些更有預(yù)測力。這使得機(jī)器學(xué)習(xí)的從業(yè)者在創(chuàng)建和測試特征時(shí)擺脫僵化心理,并能夠發(fā)現(xiàn)新的趨勢和模式。
雖然當(dāng)幾十個(gè)甚至上百個(gè)特征用于訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),過擬合成為一個(gè)問題,但嚴(yán)謹(jǐn)?shù)奶卣鬟x擇算法,可減少特征使其易于管理。例如,我們可以自主選擇前10個(gè)特征的預(yù)測,與所有1000個(gè)特征的預(yù)測是一樣好,還是優(yōu)于后者。
特征工程
引自《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》
在機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中,特征工程扮演著非常重要的角色,可以說特征工程是機(jī)器學(xué)習(xí)應(yīng)用的基礎(chǔ)。在機(jī)器學(xué)習(xí)業(yè)界流傳著這樣一句話:“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)算法的上限,而模型和算法只是不斷逼近而已。”在機(jī)器學(xué)習(xí)應(yīng)用中,特征工程介于“數(shù)據(jù)”和“模型”之間,特征工程是使用數(shù)據(jù)的專業(yè)領(lǐng)域知識(shí)創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法工作的特征的過程,而好的數(shù)據(jù)勝于多的數(shù)據(jù)。美國計(jì)算機(jī)科學(xué)家Peter Norvig有兩句經(jīng)典名言:“基于大量數(shù)據(jù)的簡單模型勝于少量數(shù)據(jù)的復(fù)雜模型。”以及“更多的數(shù)據(jù)勝于聰明的算法,而好的數(shù)據(jù)勝于多的數(shù)據(jù)。”因此,特征工程的前提是收集足夠多的數(shù)據(jù),其次是從大量數(shù)據(jù)中提取關(guān)鍵信息并表示為模型所需要的形式。合適的特征可以讓模型預(yù)測更加容易,機(jī)器學(xué)習(xí)應(yīng)用更有可能成功。
引自《美團(tuán)機(jī)器學(xué)習(xí)》
在監(jiān)督機(jī)器學(xué)習(xí)過程中,我們使用數(shù)據(jù)教自動(dòng)系統(tǒng)如何做出準(zhǔn)確的決策。機(jī)器學(xué)習(xí)算法被設(shè)計(jì)成發(fā)現(xiàn)模式和歷史訓(xùn)練數(shù)據(jù)間的聯(lián)系;它們從數(shù)據(jù)中學(xué)習(xí)并將學(xué)習(xí)結(jié)果編碼到模型中,從而對新數(shù)據(jù)的重要屬性做出準(zhǔn)確的預(yù)測。因此,訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)中的基本問題。有了高質(zhì)量的數(shù)據(jù),就可以捕捉到細(xì)微的差別和關(guān)聯(lián)關(guān)系,從而建立高保真的預(yù)測系統(tǒng)。相反,若訓(xùn)練數(shù)據(jù)質(zhì)量不佳,則再好的機(jī)器學(xué)習(xí)算法也無濟(jì)于事。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132573
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論