根據(jù)Gartner公司的數(shù)據(jù),到2020年將會(huì)有200億臺(tái)網(wǎng)絡(luò)連接設(shè)備投入使用,這些設(shè)備每年將產(chǎn)生超過(guò)500 ZB(zettabytes)數(shù)據(jù),也就是需要5000億個(gè)1TB硬盤才能放下,隨著科技的進(jìn)步,預(yù)計(jì)這一數(shù)字將繼續(xù)大幅增長(zhǎng)。對(duì)于已經(jīng)進(jìn)入物聯(lián)網(wǎng)行業(yè)的70%的組織來(lái)講,這些數(shù)據(jù)代表了其獨(dú)一無(wú)二的競(jìng)爭(zhēng)優(yōu)勢(shì)。這些數(shù)據(jù)可以幫助企業(yè)獲得有價(jià)值的信息用于開(kāi)發(fā)創(chuàng)新的AI應(yīng)用程序,這對(duì)于企業(yè)來(lái)說(shuō)是一個(gè)巨大的機(jī)會(huì)。
事實(shí)證明,物聯(lián)網(wǎng)數(shù)據(jù)令數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和企業(yè)領(lǐng)導(dǎo)者一樣興奮。從醫(yī)療保健和農(nóng)業(yè)到教育和交通,蓬勃發(fā)展的物聯(lián)網(wǎng)領(lǐng)域和其他領(lǐng)域一樣是多元化的,涵蓋了新信息的發(fā)現(xiàn)和決策控制。物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)打開(kāi)了創(chuàng)造新數(shù)據(jù)產(chǎn)品的大門。本文將討論一些關(guān)于物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)的具體特征。
數(shù)據(jù)注意事項(xiàng)
目前,物聯(lián)網(wǎng)成為了新數(shù)據(jù)的重要來(lái)源之一,物聯(lián)網(wǎng)數(shù)據(jù)或許可以被看做大數(shù)據(jù)的縮影。如果我們只看一臺(tái)設(shè)備產(chǎn)生的數(shù)據(jù),那么我們只需要處理很少的數(shù)據(jù)就可以了(即使這些數(shù)據(jù)也一直在變化)。但無(wú)數(shù)的分布式設(shè)備會(huì)產(chǎn)生連續(xù)的數(shù)據(jù)流,所以物聯(lián)網(wǎng)會(huì)產(chǎn)生大量的數(shù)據(jù)。物聯(lián)網(wǎng)設(shè)備可以收集從音頻到傳感器數(shù)據(jù)等各種類型的信息,并全面覆蓋整體數(shù)據(jù)格式的多樣化。
但是物聯(lián)網(wǎng)數(shù)據(jù)也存在一些獨(dú)一無(wú)二的特性,使其開(kāi)發(fā)具有挑戰(zhàn)性。由于采集和傳輸過(guò)程中出現(xiàn)錯(cuò)誤往往會(huì)產(chǎn)生噪音,這使得構(gòu)建、清理和驗(yàn)收數(shù)據(jù)的過(guò)程成為機(jī)器學(xué)習(xí)算法發(fā)揮的關(guān)鍵步驟。本質(zhì)上來(lái)講,物聯(lián)網(wǎng)數(shù)據(jù)也是高度可變的,這是因?yàn)榭绺鞣N數(shù)據(jù)收集組件的數(shù)據(jù)流中存在巨大的不一致性,而且存在時(shí)間模式。不僅如此,數(shù)據(jù)本身的價(jià)值在很大程度上取決于底層機(jī)制,數(shù)據(jù)捕獲的頻率以及處理方式。即使來(lái)自特定設(shè)備的數(shù)據(jù)被認(rèn)為是值得信賴的,我們?nèi)孕枰紤]到即使在相似條件下不同設(shè)備的行為也可能不同。因此在收集培訓(xùn)數(shù)據(jù)時(shí)捕捉所有可能的情景在實(shí)踐中是不可行的。
半監(jiān)督學(xué)習(xí)
然而,物聯(lián)網(wǎng)數(shù)據(jù)的一個(gè)最顯著的特征在于其粗糙性:因?yàn)槲锫?lián)網(wǎng)設(shè)備通過(guò)各種復(fù)雜的傳感器收集數(shù)據(jù),所產(chǎn)生的數(shù)據(jù)通常非常原始。這意味著,在提取業(yè)務(wù)價(jià)值并構(gòu)建強(qiáng)大的AI應(yīng)用程序之前,主要的數(shù)據(jù)處理是必要的。實(shí)際上,將有意義的信號(hào)從噪聲中分離出來(lái)并將這些非結(jié)構(gòu)化數(shù)據(jù)流轉(zhuǎn)化為有用的結(jié)構(gòu)化數(shù)據(jù),是構(gòu)建智能物聯(lián)網(wǎng)應(yīng)用程序最重要的一步。
大量物聯(lián)網(wǎng)應(yīng)用需要使用監(jiān)督機(jī)器學(xué)習(xí),這是一類機(jī)器學(xué)習(xí)算法,需要在模型可以被訓(xùn)練之前標(biāo)記數(shù)據(jù)。由于手動(dòng)標(biāo)記大型數(shù)據(jù)集是一項(xiàng)耗時(shí)、容易出錯(cuò)且價(jià)格昂貴的任務(wù),因此機(jī)器學(xué)習(xí)專業(yè)人員通常首先轉(zhuǎn)向標(biāo)記為開(kāi)源的數(shù)據(jù)集,或者從少量數(shù)據(jù)開(kāi)始標(biāo)記。然而,物聯(lián)網(wǎng)數(shù)據(jù)的難點(diǎn)來(lái)自其特殊性:因?yàn)檫@些數(shù)據(jù)通常是獨(dú)一無(wú)二的,所以不能保證現(xiàn)有的開(kāi)源數(shù)據(jù)集隨著可獲得,并且工程師們有必要標(biāo)記他們自己的數(shù)據(jù)。這正是高品質(zhì),適應(yīng)性強(qiáng)的眾包標(biāo)簽平臺(tái)所能提供的幫助。
但是,歸因于物聯(lián)網(wǎng)數(shù)據(jù)的可變性,標(biāo)記一個(gè)小的隨機(jī)樣本可能不夠。考慮到這一點(diǎn),這些是在算法訓(xùn)練中利用標(biāo)記和未標(biāo)記數(shù)據(jù)的半督查學(xué)習(xí)策略的完美環(huán)境。特別是主動(dòng)學(xué)習(xí)是一種非常合適的方法,允許機(jī)器學(xué)習(xí)科學(xué)家獲得類似的算法精確度,其中算法被允許向群眾查詢智能選擇的訓(xùn)練實(shí)例的子集的標(biāo)簽,是標(biāo)簽成本的一小部分。
群體感知
在機(jī)器學(xué)習(xí)方面,物聯(lián)網(wǎng)發(fā)展的一個(gè)非常有趣的方面是群體感知的出現(xiàn)。群體感知包括兩種形式:自愿的,當(dāng)用戶自愿提供信息時(shí),以及在沒(méi)有明確干預(yù)用戶的情況下自動(dòng)收集數(shù)據(jù)。這是物聯(lián)網(wǎng)數(shù)據(jù)不僅可以促進(jìn)物聯(lián)網(wǎng)應(yīng)用程序的開(kāi)發(fā)或改進(jìn)的一種方式,而且還可以用作其他非物聯(lián)網(wǎng)應(yīng)用程序的輸入。
物聯(lián)網(wǎng)實(shí)際上允許以前所未有的方式收集非常獨(dú)特的數(shù)據(jù)集。由于每個(gè)設(shè)備生成的數(shù)據(jù)通常都是人為的,因此用戶可以標(biāo)記或驗(yàn)證它。收集最接近用戶位置的數(shù)據(jù)也變得可能:這正是Google要求用戶拍攝他們正在用餐的餐廳的照片,或者回答關(guān)于便利設(shè)施的一些問(wèn)題的目的。這是第一次可以以大數(shù)據(jù)規(guī)模收集人工生成的數(shù)據(jù)。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44704瀏覽量
374161 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132743
原文標(biāo)題:物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)的機(jī)遇和挑戰(zhàn)
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論