收集數(shù)據(jù)從未像現(xiàn)在這樣容易。只需單擊幾下,您就可以啟動(dòng)并運(yùn)行,配備云必須提供的所有最佳數(shù)據(jù)技術(shù),準(zhǔn)備好囤積所有可能的數(shù)據(jù)。很難相信就在十年前,情況發(fā)生了巨大的不同。事實(shí)上,大規(guī)模收集數(shù)據(jù)只是最大的公司的一種選擇,這些組織既能負(fù)擔(dān)得起昂貴的服務(wù)器(這是存儲(chǔ)所有數(shù)據(jù)的唯一可行選擇),又能負(fù)擔(dān)得起少數(shù)能夠做到最好的工程師其中,在數(shù)據(jù)科學(xué)只是一個(gè)新興領(lǐng)域的時(shí)代。
如今,幸運(yùn)的是,生成數(shù)據(jù)不再只是一項(xiàng)企業(yè)運(yùn)動(dòng)。事實(shí)上,多虧了物聯(lián)網(wǎng) (IoT),無論好壞,我們現(xiàn)在都變成了小型大數(shù)據(jù)工廠。到 2020 年,一個(gè)人將負(fù)責(zé)每秒生成 1.7 MB 的數(shù)據(jù)。即使是現(xiàn)在,僅一輛自動(dòng)駕駛汽車每天就會(huì)產(chǎn)生 11TB 的數(shù)據(jù)。而且這種趨勢沒有減弱的跡象。相反:它只會(huì)增長。
對(duì)于所有數(shù)據(jù)愛好者來說,這顯然是個(gè)好消息。不久前,收集高質(zhì)量的數(shù)據(jù)集是一項(xiàng)繁重而艱巨的任務(wù)。盡管如此,我們總是想要更多。如果您的全新深度學(xué)習(xí)模型似乎“僅”達(dá)到 92% 的準(zhǔn)確率,那么最簡單、最容易找到的借口就是指責(zé)數(shù)據(jù)?!拔业臄?shù)據(jù)集不夠大”,我們漫不經(jīng)心地告訴我們的老板?!暗绻覀?cè)俚葞讉€(gè)星期,這個(gè)模型將是你見過的最好的模型!”
這似乎提出了一個(gè)重要問題:實(shí)際上有多少數(shù)據(jù)才足夠?但它實(shí)際上提出了一個(gè)更重要的問題:多少數(shù)據(jù)太多了?
有趣的是,我們?cè)?a href="http://www.1cnz.cn/v/tag/557/" target="_blank">機(jī)器學(xué)習(xí)圈中并不經(jīng)常聽到這個(gè)問題,即使我們真的應(yīng)該聽到。雖然大數(shù)據(jù)是一個(gè)巨大的機(jī)會(huì),但它也是一個(gè)巨大的 40 zettabyte 責(zé)任。如果數(shù)據(jù)確實(shí)是新的石油,我們需要把類比推到極限:數(shù)據(jù)是一種極其有利可圖的資源,但也像石油一樣,需要提煉。未能克制自己不受控制的使用使我們處于危險(xiǎn)之中。簡而言之,我們今天使用和考慮數(shù)據(jù)的方式是非常不可持續(xù)的,這一事實(shí)仍然幾乎沒有達(dá)到集體意識(shí)。
也許,只是也許,這是錯(cuò)誤的對(duì)話。也許大數(shù)據(jù)畢竟不是人工智能的真正答案。
讓我們退后一步,想想我們真正收集的是什么?;氐綌?shù)字化的早期,數(shù)據(jù)收集確實(shí)成本更高,所以我們選擇了我們的位置。我們更負(fù)責(zé)任,更認(rèn)真。隨著生成和收集數(shù)據(jù)變得越來越容易,對(duì)質(zhì)量的關(guān)注越來越少,而數(shù)量成為云存儲(chǔ)、云計(jì)算、GPU 機(jī)器、大規(guī)模數(shù)據(jù)管理和傳輸系統(tǒng)等新技術(shù)的自然副產(chǎn)品。很快,數(shù)據(jù)變成了一種商品,但隨著數(shù)據(jù)和數(shù)據(jù)存儲(chǔ)的不斷升級(jí),沒有人提出一個(gè)簡單的問題:我們?yōu)槭裁匆占@些?它甚至有意義嗎?
隨著模型構(gòu)建的商品化,數(shù)據(jù)護(hù)城河似乎是人工智能差異化的明顯答案,但我們都錯(cuò)過了大局嗎?數(shù)據(jù)時(shí)代。它變得陳舊。最終,即使我們被誘使相信數(shù)據(jù)和信息是兩個(gè)截然不同的事物,但并非所有數(shù)據(jù)都是 平等的。畢竟,一個(gè)十幾歲的少年在發(fā)到 Instagram 之前自拍了 20 張自己的照片,這肯定與可搜索的醫(yī)學(xué)文獻(xiàn)目錄不同。
只要我們堅(jiān)信硬件的進(jìn)步將使我們免受數(shù)據(jù)災(zāi)難的影響,這一切似乎都不是問題。數(shù)據(jù)存儲(chǔ)越來越便宜,計(jì)算能力也越來越容易獲得。只有當(dāng)數(shù)據(jù)的生成被工程師跟上摩爾定律的能力所抵消時(shí),這才是真的。即使他們可以無限期地做到這一點(diǎn),請(qǐng)考慮以下問題:如果并非所有數(shù)據(jù)都具有同等的信息性,那么處理子數(shù)據(jù)或冗余數(shù)據(jù)有什么意義?
我可以通過我的電腦屏幕聽到數(shù)百名數(shù)據(jù)科學(xué)家的聲音,他們抗議說,更大的訓(xùn)練集是他們痛苦的答案。畢竟,難道幾代專家沒有一次又一次地告訴我們,數(shù)據(jù)越多越好嗎?
事實(shí)并非如此簡單。顯然,獲得高質(zhì)量、足夠大的數(shù)據(jù)集是機(jī)器學(xué)習(xí)取得進(jìn)展的關(guān)鍵。然而,如果醫(yī)生告訴你生病了,急需大量攝入維生素C,你難道不想認(rèn)真地確定哪些食物確實(shí)含有上述維生素,而不是沖到你的廚房,吃掉你能在那里找到的每一種食物嗎?毫無疑問,吃下冰箱或食品儲(chǔ)藏室里的所有食物最終會(huì)讓你獲得一些急需的維生素C,但在這個(gè)過程中,你也會(huì)消耗很多空熱量。不幸的是,今天我們處理機(jī)器學(xué)習(xí)的方式似乎需要相當(dāng)于營養(yǎng)師的干預(yù)。
這似乎是一個(gè)愚蠢的類比,但這里有一些分量。例如,認(rèn)為功能更強(qiáng)大的GPU機(jī)器最終會(huì)讓我們擺脫困境的觀點(diǎn)是有嚴(yán)重缺陷的,就像認(rèn)為暴飲暴食會(huì)幫助我們攝入維生素一樣。實(shí)際上,我們收集的很多數(shù)據(jù)不僅與我們?cè)噲D使用它訓(xùn)練的模型冗余或無關(guān),而且往往對(duì)這些模型有害。例如,過度增長的訓(xùn)練集通常是不平衡的,可能會(huì)導(dǎo)致過度擬合。一些極端的異常值實(shí)際上可能會(huì)導(dǎo)致模型“忘卻”數(shù)據(jù)可能被錯(cuò)誤標(biāo)記、錯(cuò)誤收集或錯(cuò)誤。
這就提出了一個(gè)重要的問題:如果數(shù)據(jù)科學(xué)家最適合就哪些數(shù)據(jù)可能對(duì)模型學(xué)習(xí)更有用提供反饋,那么為什么他們?nèi)匀粠缀醪粎⑴c旨在收集數(shù)據(jù)的硬件設(shè)備的設(shè)計(jì),而且很少有機(jī)會(huì)提供數(shù)據(jù)收集過程本身的反饋?
答案實(shí)際上比最初看起來更簡單:正如營養(yǎng)學(xué)家根據(jù)不同客戶的獨(dú)特營養(yǎng)需求向他們提供不同的建議一樣,數(shù)據(jù)科學(xué)家也只能建議針對(duì)特定用例收集哪些數(shù)據(jù)。簡而言之,在訓(xùn)練給定模型的背景下,信息量最大的數(shù)據(jù)實(shí)際上可能與另一個(gè)模型完全無關(guān),這使得在源位置對(duì)數(shù)據(jù)進(jìn)行不可知分類具有挑戰(zhàn)性。
硬件顯然無法解決所有這些問題。它無法確定哪些數(shù)據(jù)行正在降低模型的準(zhǔn)確性。它無法弄清楚哪些是多余的。它不能重新標(biāo)記錯(cuò)誤的數(shù)據(jù)點(diǎn)。換句話說,存儲(chǔ)太多數(shù)據(jù)并不能解決存儲(chǔ)太多數(shù)據(jù)帶來的問題。我們需要專注于創(chuàng)建一個(gè)額外的智能層,能夠從渣滓中分類有意義的數(shù)據(jù)。我們需要開始關(guān)注那些從較小的、經(jīng)過整理的數(shù)據(jù)集構(gòu)建出色模型的數(shù)據(jù)科學(xué)家。我們需要明白,是的,您可以過度喂食您的模型。
數(shù)據(jù)的未來并不存在于容納每個(gè)數(shù)據(jù)點(diǎn)的巨大服務(wù)器場中,而不管哪些數(shù)據(jù)點(diǎn)實(shí)際上是有用的。它存在于小型智能數(shù)據(jù)中。它是基于數(shù)據(jù)質(zhì)量及其與用例相關(guān)性的深思熟慮的方法,而不是主要基于數(shù)量的草率方法。對(duì)于我們這些沒有無休止的標(biāo)簽和服務(wù)器預(yù)算的人來說,它更容易獲得。換句話說,它既更智能,也更民主。
這是我們都可以落后的。
Jennifer Prendki是 Alectio 的創(chuàng)始人兼首席執(zhí)行官。這家公司是她相信好的模型只能用好的數(shù)據(jù)建立的直接產(chǎn)物,而盲目地使用越來越大的訓(xùn)練集的蠻力方法是進(jìn)入人工智能的障礙如此之高的原因。在創(chuàng)立 Alectio 之前,Jennifer 是 Figure 8 的機(jī)器學(xué)習(xí)副總裁、數(shù)據(jù)標(biāo)簽的先驅(qū)、Atlassian 的首席數(shù)據(jù)科學(xué)家和沃爾瑪實(shí)驗(yàn)室搜索團(tuán)隊(duì)的數(shù)據(jù)科學(xué)高級(jí)經(jīng)理。她擁有索邦大學(xué)粒子物理學(xué)博士學(xué)位。她最喜歡的口號(hào)是:“并非所有數(shù)據(jù)生來都是平等的”、“數(shù)據(jù)是新塑料”和“智能數(shù)據(jù) > 大數(shù)據(jù)”。
審核編輯 黃昊宇
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7134瀏覽量
89403 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2912文章
44915瀏覽量
375958
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論