色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

我們對目前機器學(xué)習(xí)進(jìn)展的衡量有多可靠?

jmiy_worldofai ? 來源:未知 ? 作者:胡薇 ? 2018-06-08 14:38 ? 次閱讀

我們對機器學(xué)習(xí)的發(fā)展認(rèn)識,很大程度上取決于少數(shù)幾個標(biāo)準(zhǔn)基準(zhǔn),比如CIFAR-10,ImageNet或MuJoCo。

近年來人工智能發(fā)展,大的,比如一項又一項“超越人類水平”的進(jìn)步,以及小的、甚至幾乎每天都在發(fā)生的(這要感謝Arxiv),比如在各種論文中不斷被刷新的“state-of-the-art”,無不讓人感嘆領(lǐng)域的蓬勃。

但是,實際情況或許并沒有這么美好。

一項伯克利和MIT合作的新研究,對過去近十年中提出的一些經(jīng)典分類器(比如VGG和ResNet)進(jìn)行再測試后發(fā)現(xiàn),由于測試集過擬合,很多分類器的精度實際并沒有宣稱的那么高;在新的數(shù)據(jù)集上測試結(jié)果表明,這些分類器的精度普遍都有下降,幅度4%~10%不等。

研究者表示,這一結(jié)果可以被視為證據(jù),證明模型的精度這個數(shù)字是不可靠的,并且容易受到數(shù)據(jù)分布中微小的自然變化的影響。

這項新的研究也提出了一個值得反思的問題——我們目前用來衡量機器學(xué)習(xí)進(jìn)展的手段和方法,究竟有多可靠?

重復(fù)使用相同的測試集,無法推廣到新數(shù)據(jù)

作者在論文中寫道,在過去五年里,機器學(xué)習(xí)已經(jīng)成為一個實驗領(lǐng)域。在深度學(xué)習(xí)的推動下,大多數(shù)發(fā)表的論文都采用了同一種套路,那就是看一種新的方法在幾個關(guān)鍵基準(zhǔn)上性能有多少提升。換句話說,就是簡單粗暴地對比數(shù)值,很少有人去解釋為什么。

而在對比數(shù)值的時候,大多數(shù)研究的評估都取決于少數(shù)幾個標(biāo)準(zhǔn)的基準(zhǔn),例如CIFAR-10、ImageNet或MuJoCo。不僅如此,由于Ground truth的數(shù)據(jù)分布一般很難得到,所以研究人員只能在單獨的測試集上評估模型的性能。

“現(xiàn)在,在整個算法和模型設(shè)計過程中,多次重復(fù)使用相同的測試集的做法已經(jīng)被普遍接受。盡管將新模型與以前的結(jié)果進(jìn)行比較是很自然的想法,但顯然目前的研究方法破壞了分類器獨立于測試集這一關(guān)鍵假設(shè)。”

這種不匹配帶來了明顯的危害,因為研究人員可以很容易地設(shè)計出只能在特定測試集上運行良好,但實際上無法推廣到新數(shù)據(jù)的模型。

CIFAR-10可重復(fù)性實驗:VGG、ResNet等經(jīng)典模型精度普遍下降

為了審視這種現(xiàn)象造成的后果,研究人員對CIFAR-10以及相關(guān)分類器做了再調(diào)查。研究的主要目標(biāo)是,衡量新進(jìn)的分類器在泛化到來自相同分布的、未知新數(shù)據(jù)時能做得多好。

選擇標(biāo)準(zhǔn)CIFAR-10數(shù)據(jù)集,是因為它透明的創(chuàng)建過程使其特別適合于這個任務(wù)。此外,CIFAR-10已經(jīng)成為近10年來研究的熱點,在調(diào)查適應(yīng)性(adaptivity)是否導(dǎo)致過擬合這個問題上,它是一個很好的測試用例。

在實驗中,研究人員首先用新的、確定是模型沒有見過的大約2000幅圖像,制作了一個新的測試集,并將新測試集的子類分布與原始 CIFAR-10 數(shù)據(jù)集仔細(xì)地做匹配,盡可能保持一致。

然后,在新測試集上評估了30個圖像分類器的性能,包括經(jīng)典的VGG、ResNet,最近新提出的ResNeXt、PyramidNet、DenseNet,以及在ICLR 2018發(fā)布的Shake-Drop,這個Shake-Drop正則化方法結(jié)合以前的分類器,取得了目前的state-of-art。

結(jié)果如下表所示。原始CIFAR-10測試集和新測試集的模型精度,Gap是兩者精度的差異。ΔRank表示排名的變化,比如“-2”意味著在新測試集中的排名下降了兩個位置。

由結(jié)果可知,新測試集上模型的精度相比原始測試集有明顯下降。例如,VGG和ResNet這兩個模型在原始數(shù)據(jù)集上準(zhǔn)確率為93%,而在新測試集上降為了85%左右。此外,作者還表示,他們發(fā)現(xiàn)現(xiàn)有測試集上模型的性能相比新測試集更加具有預(yù)測性。

對于出現(xiàn)這種結(jié)果的原因,作者設(shè)定了多個假設(shè)并一一進(jìn)行了討論,除了統(tǒng)計誤差、調(diào)參等之外,主要還是過擬合。

作者表示,他們的結(jié)果展現(xiàn)了當(dāng)前機器學(xué)習(xí)進(jìn)展令人意外的一面。盡管CIFAR-10測試集已經(jīng)被不斷適應(yīng)(adapting)了很多年,但這種趨勢并沒有停滯。表現(xiàn)最好的模型仍然是最近提出的Shake-Shake網(wǎng)絡(luò)(Cutout正則化)。而且,在新的測試集置上,Shake-Shake比標(biāo)準(zhǔn)ResNet的優(yōu)勢從4%增加到8%。這表明,瞄準(zhǔn)一個測試集猛攻的研究方法對過擬合而言是十分有效的。

同時,這個結(jié)果也對當(dāng)前分類器的魯棒性提出了質(zhì)疑。盡管新數(shù)據(jù)集只做了微小的改變(分布轉(zhuǎn)移),但現(xiàn)有的被廣泛使用的模型,分類準(zhǔn)確性普遍顯著下降。例如,前面提到的VGG和ResNet的精度損失對應(yīng)于CIFAR-10的多年進(jìn)展。

作者特別指出,他們的實驗引起的分布轉(zhuǎn)移(distributional shift)既不是對抗性的(adversarial),也不是不同數(shù)據(jù)源導(dǎo)致的結(jié)果。因此,即使在良性環(huán)境中,分布轉(zhuǎn)移也會帶來嚴(yán)峻的挑戰(zhàn),研究人員需要思考,目前的模型真正能泛化到什么程度。

機器學(xué)習(xí)研究也需要注意可重復(fù)性

Python Machine Learning 一書作者Sebastian Raschka評論這項研究認(rèn)為,它再次提醒機器學(xué)習(xí)研究人員注意測試集重復(fù)使用(以及違背獨立性)的問題。

谷歌大腦研究科學(xué)家、Twitter賬戶hardmaru表示,對機器學(xué)習(xí)研究進(jìn)行可靠評估的方法十分重要。他期待見到有關(guān)文本和翻譯的類似研究,并查看PTB,wikitext,enwik8,WMT'14 EN-FR,EN-DE等結(jié)構(gòu)如何從相同分布轉(zhuǎn)移到新的測試集。

不過,hardmaru表示,如果在PTB上得到類似的結(jié)果,那么對于深度學(xué)習(xí)研究界來說實際上是好事,因為在PTB這個小數(shù)據(jù)集上進(jìn)行超級優(yōu)化的典型過程,確實會讓人發(fā)現(xiàn)泛化性能更好的新方法。

作者表示,未來實驗應(yīng)該探索在其他數(shù)據(jù)集(例如ImageNet)和其他任務(wù)(如語言建模)上是否同樣對過擬合具有復(fù)原性。此外,我們應(yīng)該了解哪些自然發(fā)生的分布變化對圖像分類器具有挑戰(zhàn)性。

為了真正理解泛化問題,更多的研究應(yīng)該收集有洞察力的新數(shù)據(jù)并評估現(xiàn)有算法在這些數(shù)據(jù)上的性能表現(xiàn)。類似于招募新參與者進(jìn)行醫(yī)學(xué)或心理學(xué)的可重復(fù)性實驗,機器學(xué)習(xí)研究也需要對模型性能的可重復(fù)多做研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23415
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8424

    瀏覽量

    132763

原文標(biāo)題:十年機器學(xué)習(xí)結(jié)果不可靠?伯克利&MIT研究質(zhì)疑了30個經(jīng)典模型

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊

    目前高速發(fā)展的大模型能給具身智能帶來一些突破性的進(jìn)展。 對于感知系統(tǒng),要做的主要任務(wù)是物體檢測,語義分割,立體視覺,鳥瞰視角感知。 很多算法都可以實現(xiàn)物體檢測,比如文章提到的HOG + SVM算法
    發(fā)表于 01-04 19:22

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多
    的頭像 發(fā)表于 12-30 09:16 ?248次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    指令和當(dāng)前機器人靜態(tài)圖像,生成一段預(yù)測的未來狀態(tài)視頻。從這些預(yù)測視頻中,可以提取機器人的位姿信息,并解碼出控制所需的速度、加速度等關(guān)鍵參數(shù),再傳遞給機器人進(jìn)行實際控制。目前,這種方法已
    發(fā)表于 12-29 23:04

    如何選擇云原生機器學(xué)習(xí)平臺

    當(dāng)今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?122次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習(xí)”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習(xí)能力以便實現(xiàn)人工智能。因為沒有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前
    的頭像 發(fā)表于 11-16 01:07 ?445次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機器
    的頭像 發(fā)表于 11-15 09:19 ?507次閱讀

    人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI很多技術(shù),但其中一個很大的子集是機器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)
    發(fā)表于 10-24 17:22 ?2507次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    AMD贊助支FIRST機器人競賽團隊

    AMD 在 2024 賽季贊助了支 FIRST 機器人競賽團隊。FIRST 機器人競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機器人,同時也讓他們有機會
    的頭像 發(fā)表于 09-18 09:45 ?461次閱讀

    衡量功率放大電路的參數(shù)哪些

    衡量功率放大電路的參數(shù)主要包括以下幾個方面: 1. 輸出功率(Output Power) 定義:指在特定負(fù)載條件下,功率放大器能夠輸出的最大功率。 單位:一般以瓦特(W)為單位進(jìn)行表示。 重要性
    的頭像 發(fā)表于 09-03 09:35 ?530次閱讀

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】全書概覽與時間序列概述

    時間序列中的自相關(guān)性。 時間序列有基于線性場景,也有一些非線性性質(zhì)周期性和不對稱性、波動的聚集性、波動中出現(xiàn)的跳躍現(xiàn)象,以及時間的不可逆性。機器學(xué)習(xí)已經(jīng)是目前非線性時序分析的主攻方向之一。 時間序列
    發(fā)表于 08-07 23:03

    如何理解機器學(xué)習(xí)中的訓(xùn)練集、驗證集和測試集

    理解機器學(xué)習(xí)中的訓(xùn)練集、驗證集和測試集,是掌握機器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)與評估的基礎(chǔ)框架,還直接關(guān)系到模型性
    的頭像 發(fā)表于 07-10 15:45 ?4327次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機器學(xué)習(xí)的對比

    在人工智能的浪潮中,機器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發(fā)表于 07-01 11:40 ?1425次閱讀

    機器學(xué)習(xí)8大調(diào)參技巧

    今天給大家一篇關(guān)于機器學(xué)習(xí)調(diào)參技巧的文章。超參數(shù)調(diào)優(yōu)是機器學(xué)習(xí)例程中的基本步驟之一。該方法也稱為超參數(shù)優(yōu)化,需要搜索超參數(shù)的最佳配置以實現(xiàn)最佳性能。
    的頭像 發(fā)表于 03-23 08:26 ?641次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>8大調(diào)參技巧

    電機仿真篇丨雙電機實時仿真測試應(yīng)用

    國內(nèi)虛擬研究平臺基于單電機設(shè)計,而實際工業(yè)中電機配合工作更為常見,如機器人、3D打印機等。電機同步控制在工業(yè)自動化生產(chǎn)系統(tǒng)中廣泛存在,但目前
    發(fā)表于 03-19 16:13

    人工智能和機器學(xué)習(xí)的頂級開發(fā)板哪些?

    機器學(xué)習(xí)(ML)和人工智能(AI)不再局限于高端服務(wù)器或云平臺。得益于集成電路(IC)和軟件技術(shù)的新發(fā)展,在微型控制器和微型計算機上實現(xiàn)機器學(xué)習(xí)算法和深度
    的頭像 發(fā)表于 02-29 18:59 ?851次閱讀
    人工智能和<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的頂級開發(fā)板<b class='flag-5'>有</b>哪些?
    主站蜘蛛池模板: 污污内射在线观看一区二区少妇 | 97在线观看免费| 好紧好湿太硬了我太爽了小说| 最新国产精品福利2020| 视频一区视频二区ae86| 久久热精品18国产| 5566av资源| 性刺激欧美三级在线现看中文| 美女挑战50厘米长的黑人| YELLOW视频在线观看最新 | 日美欧韩一区二去三区| 蓝男色gay| 国产亚洲精品久久久久久白晶晶| caoporon超碰在线视频| 婷婷精品国产亚洲AV在线观看 | 亚洲成人精品久久| 久久99亚洲AV无码四区碰碰| 国产成+人+综合+亚洲不卡| 亚洲三级黄色片| 欧美精品专区免费观看| 精品人伦一区二区三区潘金莲| jlzz中国jizz日本老师水多| 越南女子杂交内射BBWXZ| 色妞色视频一区二区三区四区| 男女免费观看在线爽爽爽视频| 丰满少妇69激情啪啪无码| 亚洲欧美高清在线精品一区| 天龙八部慕容属性加点| 欧美精品九九99久久在观看| 久久亚洲A片COM人成A| 九九精品视频一区二区三区| 国产一区二区三区乱码在线观看| 日本最新在线不卡免费视频| 老师给美女同学开嫩苞| 九九热精品免费观看| 国产午夜亚洲精品一区| 国产精品久久久久久久AV下载| 大香伊人久久| 第一会所欧美无码原创| 成人在无码AV在线观看一| 一个人看的www视频动漫版|