色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習的任務:從學術論文中學習數據預處理

如意 ? 來源:百家號 ? 作者: 讀芯術 ? 2020-07-01 09:37 ? 次閱讀

作為工作中最關鍵的部分,數據預處理同時也是大多數數據科學家耗時最長的項目,他們大約80%的時間花在這上面。

這些任務有怎樣重要性?有哪些學習方法和技巧?本文就將重點介紹來自著名大學和研究團隊在不同培訓數據主題上的學術論文。主題包括人類注釋者的重要性,如何在相對較短的時間內創建大型數據集,如何安全處理可能包含私人信息的訓練數據等等。

1. 人類注釋器(human annotators)是多么重要?

機器學習的任務:從學術論文中學習數據預處理

本文介紹了注釋器質量如何極大地影響訓練數據,進而影響模型的準確性的第一手資料。在這個情緒分類項目里,Joef Stefan研究所的研究人員用多種語言分析了sentiment-annotated tweet的大型數據集。

有趣的是,該項目的結果表明頂級分類模型的性能在統計學上沒有重大差異。相反,人類注釋器的質量是決定模型準確性的更大因素。

為了評估他們的注釋器,團隊使用了注釋器之間的認同過程和自我認同過程。研究發現,雖然自我認同是去除表現不佳的注釋器的好方法,但注釋者之間的認同可以用來衡量任務的客觀難度。

研究論文:《多語言Twitter情緒分類:人類注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.機器學習的數據收集調查

機器學習的任務:從學術論文中學習數據預處理

這篇論文來自韓國先進科學技術研究所的一個研究團隊,非常適合那些希望更好地了解數據收集、管理和注釋的初學者。此外,本文還介紹和解釋了數據采集、數據擴充和數據生成的過程。

對于剛接觸機器學習的人來說,這篇文章是一個很好的資源,可以幫助你了解許多常見的技術,這些技術可以用來創建高質量的數據集。

研究論文:《機器學習的數據收集調查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來自韓國科學技術院)

出版/最后更新日期:2019年8月12日

3.用于半監督式學習和遷移學習的高級數據增強技術

機器學習的任務:從學術論文中學習數據預處理

目前數據科學家面臨的最大問題之一就是獲得訓練數據。也可以說,深度學習所面臨最大的問題之一,是大多數模型都需要大量的標簽數據才能以較高的精度發揮作用。

為了解決這些問題,來自谷歌和卡內基·梅隆大學的研究人員提出了一個在大幅降低數據量的情況下訓練模型的框架。該團隊提出使用先進的數據增強方法來有效地將噪音添加到半監督式學習模型中使用的未標記數據樣本中,這個框架能夠取得令人難以置信的結果。

該團隊表示,在IMDB文本分類數據集上,他們的方法只需在20個標記樣本上進行訓練,就能夠超越最先進的模型。此外,在CIFAR-10基準上,他們的方法表現優于此前所有的方法。

論文題目:《用于一致性訓練的無監督數據增強》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團隊, 2 – 卡耐基·梅隆大學)

發布日期 / 最后更新:2019年9月30日

4.利用弱監督對大量數據進行標注

對于許多機器學習項目來說,獲取和注釋大型數據集需要花費大量的時間。在這篇論文中,來自斯坦福大學的研究人員提出了一個通過稱為“數據編程”的過程自動創建數據集的系統。

機器學習的任務:從學術論文中學習數據預處理

上表是直接從論文中提取的,使用數據編程(DP)顯示了與遠程監督的ITR方法相比的精度、召回率和F1得分。

該系統采用弱監管策略來標注數據子集。產生的標簽和數據可能會有一定程度的噪音。然而,該團隊隨后通過將訓練過程表示為生成模型,從數據中去除噪音,并提出了修改損失函數的方法,以確保它對“噪音感知”。

研究論文:《數據編程:快速創建大型訓練集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來自斯坦福大學)

發布/最后更新日期:2017年1月8日

5.如何使用半監督式知識轉移來處理個人身份信息(PII)

機器學習的任務:從學術論文中學習數據預處理

來自谷歌和賓夕法尼亞州立大學的研究人員介紹了一種處理敏感數據的方法,例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化(PATE),可以應用于任何模型,并且能夠在MNIST和SVHN數據集上實現最先進的隱私/效用權衡。

然而,正如數據科學家Alejandro Aristizabal在文章中所說,PATE所設計的一個主要問題為該框架要求學生模型與教師模型共享其數據。在這個過程中,隱私得不到保障。

為此Aristizabal提出了一個額外的步驟,為學生模型的數據集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個過程,但一定要先閱讀其原始研究論文。

論文題目:《從隱私訓練數據進行深度學習的半監督式知識轉移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學)、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。

發布日期 / 最后更新:2017年3月3日

閱讀頂尖學術論文是了解學術前沿的不二法門,同時也是從他人實踐中內化重要知識、學習優秀研究方法的好辦法,多讀讀論文絕對會對你有幫助。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8406

    瀏覽量

    132562
  • 論文
    +關注

    關注

    1

    文章

    103

    瀏覽量

    14956
  • 數據預處理
    +關注

    關注

    1

    文章

    20

    瀏覽量

    2756
收藏 人收藏

    評論

    相關推薦

    自然語言處理機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠數據中學習并做出預測或決策。自然語言處理機器
    的頭像 發表于 12-05 15:21 ?451次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”在計算機系統中主要以數據的形式存在,因此機器學習需要設法對數據進行分析學習,這就使得它逐漸成為智
    的頭像 發表于 11-16 01:07 ?382次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發表于 11-15 09:19 ?433次閱讀

    eda在機器學習中的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程中不可或缺的一部分。 1.
    的頭像 發表于 11-13 10:42 ?281次閱讀

    人工智能、機器學習和深度學習存在什么區別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法數據中學習
    發表于 10-24 17:22 ?2480次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區別

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一個重要環節,目標是給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析
    發表于 08-14 18:00

    機器學習中的數據分割方法

    機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器
    的頭像 發表于 07-10 16:10 ?1696次閱讀

    機器學習中的數據預處理與特征工程

    機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據
    的頭像 發表于 07-09 15:57 ?394次閱讀

    深度學習在視覺檢測中的應用

    深度學習機器學習領域中的一個重要分支,其核心在于通過構建具有多層次的神經網絡模型,使計算機能夠大量數據中自動
    的頭像 發表于 07-08 10:27 ?700次閱讀

    遷移學習的基本概念和實現方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個
    的頭像 發表于 07-04 17:30 ?1619次閱讀

    人工神經網絡與傳統機器學習模型的區別

    在人工智能領域,機器學習和神經網絡是兩個核心概念,它們各自擁有獨特的特性和應用場景。雖然它們都旨在使計算機系統能夠自動數據中學習和提升,但
    的頭像 發表于 07-04 14:08 ?1246次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的
    的頭像 發表于 07-02 11:25 ?987次閱讀

    機器學習數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型
    的頭像 發表于 07-02 11:22 ?612次閱讀

    數據預處理和特征工程的常用功能

    機器學習最基礎的5個流程,分別是數據獲取,數據預處理,特征工程,建模、測試和預測,上線與部署。
    的頭像 發表于 01-25 11:26 ?747次閱讀

    什么是機器學習?它的重要性體現在哪

    任務的解決方法。機器學習的重要性體現在幾個方面數據處理能力:在當今數字化時代,我們產生了大量的數據機器
    的頭像 發表于 01-05 08:27 ?1573次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?它的重要性體現在哪
    主站蜘蛛池模板: 久久久擼擼擼麻豆| 在线高清视频不卡无码| 成人精品视频在线观看| 蜜桃狠狠色伊人亚洲综合网站| 亚洲视频一| 国产中文欧美日韩在线| 色综合欧美色综合七久久| silk118中文字幕无删减| 免费国产成人| 最近日本MV字幕免费观看视频 | 欧洲兽交另类AVXXX| 中文字幕欧美日韩VA免费视频| 火影忍者高清无码黄漫| 亚洲AV 无码AV 中文字幕| 国产精品白浆精子流水合集| 日日摸夜添夜夜夜添高潮| 超碰国产视频免费播放| 日本电影护士| 抽插内射高潮呻吟V杜V| 日操夜操天天操| 囯产精品一区二区三区线| 色噜噜视频| 国产成人综合网在线观看| 天天啪免费视频在线看| 国产精品久久久久久久AV下载| 我把寡妇日出水好爽| 国产精品第九页| 亚洲福利电影一区二区?| 国产精自产拍久久久久久蜜| 十八禁啪啦啪漫画| 国产精品色无码AV在线观看| 午夜福到在线4国产| 国产亚洲精品精华液| 亚洲精品拍拍央视网出文| 果冻传媒MV免费播放在线观看| 亚洲欧美一区二区三区久久 | 5580免费午夜福利院| 美国色吧影院| jj插入bb| 色婷婷AV99XX| 国产色婷婷精品人妻蜜桃成熟|