色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中賦予了什么數學意義

姚小熊27 ? 來源:雷鋒網 ? 作者:雷鋒網 ? 2020-10-14 09:40 ? 次閱讀

機器學習中的用于聲稱性能的指標標準很少被討論。由于在這個問題上似乎沒有一個明確的、廣泛的共識,因此我認為提供我一直在倡導并盡可能遵循的標準可能會很有趣。它源于這個簡單的前提,這是我的科學老師從中學開始就灌輸給我的:

科學報告的一般規則是,您寫下的每個數字都應為“真”的,因為“真”的定義是什么。

讓我們來研究一下這對測試性能等統計量意味著什么。當你在科學出版物中寫下以下陳述時:

測試準確率為52.34%。你所表達的是,據你所知,你的模型在從測試分布中提取的未見數據上成功的概率在0.52335和0.52345之間。

這是一個非常強有力的聲明。

考慮你的測試集是從正確的測試分布中抽取的N個樣本IID組成的。成功率可以表示為一個二項式變量,其平均概率p由樣本平均值估計:p?s/N

其標準差為:σ=√p(1-p)。

其中當p=0.5時,其上限為0.5。

在正態近似下,估計量的標準差為:δ=σ/√N。

這個精度估計上的誤差δ是這樣的,在最壞的情況下,有約50%的精度:

換句話說,為了保證上述報告中例子52.34%的準確率,你的測試集的大小至少應該在30M樣本的數量級上!這種粗略的分析很容易轉化為除了準確率以外的任何可計算的數量,盡管不能轉化為像似然率或困惑度這樣的連續數字。

下面是一些常見的機器學習數據集的說明。

在ImageNet上可以合理地報告多少位數的精度?準確率在80%左右,測試集是15萬張圖片:

√(0.8*0.2/150000)=0.103%

這意味著你幾乎可以報告XX.X%的數字,而實際上每個人都是這樣做的。

MNIST呢,準確率在99%:

√(0.99*0.01/10000)=0.099%

噗,也報個XX.X%就OK了!

然而,最值得注意的是,在大多數情況下,性能數據并不是單獨呈現的,而是用來比較同一測試集上的多種方法。在這種情況下,實驗之間的抽樣方差會被抵消,即使在樣本量較小的情況下,它們之間的準確度差異也可能在統計學上很顯著。估計圖方差的一個簡單方法是執行bootstrap重采樣。更嚴格、通常更嚴格的檢驗包括進行配對差異檢驗或更普遍的方差分析。

報告超出其內在精度的數字可能很具有極大的吸引力,因為在與基線進行比較的情況下,或者當人們認為測試集是一成不變的情況下,同時也不是從測試分布中抽取的樣本時,性能數字往往更加重要。當在生產中部署模型時,這種做法會讓人感到驚訝,并且固定的測試集假設突然消失了,還有一些無關緊要的改進。更普遍的是,這種做法會直接導致對測試集進行過擬合。

那么,在我們的領域中數字為“真”意味著什么?好吧,這確實很復雜。對于工程師而言,很容易辯稱不應該報告的尺寸超出公差。或者對于物理學家來說,物理量不應超過測量誤差。對于機器學習從業者,我們不僅要應對測試集的采樣不確定性,而且還要應對獨立訓練運行,訓練數據的不同初始化和改組下的模型不確定性。

按照這個標準,在機器學習中很難確定哪些數字是“真”的。解決辦法當然是盡可能地報告其置信區間。置信區間是一種更精細的報告不確定性的方式,可以考慮到所有隨機性的來源,以及除簡單方差之外的顯著性檢驗。它們的存在也向你的讀者發出信號,表明你已經考慮過你所報告的內容的意義,而不僅僅是你的代碼所得到的數字。用置信區間表示的數字可能會被報告得超出其名義上的精度,不過要注意的是,你現在必須考慮用多少位數來報告不確定性,正如這篇博文所解釋的那樣。一路走來都是烏龜。

數字少了,雜亂無章的東西就少了,科學性就強了。

避免報告超出統計學意義的數字結果,除非你為它們提供一個明確的置信區間。這理所當然地被認為是科學上的不良行為,尤其是在沒有進行配對顯著性測試的情況下,用來論證一個數字比另一個數字好的時候。僅憑這一點就經常有論文被拒絕。一個良好的習慣是對報告中帶有大量數字的準確率數字始終持懷疑態度。還記得3000萬、30萬和30萬的經驗法則對最壞情況下作為“嗅覺測試”的統計顯著性所需樣本數量的限制嗎?它會讓你避免追逐統計上的“幽靈”。
責任編輯:YYX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8408

    瀏覽量

    132572
收藏 人收藏

    評論

    相關推薦

    zeta在機器學習的應用 zeta的優缺點分析

    在探討ZETA在機器學習的應用以及ZETA的優缺點時,需要明確的是,ZETA一詞在不同領域可能有不同的含義和應用。以下是根據不同領域的ZETA進行的分析: 一、ZETA在機器
    的頭像 發表于 12-20 09:11 ?191次閱讀

    傅立葉變換在機器學習的應用 常見傅立葉變換的誤區解析

    傅里葉變換在機器學習的應用 傅里葉變換是一種將信號分解為其組成頻率分量的數學運算,它在機器學習
    的頭像 發表于 12-06 17:06 ?187次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”在計算機系統主要以數據的形式存在,因此機器學習需要設法對數據進行分析學習,這就使得它逐漸成為智能數據分析技術的創新源之一,
    的頭像 發表于 11-16 01:07 ?386次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    eda在機器學習的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程不可或缺的一部分。 1. 數據清洗 數據清洗 是機器學習
    的頭像 發表于 11-13 10:42 ?291次閱讀

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    。 時間序列的單調性理論是數學求導。下面是使用EWMA分析股票價格變動,以決定買入還是賣出。通過仿真數據,這種指數移動平均的技術剔除了短期波動,有助看清股票整體趨勢。 通過對本章學習,對時間序列的研究目的、方法與特征有較全
    發表于 08-17 21:12

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統性的框架和深入淺出的講解,為讀者繪制一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示
    發表于 08-12 11:21

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    收到《時間序列與機器學習》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發燒友提供一個讓我學習時間序列及應用的機會! 前言第一段描述
    發表于 08-11 17:55

    機器學習的數據分割方法

    機器學習,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習
    的頭像 發表于 07-10 16:10 ?1717次閱讀

    如何理解機器學習的訓練集、驗證集和測試集

    理解機器學習的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?3814次閱讀

    機器學習的數據預處理與特征工程

    機器學習的整個流程,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和特征工程的基本概念出發,詳細探討這
    的頭像 發表于 07-09 15:57 ?395次閱讀

    神經網絡在數學建模的應用

    數學建模是一種利用數學方法和工具來描述和分析現實世界問題的過程。神經網絡是一種模擬人腦神經元結構和功能的計算模型,可以用于解決各種復雜問題。在數學建模,神經網絡可以作為一種有效的工具
    的頭像 發表于 07-02 11:29 ?928次閱讀

    機器學習在數據分析的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據中學習規律,為企業和組織提供更高效、更準確的數據分析能力。本文將深入
    的頭像 發表于 07-02 11:22 ?612次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于
    的頭像 發表于 07-01 11:40 ?1334次閱讀

    機器學習怎么進入人工智能

    人工智能(Artificial Intelligence,AI)是一門涉及計算機、工程、數學、哲學和認知科學等多個領域的交叉學科,旨在構建智能化計算機系統,使之能夠自主感知、理解、學習和決策。如今
    的頭像 發表于 04-04 08:41 ?301次閱讀

    如何使用TensorFlow構建機器學習模型

    在這篇文章,我將逐步講解如何使用 TensorFlow 創建一個簡單的機器學習模型。
    的頭像 發表于 01-08 09:25 ?968次閱讀
    如何使用TensorFlow構建<b class='flag-5'>機器</b><b class='flag-5'>學習</b>模型
    主站蜘蛛池模板: 三级黄色片免费观看| 国产色无码精品视频国产| 亚洲国产无线码在线观看| 免费黄色网址在线观看| 国产免费麻传媒精品国产AV| 中文字幕视频免费在线观看| 欧美亚洲韩日午夜| 国产精品亚洲视频在线观看| 亚洲伊人久久一次| 青青草视频在线ac| 果冻传媒在线观看进入窗口| 97色伦97色伦国产| 日本美女搞基视频| 久久a在线视频观看| 办公室韩国电影免费完整版| 亚洲 欧美 中文字幕 在线 | 日日干夜夜爽| 久久视频在线视频观品15 | 日本精品卡一卡2卡3卡四卡三卡| 国产偷国产偷亚洲高清SWAG | 两个奶被男人揉了一个晚上| 嘟嘟嘟WWW在线观看视频高清| 一线高清视频在线播放| 熟女理发厅| 免费人成视频X8X8国产更快乐| 国产精品久久久久久精品...| 91avcom| 亚洲aaaa级特黄毛片| 琪琪色原网站ying| 久久综合伊人| 中文字幕一区二区视频| 脱jk裙的美女露小内内无遮挡| 欧美黄色一级| 久久最新地址获取| 国产欧美日韩精品a在线观看高清| 高清AV熟女一区| 吃奶吸咪咪动态图| www免费看.男人的天堂| www.国产精品视频| 啊轻点啊再深点视频免费| FREE另类老女人|