色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么深度學(xué)習(xí)模型經(jīng)常出現(xiàn)預(yù)測概率和真實(shí)情況差異大的問題?

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:Fareise ? 2022-09-09 17:11 ? 次閱讀

大家在訓(xùn)練深度學(xué)習(xí)模型的時候,有沒有遇到這樣的場景:分類任務(wù)的準(zhǔn)確率比較高,但是模型輸出的預(yù)測概率和實(shí)際預(yù)測準(zhǔn)確率存在比較大的差異?這就是現(xiàn)代深度學(xué)習(xí)模型面臨的校準(zhǔn)問題。在很多場景中,我們不僅關(guān)注分類效果或者排序效果(auc),還希望模型預(yù)測的概率也是準(zhǔn)的。例如在自動駕駛場景中,如果模型無法以置信度較高的水平檢測行人或障礙物,就應(yīng)該通過輸出概率反映出來,并讓模型依賴其他信息進(jìn)行決策。再比如在廣告場景中,ctr預(yù)測除了給廣告排序外,還會用于確定最終的扣費(fèi)價格,如果ctr的概率預(yù)測的不準(zhǔn),會導(dǎo)致廣告主的扣費(fèi)偏高或偏低。

那么,為什么深度學(xué)習(xí)模型經(jīng)常出現(xiàn)預(yù)測概率和真實(shí)情況差異大的問題?又該如何進(jìn)行校準(zhǔn)呢?這篇文章首先給大家介紹模型輸出預(yù)測概率不可信的原因,再為大家通過10篇頂會論文介紹經(jīng)典的校準(zhǔn)方法,可以適用于非常廣泛的場景。

1 為什么會出現(xiàn)校準(zhǔn)差的問題

最早進(jìn)行系統(tǒng)性的分析深度學(xué)習(xí)輸出概率偏差問題的是2017年在ICML發(fā)表的一篇文章On calibration of modern neural networks(ICML 2017)。文中發(fā)現(xiàn),相比早期的簡單神經(jīng)網(wǎng)絡(luò)模型,現(xiàn)在的模型越來越大,效果越來越好,但同時模型的校準(zhǔn)性越來越差。文中對比了簡單模型LeNet和現(xiàn)代模型ResNet的校準(zhǔn)情況,LeNet的輸出結(jié)果校準(zhǔn)性很好,而ResNet則出現(xiàn)了比較嚴(yán)重的過自信問題(over-confidence),即模型輸出的置信度很高,但實(shí)際的準(zhǔn)確率并沒有那么高。

d29db7d4-2f5d-11ed-ba43-dac502259ad0.png

造成這個現(xiàn)象的最本質(zhì)原因,是模型對分類問題通常使用的交叉熵?fù)p失過擬合。并且模型越復(fù)雜,擬合能力越強(qiáng),越容易過擬合交叉熵?fù)p失,帶來校準(zhǔn)效果變差。這也解釋了為什么隨著深度學(xué)習(xí)模型的發(fā)展,校準(zhǔn)問題越來越凸顯出來。

那么為什么過擬合交叉熵?fù)p失,就會導(dǎo)致校準(zhǔn)問題呢?因?yàn)楦鶕?jù)交叉熵?fù)p失的公式可以看出,即使模型已經(jīng)在正確類別上的輸出概率值最大(也就是分類已經(jīng)正確了),繼續(xù)增大對應(yīng)的概率值仍然能使交叉熵進(jìn)一步減小。因此模型會傾向于over-confident,即對于樣本盡可能的讓模型預(yù)測為正確的label對應(yīng)的概率接近1。模型過擬合交叉熵,帶來了分類準(zhǔn)確率的提升,但是犧牲的是模型輸出概率的可信度。

如何解決校準(zhǔn)性差的問題,讓模型輸出可信的概率值呢?業(yè)內(nèi)的主要方法包括后處理和在模型中聯(lián)合優(yōu)化校準(zhǔn)損失兩個方向,下面給大家分別進(jìn)行介紹。

2 后處理校準(zhǔn)方法

后處理校準(zhǔn)方法指的是,先正常訓(xùn)練模型得到初始的預(yù)測結(jié)果,再對這些預(yù)測概率值進(jìn)行后處理,讓校準(zhǔn)后的預(yù)測概率更符合真實(shí)情況。典型的方法包括Histogram binning(2001)、Isotonic regression(2002)Platt scaling(1999)

Histogram binning是一種比較簡單的校準(zhǔn)方法,根據(jù)初始預(yù)測結(jié)果進(jìn)行排序后分桶,每個桶內(nèi)求解一個校準(zhǔn)后的結(jié)果,落入這個桶內(nèi)的預(yù)測結(jié)果,都會被校準(zhǔn)成這個值。每個桶校準(zhǔn)值的求解方法是利用一個驗(yàn)證集進(jìn)行擬合,求解桶內(nèi)平均誤差最小的值,其實(shí)也就是落入該桶內(nèi)正樣本的比例。

Isotonic regression是Histogram binning一種擴(kuò)展,通過學(xué)習(xí)一個單調(diào)增函數(shù),輸入初始預(yù)測結(jié)果,輸出校準(zhǔn)后的預(yù)測結(jié)果,利用這個單調(diào)增函數(shù)最小化預(yù)測值和label之間的誤差。保序回歸就是在不改變預(yù)測結(jié)果的排序(即不影響模型的排序能力),通過修改每個元素的值讓整體的誤差最小,進(jìn)而實(shí)現(xiàn)模型糾偏。

Platt scaling則直接使用一個邏輯回歸模型學(xué)習(xí)基礎(chǔ)預(yù)測值到校準(zhǔn)預(yù)測值的函數(shù),利用這個函數(shù)實(shí)現(xiàn)預(yù)測結(jié)果校準(zhǔn)。在獲得基礎(chǔ)預(yù)估結(jié)果后,以此作為輸入,訓(xùn)練一個邏輯回歸模型,擬合校準(zhǔn)后的結(jié)果,也是在一個單獨(dú)的驗(yàn)證集上進(jìn)行訓(xùn)練。這個方法的問題在于對校準(zhǔn)前的預(yù)測值和真實(shí)值之間的關(guān)系做了比較強(qiáng)分布假設(shè)。

3 在模型中進(jìn)行校準(zhǔn)

除了后處理的校準(zhǔn)方法外,一些在模型訓(xùn)練過程中實(shí)現(xiàn)校準(zhǔn)的方法獲得越來越多的關(guān)注。在模型中進(jìn)行校準(zhǔn)避免了后處理的兩階段方式,主要包括在損失函數(shù)中引入校準(zhǔn)項(xiàng)、label smoothing以及數(shù)據(jù)增強(qiáng)三種方式。

基于損失函數(shù)的校準(zhǔn)方法最基礎(chǔ)的是On calibration of modern neural networks(ICML 2017)這篇文章提出的temperature scaling方法。Temperature scaling的實(shí)現(xiàn)方式很簡單,把模型最后一層輸出的logits(softmax的輸入)除以一個常數(shù)項(xiàng)。這里的temperature起到了對logits縮放的作用,讓輸出的概率分布熵更大(溫度系數(shù)越大越接近均勻分布)。同時,這樣又不會改變原來預(yù)測類別概率值的相對排序,因此理論上不會對模型準(zhǔn)確率產(chǎn)生負(fù)面影響。

Trainable calibration measures for neural networks from kernel mean embeddings(2018)這篇文章中,作者直接定義了一個可導(dǎo)的校準(zhǔn)loss,作為一個輔助loss在模型中和交叉熵loss聯(lián)合學(xué)習(xí)。本文定義的MMCE原理來自評估模型校準(zhǔn)度的指標(biāo),即模型輸出類別概率值與模型正確預(yù)測該類別樣本占比的差異。

Calibrating deep neural networks using focal loss(NIPS 2020)中,作者提出直接使用focal loss替代交叉熵?fù)p失,就可以起到校準(zhǔn)作用。Focal loss是表示學(xué)習(xí)中的常用函數(shù),對focal loss不了解的同學(xué)可以參考之前的文章:表示學(xué)習(xí)中的7大損失函數(shù)梳理。作者對focal loss進(jìn)行推倒,可以拆解為如下兩項(xiàng),分別是預(yù)測分布與真實(shí)分布的KL散度,以及預(yù)測分布的熵。KL散度和一般的交叉熵作用相同,而第二項(xiàng)在約束模型輸出的預(yù)測概率值熵盡可能大,其實(shí)和temperature scaling的原理類似,都是緩解模型在某個類別上打分太高而帶來的過自信問題:

d2c6ff68-2f5d-11ed-ba43-dac502259ad0.png

除了修改損失函數(shù)實(shí)現(xiàn)校準(zhǔn)的方法外,label smoothing也是一種常用的校準(zhǔn)方法,最早在Regularizing neural networks by penalizing confident output distributions(ICLR 2017)中提出了label smoothing在模型校準(zhǔn)上的應(yīng)用,后來又在When does label smoothing help? (NIPS 2019)進(jìn)行了更加深入的探討。Label smoothing通過如下公式對原始的label進(jìn)行平滑操作,其原理也是增大輸出概率分布的熵:

d2d8641a-2f5d-11ed-ba43-dac502259ad0.png

此外,一些研究也研究了數(shù)據(jù)增強(qiáng)手段對模型校準(zhǔn)的影響。On mixup training: Improved calibration and predictive uncertainty for deep neural networks(NIPS 2019)提出mixup方法可以有效提升模型校準(zhǔn)程度。Mixup是一種簡單有效的數(shù)據(jù)增強(qiáng)策略,具體實(shí)現(xiàn)上,隨機(jī)從數(shù)據(jù)集中抽取兩個樣本,將它們的特征和label分別進(jìn)行加權(quán)融合,得到一個新的樣本用于訓(xùn)練:

d2e354d8-2f5d-11ed-ba43-dac502259ad0.png

文中作者提出,上面融合過程中對label的融合對取得校準(zhǔn)效果好的預(yù)測結(jié)果是非常重要的,這和上面提到的label smoothing思路比較接近,讓label不再是0或1的超低熵分布,來緩解模型過自信問題。

類似的方法還包括CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features(ICCV 2019)提出的一種對Mixup方法的擴(kuò)展,隨機(jī)選擇兩個圖像和label后,對每個patch隨機(jī)選擇是否使用另一個圖像相應(yīng)的patch進(jìn)行替換,也起到了和Mixup類似的效果。文中也對比了Mixup和CutMix的效果,Mixup由于每個位置都進(jìn)行插值,容易造成區(qū)域信息的混淆,而CutMix直接進(jìn)行替換,不同區(qū)域的差異更加明確。

d2f70370-2f5d-11ed-ba43-dac502259ad0.png

4 總結(jié)

本文梳理了深度學(xué)習(xí)模型的校準(zhǔn)方法,包含10篇經(jīng)典論文的工作。通過校準(zhǔn),可以讓模型輸出的預(yù)測概率更加可信,可以應(yīng)用于各種類型、各種場景的深度學(xué)習(xí)模型中,適用場景非常廣泛。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:不要相信模型輸出的概率打分......

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    ADS1291測試中經(jīng)常會出現(xiàn)R波變小的情況,為什么?

    最近使用ADS1291的過程中,剛開始非常順利,很快就能正確的采集到波形,噪聲情況良好,但是后面測試的時候發(fā)現(xiàn)了一個非常奇怪的問題,測試中經(jīng)常會出現(xiàn)R波變小的情況,或者R波根本就看不到,而P波、T
    發(fā)表于 01-09 06:39

    使用ADUM4121ARIZ輸出15V電壓驅(qū)動mos/IGBT時,經(jīng)常出現(xiàn)10ohm電阻損壞的情況,為什么?

    我在使用ADUM4121ARIZ輸出15V電壓驅(qū)動mos/IGBT時,經(jīng)常出現(xiàn)10ohm電阻損壞的情況,ADUM4121ARIZ的5/6/7/8腳短路。其中10Ohm電阻的右端有一根1米的線纜連接
    發(fā)表于 12-19 08:07

    用tas5630驅(qū)動容性負(fù)載,經(jīng)常出現(xiàn)損壞芯片的現(xiàn)象,怎么解決?

    現(xiàn)在我用tas5630驅(qū)動容性負(fù)載,但是發(fā)現(xiàn)經(jīng)常出現(xiàn)損壞芯片的現(xiàn)象。并不是說工作了很長時間芯片損壞了,而是在有些頻率點(diǎn),一上電就壞掉了。這是為什么,有什么好的解決辦法嗎?謝謝
    發(fā)表于 11-07 06:33

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)
    的頭像 發(fā)表于 10-25 09:22 ?321次閱讀

    AI大模型深度學(xué)習(xí)的關(guān)系

    AI大模型深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大
    的頭像 發(fā)表于 10-23 15:25 ?1095次閱讀

    tvp5150am1 RST腳經(jīng)常出現(xiàn)復(fù)位不正常,為什么?

    最近設(shè)計的一塊電路板,TVP5150頻繁出現(xiàn)問題,具體原因還沒查到,現(xiàn)象總結(jié)在這里,希望大家?guī)兔Ψ治鱿?1、RST腳經(jīng)常出現(xiàn)復(fù)位不正常,電壓值在1.2----3.3V之間。 2、sclk腳輸出
    發(fā)表于 09-12 06:23

    THS4500 RG和RF的選值對輸出波形的影響怎么解決?

    和RF增加,波動(噪聲)明顯增加?想知道真實(shí)情況也會如此嗎? 我的理解,隨著RG和RF增加,噪聲增加是由于小的波動電流,乘以反饋電阻導(dǎo)致的。模型中均為理想情況,為什么會產(chǎn)生波動(噪聲)呢?還是我的原理圖
    發(fā)表于 08-05 08:03

    深度學(xué)習(xí)模型中的過擬合與正則化

    深度學(xué)習(xí)的廣闊領(lǐng)域中,模型訓(xùn)練的核心目標(biāo)之一是實(shí)現(xiàn)對未知數(shù)據(jù)的準(zhǔn)確預(yù)測。然而,在實(shí)際應(yīng)用中,我們經(jīng)常會遇到一個問題——過擬合(Overfi
    的頭像 發(fā)表于 07-09 15:56 ?1094次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是
    的頭像 發(fā)表于 07-04 11:49 ?1760次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-01 16:13 ?1443次閱讀

    深度學(xué)習(xí)模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過程中,往往會遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?936次閱讀

    ESP32用send函數(shù)發(fā)送數(shù)據(jù)時,經(jīng)常出現(xiàn)進(jìn)到send后就出不來了的情況,為什么?

    在使用ESP32的WIFI發(fā)送TCP數(shù)據(jù)時(模塊做AP,TCP-Server),用send函數(shù)發(fā)送數(shù)據(jù)時,經(jīng)常出現(xiàn)進(jìn)到send后就出不來了的情況,唯一的解救辦法就是斷開WIFI連接,send才會返回
    發(fā)表于 06-26 07:00

    STM8S003F3經(jīng)常出現(xiàn)僵死或者是丟程序的問題,怎么解決?

    最近做項(xiàng)目用到STM8S003F3。發(fā)現(xiàn)經(jīng)常出現(xiàn)僵死或者是丟程序的問題。重啟無效。使用的IAR開發(fā)環(huán)境。。重新燒錄以后又正常使用。。VCAP上用的是1UF電容。。RST上是4.7K+104。。供電用LDO3.3V應(yīng)該很穩(wěn)定。不知道為什么會出現(xiàn)這種問題。。發(fā)現(xiàn)
    發(fā)表于 05-10 06:37

    Nb-IOT、LoRa、ZigBee無線組網(wǎng)缺點(diǎn)

    今天我說一說物聯(lián)網(wǎng)主要的幾個傳輸協(xié)議的真實(shí)情況。
    的頭像 發(fā)表于 03-12 14:46 ?1180次閱讀

    使用HW signal connections 連接不同APP的信號的時候,經(jīng)常出現(xiàn)信號不能選擇的原因?

    使用HW signal connections 連接不同APP的信號的時候,經(jīng)常出現(xiàn)信號不能選擇,或者提示\"DAVE is not able to grant your last hardware resources request\",這是什么原因,能解決嗎?
    發(fā)表于 02-06 06:27
    主站蜘蛛池模板: 伊人久久大香线蕉综合电影网 | 男人女人边摸边吃奶边做 | 麻豆精品人妻一区二区三区蜜桃 | 真实伦 乱 | 亚洲欧美中文字幕5发布 | 老女人与小伙子露脸对白 | 乌克兰少妇大胆大BBW | 最新国自产拍天天更新 | 91精品免费久久久久久久久 | 亚洲一区日韩一区欧美一区a | 邪恶肉肉全彩色无遮琉璃神社 | 偷偷鲁青春草原视频分类 | 亚洲黄色在线视频 | 日韩欧美中文字幕在线二视频 | 刺激一区仑乱 | 国产最新地址 | 欧美性情一线免费http | 久久精品国产欧美 | 偷偷鲁手机在线播放AV | 琪琪色在线播放 | 日本亚洲精品色婷婷在线影院 | 色偷偷亚洲天堂 | 任你懆视频 这里只有精品 人与人特黄一级 | 999zyz色资源站在线观看 | 用快播看黄的网站 | 男女久久久国产一区二区三区 | 暖暖视频中国在线观看免费韩国 | 这里只有精品在线视频 | 51vv视频社区 | 久久永久视频 | 免费看男人J放进女人J无遮掩 | 天天靠天天擦天天摸 | 我半夜摸妺妺的奶C了她软件 | 亚洲人成77777 | 亚洲视频中文字幕在线观看 | 视频一区国产在线二区 | 国内免费视频成人精品 | 中文无码字慕在线观看 | 亚洲成AV人片一区二区不卡 | 精品国产自在天天线2019 | 亚洲高清国产拍精品动图 |