色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Calibration: 一個工業(yè)價值極大,學(xué)術(shù)界卻鮮有研究的問題

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:kid丶 ? 2021-02-14 09:28 ? 次閱讀

319df206-549c-11eb-8b86-12bb97331649.png

盡管深度學(xué)習(xí)工業(yè)界帶來了一波上線春天,但是總有很多比較難的業(yè)務(wù),模型反復(fù)迭代后準(zhǔn)確率依然達(dá)不到預(yù)期的產(chǎn)品標(biāo)準(zhǔn),難以滿足用戶期望。

以下為工業(yè)界常見討(si)論(b)場景:

R&D小哥哥一頓調(diào)參輸出,RoBERTa都用上了,終于將模型從80%準(zhǔn)確率提升到了90%,但是PM小姐姐說,“不行!咱們必須要達(dá)到95%準(zhǔn)確率才能上線!否則就是對用戶和產(chǎn)品逼格的傷害!”

怎么辦呢?

熟悉工業(yè)界上線套路的小伙伴馬上就能給出答案,那就是提高模型決策的閾值!PM小姐姐只是根據(jù)產(chǎn)品標(biāo)準(zhǔn)定義了模型準(zhǔn)確率(或者說精確率,precision),但是并不在乎召回率有多高(畢竟模型只要沒上線,就相當(dāng)于召回率為0)。

那么基于上面的思路:假如模型的softmax輸出可靠,比如二分類場景,模型softmax之后1類的輸出是0.92,能表征模型有92%的把握說這是個正例,并且模型的這個把握是精準(zhǔn)的,那么PM小姐姐說要達(dá)到95%準(zhǔn)確率,那我們就瘋狂提高模型的決策閾值就好了,這樣把那些不確定性高的樣本砍掉了,模型準(zhǔn)確率自然就上來了。

然而,神經(jīng)網(wǎng)絡(luò)并不一定這么靠譜,你看模型的測試集輸出的話,卻常常發(fā)現(xiàn)模型要么以99.999的概率輸出來判定正例,要么0.0001的概率輸出來判定負(fù)例,基本沒有樣本落在0.1~0.9區(qū)間內(nèi)。那么這時候上面的思路就失效了。

那么有沒有辦法讓模型的softmax輸出能真實的反映決策的置信度呢?這個問題,就被稱為Calibration問題(直譯是叫“校準(zhǔn)”)。

故事要從一篇發(fā)表于2017年的ICML頂會論文開始,目前這篇論文引用量1001。

論文標(biāo)題:

On Calibration of Modern Neural Networks

鏈接:

https://arxiv.org/pdf/1706.04599.pdf

神經(jīng)網(wǎng)絡(luò)的 overconfidence

31f2dc8a-549c-11eb-8b86-12bb97331649.jpg

首先,讓咱們來思考一個普通圖像分類任務(wù)。對于一張“koala”的圖像,在經(jīng)過神經(jīng)網(wǎng)絡(luò)后會得到 logits 輸出 ,經(jīng)過 softmax 層后得到對各類別的預(yù)測的后驗概率,接著我們選擇概率最大的類別( koala)輸出為最后的預(yù)測類別。這里,最終的預(yù)測類別 ,其對應(yīng)的置信度為 。在大多情況下,我們只關(guān)心類別的預(yù)測 有多準(zhǔn),根本不 care 置信度是怎樣的。然而,在一些實際應(yīng)用場景下,置信度的度量也同樣重要。例如:

3248be66-549c-11eb-8b86-12bb97331649.jpg

如上圖,對于自動駕駛中的目標(biāo)識別任務(wù),車輛的前方出現(xiàn)了一個人,神經(jīng)網(wǎng)絡(luò)會將其識別成塑料袋,此時輸出的置信度為50%(低于閾值),則可通過其它傳感器進(jìn)行二次的正確識別(識別為人)。但想想看,若神經(jīng)網(wǎng)絡(luò)對塑料袋預(yù)測的置信度為90%會怎樣?再例如:

327d70b6-549c-11eb-8b86-12bb97331649.jpg

使用 Resnet 模型簡單的對一些圖片任務(wù)進(jìn)行訓(xùn)練,收斂后的模型對測試集的平均置信度高達(dá)80%-85%,然而只有將近70%的圖片能被正確分對(紅色代表分錯,綠色代表分對)。這意味著啥?訓(xùn)練好的模型好像有點盲目自信,即出現(xiàn)overconfidence現(xiàn)象,或者可以稱為模型的準(zhǔn)確率和置信度不匹配(miscalibration)。

預(yù)期校準(zhǔn)誤差(ECE)

直觀的來看,模型的準(zhǔn)確率應(yīng)當(dāng)和置信度相匹配。一個完美校準(zhǔn)的模型可定義成如下所示:

即,模型置信度 等于概率 的條件下模型的預(yù)測 為真實標(biāo)記 的概率同樣也為 。因此,本文提出一個新的度量方式叫做預(yù)期校準(zhǔn)誤差(Expected Calibrated Error, ECE)來描述模型學(xué)習(xí)的匹配程度:

很簡單,其實就是將前面那個完美校準(zhǔn)模型的等式寫成差的期望的形式。我們將期望進(jìn)一步展開可得到:

其中:

這里的 代表著一個個根據(jù)置信度區(qū)間劃分的一個個桶(用來裝樣本的),如下圖所示:

32a8aede-549c-11eb-8b86-12bb97331649.jpg

例如,我們將置信區(qū)間平均劃分成5份,然后將樣本按照其置信度挨個送到對應(yīng)的桶中,分別計算每個桶中的平均置信度和準(zhǔn)確率,兩者的差值(Gap)的期望就是所定義的ECE。

讀到這的讀者應(yīng)該能逐步體會本文想干一件啥事了。本文首先引出這樣一個問題,深度模型在學(xué)習(xí)過程中出現(xiàn)準(zhǔn)確率和置信度的嚴(yán)重不匹配問題,接著提出了一個合理的評價指標(biāo)來描述模型學(xué)習(xí)的匹配程度,所以接下來,它要提出方法來想辦法最小化期望校準(zhǔn)誤差(ECE)。

什么原因?qū)е律窠?jīng)網(wǎng)絡(luò)出現(xiàn)準(zhǔn)確率與置信度不匹配?

然而ECE是沒辦法直接最小化的,因此本文嘗試著做一些探索性的實驗來觀察啥因素會使得模型的 ECE 變大。本文分別從三個方面上去進(jìn)行實驗:

32d8c998-549c-11eb-8b86-12bb97331649.jpg

網(wǎng)絡(luò)復(fù)雜度對ECE的影響

網(wǎng)絡(luò)復(fù)雜度對 ECE 的影響:首先,作者使用兩個模型(LeNet和ResNet)分別對CIFAR-100數(shù)據(jù)集進(jìn)行了訓(xùn)練,準(zhǔn)確率分別為55.1%和69.4%,ResNet 在預(yù)測性能上完爆LeNet。然而,ResNet 置信度(右圖藍(lán)色+紅色部分)的分布和準(zhǔn)確率(右圖藍(lán)色部分)出現(xiàn)了嚴(yán)重的不匹配,導(dǎo)致二者的 Gap (紅色部分)非常大。注意完美校準(zhǔn)模型的分布應(yīng)當(dāng)是藍(lán)色部分剛好和對角線重合,且沒有紅色 Gap 部分。

32f9d5d4-549c-11eb-8b86-12bb97331649.jpg

▲網(wǎng)絡(luò)的寬度和深度對ECE的影響

網(wǎng)絡(luò)寬度和深度對 ECE 的影響:在得知模型復(fù)雜度會影響模型的 ECE 后,作者緊接著做了網(wǎng)絡(luò)寬度和深度對模型 ECE 和錯誤率(Error)的影響。可以看到,在控制變量前提下,單方面的增加網(wǎng)絡(luò)的深度和寬度均會使得模型的 Error 降低,這是我們所期望的;然而,ECE也會同樣的隨著上升。換句話來說,一昧的增加模型復(fù)雜度能有效的提高模型的預(yù)測性能,但同樣帶來的問題是模型的 overconfidence 問題愈發(fā)嚴(yán)重。

333021ac-549c-11eb-8b86-12bb97331649.jpg

▲歸一化和權(quán)重衰減對ECE的影響

normalization 和 weight decay 對 ECE 的影響:接著的實驗也是我們?yōu)樘岣吣P托阅芙?jīng)常使用的 batch normalization 和 loss regularization。左圖:使用 batch normalization 會有效的提升模型的性能,但同時也會提升模型的 ECE。右圖:weight decay 通常用來調(diào)節(jié) L2 正則的權(quán)重衰減系數(shù),隨著其系數(shù)的增加相當(dāng)于更多的強調(diào)模型參數(shù) w 要盡可能的小,能有效的防止模型過擬合。該現(xiàn)象表明,模型越不過擬合,其ECE是越小的,也就是說模型越不會 overconfidence ;換句話說,模型對樣本的擬合程度和對樣本的置信度是息息相關(guān)的,擬合得越好,置信度越高,所以 ECE 越大。(個人理解,歡迎評論區(qū)指正~)

我們該如何對模型進(jìn)行校準(zhǔn)呢?

335ecf2a-549c-11eb-8b86-12bb97331649.jpg

作者接下來又做了一個很有意思的實驗,在CIFAR-100上訓(xùn)練模型500個 epoch,其中在第250個 epoch 和第375個 epoch 下調(diào)節(jié)學(xué)習(xí)率,觀察測試集上的 test error 和 test NLL 的變化情況。Test NLL 的定義如圖中所示,它其實等價于測試集上的交叉熵。這個實驗啥意思呢?我調(diào)節(jié)了一下學(xué)習(xí)率后,測試性能得到了提升,但是測試集上的交叉熵卻出現(xiàn)了過擬合現(xiàn)象(出現(xiàn)了反常的上升現(xiàn)象)。有意思的點來了!有人肯定會 argue 不是說好本文研究的是overconfidence嘛?

即模型的置信度太高而準(zhǔn)確率過低,這里對 NLL overfitting 豈不是好事,因為負(fù)對數(shù)似然上升了等價于模型的置信度的降低了。注意:這里的是對正確類上的置信度,而前面的實驗是對預(yù)測類的置信度!其實認(rèn)真想想,是一個意思,前面之所以 confident 很高的樣本準(zhǔn)確率很低,正是因為其在正確類別上的置信度太低導(dǎo)致的!!(這部分卡了很久)

該結(jié)果可以表明,模型置信度和準(zhǔn)確率的不匹配很大可能的原因來自于模型對 NLL 的過擬合導(dǎo)致的。所以,咋辦呢?最小化 NLL 唄。

3389ee8a-549c-11eb-8b86-12bb97331649.jpg

此時,本文提出在驗證集上對帶 temperature 參數(shù)的 softmax 函數(shù)進(jìn)行校準(zhǔn)。即我們訓(xùn)練完模型后,最小化 NLL 來學(xué)習(xí) temperature 參數(shù),注意到對該項的優(yōu)化并不會影響模型預(yù)測的準(zhǔn)確率,只會對模型的 confidence 進(jìn)行校準(zhǔn)。最終的結(jié)果是這樣的,詳細(xì)可參考論文。

33b6ee30-549c-11eb-8b86-12bb97331649.jpg

討論

上述得實驗結(jié)果我覺得對很多研究領(lǐng)域都是很有啟發(fā)意義的。

模型的置信度應(yīng)當(dāng)是和準(zhǔn)確率匹配的,這樣的模型我覺得才是有意義的,否則以很高置信度進(jìn)行很離譜的預(yù)測錯誤的模型會讓人感覺這個模型好像什么都會、又好像什么都不會。

ECE 的指標(biāo)是否能反應(yīng)樣本的一些性質(zhì),例如難易程度、是否為噪聲等。

該文章是間接的去優(yōu)化ECE的,能否有直接優(yōu)化的形式,或者主動學(xué)習(xí)里面能否考慮這一點來挑選樣本?

責(zé)任編輯:xj

原文標(biāo)題:Calibration: 一個工業(yè)價值極大,學(xué)術(shù)界卻鮮有研究的問題!

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:Calibration: 一個工業(yè)價值極大,學(xué)術(shù)界卻鮮有研究的問題!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    學(xué)術(shù)力量促進(jìn)開源技術(shù)新未來

    開源社區(qū)、平臺和實踐正逐步融入學(xué)術(shù)評價體系,特別是以高等院校為代表的學(xué)術(shù)界,正積極參與開源項目,促進(jìn)產(chǎn)學(xué)研深度融合,將更多科研成果轉(zhuǎn)化為實際生產(chǎn)力。
    的頭像 發(fā)表于 12-27 13:50 ?169次閱讀

    夸克學(xué)術(shù)搜索受熱捧,成年輕人PC端AI應(yīng)用首選

    近日,夸克發(fā)布了款全新的“學(xué)術(shù)搜索”AI產(chǎn)品,旨在通過先進(jìn)的AI技術(shù)和億級學(xué)術(shù)文獻(xiàn)資源,為學(xué)術(shù)工作者提供更為高效的信息獲取、創(chuàng)作和處理服務(wù)。這
    的頭像 發(fā)表于 11-19 11:23 ?445次閱讀

    為何無人機領(lǐng)域廣泛采用PX4作為核心控制平臺

    在眾多無人機類型中,四旋翼因其具備垂直起降、穩(wěn)定性強、結(jié)構(gòu)相對簡單等特點而得到廣泛應(yīng)用。目前,無論是學(xué)術(shù)界還是工業(yè)界,關(guān)于四旋翼的研究都在不斷深入,關(guān)于四旋翼的拓展運用不斷增加。因此,學(xué)習(xí)與
    的頭像 發(fā)表于 11-08 09:41 ?671次閱讀
    為何無人機領(lǐng)域廣泛采用PX4作為核心控制平臺

    存算體技術(shù)的分類

    近年間,云計算與人工智能技術(shù)的蓬勃興起,計算中心面臨著數(shù)據(jù)效率低、能耗大等核心挑戰(zhàn),這促使學(xué)術(shù)界工業(yè)界重新聚焦。
    的頭像 發(fā)表于 11-05 09:56 ?442次閱讀
    存算<b class='flag-5'>一</b>體技術(shù)的分類

    天合光能亮相世界經(jīng)濟論壇“2024加速工業(yè)轉(zhuǎn)型和脫碳化”峰會

    近日,世界經(jīng)濟論壇“2024加速工業(yè)轉(zhuǎn)型和脫碳化”峰會在東京舉行。作為全球最具影響力的行業(yè)盛會之,本次峰會匯聚了來自政界、商界及學(xué)術(shù)界的領(lǐng)導(dǎo)者,聚焦數(shù)字化與全球能源轉(zhuǎn)型等核心議題。天合光能執(zhí)行總裁Helena Li受邀出席此次
    的頭像 發(fā)表于 10-30 14:54 ?330次閱讀

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發(fā)的開源深度學(xué)習(xí)框架,它允許開發(fā)者方便地構(gòu)建、訓(xùn)練和部署各種復(fù)雜的機器學(xué)習(xí)模型。TensorFlow憑借其高效的計算性能、靈活的架構(gòu)以及豐富的工具和庫,在學(xué)術(shù)界
    的頭像 發(fā)表于 07-12 16:38 ?763次閱讀

    德克薩斯大學(xué)將創(chuàng)建學(xué)術(shù)界最強大的生成性人工智能研究中心

    近日,美國德克薩斯大學(xué)宣稱他們將創(chuàng)建學(xué)術(shù)界最強大的生成性人工智能(AI)研究中心,該中心將配備600Nvidia H100 GPU用于
    的頭像 發(fā)表于 05-28 09:06 ?772次閱讀

    RISC-V在服務(wù)器方面應(yīng)用與發(fā)展前景

    需求。融合RISC-V、擴展指令集、Chiplet(小芯片組)等技術(shù),發(fā)展新型服務(wù)器被認(rèn)為是中國的機遇。 此外,RISC-V在服務(wù)器方面的應(yīng)用也得到了業(yè)界和學(xué)術(shù)界的大力支持。例如,阿里巴巴等企業(yè)在
    發(fā)表于 04-28 09:04

    RISC-V在服務(wù)器方面的應(yīng)用與發(fā)展前景如何?剛畢業(yè)的學(xué)生才開始學(xué)來的及嗎?

    需求。融合RISC-V、擴展指令集、Chiplet(小芯片組)等技術(shù),發(fā)展新型服務(wù)器被認(rèn)為是中國的機遇。 此外,RISC-V在服務(wù)器方面的應(yīng)用也得到了業(yè)界和學(xué)術(shù)界的大力支持。例如,阿里巴巴等企業(yè)在
    發(fā)表于 04-28 08:49

    中圖儀器與合肥工業(yè)大學(xué)共探3D顯微形貌測量技術(shù)

    科技前沿的探索與學(xué)術(shù)界的交流融合具有重要的戰(zhàn)略意義和深遠(yuǎn)的影響。產(chǎn)學(xué)研合作是促進(jìn)科技創(chuàng)新和產(chǎn)業(yè)發(fā)展的重要方式。通過與學(xué)術(shù)界的交流融合,可以建立起產(chǎn)學(xué)研合作的平臺和機制,實現(xiàn)資源共享、優(yōu)勢互補,推動
    發(fā)表于 04-16 10:46 ?0次下載

    科技前沿 |?學(xué)術(shù)交融:中圖儀器與合肥工業(yè)大學(xué)共探3D顯微形貌測量技術(shù)

    通過與合肥工業(yè)大學(xué)的學(xué)術(shù)交流,中圖儀器深入了解學(xué)術(shù)界對于3D顯微形貌測量技術(shù)的最新研究成果和需求,同時分享了中圖在該領(lǐng)域的研究成果和應(yīng)用經(jīng)驗
    的頭像 發(fā)表于 04-09 09:59 ?651次閱讀
    科技前沿 |?<b class='flag-5'>學(xué)術(shù)</b>交融:中圖儀器與合肥<b class='flag-5'>工業(yè)</b>大學(xué)共探3D顯微形貌測量技術(shù)

    通過Kirkendall效應(yīng)來均勻二次顆粒中的應(yīng)力分布

    對于電動汽車?yán)m(xù)航里程達(dá)到500公里以上、壽命更長的普遍需求,促使學(xué)術(shù)界工業(yè)界開發(fā)高比能、長循環(huán)穩(wěn)定性的新型正極材料。
    的頭像 發(fā)表于 03-04 11:21 ?974次閱讀
    通過Kirkendall效應(yīng)來均勻二次顆粒中的應(yīng)力分布

    端到端自動駕駛的基石在哪里?

    深度學(xué)習(xí)(DL)與自動駕駛(AD)的融合標(biāo)志著該領(lǐng)域的重大飛躍,吸引了學(xué)術(shù)界工業(yè)界的關(guān)注。配備了攝像頭和激光雷達(dá)的AD系統(tǒng)模擬了類似人類的決策過程。
    發(fā)表于 02-26 11:38 ?439次閱讀
    端到端自動駕駛的基石在哪里?

    Imec推出首款針對N2節(jié)點的設(shè)計探路工藝設(shè)計套件

    來源:IMEC 設(shè)計探路PDK降低了學(xué)術(shù)界工業(yè)界接觸最先進(jìn)半導(dǎo)體技術(shù)的門檻 在2024年IEEE國際固態(tài)電路會議 (ISSCC) 上,世界領(lǐng)先的納米電子和數(shù)字技術(shù)研究與創(chuàng)新中心imec推出了其
    的頭像 發(fā)表于 02-22 18:24 ?1013次閱讀

    端到端自動駕駛的基石到底是什么?

    深度學(xué)習(xí)(DL)與自動駕駛(AD)的融合標(biāo)志著該領(lǐng)域的重大飛躍,吸引了學(xué)術(shù)界工業(yè)界的關(guān)注。配備了攝像頭和激光雷達(dá)的AD系統(tǒng)模擬了類似人類的決策過程。
    發(fā)表于 02-22 09:50 ?432次閱讀
    端到端自動駕駛的基石到底是什么?
    主站蜘蛛池模板: 无码中文字幕热热久久| 小夫妻天天恶战| 精品视频在线观看视频免费视频| 大地影院在线播放| 男人叼女人| 精品一区二区三区免费观看| 国产日韩欧美高清免费视频| 国产AV午夜精品一区二区入口 | 91在线一区二区| 一个人在线观看免费视频| 亚洲不卡一卡2卡三卡4卡5卡| 美女被打开了屁股进去的视频 | 狠狠人妻久久久久久综合九色| 国产午夜福利片| 国产亚洲精品久久精品69| 国产精品无码人妻在线| 国产精品18久久久久久欧美网址 | 花蝴蝶在线直播观看| 黑丝袜论坛| 精品高清国产a毛片| 久久re这里精品23| 久久精品一区二区免费看| 久久毛片基地| 国产成人高清视频| 国产黄a三级三级三级| 国产剧情在线精品视频不卡| 国产精品麻豆a在线播放| 国产精品久久久久久久人热| 国产乱对白精彩在线播放| 国产欧美国产综合第一区| 国外经典三级| 丰满的大白屁股ass| 粉嫩小护士| 国产精品涩涩涩视频网站| 国产在线观看成人| 久9视频这里只有精品123| 久久99re7在线视频精品| 老阿姨才是最有V味的直播| 欧美69xxx| 美女靠逼漫画| 欧美高清videosgratis高|