色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

列舉一些常見(jiàn)的數(shù)據(jù)問(wèn)題以及解決方案

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CS的陋室 ? 作者:機(jī)智的叉燒 ? 2022-11-09 10:28 ? 次閱讀

日常工作中,因?yàn)楹芏嘣颍覀兠鎸?duì)的問(wèn)題總不能一下放模型里,就能就得到很好的效果,前面有文章詳細(xì)講過(guò)可以通過(guò)bad case分析定位并解決問(wèn)題(心法利器[40] | bad case治療術(shù):解決篇,這是最后一篇),今天換個(gè)角度,從一個(gè)分類任務(wù)來(lái)看,會(huì)有哪些問(wèn)題,以及有哪些可以考慮的解決方案。

這里,我按照問(wèn)題作為分類,來(lái)給出一些常見(jiàn)的解決方案。

看完這篇文章后,別遇事不決換模型了,別讓老板知道你只會(huì)這招(狗頭)。

數(shù)據(jù)的問(wèn)題

在現(xiàn)實(shí)問(wèn)題下,有80%以上的效果不好,都是由于數(shù)據(jù)的問(wèn)題,這里我來(lái)列舉一些常見(jiàn)的數(shù)據(jù)問(wèn)題以及解決方案。

數(shù)據(jù)標(biāo)注錯(cuò)誤

人很難不犯錯(cuò)的,即使是一些比較出名的開(kāi)源數(shù)據(jù)集,其實(shí)也很難達(dá)到全對(duì)的水平,很多數(shù)據(jù)集只要認(rèn)真做過(guò)case,例如做過(guò)case分析,就會(huì)發(fā)現(xiàn)其實(shí)有很多的標(biāo)注錯(cuò)誤,實(shí)際應(yīng)用中,大部分情況準(zhǔn)確率能達(dá)到95%就已經(jīng)是高質(zhì)量的數(shù)據(jù)了,一般能達(dá)到90-92%這個(gè)數(shù)據(jù)集就基本可用了,而如果模型本身預(yù)測(cè)的結(jié)果準(zhǔn)確率就只是在90%上下,其實(shí)模型已經(jīng)很大程度擬合好了這個(gè)數(shù)據(jù)集,再往上的提升很可能只是分?jǐn)?shù)高,擬合了錯(cuò)誤結(jié)果而已,這個(gè)是需要首先說(shuō)明的。

其次,有些數(shù)據(jù)集,和很多原因有關(guān),無(wú)論是訓(xùn)練集還是測(cè)試集,準(zhǔn)確率可能都只是在六七十甚至更低,我們其實(shí)無(wú)法苛求模型能達(dá)到更好的水平。對(duì)訓(xùn)練集,如果質(zhì)量低,這事就和拿了本錯(cuò)誤的教材一樣,根本學(xué)不好,對(duì)測(cè)試集,再優(yōu)秀的模型遇到這個(gè)測(cè)試集,即使預(yù)測(cè)對(duì)了,標(biāo)注是錯(cuò)的,體現(xiàn)在指標(biāo)上也是準(zhǔn)確率很低,模型怎么換效果都不好。

這個(gè)數(shù)據(jù)標(biāo)注問(wèn)題,往往體現(xiàn)的是這個(gè)系統(tǒng)的上限,此時(shí),我們所應(yīng)該聚焦的,就是提升數(shù)據(jù)標(biāo)注的準(zhǔn)確性,這里給出大家提一些可以考慮的策略:

仔細(xì)修正標(biāo)注策略(畢竟數(shù)據(jù)標(biāo)注除了人工還有很多方法),制定更多規(guī)則來(lái)優(yōu)化。

如果數(shù)據(jù)標(biāo)注比較困難,可以考慮多人標(biāo)注,對(duì)不一致的部分進(jìn)行復(fù)合,整體質(zhì)量提升會(huì)比較明顯。

配合模型、規(guī)則等多個(gè)策略進(jìn)行比對(duì),對(duì)不一致的部分進(jìn)行復(fù)標(biāo)。

利用模型,對(duì)模棱兩可(二分類概率在0.5上下)或者明顯錯(cuò)誤的(正類prob在0.1左右或負(fù)類prob在0.9左右),進(jìn)行復(fù)標(biāo)。

后面幾個(gè)策略其實(shí)挺“主動(dòng)學(xué)習(xí)”的,核心就是通過(guò)模糊或者不一致來(lái)挖掘很可能有錯(cuò)的部分進(jìn)行復(fù)合,來(lái)提升整體的質(zhì)量。

數(shù)據(jù)數(shù)量問(wèn)題

現(xiàn)階段,雖然有無(wú)監(jiān)督之類的很多策略,但是對(duì)于特定的任務(wù)或者需求,總是離不開(kāi)訓(xùn)練數(shù)據(jù)的,我們需要數(shù)據(jù)來(lái)讓模型知道“遇到這個(gè)情況該選哪個(gè)”,因此數(shù)據(jù)數(shù)量是需要基本保證的。

首先,很多人很容易想到兩個(gè)常見(jiàn)策略:

數(shù)據(jù)增強(qiáng)。

無(wú)監(jiān)督。

這兩個(gè)方案,是可以的,但不是萬(wàn)能的:

數(shù)據(jù)增強(qiáng)——在本身數(shù)據(jù)的覆蓋面已經(jīng)較充足的情況。例如天氣意圖的分類,其實(shí)來(lái)回就這么集中情況,列舉完增強(qiáng)就行。但是遇到類似電影、電視劇意圖的分類,分布很難完整覆蓋,只有幾條樣本完全不能通過(guò)常規(guī)的增強(qiáng)解決。

無(wú)監(jiān)督——如果有自信模型能往特定的方向預(yù)測(cè),那這么做其實(shí)還行,但是定向這事很困難的,例如都是二分類問(wèn)題,一個(gè)分是否是天氣意圖,一個(gè)分是否是電影意圖,都是同一批數(shù)據(jù),如何知道訓(xùn)出的無(wú)監(jiān)督模型朝著那個(gè)任務(wù)的方向預(yù)測(cè)?

所以,私以為還是要從人體的根源出發(fā)。分幾個(gè)情況吧:

整體數(shù)據(jù)都很少的情況。

整體數(shù)據(jù)尚可,但是特定類目或者特定情況的數(shù)據(jù)太少的情況。

對(duì)于整體數(shù)據(jù)都很少的問(wèn)題,如果是像我前面說(shuō)的——在本身數(shù)據(jù)的覆蓋面已經(jīng)較充足的情況,那其實(shí)直接數(shù)據(jù)增強(qiáng)是可以的,增強(qiáng)之后會(huì)讓模型強(qiáng)化對(duì)特定意識(shí)的了解,直接就能學(xué)出來(lái)了,但是如果不足,那就要找渠道增加數(shù)據(jù)了,有用戶數(shù)據(jù)的,可以撈一些用戶query,根據(jù)用戶點(diǎn)擊在整理下,沒(méi)有的,結(jié)合一些詞典構(gòu)造一些樣本放入也是可以的,甚至有一些場(chǎng)景是有公開(kāi)數(shù)據(jù)的,直接拿來(lái)用。

而對(duì)于數(shù)據(jù)樣本不均衡的問(wèn)題,之前有寫(xiě)過(guò)文章介紹,此處不贅述了(心法利器[44] | 樣本不均衡之我見(jiàn))。

小補(bǔ)充

只有在數(shù)據(jù)的數(shù)量和質(zhì)量都比較充足的時(shí)候,我們才有資格去談模型,談其他的優(yōu)化策略,這應(yīng)該是一名成熟的算法工程師所需要掌握的基礎(chǔ)知識(shí)。

模型升級(jí)的收益

模型的升級(jí)往往帶來(lái)的是一個(gè)系統(tǒng)級(jí)別的提升,這個(gè)系統(tǒng)提升是上限的提升,只有到這個(gè)系統(tǒng)內(nèi)部的多個(gè)位置都已經(jīng)有比較高了,這時(shí)候換模型才能帶來(lái)比較明顯的收益,例如數(shù)據(jù)已經(jīng)調(diào)教的比較好,沒(méi)有什么大問(wèn)題,這個(gè)時(shí)候升級(jí)模型能很快提分,這里例如fasttext->textcnn,上預(yù)訓(xùn)練模型等,但是確實(shí)是要看清切換的時(shí)機(jī),畢竟切換是需要成本的,到時(shí)候切換完效果不提升,白干活的話KPI很容易崩的(狗頭)。

有關(guān)切換時(shí)機(jī),大家可以看這篇(心法利器[63] | 預(yù)訓(xùn)練模型的上線時(shí)機(jī))。

特定樣本引入打來(lái)的提升

常規(guī)下,要調(diào)整效果,還是要從bad case里出發(fā),理解數(shù)據(jù)中常見(jiàn)的問(wèn)題,然后進(jìn)行優(yōu)化,其實(shí)是日常最常用的方式,這個(gè)方式簡(jiǎn)單快速,但是也有難點(diǎn),難的是發(fā)現(xiàn)規(guī)律并進(jìn)行解決,這里給大家介紹一些比較常見(jiàn)的問(wèn)題和主要解決方法。

正負(fù)樣本里某些詞的詞頻差距很大,導(dǎo)致模型認(rèn)為出現(xiàn)的這個(gè)詞就是分類標(biāo)志,導(dǎo)致分類錯(cuò)誤。

解決方法1,撈日志,這個(gè)詞在正類多就找?guī)н@個(gè)詞的負(fù)類樣本,反之亦然。

解決方法2,刪除樣本,例如這個(gè)詞在正類多就干掉一些正樣本。

泛化能力不足,模型只學(xué)到了正規(guī)的句式,對(duì)于泛化、換個(gè)說(shuō)法的樣本可能就預(yù)測(cè)錯(cuò)了。

r-dropout,值得推薦。

拼接,和一些無(wú)意義、閑聊類的句子進(jìn)行拼接,維持源類別,放入對(duì)應(yīng)類目的樣本中。

數(shù)據(jù)增強(qiáng),尤其關(guān)注隨機(jī)交叉的這個(gè)策略,有收益。

檢索增強(qiáng),用向量召回最接近的句子,用這批放入對(duì)應(yīng)類目。

因?yàn)槿狈μ囟ㄐ问降臉颖荆P蜎](méi)見(jiàn)過(guò)),導(dǎo)致模型只能猜還猜不對(duì)。

加入特定類型的樣本。(在天氣意圖分類數(shù)據(jù)里,把“天氣之子”作為負(fù)樣本放入訓(xùn)練集中)

考慮通過(guò)別的方式解決,例如用詞典(心法利器[41] | 我常說(shuō)的詞典匹配到底怎么做)或者以搜代分的方式來(lái)處理(心法利器[60] | 以搜代分的生效機(jī)理)補(bǔ)充。

當(dāng)然,還有一些別的策略,這些策略很大程度和自己對(duì)業(yè)務(wù)、數(shù)據(jù)的理解有關(guān),越是了解提升的幅度會(huì)越大。最近的一次實(shí)驗(yàn),由于用戶query其實(shí)都是語(yǔ)音轉(zhuǎn)文字得到的句子,而由于采音、ASR等問(wèn)題,得到的用戶query可能不是完整的,不完整意味著可能有關(guān)鍵詞但是信息仍舊模糊,這就容易導(dǎo)致誤召回了(模糊或者無(wú)意義的句子是會(huì)被認(rèn)為是負(fù)類的),因此,我才用的策略是對(duì)常見(jiàn)高頻的句子做隨機(jī)截?cái)啵缓蠓湃胴?fù)類中,最終結(jié)果是以2%的召回率代價(jià)換來(lái)了4%的準(zhǔn)確率提升,算是收益較大的,漏召回的會(huì)根據(jù)實(shí)際情況再調(diào)整即可。

其他策略的引入

一個(gè)完整可控的系統(tǒng),不能光靠模型來(lái)解決所有問(wèn)題,而實(shí)際上也是模型并不能解決所有問(wèn)題,我們需要眾多的支持和輔助,構(gòu)造成一個(gè)系統(tǒng),才能讓整體效果達(dá)到新的高度,這里有一些可以考慮的思路。

對(duì)于簡(jiǎn)單、高頻的問(wèn)題,其實(shí)不太認(rèn)為需要模型,處理用一些詞典和規(guī)則能更加穩(wěn)定可控地解決。

如果問(wèn)題的尾巴比較長(zhǎng),長(zhǎng)尾問(wèn)題的樣本比較難獲取,占比較低,此時(shí)模型并不能學(xué)得好,與其考慮增強(qiáng)和挖掘,不如交給檢索的方式做更加高效,別考慮增加特定樣本了(以搜代分:心法利器[26] | 以搜代分:文本多分類新思路)。

模型附帶后處理,解決模棱兩可,或者比較邊界的問(wèn)題,舉個(gè)例子:

閾值大于0.7的才是正類,0.5-0.7的部分需要依賴別的因素做進(jìn)一步判斷才準(zhǔn)入。

多個(gè)分類模塊組合,最終用加入rank層進(jìn)行多結(jié)果的排序,解決復(fù)雜多變的分類場(chǎng)景。

多個(gè)二分類,不讓模型處理混淆問(wèn)題,最終rank層再來(lái)?yè)駜?yōu)。

類目體系更新頻繁,重訓(xùn)模型對(duì)其他類目影響大。

多個(gè)分類場(chǎng)景差異大,數(shù)據(jù)不好平衡。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24690

原文標(biāo)題:文本分類日常提點(diǎn)技巧

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    DFT的常見(jiàn)誤區(qū)與解決方案

    DFT(離散傅里葉變換)在信號(hào)處理領(lǐng)域具有廣泛的應(yīng)用,但在使用過(guò)程中也常會(huì)遇到一些誤區(qū)。以下是對(duì)DFT常見(jiàn)誤區(qū)的總結(jié)以及相應(yīng)的解決方案常見(jiàn)
    的頭像 發(fā)表于 12-20 09:32 ?101次閱讀

    SSM開(kāi)發(fā)中的常見(jiàn)問(wèn)題及解決方案

    在SSM(Spring + Spring MVC + MyBatis)框架的開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)者可能會(huì)遇到一些常見(jiàn)問(wèn)題。以下是對(duì)這些問(wèn)題的詳細(xì)分析以及相應(yīng)的解決方案
    的頭像 發(fā)表于 12-17 09:16 ?243次閱讀

    EEPROM編程常見(jiàn)錯(cuò)誤及解決方案

    EEPROM(電可擦可編程只讀存儲(chǔ)器)在編程過(guò)程中可能會(huì)遇到多種錯(cuò)誤。以下是一些常見(jiàn)的EEPROM編程錯(cuò)誤及其解決方案常見(jiàn)錯(cuò)誤 數(shù)據(jù)寫(xiě)入
    的頭像 發(fā)表于 12-16 17:08 ?458次閱讀

    常見(jiàn)的時(shí)間繼電器故障及解決方案

    時(shí)間繼電器在工業(yè)自動(dòng)化和電力控制等領(lǐng)域中發(fā)揮著重要作用,但由于長(zhǎng)時(shí)間使用或環(huán)境因素等原因,可能會(huì)出現(xiàn)一些常見(jiàn)故障。以下是一些常見(jiàn)的時(shí)間繼電器故障及其
    的頭像 發(fā)表于 12-09 10:32 ?300次閱讀

    常見(jiàn)的GND連接錯(cuò)誤及解決方案

    GND(接地)連接在電子設(shè)計(jì)和硬件開(kāi)發(fā)中至關(guān)重要,錯(cuò)誤的GND連接可能導(dǎo)致電路不穩(wěn)定、信號(hào)干擾甚至設(shè)備損壞。以下是一些常見(jiàn)的GND連接錯(cuò)誤及其解決方案、GND網(wǎng)絡(luò)未連接 問(wèn)題描述
    的頭像 發(fā)表于 11-29 16:02 ?998次閱讀

    常見(jiàn)BGA芯片故障及解決方案

    BGA(Ball Grid Array,球柵陣列)芯片在電子設(shè)備中扮演著重要角色,但其也可能出現(xiàn)一些常見(jiàn)故障。以下是一些常見(jiàn)的BGA芯片故障及其相應(yīng)的
    的頭像 發(fā)表于 11-23 13:54 ?250次閱讀

    buck電路常見(jiàn)故障及解決方案

    Buck電路是種常用的降壓電路,但在使用過(guò)程中可能會(huì)遇到一些故障。以下是一些常見(jiàn)的Buck電路故障及其解決方案
    的頭像 發(fā)表于 11-21 10:02 ?736次閱讀

    TTL電路中的常見(jiàn)問(wèn)題及解決方案

    問(wèn)題。以下是對(duì)這些問(wèn)題的歸納以及相應(yīng)的解決方案、電源問(wèn)題 常見(jiàn)問(wèn)題 : 電源電壓過(guò)高或過(guò)低,導(dǎo)致電路無(wú)法正常工作或損壞。 電源與地顛倒接錯(cuò),造成電流過(guò)大,損壞器件。
    的頭像 發(fā)表于 11-18 10:32 ?604次閱讀

    一些常見(jiàn)的動(dòng)態(tài)電路

    無(wú)論是模電還是數(shù)電,理論知識(shí)相對(duì)來(lái)說(shuō)還是比較枯燥,各種電路原理理解清楚不算容易,換種生動(dòng)形象的方式或許會(huì)增加一些趣味性,也更容易理解這些知識(shí)。下面整理了一些常見(jiàn)的電路,以動(dòng)態(tài)圖形的方
    的頭像 發(fā)表于 11-16 09:26 ?322次閱讀
    <b class='flag-5'>一些</b><b class='flag-5'>常見(jiàn)</b>的動(dòng)態(tài)電路

    aes加密的常見(jiàn)錯(cuò)誤及解決方案

    的歸納以及相應(yīng)的解決方案常見(jiàn)錯(cuò)誤 編碼問(wèn)題 : 在將字節(jié)數(shù)組轉(zhuǎn)換成字符串時(shí),如果使用了不同的編碼格式,可能會(huì)導(dǎo)致解密后的數(shù)據(jù)出現(xiàn)亂碼。 密鑰長(zhǎng)度問(wèn)題 : AES算法支持128位、1
    的頭像 發(fā)表于 11-14 15:13 ?1188次閱讀

    PID控制的常見(jiàn)問(wèn)題及解決方案

    問(wèn)題。以下是一些常見(jiàn)的問(wèn)題及其解決方案: 1. 響應(yīng)速度慢 問(wèn)題描述: 系統(tǒng)響應(yīng)速度慢,無(wú)法快速跟蹤設(shè)定值的變化。 解決方案: 增加比例增益(P): 增加比例增益可以提高系統(tǒng)的響應(yīng)速度
    的頭像 發(fā)表于 11-13 14:37 ?2050次閱讀

    分享一些常見(jiàn)的電路

    理解模電和數(shù)電的電路原理對(duì)于初學(xué)者來(lái)說(shuō)可能比較困難,但通過(guò)一些生動(dòng)的教學(xué)方法和資源,可以有效地提高學(xué)習(xí)興趣和理解能力。 下面整理了一些常見(jiàn)的電路,以動(dòng)態(tài)圖形的方式展示。 整流電路 單相橋式整流
    的頭像 發(fā)表于 11-13 09:28 ?285次閱讀
    分享<b class='flag-5'>一些</b><b class='flag-5'>常見(jiàn)</b>的電路

    SUMIF函數(shù)常見(jiàn)錯(cuò)誤及解決方案

    SUMIF函數(shù)是Excel中個(gè)非常實(shí)用的函數(shù),用于根據(jù)給定條件對(duì)數(shù)據(jù)進(jìn)行求和。然而,在使用過(guò)程中,用戶可能會(huì)遇到一些常見(jiàn)錯(cuò)誤。 1. 錯(cuò)誤:范圍不正確 錯(cuò)誤描述: 用戶可能沒(méi)有正確設(shè)
    的頭像 發(fā)表于 11-11 09:10 ?1054次閱讀

    underfill工藝常見(jiàn)問(wèn)題及解決方案

    underfill工藝常見(jiàn)問(wèn)題及解決方案Underfill工藝是種集成電路封裝工藝,用于在倒裝芯片邊緣點(diǎn)涂環(huán)氧樹(shù)脂膠水,通過(guò)“毛細(xì)管效應(yīng)”完成底部填充過(guò)程,并在加熱情況下使膠水固化。該工藝在緩解
    的頭像 發(fā)表于 04-09 15:45 ?798次閱讀
    underfill工藝<b class='flag-5'>常見(jiàn)</b>問(wèn)題及<b class='flag-5'>解決方案</b>

    音視頻解碼生成常見(jiàn)問(wèn)題及解決方案

    在音視頻解碼生成的過(guò)程中,我們可能會(huì)遇到一些常見(jiàn)問(wèn)題,這些問(wèn)題可能會(huì)影響解碼的效果和效率。以下是一些常見(jiàn)問(wèn)題及其解決方案: 問(wèn)題1:解碼失敗
    的頭像 發(fā)表于 02-21 14:39 ?1407次閱讀
    主站蜘蛛池模板: 青柠高清在线观看完整版| 5580免费午夜福利院| 呜呜别塞了啊抽插| 亚婷婷洲AV久久蜜臀无码| 亚洲高清国产品国语在线观看| 亚洲AV电影天堂男人的天堂| 亚洲国产精品综合久久一线| 一边啪啪的一边呻吟声口述 | aaaaaaa一级毛片| xiao77唯美清纯| 国产成A人片在线观看| 国产亚洲精品线观看不卡| 久久爽狠狠添AV激情五月| 女人的选择hd| 国产GV无码A片在线观看| 国产精品成久久久久三级四虎| 国产亚洲精品久久久久久久| 东北女人奶大毛多水多| 国产在线播放91| 美国大臿蕉香蕉大视频| 日日碰狠狠躁久久躁77777| 亚洲精品免费视频| 97成人在线视频| 国产精品伦一区二区三级视频| 久 久 亚洲 少 妇 无 码| 女人张腿让男人桶免费| 婷婷精品国产亚洲AV在线观看| 野花影院手机在线观看| FREECHINESE东北群交| 国产在线精品视频免费观看| 免费撕开胸罩吮胸视频| 邪恶肉肉全彩色无遮盖| 91久久线看在观草草青青 | 菠萝视频高清版在线观看| 国产亚洲精品视频亚洲香蕉视 | 旧里番6080在线观看| 色婷婷AV99XX| 2021扫黑风暴在线观看免费完整版| 干丝袜美女| 伦理电影v男人天堂| 午夜理论片YY4399影院|