色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

目前機(jī)器學(xué)習(xí)面臨的常見問題和挑戰(zhàn)

深度學(xué)習(xí)自然語言處理 ? 來源:CSDN技術(shù)社區(qū) ? 作者:CSDN技術(shù)社區(qū) ? 2020-10-23 11:42 ? 次閱讀

由于我們的主要任務(wù)是選擇一種學(xué)習(xí)算法,并對某些數(shù)據(jù)進(jìn)行訓(xùn)練,所以最可能出現(xiàn)的兩個問題不外乎是“壞算法”和“壞數(shù)據(jù)”,本文主要從壞數(shù)據(jù)出發(fā),帶大家了解目前機(jī)器學(xué)習(xí)面臨的常見問題和挑戰(zhàn),從而更好地學(xué)習(xí)機(jī)器學(xué)習(xí)理論。

一、訓(xùn)練數(shù)據(jù)的數(shù)量不足

要教一個牙牙學(xué)語的小朋友什么是蘋果,你只需要指著蘋果說“蘋果”(可能需要重復(fù)這個過程幾次)就行了,然后孩子就能夠識別各種顏色和形狀的蘋果了,簡直是天才!

機(jī)器學(xué)習(xí)還沒達(dá)到這一步,大部分機(jī)器學(xué)習(xí)算法需要大量的數(shù)據(jù)才能正常工作。即使是最簡單的問題,很可能也需要成千上萬個示例,而對于諸如圖像或語音識別等復(fù)雜問題,則可能需要數(shù)百萬個示例(除非你可以重用現(xiàn)有模型的某些部分)。

數(shù)據(jù)的不合理有效性

在2001年發(fā)表的一篇著名論文中,微軟研究員Michele Banko和Eric Brill表明,給定足夠的數(shù)據(jù),截然不同的機(jī)器學(xué)習(xí)算法(包括相當(dāng)簡單的算法)在自然語言歧義消除這個復(fù)雜問題上注8,表現(xiàn)幾乎完全一致(如下圖所示)。

數(shù)據(jù)與算法的重要性注

正如作者所說:“這些結(jié)果表明,我們可能會重新思考如何在二者之間做權(quán)衡—將錢和時間花在算法的開發(fā)上,還是花在語料庫的建設(shè)上?!?/p>

對復(fù)雜問題而言,數(shù)據(jù)比算法更重要,這一想法被Peter Norvig等人進(jìn)一步推廣,于2009年發(fā)表論文“The Unreasonable Effectiveness of Data”注10。不過需要指出的是,中小型數(shù)據(jù)集依然非常普遍,獲得額外的訓(xùn)練數(shù)據(jù)并不總是一件輕而易舉或物美價廉的事情,所以暫時先不要拋棄算法。

二、訓(xùn)練數(shù)據(jù)不具代表性

為了很好地實現(xiàn)泛化,至關(guān)重要的一點是對于將要泛化的新示例來說,訓(xùn)練數(shù)據(jù)一定要非常有代表性。無論你使用的是基于實例的學(xué)習(xí)還是基于模型的學(xué)習(xí),都是如此。

例如,前面用來訓(xùn)練線性模型的國家數(shù)據(jù)集并不具備完全的代表性,有部分國家的數(shù)據(jù)缺失。下圖顯示了補(bǔ)充缺失國家信息之后的數(shù)據(jù)表現(xiàn)。

更具代表性的訓(xùn)練樣本

如果你用這個數(shù)據(jù)集訓(xùn)練線性模型,將會得到圖中的實線,而虛線表示舊模型。正如你所見,添加部分缺失的國家信息不僅顯著地改變了模型,也更清楚地說明這種簡單的線性模型可能永遠(yuǎn)不會那么準(zhǔn)確??雌饋?,某些非常富裕的國家并不比中等富裕的國家更幸福(事實上,看起來甚至是不幸福),反之,一些貧窮的國家也似乎比許多富裕的國家更加幸福。

使用不具代表性的訓(xùn)練集訓(xùn)練出來的模型不可能做出準(zhǔn)確的預(yù)估,尤其是針對那些特別貧窮或特別富裕的國家。

針對你想要泛化的案例使用具有代表性的訓(xùn)練集,這一點至關(guān)重要。不過說起來容易,做起來難:如果樣本集太小,將會出現(xiàn)采樣噪聲(即非代表性數(shù)據(jù)被選中);而即便是非常大的樣本數(shù)據(jù),如果采樣方式欠妥,也同樣可能導(dǎo)致非代表性數(shù)據(jù)集,這就是所謂的采樣偏差。

關(guān)于采樣偏差的一個示例

最著名的采樣偏差的示例發(fā)生在1936年美國總統(tǒng)大選期間,蘭登對決羅斯福。Literary Digest當(dāng)時舉行了一次大范圍的民意調(diào)查,向約1000萬人發(fā)送郵件,并得到了240萬個回復(fù),因此做出了高度自信的預(yù)言—蘭登將獲得57%的選票。結(jié)果恰恰相反,羅斯福贏得了62%的選票。問題就在于Literary Digest的采樣方式:

首先,為了獲取發(fā)送民意調(diào)查的地址,Literary Digest采用了電話簿、雜志訂閱名單、俱樂部會員名單等類似名簿。而所有這些名單上的人往往對富人有更大的偏好,也就更有可能支持共和黨(即蘭登)。

其次,收到民意調(diào)查郵件的人中,不到25%的人給出了回復(fù)。這再次引入了采樣偏差,那些不怎么關(guān)心政治的人、不喜歡Literary Digest的人以及其他的一些關(guān)鍵群體直接被排除在外了。這是一種特殊類型的采樣偏差,叫作無反應(yīng)偏差。

再舉一個示例,假設(shè)你想創(chuàng)建一個系統(tǒng)用來識別funk音樂視頻。構(gòu)建訓(xùn)練集的方法之一是直接在YouTube上搜索“funk music”,然后使用搜索結(jié)果的視頻。但是,這其實基于一個假設(shè)—YouTube的搜索引擎返回的視頻結(jié)果是所有能夠代表funk音樂的視頻。而實際的搜索結(jié)果可能會更偏向于當(dāng)前流行的音樂人(如果你住在巴西,你會得到很多關(guān)于“funk carioca”的視頻,這聽起來跟James Brown完全不是一回事)。另一方面,你還能怎樣獲得一個大的訓(xùn)練集?

三、低質(zhì)量數(shù)據(jù)

顯然,如果訓(xùn)練集滿是錯誤、異常值和噪聲(例如,低質(zhì)量的測量產(chǎn)生的數(shù)據(jù)),系統(tǒng)將更難檢測到底層模式,更不太可能表現(xiàn)良好。所以花時間來清理訓(xùn)練數(shù)據(jù)是非常值得的投入。事實上,大多數(shù)數(shù)據(jù)科學(xué)家都會花費(fèi)很大一部分時間來做這項工作。例如:

如果某些實例明顯是異常情況,那么直接將其丟棄,或者嘗試手動修復(fù)錯誤,都會大有幫助。

如果某些實例缺少部分特征(例如,5%的顧客沒有指定年齡),你必須決定是整體忽略這些特征、忽略這部分有缺失的實例、將缺失的值補(bǔ)充完整(例如,填寫年齡值的中位數(shù)),還是訓(xùn)練一個帶這個特征的模型,再訓(xùn)練一個不帶這個特征的模型。

四、無關(guān)特征

正如我們常說的:垃圾入,垃圾出。只有訓(xùn)練數(shù)據(jù)里包含足夠多的相關(guān)特征以及較少的無關(guān)特征,系統(tǒng)才能夠完成學(xué)習(xí)。一個成功的機(jī)器學(xué)習(xí)項目,其關(guān)鍵部分是提取出一組好的用來訓(xùn)練的特征集。這個過程叫作特征工程,包括以下幾點:

特征選擇(從現(xiàn)有特征中選擇最有用的特征進(jìn)行訓(xùn)練)。

特征提?。▽F(xiàn)有特征進(jìn)行整合,產(chǎn)生更有用的特征—正如前文提到的,降維算法可以提供幫助)。

通過收集新數(shù)據(jù)創(chuàng)建新特征。

現(xiàn)在我們已經(jīng)看了不少“壞數(shù)據(jù)”的示例,再來看幾個“壞算法”的示例。

五、過擬合訓(xùn)練數(shù)據(jù)

假設(shè)你正在國外旅游,被出租車司機(jī)敲詐,你很可能會說,那個國家的所有出租車司機(jī)都是強(qiáng)盜。過度概括是我們?nèi)祟惓W龅氖虑椋恍业氖牵绻覀儾恍⌒模瑱C(jī)器很可能也會陷入同樣的陷阱。在機(jī)器學(xué)習(xí)中,這稱為過擬合,也就是指模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但是泛化時卻不盡如人意。下圖顯示了一個訓(xùn)練數(shù)據(jù)過擬合的高階多項式生活滿意度模型。雖然它在訓(xùn)練數(shù)據(jù)上的表現(xiàn)比簡單的線性模型要好得多,但是你真的敢相信它的預(yù)測嗎?

過擬合訓(xùn)練數(shù)據(jù)

雖然諸如深度神經(jīng)網(wǎng)絡(luò)這類的復(fù)雜模型可以檢測到數(shù)據(jù)中的微小模式,但是如果訓(xùn)練集本身是有噪聲的,或者數(shù)據(jù)集太?。ㄒ肓瞬蓸釉肼暎敲春芸赡軙?dǎo)致模型檢測噪聲本身的模式。很顯然,這些模式不能泛化至新的實例。舉例來說,假設(shè)你給生活滿意度模型提供了更多其他的屬性,包括一些不具信息的屬性(例如國家名)。在這種情況下,一個復(fù)雜模型可能會檢測到這樣的事實模式:訓(xùn)練數(shù)據(jù)中,名字中帶有字母w的國家,如新西蘭(New Zealand,生活滿意度為7.3)、挪威(Norway,生活滿意度為7.4)、瑞典(Sweden,生活滿意度為7.2)和瑞士(Switzerland,生活滿意度為7.5),生活滿意度均大于7。當(dāng)把這個w滿意度規(guī)則泛化到盧旺達(dá)(Rwanda)或津巴布韋(Zim-babwe)時,你對結(jié)果有多大的自信?顯然,訓(xùn)練數(shù)據(jù)中的這個模式僅僅是偶然產(chǎn)生的,但是模型無法判斷這個模式是真實的還是噪聲產(chǎn)生的結(jié)果。

當(dāng)模型相對于訓(xùn)練數(shù)據(jù)的數(shù)量和噪度都過于復(fù)雜時,會發(fā)生過擬合??赡艿慕鉀Q方案如下。

簡化模型:可以選擇較少參數(shù)的模型(例如,選擇線性模型而不是高階多項式模型)也可以減少訓(xùn)練數(shù)據(jù)中的屬性數(shù)量,或者是約束模型。

收集更多的訓(xùn)練數(shù)據(jù)。

減少訓(xùn)練數(shù)據(jù)中的噪聲(例如,修復(fù)數(shù)據(jù)錯誤和消除異常值)。

通過約束模型使其更簡單,并降低過擬合的風(fēng)險,這個過程稱為正則化。例如,我們前面定義的線性模型有兩個參數(shù):θ0和θ1。因此,該算法在擬合訓(xùn)練數(shù)據(jù)時,調(diào)整模型的自由度就等于2,它可以調(diào)整線的高度(θ0)和斜率(θ1)。如果我們強(qiáng)行讓θ1 = 0,那么算法的自由度將會降為1,并且擬合數(shù)據(jù)將變得更為艱難—它能做的全部就只是將線上移或下移來盡量接近訓(xùn)練實例,最后極有可能停留在平均值附近。這確實太簡單了!如果我們允許算法修改θ1,但是我們強(qiáng)制它只能是很小的值,那么算法的自由度將位于1和2之間,這個模型將會比自由度為2的模型稍微簡單一些,同時又比自由度為1的模型略微復(fù)雜一些。你需要在完美匹配數(shù)據(jù)和保持模型簡單之間找到合適的平衡點,從而確保模型能夠較好地泛化。

下圖顯示了三個模型。點線表示的是在以圓圈表示的國家上訓(xùn)練的原始模型(沒有正方形表示的國家),虛線是我們在所有國家(圓圈和方形)上訓(xùn)練的第二個模型,實線是用與第一個模型相同的數(shù)據(jù)訓(xùn)練的模型,但是有一個正則化約束。可以看到,正則化強(qiáng)制了模型的斜率較?。涸撃P团c訓(xùn)練數(shù)據(jù)(圓圈)的擬合不如第一個模型,但它實際上更好地泛化了它沒有在訓(xùn)練時看到的新實例(方形)。

在學(xué)習(xí)時,應(yīng)用正則化的程度可以通過一個超參數(shù)來控制。超參數(shù)是學(xué)習(xí)算法(不是模型)的參數(shù)。因此,它不受算法本身的影響。超參數(shù)必須在訓(xùn)練之前設(shè)置好,并且在訓(xùn)練期間保持不變。如果將正則化超參數(shù)設(shè)置為非常大的值,會得到一個幾乎平坦的模型(斜率接近零)。學(xué)習(xí)算法雖然肯定不會過擬合訓(xùn)練數(shù)據(jù),但是也更加不可能找到一個好的解決方案。調(diào)整超參數(shù)是構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)非常重要的組成部分。

正則化降低了過擬合的風(fēng)險

六、欠擬合訓(xùn)練數(shù)據(jù)

你可能已經(jīng)猜到了,欠擬合和過擬合正好相反。它的產(chǎn)生通常是因為對于底層的數(shù)據(jù)結(jié)構(gòu)來說,你的模型太過簡單。例如,用線性模型來描述生活滿意度就屬于欠擬合?,F(xiàn)實情況遠(yuǎn)比模型復(fù)雜得多,所以即便是對于用來訓(xùn)練的示例,該模型產(chǎn)生的預(yù)測都一定是不準(zhǔn)確的。

解決這個問題的主要方式有:

選擇一個帶有更多參數(shù)、更強(qiáng)大的模型。

給學(xué)習(xí)算法提供更好的特征集(特征工程)。

減少模型中的約束(例如,減少正則化超參數(shù))。

七、全局總結(jié)

現(xiàn)在我們對機(jī)器學(xué)習(xí)已經(jīng)有了一定了解。我們暫且退后一步,縱觀一下全局:

機(jī)器學(xué)習(xí)是關(guān)于如何讓機(jī)器可以更好地處理某些特定任務(wù)的理論,它從數(shù)據(jù)中學(xué)習(xí),而無須清晰地編碼規(guī)則。

機(jī)器學(xué)習(xí)系統(tǒng)有很多類型:有監(jiān)督和無監(jiān)督,批量的和在線的,基于實例的和基于模型的,等等。

在一個機(jī)器學(xué)習(xí)項目中,你從訓(xùn)練集中采集數(shù)據(jù),然后將數(shù)據(jù)交給學(xué)習(xí)算法來計算。如果算法是基于模型的,它會調(diào)整一些參數(shù)來將模型適配于訓(xùn)練集(即對訓(xùn)練集本身做出很好的預(yù)測),然后算法就可以對新的場景做出合理的預(yù)測。如果算法是基于實例的,它會記住這些示例,并根據(jù)相似度度量將它們與所學(xué)的實例進(jìn)行比較,從而泛化這些新實例。

責(zé)任編輯人:CC

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:機(jī)器學(xué)習(xí)訓(xùn)練中常見的問題和挑戰(zhàn)!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機(jī)器人面臨的十大緊迫挑戰(zhàn)

    2016年除了人工智能、虛擬現(xiàn)實技術(shù)受到了極大的關(guān)注,商用機(jī)器人逐漸出現(xiàn)在我們生活中,家庭陪伴機(jī)器人也越來越多,可以看到未來機(jī)器人市場前景廣闊,但也難免面臨
    發(fā)表于 02-02 04:04 ?1333次閱讀

    c語言學(xué)習(xí)常見問題解決

    c語言學(xué)習(xí)常見問題解決
    發(fā)表于 08-13 09:11

    如何應(yīng)對機(jī)器人設(shè)計開發(fā)中的挑戰(zhàn)

    公司副總裁、迪士尼夢幻工程公司主管,現(xiàn)任美國Olin學(xué)院SCOPE項目主管,)在2009年NIWeek圖形化系統(tǒng)設(shè)計會議上總結(jié)了當(dāng)前機(jī)器人開發(fā)所面臨的三大挑戰(zhàn):創(chuàng)造更小、更輕、更強(qiáng)大的電池;創(chuàng)造更小
    發(fā)表于 07-31 07:17

    機(jī)器開發(fā)人員面臨哪些軟件挑戰(zhàn)以及硬件挑戰(zhàn)?如何去應(yīng)對這些挑戰(zhàn)?

    機(jī)器開發(fā)人員面臨哪些軟件挑戰(zhàn)以及硬件挑戰(zhàn)?如何去應(yīng)對這些挑戰(zhàn)
    發(fā)表于 06-26 07:27

    微型機(jī)器學(xué)習(xí)

    人工智能 AI 正在加快速度從云端走向邊緣,進(jìn)入到越來越小的物聯(lián)網(wǎng)設(shè)備中。而這些物聯(lián)網(wǎng)設(shè)備往往體積很小,面臨著許多挑戰(zhàn),例如功耗、延時以及精度等問題,傳統(tǒng)的機(jī)器學(xué)習(xí)模型無法滿足要求,那
    發(fā)表于 09-15 09:23

    Vivado常見問題大合集

    Vivado常見問題集錦目前學(xué)習(xí)FPGA的基本知識,之前只是在數(shù)電實驗課上簡單的寫過幾個小程序,現(xiàn)在屬于兩條腿走路,一邊做硬件一邊分出一定的時間做FPGA開發(fā)。我的開發(fā)板使用的是賽靈思旗下
    發(fā)表于 01-06 06:12

    部署基于嵌入的機(jī)器學(xué)習(xí)模型

    的價值。這是機(jī)器學(xué)習(xí)社區(qū)目前面臨的主要挑戰(zhàn)之一?! 〔渴?b class='flag-5'>機(jī)器學(xué)習(xí)應(yīng)用通常比部署傳統(tǒng)軟件應(yīng)用程序更
    發(fā)表于 11-02 15:09

    掃地機(jī)器人面臨的設(shè)計挑戰(zhàn)有哪些

    除塵等。但對設(shè)計人員來說,這也意味著在設(shè)計可靠的系統(tǒng)時將會面臨更多的挑戰(zhàn)。而小型放大器可以幫助其快速克服許多重大挑戰(zhàn)。下文列舉了設(shè)計人員在設(shè)計過程中會遇到的六種挑戰(zhàn),以及小型放大器能提
    發(fā)表于 11-09 06:02

    復(fù)雜信號內(nèi)部捕獲所面臨常見挑戰(zhàn)分析

    本文將討論在復(fù)雜的信號內(nèi)部捕獲關(guān)心的事件所面臨的某些常見挑戰(zhàn),以及怎樣使用可視觸發(fā)功能克服這些挑戰(zhàn)
    發(fā)表于 01-21 17:09 ?2335次閱讀

    Keil編譯常見問題

    吳鑒鷹總結(jié)的Keil 編譯常見問題,吳鑒鷹總結(jié)的Keil 編譯常見問題。
    發(fā)表于 07-22 15:31 ?10次下載

    機(jī)器學(xué)習(xí)應(yīng)用中的常見問題分類問題你了解多少

    分類問題是機(jī)器學(xué)習(xí)應(yīng)用中的常見問題,而二分類問題是其中的典型,例如垃圾郵件的識別。本文基于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的銀行營銷數(shù)據(jù)集,從對數(shù)據(jù)集
    的頭像 發(fā)表于 03-29 16:40 ?1.5w次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>應(yīng)用中的<b class='flag-5'>常見問題</b>分類問題你了解多少

    人工智能時代,機(jī)器學(xué)習(xí)面臨怎樣的挑戰(zhàn)?

    機(jī)器可以像人一樣推理分析。機(jī)器學(xué)習(xí)可以實現(xiàn)分析推理,但需要訓(xùn)練它,讓它獲取知識然后進(jìn)行訓(xùn)練或學(xué)習(xí)?! ?b class='flag-5'>學(xué)習(xí)和推理能力對
    的頭像 發(fā)表于 09-13 11:25 ?3980次閱讀

    機(jī)器學(xué)習(xí)框架里不同層面的隱私保護(hù)

    數(shù)據(jù)時代,人們從技術(shù)中獲取便利的同時,也面臨著隱私泄露的風(fēng)險。微軟倡導(dǎo)負(fù)責(zé)任的人工智能,因此機(jī)器學(xué)習(xí)中的隱私保護(hù)問題至關(guān)重要。本文介紹了目前機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 09-04 11:34 ?3852次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>框架里不同層面的隱私保護(hù)

    當(dāng)前機(jī)器學(xué)習(xí)面臨的落地挑戰(zhàn)

    ●當(dāng)前機(jī)器學(xué)習(xí)落地挑戰(zhàn)● 近二十年來,機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機(jī)視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺
    的頭像 發(fā)表于 06-17 11:14 ?3716次閱讀

    機(jī)器人關(guān)節(jié)模組常見問題答疑

    機(jī)器人關(guān)節(jié)模組常見問題答疑
    的頭像 發(fā)表于 04-20 14:51 ?845次閱讀
    <b class='flag-5'>機(jī)器</b>人關(guān)節(jié)模組<b class='flag-5'>常見問題</b>答疑
    主站蜘蛛池模板: 久艾草在线精品视频在线观看| 欧美夜夜噜2017最新| 无套内射纹身女视频| 啊灬啊别停灬用力啊在线观看视频| 精品久久久99大香线蕉| 翁用力的抽插| 二色AV天堂在线| 乳欲性高清在线| 第四色播日韩AV第一页| 欧美重口绿帽video| 99精品网站| 男人插女人动态图| 中文字幕亚洲乱码熟女在线| 国产99在线视频| 男生jj插入女生jj| 一本道高清码| 精品无码乱码AV| 97国产露脸精品国产麻豆| 日本久久久免费高清| 国产精品永久免费视频| 夜蒲团之5阳性之教| 奇米狠狠干| 国语对白刺激真实精品| 99久免费精品视频在线观看2| 四房播播最新地址| 浪潮AV色综合久久天堂| 干了快生了的孕妇| 曰曰夜夜在线影院视| 日韩人妻无码精品久久中文字幕| 国产在线精品亚洲视频在线| 亚洲欭美日韩颜射在线二| 免费a视频在线观看| 成年人在线免费观看视频网站| 乌克兰粉嫩摘花第一次| 九九99热久久精品在线6| 99久久就热视频精品草| 午夜福利在线观看6080| 快插我我好湿啊公交车上做| 国产3级在线观看| 永久免费在线观看视频| 色呦呦导航|