色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

你知道XGBoost背后的數學原理是什么嗎?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-22 08:59 ? 次閱讀

編者按:說到Kaggle神器,不少人會想到XGBoost。一周前,我們曾在“從Kaggle歷史數據看機器學習競賽趨勢”介紹過它的“霸主地位”:自提出后,這種算法在機器學習競賽中被迅速普及,并被多數奪冠模型視為訓練速度、最終性能提升的利器。那么,你知道XGBoost背后的數學原理是什么嗎?

好奇的李雷和韓梅梅

李雷和韓梅梅是形影不離的好朋友,一天,他們一起去山里摘蘋果。按照計劃,他們打算去摘山谷底部的那棵大蘋果樹。雖然韓梅梅聰明而富有冒險精神,而李雷有些謹慎和遲鈍,但他們中會爬樹的只有李雷。那么他們的路徑是什么呢?

如上圖所示,李雷和韓梅梅所在的位置是a點,他們的目標蘋果樹位于g點。山里環境復雜,要怎么做才能確定自己到了山谷底部呢?他們有兩種方法。

1.由韓梅梅計算“a”點的斜率,如果斜率為正,則繼續朝這個方向前進;如果為負,朝反方向前進。

斜率給出了前進的方向,但沒有說明他們需要朝這個方向移動多少。為此,韓梅梅決定走幾步臺階,算一下斜率,確保自己不會到達錯誤位置,最終錯過大蘋果樹。但是這種方法有風險,控制臺階多少的是學習率,這是個需要人為把控的值:如果學習率過大,李雷和韓梅梅很可能會在g點兩側來回奔走;如果學習率過小,可能天黑了他們都未必摘得到蘋果。

聽到可能會走錯路,李雷不樂意了,他不想繞遠路,也不愿意錯過回家吃飯的時間??吹胶糜堰@么為難,韓梅梅提出了第二種方法。

2.在第一種方法的基礎上,每走過特定數量的臺階,都由韓梅梅去計算每一個臺階的損失函數值,并從中找出局部最小值,以免錯過全局最小值。每次韓梅梅找到局部最小值,她就發個信號,這樣李雷就永遠不會走錯路了。但這種方法對女孩子不公平,可憐的韓梅梅需要探索她附近的所有點并計算所有這些點的函數值。

XGBoost的優點在于它能同時解決以上兩種方案的缺陷。

梯度提升(Gradient Boosting)

很多梯度提升實現都會采用方法1來計算目標函數的最小值。在每次迭代中,我們利用損失函數的梯度訓練基學習器,然后用預測結果乘上一個常數,將其與前一次迭代的值相加,更新模型。

它背后的思路就是在損失函數上執行梯度下降,然后用基學習器對其進行擬合。當梯度為負時,我們稱它為偽殘差,因為它們依然能間接幫助我們最小化目標函數。

XGBoost

XGBoost是陳天奇在華盛頓大學求學期間提出的成果。它是一個整體加法模型,由幾個基學習器共同構成。

那么,我們該如何在每次迭代中選擇一個函數?這里可以用一種最小化整體損失的方法。

在上述梯度提升算法中,我們通過將基學習器擬合到相對于先前迭代值的損失函數的負梯度,在每次迭代時獲得ft(xi)。而在XGBoost中,我們只探索幾個基學習器或函數,選擇其中一個計算最小值,也就是韓梅梅的方法2。

如前所述,這種方法有兩個問題:

探索不同的基學習器;

計算所有基學習器的損失函數值。

XGBoost在計算基學習器ft(xi)最小值的,使用的方法是泰勒級數逼近。比起計算精確值,計算近似值可以大大減輕韓梅梅的工作量。

雖然上面只展開到二階導數,但這種近似程度就足夠了。對于任意ft(xi),第一項C都是常數。gi是前一次迭代中損失的一階導數,hi是其二階導數。韓梅梅可以在探索其他基學習器前直接計算gi和hi,這就成了一個簡單的乘法問題,計算負擔大大減輕了,不是嗎?

解決了損失函數值的問題,我們還要探索不同的基學習器。

假設韓梅梅更新了一個具有K個葉子節點的基學習器ft。設Ij是屬于節點j的實例集合,wj是該節點的預測。因此,對于Ij中的實例i,我們有ft(xi)=wj。所以我們在上式中用代入法更新了L(t)的表達式。更新后,我們就能針對每個葉子節點的權重采用損失函數的導數,以獲得最優權重。

以上就是對于具有K個葉子節點的基學習器的最佳損失。考慮到這樣的節點會有上百個,一個個探索它們是不現實的。

所以讓我們來看韓梅梅的情況。她現在已經知道如何使用泰勒展開來降低損失計算量,也知道了什么是葉子節點中的最佳權重。唯一值得關注的是如何探索所有不同的樹結構。

XGBoost不會探索所有可能的樹結構,它只是貪婪地構建一棵樹,選擇導致最大損失的方法,減少分叉。在上圖中,樹從節點I開始,根據標準,節點分為左右分叉。所以我們的實例一部分被放進了左側的葉子節點,剩下的則去了右側的葉子節點?,F在,我們就可以計算損失值并選擇導致損失減少最大的分叉。

解決了上述問題后,現在韓梅梅就只剩下一個問題:如何選擇分叉標準?XGBoost使用不同的技巧來提出不同的分割點,比如直方圖。對于這部分,建議去看論文,本文不再作解釋。

XGBoost要點

雖然梯度提升遵循負梯度來優化損失函數,但XGBoost計算每個基學習器損失函數值用的是泰勒展開。

XGBoost不會探索所有可能的樹結構,而是貪婪地構建一棵樹。

XGBoost的正則項會懲罰具有多個葉子節點的樹結構。

關于選擇分叉標準,強烈建議閱讀論文:arxiv.org/pdf/1603.02754.pdf

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 梯度
    +關注

    關注

    0

    文章

    30

    瀏覽量

    10317
  • 機器學習
    +關注

    關注

    66

    文章

    8408

    瀏覽量

    132567

原文標題:計算:XGBoost背后的數學之美

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    傅里葉變換的數學原理

    傅里葉變換的數學原理主要基于一種將函數分解為正弦和余弦函數(或復指數函數)的線性組合的思想。以下是對傅里葉變換數學原理的介紹: 一、基本原理 傅里葉級數 :對于周期性連續信號,可以將其表示為傅里葉
    的頭像 發表于 11-14 09:27 ?402次閱讀

    知道影響貼片電感發熱的因素有哪些嗎?

    知道影響貼片電感發熱的因素有哪些嗎?
    的頭像 發表于 08-17 14:24 ?429次閱讀
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>影響貼片電感發熱的因素有哪些嗎?

    知道貼片電感故障時可能出現的癥狀嗎?

    知道貼片電感故障時可能出現的癥狀嗎?
    的頭像 發表于 08-17 14:20 ?361次閱讀
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>貼片電感故障時可能出現的癥狀嗎?

    知道共模電感用錯了會有什么影響嗎

    電子發燒友網站提供《知道共模電感用錯了會有什么影響嗎.docx》資料免費下載
    發表于 07-30 10:42 ?0次下載

    關于定位系統技術知道多少?

    定位系統在如今這個沒有隱私的社會,已不是稀奇的技術。 不管是在大街上走還是在商場里逛, 只要想知道,的行蹤就被定位系統鎖定了。就像我們看的西部大片,罪犯在這邊打電話,FBI在那邊定位,唧唧幾聲
    的頭像 發表于 07-12 11:16 ?323次閱讀
    關于定位系統技術<b class='flag-5'>你</b><b class='flag-5'>知道</b>多少?

    知道一體成型電感多少錢嗎

    知道一體成型電感多少錢嗎 gujing 編輯:谷景電子 一體成型電感是電子電路中特別重要的一種零件,大家在選擇一體成型電感的時候都會比較重視它的價格!一體成型電感借助塔的特殊的結構、超低的損耗、低
    的頭像 發表于 07-06 10:46 ?958次閱讀

    神經網絡在數學建模中的應用

    數學建模是一種利用數學方法和工具來描述和分析現實世界問題的過程。神經網絡是一種模擬人腦神經元結構和功能的計算模型,可以用于解決各種復雜問題。在數學建模中,神經網絡可以作為一種有效的工具,幫助我們更好
    的頭像 發表于 07-02 11:29 ?928次閱讀

    工業控制器的制作與數學的關系

    數學在工業控制器設計中的應用 工業控制器的設計涉及到多個方面,包括硬件設計、軟件設計、系統架構設計等。在這些設計過程中,數學發揮著關鍵作用。 1.1 硬件設計中的數學應用 工業控制器的硬件設計主要
    的頭像 發表于 06-16 14:34 ?511次閱讀

    知道貼片電感上面的數字代表什么嗎

    貼片電感大家都比較熟悉,我們知道貼片電感的表面通常會標有一串數字,那么,知道這上面的數字代表什么意思嗎?本篇我們就來給大家簡單科普一下。 1、標稱值:貼片電感上的數字通常是其標稱電感值。這個值
    的頭像 發表于 05-10 11:10 ?617次閱讀

    知道寬帶背后的技術原理嗎?

    ISDN,就是Integrated Services Digital Network(綜合業務數字網)。它仍然是基于已有的電話網絡(PSTN,公共交換電話網)發展起來的技術,可以實現語音、數據和視頻等多種信號在同一條線路上進行傳輸。
    發表于 04-15 14:21 ?1153次閱讀
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>寬帶<b class='flag-5'>背后</b>的技術原理嗎?

    STM32F723E discovery背后的引腳IO為什么沒信號?

    STM32F723E discovery 背后的引腳IO為啥沒信號
    發表于 03-15 06:28

    輥壓機軸承位磨損修復知道的那些事

    電子發燒友網站提供《輥壓機軸承位磨損修復知道的那些事.docx》資料免費下載
    發表于 03-12 15:10 ?0次下載

    知道激光鉆孔技術有多牛嗎?看完這篇文章就明白了

    知道激光鉆孔技術有多牛嗎?看完這篇文章就明白了
    的頭像 發表于 02-29 17:09 ?951次閱讀

    電容6大特性參數,知道幾個?

    硬件設計好不好,電容參數知多少? 原文整理自書籍《硬件設計指南》 電容是我們電子電路設計中最常用的元件之一,除了基本的電容容值之外,電容還有其他6大參數,知道幾個呢?本文章介紹MLCC陶瓷電容6
    的頭像 發表于 02-21 15:10 ?1048次閱讀
    電容6大特性參數,<b class='flag-5'>你</b><b class='flag-5'>知道</b>幾個?

    SMT絲印技術的歷史發展的四個階段,知道嗎?

    SMT絲印技術的歷史發展的四個階段,知道嗎?
    的頭像 發表于 12-27 10:15 ?923次閱讀
    主站蜘蛛池模板: 欧美精品久久久久性色AV苍井 | 天上人间影院久久国产| 嗯啊好爽视频| 女配穿书病娇被强啪h| 美女搜查官被高难度黑人在线播放| 久久国产精品麻豆AV影视| 久久成人免费观看全部免费| 狠狠色色综合站| 久久国产高清字幕中文| 久久4k岛国高清一区二区| 久久精品亚洲精品国产欧美| 九九热在线视频观看这里只有精品| 精品久久久亚洲精品中文字幕| 国产精品色欲AV亚洲三区软件| 国产无遮挡又黄又爽在线视频| 国产强奷糟蹋漂亮邻居在线观看| 国产婷婷综合在线视频中文| 精品成人在线视频| 米奇在线8888在线精品视频| 日本妈妈xxxx| 亚洲精品国偷拍自产在线| 战狼4在线观看完免费完整版| 最美女人体内射精一区二区 | 爱爱好爽好大好紧视频| 囯产精品一品二区三区| 国语精彩对白2021| 蜜臀色欲AV无人A片一区| 十九岁韩国电影在线观看| 亚洲欧美一区二区三区导航| 国产亚洲综合视频| 恋孩癖网站大全在线观看| 日本色呦呦| 在线观看亚洲专区5555| 成人在线高清不卡免费视频| 精品国产mmd在线观看| 欧美人与动牲交A精品| 亚洲人女同志video| 99在线观看免费视频| 好想被狂躁A片免费久99| 女王羞辱丨vk| 在线电影一区二区|