色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

邏輯回歸與GBDT模型各自的原理及優(yōu)缺點(diǎn)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:吳忠強(qiáng) ? 2020-12-26 10:01 ? 次閱讀

一、GBDT+LR簡(jiǎn)介

協(xié)同過(guò)濾和矩陣分解存在的劣勢(shì)就是僅利用了用戶(hù)與物品相互行為信息進(jìn)行推薦, 忽視了用戶(hù)自身特征, 物品自身特征以及上下文信息等,導(dǎo)致生成的結(jié)果往往會(huì)比較片面。而這次介紹的這個(gè)模型是2014年由Facebook提出的GBDT+LR模型, 該模型利用GBDT自動(dòng)進(jìn)行特征篩選和組合, 進(jìn)而生成新的離散特征向量, 再把該特征向量當(dāng)做LR模型的輸入, 來(lái)產(chǎn)生最后的預(yù)測(cè)結(jié)果, 該模型能夠綜合利用用戶(hù)、物品和上下文等多種不同的特征, 生成較為全面的推薦結(jié)果, 在CTR點(diǎn)擊率預(yù)估場(chǎng)景下使用較為廣泛。

下面首先會(huì)介紹邏輯回歸和GBDT模型各自的原理及優(yōu)缺點(diǎn), 然后介紹GBDT+LR模型的工作原理和細(xì)節(jié)。

232df6d4-4692-11eb-8b86-12bb97331649.jpg

二、邏輯回歸模型

邏輯回歸模型非常重要, 在推薦領(lǐng)域里面, 相比于傳統(tǒng)的協(xié)同過(guò)濾, 邏輯回歸模型能夠綜合利用用戶(hù)、物品、上下文等多種不同的特征生成較為“全面”的推薦結(jié)果, 關(guān)于邏輯回歸的更多細(xì)節(jié), 可以參考下面給出的鏈接,這里只介紹比較重要的一些細(xì)節(jié)和在推薦中的應(yīng)用。

邏輯回歸是在線性回歸的基礎(chǔ)上加了一個(gè) Sigmoid 函數(shù)(非線形)映射,使得邏輯回歸成為了一個(gè)優(yōu)秀的分類(lèi)算法, 學(xué)習(xí)邏輯回歸模型, 首先應(yīng)該記住一句話(huà):邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過(guò)極大化似然函數(shù)的方法,運(yùn)用梯度下降來(lái)求解參數(shù),來(lái)達(dá)到將數(shù)據(jù)二分類(lèi)的目的。

相比于協(xié)同過(guò)濾和矩陣分解利用用戶(hù)的物品“相似度”進(jìn)行推薦, 邏輯回歸模型將問(wèn)題看成了一個(gè)分類(lèi)問(wèn)題, 通過(guò)預(yù)測(cè)正樣本的概率對(duì)物品進(jìn)行排序。這里的正樣本可以是用戶(hù)“點(diǎn)擊”了某個(gè)商品或者“觀看”了某個(gè)視頻, 均是推薦系統(tǒng)希望用戶(hù)產(chǎn)生的“正反饋”行為, 因此邏輯回歸模型將推薦問(wèn)題轉(zhuǎn)化成了一個(gè)點(diǎn)擊率預(yù)估問(wèn)題。而點(diǎn)擊率預(yù)測(cè)就是一個(gè)典型的二分類(lèi), 正好適合邏輯回歸進(jìn)行處理, 那么邏輯回歸是如何做推薦的呢?過(guò)程如下:

將用戶(hù)年齡、性別、物品屬性、物品描述、當(dāng)前時(shí)間、當(dāng)前地點(diǎn)等特征轉(zhuǎn)成數(shù)值型向量

確定邏輯回歸的優(yōu)化目標(biāo),比如把點(diǎn)擊率預(yù)測(cè)轉(zhuǎn)換成二分類(lèi)問(wèn)題, 這樣就可以得到分類(lèi)問(wèn)題常用的損失作為目標(biāo), 訓(xùn)練模型

在預(yù)測(cè)的時(shí)候, 將特征向量輸入模型產(chǎn)生預(yù)測(cè), 得到用戶(hù)“點(diǎn)擊”物品的概率

利用點(diǎn)擊概率對(duì)候選物品排序, 得到推薦列表

推斷過(guò)程可以用下圖來(lái)表示:

240ee04a-4692-11eb-8b86-12bb97331649.png

這里的關(guān)鍵就是每個(gè)特征的權(quán)重參數(shù), 我們一般是使用梯度下降的方式, 首先會(huì)先隨機(jī)初始化參數(shù), 然后將特征向量(也就是我們上面數(shù)值化出來(lái)的特征)輸入到模型, 就會(huì)通過(guò)計(jì)算得到模型的預(yù)測(cè)概率, 然后通過(guò)對(duì)目標(biāo)函數(shù)求導(dǎo)得到每個(gè)的梯度, 然后進(jìn)行更新

這里的目標(biāo)函數(shù)長(zhǎng)下面這樣:

求導(dǎo)之后的方式長(zhǎng)這樣:

這樣通過(guò)若干次迭代, 就可以得到最終的了, 關(guān)于這些公式的推導(dǎo),可以參考下面給出的文章鏈接, 下面我們分析一下邏輯回歸模型的優(yōu)缺點(diǎn)。

優(yōu)點(diǎn):

LR模型形式簡(jiǎn)單,可解釋性好,從特征的權(quán)重可以看到不同的特征對(duì)最后結(jié)果的影響。

訓(xùn)練時(shí)便于并行化,在預(yù)測(cè)時(shí)只需要對(duì)特征進(jìn)行線性加權(quán),所以性能比較好,往往適合處理海量id類(lèi)特征,用id類(lèi)特征有一個(gè)很重要的好處,就是防止信息損失(相對(duì)于范化的 CTR 特征),對(duì)于頭部資源會(huì)有更細(xì)致的描述

資源占用小,尤其是內(nèi)存。在實(shí)際的工程應(yīng)用中只需要存儲(chǔ)權(quán)重比較大的特征及特征對(duì)應(yīng)的權(quán)重。

方便輸出結(jié)果調(diào)整。邏輯回歸可以很方便的得到最后的分類(lèi)結(jié)果,因?yàn)檩敵龅氖敲總€(gè)樣本的概率分?jǐn)?shù),我們可以很容易的對(duì)這些概率分?jǐn)?shù)進(jìn)行cutoff,也就是劃分閾值(大于某個(gè)閾值的是一類(lèi),小于某個(gè)閾值的是一類(lèi))

當(dāng)然, 邏輯回歸模型也有一定的局限性。

表達(dá)能力不強(qiáng), 無(wú)法進(jìn)行特征交叉, 特征篩選等一系列“高級(jí)“操作(這些工作都得人工來(lái)干, 這樣就需要一定的經(jīng)驗(yàn), 否則會(huì)走一些彎路), 因此可能造成信息的損失

準(zhǔn)確率并不是很高。因?yàn)檫@畢竟是一個(gè)線性模型加了個(gè)sigmoid, 形式非常的簡(jiǎn)單(非常類(lèi)似線性模型),很難去擬合數(shù)據(jù)的真實(shí)分布

處理非線性數(shù)據(jù)較麻煩。邏輯回歸在不引入其他方法的情況下,只能處理線性可分的數(shù)據(jù), 如果想處理非線性, 首先對(duì)連續(xù)特征的處理需要先進(jìn)行離散化(離散化的目的是為了引入非線性),如上文所說(shuō),人工分桶的方式會(huì)引入多種問(wèn)題。

LR 需要進(jìn)行人工特征組合,這就需要開(kāi)發(fā)者有非常豐富的領(lǐng)域經(jīng)驗(yàn),才能不走彎路。這樣的模型遷移起來(lái)比較困難,換一個(gè)領(lǐng)域又需要重新進(jìn)行大量的特征工程。

所以如何自動(dòng)發(fā)現(xiàn)有效的特征、特征組合,彌補(bǔ)人工經(jīng)驗(yàn)不足,縮短LR特征實(shí)驗(yàn)周期,是亟需解決的問(wèn)題, 而GBDT模型, 正好可以自動(dòng)發(fā)現(xiàn)特征并進(jìn)行有效組合。注:在Datawhale公眾號(hào)后臺(tái)回復(fù)【數(shù)據(jù)項(xiàng)目】可進(jìn)項(xiàng)目專(zhuān)欄群,和作者等一起學(xué)習(xí)交流。

三、GBDT模型

GBDT全稱(chēng)梯度提升決策樹(shù),在傳統(tǒng)機(jī)器學(xué)習(xí)算法里面是對(duì)真實(shí)分布擬合的最好的幾種算法之一,在前幾年深度學(xué)習(xí)還沒(méi)有大行其道之前,gbdt在各種競(jìng)賽是大放異彩。原因大概有幾個(gè),一是效果確實(shí)挺不錯(cuò)。二是即可以用于分類(lèi)也可以用于回歸。三是可以篩選特征, 所以這個(gè)模型依然是一個(gè)非常重要的模型。

GBDT是通過(guò)采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練過(guò)程產(chǎn)生的誤差來(lái)達(dá)到將數(shù)據(jù)分類(lèi)或者回歸的算法, 其訓(xùn)練過(guò)程如下:

26afd6c4-4692-11eb-8b86-12bb97331649.png

gbdt通過(guò)多輪迭代, 每輪迭代會(huì)產(chǎn)生一個(gè)弱分類(lèi)器, 每個(gè)分類(lèi)器在上一輪分類(lèi)器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練。gbdt對(duì)弱分類(lèi)器的要求一般是足夠簡(jiǎn)單, 并且低方差高偏差。因?yàn)橛?xùn)練的過(guò)程是通過(guò)降低偏差來(lái)不斷提高最終分類(lèi)器的精度。由于上述高偏差和簡(jiǎn)單的要求,每個(gè)分類(lèi)回歸樹(shù)的深度不會(huì)很深。最終的總分類(lèi)器是將每輪訓(xùn)練得到的弱分類(lèi)器加權(quán)求和得到的(也就是加法模型)。

關(guān)于GBDT的詳細(xì)細(xì)節(jié),依然是可以參考下面給出的鏈接。這里想分析一下GBDT如何來(lái)進(jìn)行二分類(lèi)的,因?yàn)槲覀円鞔_一點(diǎn)就是gbdt 每輪的訓(xùn)練是在上一輪的訓(xùn)練的殘差基礎(chǔ)之上進(jìn)行訓(xùn)練的, 而這里的殘差指的就是當(dāng)前模型的負(fù)梯度值, 這個(gè)就要求每輪迭代的時(shí)候,弱分類(lèi)器的輸出的結(jié)果相減是有意義的, 而gbdt 無(wú)論用于分類(lèi)還是回歸一直都是使用的CART 回歸樹(shù), 那么既然是回歸樹(shù), 是如何進(jìn)行二分類(lèi)問(wèn)題的呢?

GBDT 來(lái)解決二分類(lèi)問(wèn)題和解決回歸問(wèn)題的本質(zhì)是一樣的,都是通過(guò)不斷構(gòu)建決策樹(shù)的方式,使預(yù)測(cè)結(jié)果一步步的接近目標(biāo)值, 但是二分類(lèi)問(wèn)題和回歸問(wèn)題的損失函數(shù)是不同的, 關(guān)于GBDT在回歸問(wèn)題上的樹(shù)的生成過(guò)程, 損失函數(shù)和迭代原理可以參考給出的鏈接, 回歸問(wèn)題中一般使用的是平方損失, 而二分類(lèi)問(wèn)題中, GBDT和邏輯回歸一樣, 使用的下面這個(gè):

其中,是第個(gè)樣本的觀測(cè)值, 取值要么是0要么是1, 而是第個(gè)樣本的預(yù)測(cè)值, 取值是0-1之間的概率,由于我們知道GBDT擬合的殘差是當(dāng)前模型的負(fù)梯度, 那么我們就需要求出這個(gè)模型的導(dǎo)數(shù), 即, 對(duì)于某個(gè)特定的樣本, 求導(dǎo)的話(huà)就可以只考慮它本身, 去掉加和號(hào), 那么就變成了, 其中如下:

如果對(duì)邏輯回歸非常熟悉的話(huà), 一定不會(huì)陌生吧, 這就是對(duì)幾率比取了個(gè)對(duì)數(shù), 并且在邏輯回歸里面這個(gè)式子會(huì)等于, 所以才推出了的那個(gè)形式。這里令, 即, 則上面這個(gè)式子變成了:

這時(shí)候,我們對(duì)求導(dǎo), 得

這樣, 我們就得到了某個(gè)訓(xùn)練樣本在當(dāng)前模型的梯度值了, 那么殘差就是。GBDT二分類(lèi)的這個(gè)思想,其實(shí)和邏輯回歸的思想一樣,邏輯回歸是用一個(gè)線性模型去擬合這個(gè)事件的對(duì)數(shù)幾率, GBDT二分類(lèi)也是如此, 用一系列的梯度提升樹(shù)去擬合這個(gè)對(duì)數(shù)幾率, 其分類(lèi)模型可以表達(dá)為:

下面我們具體來(lái)看GBDT的生成過(guò)程, 構(gòu)建分類(lèi)GBDT的步驟有兩個(gè):

1. 初始化GBDT

和回歸問(wèn)題一樣, 分類(lèi) GBDT 的初始狀態(tài)也只有一個(gè)葉子節(jié)點(diǎn),該節(jié)點(diǎn)為所有樣本的初始預(yù)測(cè)值,如下:

上式里面,代表GBDT模型,是模型的初識(shí)狀態(tài), 該式子的意思是找到一個(gè),使所有樣本的 Loss 最小,在這里及下文中,都表示節(jié)點(diǎn)的輸出,即葉子節(jié)點(diǎn), 且它是一個(gè)形式的值(回歸值),在初始狀態(tài),。

下面看例子(該例子來(lái)自下面的第二個(gè)鏈接), 假設(shè)我們有下面3條樣本:

2b9ef5fc-4692-11eb-8b86-12bb97331649.png

我們希望構(gòu)建 GBDT 分類(lèi)樹(shù),它能通過(guò)「喜歡爆米花」、「年齡」和「顏色偏好」這 3 個(gè)特征來(lái)預(yù)測(cè)某一個(gè)樣本是否喜歡看電影。我們把數(shù)據(jù)代入上面的公式中求Loss: 為了令其最小, 我們求導(dǎo), 且讓導(dǎo)數(shù)為0, 則:

于是, 就得到了初始值, 模型的初識(shí)狀態(tài)

2. 循環(huán)生成決策樹(shù)

這里回憶一下回歸樹(shù)的生成步驟, 其實(shí)有4小步, 第一就是計(jì)算負(fù)梯度值得到殘差, 第二步是用回歸樹(shù)擬合殘差, 第三步是計(jì)算葉子節(jié)點(diǎn)的輸出值, 第四步是更新模型。下面我們一一來(lái)看:

計(jì)算負(fù)梯度得到殘差:

此處使用棵樹(shù)的模型, 計(jì)算每個(gè)樣本的殘差, 就是上面的, 于是例子中, 每個(gè)樣本的殘差:

2d670aa0-4692-11eb-8b86-12bb97331649.png

使用回歸樹(shù)來(lái)擬合, 這里的表示樣本哈,回歸樹(shù)的建立過(guò)程可以參考下面的鏈接文章,簡(jiǎn)單的說(shuō)就是遍歷每個(gè)特征, 每個(gè)特征下遍歷每個(gè)取值, 計(jì)算分裂后兩組數(shù)據(jù)的平方損失, 找到最小的那個(gè)劃分節(jié)點(diǎn)。假如我們產(chǎn)生的第2棵決策樹(shù)如下:

2df3c774-4692-11eb-8b86-12bb97331649.png

對(duì)于每個(gè)葉子節(jié)點(diǎn), 計(jì)算最佳殘差擬合值

意思是, 在剛構(gòu)建的樹(shù)中, 找到每個(gè)節(jié)點(diǎn)的輸出, 能使得該節(jié)點(diǎn)的loss最小。那么我們看一下這個(gè)的求解方式, 這里非常的巧妙。首先, 我們把損失函數(shù)寫(xiě)出來(lái), 對(duì)于左邊的第一個(gè)樣本, 有

這個(gè)式子就是上面推導(dǎo)的, 因?yàn)槲覀円没貧w樹(shù)做分類(lèi), 所以這里把分類(lèi)的預(yù)測(cè)概率轉(zhuǎn)換成了對(duì)數(shù)幾率回歸的形式, 即, 這個(gè)就是模型的回歸輸出值。而如果求這個(gè)損失的最小值, 我們要求導(dǎo), 解出令損失最小的。但是上面這個(gè)式子求導(dǎo)會(huì)很麻煩, 所以這里介紹了一個(gè)技巧就是使用二階泰勒公式來(lái)近似表示該式, 再求導(dǎo), 還記得偉大的泰勒嗎?

這里就相當(dāng)于把當(dāng)做常量,作為變量, 將二階展開(kāi):

這時(shí)候再求導(dǎo)就簡(jiǎn)單了

Loss最小的時(shí)候, 上面的式子等于0, 就可以得到:

因?yàn)榉肿泳褪菤埐?上述已經(jīng)求到了), 分母可以通過(guò)對(duì)殘差求導(dǎo),得到原損失函數(shù)的二階導(dǎo):

這時(shí)候, 就可以算出該節(jié)點(diǎn)的輸出:

這里的下面表示第棵樹(shù)的第個(gè)葉子節(jié)點(diǎn)。接下來(lái)是右邊節(jié)點(diǎn)的輸出, 包含樣本2和樣本3, 同樣使用二階泰勒公式展開(kāi):

求導(dǎo), 令其結(jié)果為0,就會(huì)得到, 第1棵樹(shù)的第2個(gè)葉子節(jié)點(diǎn)的輸出:

可以看出, 對(duì)于任意葉子節(jié)點(diǎn), 我們可以直接計(jì)算其輸出值:

最后,更新模型:

這樣, 通過(guò)多次循環(huán)迭代, 就可以得到一個(gè)比較強(qiáng)的學(xué)習(xí)器。

下面分析一下GBDT的優(yōu)缺點(diǎn):

我們可以把樹(shù)的生成過(guò)程理解成自動(dòng)進(jìn)行多維度的特征組合的過(guò)程,從根結(jié)點(diǎn)到葉子節(jié)點(diǎn)上的整個(gè)路徑(多個(gè)特征值判斷),才能最終決定一棵樹(shù)的預(yù)測(cè)值, 另外,對(duì)于連續(xù)型特征的處理,GBDT 可以拆分出一個(gè)臨界閾值,比如大于 0.027 走左子樹(shù),小于等于 0.027(或者 default 值)走右子樹(shù),這樣很好的規(guī)避了人工離散化的問(wèn)題。這樣就非常輕松的解決了邏輯回歸那里自動(dòng)發(fā)現(xiàn)特征并進(jìn)行有效組合的問(wèn)題, 這也是GBDT的優(yōu)勢(shì)所在。

但是GBDT也會(huì)有一些局限性, 對(duì)于海量的 id 類(lèi)特征,GBDT 由于樹(shù)的深度和棵樹(shù)限制(防止過(guò)擬合),不能有效的存儲(chǔ);另外海量特征在也會(huì)存在性能瓶頸,當(dāng) GBDT 的 one hot 特征大于 10 萬(wàn)維時(shí),就必須做分布式的訓(xùn)練才能保證不爆內(nèi)存。所以 GBDT 通常配合少量的反饋 CTR 特征來(lái)表達(dá),這樣雖然具有一定的范化能力,但是同時(shí)會(huì)有信息損失,對(duì)于頭部資源不能有效的表達(dá)。

所以, 我們發(fā)現(xiàn)其實(shí)GBDT和LR的優(yōu)缺點(diǎn)可以進(jìn)行互補(bǔ)。

四、GBDT+LR模型

2014年, Facebook提出了一種利用GBDT自動(dòng)進(jìn)行特征篩選和組合, 進(jìn)而生成新的離散特征向量, 再把該特征向量當(dāng)做LR模型的輸入, 來(lái)產(chǎn)生最后的預(yù)測(cè)結(jié)果, 這就是著名的GBDT+LR模型了。GBDT+LR 使用最廣泛的場(chǎng)景是CTR點(diǎn)擊率預(yù)估,即預(yù)測(cè)當(dāng)給用戶(hù)推送的廣告會(huì)不會(huì)被用戶(hù)點(diǎn)擊。

有了上面的鋪墊, 這個(gè)模型解釋起來(lái)就比較容易了, 模型的總體結(jié)構(gòu)長(zhǎng)下面這樣:

3238c1fe-4692-11eb-8b86-12bb97331649.png

訓(xùn)練時(shí),GBDT 建樹(shù)的過(guò)程相當(dāng)于自動(dòng)進(jìn)行的特征組合和離散化,然后從根結(jié)點(diǎn)到葉子節(jié)點(diǎn)的這條路徑就可以看成是不同特征進(jìn)行的特征組合,用葉子節(jié)點(diǎn)可以唯一的表示這條路徑,并作為一個(gè)離散特征傳入 LR 進(jìn)行二次訓(xùn)練。

比如上圖中, 有兩棵樹(shù),x為一條輸入樣本,遍歷兩棵樹(shù)后,x樣本分別落到兩顆樹(shù)的葉子節(jié)點(diǎn)上,每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)LR一維特征,那么通過(guò)遍歷樹(shù),就得到了該樣本對(duì)應(yīng)的所有LR特征。構(gòu)造的新特征向量是取值0/1的。比如左樹(shù)有三個(gè)葉子節(jié)點(diǎn),右樹(shù)有兩個(gè)葉子節(jié)點(diǎn),最終的特征即為五維的向量。對(duì)于輸入x,假設(shè)他落在左樹(shù)第二個(gè)節(jié)點(diǎn),編碼[0,1,0],落在右樹(shù)第二個(gè)節(jié)點(diǎn)則編碼[0,1],所以整體的編碼為[0,1,0,0,1],這類(lèi)編碼作為特征,輸入到線性分類(lèi)模型(LR or FM)中進(jìn)行分類(lèi)。

預(yù)測(cè)時(shí),會(huì)先走 GBDT 的每棵樹(shù),得到某個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的一個(gè)離散特征(即一組特征組合),然后把該特征以 one-hot 形式傳入 LR 進(jìn)行線性加權(quán)預(yù)測(cè)。

這個(gè)方案應(yīng)該比較簡(jiǎn)單了, 下面有幾個(gè)關(guān)鍵的點(diǎn)我們需要了解:

通過(guò)GBDT進(jìn)行特征組合之后得到的離散向量是和訓(xùn)練數(shù)據(jù)的原特征一塊作為邏輯回歸的輸入, 而不僅僅全是這種離散特征

建樹(shù)的時(shí)候用ensemble建樹(shù)的原因就是一棵樹(shù)的表達(dá)能力很弱,不足以表達(dá)多個(gè)有區(qū)分性的特征組合,多棵樹(shù)的表達(dá)能力更強(qiáng)一些。GBDT每棵樹(shù)都在學(xué)習(xí)前面棵樹(shù)尚存的不足,迭代多少次就會(huì)生成多少棵樹(shù)。

RF也是多棵樹(shù),但從效果上有實(shí)踐證明不如GBDT。且GBDT前面的樹(shù),特征分裂主要體現(xiàn)對(duì)多數(shù)樣本有區(qū)分度的特征;后面的樹(shù),主要體現(xiàn)的是經(jīng)過(guò)前N顆樹(shù),殘差仍然較大的少數(shù)樣本。優(yōu)先選用在整體上有區(qū)分度的特征,再選用針對(duì)少數(shù)樣本有區(qū)分度的特征,思路更加合理,這應(yīng)該也是用GBDT的原因。

在CRT預(yù)估中, GBDT一般會(huì)建立兩類(lèi)樹(shù)(非ID特征建一類(lèi), ID類(lèi)特征建一類(lèi)), AD,ID類(lèi)特征在CTR預(yù)估中是非常重要的特征,直接將AD,ID作為feature進(jìn)行建樹(shù)不可行,故考慮為每個(gè)AD,ID建GBDT樹(shù)。

非ID類(lèi)樹(shù):不以細(xì)粒度的ID建樹(shù),此類(lèi)樹(shù)作為base,即便曝光少的廣告、廣告主,仍可以通過(guò)此類(lèi)樹(shù)得到有區(qū)分性的特征、特征組合

ID類(lèi)樹(shù):以細(xì)粒度 的ID建一類(lèi)樹(shù),用于發(fā)現(xiàn)曝光充分的ID對(duì)應(yīng)有區(qū)分性的特征、特征組合。

五、編程實(shí)踐

下面我們通過(guò)kaggle上的一個(gè)ctr預(yù)測(cè)的比賽來(lái)看一下GBDT+LR模型部分的編程實(shí)踐, 數(shù)據(jù)來(lái)源:https://github.com/zhongqiangwu960812/AI-RecommenderSystem/tree/master/GBDT%2BLR/data

我們回顧一下上面的模型架構(gòu), 首先是要訓(xùn)練GBDT模型, GBDT的實(shí)現(xiàn)一般可以使用xgboost, 或者lightgbm。訓(xùn)練完了GBDT模型之后, 我們需要預(yù)測(cè)出每個(gè)樣本落在了哪棵樹(shù)上的哪個(gè)節(jié)點(diǎn)上, 然后通過(guò)one-hot就會(huì)得到一些新的離散特征, 這和原來(lái)的特征進(jìn)行合并組成新的數(shù)據(jù)集, 然后作為邏輯回歸的輸入,最后通過(guò)邏輯回歸模型得到結(jié)果。

根據(jù)上面的步驟, 我們看看代碼如何實(shí)現(xiàn):

假設(shè)我們已經(jīng)有了處理好的數(shù)據(jù)x_train, y_train。

1. 訓(xùn)練GBDT模型

GBDT模型的搭建我們可以通過(guò)XGBOOST, lightgbm等進(jìn)行構(gòu)建。比如:

pIYBAF_mme2AGeG0AAAxU-u4-o8792.jpg

o4YBAF_mmfOAJ9ZwAAAteawc3CI784.jpg

2. 特征轉(zhuǎn)換并構(gòu)建新的數(shù)據(jù)集

通過(guò)上面我們建立好了一個(gè)gbdt模型, 我們接下來(lái)要用它來(lái)預(yù)測(cè)出樣本會(huì)落在每棵樹(shù)的哪個(gè)葉子節(jié)點(diǎn)上, 為后面的離散特征構(gòu)建做準(zhǔn)備, 由于不是用gbdt預(yù)測(cè)結(jié)果而是預(yù)測(cè)訓(xùn)練數(shù)據(jù)在每棵樹(shù)上的具體位置, 就需要用到下面的語(yǔ)句:

o4YBAF_mmhmAPBZmAACPXK7oRpw682.jpg

pIYBAF_mmiCAIhwzAAAylOL1Jzc402.jpg

3. 離散特征的獨(dú)熱編碼,并劃分?jǐn)?shù)據(jù)集

o4YBAF_mmjWAKvjOAABvsGDyaa4513.jpg

4. 訓(xùn)練邏輯回歸模型作最后的預(yù)測(cè)

pIYBAF_mmkmANt4kAABXgjNn-Pw033.jpg

上面我們就完成了GBDT+LR模型的基本訓(xùn)練步驟, 具體詳細(xì)的代碼可以參考鏈接。

六、課后思考

為什么使用集成的決策樹(shù)?為什么使用GBDT構(gòu)建決策樹(shù)而不是隨機(jī)森林?

面對(duì)高維稀疏類(lèi)特征的時(shí)候(比如ID類(lèi)特征), 邏輯回歸一般要比GBDT這種非線性模型好, 為什么?

參考資料

王喆 - 《深度學(xué)習(xí)推薦系統(tǒng)》

決策樹(shù)之 GBDT 算法 - 分類(lèi)部分

深入理解GBDT二分類(lèi)算法

邏輯回歸、優(yōu)化算法和正則化的幕后細(xì)節(jié)補(bǔ)充

梯度提升樹(shù)GBDT的理論學(xué)習(xí)與細(xì)節(jié)補(bǔ)充

推薦系統(tǒng)遇上深度學(xué)習(xí)(十)--GBDT+LR融合方案實(shí)戰(zhàn)

CTR預(yù)估中GBDT與LR融合方案

GBDT+LR算法解析及Python實(shí)現(xiàn)

常見(jiàn)計(jì)算廣告點(diǎn)擊率預(yù)估算法總結(jié)

GBDT--分類(lèi)篇

論文

http://quinonero.net/Publications/predicting-clicks-facebook.pdf

Predicting Clicks: Estimating the Click-Through Rate for New Ads

Greedy Fun tion Approximation : A Gradient Boosting

責(zé)任編輯:xj

原文標(biāo)題:邏輯回歸 + GBDT模型融合實(shí)戰(zhàn)!

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LR
    LR
    +關(guān)注

    關(guān)注

    1

    文章

    8

    瀏覽量

    10066
  • GBDT
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    3906

原文標(biāo)題:邏輯回歸 + GBDT模型融合實(shí)戰(zhàn)!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法

    本文我們將總結(jié)5種搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法,每種都附帶詳細(xì)的操作步驟,以及各自優(yōu)缺點(diǎn)
    的頭像 發(fā)表于 10-29 09:17 ?211次閱讀

    FPGA與ASIC的優(yōu)缺點(diǎn)比較

    FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)與ASIC(專(zhuān)用集成電路)是兩種不同的硬件實(shí)現(xiàn)方式,各自具有獨(dú)特的優(yōu)缺點(diǎn)。以下是對(duì)兩者優(yōu)缺點(diǎn)的比較: FPGA的優(yōu)點(diǎn) 可編程性強(qiáng) :FPGA具有高度的可編程性,可以靈活
    的頭像 發(fā)表于 10-25 09:24 ?540次閱讀

    試比較單層繞組和雙層繞組的優(yōu)缺點(diǎn)及它們的應(yīng)用范圍

    單層繞組和雙層繞組在電機(jī)和變壓器中都有應(yīng)用,它們各自具有獨(dú)特的優(yōu)缺點(diǎn),并適用于不同的場(chǎng)景。 單層繞組的優(yōu)缺點(diǎn)及應(yīng)用范圍 優(yōu)點(diǎn) : 結(jié)構(gòu)簡(jiǎn)單 :?jiǎn)螌永@組只在一個(gè)層面上進(jìn)行繞制,因此其結(jié)構(gòu)相對(duì)簡(jiǎn)單,易于
    的頭像 發(fā)表于 10-08 10:44 ?1643次閱讀

    雪崩晶體管有哪些優(yōu)缺點(diǎn)

    雪崩晶體管作為一種特殊的半導(dǎo)體器件,在電子領(lǐng)域具有其獨(dú)特的優(yōu)缺點(diǎn)
    的頭像 發(fā)表于 09-23 18:05 ?333次閱讀

    opa2134與opa1632d的區(qū)別和各自優(yōu)缺點(diǎn)是什么?

    老師您好 請(qǐng)問(wèn)opa2134與opa1632d的區(qū)別和各自優(yōu)缺點(diǎn)是什么謝謝
    發(fā)表于 09-20 12:55

    三層神經(jīng)網(wǎng)絡(luò)模型優(yōu)缺點(diǎn)

    三層神經(jīng)網(wǎng)絡(luò)模型是一種常見(jiàn)的深度學(xué)習(xí)模型,它由輸入層、兩個(gè)隱藏層和輸出層組成。本文將介紹三層神經(jīng)網(wǎng)絡(luò)模型優(yōu)缺點(diǎn),以及其在實(shí)際應(yīng)用中的表現(xiàn)。 一、三層神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-11 10:58 ?599次閱讀

    AI大模型與小模型優(yōu)缺點(diǎn)

    在人工智能(AI)的廣闊領(lǐng)域中,模型作為算法與數(shù)據(jù)之間的橋梁,扮演著至關(guān)重要的角色。根據(jù)模型的大小和復(fù)雜度,我們可以將其大致分為AI大模型和小模型。這兩種
    的頭像 發(fā)表于 07-10 10:39 ?2911次閱讀

    數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型優(yōu)缺點(diǎn)有哪些

    、預(yù)測(cè)分析等。然而,神經(jīng)網(wǎng)絡(luò)模型也存在一些優(yōu)缺點(diǎn)。本文將詳細(xì)分析神經(jīng)網(wǎng)絡(luò)模型優(yōu)缺點(diǎn)。 一、優(yōu)點(diǎn) 強(qiáng)大的非線性擬合能力 神經(jīng)網(wǎng)絡(luò)模型具有強(qiáng)大
    的頭像 發(fā)表于 07-02 11:36 ?942次閱讀

    神經(jīng)網(wǎng)絡(luò)模型的原理、類(lèi)型、應(yīng)用場(chǎng)景及優(yōu)缺點(diǎn)

    模型的原理、類(lèi)型、應(yīng)用場(chǎng)景以及優(yōu)缺點(diǎn)。 神經(jīng)網(wǎng)絡(luò)模型的原理 神經(jīng)網(wǎng)絡(luò)模型的基本原理是模擬人腦神經(jīng)元的工作方式。人腦由大約860億個(gè)神經(jīng)元組成,每個(gè)神經(jīng)元通過(guò)突觸與其他神經(jīng)元相互連接。神
    的頭像 發(fā)表于 07-02 09:56 ?1491次閱讀

    組合邏輯控制器的優(yōu)缺點(diǎn)有哪些

    組合邏輯控制器是一種常見(jiàn)的計(jì)算機(jī)組成部件,它負(fù)責(zé)控制數(shù)據(jù)在計(jì)算機(jī)中的流動(dòng)和處理。在本文中,我們將詳細(xì)探討組合邏輯控制器的優(yōu)缺點(diǎn),以便更好地理解其在計(jì)算機(jī)系統(tǒng)中的作用。 優(yōu)點(diǎn) 高效率 : 組合
    的頭像 發(fā)表于 06-30 10:21 ?718次閱讀

    nbiot和lora的優(yōu)缺點(diǎn)是什么?

    nbiot和lora的優(yōu)缺點(diǎn)
    發(fā)表于 06-04 06:37

    電感儲(chǔ)能和電容儲(chǔ)能各有什么優(yōu)缺點(diǎn)

    電感儲(chǔ)能和電容儲(chǔ)能是兩種在電子電路中常見(jiàn)的能量存儲(chǔ)方式,它們各自具有獨(dú)特的優(yōu)缺點(diǎn),適用于不同的應(yīng)用場(chǎng)景。
    的頭像 發(fā)表于 05-06 15:47 ?5890次閱讀

    Systick到底是用作延時(shí)好還是用作定時(shí)好?都有什么優(yōu)缺點(diǎn)

    功能,作基礎(chǔ)定時(shí)用,而不建議用作延時(shí)功能,方便后面程序移植. 最好有個(gè)定論,方便后面程序的移植,不能各自各自的,一個(gè)公司里面寫(xiě)程序的風(fēng)格和標(biāo)準(zhǔn)需要統(tǒng)一。 想問(wèn)下各位,Systick到底是用作延時(shí)好?還是用作定時(shí)好,都有什么優(yōu)缺點(diǎn)
    發(fā)表于 04-08 07:37

    SD-WAN網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)的區(qū)別及各自優(yōu)缺點(diǎn)

    SD-WAN網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)的區(qū)別及各自優(yōu)缺點(diǎn)? SD-WAN是一種新興的網(wǎng)絡(luò)技術(shù),它與傳統(tǒng)網(wǎng)絡(luò)相比有許多區(qū)別與優(yōu)點(diǎn)。在本文中,我們將詳盡、詳實(shí)、細(xì)致地探討SD-WAN網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)之間的區(qū)別以及
    的頭像 發(fā)表于 03-27 16:23 ?1153次閱讀

    日本大帶寬服務(wù)器優(yōu)缺點(diǎn)分析

    日本大帶寬服務(wù)器是很多用戶(hù)的選擇,那么日本大帶寬服務(wù)器優(yōu)缺點(diǎn)都是什么?Rak部落小編為您整理發(fā)布日本大帶寬服務(wù)器優(yōu)缺點(diǎn)分析。
    的頭像 發(fā)表于 03-22 10:08 ?480次閱讀
    主站蜘蛛池模板: 猫咪www958ii| 偷拍自偷拍亚洲精品| 精品一卡2卡三卡4卡乱码精品视频| 国产成人免费网站在线观看| 国产精品亚洲污污网站入口| 久久毛片视频| 窝窝午夜色视频国产精品东北| 最近的2019中文字幕国语完整版| 99热在线观看精品| 啊…嗯啊好深男男小黄文| 精品无码日本蜜桃麻豆| 色欲av蜜臀av高清| 亚洲日韩中文字幕区| 成激人情在线影院920| 口工漫画r18全彩啪啪| 午夜一个人在线观看完整版| 野花日本免费完整版高清版动漫| 成人短片迅雷下载| 国内精品伊人久久久影院| 久久精品午夜一区二区福利| 外女思春台湾三级| caoporn 在线视频| 国产精品永久免费视频观看| 欧美性狂猛bbbbbbxxxx| 污文乖不疼的| 俺也去最新地址| 麻豆一区二区三区蜜桃免费| 亚洲黄视频在线观看| 91交换论坛| 黄色免费网址在线观看| 蜜桃AV色欲A片精品一区| 亚洲色图在线播放| 国产精品爽黄69天堂A片| 日本一卡2卡3卡四卡精品网站| 777精品久无码人妻蜜桃| 国产精品免费小视频| 欧美一区二区三区男同| 91麻豆精品一二三区在线| 九九精品在线播放| 亚洲国产高清在线| 国产精品久久欧美一区|