色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Amro通過一個(gè)簡(jiǎn)單的二元分類決策樹解釋信息熵和信息增益這兩個(gè)概念

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-04-17 16:30 ? 次閱讀

StackOverflow人氣答主(top 0.12%)Amro通過一個(gè)簡(jiǎn)單的二元分類決策樹例子,簡(jiǎn)明扼要地解釋了信息熵和信息增益這兩個(gè)概念。

為了解釋熵這個(gè)概念,讓我們想象一個(gè)分類男女名字的監(jiān)督學(xué)習(xí)任務(wù)。給定一個(gè)名字列表,每個(gè)名字標(biāo)記為m(男)或f(女),我們想要學(xué)習(xí)一個(gè)擬合數(shù)據(jù)的模型,該模型可以用來(lái)預(yù)測(cè)未見的新名字的性別。

現(xiàn)在我們想要預(yù)測(cè)“Amro”的性別(Amro是我的名字)。

第一步,我們需要判定哪些數(shù)據(jù)特征和我們想要預(yù)測(cè)的目標(biāo)分類相關(guān)。一些特征的例子包括:首/末字母、長(zhǎng)度、元音數(shù)量、是否以元音結(jié)尾,等等。所以,提取特征之后,我們的數(shù)據(jù)是這樣的:

我們可以構(gòu)建一棵決策樹,一棵樹的例子:

長(zhǎng)度<7

| 元音數(shù)量<3: 男

| 元音數(shù)量>=3

| | 元音結(jié)尾=1: 女

| | 元音結(jié)尾=0: 男

長(zhǎng)度>=7

| 長(zhǎng)度=5: 男

基本上,每個(gè)節(jié)點(diǎn)代表在單一屬性上進(jìn)行的測(cè)試,我們根據(jù)測(cè)試的結(jié)果決定向左還是向右。我們持續(xù)沿著樹走,直到我們到達(dá)包含分類預(yù)測(cè)的葉節(jié)點(diǎn)(m或f)。

因此,如果我們運(yùn)行這棵決策樹判定Amro,我們首次測(cè)試“長(zhǎng)度<7?”答案為是,因此我們沿著分支往下,下一個(gè)測(cè)試是“元音數(shù)量<3?”答案同樣為真。這將我們導(dǎo)向標(biāo)簽為m的葉節(jié)點(diǎn),因此預(yù)測(cè)是男性(我碰巧是男性,因此這棵決策樹的預(yù)測(cè)正確)。

決策樹以自頂向下的方式創(chuàng)建,但問題在于如何選擇分割每個(gè)節(jié)點(diǎn)的屬性?答案是找到能將目標(biāo)分類分割為盡可能純粹的子節(jié)點(diǎn)的特征(即:只包含單一分類的純粹節(jié)點(diǎn)優(yōu)于同時(shí)包含男名和女名的混合節(jié)點(diǎn))。

這一純粹性的量度稱為信息。它表示,給定到達(dá)節(jié)點(diǎn)的樣本,指定一個(gè)新實(shí)例(名字)應(yīng)該被分類為男性或女性的期望的信息量。我們根據(jù)節(jié)點(diǎn)處的男名分類和女名分類的數(shù)量計(jì)算它。

另一方面,熵是不純粹性的量度(與信息相反)。對(duì)二元分類而言,熵的定義為:

Entropy = - p(a)*log(p(a)) - p(b)*log(p(b))

這一二元熵函數(shù)的圖像如下圖所示。當(dāng)概率為p=1/2時(shí),該函數(shù)達(dá)到其最大值,這意味著p(X=a)=0.5或類似的p(X=b)=0.5,即50%對(duì)50%的概率為a或b(不確定性最大)。當(dāng)概率為p=1或p=0時(shí)(完全確定),熵函數(shù)達(dá)到其最小值零(p(X=a)=1或p(X=a)=0,后者意味著p(X=b)=1)。

當(dāng)然,熵的定義可以推廣到有N個(gè)離散值(超過2)的隨機(jī)變量X:

(公式中的log通常為以2為底的對(duì)數(shù))

回到我們的名字分類任務(wù)中,讓我們看一個(gè)例子。想象一下,在構(gòu)建決策樹的過程中的某一點(diǎn),我們考慮如下分割:

以元音結(jié)尾

[9m,5f]

/ \

=1 =0

------- -------

[3m,4f] [6m,1f]

如你所見,在分割前,我們有9個(gè)男名、5個(gè)女名,即P(m)=9/14,P(f)=5/14。根據(jù)熵的定義,分割前的熵為:

Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403

接下來(lái)我們將其與分割后的熵比較。在以元音結(jié)尾為真=1的左分支中,我們有:

Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852

而在以元音結(jié)尾為假=0的右分支中,我們有:

Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.5917

我們以每個(gè)分支上的實(shí)例數(shù)量作為權(quán)重因子(7個(gè)實(shí)例向左,7個(gè)實(shí)例向右),得出分割后的最終權(quán)重:

Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885

現(xiàn)在比較分割前后的權(quán)重,我們得到信息增益的這一量度,也就是說,基于特定特征進(jìn)行分割后,我們獲得了多少信息:

Information_Gain = Entropy_before - Entropy_after = 0.1518

你可以如此解釋以上運(yùn)算:通過以“元音結(jié)尾”特征進(jìn)行分割,我們得以降低子樹預(yù)測(cè)輸出的不確定性,降幅為一個(gè)較小的數(shù)值0.1518(單位為比特,比特為信息單位)。

在樹的每一個(gè)節(jié)點(diǎn),為每個(gè)特征進(jìn)行這一運(yùn)算,以貪婪的方式選擇可以取得最大信息增益的特征進(jìn)行分割(從而偏好產(chǎn)生較低不確定性/熵的純分割)。從根節(jié)點(diǎn)向下遞歸應(yīng)用此過程,停止于包含的節(jié)點(diǎn)均屬同一分類的葉節(jié)點(diǎn)(不用再進(jìn)一步分割了)。

注意,我省略了超出本文范圍的一些細(xì)節(jié),包含如何處理數(shù)值特征、缺失特征、過擬合、剪枝樹,等等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 決策樹
    +關(guān)注

    關(guān)注

    3

    文章

    96

    瀏覽量

    13548
  • 信息熵
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    7101

原文標(biāo)題:信息論視角下的決策樹算法:信息熵和信息增益

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    關(guān)于決策樹,這些知識(shí)點(diǎn)不可錯(cuò)過

    種算法。它既是分類算法,也是回歸算法,還可以用在隨機(jī)森林中。咱們學(xué)計(jì)算機(jī)的同學(xué)經(jīng)常敲if 、else if、else其實(shí)就已經(jīng)在用到決策樹的思想了。決策樹
    發(fā)表于 05-23 09:38

    數(shù)據(jù)挖掘十大經(jīng)典算法,你都知道哪些!

    ,ID3使用的是(shang),種不純度度量準(zhǔn)則,也就是的變化值,而C4.5用的是信息增益率。區(qū)別就在于
    發(fā)表于 11-06 17:02

    決策樹的生成資料

    在本文中,我們將討論種監(jiān)督式學(xué)習(xí)算法。最新代意法半導(dǎo)體 MEMS 傳感器內(nèi)置個(gè)基于決策樹分類
    發(fā)表于 09-08 06:50

    個(gè)基于粗集的決策樹規(guī)則提取算法

    個(gè)基于粗集的決策樹規(guī)則提取算法:摘要:決策樹是數(shù)據(jù)挖掘任務(wù)中分類的常用方法。在構(gòu)造決策樹的過程
    發(fā)表于 10-10 15:13 ?12次下載

    改進(jìn)決策樹算法的應(yīng)用研究

    該方法利用決策樹算法構(gòu)造決策樹,通過對(duì)分類結(jié)果中主客觀屬性進(jìn)行標(biāo)記并邏輯運(yùn)算,最終得到較客觀的決策信息
    發(fā)表于 02-07 11:38 ?27次下載
    改進(jìn)<b class='flag-5'>決策樹</b>算法的應(yīng)用研究

    機(jī)器學(xué)習(xí)之決策樹生成詳解

    根據(jù)給定的數(shù)據(jù)集創(chuàng)建個(gè)決策樹就是機(jī)器學(xué)習(xí)的課程,創(chuàng)建個(gè)決策樹可能會(huì)花費(fèi)較多的時(shí)間,但是使用
    發(fā)表于 08-27 14:38 ?1.9w次閱讀
    機(jī)器學(xué)習(xí)之<b class='flag-5'>決策樹</b>生成詳解

    決策樹C4.5算法屬性取值優(yōu)化研究

    決策樹算法是種最簡(jiǎn)單、最直接、最有效的文本分類算法。最早的決策樹算法是ID3算法,于1986年由Quinlan提出,該算法是
    發(fā)表于 12-12 11:20 ?0次下載

    決策樹的原理和決策樹構(gòu)建的準(zhǔn)備工作,機(jī)器學(xué)習(xí)決策樹的原理

    希望通過所給的訓(xùn)練數(shù)據(jù)學(xué)習(xí)個(gè)貸款申請(qǐng)的決策樹,用于對(duì)未來(lái)的貸款申請(qǐng)進(jìn)行分類,即當(dāng)新的客戶提出貸款申請(qǐng)時(shí),根據(jù)申請(qǐng)人的特征利用
    的頭像 發(fā)表于 10-08 14:26 ?5999次閱讀

    什么是決策樹?決策樹算法思考總結(jié)

    C4.5算法:基于ID3算法的改進(jìn),主要包括:使用信息增益率替換了信息增益下降度作為屬性選擇的標(biāo)準(zhǔn);在決策樹構(gòu)造的同時(shí)進(jìn)行剪枝操作;避免了
    的頭像 發(fā)表于 02-04 09:45 ?1.1w次閱讀
    什么是<b class='flag-5'>決策樹</b>?<b class='flag-5'>決策樹</b>算法思考總結(jié)

    如何使用最優(yōu)決策樹分類模型進(jìn)行奶牛運(yùn)動(dòng)行為的識(shí)別

    、陡峭程度、變異程度、不確定性及夾角的 24 個(gè)統(tǒng)計(jì)特征量,其次通過構(gòu)建 ROC(receiver operating characteristic,ROC)曲線獲得各統(tǒng)計(jì)特征量的最佳行為類別分組方式及最優(yōu)閾值,然后利用信息
    發(fā)表于 04-24 08:00 ?0次下載
    如何使用最優(yōu)<b class='flag-5'>二</b>叉<b class='flag-5'>決策樹</b><b class='flag-5'>分類</b>模型進(jìn)行奶牛運(yùn)動(dòng)行為的識(shí)別

    決策樹的構(gòu)成要素及算法

    決策樹種解決分類問題的算法,決策樹算法采用樹形結(jié)構(gòu),使用層層推理來(lái)實(shí)現(xiàn)最終的分類
    發(fā)表于 08-27 09:52 ?4353次閱讀

    決策樹的基本概念/學(xué)習(xí)步驟/算法/優(yōu)缺點(diǎn)

    本文將介紹決策樹的基本概念決策樹學(xué)習(xí)的3個(gè)步驟、3種典型的決策樹算法、決策樹的10
    發(fā)表于 01-27 10:03 ?2628次閱讀
    <b class='flag-5'>決策樹</b>的基本<b class='flag-5'>概念</b>/學(xué)習(xí)步驟/算法/優(yōu)缺點(diǎn)

    什么是決策樹模型,決策樹模型的繪制方法

    決策樹種解決分類問題的算法,本文將介紹什么是決策樹模型,常見的用途,以及如何使用“億圖圖示”軟件繪制決策樹模型。
    發(fā)表于 02-18 10:12 ?1.3w次閱讀
    什么是<b class='flag-5'>決策樹</b>模型,<b class='flag-5'>決策樹</b>模型的繪制方法

    基于非均衡數(shù)據(jù)分類的猶豫模糊決策樹

    2種不同的隸屬度函數(shù)對(duì)數(shù)據(jù)集進(jìn)行模糊化處理。在此基礎(chǔ)上,根據(jù)隸屬度函數(shù)和猶豫模糊集的信息能量求得各屬性的猶豫模糊信息增益,選取最大值替代Fuκzy⑩3算法中的模糊信息
    發(fā)表于 06-09 15:51 ?5次下載

    大數(shù)據(jù)—決策樹

    認(rèn)為是if-then的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布。 決策樹通常有三個(gè)步驟:特征選擇、決策樹的生成、決策樹的修剪。 用
    的頭像 發(fā)表于 10-20 10:01 ?1205次閱讀
    主站蜘蛛池模板: 狠狠色在在线视频观看| 亚洲精品乱码一区二区三区 | 国产精品一区二区AV97| 色欲AV色欲AV久久麻豆| 干极品美女| 外女思春台湾三级| 国产日韩成人内射视频| 亚洲高清国产拍精品动图| 黑丝美女被人操| 又粗又大又爽又黄的免费视频| 久久久久琪琪精品色| 1234成人网| 欧美阿v在线天堂| xxx粗大长欧美| 色尼玛亚洲综合| 国产精品久久久久久52AVAV| 亚洲成人免费在线| 精品一区二区三区色花堂| 中国大陆一级毛片免费| 蜜臀AV中文字幕熟女人妻| jizz中国女人| 丝袜诱惑qvod| 国内免费视频成人精品| 在线 中文字幕| 嫩草亚洲国产精品| 成人在无码AV在线观看一| 我与旗袍老师疯狂床震| 果冻传媒视频在线观看完整版免费 | 免费在线观看a视频| yellow在线观看免费直播| 私密按摩师在线观看 百度网盘| 国产色播视频在线观看| 精品久久久久中文字幕日本| 伊人久久精品99热超碰| 蜜臀AV99无码精品国产专区| 办公室日本肉丝OL在线| 午夜看片福利在线观看| 久久re这里视频只精品首页| 99re热视频这里只有精品| 日韩综合网| 好大好硬好爽好深好硬视频|