色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

想深度構(gòu)建用戶畫像?掌握關(guān)聯(lián)分析必不可少

格創(chuàng)東智 ? 2019-04-28 19:08 ? 次閱讀

無(wú)論是提供商品還是服務(wù),用戶畫像都是數(shù)據(jù)挖掘工作的重要一環(huán)。一個(gè)準(zhǔn)確和完整的用戶畫像甚至可以說是許多互聯(lián)網(wǎng)公司賴以生存的寶貴財(cái)富。


我們也已經(jīng)聽過了無(wú)數(shù)用戶畫像的神奇功能和成功案例,比如亞馬遜、淘寶的機(jī)器學(xué)習(xí)團(tuán)隊(duì)使用用戶的瀏覽行為、購(gòu)物車狀態(tài)和購(gòu)買記錄開發(fā)關(guān)聯(lián)推薦系統(tǒng),使點(diǎn)擊率和銷量大幅提升;比如應(yīng)用市場(chǎng)根據(jù)過往APP安裝記錄記對(duì)每個(gè)使用者進(jìn)行精準(zhǔn)推薦;再比如音樂,圖書和新聞網(wǎng)站通過協(xié)同過濾的方式為用戶呈現(xiàn)個(gè)性化的定制內(nèi)容。要做到這些,就必須對(duì)用戶的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,得到精準(zhǔn)的推薦算法


今天的格物匯,就帶大家來了解關(guān)聯(lián)分析理論和經(jīng)典的Apriori算法。

關(guān)聯(lián)分析

關(guān)聯(lián)分析是數(shù)據(jù)挖掘中一項(xiàng)基礎(chǔ)又重要的技術(shù),是一種在大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)變量之間有趣關(guān)系的方法,能從數(shù)據(jù)中挖掘出潛在的關(guān)聯(lián)關(guān)系。或者說,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系。比如,在著名的購(gòu)物籃事務(wù)(market basket transactions)問題中,用戶在超市里購(gòu)物數(shù)據(jù)如下:


IDItems
1牛奶,面包
2面包,尿布,啤酒,雞蛋
3面包,尿布,啤酒,可樂
4牛奶,面包,尿布,啤酒
5牛奶,面包,可樂,雞蛋


關(guān)聯(lián)分析則被用來找出此類規(guī)則:顧客在買了某種商品時(shí)也會(huì)買另一種商品。在上述例子中,有的關(guān)聯(lián)規(guī)則是很容易理解的比如:{牛奶}→{面包},此外我們還會(huì)挖掘出另外的某些規(guī)則: {尿布} → {啤酒};即顧客在買完尿布之后通常會(huì)買啤酒。后來通過調(diào)查分析,原來妻子囑咐丈夫給孩子買尿布時(shí),丈夫在買完尿布后通常會(huì)買自己喜歡的啤酒。


但是,如何衡量這種關(guān)聯(lián)規(guī)則是否靠譜呢?我們需要如下指標(biāo)來衡量。


支持度和置信度

我們想找出這樣的規(guī)律需要從兩個(gè)方面考慮:這個(gè)規(guī)律中的兩個(gè)商品頻繁出現(xiàn),兩個(gè)商品關(guān)聯(lián)出現(xiàn)的概率較大。如果兩個(gè)商品不是頻繁出現(xiàn)的,那么有可能是小眾群體的個(gè)別需求。我們把兩個(gè)商品一起出現(xiàn)的概率稱為支持度。


如果有一個(gè)商品A出現(xiàn)的非常頻繁比如90%,而另一個(gè)商品B雖然跟A一起出現(xiàn)的概率很大,但是概率大的原因是A出現(xiàn)的太頻繁了,這也不能反映出其關(guān)聯(lián)關(guān)系,我們把A出現(xiàn)B則出現(xiàn)的條件概率稱為置信度

圖片 1.png


Apriori算法

Apriori算法就是為了快速的找到數(shù)據(jù)中關(guān)聯(lián)的頻繁集,我們用一個(gè)具體的案例來看看吧:假設(shè)我們有4種商品:商品0,商品1,商品2和商品3。那么所有可能被一起購(gòu)買的商品組合都有哪些?這些商品組合可能只有一種商品,比如商品0,也可能包括兩種、三種或者所有四種商品。我們并不關(guān)心某人買了兩件商品0以及四件商品2的情況,我們只關(guān)心他購(gòu)買了一種或多種商品。我們可以窮舉出該顧客購(gòu)買商品所有可能的組合:


圖片 2.png


一個(gè)簡(jiǎn)單粗暴的求解方法是:我們?cè)O(shè)定支持度和置信度的閾值——min_sup,min_cof,并算出每一個(gè)可能組合的支持度和置信度,把滿足要求的組合篩選出來。如果我們的商品很多,這個(gè)方法的計(jì)算量將呈指數(shù)的增長(zhǎng),是很難實(shí)現(xiàn)的。

定理:如果一個(gè)項(xiàng)集是頻繁的,那么其所有的子集(subsets)也一定是頻繁的。

這個(gè)定理顯而易見,假如{A,B,C}出現(xiàn)的概率大,那么{A,B},{C},出現(xiàn)的概率肯定也很大。這看上去沒什么用,其實(shí)它的逆反定理更有用。

逆反定理:如果一個(gè)項(xiàng)集是非頻繁的,那么其所有的超集(supersets)也一定是非頻繁的。

假如{A}出現(xiàn)的概率很小,那么{A,C},{A,B,C}出現(xiàn)的概率肯定也很小。根據(jù)這個(gè)逆反定理,我們可以排除很多不必要的計(jì)算。


圖片 3.png

比如我們發(fā)現(xiàn){2,3}是非頻繁的,那么{0,2,3},{1,2,3},{0,1,2,3}肯定都是非頻繁的。就可以大大減少我們計(jì)算的復(fù)雜度。


Apriori算法流程

Apriori算法的目標(biāo)是找到最大的K項(xiàng)頻繁集,這里有兩層意思,首先,我們要找到符合支持度標(biāo)準(zhǔn)的頻繁集。但是這樣的頻繁集可能有很多。當(dāng)然我們可以根據(jù)上面的逆反定理減少頻繁集的計(jì)算范圍,第二層意思就是我們要找到最大個(gè)數(shù)的頻繁集。比如我們找到符合支持度的頻繁集AB和ABE,那么我們會(huì)拋棄AB,只保留ABE,因?yàn)锳B是2項(xiàng)頻繁集,而ABE是3項(xiàng)頻繁集。那么具體的,Apriori算法是如何做到挖掘K項(xiàng)頻繁集的呢?我們可以看下面這個(gè)圖:


圖片 4.png


Apriori算法采用了迭代的方法,線設(shè)定支持度的閾值0.5,先搜索出候選1項(xiàng)集及對(duì)應(yīng)的支持度C1,剪枝去掉低于支持度的1項(xiàng)集,也就是圖C1中的{4},得到頻繁1項(xiàng)集L1。然后對(duì)剩下的頻繁1項(xiàng)集進(jìn)行連接,得到候選的頻繁2項(xiàng)集,篩選去掉低于支持度的候選頻繁2項(xiàng)集C2,也就是圖中C2的{1,2}和{1,5},得到真正的頻繁二項(xiàng)集L2,以此類推,迭代下去,直到無(wú)法找到頻繁k+1項(xiàng)集為止,對(duì)應(yīng)的頻繁k項(xiàng)集的集合即為算法的輸出結(jié)果。也就是用戶的購(gòu)物籃中,商品2,商品3,商品5常常一起購(gòu)買。

總而言之,Apriori算法是一個(gè)非常經(jīng)典的頻繁項(xiàng)集的挖掘算法,很多算法都借用了其算法的思想,并做出了改進(jìn),我們也將在格物匯之后的文章中進(jìn)行分享。


本文作者:格創(chuàng)東智OT團(tuán)隊(duì)(轉(zhuǎn)載請(qǐng)注明作者及來源)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    微電網(wǎng)協(xié)調(diào)控制器-虛擬電廠

    微電網(wǎng)協(xié)調(diào)控制器:微電網(wǎng)系統(tǒng)的智慧引擎,虛擬電廠必不可少
    的頭像 發(fā)表于 12-20 14:53 ?183次閱讀
    微電網(wǎng)協(xié)調(diào)控制器-虛擬電廠

    VirtualLab:系統(tǒng)建模分析

    的大多數(shù)通常在特定的域中工作,這意味著域之間的不斷往返對(duì)于精確和快速的仿真是必不可少的。為了向光學(xué)工程師提供光場(chǎng)在系統(tǒng)中傳播時(shí)的不同階段的全面概述,VirtualLab Fusion配備了一個(gè)強(qiáng)大的工具
    發(fā)表于 12-19 12:36

    IP風(fēng)險(xiǎn)畫像詳細(xì)接入規(guī)范、API參數(shù)(Ipdatacloud)

    IP數(shù)據(jù)云的IP風(fēng)險(xiǎn)畫像是基于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)的產(chǎn)品。工作原理是對(duì)IP地址的多維度數(shù)據(jù)進(jìn)行綜合分析,進(jìn)而為企業(yè)提供全面的IP風(fēng)險(xiǎn)評(píng)估和畫像。? IP風(fēng)險(xiǎn)
    的頭像 發(fā)表于 11-15 11:11 ?292次閱讀
    IP風(fēng)險(xiǎn)<b class='flag-5'>畫像</b>詳細(xì)接入規(guī)范、API參數(shù)(Ipdatacloud)

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?219次閱讀
    Pytorch<b class='flag-5'>深度</b>學(xué)習(xí)訓(xùn)練的方法

    IP風(fēng)險(xiǎn)畫像如何維護(hù)網(wǎng)絡(luò)安全

    在當(dāng)今數(shù)字化時(shí)代,互聯(lián)網(wǎng)已成為我們生活、工作不可或缺的一部分。然而,隨著網(wǎng)絡(luò)應(yīng)用的日益廣泛,網(wǎng)絡(luò)安全問題也日益凸顯。為了有效應(yīng)對(duì)網(wǎng)絡(luò)安全挑戰(zhàn),IP風(fēng)險(xiǎn)畫像技術(shù)應(yīng)運(yùn)而生,正逐步成為構(gòu)建網(wǎng)絡(luò)安全新防線
    的頭像 發(fā)表于 09-04 14:43 ?313次閱讀

    時(shí)序邏輯電路必不可少的部分是什么

    時(shí)序邏輯電路必不可少的部分是 存儲(chǔ)電路 ,這一結(jié)論主要基于時(shí)序邏輯電路的基本工作原理和特性。存儲(chǔ)電路在時(shí)序邏輯電路中扮演著至關(guān)重要的角色,它使得電路能夠存儲(chǔ)和記憶之前的狀態(tài)信息,并在需要時(shí)根據(jù)這些
    的頭像 發(fā)表于 08-28 14:12 ?497次閱讀

    思科設(shè)備常用的巡檢命令介紹

    思科(Cisco)設(shè)備在網(wǎng)絡(luò)領(lǐng)域具有廣泛的應(yīng)用,其可靠性和功能強(qiáng)大使其成為許多企業(yè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的核心。然而,確保這些設(shè)備始終高效運(yùn)行,定期進(jìn)行巡檢是必不可少的。這篇文章將詳細(xì)介紹思科設(shè)備巡檢中常用的命令,幫助網(wǎng)絡(luò)管理員了解并掌握這些工具。
    的頭像 發(fā)表于 08-12 18:16 ?631次閱讀

    混合冷卻在數(shù)據(jù)中心中仍將是必不可少的#混合冷卻

    數(shù)據(jù)中心
    深圳崧皓電子
    發(fā)布于 :2024年08月06日 06:58:06

    虛擬負(fù)載是電子學(xué)和無(wú)線電通信中必不可少的設(shè)備

    無(wú)線電通信
    深圳崧皓電子
    發(fā)布于 :2024年06月26日 06:48:26

    折彎?rùn)C(jī)作業(yè)中必不可少的安全防護(hù)

    保護(hù)裝置
    jf_18500570
    發(fā)布于 :2024年04月12日 10:47:27

    精密空調(diào)部件的日常保養(yǎng)與維護(hù)

    為了確保精密空調(diào)的穩(wěn)定運(yùn)行和高效能,延長(zhǎng)精密空調(diào)使用壽命,日常保養(yǎng)與維護(hù)是必不可少的。
    的頭像 發(fā)表于 03-06 00:01 ?1327次閱讀
    精密空調(diào)部件的日常保養(yǎng)與維護(hù)

    嵌入式工程師需要掌握哪些技術(shù)?

    系統(tǒng)開發(fā)的基礎(chǔ)。你需要了解數(shù)字電路、模擬電路、傳感器和執(zhí)行器的工作原理。此外,對(duì)于處理器架構(gòu)、總線協(xié)議和存儲(chǔ)器管理等概念的理解也是必不可少的。 3. 操作系統(tǒng):嵌入式系統(tǒng)通常需要運(yùn)行一個(gè)實(shí)時(shí)操作系統(tǒng)
    發(fā)表于 03-04 16:38

    arcgis中如何關(guān)聯(lián)兩個(gè)屬性表

    在ArcGIS中,關(guān)聯(lián)兩個(gè)屬性表是一個(gè)重要的操作,可以通過此操作將兩個(gè)表中的數(shù)據(jù)關(guān)聯(lián)起來,以便進(jìn)行分析和查詢。下面是詳細(xì)介紹如何在ArcGIS中實(shí)現(xiàn)屬性表的關(guān)聯(lián)。 首先,我們需要明確兩
    的頭像 發(fā)表于 02-25 11:01 ?4292次閱讀

    數(shù)據(jù)采集分析系統(tǒng)為工業(yè)物聯(lián)網(wǎng)系統(tǒng)提供多種智能應(yīng)用

    在這個(gè)工業(yè)4.0的時(shí)代大背景之下,工業(yè)物聯(lián)網(wǎng)成為數(shù)字化轉(zhuǎn)型的重要組成部分。數(shù)據(jù)是關(guān)聯(lián)設(shè)備資產(chǎn)和生產(chǎn)過程的重要信息,在工廠發(fā)展中實(shí)現(xiàn)智能應(yīng)用與分析中是必不可少的,能夠幫助提高生產(chǎn)效率、降低生產(chǎn)成本和能耗成本,提升單位時(shí)間產(chǎn)值,進(jìn)而
    的頭像 發(fā)表于 01-20 11:00 ?581次閱讀

    追求卓越制造,ECRS工時(shí)分析必不可少!#工時(shí)分析

    軟件
    VIOOVI
    發(fā)布于 :2024年01月10日 10:31:14
    主站蜘蛛池模板: 亚洲精品久久久午夜福利电影网| 久久极品视频| 九九热精品视频在线观看| 欧美2019高清hd巨大| 亚欧洲乱码视频一二三区| 99久久国内精品成人免费| 国产在线亚洲精品观| 日本精品卡一卡2卡3卡四卡三卡| 一区二区中文字幕在线观看 | 中文字幕国产视频| 国产精品爽爽久久久久久蜜桃 | 日本边添边摸边做边爱边| 在教室伦流澡到高潮H女攻视频| 国产精品伦一区二区三级视频| 欧美一级情欲片在线| 用快播看黄的网站| 国产在线亚洲v天堂a| 乳液全集电影在线观看| 999视频在线观看| 久久re视频这里精品一本到99| 无码人妻少妇色欲AV一区二区| YELLOW视频在线观看免费版高清 | 九九热国产视频| 亚洲 欧美 国产 综合 在线| 刺激一区仑乱| 欧美z000z猪| 中文字幕无码乱人伦蜜桃| 交换年轻夫妇HD中文字幕| 无码人妻丰满熟妇区五十路久久| 成人 迅雷下载| 欧美猛男gaygayxxgv| 18日本人XXXXXX18| 久久re6热在线视频精品66| 亚洲国产在线综合018| 国产精品高清m3u8在线播放| 日本色高清| 被送到黑人性奴俱乐部| 嗯啊快拔出来我是你老师视频| 中文字幕午夜福利片| 久久国产香蕉视频| 亚洲青青草|