色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

想深度構建用戶畫像?掌握關聯分析必不可少

格創東智 ? 2019-04-28 19:08 ? 次閱讀

無論是提供商品還是服務,用戶畫像都是數據挖掘工作的重要一環。一個準確和完整的用戶畫像甚至可以說是許多互聯網公司賴以生存的寶貴財富。


我們也已經聽過了無數用戶畫像的神奇功能和成功案例,比如亞馬遜、淘寶的機器學習團隊使用用戶的瀏覽行為、購物車狀態和購買記錄開發關聯推薦系統,使點擊率和銷量大幅提升;比如應用市場根據過往APP安裝記錄記對每個使用者進行精準推薦;再比如音樂,圖書和新聞網站通過協同過濾的方式為用戶呈現個性化的定制內容。要做到這些,就必須對用戶的數據進行關聯分析,得到精準的推薦算法


今天的格物匯,就帶大家來了解關聯分析理論和經典的Apriori算法。

關聯分析

關聯分析是數據挖掘中一項基礎又重要的技術,是一種在大型數據庫中發現變量之間有趣關系的方法,能從數據中挖掘出潛在的關聯關系。或者說,關聯分析是發現交易數據庫中不同商品(項)之間的聯系。比如,在著名的購物籃事務(market basket transactions)問題中,用戶在超市里購物數據如下:


IDItems
1牛奶,面包
2面包,尿布,啤酒,雞蛋
3面包,尿布,啤酒,可樂
4牛奶,面包,尿布,啤酒
5牛奶,面包,可樂,雞蛋


關聯分析則被用來找出此類規則:顧客在買了某種商品時也會買另一種商品。在上述例子中,有的關聯規則是很容易理解的比如:{牛奶}→{面包},此外我們還會挖掘出另外的某些規則: {尿布} → {啤酒};即顧客在買完尿布之后通常會買啤酒。后來通過調查分析,原來妻子囑咐丈夫給孩子買尿布時,丈夫在買完尿布后通常會買自己喜歡的啤酒。


但是,如何衡量這種關聯規則是否靠譜呢?我們需要如下指標來衡量。


支持度和置信度

我們想找出這樣的規律需要從兩個方面考慮:這個規律中的兩個商品頻繁出現,兩個商品關聯出現的概率較大。如果兩個商品不是頻繁出現的,那么有可能是小眾群體的個別需求。我們把兩個商品一起出現的概率稱為支持度


如果有一個商品A出現的非常頻繁比如90%,而另一個商品B雖然跟A一起出現的概率很大,但是概率大的原因是A出現的太頻繁了,這也不能反映出其關聯關系,我們把A出現B則出現的條件概率稱為置信度

圖片 1.png


Apriori算法

Apriori算法就是為了快速的找到數據中關聯的頻繁集,我們用一個具體的案例來看看吧:假設我們有4種商品:商品0,商品1,商品2和商品3。那么所有可能被一起購買的商品組合都有哪些?這些商品組合可能只有一種商品,比如商品0,也可能包括兩種、三種或者所有四種商品。我們并不關心某人買了兩件商品0以及四件商品2的情況,我們只關心他購買了一種或多種商品。我們可以窮舉出該顧客購買商品所有可能的組合:


圖片 2.png


一個簡單粗暴的求解方法是:我們設定支持度和置信度的閾值——min_sup,min_cof,并算出每一個可能組合的支持度和置信度,把滿足要求的組合篩選出來。如果我們的商品很多,這個方法的計算量將呈指數的增長,是很難實現的。

定理:如果一個項集是頻繁的,那么其所有的子集(subsets)也一定是頻繁的。

這個定理顯而易見,假如{A,B,C}出現的概率大,那么{A,B},{C},出現的概率肯定也很大。這看上去沒什么用,其實它的逆反定理更有用。

逆反定理:如果一個項集是非頻繁的,那么其所有的超集(supersets)也一定是非頻繁的。

假如{A}出現的概率很小,那么{A,C},{A,B,C}出現的概率肯定也很小。根據這個逆反定理,我們可以排除很多不必要的計算。


圖片 3.png

比如我們發現{2,3}是非頻繁的,那么{0,2,3},{1,2,3},{0,1,2,3}肯定都是非頻繁的。就可以大大減少我們計算的復雜度。


Apriori算法流程

Apriori算法的目標是找到最大的K項頻繁集,這里有兩層意思,首先,我們要找到符合支持度標準的頻繁集。但是這樣的頻繁集可能有很多。當然我們可以根據上面的逆反定理減少頻繁集的計算范圍,第二層意思就是我們要找到最大個數的頻繁集。比如我們找到符合支持度的頻繁集AB和ABE,那么我們會拋棄AB,只保留ABE,因為AB是2項頻繁集,而ABE是3項頻繁集。那么具體的,Apriori算法是如何做到挖掘K項頻繁集的呢?我們可以看下面這個圖:


圖片 4.png


Apriori算法采用了迭代的方法,線設定支持度的閾值0.5,先搜索出候選1項集及對應的支持度C1,剪枝去掉低于支持度的1項集,也就是圖C1中的{4},得到頻繁1項集L1。然后對剩下的頻繁1項集進行連接,得到候選的頻繁2項集,篩選去掉低于支持度的候選頻繁2項集C2,也就是圖中C2的{1,2}和{1,5},得到真正的頻繁二項集L2,以此類推,迭代下去,直到無法找到頻繁k+1項集為止,對應的頻繁k項集的集合即為算法的輸出結果。也就是用戶的購物籃中,商品2,商品3,商品5常常一起購買。

總而言之,Apriori算法是一個非常經典的頻繁項集的挖掘算法,很多算法都借用了其算法的思想,并做出了改進,我們也將在格物匯之后的文章中進行分享。


本文作者:格創東智OT團隊(轉載請注明作者及來源)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    DLP6500調用API進行自主二次開發,怎么構建開發環境?

    請問一下,我購置了DLP6500型號產品,利用該產品進行開發,實現高速投影的功能。 但是我現在只找到了GUI界面,請問一下,如果我調用API進行自主二次開發,怎么構建開發環境? 最好有相關的技術指導文件,謝謝。
    發表于 03-03 07:03

    DevEco Studio構建分析工具Build Analyzer 為原生鴻蒙應用開發提速

    Analyzer構建分析工具,該工具可顯示編譯構建過程的重要信息,可視化分析排查構建過程中的性能問題,從而提升
    發表于 02-17 18:06

    模擬電路分析技巧

    在現代電子技術中,模擬電路扮演著至關重要的角色。它們不僅用于信號放大、濾波和轉換,還廣泛應用于傳感器接口和功率管理等領域。掌握模擬電路分析技巧對于電子工程師來說是必不可少的。 1. 理解電路原理 在
    的頭像 發表于 01-24 09:24 ?273次閱讀

    混合信號分析儀的原理和應用場景

    故障的原因和位置,提高故障排除的速度。 科研與教育:混合信號分析儀也是重要的實驗工具,可以幫助研究人員和學生深入了解電子信號的特性和分析方法,促進電子技術的發展和創新。 綜上所述,混合信號分析儀在電子測量領域具有廣泛的應用價值和
    發表于 01-21 16:45

    VirtualLab:系統建模分析

    的大多數通常在特定的域中工作,這意味著域之間的不斷往返對于精確和快速的仿真是必不可少的。為了向光學工程師提供光場在系統中傳播時的不同階段的全面概述,VirtualLab Fusion配備了一個強大的工具
    發表于 01-14 09:45

    VirtualLab Fusion:系統建模分析

    的大多數通常在特定的域中工作,這意味著域之間的不斷往返對于精確和快速的仿真是必不可少的。為了向光學工程師提供光場在系統中傳播時的不同階段的全面概述,VirtualLab Fusion配備了一個強大的工具
    發表于 01-04 08:45

    微電網協調控制器-虛擬電廠

    微電網協調控制器:微電網系統的智慧引擎,虛擬電廠必不可少
    的頭像 發表于 12-20 14:53 ?412次閱讀
    微電網協調控制器-虛擬電廠

    VirtualLab:系統建模分析

    的大多數通常在特定的域中工作,這意味著域之間的不斷往返對于精確和快速的仿真是必不可少的。為了向光學工程師提供光場在系統中傳播時的不同階段的全面概述,VirtualLab Fusion配備了一個強大的工具
    發表于 12-19 12:36

    IP風險畫像詳細接入規范、API參數(Ipdatacloud)

    IP數據云的IP風險畫像是基于數據分析和機器學習技術的產品。工作原理是對IP地址的多維度數據進行綜合分析,進而為企業提供全面的IP風險評估和畫像。? IP風險
    的頭像 發表于 11-15 11:11 ?471次閱讀
    IP風險<b class='flag-5'>畫像</b>詳細接入規范、API參數(Ipdatacloud)

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發表于 10-28 14:05 ?336次閱讀
    Pytorch<b class='flag-5'>深度</b>學習訓練的方法

    IP風險畫像如何維護網絡安全

    在當今數字化時代,互聯網已成為我們生活、工作不可或缺的一部分。然而,隨著網絡應用的日益廣泛,網絡安全問題也日益凸顯。為了有效應對網絡安全挑戰,IP風險畫像技術應運而生,正逐步成為構建網絡安全新防線
    的頭像 發表于 09-04 14:43 ?380次閱讀

    時序邏輯電路必不可少的部分是什么

    時序邏輯電路必不可少的部分是 存儲電路 ,這一結論主要基于時序邏輯電路的基本工作原理和特性。存儲電路在時序邏輯電路中扮演著至關重要的角色,它使得電路能夠存儲和記憶之前的狀態信息,并在需要時根據這些
    的頭像 發表于 08-28 14:12 ?643次閱讀

    混合冷卻在數據中心中仍將是必不可少的#混合冷卻

    數據中心
    深圳崧皓電子
    發布于 :2024年08月06日 06:58:06

    虛擬負載是電子學和無線電通信中必不可少的設備

    無線電通信
    深圳崧皓電子
    發布于 :2024年06月26日 06:48:26

    折彎機作業中必不可少的安全防護

    保護裝置
    jf_18500570
    發布于 :2024年04月12日 10:47:27
    主站蜘蛛池模板: 欧美成人猛片aaaaaaa | 爱穿丝袜的麻麻3d漫画免费 | 国模大胆一区二区三区 | 国产精品99久久久久久人韩国 | 动漫AV纯肉无码AV电影网 | 一本道无码v亚洲 | 麻豆一二三四区乱码 | 亚洲 欧美 国产 综合五月天 | 欧美伊人久久大香线蕉综合69 | 男人扒开添女人下部口述 | 啊…嗯啊好深男男高h文 | 中文人妻熟妇精品乱又伦 | 男女性杂交内射妇女BBWXZ | 牛牛在线1视频 | 寂寞夜晚视频高清观看免费 | 高清无码中文字幕在线观看视频 | 6080yy亚洲久久无码 | 国产一区二区波多野结衣 | 精品亚洲AV无码蜜芽麻豆 | 暖暖 日本 视频 在线观看免费 | 久久综合中文字幕佐佐木希 | 九九精品久久 | 国产AV国产精品国产三级在线L | 亚洲欧美精品无码一区二在线 | 被肉日常np快穿高h 被肉日常np高h | 好男人好资源视频高清 | 青柠电影高清在线观看 | 国产午夜精品久久理论片小说 | 色宅男看片午夜大片免费看 | 成人免费网址在线 | 美国xaxwaswaskino 美国VICTORY DAY在线 | 涩涩在线观看免费视频 | 666永久视频在线 | 成人网络电视破解版 | 91chinesevideo| 国产午夜亚洲精品一区 | 精品成人片深夜 | 伊人久久五月丁婷婷 | 国产精品美女久久久久AV超清 | 野花香在线观看免费观看大全动漫 | 韩国伦理电影在线神马网 |