兩種關(guān)聯(lián)規(guī)則挖掘算法的介紹及其主要步驟的分析
推薦 + 挑錯(cuò) + 收藏(0) + 用戶(hù)評(píng)論(0)
關(guān)聯(lián)規(guī)則按照不同的標(biāo)準(zhǔn),能用各種不同的方法分成不同類(lèi)型。將關(guān)聯(lián)規(guī)則分為挖掘頻繁項(xiàng)集、閉頻繁項(xiàng)集、被約束頻繁項(xiàng)集、極大頻繁項(xiàng)集,是根據(jù)挖掘模式的完全性分類(lèi)的;將關(guān)聯(lián)規(guī)則分為多層和單層關(guān)聯(lián)規(guī)則,以及單位和多維關(guān)聯(lián)規(guī)則是根據(jù)規(guī)則所涉及的數(shù)據(jù)進(jìn)行分類(lèi)的;將關(guān)聯(lián)規(guī)則分為量化關(guān)聯(lián)規(guī)則和挖掘布爾型規(guī)則是根據(jù)規(guī)則處理值類(lèi)型分類(lèi)的;將關(guān)聯(lián)規(guī)則分為序列模式挖掘、頻繁項(xiàng)集挖掘以及結(jié)構(gòu)模式挖掘是根據(jù)俄關(guān)聯(lián)規(guī)則挖掘模式進(jìn)行分類(lèi)的;將關(guān)聯(lián)規(guī)則分為興趣度約束、知識(shí)類(lèi)型約束、數(shù)據(jù)約束,是根據(jù)規(guī)則所挖掘的約束類(lèi)型分類(lèi)的。
關(guān)聯(lián)規(guī)則挖掘算法分析
1 Apriori 算法分析
關(guān)聯(lián)規(guī)則算法中的挖掘完全頻繁項(xiàng)集中,Apriori 算法該類(lèi)型中最具有應(yīng)用價(jià)值,影響力最大的算法。
Apriori 算法主要有兩個(gè)步驟:
(1)發(fā)現(xiàn)所有的頻繁集;
(2)生成強(qiáng)關(guān)聯(lián)規(guī)則。
在 Apriori 算法中的第一步是最為重要的步驟,該算法的核心思路是,給定一個(gè)數(shù)據(jù)庫(kù),在第一次數(shù)據(jù)庫(kù)掃描中找出所有支持度大于等于最小支持度的項(xiàng)目組成頻繁 1—項(xiàng)集,也就是 L1,1—項(xiàng)集 C1,由 L1進(jìn)行連接得到;接著進(jìn)行第二次數(shù)據(jù)庫(kù)掃描,將 C1中所有支持度大于等于最小支持度的項(xiàng)集組成頻繁 2—項(xiàng)集,也就是 L2,候選 2—項(xiàng)集 C2由 L2連接得到。以此類(lèi)推,直到找出最大項(xiàng)頻繁集。即在進(jìn)行第 N 次數(shù)據(jù)庫(kù)掃描時(shí),找出 CN-1中所有支持度大于等于最小支持度的項(xiàng)集組成頻繁N—項(xiàng)集,即是 LN,N—項(xiàng)集 CN要由 LN連接得出,一直到找不出新的選集為止。在這里還要用到 Apriori 算法性質(zhì),即是頻繁項(xiàng)集是頻繁項(xiàng)集的子集,非頻繁項(xiàng)集是非頻繁項(xiàng)集的超集。在 Apriori 算法中對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù)需要大于最大頻繁項(xiàng)集的項(xiàng)數(shù)。
非常好我支持^.^
(1) 100%
不好我反對(duì)
(0) 0%