




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則2024/3/28數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。從大量商務(wù)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定,如分類設(shè)計、交叉購物和賤賣分析。關(guān)聯(lián)規(guī)則挖掘的一個典型的例子是購物籃分析。第六章挖掘大型數(shù)據(jù)庫中的
關(guān)聯(lián)規(guī)則數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第一節(jié)關(guān)聯(lián)規(guī)則挖掘顧客1顧客4顧客3顧客2牛奶面包谷類牛奶面包糖雞旦牛奶面包黃油糖雞旦市場分析員1、購物籃分析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則問題:什么商品組或集合顧客多半會在一次購物時同時購買?回答:需要分析商店的顧客事務(wù)零售數(shù)據(jù),并在其上運行購物籃分析。分析的結(jié)果可以用于市場規(guī)劃、廣告策劃、分類設(shè)計。例如,購物籃分析可以幫助經(jīng)理設(shè)計不同的商店布局,以及規(guī)劃什么商品降價。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則1、購物籃分析策略一:經(jīng)常購買的商品可以放近一些,以便進一步刺激這些商品一起銷售。策略二:將經(jīng)常購買的商品放在商店的兩端,可能誘發(fā)買這些商品的顧客一路挑選其他商品。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則1、購物籃分析可以想象全域是商店中可利用的商品的集合,則每鐘商品有一個布爾變量,表示該商品的有無。每個籃子可以用一個布爾向量表示??梢苑治霾紶栂蛄浚玫椒从成唐奉l繁關(guān)聯(lián)或同時購買的購買模式。這些模式可以用關(guān)聯(lián)規(guī)則的形式表示:第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則1、購物籃分析規(guī)則的支持度和置信度是兩個規(guī)則興趣度度量,反映規(guī)則的有用性和確定性,上述規(guī)則的支持度2%意味分析中的全部事務(wù)的2%同時購買計算機和操作系統(tǒng)軟件。置信度60%意味購買計算機的顧客60%也購買操作系統(tǒng)軟件。關(guān)聯(lián)規(guī)則被認為是有趣的,如果它滿足最小支持度閾值和最小置信度閾值。這些閾值可由用戶和領(lǐng)域?qū)<以O(shè)定。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則2、基本概念設(shè)I={i1,i2,…,im}是項的集合,。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)T是項的集合,使得TI。每一個事務(wù)有一個標識符TID。設(shè)A是一個項集,事務(wù)T包含A,當且僅當AT。關(guān)聯(lián)規(guī)則是形如AB的蘊涵式,其中AI,BI,且AB=?。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則2、基本概念項的集合稱為項集,包含K個項的項集稱為K-項集。集合{computer,software}是一個2-項集。項集的出現(xiàn)頻率是包含項集的事務(wù)數(shù)簡稱為頻率、支持計數(shù)或計數(shù)。項集滿足最小支持度,若項集的出現(xiàn)頻率大于或等于最小支持度與D中事務(wù)總數(shù)的乘積。如果項集滿足最小支持度,則稱它為頻繁項集。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則2、基本概念關(guān)聯(lián)規(guī)則的挖掘包含兩個基本步驟:找出所有頻繁項集:這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計數(shù)一樣。由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則:這些規(guī)則必須滿足最小支持度和最小置信度。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)規(guī)則挖掘的分類標準購物籃分析只是關(guān)聯(lián)規(guī)則挖掘的一種形式。根據(jù)下列標準,關(guān)聯(lián)規(guī)則有多種分類方法:根據(jù)規(guī)則中所處理的值的類型:若規(guī)則考慮項的在與不在,則它是布爾關(guān)聯(lián)規(guī)則;若規(guī)則描述的是量化的項或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。如,下列為一個量化關(guān)聯(lián)規(guī)則:第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)規(guī)則挖掘的分類標準根據(jù)規(guī)則中涉及的數(shù)據(jù)維:若關(guān)聯(lián)規(guī)則中的項或?qū)傩悦總€只涉及一個維,則它是單維關(guān)聯(lián)規(guī)則;若關(guān)聯(lián)規(guī)則涉及兩個或多個維,則它是多維關(guān)聯(lián)規(guī)則。如第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)規(guī)則挖掘的分類標準根據(jù)規(guī)則集所涉及的抽象層:有些挖掘關(guān)聯(lián)規(guī)則的方法可以在不同的抽象層發(fā)現(xiàn)規(guī)則。如,第一節(jié)關(guān)聯(lián)規(guī)則挖掘購買的商品涉及不同的抽象層,稱所挖掘的規(guī)則集由多層關(guān)聯(lián)規(guī)則組成。否則,規(guī)則只涉及單一抽象層的項或?qū)傩?,則該集合包含單層關(guān)聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)規(guī)則挖掘的分類標準根據(jù)關(guān)聯(lián)規(guī)則的各種擴充:關(guān)聯(lián)規(guī)則可以擴充到相關(guān)分析,以識別項是否相關(guān)。用最大模式(最大的頻繁模式)或頻繁閉項集顯著壓縮挖掘所產(chǎn)生的頻繁項集數(shù)。第一節(jié)關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則1、Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,通過侯選項集找頻繁項集?;舅悸罚篈priori使用一種稱作逐層搜索的迭代方法,K-項集用于探索(K+1)-項集。首先,找出頻繁1-項集的集合,記為L1;L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到找到頻繁K-項集。找每個LK需要一次數(shù)據(jù)庫掃描。其過程包括:連接和剪枝兩個方面。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則1、Apriori算法例如,設(shè)已有包含9個事務(wù)的事務(wù)數(shù)據(jù)庫,即|D|=9,各事務(wù)按字典次序存放,設(shè)最小事務(wù)支持度計數(shù)為2。TID項ID的列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則1、Apriori算法項集支持度計數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項集支持度計數(shù){I1}6{I2}7{I3}6{I4}2{I5}2侯選集C1頻繁集L1掃描D,對每個侯選1-項集計數(shù)比較侯選支持度計數(shù)與最小支持度計數(shù)設(shè)最小事務(wù)支持度計數(shù)為2,2/9=22%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則1、Apriori算法項集{I1,I2}{I1,I3}{I1,I4}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I3,I4}{I3,I5}{I4,I5}由L1產(chǎn)生侯選2-項集C2掃描D,對每個侯選2-項集計數(shù)C2項集支持度計數(shù){I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I4}0{I3,I5}1{I4,I5}0數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則1、Apriori算法由L2L2比較侯選支持度計數(shù)與最小支持度計數(shù),得到頻繁項集L2項集支持度計數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2項集{I1,I2,I3}{I1,I2,I5}{I1,I3,I5}{I2,I3,I4}{I2,I3,I5}{I2,I4,I5}數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則1、Apriori算法掃描D,對每個侯選3-項集計數(shù)C3由L2產(chǎn)生侯選3-項集C3項集{I1,I2,I3}{I1,I2,I5}項集支持度計數(shù){I1,I2,I3}2{I1,I2,I5}2比較侯選支持度計數(shù)與最小支持度計數(shù),得到L3項集支持度計數(shù){I1,I2,I3}2{I1,I2,I5}2由于L3L3產(chǎn)生的C4={{I1,I2,I3,I5}}的子集{I2,I3,I5}不是頻繁的,所以C4=?,算法終止。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則2、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則一旦由數(shù)據(jù)庫D中的事務(wù)找出頻繁項集,由它們可以產(chǎn)生強關(guān)聯(lián)規(guī)則(滿足最小支持度和最小置信度)。對于置信度,可以用項集支持度計數(shù)表示:其中,Support_count(A
B)是包含項集A
B的事務(wù)數(shù),Support_count(A)是包含項集A的事務(wù)數(shù)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則2、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則可以產(chǎn)生關(guān)聯(lián)規(guī)則如下:對于每個頻繁集l,產(chǎn)生l的所有非空子集;對于l的每個非空子集s;若則輸出規(guī)則:s(l-s)。其中min_confidence是最小置信度閾值。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則2、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則例如,按照前例的事務(wù)數(shù)據(jù)庫,設(shè)數(shù)據(jù)包含頻繁項集l={I1,I2,I5},則l的非空子集有:{I1,I2},{I1,I5},{I2,I5},{I1},{I2},{I5}??傻玫疥P(guān)聯(lián)規(guī)則如:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則2、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則如果最小置信度預(yù)值為70%,則規(guī)則2、3和6可以輸出,因為這些規(guī)則滿足強關(guān)聯(lián)規(guī)則條件。規(guī)則編號關(guān)聯(lián)規(guī)則置信度1I1I2I5Conf=2/4=50%2I1I5I2Conf=2/2=100%3I2I5I1Conf=2/2=100%4I1
I2I5Conf=2/6=33%5I2
I1I5Conf=2/7=29%6I5
I1I2Conf=2/2=100%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則3、冰山查詢冰山查詢在數(shù)據(jù)挖掘中經(jīng)常使用,特別是對購物籃分析,apriori算法可以用來提高冰山查詢的效率。冰山查詢(icebergquery)在一個屬性或?qū)傩约嫌嬎阋粋€聚集函數(shù),以找出大于某個指定閾值的聚集值。
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則3、冰山查詢給定關(guān)系R,它具有屬性a_1,a_2,…,a_n和b,一個聚集函數(shù)agg_fuc,冰山查詢形如:SelectR.a_1,R.a_2,…,R.a_n,agg_fuc(R.b)FromrelationRGroupbyR.a_1,R.a_2,…,R.a_nHavingagg_fuc(R.b)>=threshold給定大量輸入元組,滿足having子句中閾值的輸出元組數(shù)量相對很少。輸入數(shù)據(jù)集為“冰山”,輸出結(jié)果為“冰山頂”。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則3、冰山查詢例,設(shè)給定銷售數(shù)據(jù),期望產(chǎn)生一個顧客-商品對的列表,要求這些顧客購買商品數(shù)量達到5件或更多,則冰山查詢表示如:SelectP.cust_ID,P.item_ID,SUM(P.qty)FromPurchasesPGroupbyP.cust_ID,P.item_IDHavingSUM(P.qty)>=5數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則3、冰山查詢可以采用apriori算法,不考慮每個顧客購買的每種商品的數(shù)量,按照以下步驟:產(chǎn)生cust_list,總共購買5件以上商品的顧客表:
SelectP.cust_IDFromPurchasesPGroupbyP.cust_IDHavingSUM(P.qty)>=5數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第二節(jié)挖掘事務(wù)數(shù)據(jù)庫的單維布爾關(guān)聯(lián)規(guī)則3、冰山查詢可以采用apriori算法,不考慮每個顧客購買的每種商品的數(shù)量,按照以下步驟:產(chǎn)生item_list,被顧客購買數(shù)量5件以上商品表:
SelectP.item_IDFromPurchasesPGroupbyP.item_IDHavingSUM(P.qty)>=5數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則1、多層關(guān)聯(lián)規(guī)則由于許多應(yīng)用環(huán)境下,多維數(shù)據(jù)空間數(shù)據(jù)的稀疏性,在低層或原始層的數(shù)據(jù)項之間很難找出強關(guān)聯(lián)規(guī)則。而在較高的概念層尋找強關(guān)聯(lián)規(guī)則可以得到具有普遍意義的知識。對于某用戶代表普遍意義的知識,對另一用戶可能是新穎的。所以,DMS應(yīng)當提供一種能力,在多個抽象層挖掘關(guān)聯(lián)規(guī)則,并容易在不同的抽象空間轉(zhuǎn)換。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則1、多層關(guān)聯(lián)規(guī)則例如,給定某事務(wù)的任務(wù)相關(guān)數(shù)據(jù)集D,它是計算機部的銷售數(shù)據(jù),對每個事務(wù)TID給出了購買的商品。TID購買的商品T1IBM臺式機,HP激光打印機T2教學(xué)軟件,財務(wù)軟件,操作系統(tǒng)軟件T3雙飛燕鼠標,康柏鍵盤,IBM臺式機T4DEC服務(wù)器,操作系統(tǒng)軟件,OFFICE軟件T5IBM筆記本電腦,佳能噴墨彩色打印機數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則1、多層關(guān)聯(lián)規(guī)則商品的概念分層如:計算機類商品軟件計算機計算機輔件打印機臺式機筆記本應(yīng)用系統(tǒng)彩色黑白鼠標鍵盤IBM…康柏財務(wù)操作系統(tǒng)佳能HP雙飛燕康柏數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則1、多層關(guān)聯(lián)規(guī)則概念分層定義了由低層概念到更一般的高層概念的映射序列,可以通過將數(shù)據(jù)內(nèi)的低層概念用概念分層的高層概念替換,對數(shù)據(jù)概化。例中概念分層為4層,記為0,1,2和3。在最低的原始層很難找出有趣的購買模式,如{IBM臺式機,HP激光打印機}不太可能滿足最小支持度。而{計算機,打印機}更容易滿足最小支持度。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法問題:如何使用概念分層有效挖掘多層關(guān)聯(lián)規(guī)則??疾煲恍┗谥С侄?置信度框架的方法。對于所有層使用一致的最小支持度在較低層使用遞減的最小支持度逐層獨立層交叉單項過濾層交叉K-項集過濾數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法對于所有層使用一致的最小支持度:在每一層挖掘時,使用相同的最小支持度閾值。如整個使用最小支持度閾值5%。計算機[support=10%]臺式機[support=4%]筆記本[support=6%]層1min_sup=5%層2min_sup=5%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法在較低層使用遞減的最小支持度:在每個抽象層有自己的最小支持度閾值。抽象層越低,對應(yīng)的閾值越小。如層1和層2的最小支持度閾值分別為5%和3%。計算機[support=10%]臺式機[support=4%]筆記本[support=6%]層1min_sup=5%層2min_sup=3%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法逐層獨立:完全的寬度搜索,沒有頻繁項集的背景知識用于剪枝??疾烀總€節(jié)點,不管它的父節(jié)點是否是頻繁的。計算機[support=10%]臺式機[support=4%]筆記本[support=6%]層1min_sup=12%層2min_sup=3%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法層交叉單項過濾:一個第i層的項被考察,當且僅當它在第(i-1)層的父節(jié)點是頻繁的。根據(jù)遞減支持度,如果父節(jié)點是頻繁的,它的子女將被考察;否則,它的子孫將由搜索中剪枝。計算機[support=10%]臺式機(未考察)筆記本(未考察)層1min_sup=12%層2min_sup=3%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法層交叉k-項集過濾:一個第i層的k-項集被考察,當且僅當它在第(i-1)層的對應(yīng)父節(jié)點k-項集是頻繁的。計算機,打印機[support=8%]臺式機,彩色打印機[support=4%]筆記本,黑白打印機[support=2%]層1min_sup=5%層2min_sup=3%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法
逐層獨立策略的條件寬松,而層交叉k-項集過濾策略的限制太強,層交叉單項過濾策略是一個折衷。進一步改進為受控層交叉單項過濾策略。通過設(shè)置一個層傳遞閾值,用于向較低層“傳遞”相對頻繁的項。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法
受控的層交叉單項過濾策略:如果滿足層傳遞閾值,則允許考察不滿足最小支持度閾值項的子女。計算機[support=10%]臺式機[support=4%]筆記本[support=6%]層1min_sup=12%Level_pass_sup=8%層2min_sup=3%數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則2、挖掘多層關(guān)聯(lián)規(guī)則的方法
交叉層關(guān)聯(lián)規(guī)則:規(guī)則中的項不屬于同一概念層,挖掘交叉層i與j層關(guān)聯(lián)規(guī)則應(yīng)當使用較低層j的最小支持度閾值,使得j層的項可以包含在分析中。前面所討論的5種方法屬于發(fā)現(xiàn)的頻繁項集的所有項都屬于同一概念層1層。如
計算機軟件或臺式機彩色打印機對于不屬于同一概念層(1層和2層)的規(guī)則:計算機彩色打印機數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則3、檢查冗余的多層關(guān)聯(lián)規(guī)則概念分層在數(shù)據(jù)挖掘中允許不同的抽象層的知識發(fā)現(xiàn),如多層關(guān)聯(lián)規(guī)則。然而,當挖掘多層關(guān)聯(lián)規(guī)則時,由于項之間的“祖先”關(guān)系,有些發(fā)現(xiàn)的規(guī)則將是冗余的。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第三節(jié)挖掘事務(wù)數(shù)據(jù)庫的多層關(guān)聯(lián)規(guī)則3、檢查冗余的多層關(guān)聯(lián)規(guī)則例如,考慮下面的規(guī)則:臺式機彩色打印機[sup=8%,conf=70%]...(1)IBM臺式機彩色打印機[sup=2%,conf=72%]…(2)不難發(fā)現(xiàn)規(guī)則R1是R2的祖先,若將R2中的項用它在概念分層中的祖先替換,就可以得到R1。定義:如果根據(jù)規(guī)則的祖先,一個規(guī)則的支持度和置信度都接近于“期望”值,則規(guī)則被認為是冗余的。冗余的規(guī)則應(yīng)當刪除。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則1、多維關(guān)聯(lián)規(guī)則考察關(guān)聯(lián)規(guī)則
buys(X,”IBM臺式機”)
buys(X,”HP激光打印機”)其中,X表示變量,代表顧客,謂詞buys在多維數(shù)據(jù)庫中稱作維,上述規(guī)則為單維關(guān)聯(lián)規(guī)則或維內(nèi)關(guān)聯(lián)規(guī)則。這種規(guī)則通常由事務(wù)數(shù)據(jù)或從事務(wù)數(shù)據(jù)庫挖掘。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則1、多維關(guān)聯(lián)規(guī)則關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫中的數(shù)據(jù)的存儲是多維的。如購物顧客的信息可能包括年齡、職業(yè)、收入和地址等。將數(shù)據(jù)庫的每個屬性或數(shù)據(jù)倉庫的每個維看作一個謂詞,這樣就可以挖掘多維關(guān)聯(lián)規(guī)則,如age(X,”23…33”)
occupation(X,”teacher”)
buys(X,”laptop”)涉及兩個以上維或謂詞的關(guān)聯(lián)規(guī)則稱為多維關(guān)聯(lián)規(guī)則。每個謂詞不重復(fù)出現(xiàn),稱為不重復(fù)謂詞。具有不重復(fù)謂詞的關(guān)聯(lián)規(guī)則稱作維間關(guān)聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則1、多維關(guān)聯(lián)規(guī)則對于規(guī)則形如age(X,”23…33”)buys(X,”laptop”)
buys(X,”b/wprinter”)包含某些謂詞的多次出現(xiàn)的關(guān)聯(lián)規(guī)則稱為混合多維關(guān)聯(lián)規(guī)則。數(shù)據(jù)庫屬性可能是分類的或量化的。分類屬性是指具有有限個不同值,值之間無序,又稱標稱屬性,如(age,brand,color)。量化屬性是數(shù)值的,并在值之間具有一個隱含的序,如(age,income,price)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則1、多維關(guān)聯(lián)規(guī)則挖掘多維關(guān)聯(lián)規(guī)則的技術(shù)可以根據(jù)量化屬性的處理分為三種基本方法:使用預(yù)定義的概念分層對量化屬性離散化,該方法稱為使用量化屬性的靜態(tài)離散化挖掘多維關(guān)聯(lián)規(guī)則;根據(jù)數(shù)據(jù)的分布,將量化的屬性離散化到“箱”,這種方法挖掘的關(guān)聯(lián)規(guī)則稱為量化關(guān)聯(lián)規(guī)則;量化屬性離散化,以符合區(qū)間數(shù)據(jù)的語義,這種量化關(guān)聯(lián)規(guī)則稱作基于距離的關(guān)聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則2、使用量化屬性挖掘多維關(guān)聯(lián)規(guī)則(age)(buys)(income)(age,income)(age,buys)(income,buys)(age,income,buys)()0-D頂點方體1-D方體2-D方體3-D基本方體數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則3、挖掘量化關(guān)聯(lián)規(guī)則量化關(guān)聯(lián)規(guī)則是多維關(guān)聯(lián)規(guī)則,其中數(shù)值屬性動態(tài)離散化,以滿足某種挖掘標準,如最大挖掘規(guī)則的置信度。量化關(guān)聯(lián)規(guī)則如:age(X,”23…33”)
income(X,”32k…42k”)
buys(X,”laptop”)這種規(guī)則包含左邊兩個量化維(量化屬性),右邊一個分類屬性,稱為2-維量化關(guān)聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則3、挖掘量化關(guān)聯(lián)規(guī)則對于量化關(guān)聯(lián)規(guī)則可以通過關(guān)聯(lián)規(guī)則聚類系統(tǒng)ARCS(associationruleclusteringsystem)方法找出關(guān)聯(lián)規(guī)則。ARCS的基本步驟有:分箱:等寬分箱、等深分箱、基于同質(zhì)的分箱找頻繁謂詞集關(guān)聯(lián)規(guī)則聚類數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則4、挖掘基于距離的關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的一個缺點是它們不允許近似的屬性值,而往往在一些情形下,需要考察屬性值的接近性,支持度和置信度均不支持這種近似,所以需要引入基于距離的關(guān)聯(lián)規(guī)則挖掘。這種規(guī)則緊扣區(qū)間數(shù)據(jù)的語義,并允許數(shù)據(jù)值的近似。量化關(guān)聯(lián)規(guī)則無法實現(xiàn),因為未考察數(shù)據(jù)點之間或區(qū)間之間的相對距離。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第四節(jié)挖掘關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的多維關(guān)聯(lián)規(guī)則4、挖掘基于距離的關(guān)聯(lián)規(guī)則通常使用一個兩遍算法挖掘基于距離的關(guān)聯(lián)規(guī)則。第一遍使用聚類找出區(qū)間或簇;第二遍搜索頻繁地一起出現(xiàn)的簇組得到基于距離的關(guān)聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎(chǔ)第6章關(guān)聯(lián)規(guī)則第五節(jié)關(guān)聯(lián)挖掘到關(guān)聯(lián)分析問題:挖掘了關(guān)聯(lián)規(guī)則后,數(shù)據(jù)挖掘系統(tǒng)如何
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息化技術(shù)在農(nóng)業(yè)生產(chǎn)中的合作協(xié)議
- 農(nóng)民工在崗培訓(xùn)與勞務(wù)派遣合同
- 購買物業(yè)管理服務(wù)協(xié)議書
- 農(nóng)業(yè)生產(chǎn)經(jīng)營資金互助保障協(xié)議
- 智慧寓言伊索寓言故事解讀
- 高考語文復(fù)習(xí):專題六、七
- 體育培訓(xùn)中心學(xué)員意外事故的免責及保障協(xié)議
- 高考文言文斷句100題專項練習(xí)(附答案及翻譯最方便)
- 小馬過河自我成長的故事解讀
- 農(nóng)業(yè)旅游開發(fā)手冊
- 叉車裝卸區(qū)域安全風(fēng)險告知牌
- 2022屆江蘇省南京師范大學(xué)附屬中學(xué)高三(下)考前最后一模物理試題(解析版)
- 辦公用品供貨服務(wù)計劃方案
- 《普通生物學(xué)教案》word版
- 貴州省就業(yè)失業(yè)登記表
- 預(yù)防電信詐騙網(wǎng)絡(luò)詐騙講座PPT幻燈片課件
- 反興奮劑知識試題及答案
- 初中八年級上冊音樂課件4.2欣賞沃爾塔瓦河(14張)ppt課件
- 人教版五年級數(shù)學(xué)下冊每個單元教材分析(共九個單元)
- 深圳氫燃料共享單車項目投資計劃書【參考范文】
- 主要腸內(nèi)營養(yǎng)制劑成分比較
評論
0/150
提交評論