




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、法律聲明本課件包括:演示文稿,示例,代碼,題庫(kù),視頻和聲音等,小象學(xué)院擁有完全知識(shí)產(chǎn)權(quán)的權(quán)利;只限于善意學(xué)習(xí)者在本課程使用,不得在課程范圍外向任何第三方散播。任何其他人或機(jī)構(gòu)不得盜版、復(fù)制、仿造其中的創(chuàng)意,我們將保留一切通過(guò)法律手段追究違反者的權(quán)利。課程詳情請(qǐng)咨詢(xún)微信公眾號(hào):小象新浪微博:ChinaHadoop基于SPARK的機(jī)器學(xué)習(xí)FP-GROWTH美團(tuán)網(wǎng) 顧立宏序列模式挖掘簡(jiǎn)介序列模式的概念最早是由Agrawal和Srikant 提出的。動(dòng)機(jī):大型連鎖超市的交易數(shù)據(jù)有一系列的用戶(hù)事務(wù)數(shù)據(jù)庫(kù),每一條記錄包括用戶(hù)的ID,事務(wù)發(fā)生的時(shí)間和事務(wù)涉及的項(xiàng)目。如果能在其中挖掘涉及事務(wù)間關(guān)聯(lián)關(guān)系的模式,
2、即用戶(hù)幾次購(gòu)買(mǎi)行為間的聯(lián)系,可以采取更有針對(duì)性的營(yíng)銷(xiāo)措施。事務(wù)數(shù)據(jù)庫(kù)實(shí)例例:一個(gè)事務(wù)數(shù)據(jù)庫(kù),一個(gè)事務(wù)代表一筆交易,一個(gè)單項(xiàng)代表交易的商品,單項(xiàng)屬性中的數(shù)字記錄的是商品ID序列數(shù)據(jù)庫(kù)一般為了方便處理,需要把數(shù)據(jù)庫(kù)轉(zhuǎn)化為序列數(shù)據(jù)庫(kù)。方法是把用戶(hù)ID相同的記錄合并,有時(shí)每個(gè)事務(wù)的發(fā)生時(shí)間可以忽略,僅保持事務(wù)間的偏序關(guān)系問(wèn)題定義項(xiàng)集(Itemset)是所有在序列數(shù)據(jù)庫(kù)出現(xiàn)過(guò)的單項(xiàng)組成的集合例:對(duì)一個(gè)用戶(hù)購(gòu)買(mǎi)記錄的序列數(shù)據(jù)庫(kù)來(lái)說(shuō),項(xiàng)集包含用戶(hù)購(gòu)買(mǎi)的所有商品,一種商品就是一個(gè)單項(xiàng)。通常每個(gè)單項(xiàng)有一個(gè)唯一的ID,在數(shù)據(jù)庫(kù)中記錄的是單項(xiàng)的ID問(wèn)題定義元素(Element)可表示為(x1x2xm), xk(1
3、= k = m)為不同的單項(xiàng)。元素內(nèi)的單項(xiàng)不考慮順序關(guān)系,一般默認(rèn)按照ID的字典序排列在用戶(hù)事務(wù)數(shù)據(jù)庫(kù)里,一個(gè)事務(wù)就是一個(gè)元素。問(wèn)題定義序列(Sequence)是不同元素(Element)的有序排列,序列s可以表示為s = ,sj(1 = j = l)為序列s的元素一個(gè)序列包含的所有單項(xiàng)的個(gè)數(shù)稱(chēng)為序列的長(zhǎng)度。長(zhǎng)度為l的序列記為l-序列問(wèn)題定義例:一條序列有3個(gè)元素,分別是(10 20),30,(40 60 70 );3個(gè)事務(wù)的發(fā)生時(shí)間是由前到后。這條序列是一個(gè)6-序列。問(wèn)題定義數(shù)據(jù)庫(kù)是由一個(gè)個(gè)交易組成,一個(gè)交易是一個(gè)item的set;支持度(共現(xiàn)頻次)是出現(xiàn)該patter的交易個(gè)數(shù)頻繁集合 F
4、P:其支持度超過(guò)門(mén)限 類(lèi)Apriori算法該類(lèi)算法基于Apriori理論,即序列模式的任一子序列也是序列模式。算法首先自底向上的根據(jù)較短的序列模式生成較長(zhǎng)的候選序列模式,然后計(jì)算候選序列模式的支持度。典型的代表有GSP算法, spade算法等。FP-tree:出發(fā)點(diǎn)只關(guān)心頻繁集合,所以需要一次遍歷進(jìn)行第一次篩選為了避免頻繁去遍歷數(shù)據(jù)庫(kù),需要對(duì)頻繁數(shù)據(jù)進(jìn)行壓縮對(duì)于有交集的交易數(shù)據(jù),是否可以充分前綴信息FP-tree1、數(shù)據(jù)預(yù)處理FP-tree1、成成樹(shù)NullF : 1C : 1a : 1m : 1p : 1FP-tree1、成成樹(shù)NullF : 2C : 2a : 2m : 1p : 1b :
5、 1m : 1FP-tree1、成成樹(shù)NullF : 3C : 2a : 2m : 1p : 1b : 1m : 1b : 1FP-tree1、成成樹(shù)NullF : 3C : 2a : 2m : 1p : 1b : 1m : 1b : 1c : 1b : 1p : 1FP-tree1、成成樹(shù)NullF : 4C : 3a : 3m : 2p : 2b : 1m : 1b : 1c : 1b : 1p : 1FP-treeheader table。每個(gè)鏈表包含相同item節(jié)點(diǎn)FP-tree 建樹(shù)方法1、遍歷一遍數(shù)據(jù)庫(kù),篩選頻繁item并計(jì)算他們的支持度, 按序排列每個(gè)交接setFP-tree 建
6、樹(shù)方法2、創(chuàng)建根節(jié)點(diǎn)null的樹(shù)T; 遍歷每個(gè)交易數(shù)據(jù),記為p|P,調(diào)用insert_tree(p|P, T); 如果T的孩子N與p item一致:N的cnt+1, 否則創(chuàng)建node N,cnt=1, 父節(jié)點(diǎn)是T; 如果P非空,調(diào)用 insert_tree(P,N)FP-tree 建樹(shù)方法算法需要遍歷兩邊數(shù)據(jù)庫(kù):1、篩選頻繁item2、構(gòu)建fp-tree插入交易數(shù)據(jù)的復(fù)雜度是O(|交易|)FP-tree 建樹(shù)方法Lemma 2.1: 給定交易數(shù)據(jù)庫(kù)DB和支持度s, FP-tree包含了頻繁模式挖掘的全部信息FP-tree 建樹(shù)方法Lemma 2.1: 給定交易數(shù)據(jù)庫(kù)DB和支持度s, FP-tr
7、ee包含了頻繁模式挖掘的全部信息Lemma 2.2: 樹(shù)的size bounded 頻繁item數(shù)量 樹(shù)的高度bounded 頻繁集合的最大長(zhǎng)度FP-tree 建樹(shù)方法需要注意第一點(diǎn)并不是說(shuō)樹(shù)的size等于頻繁Item數(shù)量:每個(gè)交易里的item最多貢獻(xiàn)樹(shù)里的一個(gè)node,最差的情況是交易set沒(méi)有交集,樹(shù)的size等于數(shù)據(jù)庫(kù)size,但這種情況幾乎不會(huì)出現(xiàn),否則不存在頻繁集合挖掘FP-tree的局限FP-tree保證了Mining數(shù)據(jù)的壓縮性, 但是能保證挖掘過(guò)程的效率嗎?頻繁集的組合問(wèn)題如何解決?FP-tree in miningProperty 3.1: 所有包含item i的Patter
8、n都能通過(guò)i的headerTable 獲得FP-tree in miningNode P:條件模式基:Mining結(jié)果FP-tree in miningNode m:條件模式基:Mining結(jié)果條件FP-tree:FP-tree in miningFP-tree in miningNode b:條件模式基:Mining結(jié)果條件FP-tree:FP-tree in miningNode a:條件模式基:Mining結(jié)果序列數(shù)據(jù)庫(kù)FP-tree in miningLamma 3.1: a的條件模式基中 b的支持度等于a,b的支持度Corollary 3.1 a,b是頻繁模式,等價(jià)于b在條件模式基上是頻繁模式根據(jù)這條性質(zhì),可以吧k-長(zhǎng)頻繁模式的挖掘轉(zhuǎn)換成k個(gè)1-長(zhǎng)頻繁模式的挖掘,從而不需要產(chǎn)生任何候選set的組合FP-tree in miningLemma 3.1: a的條件模式基中 b的支持度等于a,b的支持
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)商直播帶貨與網(wǎng)紅營(yíng)銷(xiāo)考核試卷
- 刨花板行業(yè)綠色生產(chǎn)與可持續(xù)發(fā)展考核試卷
- 彈射玩具銷(xiāo)售季節(jié)性規(guī)律考核試卷
- 樂(lè)器配件精密加工技術(shù)考核試卷
- 動(dòng)物用藥品銷(xiāo)售與市場(chǎng)預(yù)測(cè)分析考核試卷
- 刺繡藝術(shù)在充電寶的個(gè)性化設(shè)計(jì)考核試卷
- 創(chuàng)業(yè)項(xiàng)目品牌定位與市場(chǎng)推廣考核試卷
- 勞務(wù)合同范本遷戶(hù)口
- 學(xué)校鏟車(chē)租賃合同范本
- 淘客推廣合同范本
- 2025年春新外研版(三起)英語(yǔ)三年級(jí)下冊(cè)課件 Unit6第1課時(shí)Startup
- 2025江蘇蘇州高新區(qū)獅山商務(wù)創(chuàng)新區(qū)下屬?lài)?guó)企業(yè)招聘9人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《蒙牛集團(tuán)實(shí)施財(cái)務(wù)共享過(guò)程中存在的問(wèn)題及優(yōu)化建議探析》8800字(論文)
- 平拋運(yùn)動(dòng)的經(jīng)典例題
- 錄井作業(yè)現(xiàn)場(chǎng)風(fēng)險(xiǎn)評(píng)估及控制措施
- 2025年度商會(huì)工作計(jì)劃
- 社區(qū)管理與服務(wù)專(zhuān)業(yè)實(shí)習(xí)總結(jié)范文
- 施工現(xiàn)場(chǎng)5S管理規(guī)范
- 科研方法講座模板
- 投資學(xué)基礎(chǔ)(第二版)教案全套 李博
- 【MOOC】中級(jí)財(cái)務(wù)會(huì)計(jì)-西南交通大學(xué) 中國(guó)大學(xué)慕課MOOC答案
評(píng)論
0/150
提交評(píng)論