已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
知識背景 序列模式是神馬 1 顧客購買產(chǎn)品X 很可能在一段時間內(nèi)購買購買產(chǎn)品Y 時間序列模型 2 在某個點發(fā)現(xiàn)了現(xiàn)象X 很可能在下一個點發(fā)現(xiàn)現(xiàn)象Y 空間序列模型 知識背景 序列模型VS關聯(lián)規(guī)則 關聯(lián)規(guī)則 序列模型 序列模型 關聯(lián)規(guī)則 時間 空間 維度 知識背景 序列模型VS時間序列模型 時間序列模型 序列模型 序列模型 一系列研究對象在某段時間內(nèi)的行為模式分析 如顧客購買序列模式的發(fā)現(xiàn) 時間序列模型 一個特定對象 變量 在某段時間內(nèi)的變化趨勢 具有時間自相關性 如股票分析 知識框架 1 1概念 定性 序列模式挖掘是挖掘頻繁出現(xiàn)的有序事件或子序列 定量 給定一個正整數(shù)min sup 表示最小支持度閾值 如果序列 在序列數(shù)據(jù)庫S中存在support S min sup 則序列 是頻繁序列 也叫做序列模式 1 2 定義 序列 將與對象A有關的所有事務按時間戳增序排序 就得到對象A的一個序列s 事務 序列是事務的有序列表 可以記作s 項 事務e是一個項集 可以記作e x1 x2 x3 xn 當只有1項時直接記作x1 序列包含的項的數(shù)量記作序列的長度 長度為L的序列記作L序列 序列數(shù)據(jù)庫 包含一個或多個序列數(shù)據(jù)的數(shù)據(jù)集 子序列 設序列 序列 ai和bi都是元素 如果存在整數(shù)1 j1 j2 jn m 使得a1 bj1 a2 bj2 an bjn則稱序列 為序列 的子序列 又稱序列 包含序列 記為 包含3個序列 S1 S2 S3 假設有S4 S1包含3個事務 8個項 長度即為8 成為8序列 S2以及S3都為S1的子序列 S4則不是S1的子序列 2 1GSP算法和SPADE算法 算法介紹 屬于類Apriori算法 基于原理 序列模式的每個非空子集都是序列模式 基于 候選產(chǎn)生 測試 模式進行挖掘 主要步驟 1 掃描序列數(shù)據(jù)庫 得到長度為1的序列模式L1 作為初始的種子集 2 根據(jù)長度為i的種子集Li 通過連接操作和修剪操作生成長度為i 1的候選序列模式Ci 1 然后掃描序列數(shù)據(jù)庫 計算每個候選序列模式的支持度 產(chǎn)生長度為i 1的序列模式Li 1 并將Li 1作為新的種子集 3 重復第二步 直到?jīng)]有新的序列模式或新的候選序列模式產(chǎn)生為止 L1 C2 L2 C3 L3 C4 L4 2 1GSP算法和SPADE算法 連接操作 如果去掉序列模式S1的第一個項與去掉序列模式S2的最后一個項所得到的序列相同 則可以將S1于S2進行連接 即將S2的最后一個項目添加到S1中 其中 1 若S2的最后兩個項本來屬于同一個事務 則合并后與S1序列的最后一個項合并為同一個同一個事務 2 否則 S2最后一項則單獨成為一個事務 剪切階段 若某候選序列模式的某個子序列不是序列模式 則此候選序列模式不可能是序列模式 將它從候選序列模式中刪除 頻繁3序列 候選產(chǎn)生 候選剪枝 2 1GSP算法和SPADE算法 GSPVSSPADE 區(qū)別在于數(shù)據(jù)庫中存儲數(shù)據(jù)的結(jié)構(gòu)不一樣 因此掃描數(shù)據(jù)庫的效率不一樣 2 1GSP算法和SPADE算法 如果序列數(shù)據(jù)庫的規(guī)模比較大 則有可能會產(chǎn)生大量的候選序列模式需要對序列數(shù)據(jù)庫進行循環(huán)掃描對于序列模式的長度比較長的情況 由于其對應的短的序列模式規(guī)模太大 本算法很難處理 類Apriori算法存在的問題 2 2PrefixSpan算法 算法介紹 基于FP增長算法采用分治的思想 不斷產(chǎn)生序列數(shù)據(jù)庫的多個更小的投影數(shù)據(jù)庫 然后在各個投影數(shù)據(jù)庫上進行序列模式挖掘 前綴與后綴 假定序列S 則序列 等都是S的前綴 S關于的后綴為 S關于的后綴為 S關于的后綴為 2 2PrefixSpan算法 投影數(shù)據(jù)庫 設 為序列數(shù)據(jù)庫S中的一個序列模式 則 的投影數(shù)據(jù)庫為S中所有以 為前綴的序列相對于 的后綴 記為S 例 序列模式的投影數(shù)據(jù)庫為 2 2PrefixSpan算法 主要步驟 1 得到長度為1的序列模型 2 劃分搜索空間 3 找出序列模式的子集 a 找出序列數(shù)據(jù)庫D關于的投影數(shù)據(jù)庫 b 掃描投影數(shù)據(jù)庫 得到局部頻繁項 c 遞歸過程 4 匯集 S S1 Sm S11 S1n Sm1 Smp 2 2PrefixSpan算法 1 1序列模型為 4次 4次 4次 3次 3次 3次 2 劃分搜索空間 根據(jù) 1 中的結(jié)果劃分前綴為的子集 前綴為的子集 前綴為的子集等 2 2PrefixSpan算法 3 找出序列模型的子集 a 建立的投影數(shù)據(jù)庫 b 掃描上述投影數(shù)據(jù)庫 找出局部頻繁項 分別為 c 遞歸地尋找以 為前綴的序列模型 4 匯總以上挖掘的序列模型子集 2 2PrefixSpan算法 PrefixSpan算法分析 PrefixSpan算法不需要產(chǎn)生候選序列模式 從而大大縮減了檢索空間相對于原始的序列數(shù)據(jù)庫而言 投影數(shù)據(jù)庫的規(guī)模不斷減小PrefixSpan算法的主要開銷在于投影數(shù)據(jù)庫的構(gòu)造 3 1多維 多層次的序列模式挖掘 購買數(shù)碼相機的退休顧客很可能在一個月內(nèi)購買彩色打印機 購買筆記本的年輕人很可能在兩周內(nèi)購買打印機 這些例子的序列模式挖掘都是多維 多層次的 多維體現(xiàn)在 年輕人 與 老人 多層次體現(xiàn)在 彩色打印機 與 打印機 3 2基于約束的序列模式挖掘 1 序列的長度例 顧客在1周內(nèi)購買的商品序列 2 序列間事務的最大間隔例 用戶的Web頁面瀏
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年滬教版選修4歷史上冊階段測試試卷
- 2025年粵教版九年級地理上冊月考試卷含答案
- 2025年粵教版八年級地理上冊月考試卷含答案
- 2025年浙科版七年級生物上冊月考試卷含答案
- 2025年冀少新版九年級歷史上冊月考試卷含答案
- 2025年新科版選修化學上冊月考試卷
- 二零二五年度云計算數(shù)據(jù)中心托管服務合同2篇
- 2025年度智能穿戴設備生產(chǎn)承攬合同補充協(xié)議3篇
- 二零二五年度定制化儲藏室貨架設計與安裝合同2篇
- 2025年度嬰幼兒奶粉市場調(diào)研與品牌推廣合作合同4篇
- 人教版三年級上冊豎式計算練習300題及答案
- 【“凡爾賽”網(wǎng)絡流行語的形成及傳播研究11000字(論文)】
- ppr管件注塑工藝
- 液化氣站其他危險和有害因素辨識及分析
- 建筑工程施工安全管理思路及措施
- 高中語文教學課例《勸學》課程思政核心素養(yǎng)教學設計及總結(jié)反思
- 中國農(nóng)業(yè)銀行小微企業(yè)信貸業(yè)務貸后管理辦法規(guī)定
- 初中英語-Unit2 My dream job(writing)教學課件設計
- 市政道路建設工程竣工驗收質(zhì)量自評報告
- 優(yōu)秀支行行長推薦材料
- 中國版梅尼埃病診斷指南解讀
評論
0/150
提交評論