數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章 數(shù)據(jù)挖掘基本算法 本章內(nèi)容: 6.1 分類規(guī)則挖掘 6.2 預(yù)測(cè)分析與趨勢(shì)分析規(guī)則 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.4 數(shù)據(jù)挖掘的聚類算法 6.5 數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法 6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法 6.7 數(shù)據(jù)挖掘的進(jìn)化算法 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 1 分類 為了理解事物特征并做出預(yù)測(cè)使用歷史數(shù)據(jù)建立一個(gè)分類模型(即分類器)的過程 。 應(yīng)用于信用卡系統(tǒng)中的信用分級(jí)、市場(chǎng)調(diào)查、療效診斷、尋找店址等 實(shí)踐應(yīng)用參照課本 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 2 估值 估值( estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數(shù)目,估值的量是不確定的 。 3 分類方法與步驟 方法: 決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有 K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法 。 步驟: 模型創(chuàng)建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 4 評(píng)估分類方法 要考慮的指標(biāo):預(yù)測(cè)準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對(duì)磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對(duì)模型的可理解程度、規(guī)則好壞的評(píng)價(jià)、決策樹的大小和分類規(guī)則的簡(jiǎn)明性。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 父節(jié)點(diǎn) 子節(jié)點(diǎn) 子節(jié)點(diǎn) 葉節(jié)點(diǎn) 子節(jié)點(diǎn) 子節(jié)點(diǎn) 子節(jié)點(diǎn) 根節(jié)點(diǎn) 圖 6.1 一般決策樹結(jié)構(gòu) 葉節(jié)點(diǎn) 父節(jié)點(diǎn) E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構(gòu)造過程 ID3算法應(yīng)用如下: )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量計(jì)算公式: I(s1,s2, sm)=- ( 6.1) 其中, pi為 si占整個(gè)類別的概率 利用屬性 A劃分當(dāng)前樣本集合所需要的信息(熵)的計(jì)算公式為: E( A) = (6.2) 信息增益公式: Gain( A) = I(s1,s2, sm)-E( A) ( 6.3) 例如:一個(gè)銷售的顧客數(shù)據(jù)庫(kù)(訓(xùn)練樣本集合) ,對(duì)購(gòu)買計(jì)算機(jī)的人員進(jìn)行分類: 字段為:(年齡(取值: 40);收入 (高,中,低 );學(xué)生否( Y, N);信用(一般,很好);購(gòu)買計(jì)算機(jī)否( Y, N) 記錄為 14個(gè),具體數(shù)據(jù)如下: X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y); X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構(gòu)造過程 決策樹的構(gòu)造算法: 決策樹的構(gòu)造算法可通過訓(xùn)練集 T完成,其中 T=,而x=(a1,a2, an)為一個(gè)訓(xùn)練實(shí)例,它有 n個(gè)屬性,分別列于屬性表(A1,A2, An)中,其中 ai表示屬性 Ai的取值。 Cj C=C1,C2, Cm為 x的分類結(jié)果。從屬性表中選擇屬性 Ai作為分類屬性;若屬性 Ai的取值有 ki個(gè),則將 T劃分為 ki個(gè)子集, T1,T ki,其中 Tij=| T,且 x的屬性取值 A為第 i個(gè)值;接下來從屬性表中刪除屬性 Ai;對(duì)于每一個(gè)Tij(1jK1),令 T=Tij;如果屬性表非空,返回第 1步,否則輸出。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 2分類器 定義:輸入的數(shù)據(jù)含有千萬個(gè)記錄,每個(gè)記錄又有很多個(gè)屬性,其中有一個(gè)特別的屬性叫做類(例如信用程度的高,中,低)。 具體步驟 : 1)樹的建立。 2)樹的修剪 ,SLIQ采用了 MDL(最小敘述長(zhǎng)度)的方法來修剪樹。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 3決策樹的可擴(kuò)展性 4基于決策樹方法的數(shù)據(jù)挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 1貝葉斯信任網(wǎng)絡(luò)如何工作 邊緣 主區(qū)域 手機(jī)呼叫 服務(wù)區(qū)域 no yes 外界 圖 6.3 簡(jiǎn)單的貝葉斯網(wǎng)圖 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 2貝葉斯定理與樸素貝葉斯分類 貝葉斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中, P(H|X)表示條件 X下 H的概率,也稱為條件概率或稱為后驗(yàn)概率(posteriori probabilities)。 樸素貝葉斯分類: 假定有 m個(gè)類 C1, Cm,對(duì)于數(shù)據(jù)樣本 X,分類法將預(yù)測(cè) X屬于類Ci,當(dāng)且僅當(dāng) P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2預(yù)測(cè)分析與趨勢(shì)分析規(guī)則 6.2.1 預(yù)言的基本方法 預(yù)言( prediction)是一門掌握對(duì)象變化動(dòng)態(tài)的科學(xué),它是對(duì)對(duì)象變動(dòng)趨勢(shì)的預(yù)見、分析和判斷,也是一種動(dòng)態(tài)分析方法。 預(yù)測(cè)的基本步驟: 確定預(yù)測(cè)目標(biāo),包括預(yù)測(cè)對(duì)象、目的、對(duì)象范圍; 收集分析內(nèi)部和外部資料; 數(shù)據(jù)的處理及模型的選擇; 預(yù)測(cè)模型的分析、修正; 確定預(yù)測(cè)值。 E-MAIL:BXXHSSINA.COM 6.2 預(yù)測(cè)分析與趨勢(shì)分析規(guī)則 6.2.2 定量分析預(yù)測(cè) 時(shí)間序列法 回歸預(yù)測(cè) 非線性模型 灰色預(yù)測(cè)模型 GM( 1, 1) 組合預(yù)測(cè) E-MAIL:BXXHSSINA.COM 6.2 預(yù)測(cè)分析與趨勢(shì)分析規(guī)則 6.2.3預(yù)測(cè)的結(jié)果分析 預(yù)測(cè)的結(jié)果分析要考慮到的因素: 相反的預(yù)測(cè)結(jié)果 勝出裕度 成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 預(yù)測(cè)分析與趨勢(shì)分析規(guī)則 6.2.4 趨勢(shì)分析挖掘 分析時(shí)間序列數(shù)據(jù)需要注意以下方面 : 長(zhǎng)時(shí)間的走向 周期的走向與周期的變化 季節(jié)性的走向與變化 不規(guī)則的隨機(jī)走向 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.1 關(guān)聯(lián)規(guī)則的概念及分類 1關(guān)聯(lián)規(guī)則的概念 定義 1 設(shè) I=i1、 i2、 i3, , im是由 m個(gè)不同的數(shù)據(jù)項(xiàng)目組成的集合,其中的元素稱為項(xiàng) (item),項(xiàng)的集合稱為項(xiàng)集,包含 k個(gè)項(xiàng)的項(xiàng)集稱為 k項(xiàng)集 ,給定一個(gè)事務(wù)(交易) D,即交易數(shù)據(jù)庫(kù),其中的每一個(gè)事務(wù)(交易) T是數(shù)據(jù)項(xiàng) I的一個(gè)子集,即,T有一個(gè)惟一的標(biāo)積符 TID;當(dāng)且僅當(dāng)時(shí),稱交易 T包含項(xiàng)集 X;那么關(guān)聯(lián)規(guī)則就形如“ X=Y”的蘊(yùn)涵式;其中, ,即表示滿足 X中條件的記錄也一定滿足 Y。關(guān)聯(lián)規(guī)則 X=Y在交易數(shù)據(jù)庫(kù)中成立 , 具有支持度 s和具有置信度 c 。 這也就是交易數(shù)據(jù)集 D中具有支持度 s,即 D中至少有 s%的事務(wù)包含 ,描述 為: support(X=Y)= 比如 Support(X=Y )=同時(shí)購(gòu)買商品 X和 Y的交易數(shù) 總交易數(shù) 同時(shí)交易數(shù)據(jù)集 D中具有置信度 c,即 D中包含 X的事務(wù)至少有 c%同時(shí)也包含 Y,描述為: confidence(X=Y)= 比如購(gòu)買了商品 X,同時(shí)購(gòu)買商品 Y可信度, confidence(X=Y)=同時(shí)購(gòu)買商品 X和 Y的交易數(shù) 購(gòu)買了商品 X的交易數(shù) 一般稱滿足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則( strong)。一般將最小支持度簡(jiǎn)記為 minsup和最小置信度簡(jiǎn)記為 minconf。 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.1 關(guān)聯(lián)規(guī)則的概念及分類 2 關(guān)聯(lián)規(guī)則的分類 分類標(biāo)準(zhǔn) 類別 規(guī)則中所處理的值 布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則 規(guī)則中所涉及的數(shù)據(jù)維 單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則 規(guī)則中所涉及的抽象層 單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則 規(guī)則中的擴(kuò)充 最大的模式和頻繁閉項(xiàng)集 關(guān)聯(lián)特性 分類分析與相關(guān)分析 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) 1簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則的核心算法 找到所有支持度大于最小支持度的項(xiàng)集 ,即頻集 ,有 k個(gè)數(shù)據(jù)頻集稱為 k項(xiàng)頻集 .找出所有的頻集由 apriori算法實(shí)現(xiàn)。Apriori性質(zhì)具有一個(gè)頻集的任一非空子集都是頻集。 使用第 1步找到的頻集產(chǎn)生期望的規(guī)則 apriori算法的詳細(xì)介紹見課本。 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) 2 頻集算法的幾種優(yōu)化方法 基于劃分的方法 基于 hash的方法 基于采樣的方法 減少交易的個(gè)數(shù) E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.2 簡(jiǎn)單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) 3 其他的頻集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.3 多層和多維關(guān)聯(lián)規(guī)則的挖掘 多層關(guān)聯(lián)規(guī)則 多維關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則價(jià)值衡量的方法 6.3.4 貨籃子分析存在的問題 詳見課本 E-MAIL:BXXHSSINA.COM 6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 6.3.5 關(guān)聯(lián)分析的其他算法 發(fā)現(xiàn)關(guān)聯(lián)的更好方法 統(tǒng)計(jì)相關(guān)以外的 理解關(guān)聯(lián) 有效可行的市場(chǎng)籃子分析 6.3.6 挖掘序列模式 序列模式的概念及定義 序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 關(guān)聯(lián)規(guī)則挖掘 一個(gè)例子 交易 ID 購(gòu)買商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項(xiàng)集 支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 對(duì)于 A C: support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 頻繁項(xiàng)集的任何子集也一定是頻繁的 E-MAIL:BXXHSSINA.COM 關(guān)鍵步驟:挖掘頻繁集 頻繁集 :是指滿足最小支持度的項(xiàng)目集合 頻繁集的子集也一定是頻繁的 如 , 如果 AB 是頻繁集,則 A B 也一定是頻繁集 從 1到 k( k-頻繁集)遞歸查找頻繁集 用得到的頻繁集生成關(guān)聯(lián)規(guī)則 E-MAIL:BXXHSSINA.COM Apriori算法 連接 : 用 Lk-1自連接得到 Ck 修剪 : 一個(gè) k-項(xiàng)集,如果他的一個(gè) k-1項(xiàng)集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。 偽代碼 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法 例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫(kù) D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3掃描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 掃描 D C3 L3 item set2 3 5 掃描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候選集 假定 Lk-1 中的項(xiàng)按順序排列 第一步 : 自連接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何計(jì)算候選集的支持度 計(jì)算支持度為什么會(huì)成為一個(gè)問題? 候選集的個(gè)數(shù)非常巨大 一筆交易可能包含多個(gè)候選集 方法 : 用 hash-tree 存放候選集 樹的 葉子節(jié)點(diǎn) of存放項(xiàng)集的列表和支持度 內(nèi)部節(jié)點(diǎn) 是一個(gè) hash表 Subset 函數(shù) : 找到包含在一筆交易中的所有候選集 E-MAIL:BXXHSSINA.COM 生成候選集的例子 L3=abc, abd, acd, ace, bcd 自連接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中,刪除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法 基于 Hash的項(xiàng)集計(jì)數(shù) : 如果一個(gè) k-項(xiàng)集在 hash-tree的路徑上的一個(gè)計(jì)數(shù)值低于閾值,那他本身也不可能是頻繁的。 減少交易記錄 : 不包含任何頻繁 k-項(xiàng)集的交易也不可能包含任何大于 k的頻繁集 分割 : 一個(gè)項(xiàng)集要想在整個(gè)數(shù)據(jù)庫(kù)中是頻繁的,那么他至少在數(shù)據(jù)庫(kù)的一個(gè)分割上是頻繁的。 采樣 : 在給定數(shù)據(jù)的子集上挖掘,使用小的支持度 +完整性驗(yàn)證方法 動(dòng)態(tài)項(xiàng)集計(jì)數(shù) : 在添加一個(gè)新的候選集之前,先估計(jì)一下是不是他的所有子集都是頻繁的。 E-MAIL:BXXHSSINA.COM Apriori 夠快了嗎 ? 性能瓶頸 Apriori算法的核心 : 用頻繁的 (k 1)-項(xiàng)集生成 候選 的頻繁 k-項(xiàng)集 用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度 Apriori 的瓶頸 : 候選集生成 巨大的候選集 : 104 個(gè)頻繁 1-項(xiàng)集要生成 107 個(gè)候選 2-項(xiàng)集 要找尺寸為 100的頻繁模式,如 a1, a2, , a100, 你必須先產(chǎn)生 2100 1030 個(gè)候選集 多次掃描數(shù)據(jù)庫(kù): 如果最長(zhǎng)的模式是 n的話,則需要 (n +1 ) 次數(shù)據(jù)庫(kù)掃描 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.1 聚類分析的概念與分類 聚類分析概念 聚類分析方法的分類 類別 算法 分裂(劃分)法 K-MEANS算法( K-平均)、 K-MEDOIDS算法( K-中心點(diǎn))、 CLARANS算法(給予選擇的方法) 層次法 BIRCH算法(平衡迭代歸約和聚類)、 CURE算法(代表聚類)、 CHAMELEON算法(動(dòng)態(tài)模型) 基于密度的方法 DBSCAN算法(基于高密度連接區(qū)域)、 OPTICS算法(對(duì)象排序識(shí)別)、DENCLUE算法(密度分布函數(shù)) 基于網(wǎng)格的方法 STING算法(統(tǒng)計(jì)信息網(wǎng)格)、 CLIQUE算法(聚類高維空間)、 WAVE-CLUSTER算法(小波變換) 基于模型的方法 統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.2 聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法 區(qū)間標(biāo)度變量計(jì)算方法 二元變量計(jì)算方法 標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計(jì)算方法 混合類型的變量計(jì)算方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.3 劃分方法 典型的劃分方法: k-平均和 k-中心點(diǎn) 基于簇的重心技術(shù): k-平均方法 基于有代表性的對(duì)象的技術(shù): k-中心點(diǎn)方法 大型數(shù)據(jù)庫(kù)中的劃分方法:基于選擇的 K-中心點(diǎn) CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.4 層次方法 凝聚的和分裂的層次聚類 凝聚層次聚類方法 AGNES 分裂層次聚類方法 DIANA 利用層次方法的平衡迭代歸約和聚類 綜合的層次聚類方法 BIRCH 利用代表點(diǎn)聚類 一種新穎的層次聚類算法 CURE 一個(gè)利用動(dòng)態(tài)模型的層次聚類算法 動(dòng)態(tài)模型的聚類法 chameleon (變色龍 ) E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.5 基于密度的方法 一個(gè)基于高密度連接區(qū)域的聚類方法 DBSCAN 聚類方法 通過對(duì)象排序識(shí)別聚類結(jié)構(gòu) OPTICS聚類分析方法 基于密度分布函數(shù)的聚類 基于一組密度分布函數(shù)的聚類算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4數(shù)據(jù)挖掘的聚類算法 6.4.6 基于網(wǎng)格的方法 統(tǒng)計(jì)信息網(wǎng)絡(luò) STING是一種基于網(wǎng)格的多分辨率聚類技術(shù) 聚類高維空間 CLIQUE( clustering in quest, CLIQUE)聚類算法 6.4.7 基于模型的聚類方法 增量概念聚類算法 COBWEB 6.4.8 模糊聚類算法 E-MAIL:BXXHSSINA.COM 6.5 數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法 6.5.1 辨別方法 6.5.2 回歸模型 6.5.3 優(yōu)點(diǎn)與缺點(diǎn) E-MAIL:BXXHSSINA.COM 6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法 6.6.1 品種優(yōu)化 6.6.2 品種優(yōu)化算法 E-MAIL:BXXHSSINA.COM 6.7數(shù)據(jù)挖掘的進(jìn)化算法 6.7.1 遺傳算法 如何工作 優(yōu)缺點(diǎn) 6.7.2 神經(jīng)網(wǎng)絡(luò)算法 如何工作 無指導(dǎo)的學(xué)習(xí) 競(jìng)爭(zhēng)學(xué)習(xí) 自組織特征映射模型 優(yōu)缺點(diǎn) E-MAIL:BXXHSSINA.COM 6.7數(shù)據(jù)挖掘的進(jìn)化算法 神經(jīng)網(wǎng)絡(luò)模型 性別 區(qū)域 職位 B類客戶 年齡 交易額 受教育的年限 圖 6.10 神經(jīng)網(wǎng)絡(luò)模型 C類客戶 跳槽客戶 隱節(jié)點(diǎn) 隱節(jié)點(diǎn) A類客戶 隱節(jié)點(diǎn) 隱節(jié)點(diǎn) E-MAIL:BXXHSSINA.COM 第 7章 非結(jié)構(gòu)化數(shù)據(jù)挖掘 本章內(nèi)容 : 7.1 Web數(shù)據(jù)挖掘 7.2 空間群數(shù)據(jù)挖掘 7.3 多媒體數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源 Web數(shù)據(jù)挖掘的難點(diǎn) 對(duì)數(shù)據(jù)來源分析 異構(gòu)數(shù)據(jù)環(huán)境 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu) 解決半結(jié)構(gòu)化的數(shù)據(jù)源問題 文本總結(jié) XML與 Web數(shù)據(jù)挖掘技術(shù) XML的產(chǎn)生與發(fā)展 XML的主要特點(diǎn) E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源 XML在 Web數(shù)據(jù)挖掘中的應(yīng)用 兩個(gè)或更多異質(zhì)數(shù)據(jù)庫(kù)之間進(jìn)行通信的應(yīng)用 大部分處理負(fù)載從 Web服務(wù)器轉(zhuǎn)到 Web客戶端的應(yīng)用 Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用 需要智能 Web代理根據(jù)用戶個(gè)人的需要裁減信息內(nèi)容的應(yīng)用 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.2 Web挖掘分類 Web挖掘 Web content mining (Web內(nèi)容挖掘 ) Web structure mining (Web結(jié)構(gòu)挖掘 ) Web usage mining (Web訪問挖掘 ) Search result mining(搜索結(jié)果再挖掘 ) General access pattern tracking (一般訪問模式跟蹤) Customized usage tracking (定制的使用跟蹤 ) Web page content mining(Web頁(yè)面內(nèi)容挖掘 ) 圖 7.1 Web挖掘分類 E-MAIL:BXXHSSINA.COM Web挖掘三種方法比較 Web內(nèi)容挖掘 Web結(jié)構(gòu)挖掘 Web訪問挖掘 處理數(shù)據(jù)類型 IR方法 數(shù)據(jù)庫(kù)方法 Web結(jié)構(gòu)挖掘 用戶訪問挖掘 無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù) 主要數(shù)據(jù) 自由文本、 HTML標(biāo)記的超文本 HTML標(biāo)記的超文本 文檔內(nèi)及文檔間的超鏈接 Serverlog,proxy serverlog,client log 表示方法 詞集、段落、概念、 IR的三種經(jīng)典模型 OEM 關(guān)系 圖 關(guān)系表、圖 處理方法 TFIDF、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語(yǔ)言理解 數(shù)據(jù)庫(kù)技術(shù) 機(jī)器學(xué)習(xí)、專有算法(如 HITS pagerank) 統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則 主要應(yīng)用 分類、聚類、模式發(fā)現(xiàn) 模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)?、多維數(shù)據(jù)庫(kù)、站點(diǎn)創(chuàng)建與維護(hù) 頁(yè)面權(quán)重分類聚類、模式發(fā)現(xiàn) 用戶個(gè)性化、自適應(yīng) Web站點(diǎn)、商業(yè)決策 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 Web挖掘的基本構(gòu)架 訪問者 注冊(cè)用戶 網(wǎng)站 交易信息 瀏覽信息 數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù) Web日志文件 Web Serer中其他信息 數(shù)據(jù)預(yù)處理模塊 結(jié)構(gòu)數(shù)據(jù)挖掘模塊 Web挖掘的基本構(gòu)架 頁(yè)面訪問情況 Web結(jié)構(gòu)模式 Web內(nèi)容模式 知識(shí) 非結(jié)構(gòu)數(shù)據(jù)挖掘模塊 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.3 Web內(nèi)容挖掘 信息檢索( information retrieve , IR)方法 數(shù)據(jù)庫(kù)方法 7.1.4 Web結(jié)構(gòu)挖掘 Page-Rank方法 7.1.5 Web訪問挖掘 對(duì) Web日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄 采用統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在 Web的使用記錄中挖掘知識(shí) Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 7.1.6 利用 Web日志的聚類算法 客戶群體的模糊聚類算法 用戶訪問興趣的算法 客戶群體聚類的 Hamming距離算法 基于模糊理論的 Web頁(yè)面聚類算法 Web頁(yè)面聚類的 Hamming距離算法 E-MAIL:BXXHSSINA.COM 7.1 Web數(shù)據(jù)挖掘 電子商務(wù)中的 Web挖掘 電子商務(wù)中 Web挖掘的作用 電子商務(wù)中 Web挖掘的基本問題 電子商務(wù)中的數(shù)據(jù)挖掘工具 文本信息挖掘工具 用戶訪問模式挖掘工具 用戶導(dǎo)航行為挖掘工具 綜合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空間群數(shù)據(jù)挖掘 7.2.1 空間群數(shù)據(jù)挖掘 概念 從空間數(shù)據(jù)中抽取隱含的知識(shí)、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。 7.2.2 空間群數(shù)據(jù)挖掘分類 空間檢索 空間拓?fù)浏B加分析 空間模擬分析 E-MAIL:BXXHSSINA.COM 7.2 空間群數(shù)據(jù)挖掘 7.2.3 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu) 空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析 信息集成 模式知識(shí)級(jí)處理 語(yǔ)義級(jí)檢索與索引 領(lǐng)域知識(shí) 模式知識(shí) 對(duì)象和屬性抽取 物理級(jí)底層特性處理設(shè)計(jì) 圖 7.4 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu) 對(duì)象級(jí)特征處理 語(yǔ)義概念級(jí)處理 用戶 空間數(shù)據(jù)處理 E-MAIL:BXXHSSINA.COM 7.3多媒體數(shù)據(jù)挖掘 7.3.1 多媒體數(shù)據(jù)挖掘的概念 7.3.2 多媒體數(shù)據(jù)挖掘的分類 圖像數(shù)據(jù)挖掘 視頻數(shù)據(jù)挖掘 音頻數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒體數(shù)據(jù)挖掘 7.3.3 多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu) 原始數(shù)據(jù) 媒體數(shù)據(jù)攝取 媒體編碼 存檔 瀏覽引擎 分類 特征抽取 查詢引擎工具 交互式學(xué)習(xí) 索引的生成 用戶 圖 7.5 功能驅(qū)動(dòng)的多媒體挖掘體系結(jié)構(gòu) 基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析 信息集成 模式知識(shí)級(jí)處理 語(yǔ)義級(jí)檢索與索引 領(lǐng)域知識(shí) 模式知識(shí) 對(duì)象級(jí)的索引與檢索 物理級(jí)底層特性處理設(shè)計(jì) 圖 7.6 信息驅(qū)動(dòng)的多媒體挖掘的結(jié)構(gòu) 對(duì)象級(jí)特征處理 語(yǔ)義概念級(jí)處理 用戶 多媒體處理 E-MAIL:BXXHSSINA.COM 第 8章 離群數(shù)據(jù)挖掘 本章內(nèi)容 離群數(shù)據(jù)挖掘概念 離群數(shù)據(jù)挖掘分類 離群數(shù)據(jù)挖掘算法 市場(chǎng)營(yíng)銷離群數(shù)據(jù)的特點(diǎn) E-MAIL:BXXHSSINA.COM 第 8章 離群數(shù)據(jù)挖掘 8.1 離群數(shù)據(jù)挖掘的概念 8.2 離群數(shù)據(jù)挖掘的分類 基于統(tǒng)計(jì)學(xué) 基于距離的方法 基于偏移 高維數(shù)據(jù)的離群數(shù)據(jù)探測(cè) 基于規(guī)則的分類離群數(shù)據(jù)挖掘方法 基于密度 (density-based)的離群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3離群數(shù)據(jù)挖掘的算法 8.3.1基于統(tǒng)計(jì)的方法 8.3.2基于距離的離群數(shù)據(jù)方法 基于距離的離群數(shù)據(jù)定義 基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述 基于距離的算法的改進(jìn) 8.3.3 基于偏離的離群數(shù)據(jù)挖掘 序列離群數(shù)據(jù)技術(shù) OLAP數(shù)據(jù)立方體技術(shù) E-MAIL:BXXHSSINA.COM 8.3離群數(shù)據(jù)挖掘的算法 8.3.4 高維數(shù)據(jù)的離群數(shù)據(jù)挖掘 8.3.5 基于小波的離群數(shù)據(jù)挖掘 時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘 基于聚類的離群數(shù)據(jù) CL( ) E-MAIL:BXXHSSINA.COM 8.4市場(chǎng)營(yíng)銷離群數(shù)據(jù)挖掘 8.4.1市場(chǎng)營(yíng)銷離群數(shù)據(jù)挖掘特點(diǎn) 8.4.2 基于分形的市場(chǎng)營(yíng)銷離群數(shù)據(jù)挖掘模型 幾個(gè)定義 E-MAIL:BXXHSSINA.COM 第 9章 數(shù)據(jù)挖掘語(yǔ)言與工具選擇 本章內(nèi)容 9.1 數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化 9.2 數(shù)據(jù)挖掘研究熱點(diǎn) 9.3 數(shù)據(jù)挖掘工具的選擇 E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語(yǔ)言分類 類別 特點(diǎn) 功能 代表 數(shù)據(jù)挖掘查詢語(yǔ)言 數(shù)據(jù)挖掘原語(yǔ) 五種原語(yǔ) DMQL 數(shù)據(jù)挖掘建模語(yǔ)言 基于 XML的語(yǔ)言 文檔類型定義、通用模式 PMML 通用數(shù)據(jù)挖掘語(yǔ)言 集成 全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語(yǔ)言分類 數(shù)據(jù)挖掘查詢語(yǔ)言 ( 5種數(shù)據(jù)挖掘原語(yǔ)定義)。 任務(wù)相關(guān)數(shù)據(jù)原語(yǔ) 被挖掘的知識(shí)的種類原語(yǔ) 背景知識(shí)原語(yǔ) 興趣度測(cè)量原語(yǔ) 被發(fā)現(xiàn)模式的表示和可視化原語(yǔ) E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語(yǔ)言分類 數(shù)據(jù)挖掘建模語(yǔ)言 頭文件( a header) 數(shù)據(jù)模式( a data schema) 數(shù)據(jù)挖掘模式( a data mining schema) 預(yù)言模型模式( a predictive model schema) 預(yù)言模型定義( definitions for predictive models) 全體模型定義( definitions for ensembles of models) 選擇和聯(lián)合模型、全體模型的規(guī)則( rules for selecting and combining models and ensembles of models) 異常處理的規(guī)則( rules for exception handling) E-MAIL:BXXHSSINA.COM 9.1 數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化 9.1.1 數(shù)據(jù)挖掘語(yǔ)言分類 通用數(shù)據(jù)挖掘語(yǔ)言 數(shù)據(jù)挖掘模型( Data Mining Model, DMM) 預(yù)言聯(lián)接操作( Predication Join Operation) OLE DB for DM模式行集合( Schema Rowsets) 9.1.2 分析與評(píng)價(jià) E-MAIL:BXXHSSINA.COM 9.2數(shù)據(jù)挖掘的研究熱點(diǎn) 網(wǎng)站的數(shù)據(jù)挖掘 生物信息或基因的數(shù)據(jù)挖掘 文本的數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.1 評(píng)價(jià)數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo) 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)訪問 算法與建模 模型的評(píng)價(jià)和解釋 用戶界面 E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.2 通用數(shù)據(jù)挖掘產(chǎn)品與工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可視化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司( SPPS CHAID) SAS研究所股份公司( SAS,JMP) NeuralWare股份公司 信息發(fā)現(xiàn)股份公司( IDIS) RightPoint公司的數(shù)據(jù)挖掘工具 DataCruncher DataMind公司( DataMind專業(yè)版, DataMindCruncher) Pilot軟件股份公司( Pilot 發(fā)現(xiàn)服務(wù)器) Angoss國(guó)際有限公司( Knowledge SEEKER) Silicon Graphics計(jì)算機(jī)系統(tǒng)公司( MineSet) 商務(wù)項(xiàng)目公司(商務(wù)挖掘器) Cognos軟件公司( Scenario) 思維機(jī)器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.3 國(guó)內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具 菲奈特一融通公司 廣州華工明天科技有限公司 復(fù)旦大學(xué)數(shù)據(jù)采掘工具 ARMiner 9.3.4 數(shù)據(jù)可視化工具的選擇 高級(jí)可視化系統(tǒng)公司( AVS/Express) Alta分析股份藹公司( NetMap) Belmont 研究股份公司( Cross Graphs) 環(huán)境系統(tǒng)研究所( ESRI)股份公司 MapInfo公司( MapInfo, SpatialWare) Silicon Graphics計(jì)算機(jī)系統(tǒng)公司( MineSet) E-MAIL:BXXHSSINA.COM 9.3 數(shù)據(jù)挖掘工具的選擇 9.3.5數(shù)據(jù)挖掘網(wǎng)站與可獲得的數(shù)據(jù)挖掘算法源代碼 數(shù)據(jù)挖掘網(wǎng)站 知識(shí)發(fā)現(xiàn)挖掘網(wǎng)址: 數(shù)據(jù)挖掘網(wǎng)址: http:/www.cs.bham.ac.uk 太平洋西北神經(jīng)網(wǎng)絡(luò)國(guó)家實(shí)驗(yàn)室網(wǎng)址:http:/www.emsl.pnl.gou 技術(shù)保護(hù) -遺傳算法網(wǎng)址: http:/w

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論