數據倉庫與數據挖掘技術教案PPT(6-10章)

上傳人：紅*** IP屬地：江蘇上傳時間：2015-08-04 格式：PPT 頁數：79 大?。?06.50KB 積分：6 舉報 版權申訴

已閱讀5頁，還剩74頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章數據挖掘基本算法本章內容： 6.1 分類規(guī)則挖掘 6.2 預測分析與趨勢分析規(guī)則 6.3 數據挖掘的關聯算法 6.4 數據挖掘的聚類算法 6.5 數據挖掘的統計分析算法 6.6 數據挖掘的品種優(yōu)化算法 6.7 數據挖掘的進化算法 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 1 分類為了理解事物特征并做出預測使用歷史數據建立一個分類模型（即分類器）的過程。應用于信用卡系統中的信用分級、市場調查、療效診斷、尋找店址等實踐應用參照課本 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 2 估值估值（ estimation）與分類類似，不同之處在于，分類描述的是離散型變量的輸出，而估值處理連續(xù)值的輸出；分類的類別是確定的數目，估值的量是不確定的。 3 分類方法與步驟方法：決策樹歸納、貝葉斯分類、貝葉斯網絡、神經網絡。還有 K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟：模型創(chuàng)建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 4 評估分類方法要考慮的指標：預測準確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數據的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹父節(jié)點子節(jié)點子節(jié)點葉節(jié)點子節(jié)點子節(jié)點子節(jié)點根節(jié)點圖 6.1 一般決策樹結構葉節(jié)點父節(jié)點 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構造過程 ID3算法應用如下： )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量計算公式： I(s1,s2, sm)=- （ 6.1）其中， pi為 si占整個類別的概率利用屬性 A劃分當前樣本集合所需要的信息（熵）的計算公式為： E（ A） = (6.2) 信息增益公式： Gain（ A） = I(s1,s2, sm)-E（ A）（ 6.3）例如：一個銷售的顧客數據庫（訓練樣本集合） ,對購買計算機的人員進行分類：字段為：（年齡（取值： 40）；收入 (高，中，低 )；學生否（ Y， N）；信用（一般，很好）；購買計算機否（ Y， N）記錄為 14個，具體數據如下： X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y)； X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構造過程決策樹的構造算法：決策樹的構造算法可通過訓練集 T完成，其中 T=，而x=(a1,a2, an)為一個訓練實例，它有 n個屬性，分別列于屬性表(A1,A2, An)中，其中 ai表示屬性 Ai的取值。 Cj C=C1,C2, Cm為 x的分類結果。從屬性表中選擇屬性 Ai作為分類屬性；若屬性 Ai的取值有 ki個，則將 T劃分為 ki個子集， T1,T ki，其中 Tij=| T，且 x的屬性取值 A為第 i個值；接下來從屬性表中刪除屬性 Ai；對于每一個Tij(1jK1)，令 T=Tij；如果屬性表非空，返回第 1步，否則輸出。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 2分類器定義：輸入的數據含有千萬個記錄，每個記錄又有很多個屬性，其中有一個特別的屬性叫做類（例如信用程度的高，中，低）。具體步驟： 1）樹的建立。 2）樹的修剪 ,SLIQ采用了 MDL（最小敘述長度）的方法來修剪樹。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 3決策樹的可擴展性 4基于決策樹方法的數據挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 1貝葉斯信任網絡如何工作邊緣主區(qū)域手機呼叫服務區(qū)域 no yes 外界圖 6.3 簡單的貝葉斯網圖 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 2貝葉斯定理與樸素貝葉斯分類貝葉斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中， P(H|X)表示條件 X下 H的概率，也稱為條件概率或稱為后驗概率(posteriori probabilities)。樸素貝葉斯分類：假定有 m個類 C1, Cm,對于數據樣本 X,分類法將預測 X屬于類Ci,當且僅當 P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2預測分析與趨勢分析規(guī)則 6.2.1 預言的基本方法預言（ prediction）是一門掌握對象變化動態(tài)的科學，它是對對象變動趨勢的預見、分析和判斷，也是一種動態(tài)分析方法。預測的基本步驟：確定預測目標，包括預測對象、目的、對象范圍；收集分析內部和外部資料；數據的處理及模型的選擇；預測模型的分析、修正；確定預測值。 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.2 定量分析預測時間序列法回歸預測非線性模型灰色預測模型 GM（ 1， 1）組合預測 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.3預測的結果分析預測的結果分析要考慮到的因素：相反的預測結果勝出裕度成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.4 趨勢分析挖掘分析時間序列數據需要注意以下方面：長時間的走向周期的走向與周期的變化季節(jié)性的走向與變化不規(guī)則的隨機走向 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.1 關聯規(guī)則的概念及分類 1關聯規(guī)則的概念定義 1 設 I=i1、 i2、 i3， , im是由 m個不同的數據項目組成的集合，其中的元素稱為項 (item)，項的集合稱為項集，包含 k個項的項集稱為 k項集 ,給定一個事務（交易） D，即交易數據庫，其中的每一個事務（交易） T是數據項 I的一個子集，即，T有一個惟一的標積符 TID；當且僅當時，稱交易 T包含項集 X；那么關聯規(guī)則就形如“ X=Y”的蘊涵式；其中，，即表示滿足 X中條件的記錄也一定滿足 Y。關聯規(guī)則 X=Y在交易數據庫中成立 , 具有支持度 s和具有置信度 c 。這也就是交易數據集 D中具有支持度 s，即 D中至少有 s%的事務包含 ,描述為： support(X=Y)= 比如 Support(X=Y )=同時購買商品 X和 Y的交易數總交易數同時交易數據集 D中具有置信度 c，即 D中包含 X的事務至少有 c%同時也包含 Y,描述為： confidence(X=Y)= 比如購買了商品 X，同時購買商品 Y可信度， confidence(X=Y)=同時購買商品 X和 Y的交易數購買了商品 X的交易數一般稱滿足一定要求的規(guī)則為強規(guī)則。通常稱滿足最小支持度和最小置信度的關聯規(guī)則為強關聯規(guī)則（ strong）。一般將最小支持度簡記為 minsup和最小置信度簡記為 minconf。 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.1 關聯規(guī)則的概念及分類 2 關聯規(guī)則的分類分類標準類別規(guī)則中所處理的值布爾關聯規(guī)則，量化關聯規(guī)則規(guī)則中所涉及的數據維單維關聯規(guī)則和多維關聯規(guī)則規(guī)則中所涉及的抽象層單層關聯規(guī)則和多層關聯規(guī)則規(guī)則中的擴充最大的模式和頻繁閉項集關聯特性分類分析與相關分析 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.2 簡單形式的關聯規(guī)則算法（單維、單層和布爾關聯規(guī)則） 1簡單形式的關聯規(guī)則的核心算法找到所有支持度大于最小支持度的項集 ,即頻集 ,有 k個數據頻集稱為 k項頻集 .找出所有的頻集由 apriori算法實現。Apriori性質具有一個頻集的任一非空子集都是頻集。使用第 1步找到的頻集產生期望的規(guī)則 apriori算法的詳細介紹見課本。 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.2 簡單形式的關聯規(guī)則算法（單維、單層和布爾關聯規(guī)則） 2 頻集算法的幾種優(yōu)化方法基于劃分的方法基于 hash的方法基于采樣的方法減少交易的個數 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.2 簡單形式的關聯規(guī)則算法（單維、單層和布爾關聯規(guī)則） 3 其他的頻集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.3 多層和多維關聯規(guī)則的挖掘多層關聯規(guī)則多維關聯規(guī)則關聯規(guī)則價值衡量的方法 6.3.4 貨籃子分析存在的問題詳見課本 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.5 關聯分析的其他算法發(fā)現關聯的更好方法統計相關以外的理解關聯有效可行的市場籃子分析 6.3.6 挖掘序列模式序列模式的概念及定義序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 關聯規(guī)則挖掘一個例子交易 ID 購買商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項集支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 對于 A C： support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 頻繁項集的任何子集也一定是頻繁的 E-MAIL:BXXHSSINA.COM 關鍵步驟：挖掘頻繁集頻繁集 :是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如 , 如果 AB 是頻繁集，則 A B 也一定是頻繁集從 1到 k（ k-頻繁集）遞歸查找頻繁集用得到的頻繁集生成關聯規(guī)則 E-MAIL:BXXHSSINA.COM Apriori算法連接 : 用 Lk-1自連接得到 Ck 修剪 : 一個 k-項集，如果他的一個 k-1項集（他的子集）不是頻繁的，那他本身也不可能是頻繁的。偽代碼 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數據庫 D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3掃描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 掃描 D C3 L3 item set2 3 5 掃描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候選集假定 Lk-1 中的項按順序排列第一步 : 自連接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何計算候選集的支持度計算支持度為什么會成為一個問題？候選集的個數非常巨大一筆交易可能包含多個候選集方法 : 用 hash-tree 存放候選集樹的葉子節(jié)點 of存放項集的列表和支持度內部節(jié)點是一個 hash表 Subset 函數 : 找到包含在一筆交易中的所有候選集 E-MAIL:BXXHSSINA.COM 生成候選集的例子 L3=abc, abd, acd, ace, bcd 自連接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中，刪除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法基于 Hash的項集計數 : 如果一個 k-項集在 hash-tree的路徑上的一個計數值低于閾值，那他本身也不可能是頻繁的。減少交易記錄 : 不包含任何頻繁 k-項集的交易也不可能包含任何大于 k的頻繁集分割 : 一個項集要想在整個數據庫中是頻繁的，那么他至少在數據庫的一個分割上是頻繁的。采樣 : 在給定數據的子集上挖掘，使用小的支持度 +完整性驗證方法動態(tài)項集計數 : 在添加一個新的候選集之前，先估計一下是不是他的所有子集都是頻繁的。 E-MAIL:BXXHSSINA.COM Apriori 夠快了嗎 ? 性能瓶頸 Apriori算法的核心 : 用頻繁的 (k 1)-項集生成候選的頻繁 k-項集用數據庫掃描和模式匹配計算候選集的支持度 Apriori 的瓶頸 : 候選集生成巨大的候選集 : 104 個頻繁 1-項集要生成 107 個候選 2-項集要找尺寸為 100的頻繁模式，如 a1, a2, , a100, 你必須先產生 2100 1030 個候選集多次掃描數據庫：如果最長的模式是 n的話，則需要 (n +1 ) 次數據庫掃描 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.1 聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂（劃分）法 K-MEANS算法（ K-平均）、 K-MEDOIDS算法（ K-中心點）、 CLARANS算法（給予選擇的方法）層次法 BIRCH算法（平衡迭代歸約和聚類）、 CURE算法（代表聚類）、 CHAMELEON算法（動態(tài)模型）基于密度的方法 DBSCAN算法（基于高密度連接區(qū)域）、 OPTICS算法（對象排序識別）、DENCLUE算法（密度分布函數）基于網格的方法 STING算法（統計信息網格）、 CLIQUE算法（聚類高維空間）、 WAVE-CLUSTER算法（小波變換）基于模型的方法統計學方法、神經網絡方法 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.2 聚類分析中兩個對象之間的相異度計算方法區(qū)間標度變量計算方法二元變量計算方法標稱型、序數型和比例標度型變量計算方法混合類型的變量計算方法 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.3 劃分方法典型的劃分方法： k-平均和 k-中心點基于簇的重心技術： k-平均方法基于有代表性的對象的技術： k-中心點方法大型數據庫中的劃分方法：基于選擇的 K-中心點 CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.4 層次方法凝聚的和分裂的層次聚類凝聚層次聚類方法 AGNES 分裂層次聚類方法 DIANA 利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法 BIRCH 利用代表點聚類一種新穎的層次聚類算法 CURE 一個利用動態(tài)模型的層次聚類算法動態(tài)模型的聚類法 chameleon (變色龍 ) E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.5 基于密度的方法一個基于高密度連接區(qū)域的聚類方法 DBSCAN 聚類方法通過對象排序識別聚類結構 OPTICS聚類分析方法基于密度分布函數的聚類基于一組密度分布函數的聚類算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.6 基于網格的方法統計信息網絡 STING是一種基于網格的多分辨率聚類技術聚類高維空間 CLIQUE（ clustering in quest, CLIQUE）聚類算法 6.4.7 基于模型的聚類方法增量概念聚類算法 COBWEB 6.4.8 模糊聚類算法 E-MAIL:BXXHSSINA.COM 6.5 數據挖掘的統計分析算法 6.5.1 辨別方法 6.5.2 回歸模型 6.5.3 優(yōu)點與缺點 E-MAIL:BXXHSSINA.COM 6.6 數據挖掘的品種優(yōu)化算法 6.6.1 品種優(yōu)化 6.6.2 品種優(yōu)化算法 E-MAIL:BXXHSSINA.COM 6.7數據挖掘的進化算法 6.7.1 遺傳算法如何工作優(yōu)缺點 6.7.2 神經網絡算法如何工作無指導的學習競爭學習自組織特征映射模型優(yōu)缺點 E-MAIL:BXXHSSINA.COM 6.7數據挖掘的進化算法神經網絡模型性別區(qū)域職位 B類客戶年齡交易額受教育的年限圖 6.10 神經網絡模型 C類客戶跳槽客戶隱節(jié)點隱節(jié)點 A類客戶隱節(jié)點隱節(jié)點 E-MAIL:BXXHSSINA.COM 第 7章非結構化數據挖掘本章內容 : 7.1 Web數據挖掘 7.2 空間群數據挖掘 7.3 多媒體數據挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.1 非結構化數據源 Web數據挖掘的難點對數據來源分析異構數據環(huán)境半結構化的數據結構解決半結構化的數據源問題文本總結 XML與 Web數據挖掘技術 XML的產生與發(fā)展 XML的主要特點 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.1 非結構化數據源 XML在 Web數據挖掘中的應用兩個或更多異質數據庫之間進行通信的應用大部分處理負載從 Web服務器轉到 Web客戶端的應用 Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶的應用需要智能 Web代理根據用戶個人的需要裁減信息內容的應用 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.2 Web挖掘分類 Web挖掘 Web content mining (Web內容挖掘 ) Web structure mining (Web結構挖掘 ) Web usage mining (Web訪問挖掘 ) Search result mining(搜索結果再挖掘 ) General access pattern tracking （一般訪問模式跟蹤） Customized usage tracking (定制的使用跟蹤 ) Web page content mining(Web頁面內容挖掘 ) 圖 7.1 Web挖掘分類 E-MAIL:BXXHSSINA.COM Web挖掘三種方法比較 Web內容挖掘 Web結構挖掘 Web訪問挖掘處理數據類型 IR方法數據庫方法 Web結構挖掘用戶訪問挖掘無結構和半結構化數據半結構化數據主要數據自由文本、 HTML標記的超文本 HTML標記的超文本文檔內及文檔間的超鏈接 Serverlog,proxy serverlog,client log 表示方法詞集、段落、概念、 IR的三種經典模型 OEM 關系圖關系表、圖處理方法 TFIDF、統計、機器學習、自然語言理解數據庫技術機器學習、專有算法（如 HITS pagerank）統計、機器學習、關聯規(guī)則主要應用分類、聚類、模式發(fā)現模式發(fā)現、數據向導、多維數據庫、站點創(chuàng)建與維護頁面權重分類聚類、模式發(fā)現用戶個性化、自適應 Web站點、商業(yè)決策 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 Web挖掘的基本構架訪問者注冊用戶網站交易信息瀏覽信息數據庫、數據倉庫 Web日志文件 Web Serer中其他信息數據預處理模塊結構數據挖掘模塊 Web挖掘的基本構架頁面訪問情況 Web結構模式 Web內容模式知識非結構數據挖掘模塊 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.3 Web內容挖掘信息檢索（ information retrieve ， IR）方法數據庫方法 7.1.4 Web結構挖掘 Page-Rank方法 7.1.5 Web訪問挖掘對 Web日志進行清洗、過濾和轉換以及剔除無關記錄采用統計學、模式識別、人工智能、數據庫數據挖掘等領域的成熟技術在 Web的使用記錄中挖掘知識 Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.6 利用 Web日志的聚類算法客戶群體的模糊聚類算法用戶訪問興趣的算法客戶群體聚類的 Hamming距離算法基于模糊理論的 Web頁面聚類算法 Web頁面聚類的 Hamming距離算法 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘電子商務中的 Web挖掘電子商務中 Web挖掘的作用電子商務中 Web挖掘的基本問題電子商務中的數據挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導航行為挖掘工具綜合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空間群數據挖掘 7.2.1 空間群數據挖掘概念從空間數據中抽取隱含的知識、空間關系、空間及與非空間之間的有意義的特征或模式。 7.2.2 空間群數據挖掘分類空間檢索空間拓撲疊加分析空間模擬分析 E-MAIL:BXXHSSINA.COM 7.2 空間群數據挖掘 7.2.3 空間數據挖掘的體系結構空間數據結構查詢與優(yōu)化原則的分析信息集成模式知識級處理語義級檢索與索引領域知識模式知識對象和屬性抽取物理級底層特性處理設計圖 7.4 空間數據挖掘的體系結構對象級特征處理語義概念級處理用戶空間數據處理 E-MAIL:BXXHSSINA.COM 7.3多媒體數據挖掘 7.3.1 多媒體數據挖掘的概念 7.3.2 多媒體數據挖掘的分類圖像數據挖掘視頻數據挖掘音頻數據挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒體數據挖掘 7.3.3 多媒體數據挖掘的體系結構原始數據媒體數據攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學習索引的生成用戶圖 7.5 功能驅動的多媒體挖掘體系結構基于底層特性的索引與檢索元數據與數據抽取原則的分析信息集成模式知識級處理語義級檢索與索引領域知識模式知識對象級的索引與檢索物理級底層特性處理設計圖 7.6 信息驅動的多媒體挖掘的結構對象級特征處理語義概念級處理用戶多媒體處理 E-MAIL:BXXHSSINA.COM 第 8章離群數據挖掘本章內容離群數據挖掘概念離群數據挖掘分類離群數據挖掘算法市場營銷離群數據的特點 E-MAIL:BXXHSSINA.COM 第 8章離群數據挖掘 8.1 離群數據挖掘的概念 8.2 離群數據挖掘的分類基于統計學基于距離的方法基于偏移高維數據的離群數據探測基于規(guī)則的分類離群數據挖掘方法基于密度 (density-based)的離群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3離群數據挖掘的算法 8.3.1基于統計的方法 8.3.2基于距離的離群數據方法基于距離的離群數據定義基于距離的離群數據挖掘的算法分類及算法描述基于距離的算法的改進 8.3.3 基于偏離的離群數據挖掘序列離群數據技術 OLAP數據立方體技術 E-MAIL:BXXHSSINA.COM 8.3離群數據挖掘的算法 8.3.4 高維數據的離群數據挖掘 8.3.5 基于小波的離群數據挖掘時序數據的離群數據挖掘基于聚類的離群數據 CL（） E-MAIL:BXXHSSINA.COM 8.4市場營銷離群數據挖掘 8.4.1市場營銷離群數據挖掘特點 8.4.2 基于分形的市場營銷離群數據挖掘模型幾個定義 E-MAIL:BXXHSSINA.COM 第 9章數據挖掘語言與工具選擇本章內容 9.1 數據挖掘語言及其標準化 9.2 數據挖掘研究熱點 9.3 數據挖掘工具的選擇 E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類類別特點功能代表數據挖掘查詢語言數據挖掘原語五種原語 DMQL 數據挖掘建模語言基于 XML的語言文檔類型定義、通用模式 PMML 通用數據挖掘語言集成全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類數據挖掘查詢語言（ 5種數據挖掘原語定義）。任務相關數據原語被挖掘的知識的種類原語背景知識原語興趣度測量原語被發(fā)現模式的表示和可視化原語 E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類數據挖掘建模語言頭文件（ a header）數據模式（ a data schema）數據挖掘模式（ a data mining schema）預言模型模式（ a predictive model schema）預言模型定義（ definitions for predictive models）全體模型定義（ definitions for ensembles of models）選擇和聯合模型、全體模型的規(guī)則（ rules for selecting and combining models and ensembles of models）異常處理的規(guī)則（ rules for exception handling） E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類通用數據挖掘語言數據挖掘模型（ Data Mining Model， DMM）預言聯接操作（ Predication Join Operation） OLE DB for DM模式行集合（ Schema Rowsets） 9.1.2 分析與評價 E-MAIL:BXXHSSINA.COM 9.2數據挖掘的研究熱點網站的數據挖掘生物信息或基因的數據挖掘文本的數據挖掘 E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.1 評價數據挖掘工具的優(yōu)劣指標數據準備數據訪問算法與建模模型的評價和解釋用戶界面 E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.2 通用數據挖掘產品與工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可視化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司（ SPPS CHAID） SAS研究所股份公司（ SAS,JMP） NeuralWare股份公司信息發(fā)現股份公司（ IDIS） RightPoint公司的數據挖掘工具 DataCruncher DataMind公司（ DataMind專業(yè)版， DataMindCruncher） Pilot軟件股份公司（ Pilot 發(fā)現服務器） Angoss國際有限公司（ Knowledge SEEKER） Silicon Graphics計算機系統公司（ MineSet）商務項目公司（商務挖掘器） Cognos軟件公司（ Scenario）思維機器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.3 國內的數據挖掘產品與工具菲奈特一融通公司廣州華工明天科技有限公司復旦大學數據采掘工具 ARMiner 9.3.4 數據可視化工具的選擇高級可視化系統公司（ AVS/Express） Alta分析股份藹公司（ NetMap） Belmont 研究股份公司（ Cross Graphs）環(huán)境系統研究所（ ESRI）股份公司 MapInfo公司（ MapInfo, SpatialWare） Silicon Graphics計算機系統公司（ MineSet） E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.5數據挖掘網站與可獲得的數據挖掘算法源代碼數據挖掘網站知識發(fā)現挖掘網址：數據挖掘網址： http:/www.cs.bham.ac.uk 太平洋西北神經網絡國家實驗室網址：http:/www.emsl.pnl.gou 技術保護 -遺傳算法網址： http:/w

人人文庫> 全部分類> 行業(yè)資料 > 商業(yè)貿易

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數據倉庫與數據挖掘技術教案PPT(6-10章)

文檔簡介

溫馨提示

最新文檔

評論

數據倉庫與數據挖掘技術教案PPT(6-10章)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔