數據倉庫與數據挖掘技術教案PPT(6-10章)_第1頁
數據倉庫與數據挖掘技術教案PPT(6-10章)_第2頁
數據倉庫與數據挖掘技術教案PPT(6-10章)_第3頁
數據倉庫與數據挖掘技術教案PPT(6-10章)_第4頁
數據倉庫與數據挖掘技術教案PPT(6-10章)_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Istitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM 第 6章 數據挖掘基本算法 本章內容: 6.1 分類規(guī)則挖掘 6.2 預測分析與趨勢分析規(guī)則 6.3 數據挖掘的關聯算法 6.4 數據挖掘的聚類算法 6.5 數據挖掘的統計分析算法 6.6 數據挖掘的品種優(yōu)化算法 6.7 數據挖掘的進化算法 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 1 分類 為了理解事物特征并做出預測使用歷史數據建立一個分類模型(即分類器)的過程 。 應用于信用卡系統中的信用分級、市場調查、療效診斷、尋找店址等 實踐應用參照課本 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 2 估值 估值( estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數目,估值的量是不確定的 。 3 分類方法與步驟 方法: 決策樹歸納、貝葉斯分類、貝葉斯網絡、神經網絡。還有 K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法 。 步驟: 模型創(chuàng)建、模型使用 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.1分類與估值 4 評估分類方法 要考慮的指標:預測準確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數據的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 父節(jié)點 子節(jié)點 子節(jié)點 葉節(jié)點 子節(jié)點 子節(jié)點 子節(jié)點 根節(jié)點 圖 6.1 一般決策樹結構 葉節(jié)點 父節(jié)點 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構造過程 ID3算法應用如下: )(log 21pipmii),.,1(1)/).21( s m jjsImjss m jjsjs)(log 21pipmii信息量計算公式: I(s1,s2, sm)=- ( 6.1) 其中, pi為 si占整個類別的概率 利用屬性 A劃分當前樣本集合所需要的信息(熵)的計算公式為: E( A) = (6.2) 信息增益公式: Gain( A) = I(s1,s2, sm)-E( A) ( 6.3) 例如:一個銷售的顧客數據庫(訓練樣本集合) ,對購買計算機的人員進行分類: 字段為:(年齡(取值: 40);收入 (高,中,低 );學生否( Y, N);信用(一般,很好);購買計算機否( Y, N) 記錄為 14個,具體數據如下: X1=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y); X6=(40, 低 ,Y, 很好 ,N) X7=(40, 中 ,Y, 一般 ,Y) X11=(40,中 ,N, 很好 ,N) E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 1決策樹的構造過程 決策樹的構造算法: 決策樹的構造算法可通過訓練集 T完成,其中 T=,而x=(a1,a2, an)為一個訓練實例,它有 n個屬性,分別列于屬性表(A1,A2, An)中,其中 ai表示屬性 Ai的取值。 Cj C=C1,C2, Cm為 x的分類結果。從屬性表中選擇屬性 Ai作為分類屬性;若屬性 Ai的取值有 ki個,則將 T劃分為 ki個子集, T1,T ki,其中 Tij=| T,且 x的屬性取值 A為第 i個值;接下來從屬性表中刪除屬性 Ai;對于每一個Tij(1jK1),令 T=Tij;如果屬性表非空,返回第 1步,否則輸出。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 2分類器 定義:輸入的數據含有千萬個記錄,每個記錄又有很多個屬性,其中有一個特別的屬性叫做類(例如信用程度的高,中,低)。 具體步驟 : 1)樹的建立。 2)樹的修剪 ,SLIQ采用了 MDL(最小敘述長度)的方法來修剪樹。 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.2 決策樹 3決策樹的可擴展性 4基于決策樹方法的數據挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 1貝葉斯信任網絡如何工作 邊緣 主區(qū)域 手機呼叫 服務區(qū)域 no yes 外界 圖 6.3 簡單的貝葉斯網圖 E-MAIL:BXXHSSINA.COM 6.1 分類規(guī)則挖掘 6.1.3 貝葉斯分類 2貝葉斯定理與樸素貝葉斯分類 貝葉斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中, P(H|X)表示條件 X下 H的概率,也稱為條件概率或稱為后驗概率(posteriori probabilities)。 樸素貝葉斯分類: 假定有 m個類 C1, Cm,對于數據樣本 X,分類法將預測 X屬于類Ci,當且僅當 P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM 6.2預測分析與趨勢分析規(guī)則 6.2.1 預言的基本方法 預言( prediction)是一門掌握對象變化動態(tài)的科學,它是對對象變動趨勢的預見、分析和判斷,也是一種動態(tài)分析方法。 預測的基本步驟: 確定預測目標,包括預測對象、目的、對象范圍; 收集分析內部和外部資料; 數據的處理及模型的選擇; 預測模型的分析、修正; 確定預測值。 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.2 定量分析預測 時間序列法 回歸預測 非線性模型 灰色預測模型 GM( 1, 1) 組合預測 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.3預測的結果分析 預測的結果分析要考慮到的因素: 相反的預測結果 勝出裕度 成本收益分析 E-MAIL:BXXHSSINA.COM 6.2 預測分析與趨勢分析規(guī)則 6.2.4 趨勢分析挖掘 分析時間序列數據需要注意以下方面 : 長時間的走向 周期的走向與周期的變化 季節(jié)性的走向與變化 不規(guī)則的隨機走向 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.1 關聯規(guī)則的概念及分類 1關聯規(guī)則的概念 定義 1 設 I=i1、 i2、 i3, , im是由 m個不同的數據項目組成的集合,其中的元素稱為項 (item),項的集合稱為項集,包含 k個項的項集稱為 k項集 ,給定一個事務(交易) D,即交易數據庫,其中的每一個事務(交易) T是數據項 I的一個子集,即,T有一個惟一的標積符 TID;當且僅當時,稱交易 T包含項集 X;那么關聯規(guī)則就形如“ X=Y”的蘊涵式;其中, ,即表示滿足 X中條件的記錄也一定滿足 Y。關聯規(guī)則 X=Y在交易數據庫中成立 , 具有支持度 s和具有置信度 c 。 這也就是交易數據集 D中具有支持度 s,即 D中至少有 s%的事務包含 ,描述 為: support(X=Y)= 比如 Support(X=Y )=同時購買商品 X和 Y的交易數 總交易數 同時交易數據集 D中具有置信度 c,即 D中包含 X的事務至少有 c%同時也包含 Y,描述為: confidence(X=Y)= 比如購買了商品 X,同時購買商品 Y可信度, confidence(X=Y)=同時購買商品 X和 Y的交易數 購買了商品 X的交易數 一般稱滿足一定要求的規(guī)則為強規(guī)則。通常稱滿足最小支持度和最小置信度的關聯規(guī)則為強關聯規(guī)則( strong)。一般將最小支持度簡記為 minsup和最小置信度簡記為 minconf。 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.1 關聯規(guī)則的概念及分類 2 關聯規(guī)則的分類 分類標準 類別 規(guī)則中所處理的值 布爾關聯規(guī)則,量化關聯規(guī)則 規(guī)則中所涉及的數據維 單維關聯規(guī)則和多維關聯規(guī)則 規(guī)則中所涉及的抽象層 單層關聯規(guī)則和多層關聯規(guī)則 規(guī)則中的擴充 最大的模式和頻繁閉項集 關聯特性 分類分析與相關分析 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.2 簡單形式的關聯規(guī)則算法(單維、單層和布爾關聯規(guī)則) 1簡單形式的關聯規(guī)則的核心算法 找到所有支持度大于最小支持度的項集 ,即頻集 ,有 k個數據頻集稱為 k項頻集 .找出所有的頻集由 apriori算法實現。Apriori性質具有一個頻集的任一非空子集都是頻集。 使用第 1步找到的頻集產生期望的規(guī)則 apriori算法的詳細介紹見課本。 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.2 簡單形式的關聯規(guī)則算法(單維、單層和布爾關聯規(guī)則) 2 頻集算法的幾種優(yōu)化方法 基于劃分的方法 基于 hash的方法 基于采樣的方法 減少交易的個數 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.2 簡單形式的關聯規(guī)則算法(單維、單層和布爾關聯規(guī)則) 3 其他的頻集挖掘方法 FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.3 多層和多維關聯規(guī)則的挖掘 多層關聯規(guī)則 多維關聯規(guī)則 關聯規(guī)則價值衡量的方法 6.3.4 貨籃子分析存在的問題 詳見課本 E-MAIL:BXXHSSINA.COM 6.3 數據挖掘的關聯算法 6.3.5 關聯分析的其他算法 發(fā)現關聯的更好方法 統計相關以外的 理解關聯 有效可行的市場籃子分析 6.3.6 挖掘序列模式 序列模式的概念及定義 序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM 關聯規(guī)則挖掘 一個例子 交易 ID 購買商品2000 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F頻繁項集 支持度 A 75% B 50% C 50% A ,C 50%最小值尺度 50% 最小可信度 50% 對于 A C: support = support(A 、 C) = 50% confidence = support(A 、 C)/support(A) = 66.6% Apriori的基本思想 : 頻繁項集的任何子集也一定是頻繁的 E-MAIL:BXXHSSINA.COM 關鍵步驟:挖掘頻繁集 頻繁集 :是指滿足最小支持度的項目集合 頻繁集的子集也一定是頻繁的 如 , 如果 AB 是頻繁集,則 A B 也一定是頻繁集 從 1到 k( k-頻繁集)遞歸查找頻繁集 用得到的頻繁集生成關聯規(guī)則 E-MAIL:BXXHSSINA.COM Apriori算法 連接 : 用 Lk-1自連接得到 Ck 修剪 : 一個 k-項集,如果他的一個 k-1項集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。 偽代碼 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = frequent items; for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk; E-MAIL:BXXHSSINA.COM Apriori算法 例子 T ID Ite m s100 1 3 4200 2 3 5300 1 2 3 5400 2 5數據庫 D ite m s e t s u p . 1 2 2 3 3 3 4 1 5 3i te m s e t s u p . 1 2 2 3 3 3 5 3掃描 D C1 L1 item set1 21 31 52 32 53 5ite m s et s up 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2ite m s e t s u p 1 3 2 2 3 2 2 5 3 3 5 2L2 C2 C2 掃描 D C3 L3 item set2 3 5 掃描 D ite m s e t s u p 2 3 5 2 E-MAIL:BXXHSSINA.COM 如何生成候選集 假定 Lk-1 中的項按順序排列 第一步 : 自連接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步 : 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM 如何計算候選集的支持度 計算支持度為什么會成為一個問題? 候選集的個數非常巨大 一筆交易可能包含多個候選集 方法 : 用 hash-tree 存放候選集 樹的 葉子節(jié)點 of存放項集的列表和支持度 內部節(jié)點 是一個 hash表 Subset 函數 : 找到包含在一筆交易中的所有候選集 E-MAIL:BXXHSSINA.COM 生成候選集的例子 L3=abc, abd, acd, ace, bcd 自連接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪 : ade 不在 L3中,刪除 acde C4=abcd E-MAIL:BXXHSSINA.COM 提高 Apriori效率的方法 基于 Hash的項集計數 : 如果一個 k-項集在 hash-tree的路徑上的一個計數值低于閾值,那他本身也不可能是頻繁的。 減少交易記錄 : 不包含任何頻繁 k-項集的交易也不可能包含任何大于 k的頻繁集 分割 : 一個項集要想在整個數據庫中是頻繁的,那么他至少在數據庫的一個分割上是頻繁的。 采樣 : 在給定數據的子集上挖掘,使用小的支持度 +完整性驗證方法 動態(tài)項集計數 : 在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。 E-MAIL:BXXHSSINA.COM Apriori 夠快了嗎 ? 性能瓶頸 Apriori算法的核心 : 用頻繁的 (k 1)-項集生成 候選 的頻繁 k-項集 用數據庫掃描和模式匹配計算候選集的支持度 Apriori 的瓶頸 : 候選集生成 巨大的候選集 : 104 個頻繁 1-項集要生成 107 個候選 2-項集 要找尺寸為 100的頻繁模式,如 a1, a2, , a100, 你必須先產生 2100 1030 個候選集 多次掃描數據庫: 如果最長的模式是 n的話,則需要 (n +1 ) 次數據庫掃描 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.1 聚類分析的概念與分類 聚類分析概念 聚類分析方法的分類 類別 算法 分裂(劃分)法 K-MEANS算法( K-平均)、 K-MEDOIDS算法( K-中心點)、 CLARANS算法(給予選擇的方法) 層次法 BIRCH算法(平衡迭代歸約和聚類)、 CURE算法(代表聚類)、 CHAMELEON算法(動態(tài)模型) 基于密度的方法 DBSCAN算法(基于高密度連接區(qū)域)、 OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數) 基于網格的方法 STING算法(統計信息網格)、 CLIQUE算法(聚類高維空間)、 WAVE-CLUSTER算法(小波變換) 基于模型的方法 統計學方法、神經網絡方法 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.2 聚類分析中兩個對象之間的相異度計算方法 區(qū)間標度變量計算方法 二元變量計算方法 標稱型、序數型和比例標度型變量計算方法 混合類型的變量計算方法 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.3 劃分方法 典型的劃分方法: k-平均和 k-中心點 基于簇的重心技術: k-平均方法 基于有代表性的對象的技術: k-中心點方法 大型數據庫中的劃分方法:基于選擇的 K-中心點 CLARANS方法 E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.4 層次方法 凝聚的和分裂的層次聚類 凝聚層次聚類方法 AGNES 分裂層次聚類方法 DIANA 利用層次方法的平衡迭代歸約和聚類 綜合的層次聚類方法 BIRCH 利用代表點聚類 一種新穎的層次聚類算法 CURE 一個利用動態(tài)模型的層次聚類算法 動態(tài)模型的聚類法 chameleon (變色龍 ) E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.5 基于密度的方法 一個基于高密度連接區(qū)域的聚類方法 DBSCAN 聚類方法 通過對象排序識別聚類結構 OPTICS聚類分析方法 基于密度分布函數的聚類 基于一組密度分布函數的聚類算法 DENCLUE E-MAIL:BXXHSSINA.COM 6.4數據挖掘的聚類算法 6.4.6 基于網格的方法 統計信息網絡 STING是一種基于網格的多分辨率聚類技術 聚類高維空間 CLIQUE( clustering in quest, CLIQUE)聚類算法 6.4.7 基于模型的聚類方法 增量概念聚類算法 COBWEB 6.4.8 模糊聚類算法 E-MAIL:BXXHSSINA.COM 6.5 數據挖掘的統計分析算法 6.5.1 辨別方法 6.5.2 回歸模型 6.5.3 優(yōu)點與缺點 E-MAIL:BXXHSSINA.COM 6.6 數據挖掘的品種優(yōu)化算法 6.6.1 品種優(yōu)化 6.6.2 品種優(yōu)化算法 E-MAIL:BXXHSSINA.COM 6.7數據挖掘的進化算法 6.7.1 遺傳算法 如何工作 優(yōu)缺點 6.7.2 神經網絡算法 如何工作 無指導的學習 競爭學習 自組織特征映射模型 優(yōu)缺點 E-MAIL:BXXHSSINA.COM 6.7數據挖掘的進化算法 神經網絡模型 性別 區(qū)域 職位 B類客戶 年齡 交易額 受教育的年限 圖 6.10 神經網絡模型 C類客戶 跳槽客戶 隱節(jié)點 隱節(jié)點 A類客戶 隱節(jié)點 隱節(jié)點 E-MAIL:BXXHSSINA.COM 第 7章 非結構化數據挖掘 本章內容 : 7.1 Web數據挖掘 7.2 空間群數據挖掘 7.3 多媒體數據挖掘 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.1 非結構化數據源 Web數據挖掘的難點 對數據來源分析 異構數據環(huán)境 半結構化的數據結構 解決半結構化的數據源問題 文本總結 XML與 Web數據挖掘技術 XML的產生與發(fā)展 XML的主要特點 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.1 非結構化數據源 XML在 Web數據挖掘中的應用 兩個或更多異質數據庫之間進行通信的應用 大部分處理負載從 Web服務器轉到 Web客戶端的應用 Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶的應用 需要智能 Web代理根據用戶個人的需要裁減信息內容的應用 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.2 Web挖掘分類 Web挖掘 Web content mining (Web內容挖掘 ) Web structure mining (Web結構挖掘 ) Web usage mining (Web訪問挖掘 ) Search result mining(搜索結果再挖掘 ) General access pattern tracking (一般訪問模式跟蹤) Customized usage tracking (定制的使用跟蹤 ) Web page content mining(Web頁面內容挖掘 ) 圖 7.1 Web挖掘分類 E-MAIL:BXXHSSINA.COM Web挖掘三種方法比較 Web內容挖掘 Web結構挖掘 Web訪問挖掘 處理數據類型 IR方法 數據庫方法 Web結構挖掘 用戶訪問挖掘 無結構和半結構化數據 半結構化數據 主要數據 自由文本、 HTML標記的超文本 HTML標記的超文本 文檔內及文檔間的超鏈接 Serverlog,proxy serverlog,client log 表示方法 詞集、段落、概念、 IR的三種經典模型 OEM 關系 圖 關系表、圖 處理方法 TFIDF、統計、機器學習、自然語言理解 數據庫技術 機器學習、專有算法(如 HITS pagerank) 統計、機器學習、關聯規(guī)則 主要應用 分類、聚類、模式發(fā)現 模式發(fā)現、數據向導、多維數據庫、站點創(chuàng)建與維護 頁面權重分類聚類、模式發(fā)現 用戶個性化、自適應 Web站點、商業(yè)決策 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 Web挖掘的基本構架 訪問者 注冊用戶 網站 交易信息 瀏覽信息 數據庫、數據倉庫 Web日志文件 Web Serer中其他信息 數據預處理模塊 結構數據挖掘模塊 Web挖掘的基本構架 頁面訪問情況 Web結構模式 Web內容模式 知識 非結構數據挖掘模塊 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.3 Web內容挖掘 信息檢索( information retrieve , IR)方法 數據庫方法 7.1.4 Web結構挖掘 Page-Rank方法 7.1.5 Web訪問挖掘 對 Web日志進行清洗、過濾和轉換以及剔除無關記錄 采用統計學、模式識別、人工智能、數據庫數據挖掘等領域的成熟技術在 Web的使用記錄中挖掘知識 Web使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 7.1.6 利用 Web日志的聚類算法 客戶群體的模糊聚類算法 用戶訪問興趣的算法 客戶群體聚類的 Hamming距離算法 基于模糊理論的 Web頁面聚類算法 Web頁面聚類的 Hamming距離算法 E-MAIL:BXXHSSINA.COM 7.1 Web數據挖掘 電子商務中的 Web挖掘 電子商務中 Web挖掘的作用 電子商務中 Web挖掘的基本問題 電子商務中的數據挖掘工具 文本信息挖掘工具 用戶訪問模式挖掘工具 用戶導航行為挖掘工具 綜合性的 Web分析工具 E-MAIL:BXXHSSINA.COM 7.2 空間群數據挖掘 7.2.1 空間群數據挖掘 概念 從空間數據中抽取隱含的知識、空間關系、空間及與非空間之間的有意義的特征或模式。 7.2.2 空間群數據挖掘分類 空間檢索 空間拓撲疊加分析 空間模擬分析 E-MAIL:BXXHSSINA.COM 7.2 空間群數據挖掘 7.2.3 空間數據挖掘的體系結構 空間數據結構查詢與優(yōu)化原則的分析 信息集成 模式知識級處理 語義級檢索與索引 領域知識 模式知識 對象和屬性抽取 物理級底層特性處理設計 圖 7.4 空間數據挖掘的體系結構 對象級特征處理 語義概念級處理 用戶 空間數據處理 E-MAIL:BXXHSSINA.COM 7.3多媒體數據挖掘 7.3.1 多媒體數據挖掘的概念 7.3.2 多媒體數據挖掘的分類 圖像數據挖掘 視頻數據挖掘 音頻數據挖掘 E-MAIL:BXXHSSINA.COM 7.3多媒體數據挖掘 7.3.3 多媒體數據挖掘的體系結構 原始數據 媒體數據攝取 媒體編碼 存檔 瀏覽引擎 分類 特征抽取 查詢引擎工具 交互式學習 索引的生成 用戶 圖 7.5 功能驅動的多媒體挖掘體系結構 基于底層特性的索引與檢索元數據與數據抽取原則的分析 信息集成 模式知識級處理 語義級檢索與索引 領域知識 模式知識 對象級的索引與檢索 物理級底層特性處理設計 圖 7.6 信息驅動的多媒體挖掘的結構 對象級特征處理 語義概念級處理 用戶 多媒體處理 E-MAIL:BXXHSSINA.COM 第 8章 離群數據挖掘 本章內容 離群數據挖掘概念 離群數據挖掘分類 離群數據挖掘算法 市場營銷離群數據的特點 E-MAIL:BXXHSSINA.COM 第 8章 離群數據挖掘 8.1 離群數據挖掘的概念 8.2 離群數據挖掘的分類 基于統計學 基于距離的方法 基于偏移 高維數據的離群數據探測 基于規(guī)則的分類離群數據挖掘方法 基于密度 (density-based)的離群挖掘方法 E-MAIL:BXXHSSINA.COM 8.3離群數據挖掘的算法 8.3.1基于統計的方法 8.3.2基于距離的離群數據方法 基于距離的離群數據定義 基于距離的離群數據挖掘的算法分類及算法描述 基于距離的算法的改進 8.3.3 基于偏離的離群數據挖掘 序列離群數據技術 OLAP數據立方體技術 E-MAIL:BXXHSSINA.COM 8.3離群數據挖掘的算法 8.3.4 高維數據的離群數據挖掘 8.3.5 基于小波的離群數據挖掘 時序數據的離群數據挖掘 基于聚類的離群數據 CL( ) E-MAIL:BXXHSSINA.COM 8.4市場營銷離群數據挖掘 8.4.1市場營銷離群數據挖掘特點 8.4.2 基于分形的市場營銷離群數據挖掘模型 幾個定義 E-MAIL:BXXHSSINA.COM 第 9章 數據挖掘語言與工具選擇 本章內容 9.1 數據挖掘語言及其標準化 9.2 數據挖掘研究熱點 9.3 數據挖掘工具的選擇 E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類 類別 特點 功能 代表 數據挖掘查詢語言 數據挖掘原語 五種原語 DMQL 數據挖掘建模語言 基于 XML的語言 文檔類型定義、通用模式 PMML 通用數據挖掘語言 集成 全面 OLE DB for DM E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類 數據挖掘查詢語言 ( 5種數據挖掘原語定義)。 任務相關數據原語 被挖掘的知識的種類原語 背景知識原語 興趣度測量原語 被發(fā)現模式的表示和可視化原語 E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類 數據挖掘建模語言 頭文件( a header) 數據模式( a data schema) 數據挖掘模式( a data mining schema) 預言模型模式( a predictive model schema) 預言模型定義( definitions for predictive models) 全體模型定義( definitions for ensembles of models) 選擇和聯合模型、全體模型的規(guī)則( rules for selecting and combining models and ensembles of models) 異常處理的規(guī)則( rules for exception handling) E-MAIL:BXXHSSINA.COM 9.1 數據挖掘語言及其標準化 9.1.1 數據挖掘語言分類 通用數據挖掘語言 數據挖掘模型( Data Mining Model, DMM) 預言聯接操作( Predication Join Operation) OLE DB for DM模式行集合( Schema Rowsets) 9.1.2 分析與評價 E-MAIL:BXXHSSINA.COM 9.2數據挖掘的研究熱點 網站的數據挖掘 生物信息或基因的數據挖掘 文本的數據挖掘 E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.1 評價數據挖掘工具的優(yōu)劣指標 數據準備 數據訪問 算法與建模 模型的評價和解釋 用戶界面 E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.2 通用數據挖掘產品與工具 POLY ANALYST IBM DB2 lntelligent Miner和并行可視化探索者 PVE DB Miner BO的 Business Miner SPSS股份公司( SPPS CHAID) SAS研究所股份公司( SAS,JMP) NeuralWare股份公司 信息發(fā)現股份公司( IDIS) RightPoint公司的數據挖掘工具 DataCruncher DataMind公司( DataMind專業(yè)版, DataMindCruncher) Pilot軟件股份公司( Pilot 發(fā)現服務器) Angoss國際有限公司( Knowledge SEEKER) Silicon Graphics計算機系統公司( MineSet) 商務項目公司(商務挖掘器) Cognos軟件公司( Scenario) 思維機器公司 (Darwin) . E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.3 國內的數據挖掘產品與工具 菲奈特一融通公司 廣州華工明天科技有限公司 復旦大學數據采掘工具 ARMiner 9.3.4 數據可視化工具的選擇 高級可視化系統公司( AVS/Express) Alta分析股份藹公司( NetMap) Belmont 研究股份公司( Cross Graphs) 環(huán)境系統研究所( ESRI)股份公司 MapInfo公司( MapInfo, SpatialWare) Silicon Graphics計算機系統公司( MineSet) E-MAIL:BXXHSSINA.COM 9.3 數據挖掘工具的選擇 9.3.5數據挖掘網站與可獲得的數據挖掘算法源代碼 數據挖掘網站 知識發(fā)現挖掘網址: 數據挖掘網址: http:/www.cs.bham.ac.uk 太平洋西北神經網絡國家實驗室網址:http:/www.emsl.pnl.gou 技術保護 -遺傳算法網址: http:/w

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論