數(shù)據(jù)挖掘概論(復習大綱)(共10頁)_第1頁
數(shù)據(jù)挖掘概論(復習大綱)(共10頁)_第2頁
數(shù)據(jù)挖掘概論(復習大綱)(共10頁)_第3頁
數(shù)據(jù)挖掘概論(復習大綱)(共10頁)_第4頁
數(shù)據(jù)挖掘概論(復習大綱)(共10頁)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上第1章 數(shù)據(jù)挖掘概論1.什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘 (Data Mining DM)從大量的數(shù)據(jù)中挖掘出令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識 數(shù)據(jù)挖掘的替換詞 數(shù)據(jù)庫中的知識挖掘、知識發(fā)現(xiàn)(KDD) 知識提煉、 數(shù)據(jù)/模式分析 數(shù)據(jù)考古 數(shù)據(jù)捕撈、信息收獲等等2. KDD的步驟 數(shù)據(jù)清理: (這個可能要占全過程60的工作量) 數(shù)據(jù)集成 數(shù)據(jù)選擇 數(shù)據(jù)變換 數(shù)據(jù)挖掘(選擇適當?shù)乃惴▉碚业礁信d趣的模式) 模式評估知識表示3. 體系結構:典型數(shù)據(jù)挖掘系統(tǒng) 4. 數(shù)據(jù)挖掘的主要功能 概念/類描述: 特性化和區(qū)分 歸納,總結和對比數(shù)據(jù)的特性。 關聯(lián)分析

2、發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁的在給定的數(shù)據(jù)中所一起出現(xiàn)的條件。 分類和預測 通過構造模型 (或函數(shù))用來描述和區(qū)別類或概念,用來預測類型標志未知的對象類。 聚類分析 將類似的數(shù)據(jù)歸類到一起,形成一個新的類別進行分析。 孤立點分析 通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結論。 趨勢和演變分析 描述行為隨時間變化的對象的發(fā)展規(guī)律或趨勢5. 數(shù)據(jù)挖掘系統(tǒng)與DB或DW系統(tǒng)的集成方式 不耦合 松散耦合 半緊密耦合 緊密耦合概念P23第3章 數(shù)據(jù)倉庫和OLAP技術1. 什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴格的定義.“數(shù)

3、據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”W. H. Inmon(數(shù)據(jù)倉庫構造方面的領頭設計師)2. 數(shù)據(jù)倉庫關鍵特征 數(shù)據(jù)倉庫關鍵特征一面向主題 數(shù)據(jù)倉庫關鍵特征二數(shù)據(jù)集成 數(shù)據(jù)倉庫關鍵特征三隨時間而變化數(shù)據(jù)倉庫關鍵特征四數(shù)據(jù)不易丟失3. 數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成 傳統(tǒng)的異種數(shù)據(jù)庫集成: 在多個異種數(shù)據(jù)庫上建立包裝程序和中介程序 采用查詢驅(qū)動方法當從客戶端傳過來一個查詢時,首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器 缺點:復雜的信息過慮和集成處理,競爭資源 數(shù)據(jù)倉庫: 采用更新驅(qū)動 將

4、來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析 高性能.4. 從關系表和電子表格到數(shù)據(jù)立方體 數(shù)據(jù)倉庫和數(shù)據(jù)倉庫技術基于多維數(shù)據(jù)模型。這個模型把數(shù)據(jù)看作是數(shù)據(jù)立方體形式。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實表表示。事實是數(shù)值度量的。 數(shù)據(jù)立方體由維和事實定義。 維:是關于一個組織想要記錄的視角或觀點。每個維都有一個表與之相關聯(lián),稱為維表。 事實表包括事實的名稱或度量以及每個相關維表的關鍵字?. 在最低抽象層建立的立方體是存放最底層匯總的方體叫做基本方體。0維方體存放最高層的匯總,也就是最高層抽象的立方體稱作頂點方體。多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對數(shù)據(jù)進行

5、觀察成為可能,而概念分層則提供了從不同層次對數(shù)據(jù)進行觀察的能力。5. 度量的分類 一個數(shù)據(jù)立方體的度量是一個數(shù)值函數(shù)。度量可以根據(jù)其所用的聚集函數(shù)分為三類: 分布的(distributive):將函數(shù)用于n個聚集值得到的結果和將函數(shù)用于所有數(shù)據(jù)得到的結果一樣。比如:count(),sum(),min(),max()等 代數(shù)的(algebraic):函數(shù)可以由一個帶M個參數(shù)的代數(shù)函數(shù)計算(M為有界整數(shù)),而每個參數(shù)值都可以有一個分布的聚集函數(shù)求得。比如:avg(),min_N(),standard_deviation() 整體的(holistic):比如:median(),mode(),rank

6、()6. 數(shù)據(jù)倉庫的概念模型 最流行的數(shù)據(jù)倉庫概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實星座模式的形式存在。 星型模式、雪花模式、或事實星座模式畫圖 星型模式(Star schema): 事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數(shù)據(jù),沒有冗余。 雪花模式(Snowflake schema): 是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加表中。結果,模式圖形成類似于雪花的形狀。 事實星座(Fact constellations): 多個事實表共享維表, 這種模式可以看作星型模式集,因此稱為星系模式(galaxy schema),

7、或者事實星座(fact constellation) 。星型模式實例雪花模式實例事實星座模式實例7. 多維數(shù)據(jù)模型上的OLAP操作 上卷(roll-up):匯總數(shù)據(jù) 通過一個維的概念分層向上攀升或者通過維規(guī)約 下鉆(drill-down):上卷的逆操作 由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實現(xiàn) 切片和切塊(slice and dice) 切片操作在給定的數(shù)據(jù)立方體的一個維上進行選擇,導致一個子立方體 切塊操作通過對兩個或多個維進行選擇,定義子立方體 轉(zhuǎn)軸(pivot) 立方體的重定位,可視化,或?qū)⒁粋€3維立方體轉(zhuǎn)化維一個2維平面序列 其他OLAP操作 鉆過(

8、drill_across):執(zhí)行涉及多個事實表的查詢 鉆透(drill_through):使用關系SQL機制,鉆到數(shù)據(jù)立方體的底層,到后端關系表。8.典型的數(shù)據(jù)倉庫設計過程 選取待建模的商務過程 選取商務過程的顆粒度 比如:記錄每條詳細訂單,或是開始于每日的匯總數(shù)據(jù) 選取用于每個事實表記錄的維 常用的維有:時間、貨物、客戶、供應商等 選取將安放在事實表中的度量 常用的數(shù)字度量包括:售價、貨物數(shù)量等9. 三種數(shù)據(jù)倉庫模型 企業(yè)倉庫 數(shù)據(jù)集市虛擬倉庫10. OLAP服務器類型 邏輯上,OLAP服務器從數(shù)據(jù)倉庫或數(shù)據(jù)集市中給商業(yè)用戶提供多維數(shù)據(jù) 物理上,OLAP的底層數(shù)據(jù)存儲實現(xiàn)可以有多種不同的方式

9、 關系OLAP服務器 多維OLAP服務器 混合OLAP服務器 特殊的SQL服務器 在星型和雪花模型上支持SQL查詢。第3章 數(shù)據(jù)預處理 1. 為什么要預處理數(shù)據(jù)? 現(xiàn)實世界的數(shù)據(jù)是“骯臟的” 不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)。 含噪聲的:包含錯誤或者“孤立點”。 不一致的:在編碼或者命名上存在差異。2. 數(shù)據(jù)預處理的主要任務 數(shù)據(jù)清理 填寫空缺的值,平滑噪聲數(shù)據(jù),識別、刪除孤立點,解決不一致性 數(shù)據(jù)集成 集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文件 數(shù)據(jù)變換 規(guī)范化和聚集 數(shù)據(jù)歸約:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結果 數(shù)據(jù)離散化 數(shù)據(jù)歸約的一部分,通過概念分層

10、和數(shù)據(jù)的離散化來規(guī)約數(shù)據(jù),對數(shù)字型數(shù)據(jù)特別重。3. 如何處理空缺值 忽略元組:。 人工填寫空缺值:工作量大,可行性低。 使用一個全局變量填充空缺值:比如使用unknown或-。 使用屬性的平均值填充空缺值。 使用與給定元組屬同一類的所有樣本的平均值。 使用最可能的值填充空缺值。 P63頁習題2.4(af) 特征化和比較4. 兩種不同類別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描述性挖掘和預測性挖掘5. 什么是概念描述? 概念描述:為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當所描述的概念所指的是一類對象時,也稱為類描述) 特征化:提供給定數(shù)據(jù)集的簡潔匯總。 區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。6.

11、數(shù)據(jù)概化 數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細節(jié)信息,數(shù)據(jù)概化就是將數(shù)據(jù)庫中的跟任務相關的數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。 第6章 關聯(lián)規(guī)則挖掘 1. 什么是關聯(lián)規(guī)則挖掘? 關聯(lián)規(guī)則挖掘: 從事務數(shù)據(jù)庫,關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。 應用: 購物籃分析、分類設計、捆綁銷售和虧本銷售分析2. 由頻繁項集產(chǎn)生關聯(lián)規(guī)則同時滿足最小支持度和最小置信度的才是強關聯(lián)規(guī)則,從頻繁項集產(chǎn)生的規(guī)則都滿足支持度要求,而其置信度則可由一下公式計算:每個關聯(lián)規(guī)則可由如下過程產(chǎn)生: 對于每個頻繁項集l,產(chǎn)生l的所有非空子集;對于每個非空子集

12、s,如果,則輸出規(guī)則“ ”。3 Apriori算法示例 4. 多層關聯(lián)一致支持度 VS. 遞減支持度 一致支持度:對所有層都使用一致的最小支持度 遞減支持度:在較低層使用遞減的最小支持度 第7章 分類和預測1.分類: 預測分類標號(或離散值) 根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)2. 數(shù)據(jù)分類一個兩步過程 第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集 假定每個元組屬于一個預定義的類,由一個類標號屬性確定。 學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供。 第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預測準確率。 若預測準確率可接受,則用該

13、模型對未知元組進行分類。3. 用判定樹歸納分類 判定樹的生成由兩個階段組成 判定樹構建 樹剪枝 判定樹的使用:對未知樣本進行分類 通過將樣本的屬性值與判定樹相比較4. 防止分類中的過分適應 產(chǎn)生的判定樹會出現(xiàn)過分適應數(shù)據(jù)的問題 由于數(shù)據(jù)中的噪聲和孤立點,許多分枝反應的是訓練數(shù)據(jù)中的異常 對新樣本的判定很不精確 防止過分適應的兩種方法 先剪枝: 后剪枝:5. 后向傳播分類后向傳播是一種神經(jīng)網(wǎng)絡學習算法。6. 模糊分類Fuzzy 基本思想:用屬于程度即隸屬度來代替屬于或不屬于 個體識別(分類) 最大隸屬原則: 閾值原則: 群體識別 貼近度閾值原則:7. 貝葉斯分類 貝葉斯分類利用統(tǒng)計學中的貝葉斯定

14、理,來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。 樸素貝葉斯分類:假設每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。第八章 聚類分析1. 什么是聚類分析? 聚類分析 將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。 聚類是一種無指導的學習:沒有預定義的類編號。 聚類分析的數(shù)據(jù)挖掘功能 作為一個獨立的工具來獲得數(shù)據(jù)分布的情況。 作為其他算法(如:特征和分類)的預處理步驟。2. 主要的聚類方法及特點 聚類分析算法種類繁多,具體的算法選擇取決于數(shù)據(jù)類型,聚類的應用和目的,常用的聚類算法包括: 劃分方法:一般按距離劃分,適宜發(fā)現(xiàn)球形的簇

15、。 層次的方法,缺點:合并或分裂的步驟不能被撤銷。 基于密度的方法:可以過濾掉“噪聲”和“孤立點”,發(fā)現(xiàn)任意形狀的簇。 基于網(wǎng)格的方法:處理速度快。 基于模型的方法:為每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合。實際應用中的聚類算法,往往是上述聚類方法中多種方法的整合。3. 相異度計算 許多聚類算法都是以相異度矩陣為基礎,如果數(shù)據(jù)是用數(shù)據(jù)矩陣形式表示,則往往要將其先轉(zhuǎn)化為相異度矩陣。 相異度d(i,j)的具體計算會因所使用的數(shù)據(jù)類型不同而不同,常用的數(shù)據(jù)類型包括: 區(qū)間標度變量 二元變量 標稱型、序數(shù)型和比例標度型變量 混合類型的變量4. 二元變量 (1) 一個二元變量只有兩種狀態(tài):0或1; e.g. smoker來表示是否吸煙 一個對象可以包含多個二元變量。 二元變量的可能性表: 如何計算兩個二元變量之間的相似度?5. 二元變量 (2) 對稱的 VS. 不對稱的 二元變量 對稱的二元變量指變量的兩個狀態(tài)具有同等價值,相同權重;e.g. 性別 基于對稱的二元變量的相似度稱為恒定的相似度,可以使用簡單匹配系數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論