數(shù)據(jù)挖掘復習知識點整理_第1頁
數(shù)據(jù)挖掘復習知識點整理_第2頁
數(shù)據(jù)挖掘復習知識點整理_第3頁
數(shù)據(jù)挖掘復習知識點整理_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中發(fā)現(xiàn)有趣非平凡的、隱含的、先前未知、潛在有用模式,這些數(shù) 據(jù)可以存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息存儲中.挖掘流程:學習應用域2目標數(shù)據(jù)創(chuàng)立集3數(shù)據(jù)清洗和預處理4數(shù)據(jù)規(guī)約和轉換5選擇數(shù) 據(jù)挖掘函數(shù)總結、分類、回歸、關聯(lián)、分類 6選擇挖掘算法7找尋興趣度模式8模 式評估和知識展示9使用挖掘的知識 概念/類描述:一種數(shù)據(jù)泛化形式,用匯總的、簡潔的和精確的方法描述各個類和概念,通過1數(shù)據(jù)特征化:目標類數(shù)據(jù)的一般特性或特征的匯總;2數(shù)據(jù)區(qū)分:將目標類數(shù)據(jù)的一般特性與一個或多個可比較類進行比較;3數(shù)據(jù)特征化和比較來得到.關聯(lián)分析:發(fā)現(xiàn)關聯(lián)規(guī)那么,這些規(guī)那么展示屬性-值頻繁地在給定數(shù)

2、據(jù)集中一起出現(xiàn)的條件,通常要滿足最小支持度閾值和最小置信度閾值.分類:找出能夠描述和區(qū)分數(shù)據(jù)類或概念的模型,以便能夠使用模型預測類標號未知的對象類 ,導出的模型是基于練習集的分析.導出模型的算法:決策樹、神經(jīng)網(wǎng)絡、貝葉斯、遺傳、粗糙集、模糊集. 預測:建立連續(xù)值函數(shù)模型,預測空缺的或不知道的數(shù)值數(shù)據(jù)集.孤立點:與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象. 聚類:分析數(shù)據(jù)對象,而不考慮的類標記.練習數(shù)據(jù)中不提供類標記,對象根據(jù)最大化類內(nèi)的相似性和最小化類間的原那么進行聚類或分組,從而產(chǎn)生類標號.第二章數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持治理部門的決策過程.從一個或

3、多個數(shù)據(jù)源收集信息,存放在一個一致的模式下,并且通常駐留在單個站點.數(shù)據(jù)倉庫通過數(shù)據(jù)清理、變換、繼承、裝入和定期刷新過程來構造.面向主題:排除無用數(shù)據(jù),提供特定主題的簡明視圖.集成的:多個異構數(shù)據(jù)源.時變的:從歷史角度提供信息,隱含時間信 息.非易失的:和操作數(shù)據(jù)的別離,只提供初始裝入和訪問.聯(lián)機事務處理OLTP :主要任務是執(zhí)行聯(lián)機事務和查詢處理.聯(lián)系分析處理 OLAP :數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或知識工人提供效勞.這種系統(tǒng)可以用不同的格式和組織提供數(shù)據(jù).OLAP是一種分析技術,具有匯總、合并和聚集功能,以及從不同的角度觀察信息的水平.特征特征回向用戶功能DB數(shù)據(jù)訪問OLTP操

4、作處理事務DBA ,辦事員日常操作基于ER當前最新讀/寫OLAP信息處理分析知識工人決策支持星型,雪花時間跨度讀特征匯總用戶操作訪問記錄優(yōu)先DB規(guī)模度*OLTP原始,詳細數(shù)千主碼索引數(shù)十個高性能可用100mb-gb事務OLAP匯總,統(tǒng)數(shù)百大量掃描數(shù)白力可靈活100gb-tb查詢多維數(shù)據(jù)模型:多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體,允許從多個維度對數(shù)據(jù)建模和觀察.包含維表和事實表.最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,這種模型可以是 星形模式事實表在中間,連接到多個維表、雪花模式星型的變種,某些維表標準化,分解到附加維表,以減少冗余、事實星座模式多個事實表共享維表.數(shù)據(jù)立方體:允許從多維對數(shù)據(jù)建模和

5、觀察.它由維和事實定義.維:關于一個組織想要保存記錄的透視圖和實體, 每個維都有一個表與之相關聯(lián), 成為維表.事實表:包括事實的名稱和度量, 以及每個相關維表的碼.方體Cuboid :每個數(shù)據(jù)立方體.根本方體 Base Cuboid :存放最底層匯總.頂點方體 Apex Cuboid : 最高層匯總,all.數(shù)據(jù)立方體 Data Cube :給定維的集合,可以對維的每個可能子集產(chǎn)生一個方 體.結果成為方體的格.多維數(shù)據(jù)立方體:提供數(shù)據(jù)的多維視圖,并允許預計算和快速訪問匯總數(shù)據(jù).度量:數(shù)值函數(shù),通過對給定點的各維-值對聚集數(shù)據(jù),計算該點的度量值.概念分層:映射序列,將底層概念映射到更一般的較高層

6、概念.OLAP操作:上卷:上卷操作通過一個維的概念分層向上攀升或者通過維規(guī)約,在數(shù)據(jù)立方體上進行聚集.下鉆:下鉆是上卷的逆操作,它由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù).切片和切塊: 切片對一個維進行選擇.切塊對兩個以上維進行選擇,定義子立方體.轉軸:可視化操作,轉動視角. 鉆過:跨越多個事實表.鉆透:鉆到后端關系表.數(shù)據(jù)倉庫模型的不同類型:1、企業(yè)倉庫:收集了關于跨部門的整個組織主題的所有信息,跨越整個組織,因此是企業(yè) 范圍的.2、數(shù)據(jù)集市:是企業(yè)倉庫的一個部門子集,它針對選定的主題,對于特定的用戶是有用的,因此是部門范圍的,其數(shù)據(jù)通常是匯總的.3、虛擬倉庫:虛擬倉庫是操作數(shù)據(jù)庫上視圖的集合,易于建

7、立,但需要操作數(shù)據(jù)庫效勞器 具有剩余水平.數(shù)據(jù)倉庫的三層結構:1、倉庫數(shù)據(jù)效勞器:使用后端工具抽取、清楚、轉換、裝載、刷新 和實用程序由操作數(shù)據(jù)庫和其他外部數(shù)據(jù)源提取數(shù)據(jù),進行數(shù)據(jù)清理和變換并放入倉庫底層2、OLAP效勞器:直接實現(xiàn)對多維數(shù)據(jù)的操作 ,直接為商務用戶提供來自數(shù)據(jù)倉庫或數(shù)據(jù)集市的多維數(shù)據(jù).ROLAP:多維數(shù)據(jù)操作映射到標準關系操作.MOLAP :多維數(shù)據(jù)視圖映射到數(shù)組中.HOLAP:結合,歷史數(shù)據(jù) ROLAP,頻繁訪問數(shù)據(jù)放到 MOLAP.3、前端客戶層:包括查詢和報表工具、分析工具或數(shù)據(jù)挖掘工具.數(shù)據(jù)倉庫的設計:1、分析建立企業(yè)模型并映射到數(shù)據(jù)倉庫概念模型;2、邏輯模型的設計3

8、、物理模型的設計OLAP建模:維表設計維的變化,維表的共享,層次信息和分類信息的位置、事實表設計事 實表的特性,通用數(shù)據(jù)和專用數(shù)據(jù)事實表邏輯模型設計:1、系統(tǒng)數(shù)據(jù)量估算;2、數(shù)據(jù)粒度的選擇;3、數(shù)據(jù)的分割到各自的物理單元單獨處理4、表的合理劃分字段的更新頻率和訪問頻率不一樣一一穩(wěn)定性5、刪除純操作數(shù)據(jù)“收款人,增加導出字段“銷售總量元數(shù)據(jù):描述數(shù)據(jù)的數(shù)據(jù),定義數(shù)據(jù)倉庫對象的數(shù)據(jù).包括數(shù)據(jù)倉庫的結構、操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng)、流通,監(jiān)控信息、用于匯總的算法、從操作環(huán)境到數(shù)據(jù)倉庫的映射;關于系統(tǒng)性能的數(shù) 據(jù)、商務元數(shù)據(jù).局部物化:選擇性預計算各種方體子集或子立方體.冰山立方體:是一個數(shù)據(jù)立方體,只存放聚

9、集值大于某個最小支持度閾值的立方體單元.數(shù)據(jù)立方體計算中多路數(shù)組聚集,多路計算BUC : bottom-up computation自底向上構造,一種計算稀疏冰山立方體的算法.數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察,它由維和事實定義.維是關于一個組織想要記錄的透視或實體,事實是數(shù)值度量的.物理模型的設計:1.確定數(shù)據(jù)的存儲結構并行RAID 2.索引策略位圖索引、連接索引3.數(shù)據(jù)存儲策略與性能優(yōu)化多路聚集優(yōu)化、表的歸并、分割表的存放、按列存儲、存儲分配優(yōu) 化4.數(shù)據(jù)裝載接口 5.并行優(yōu)化設計位圖索引:在給定屬性的位圖索引中,屬性的每一個值v都有一個位向量,長度為記錄的總數(shù),如果數(shù)據(jù)表中給定行上該屬性

10、的值為v,那么在位圖索引的對應行上標注該值的位為1,其余為0.,不適用于基數(shù)很大的屬性. 連接索引:傳統(tǒng)的索引將給定列上的值映射到具有該值的行的列表上,連接索引登記來自關系數(shù)據(jù)庫的兩個關系的可連接行,對于維護來自可連接的關系的外碼和與之匹配的主碼的聯(lián)系特別有 用事實表一一維表.nN維,且每個維有 Li概念封層,可得到的立方體有T = 口 Li+1i = 1多路數(shù)組聚集:是數(shù)據(jù)立方體的高效計算方式.使用多維數(shù)組作為根本數(shù)據(jù)結構,自底向上的、 共享地計算完全數(shù)據(jù)立方體.使用數(shù)組直接尋址的典型MOLAP o方法:最大維在形成單塊的平面上.最小為在形成單面的平面上,每個平面必須被排序,并按大小遞增的順

11、序被計算.數(shù)據(jù)預處理數(shù)據(jù)預處理: 不完整的、含噪音的、不一致的1、數(shù)據(jù)清洗缺失值缺少屬性值或某些感興趣的屬性,或僅包含聚集數(shù)據(jù)、噪聲錯誤或存在偏離期望的離群值、非一致、2、數(shù)據(jù)集成模式集成識別實體、發(fā)現(xiàn)冗余相關分析檢測、數(shù)據(jù)值沖突檢測和處理 不同數(shù)據(jù)源屬性值不同、3、數(shù)據(jù)變換光滑去掉噪聲、聚集數(shù)據(jù)匯總、泛化概念分層,高層替換低層、標準化按比例縮放、屬性構造4、數(shù)據(jù)規(guī)約數(shù)據(jù)立方體聚集、維度規(guī)約屬性子集選擇、數(shù)值規(guī)約、離散化和概念分層產(chǎn)生、5、數(shù)據(jù)離散化 數(shù)值數(shù)據(jù):分箱、直方圖、聚類、基于嫡的離散化、基于直觀劃別離散化 3-4-5規(guī)那么區(qū)間的最高有效位的取值個數(shù);分類數(shù)據(jù):用戶或專家在模式級顯示說

12、明屬性偏序、通過顯示數(shù)據(jù)分組說明分層結構的一局部、說明屬性集但不說明偏序層次高,屬性值個數(shù)越少、只說明局部屬性集嵌入數(shù)據(jù)語義,是語義相關的屬性集捆綁在一起.噪聲:被測量的變量的隨機誤差或方差.噪音數(shù)據(jù)處理: 分箱按箱平均值平滑、按箱中值平滑、按箱邊界平滑、回歸、聚類.標準化:最小-最大標準化;Z-score標準化;小數(shù)定標標準化數(shù)據(jù)規(guī)約技術:得到數(shù)據(jù)集的規(guī)約顯示,小得多,但保持原數(shù)據(jù)的完整性.挖掘更有效.屬性子集選擇:檢測并 刪除不相關、弱相關或冗余的屬性和維 維規(guī)約:使用編碼機制減小數(shù)據(jù)集的規(guī)模,如壓縮.數(shù)值規(guī)約:用替代的、較小的數(shù)據(jù)表示替換或估計數(shù)據(jù),如參數(shù)模型or非參方法聚類、抽樣、直方

13、圖Equi-depth、equi-width、v-optimal 最小方差、maxdiff 考慮每對相鄰的之間的差, 桶的邊界具有桶數(shù)-1 的最大對.概念分層:對一個屬性遞歸地進行離散化,產(chǎn)生屬性值的分層或多分辨率劃分.屬性的原始數(shù)據(jù)用更高層或離散化的值替換.離散化:用少數(shù)區(qū)間標記替換連續(xù)屬性的數(shù)值,從而減少和簡化原來的數(shù)據(jù).特征化和區(qū)分:描述性數(shù)據(jù)挖掘:以簡潔概要的方式描述概念或數(shù)據(jù)集,并提供數(shù)據(jù)的有趣的一般性質.預測性數(shù)據(jù)挖掘:分析數(shù)據(jù),建立一個或一組連續(xù)值函數(shù)模型,預測不知道的數(shù)值數(shù)據(jù)值.概念描述包括特征化和區(qū)分.特征化:提供給定數(shù)據(jù)聚集的簡潔匯總.區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述.

14、OLAP VS概念描述:處理類型、自動化方面比較各自優(yōu)缺點./ Concept description:can handle complex data types of the attributes and their aggregations a more automated process/ OLAP:restricted to a small number of dimension and measure types user-controlled process決策樹:一種類似于流程圖的樹結構,其中每個結點代表在一個屬性值上的測試,每個分支代表測試的一個輸出,而樹葉代表類或類分布.數(shù)據(jù)

15、泛化:將數(shù)據(jù)庫中的大量任務相關數(shù)據(jù)從低概念層提升到更高概念層的過程.數(shù)據(jù)泛化途徑:1、數(shù)據(jù)立方體OLAP途徑2、面向屬性的歸納面向屬性的歸納:1、使用數(shù)據(jù)庫查詢收集任務相關的數(shù)據(jù);2、考察相關任務集中的各個屬性并進行泛化:通過屬性刪除兩種情況或者屬性泛化 3、通過合并相等的廣義元組每個廣義元組代表一個規(guī)那么析取并累計對應的計數(shù)值進行面向屬性歸納方法產(chǎn)生的泛化描述表現(xiàn)形式:廣義關系表、交叉表、圖、量化特征規(guī)那么.屬性泛化限制:屬性泛化閾值限制對所有的屬性設置一個泛化閾值,或者對每個屬性設置一個閾值.如果屬性的不同值個數(shù)大于屬性泛化閾值,那么應當進行進一步的屬性刪除或屬性泛化廣義關系閾值限制:為廣

16、義關系設置一個閾值.如果廣義關系中不同元組的個數(shù)超過該閾值,那么當進一步泛化;否那么,不再進一步泛化.特征化 VS OLAP:相同點:在不同抽象層次數(shù)據(jù)匯總展示;迭代的上卷、下鉆、旋轉、切片/塊.不同點:特征化:自動產(chǎn)生層次的分配;多個相關維時進行維的相關分析和排序;維和度量 的類型可以很復雜量化規(guī)那么:帶有量化信息的邏輯規(guī)那么解析特征化:1、收集任務相關數(shù)據(jù)2、根據(jù)屬性 分正閾值分析泛化對目標類和比照類的候選關系:屬性刪除、屬性泛化、候選關系3、屬性的相關性分析信息增益4、去除不/弱相關,比照類的候選關系形成目標類的初始工作關系5、在初始工作關系上根據(jù)屬性泛化閾值使用面向屬性的歸納類比照:1

17、、通過查詢處理收集數(shù)據(jù)庫中的相關數(shù)據(jù)集,并分別劃分成目標類和一個或多個比照類.2、維相關分析(僅選擇高度相關的維進一步分析,屬性移除和泛化)3、同步泛化(目標類泛化到維閾值限制的層,比照類概念泛化到相同層)4、通過對目標類和比照類使用下鉆、上卷和其他OLAP操作調整比較描述的抽象層次.5、導出比較的表示量化特征規(guī)那么(必要):VX, target_class(X) = condition( X) t: t_weightT權:P-135,代表典型性量化判別規(guī)那么(充分):VX, target_class(X) u condition( X) d : d_weightD權:p-138,代表和比照類

18、比有多大差異( 高D權:概念主要從目標類導出)量化描述規(guī)那么(充分必要):-V , VX, target_class(X) ucondition i(X) t: w1,d : w i . condition n(X) t: wn, d: w n關聯(lián)規(guī)那么挖掘:關聯(lián)規(guī)那么挖掘:從操作型數(shù)據(jù)庫、 關聯(lián)數(shù)據(jù)庫或者其他信息庫中的項集、對象中,發(fā)現(xiàn)頻繁模式、關聯(lián)、相關或者因果結構.應用:Basket data analysis, cross-marketing, catalog design, loss-leader analysis, clustering, classification, etc.例子: Rule form:"Bod力 Head support, confidence .buys(x, " diape期 buy$(x, "beers" ) 0.5%, 60%major(x," CS' ) A takes(X)Ef, /grade(x,"A" ) 1%, 75%頻繁項集:頻繁地在事務數(shù)據(jù)集中一起出現(xiàn)的項的集合,滿足最小支持度.支持度:規(guī)那么X & 丫3 Z的支持度,事務中包括 X、丫、Z的概率.置信度:在X,丫存在的情況下,Z也在事務

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論