![數(shù)據(jù)挖掘考試提綱_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/50e1aa3a-217e-440d-995f-aab13dedf2eb/50e1aa3a-217e-440d-995f-aab13dedf2eb1.gif)
![數(shù)據(jù)挖掘考試提綱_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/50e1aa3a-217e-440d-995f-aab13dedf2eb/50e1aa3a-217e-440d-995f-aab13dedf2eb2.gif)
![數(shù)據(jù)挖掘考試提綱_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/50e1aa3a-217e-440d-995f-aab13dedf2eb/50e1aa3a-217e-440d-995f-aab13dedf2eb3.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第一章1、數(shù)據(jù)挖掘的概念。 P3數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘知識。數(shù)據(jù)挖掘是個過程,目的是知識發(fā)現(xiàn)。數(shù)據(jù)挖掘的過程:1數(shù)據(jù)預(yù)處理:®數(shù)據(jù)清理消除重復(fù)的、不完全的、違反語義約束的數(shù)據(jù),數(shù)據(jù)集成多種數(shù)據(jù)源可以組合在一起,數(shù)據(jù)選擇從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù),數(shù)據(jù)變換數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作 。2數(shù)據(jù)挖掘使用智能方法提取數(shù)據(jù)模式3 模式評估根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式4知識表示使用可視化和知識表示技術(shù),向用戶提供挖掘的知識2、數(shù)據(jù)挖掘有哪些模式。 P3數(shù)據(jù)挖掘的模式: 1 分類模式, 2回歸模式, 3時間序列模式, 4聚類模式,
2、5關(guān) 聯(lián)規(guī)那么模式, 6 序列模式。3、什么是有意義的模式。1它易于理解。 2在某種必然程度上,對于新的或檢驗數(shù)據(jù)是有效的。 3 是潛在有用的。 4是新穎的。如果一個模式符合用戶確信的某種假設(shè),它也是 有趣的。有趣的模式就是知識。4、數(shù)據(jù)挖掘中能否挖掘出所有模式。數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)那么,但并不是所有的模式或規(guī)那么都是 令人感興趣的。第二個問題 “數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎 ?涉及數(shù)據(jù)挖掘 算法的完全性。 第三個問題 “數(shù)據(jù)挖掘系統(tǒng)能夠僅產(chǎn)生有趣的模式嗎 ?是 數(shù)據(jù)挖掘的優(yōu)化問題。5、數(shù)據(jù)挖掘的步驟4,以及每一步驟的作用。P4圖1* 數(shù)撼挖掘視為知識發(fā)現(xiàn)過稈的一個步驟6
3、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)有什么關(guān)系。有趣的數(shù)據(jù)挖掘模式代表知識。如果一個模式符合用戶確信的某種假設(shè), 它也是有趣的。有趣的模式就是知識。7、數(shù)據(jù)挖掘的對象11。P6-131數(shù)據(jù)存儲庫包括:關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫、高級數(shù)據(jù)庫系統(tǒng)、 一般文件、數(shù)據(jù)流和萬維網(wǎng)。2高級數(shù)據(jù)庫系統(tǒng)包括對象一關(guān)系數(shù)據(jù)庫和面向特殊應(yīng)用的數(shù)據(jù)庫,如空間 數(shù)據(jù)庫、時間序列數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫。8、數(shù)據(jù)挖掘的功能6。P14-18功能:1概念/類描述:特征化和區(qū)分;2挖掘頻繁模式,關(guān)聯(lián)和相關(guān);3分類和預(yù)測;4聚類分析;9、數(shù)據(jù)挖掘5個相關(guān)學(xué)科、技術(shù)。P19圖數(shù)據(jù)挖掘是交叉學(xué)科,受多個學(xué)科影響。包括數(shù)據(jù)庫系統(tǒng),統(tǒng)計學(xué)
4、,機器學(xué)習(xí), 可視化和信息科學(xué)還有其他科學(xué)。1、數(shù)據(jù)挖掘的第一階段是數(shù)據(jù)預(yù)處理。數(shù)據(jù)清理是用于去掉數(shù)據(jù)中的噪聲數(shù)據(jù),糾正不一致2、數(shù)據(jù)預(yù)處理的分類、每個分類的作用、有什么技術(shù)。 P311數(shù)據(jù)清理可以去掉數(shù)據(jù)中的噪聲,糾正不一致:試圖填充缺失的值,光 滑噪聲并識別離群點,并糾正數(shù)據(jù)的不一致。主要技術(shù):1缺失值;1忽略元 組2人工填寫缺失值3使用全局常量填充缺失值4使用屬性的均值填充缺失 值5使用與給定元組屬同一類的所有樣本的屬性均值 6使用最可能得值填充 缺失值使用推理進行預(yù)測;2光滑技術(shù):1分箱,2回歸,3聚類2數(shù)據(jù)集成將多個數(shù)據(jù)源合并成一致的數(shù)據(jù)存儲,構(gòu)成一個完整的數(shù)據(jù)集, 如數(shù)據(jù)倉庫或數(shù)據(jù)
5、立方體;3數(shù)據(jù)變換將一種格式的數(shù)據(jù)轉(zhuǎn)換為另一格式的數(shù)據(jù) 如標(biāo)準(zhǔn)化或統(tǒng)一成 適宜于挖掘的形式。;主要技術(shù):®光滑去掉數(shù)據(jù)中的噪聲,如分箱技術(shù),回歸,聚類; 聚集對數(shù)據(jù)進行匯總或聚集;數(shù)據(jù)泛化分層,用高層概念代替低層; 標(biāo)準(zhǔn)化1最大最小標(biāo)準(zhǔn)化v v min A (new_maxA new_min A) new_minA ; maxA min An ew_mi n A,n ew_maxA是映射后的區(qū)域,min a, max a是變換前 數(shù)據(jù)的最大最小值。v'是轉(zhuǎn)換后的數(shù)據(jù)。2 z-score標(biāo)準(zhǔn)化v'-Aa , a分別是原始A數(shù)據(jù)的平均值,和標(biāo)準(zhǔn)差;3小數(shù)定標(biāo)標(biāo)準(zhǔn)化、v
6、39;二10屬性構(gòu)造;4數(shù)據(jù)歸約可以通過聚集、刪除冗余特性或聚類等方法來壓縮數(shù)據(jù):數(shù)據(jù)歸約是保持原來數(shù)據(jù)的完整性,將數(shù)據(jù)集變小,并不影響對結(jié)果的分析。 歸約的策略:1數(shù)據(jù)立方體聚集2屬性子集的選擇3維度歸約4數(shù)值歸約5 離散化和概念分層產(chǎn)生。3、數(shù)據(jù)清理所需要的方法6。P39數(shù)據(jù)清理可以分為有監(jiān)督和無監(jiān)督兩類。主要技術(shù):1缺失值;1忽略元組2人工填寫缺失值3使用全局常量填充缺失 值4使用屬性的均值填充缺失值5使用與給定元組屬同一類的所有樣本的屬 性均值6使用最可能得值填充缺失值使用推理進行預(yù)測;2光滑技術(shù):1 分箱,2回歸,3聚類4、什么是噪聲數(shù)據(jù)。如何處理3。P40噪聲是被測量的變量的隨機誤
7、差或方差。處理:1分箱。2聚類。3計算機和人工檢查結(jié)合.4回歸5、數(shù)據(jù)集成的概念。用來干什么。方法有哪些。P43數(shù)據(jù)集成是將多個數(shù)據(jù)源合并成一致的數(shù)據(jù)存儲,構(gòu)成一個完整的數(shù)據(jù)集如數(shù)據(jù)倉庫或數(shù)據(jù)立方體它需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的 :同名異義、異名同義、單位不統(tǒng)一字長不一致,從而把原始數(shù)據(jù)在最低層上加以轉(zhuǎn)換,提煉和集成。1模式集成,2冗余問題,3數(shù)據(jù)值沖突的檢測與處理6有哪些冗余2,解決方法。P43-44屬性冗余:常用的解決方法是 相關(guān)分析檢測;卡方檢驗分類或離散數(shù)據(jù); 元組冗余7、數(shù)據(jù)變換內(nèi)容和含義5。P45數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。主要是找到數(shù)據(jù)的特征表示, 對數(shù)據(jù)
8、進行規(guī)格化處理。用維變換或轉(zhuǎn)換方式減少有效變量的數(shù)目或找到數(shù) 據(jù)的不變式8、標(biāo)準(zhǔn)化有哪些方法。至少掌握 2種計算方法。P45-46®最大最小標(biāo)準(zhǔn)化' v min a v n ew_ max A n ew_mi n A n ew_mi nA ;maxA min A _n ew_ min a , n ew_max a 是映射后的區(qū)域,min a, max a是變換前 數(shù)據(jù)的最大 最小值。v是轉(zhuǎn)換后的數(shù)據(jù)。z-score標(biāo)準(zhǔn)化v -Aa , a分別是原始數(shù)據(jù)的平均值,和標(biāo)準(zhǔn)差;A小數(shù)定標(biāo)標(biāo)準(zhǔn)化、v10j9、數(shù)據(jù)規(guī)約策略47。P47歸約的策略:1數(shù)據(jù)立方體聚集2屬性子集的選擇3維度歸
9、約4數(shù)值歸約5離散化和概念分層產(chǎn)生10、屬性子集選擇的根本啟發(fā)式方法包括什么技術(shù)4。P48-491 逐步向前選擇 2 逐步向后刪除 3 向前選擇和向后刪除的結(jié)合 4 決策樹歸納 第三章1、數(shù)據(jù)倉庫的概念、目的、特點。 P67 數(shù)據(jù)倉庫是一個面向主題的圍繞主題組織數(shù)據(jù) ,集成的由多個異構(gòu)數(shù)據(jù)源 集成,時變的和非易失的數(shù)據(jù)集合,支持管理部門的決策過程。2、數(shù)據(jù)倉庫的邏輯模式。 P72 星形,雪花和事實星座模式3、星型模式的事實表包括2。P73 事實表:包含度量值和關(guān)聯(lián)維度表的碼。星形事實模型: 包括維表和事實表。 維表記錄的是根本信息, 事實表記錄業(yè)務(wù)過 程。所以星形事實模型中, 一般在維表上建立
10、主鍵, 在事實表上建立外鍵。 事實表包 括了外鍵和業(yè)務(wù)過程的數(shù)據(jù)。事實表包含聯(lián)系事實與維度表的數(shù)字度量值和鍵。 事實數(shù)據(jù)表包含描述業(yè)務(wù) 內(nèi)特定事件的數(shù)據(jù) 。4、數(shù)據(jù)倉庫的物理結(jié)構(gòu) 3:MRH-SQL Server 是 H*。 P865、OLAP 操作 5。 P791上卷:就是將高維的數(shù)據(jù)壓縮到低維,是個數(shù)據(jù)的累加過程。 Eg:從街道 上卷到城市。 就是把同一城市的所有街道的數(shù)據(jù)累加起來。 維度上下是屬性 的個數(shù),維度高屬性個數(shù)多 。通過一個維德概念分層向上攀升, 或者通過維 歸納,對數(shù)據(jù)立方體進行聚集。2下鉆:是把數(shù)據(jù)的維度進一步分解,跟上卷相反。Eg:從城市分解到街道。上卷操作的逆操作。從高
11、層概括到底層概括,從不詳細(xì)到更加詳細(xì)。3切片和切塊:就是固定某一維數(shù)據(jù),再觀察其它維度的數(shù)據(jù)。Eg:固定時間維,觀察不同地點的銷售數(shù)量。4投影和選擇。 轉(zhuǎn)軸:可視化操作,從不同角度觀察數(shù)據(jù)。6數(shù)據(jù)倉庫的實現(xiàn)3。P88高效的立方體計算技術(shù),存取方法和查詢處理技術(shù);7、數(shù)據(jù)立方體的有效計算 2。 P88CD compute cube操作與維災(zāi)難Compute cube操作對操作指定維的所有子集計算聚集。立方體計算的方體或 分組總數(shù)為2的N次方。如3維3個屬性數(shù)據(jù)的立方體,分組總數(shù):2A3=8C2 局部物化:方體的選擇計算。 數(shù)據(jù)立方體的物化:不物化、完全物化、部分物化。8、維災(zāi)難概念。 P89 完
12、全物化指定義數(shù)據(jù)立方體的格中所有的方體的計算。通常需要過多的存儲 空間,特別是當(dāng)維數(shù)和相關(guān)聯(lián)的概念分層增長時,該問題稱為維災(zāi)難。9、N 維有多少個頂點。2的N次方。2n10、數(shù)據(jù)倉庫的查詢?nèi)》椒?3。 P901 位圖索引 2 連接索引 3 位圖連接索引。11、OLAP 查詢的有效處理步驟 2。 P921 確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行2 確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方法。第四章1、冰山立方體的概念。 多路數(shù)據(jù)聚集不能計算冰山立方體 。 冰山立方體:不能滿足閾值的單元,這種局部物化的單元稱作冰山立方體。2、BUC 計算冰山立方體。 P1091 從頂點方體向下計算冰山立方體。 2Aprio
13、ri 剪枝。 3 無共享聚集計算 優(yōu)點:分治策略,減少不必要計算開銷。計算流程:1 掃描整個輸入,計算整個度量。 2 針對方體的每一維進行劃分。 3 針對每一個 劃分,對它進行聚集, 為該劃分創(chuàng)立一個元組并得到該元組的計算。 判斷其分組 計算是否滿足最小支持度。 4 如果滿足,輸出該劃分的聚集元組,并在該劃分上 對下一維進行遞歸調(diào)用,否那么進行剪枝操作。3、OLAP 預(yù)計算殼片段,缺點、計算。 P116-1184、點查詢、子立方體查詢概念、計算。 P119-1205、面向?qū)傩缘臍w納是用來干什么。過程有哪些。 P128 面向?qū)傩缘臍w納用于復(fù)雜的數(shù)據(jù)類型并依賴數(shù)據(jù)驅(qū)動的泛化過程。1 使用數(shù)據(jù)庫查詢
14、收集任務(wù)相關(guān)的數(shù)據(jù); 2 收集工作關(guān)系的統(tǒng)計量。 3 導(dǎo)出主關(guān) 系P6、類比擬的過程。 P1361數(shù)據(jù)收集。 2維相關(guān)分析。 3同步泛化。 4導(dǎo)出比擬的表示。7、類描述:特征化和比擬的表示?(這里不知道考什么)第五章1、支持度、置信度、提升度概念? P147定義N為總事務(wù)數(shù),N(A)、N(B)分別為項集A、項集B出現(xiàn)的次數(shù),N(AB)為 項集A、項集B同時出現(xiàn)的次數(shù),A、B為不相交項集AH B=?,規(guī)那么A-B表 示由A推到B: 支持度:對整體小一、N(AB)Support(A B)置信度:對條件提升度:聯(lián)合概率NxN(AB)S) xB)A (4)x N(B)2、頻繁項集概念。P147項的集合
15、稱為項集。 Eg: computer, antivirus_software是 2 項集。支持度計數(shù):項集出現(xiàn)的頻率。滿足最小支持度的閥值的項集就是頻繁項集。3、 Apriori算法、如何實現(xiàn)、缺點、改良方法。P151。P156, P157-159Apriori算法:是為布爾關(guān)聯(lián)規(guī)那么挖掘頻繁項集的原創(chuàng)性算法。性質(zhì):頻繁項集的所有非空子集也必須是頻繁的。缺陷:1、它可能需要產(chǎn)生大量候選項集。2、它可能需要重復(fù)地掃描數(shù)據(jù)庫,通過模式匹配檢查一個很大的候選集合改良:1、不候選產(chǎn)生挖掘頻繁項集。2、使用垂直數(shù)據(jù)格式挖掘頻繁項集。3、挖掘閉頻繁項集。第六章1、分類、預(yù)測的區(qū)別、關(guān)系。P186預(yù)測分為:
16、分類和數(shù)值預(yù)測。分類是的目標(biāo)值離散數(shù)據(jù)。數(shù)值預(yù)測是的目標(biāo)值是連續(xù)值或者有序值。 但是為了方便,把數(shù)值預(yù)測簡稱為預(yù) 測。分類:*預(yù)測分類標(biāo)號或離散值*根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類 新數(shù)據(jù)預(yù)測:是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空 間。預(yù)測和分類的異同相同點:*兩者都需要構(gòu)建模型都用模型來估計未知值不同點:*分類法主要是用來預(yù)測類標(biāo)號分類屬性值預(yù)測法主要是用來估計連續(xù)值(量化屬性值)2、決策樹算法過程,計算。P1981計算信息量。2計算信息熵。3計算信息增益。4選擇根節(jié)點,遞歸操作3、信息增益公式、概念、如何計算。 P192選擇信息爛最
17、大的作為分類屬性設(shè)口是D中任一元組冨于類Q的概率廠用Q;dI/|D|估計 D中元組分類所需的期望信息(entropy):m力血(Q)二-工j-i Information按屬性A對D中元組進行劃分所需的信息力呃(D)=工守?zé)?2)戶DI信息增益:原來的信息需求(近基于類的)與新的需求(即對A劃分之后得到的)之間的差Gam(A) Info(D)- Info/D)4、神經(jīng)網(wǎng)絡(luò)輸入層、輸出層如何計算。P215-216向前傳播輸入:1 jnWij O iji 1輸出的計算:o j11 e Ij神經(jīng)網(wǎng)絡(luò)的上一層輸出構(gòu)成下一層的輸入5、例題 6-9。P2616線性回歸、最小二乘法計算。P231W1(Xi x
18、)( y ii 1y)(Xii 1x)2W0yWlXy是y的平均值,X是X的平均值最終回歸方程為:yi w0 w1wi第七章1、聚類分析的數(shù)據(jù)類型。不同數(shù)據(jù)類型如何計算。P253-254數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)矩陣原數(shù)據(jù),相異度矩陣?yán)鐢?shù)據(jù)間的距離,反映對象之間的相異度,測量差;數(shù)據(jù)類型:區(qū)間標(biāo)度變量,二元變量,分類、序數(shù)和比例標(biāo)度變量,混合類型的 變量X區(qū)間標(biāo)度變量:O1標(biāo)準(zhǔn)化:z - z是標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣。X原始數(shù)據(jù),是x平均值,是x的方差。C2計算距離dq J Xik yjk 2 歐氏距離。把距V k 1離小的規(guī)劃為一類。二元變量:dijr srmq")迪1)t(1,0);分類變量:d
19、jPP是全部變量總是,m是匹配數(shù)目P2、分類、序數(shù)和比例標(biāo)度變量,計算例題7-3,7-5,7-6。P256-260對象標(biāo)識符Test1分類的Test2序數(shù)的Test3比例標(biāo)度1Code-A優(yōu)秀4452Code-B一般223Code-C好1644Code-A優(yōu)秀12107-3:計算分類變量的相異度數(shù)據(jù)是Testi 分類的行是對象記錄,列是屬性只有一列【維】, p mdj令 P=1;得:7-5計算比例標(biāo)度量間的相異度。數(shù)據(jù)是Test3比例標(biāo)度先比照例標(biāo)度變量進行對數(shù)變換。再計算距離。Test3數(shù)據(jù)取對數(shù)得:2.65,1.34, 2.21, 3.08。求歐氏距離:01,3059Q.43350,434
20、4l_ 305900.8F241-7404工 43350.972400.86790_43441. 74040-857907-6計算混合類型變量間的相異度temp =log10(Tes t3)得到:2. 64841. 3434)2.21483- 0S2STemp2=temp/(max(temp)-min(temp)得至U1. 52170. 77131. 2726L7713在對Temp2求距離。00. 75040.24910. 24960. 75C400.50131. 00000. 24910.501300. 49370. 2496L 00000.4SS703、主要聚類方法的分類P261。劃分法,層次法,基于網(wǎng)格的方法,基于模型的方法。4、K均
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人房產(chǎn)租賃貸款擔(dān)保合同匯編3篇
- 煙道防腐施工方案
- 高速鐵路的軌道施工方案
- 培養(yǎng)良好的時間管理能力
- 二零二五年度高端鋼管制造與安裝服務(wù)合同2篇
- 二零二五年度工業(yè)品電子商務(wù)平臺入駐合同3篇
- 渭南水泥檢查井施工方案
- 陽江風(fēng)冷模塊機組施工方案
- 二零二五年度個人旅游費用分期還款協(xié)議模板
- 橋梁金屬防撞護欄施工方案
- 環(huán)衛(wèi)工節(jié)前安全培訓(xùn)
- 2025蛇年春節(jié)放假通知假期溫馨提示模板
- 2024工貿(mào)企業(yè)重大事故隱患判定標(biāo)準(zhǔn)解讀
- 《認(rèn)罪認(rèn)罰案件被追訴人反悔應(yīng)對機制研究》
- 投資項目評估管理制度
- 《工程地質(zhì)》試題及答案四
- 氦離子化色譜法測試電氣設(shè)備油中溶解氣體的技術(shù)規(guī)范
- 內(nèi)燃機車鉗工(中級)職業(yè)鑒定理論考試題及答案
- 中國聯(lián)合網(wǎng)絡(luò)通信有限公司招聘筆試題庫2024
- 長期處方管理規(guī)范-學(xué)習(xí)課件
- 高中英語外研版 單詞表 選擇性必修3
評論
0/150
提交評論