數(shù)據(jù)挖掘期末復(fù)習(xí)_第1頁
數(shù)據(jù)挖掘期末復(fù)習(xí)_第2頁
數(shù)據(jù)挖掘期末復(fù)習(xí)_第3頁
數(shù)據(jù)挖掘期末復(fù)習(xí)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘總復(fù)習(xí)題1 數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類? 挖掘的數(shù)據(jù)庫類型分類、挖掘的知識類型分類、所用的技術(shù)分類、應(yīng)用分類2知識發(fā)現(xiàn)過程包括哪些步驟? 數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示3什么是概念分層?一個概念分層定義一個映射序列,將底層概念到更一般的高層概念。4多維數(shù)據(jù)模型上的OLAP操作包括哪些?上卷、下鉆、切片和切塊、轉(zhuǎn)軸、其它OLAP操作5OLAP服務(wù)器類型有哪幾種?關(guān)系OLAP(ROLAP)服務(wù)器、多維OLAP(MOLAP)服務(wù)器、混合OLAP(HOLAP)服務(wù)器、特殊的SQL服務(wù)器 6數(shù)據(jù)預(yù)處理技術(shù)包括哪些? 數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)

2、據(jù)歸約7什么是數(shù)據(jù)清理? 數(shù)據(jù)清理例程可以用于填充遺漏的值,平滑數(shù)據(jù),找出局外者并糾正數(shù)據(jù)的不一致性8什么是數(shù)據(jù)集成?數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合成、存放在一個一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫中。這些源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)方或一般文件。 9什么是數(shù)據(jù)歸約?數(shù)據(jù)歸約技術(shù),如數(shù)據(jù)方聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約和離散化都可以用來得到數(shù)據(jù)的歸約表示,而使得信息內(nèi)容的損失最小。10數(shù)據(jù)清理的內(nèi)容包括哪些? 遺漏值、噪音數(shù)據(jù)、不一致數(shù)據(jù)11.將下列縮略語復(fù)原OLAPon-line analytical processingDMdata miningKDDknowledge discovery in

3、databasesOLTPon-line transaction processingDBMSdatabase management systemDWTdiscrete wavelet transform12什么是數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的人們事先不知道的,但又有潛在有用的信息和知識的過程。13什么是關(guān)聯(lián)規(guī)則?什么是強(qiáng)關(guān)聯(lián)規(guī)則?強(qiáng)關(guān)聯(lián)規(guī)則都是有趣的嗎?關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則挖掘?qū)ふ医o定數(shù)據(jù)集中項(xiàng)之間的有趣聯(lián)系。強(qiáng)關(guān)聯(lián)規(guī)則:同時滿足用戶定義的最小置信度閾值和最小支持度閾值的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。都是有趣的14什么是可信度?

4、規(guī)則的蘊(yùn)涵強(qiáng)度估計(jì)15什么是支持度? 出現(xiàn)規(guī)則模式的任務(wù)相關(guān)元祖所占的百分比16數(shù)據(jù)倉庫的主要特征是什么?面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合。 17什么是數(shù)據(jù)集市? 數(shù)據(jù)及時包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的。其范圍限于選定主題。18數(shù)據(jù)庫中的知識發(fā)現(xiàn)過程由哪幾個步驟組成? (1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋19典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個主要成分? 數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫;數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器;知識庫;數(shù)據(jù)挖掘引擎;模式評估模塊;用戶界面20從軟件工程的觀點(diǎn)來看,數(shù)據(jù)倉庫的設(shè)計(jì)和構(gòu)造包含哪些步驟? 規(guī)劃、需求研究、問題分析、倉庫設(shè)計(jì)、

5、數(shù)據(jù)集成和測試,最后,配置數(shù)據(jù)倉庫。21在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要? 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個極其困難的任務(wù)。22臟數(shù)據(jù)形成的原因有哪些?濫用縮寫詞、數(shù)據(jù)輸入錯誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的慣用語、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過時的編碼。 23數(shù)據(jù)清理時,對空缺值有哪些處理方法? 忽略元祖、人工填寫遺漏值、使用一個全局常量填充遺漏值、使用屬性的平均值填充遺漏值、使用與給定元祖屬同一類的所有樣本的平均值、使用最可能的值填充遺漏值24什么是數(shù)據(jù)變換?包括哪些內(nèi)容?數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。包括內(nèi)容有,平滑、聚集

6、、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造25數(shù)據(jù)歸約的策略包括哪些?數(shù)據(jù)方聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層26提高數(shù)據(jù)挖掘算法效率有哪幾種思路?減少對數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對候選項(xiàng)集的支持度計(jì)算方法27假定屬性income的最小值與最大值分別為¥12000和¥98000,如映射income到區(qū)間0.0,1.0,根據(jù)min-max規(guī)范化,income值¥73600將變?yōu)?3631/551 。28假定屬性income的平均值和標(biāo)準(zhǔn)差分別為¥54000和¥16000。使用Z-score規(guī)范化,值¥73600被轉(zhuǎn)換為 1.225 。29假定A的值由-986到917。A的最大絕對

7、值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為 -0.986 。30從結(jié)構(gòu)角度來看,有三種數(shù)據(jù)倉庫模型_企業(yè)倉庫、數(shù)據(jù)集市、和虛擬倉庫_。31什么是聚類分析?它與分類有什么區(qū)別?將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程32.與數(shù)據(jù)挖掘類似的術(shù)語有:數(shù)據(jù)庫中挖掘知識、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33解釋下列術(shù)語34翻譯下列術(shù)語Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉庫Data Mart 數(shù)據(jù)集市drill-down 下鉆roll-up 上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體Association rule

8、 關(guān)聯(lián)規(guī)則Data cleaning 數(shù)據(jù)清理Data integration 數(shù)據(jù)集成Data transformation 數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約35.可以對按季度匯總的銷售數(shù)據(jù)進(jìn)行_B_,來觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D切塊36可以對按城市匯總的銷售數(shù)據(jù)進(jìn)行_A_,來觀察按國家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D切塊37通過不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱為_B_。A 上卷 B 下鉆 C 細(xì)化 D維規(guī)約38三層數(shù)據(jù)倉庫結(jié)構(gòu)中,從底層到尾層分別是_數(shù)據(jù)倉庫服務(wù)器、OLAP服務(wù)器、客戶_。*39已知事務(wù)數(shù)據(jù)庫D,假定最小支持度為2,求所有

9、的頻繁項(xiàng)集和它們的支持度。第一步 由數(shù)據(jù)庫D求得候選數(shù)據(jù)項(xiàng)集C1,項(xiàng)A、B、C、D、E的次數(shù)分別為2、3、3、1、3。第二步:根據(jù)最小支持度為2,生成一維數(shù)據(jù)項(xiàng)集L1。第三步:為生成L2,通過L1與自己連接產(chǎn)生候選2-項(xiàng)集的集合,記為C2,再由最小支持度得到L2。第四步:從L2生成C3,首先兩個具有相同首項(xiàng)的數(shù)據(jù)項(xiàng):BC和BE可以確定下來,在考察BC和BE的尾項(xiàng)生成的數(shù)據(jù)項(xiàng)集CE是否滿足最小支持度,結(jié)果成立。這樣BCE的所有二維子集都是頻繁數(shù)據(jù)項(xiàng)集,所以BCE是候選數(shù)據(jù)項(xiàng)集。同時,從L2也得不到其他三維候選數(shù)據(jù)項(xiàng)。這樣C3就確定了,同理求出L3。 到此為止,得不到更高維的數(shù)據(jù)項(xiàng)集了,即整個頻繁

10、數(shù)據(jù)項(xiàng)集就確定了。40. 類比較過程有哪幾個步驟?(1)數(shù)據(jù)收集通過查詢處理收集數(shù)據(jù)庫中相關(guān)的數(shù)據(jù),并將其劃分為一個目標(biāo)類和一個或多個對比類。(2)維相關(guān)分析使用屬性相關(guān)分析方法,使我們的任務(wù)中僅包含強(qiáng)相關(guān)的維。(3)同步概化同步的在目標(biāo)類和對比類上進(jìn)行概化,得到主目標(biāo)類 關(guān)系/方體 和 主對比類 關(guān)系/方體。(4)導(dǎo)出比較的表示用可視化技術(shù)表達(dá)類比較描述,通常會包含“對比”度量,反映目標(biāo)類與對比類間的比較。41. 給出數(shù)據(jù)倉庫的某種概念模式圖,會用DMQL語句描述該概念模式,包括事實(shí)與維。自頂向下、數(shù)據(jù)源、數(shù)據(jù)倉庫、商務(wù)查詢。42常用的四種興趣度的客觀度量。簡單性 確定性 實(shí)用性 新穎性43

11、四種常用的概念分層類型。模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層44各種DMQL子句的表述。1. use database or use data warehouse/ use子句將數(shù)據(jù)挖掘任務(wù)指向說明的數(shù)據(jù)庫或數(shù)據(jù)倉庫. 2. fromwhere/from 和where子句分別指定所涉及的表或數(shù)據(jù)立方體和定義檢索數(shù)據(jù)的條件 3. in relevance to :該子句列出要探查的屬性和維 4. order by :order by 子句說明任務(wù)相關(guān)的數(shù)據(jù)排序的次序 5. group by: group by 子句說明數(shù)據(jù)分組的標(biāo)準(zhǔn) 6. having :having 子句說明相關(guān)數(shù)據(jù)分組條件45如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?不完整的、含噪聲的、不一致的、重復(fù)的46多維數(shù)據(jù)倉庫有哪幾種概念模型?星形模型、雪花模型、或事實(shí)星座模式48. 在多路數(shù)組聚集方法中,為盡量少占內(nèi)存,各平面要按什么順序排列進(jìn)行計(jì)算?將最小的平面放在內(nèi)存中,將最大的平面每次只是提取并計(jì)算一塊。49. 全自動的數(shù)據(jù)挖掘系統(tǒng)是可行嗎?50. 什么決定所使用的數(shù)據(jù)挖掘功能?挖掘什么類型的知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論