




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.數據挖掘復習題單選題1. 某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的哪類問題?(A) A. 關聯規(guī)則發(fā)現 B. 聚類 C. 分類 D. 自然語言處理2. 以下兩種描述分別對應哪兩種對分類算法的評價標準? (A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。 (b)描述有多少比例的小偷給警察抓了的標準。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC3. 將原始數據進行集成、變換、維度規(guī)約、數值規(guī)約是在以下哪個步驟的任務?(C) A. 頻繁模式
2、挖掘 B. 分類和預測 C. 數據預處理 D. 數據流挖掘4. 當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數據相分離?(B) A. 分類 B. 聚類 C. 關聯分析 D. 隱馬爾可夫鏈5. 什么是KDD? (A) A. 數據挖掘與知識發(fā)現 B. 領域知識發(fā)現 C. 文檔知識發(fā)現 D. 動態(tài)知識發(fā)現6. 使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類任務?(A) A. 探索性數據分析 B. 建模描述 C. 預測建模 D. 尋找模式和規(guī)則7. 為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪一類任務?(B) A. 探索性數據分析 B.
3、建模描述 C. 預測建模 D. 尋找模式和規(guī)則8. 建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬于數據挖掘的哪一類任務?(C) A. 根據內容檢索 B. 建模描述 C. 預測建模 D. 尋找模式和規(guī)則9. 用戶有一種感興趣的模式并且希望在數據集中找到相似的模式,屬于數據挖掘哪一類任務?(A) A. 根據內容檢索 B. 建模描述 C. 預測建模 D. 尋找模式和規(guī)則 11.下面哪種不屬于數據預處理的方法? (D)A變量代換 B離散化 C 聚集 D 估計遺漏值 12. 假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 9
4、2, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內? (B)A 第一個 B 第二個 C 第三個 D 第四個 13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里? (A)A 第一個 B 第二個 C 第三個 D 第四個 14.下面哪個不屬于數據的屬性類型:(D)A 標稱 B 序數 C 區(qū)間 D相異 15. 在上題中,屬于定量的屬性類型是:(C)A 標稱 B 序數 C區(qū)間 D 相異 16. 只有非零值才重要的二元屬性被稱作:( C )A 計數屬性 B 離散屬性 C非對稱的二元屬性 D 對稱屬性 17. 以下哪種方法不屬于特征選擇的標準方法: (
5、D)A嵌入 B 過濾 C 包裝 D 抽樣 18.下面不屬于創(chuàng)建新屬性的相關方法的是: (B)A特征提取 B特征修改 C映射數據到新的空間 D特征構造 19. 考慮值集1、2、3、4、5、90,其截斷均值(p=20%)是 (C)A 2 B 3 C 3.5 D 5 20. 下面哪個屬于映射數據到新的空間的方法? (A)A 傅立葉變換 B特征加權 C 漸進抽樣 D維歸約 21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)A 1比特 B 2.6比特 C 3.2比特 D 3.8比特 22. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范
6、化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 24. 考慮值集12 24 33 2 4 55 68 26,其四分位數極差是:(A
7、)A 31 B 24 C 55 D 3 25. 一所大學內的各年紀人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是: (A)A 一年級 B二年級 C 三年級 D 四年級 26. 下列哪個不是專門用于可視化時間空間數據的技術: (B)A 等高線圖 B餅圖 C 曲面圖 D 矢量場圖 27. 在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是: (D)A 有放回的簡單隨機抽樣 B無放回的簡單隨機抽樣 C分層抽樣 D 漸進抽樣28. 數據倉庫是隨著時間變化的,下面的描述不正確的是 (C)A. 數據倉庫隨時間的變化不斷增加新的數據內容;B. 捕捉
8、到的新數據會覆蓋原來的快照;C. 數據倉庫隨事件變化不斷刪去舊的數據內容;D. 數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合.29. 關于基本數據的元數據是指: (D)A. 基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;B. 基本元數據包括與企業(yè)相關的管理方面的數據和信息;C. 基本元數據包括日志文件和簡歷執(zhí)行處理的時序調度信息;D. 基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息.30. 下面關于數據粒度的描述不正確的是: (C)A. 粒度是指數據倉庫小數據單元的詳細程度和級別;B. 數據越詳細,粒度就越小,級別也就越高;C.
9、 數據綜合度越高,粒度也就越大,級別也就越高;D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.31. 有關數據倉庫的開發(fā)特點,不正確的描述是: (A)A. 數據倉庫開發(fā)要從數據出發(fā);B. 數據倉庫使用的需求在開發(fā)出去就要明確;C. 數據倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D. 在數據倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式32. 在有關數據倉庫測試,下列說法不正確的是: (D)A. 在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.B. 當數據倉庫的每個單獨組件
10、完成后,就需要對他們進行單元測試.C. 系統(tǒng)的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試.D. 在測試之前沒必要制定詳細的測試計劃.33. OLAP技術的核心是: (D)A. 在線性;B. 對用戶的快速響應;C. 互操作性.D. 多維分析;34. 關于OLAP的特性,下面正確的是: (D)(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 關于OLAP和OLTP的區(qū)別描述,不正確的是: (C)A. OLAP主要是關于
11、如何理解聚集的大量不同的數據.它與OTAP應用程序不同.B. 與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.C. OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.D. OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統(tǒng),兩者面對的用戶是相同的.36. OLAM技術一般簡稱為”數據聯機分析挖掘”,下面說法正確的是: (D)A. OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性;B. 由于OLAM的立方體和用于OLAP的立方體有本質的區(qū)別.C. 基于WEB的OLAM是WEB技術與OLAM技術的結合.D. OLAM服務器
12、通過用戶圖形借口接收用戶的分析指令,在元數據的知道下,對超級立方體作一定的操作.37. 關于OLAP和OLTP的說法,下列不正確的是: (A)A. OLAP事務量大,但事務內容比較簡單且重復率高.B. OLAP的最終數據來源與OLTP不一樣.C. OLTP面對的是決策人員和高層管理人員.D. OLTP以應用為核心,是應用驅動的.38. 設X=1,2,3是頻繁項集,則可由X產生_(C)_個關聯規(guī)則。A、4 B、5 C、6 D、7 40. 概念分層圖是_(B)_圖。A、無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán)41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (C)A、頻繁項集 頻
13、繁閉項集 =最大頻繁項集B、頻繁項集 = 頻繁閉項集 最大頻繁項集C、頻繁項集 頻繁閉項集 最大頻繁項集D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集42. 考慮下面的頻繁3-項集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數據集中只有5個項,采用 合并策略,由候選產生過程得到4-項集不包含(C)A、1,2,3,4 B、1,2,3,5 C、1,2,4,5 D、1,3,4,543.下面選項中t不是s的子序列的是 ( C )A、s=<2,4,3,5,6,8> t=<2,3,6,8>B、s=<2,4,3,5,
14、6,8> t=<2,8>C、s=<1,2,3,4> t=<1,2>D、s=<2,4,2,4> t=<2,4>44. 在圖集合中發(fā)現一組公共子結構,這樣的任務稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數據項挖掘 D、頻繁模式挖掘45. 下列度量不具有反演性的是 (D)A、 系數 B、幾率 C、Cohen度量 D、興趣因子46. 下列_(A)_不是將主觀信息加入到模式發(fā)現任務中的方法。A、與同一時期其他數據對比B、可視化C、基于模板的方法D、主觀興趣度量47. 下面購物籃能夠提取的3-項集的最大數量是多少(C)ID
15、 購買項1 牛奶,啤酒,尿布2 面包,黃油,牛奶3 牛奶,尿布,餅干4 面包,黃油,餅干5 啤酒,餅干,尿布6 牛奶,尿布,面包,黃油7 面包,黃油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黃油10 啤酒,餅干A、1 B、2 C、3 D、448. 以下哪些算法是分類算法,A,DBSCAN B,C4.5 C,K-Mean D,EM (B)49. 以下哪些分類方法可以較好地避免樣本的不平衡問題, A,KNN B,SVM C,Bayes D,神經網絡 (A) 50. 決策樹中不包含一下哪種結點,A,根結點(root node) B,內部結點(internal node) C,外部結點(externa
16、l node) D,葉結點(leaf node) (C)51. 不純性度量中Gini計算公式為(其中c是類的個數) (A)A, B, C, D, (A)53. 以下哪項關于決策樹的說法是錯誤的 (C)A. 冗余屬性不會對決策樹的準確率造成不利的影響 B. 子樹可能在決策樹中重復多次 C. 決策樹算法對于噪聲的干擾非常敏感 D. 尋找最佳決策樹是NP完全問題54. 在基于規(guī)則分類器的中,依據規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。
17、55. 以下哪些算法是基于規(guī)則的分類器 (A) A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為(C);A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則57. 如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則58. 如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是 (D)A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則59. 如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作
18、是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為(A) A, 無序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (C)A,0.75 B,0.35 C,0.4678 D, 0.573861. 以下關于人工神經網絡(ANN)的描述錯誤的有 (A)A,神經網絡對訓練數據中的噪聲非常魯棒 B,可以處理冗余特征 C,訓練ANN是一個很耗時的過程 D,至少含有一個隱藏層的多層神經網絡
19、62. 通過聚集多個分類器的預測來提高分類準確率的技術稱為 (A) A,組合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(voting)63. 簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作( B ) A、層次聚類 B、劃分聚類 C、非互斥聚類 D、模糊聚類64. 在基本K均值算法里,當鄰近度函數采用( A )的時候,合適的質心是簇中各點的中位數。 A、曼哈頓距離 B、平方歐幾里德距離 C、余弦距離 D、Bregman散度 65.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不
20、同的機制產生的。 A、邊界點 B、質心 C、離群點 D、核心點66. BIRCH是一種( B )。 A、分類器 B、聚類算法 C、關聯分析算法 D、特征選擇算法67. 檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于( A )的離群點檢測。 A、統(tǒng)計方法 B、鄰近度 C、密度 D、聚類技術68.( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術。 A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Ward方法69.( D )將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術。 A、MIN(單鏈) B、MAX(全鏈) C
21、、組平均 D、Ward方法70. DBSCAN在最壞情況下的時間復雜度是( B )。 A、O(m) B、O(m2) C、O(log m) D、O(m*log m)71. 在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci , C),簇權值為mi ,那么它的類型是( C )。 A、基于圖的凝聚度 B、基于原型的凝聚度 C、基于原型的分離度 D、基于圖的凝聚度和分離度72. 關于K均值和DBSCAN的比較,以下說法不正確的是( A )。 A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。 B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。 C、K均
22、值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。 D、K均值可以發(fā)現不是明顯分離的簇,即便簇有重疊也可以發(fā)現,但是DBSCAN會合并有重疊的簇。73. 以下是哪一個聚類算法的算法流程:構造k最近鄰圖。使用多層圖劃分算法劃分圖。repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。until:不再有可以合并的簇。( C )。 A、MST B、OPOSSUM C、Chameleon D、JarvisPatrick(JP)74. 考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應該選擇
23、( D )的相似度計算方法。 A、平方歐幾里德距離 B、余弦距離 C、直接相似度 D、共享最近鄰75. 以下屬于可伸縮聚類算法的是( A )。A、CURE B、DENCLUE C、CLIQUE D、OPOSSUM76. 以下哪個聚類算法不是屬于基于原型的聚類( D )。 A、模糊c均值 B、EM算法 C、SOM D、CLIQUE77. 關于混合模型聚類算法的優(yōu)缺點,下面說法正確的是( B )。 A、當簇只包含少量數據點,或者數據點近似協線性時,混合模型也能很好地處理。 B、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。 C、混合模型很難發(fā)現不同大小和橢球形狀的簇。 D、混合
24、模型在有噪聲和離群點時不會存在問題。78. 以下哪個聚類算法不屬于基于網格的聚類算法( D )。 A、STING B、WaveCluster C、MAFIA D、BIRCH79. 一個對象的離群點得分是該對象周圍密度的逆。這是基于( C )的離群點定義。 A概率 B、鄰近度 C、密度 D、聚類80. 下面關于JarvisPatrick(JP)聚類算法的說法不正確的是( D )。 A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。 B、JP算法對高維數據效果良好,尤其擅長發(fā)現強相關對象的緊致簇。 C、JP聚類是基于SNN相似度的概念。 D、JP聚類的基本時間復雜度為O(m)
25、。第一章1、數據倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數據集合。2、元數據是描述數據倉庫內數據的結構和建立方法的數據,它為訪問數據倉庫提供了一個信息目錄,根據數據用途的不同可將數據倉庫的元數據分為技術元數據和業(yè)務元數據兩類。3、數據處理通常分成兩大類:聯機事務處理和聯機分析處理。4、多維分析是指以“維”形式組織起來的數據(多維數據集)采取切片、切塊、鉆取和旋轉等各種分析動作,以求剖析數據,使擁護能從不同角度、不同側面觀察數據倉庫中的數據,從而深入理解多維數據集中的信息。5、ROLAP是基于關系數據庫的OLAP實現,而MOLAP是基于多維數據結構組織的OLAP實現。6、數據倉
26、庫按照其開發(fā)過程,其關鍵環(huán)節(jié)包括數據抽取、數據存儲于管理和數據表現等。7、數據倉庫系統(tǒng)的體系結構根據應用需求的不同,可以分為以下4種類型:兩層架構、獨立型數據集合、以來型數據結合和操作型數據存儲和邏輯型數據集中和實時數據倉庫。8、操作型數據存儲實際上是一個集成的、面向主題的、可更新的、當前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細的數據庫,也叫運營數據存儲。9、“實時數據倉庫”以為著源數據系統(tǒng)、決策支持服務和倉庫倉庫之間以一個接近實時的速度交換數據和業(yè)務規(guī)則。10、從應用的角度看,數據倉庫的發(fā)展演變可以歸納為5個階段:以報表為主、以分析為主、以預測模型為主、以運營導向為主和以實時數據倉庫和自動決
27、策為主。第二章1、調和數據是存儲在企業(yè)級數據倉庫和操作型數據存儲中的數據。2、抽取、轉換、加載過程的目的是為決策支持應用提供一個單一的、權威數據源。因此,我們要求ETL過程產生的數據(即調和數據層)是詳細的、歷史的、規(guī)范的、可理解的、即時的和質量可控制的。3、數據抽取的兩個常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數據倉庫,增量抽取用于進行數據倉庫的維護。4、粒度是對數據倉庫中數據的綜合程度高低的一個衡量。粒度越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因為星型模式中數據的組織已經經過預處理,主要數據都在龐大的事實表中。6、維度表
28、一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用代理鍵。7、雪花型模式是對星型模式維表的進一步層次化和規(guī)范化來消除冗余的數據。8、數據倉庫中存在不同綜合級別的數據。一般把數據分成4個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級和高度綜合級。第三章1、SQL Server SSAS提供了所有業(yè)務數據的同意整合試圖,可以作為傳統(tǒng)報表、在線分析處理、關鍵性能指示器記分卡和數據挖掘的基礎。2、數據倉庫的概念模型通常采用信息包圖法來進行設計,要求將其5個組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。3、數據倉庫的邏輯模型通常采用星型圖法來進行設計,要
29、求將星型的各類邏輯實體完整地描述出來。4、按照事實表中度量的可加性情況,可以把事實表對應的事實分為4種類型:事務事實、快照事實、線性項目事實和事件事實。5、確定了數據倉庫的粒度模型以后,為提高數據倉庫的使用性能,還需要根據擁護需求設計聚合模型。6、在項目實施時,根據事實表的特點和擁護的查詢需求,可以選用時間、業(yè)務類型、區(qū)域和下屬組織等多種數據分割類型。7、當維表中的主鍵在事實表中沒有與外鍵關聯時,這樣的維稱為退化維。它于事實表并無關系,但有時在查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。8、維度可以根據其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。9、數據倉庫的數據量通常較
30、大,且數據一般很少更新,可以通過設計和優(yōu)化索引結構來提高數據存取性能。10、數據倉庫數據庫常見的存儲優(yōu)化方法包括表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。第四章1、關聯規(guī)則的經典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2=a,b,a,c,a,d,b,c,b,d,則連接產生的C3=a,b,c,a,b,d,a,c,d,b,c,d再經過修剪,C3=a,b,c,a,b,d3、設定supmin=50%,交易集如則L1=A,B,C L2=A,CT1 A B CT2 A CT3 A D T4 B E F第五章1、分類的過程包括獲
31、取數據、預處理、分類器設計和分類決策。2、分類器設計階段包含三個過程:劃分數據集、分類器構造和分類器測試。3、分類問題中常用的評價準則有精確度、查全率和查準率和集合均值。4、支持向量機中常用的核函數有多項式核函數、徑向基核函數和S型核函數。第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計算方法。2、連續(xù)型屬性的數據樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數據集進行聚類時包含三個要點:選種某種距離作為數據樣本減的相似性度量、選擇評價聚類性能的準則函數和選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數取得最
32、優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。填空題20分,簡答題25分,計算題2個(25分),綜合題30分1、數據倉庫的組成?P2數據倉庫數據庫,數據抽取工具,元數據,訪問工具,數據集市,數據倉庫管理,信息發(fā)布系統(tǒng)2、數據挖掘技術對聚類分析的要求有哪幾個方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現任意形狀聚類的能力;減小對先驗知識和用戶自定義參數的依賴性;處理噪聲數據的能力;可解釋性和實用性3、數據倉庫在存儲和管理方面的特點與關鍵技術?P7數據倉庫面對的是大量數據的存儲與管理并行處理針對決策支持查詢的優(yōu)化支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132基于劃
33、分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網格的聚類算法,基于模型的聚類算法 等。5、一個典型的數據倉庫系統(tǒng)的組成?P12數據源、數據存儲與管理、OLAP服務器、前端工具與應用6、 數據倉庫常見的存儲優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、 數據倉庫發(fā)展演變的5個階段?P20以報表為主以分析為主以預測模型為主以運行向導為主以實時數據倉庫、自動決策應用為主8、 ID3算法主要存在的缺點?P116(1)ID3算法在選擇根結點和各內部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提
34、供太多有價值的信息。(2)ID3算法只能對描述屬性為離散型屬性的數據集構造決策樹。9、 簡述數據倉庫ETL軟件的主要功能和對產生數據的目標要求。P30ETL軟件的主要功能:數據的抽取,數據的轉換,數據的加載對產生數據的目標要求:詳細的、歷史的、規(guī)范化的、可理解的、即時的、質量可控制的10、 簡述分類器設計階段包含的3個過程。劃分數據集,分類器構造,分類器測試11、 什么是數據清洗?P33數據清洗是一種使用模式識別和其他技術,在將原始數據轉換和移到數據倉庫之前來升級原始數據質量的技術。12、 支持度和置信度的計算公式及數據計算(P90)找出所有的規(guī)則X à Y , 使支持度和置信度分別大于門限支持度: 事務中X和Y同時發(fā)生的比例,P(X Y)置信度:項集X發(fā)生時,Y同時發(fā)生的條件概率P(Y|X)Example:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年教師資格之中學教育知識與能力題庫附答案(典型題)
- 2025汽車維護保養(yǎng)合同范本
- 2025商場專柜租賃合同協議書
- 2025年產品采購合同范本
- 有效溝通在管理中的關鍵作用計劃
- 2025裝修工人勞動合同書
- 滁州硫酸池防腐施工方案
- 山西泳池墊層施工方案
- 2025建筑工程施工安全合同
- 2025寬帶網絡基礎設施建設租賃合同
- 《大學生創(chuàng)業(yè)導論》期末考試復習題庫(含答案)
- 2024年國網公司企業(yè)文化與職業(yè)道德試考試題庫(含答案)
- 年處理4萬噸丙酮-水連續(xù)精餾塔設計
- 音樂鑒賞與實踐教案:第一單元第四課2.音樂的力量(下)
- 創(chuàng)新創(chuàng)業(yè)實戰(zhàn)學習通超星期末考試答案章節(jié)答案2024年
- 大學生職業(yè)素養(yǎng)訓練(第六版)課件 第十一單元樹立誠信意識
- 河南省2024年中考道德與法治真題試卷(含答案)
- DB34∕T 4010-2021 水利工程外觀質量評定規(guī)程
- 人教版(2024)數學七年級上冊3.1列代數式表示數量關系第1課時《代數式》教學課件
- 上海市市轄區(qū)(2024年-2025年小學三年級語文)統(tǒng)編版期中考試(下學期)試卷(含答案)
- DL∕T 1954-2018 基于暫態(tài)地電壓法局部放電檢測儀校準規(guī)范
評論
0/150
提交評論