版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據挖掘考試 - 部選拔考題 一、單選題(每題 0.5 分,共 30 題) 1. 某超市研究銷售紀錄數據后發(fā)現,買啤酒的人很大概率也會購買尿布,這種屬于數據挖 掘的哪類問題? (A) A. 關聯規(guī)則發(fā)現B. 聚類 C. 分類D. 自然語言處理 2. 將原始數據進行集成、變換、維度規(guī)約、數值規(guī)約是在以下哪個步驟的任務? (C) A. 頻繁模式挖掘 B. 分類和預測 C. 數據預處理 D. 數據流挖掘 3. 當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其他標簽的數 據相分離? (B) A. 分類 B. 聚類 C. 關聯分析 D. 隱馬爾可夫鏈 4. 使用交互式的和可視化的技術,
2、對數據進行探索屬于數據挖掘的哪一類任務?(A ) A. 探索性數據分析 B. 建模描述 C. 預測建模 D. 尋找模式和規(guī)則 5. 下面哪種不屬于數據預處理的方法?(D) A 變量代換 B 離散化 C 聚集 D 估計遺漏值 6. 假設 12 個銷售價格記錄組已經排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使 用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時, 15 在第幾個箱子? (B) A 第一個 B 第二個 C 第三個 D 第四個 7. 只有非零值才重要的二元屬性被稱作: ( C ) A 計數屬性 B 離散屬性 C 非對稱
3、的二元屬性 D 對稱屬性 8. 以下哪種方法不屬于特征選擇的標準方法: (D) A 嵌入 B 過濾 C 包裝 D 抽樣 9. 下面不屬于創(chuàng)建新屬性的相關方法的是:(B) A 特征提取 B 特征修改 C 映射數據到新的空間 D 特征構造 10. 假設屬性 income 的最大最小值分別是 12000 元和 98000 元。利用最大最小規(guī)化的方法 將屬性的值映射到 0至1的圍。對屬性in come的73600元將被轉化為:(D) A 0.821 B 1.224 C 1.458 D 0.716 11. 假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13, 15, 16, 1
4、6,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52, 70, 問題: 使用按箱平均值平滑方法對上述數據進行平滑, 箱的深度為 3。第二個箱子值為: (A) A 18.3 B 22.6 C 26.8 D 27.9 12. 數據倉庫是隨著時間變化的 ,下面的描述不正確的是 (C) A. 數據倉庫隨時間的變化不斷增加新的數據容 ; B. 捕捉到的新數據會覆蓋原來的快照 ; C. 數據倉庫隨事件變化不斷刪去舊的數據容 ; D. 數據倉庫中包含大量的綜合數據 ,這些綜合數據會隨著時間的變化不斷地進行重新綜合 13. 關于基本數據的元數據是
5、指 : (D) A. 基本元數據與數據源 ,數據倉庫 ,數據集市和應用程序等結構相關的信息 B. 基本元數據包括與企業(yè)相關的管理方面的數據和信息 ; C. 基本元數據包括日志文件和簡歷執(zhí)行處理的時序調度信息 ; D. 基本元數據包括關于裝載和更新處理 ,分析處理以及管理方面的信息 14. 下面關于數據粒度的描述不正確的是 : (C) A. 粒度是指數據倉庫小數據單元的詳細程度和級別 ; B. 數據越詳細 ,粒度就越小 ,級別也就越高 ; C. 數據綜合度越高 ,粒度也就越大 ,級別也就越高 ; D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量 . 15. 設 X=1 ,2, 3是頻
6、繁項集,則可由 X 產生 _(C)_個關聯規(guī)則。 A、4 B、5 C、6 D、7 16. 概念分層圖是 _(B)_ 圖。 A、無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán) 17. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (C) A、頻繁項集頻繁閉項集=最大頻繁項集 B、頻繁項集=頻繁閉項集 最大頻繁項集 C、頻繁項集頻繁閉項集最大頻繁項集 D、頻繁項集=頻繁閉項集=最大頻繁項集 18. 在圖集合中發(fā)現一組公共子結構,這樣的任務稱為 ( B ) A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數據項挖掘D、頻繁模式挖掘 C,外部 19. 決策樹中不包含一下哪種結點,A,根結點(root
7、node) B,部結點(internal node) 結點(external node)D,葉結點(leaf node) (C) 20. 以下哪項關于決策樹的說法是錯誤的 (C) A. 冗余屬性不會對決策樹的準確率造成不利的影響 B. 子樹可能在決策樹中重復多次 C. 決策樹算法對于噪聲的干擾非常敏感 D. 尋找最佳決策樹是 NP 完全問題 21. 在基于規(guī)則分類器的中,依據規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都 是由覆蓋它的 “最好的 ”規(guī)格來分類,這種方案稱為 (B) A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。 22.
8、 在SQL Server數據庫中,有一個產品表products,你想按照價格從小到大的順序顯示所有 產品的名稱(productname)和價格(price),可以實現該功能的T-SQL語句是(A )。(選擇一 項) (A) SELECT productname,price from products order by price ASC (B) SELECT productname,price from products order by price DESC (C) SELECT productname and price from products order by price (D) S
9、ELECT productname and price from products order by price DESC 23. 你是公司的 SQL server 數據庫管理員。 你管理一個數據庫, 其中有一個產品表 Products, 記錄公司的產品信息,你想刪除過期的產品信息,應該用 ( D )語句。 (選擇一項 ) (A)select(B)insert(C)update(D)delete 24. 下列哪條語句可以完成刪除數據庫中某個視圖的操作: ( D) A Delete * from view_Name B Delete from view _Name C Delete view T
10、able_Name D Drop view Table_Name 25.下列哪條語句可以元成將表xjb中的數據按Class (班級)分組統計出各個班的總人數 顯示出來 : ( B ) A Select * from xjb group by class B Select Class ,總人數 =count( Class) from xjb group by class C Select Class,總人數=count (Class) from xjb order by class D Select * from xjb Order by class 26. 在 SQL 中,建立表用的命令是 (
11、 B )。 A.CREATE SCHEMA B.CREATE TABLE C.CREATE VIEW D.CREATE INDEX 27. 下列四項中,不正確的提法是 ( C )。 A. SQL 語言是關系數據庫的國際標準語言 B. SQL 語言具有數據定義、查詢、操縱和控制功能 C. SQL 語言可以自動實現關系數據庫的規(guī)化 D. SQL 語言稱為結構查詢語言 28. 在 SQL 語言中,建立存儲過程的命令是 ( A ) A、CREATE PROCEDURE B 、CREATE RULE C、CREATE DURE D 、 CREATE FILE 29. 數據庫管理系統的英文縮寫是( A )
12、。 ADBMSBDBS CDBAD DB 30. 向用戶授予操作權限的 SQL 語句是( D )。 A CTEATEBREVOKEC SELECTD GRANT 二、多選題(每題 1 分,共 20 題) 1. 通過數據挖掘過程所推倒出的關系和摘要經常被稱為:(A B) A. 模型 B. 模式 C. 模D. 模具 2 尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某一特征的表示, 這個過程包括了以下哪些步驟?(A B C D) A. 決定要使用的表示的特征和結構 B. 決定如何量化和比較不同表示擬合數據的好壞 C. 選擇一個算法過程使評分函數最優(yōu) D. 決定用什么樣的數據管理原則
13、以高效地實現算法。 3. 數據挖掘算法的組件包括: (A B C D) A. 模型或模型結構 B. 評分函數 C. 優(yōu)化和搜索方法 D. 數據管理策略 Word 文檔 4. 以下哪些學科和數據挖掘有密切聯系? (A D) A. 統計 B. 計算機組成原理 C. 礦產挖掘 D. 人工智能 5. 在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法 有:(ABCDE ) A 忽略元組 C 使用一個全局常量填充空缺值 B 使用屬性的平均值填充空缺值D 使用與給定元組屬同一類的所有樣本的平均值 E 使用最可能的值填充空缺值 6. 對于數據挖掘中的原始數據,存在的問題有:(ABC
14、DE ) A 不一致 B 重復 C 不完整 D 含噪聲 E 維度高 7. 下面列出的條目中,哪些是數據倉庫的基本特征: (ACD) A. 數據倉庫是面向主題的 B. 數據倉庫的數據是集成的 C. 數據倉庫的數據是相對穩(wěn)定的 D. 數據倉庫的數據是反映歷史變化的 E. 數據倉庫是面向事務的 8. 以下各項均是針對數據倉庫的不同說法,你認為正確的有( BCDE )。 A 數據倉庫就是數據庫 B 數據倉庫是一切商業(yè)智能系統的基礎 C. 數據倉庫是面向業(yè)務的,支持聯機事務處理(OLTP) D 數據倉庫支持決策而非事務處理 E. 數據倉庫的主要目標就是幫助分析,做長期性的戰(zhàn)略制定 9. 數據倉庫在技術上
15、的工作過程是:(ABCD) A. 數據的抽取 B. 存儲和管理C. 數據的表現 D. 數據倉庫設計 E. 數據的表現 10. 聯機分析處理包括以下哪些基本分析功能? (BCD) A. 聚類 B. 切片 C. 轉軸 D. 切塊 E. 分類 11. 利用 Apriori 算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物 籃中產生支持度不小于 3的候選 3-項集,在候選 2-項集中需要剪枝的是( BD) ID 項集 1 面包、牛奶 2 面包、尿布、啤酒、雞蛋 3 牛奶、尿布、啤酒、可樂 4 面包、牛奶、尿布、啤酒 5 面包、牛奶、尿布、可樂 A、啤酒、尿布B、啤酒、面包C、面包、尿布
16、 D、啤酒、牛奶 12. Apriori 算法的計算復雜度受 _(ABCD)?_ 影響。 A、支持度閥值 B、項數(維度) C、事務數D、事務平均寬度 13. 非頻繁模式 _(AD)_ A、其支持度小于閾值B、都是不讓人感興趣的 C、包含負模式和負相關模式D、對異常數據項敏感 14. 貝葉斯信念網絡(BBN)有如下哪些特點,A,構造網絡費時費力B,對模型的過分問題非常 魯棒C,貝葉斯網絡不適合處理不完整的數據D,網絡結構確定后,添加變量相當麻煩 ( AB ) 15. 在 SQL Server 數據庫 ( 排序規(guī)則為默認值 ) 中,有一個產品表 products ,你想按照價格 從小到大的順序顯
17、示所以產品的名稱 (productname) 和價格 (price) ,可以實現該功能的 T-SQL語句是(AC )。(選擇二項) (A)SELECT productname,price from products order by price ASC (B)SELECT productname,price from products order by price DESC (C)SELECT productname,price from products order by price (D)SELECT productname and price from products order by
18、 price DESC 16. 數據定義類語言包括( AB ) ACREATE B.DROP C.INSERT D.GRANT 17. 數據操作類語言包括(ABC ) A.INSERT B.UPDATE C.DELETE D.REVOKE 18. PEST 分析法包括( ABCD ) A.政治B.經濟C.社會D.技術 19.5W2H 分析法包括( ABCD ) A.Why B. What C.Who D.How 20.4P 營銷理論包括( ABCD ) A.產品B.價格C.渠道D.促銷 三、判斷題(每題 0.5 分,共 15分) 1. 數據挖掘的主要任務是從數據中發(fā)現潛在的規(guī)則,從而能更好的完
19、成描述數據、預測數 據等任務。(對) 2. 數據挖掘的目標不在于數據采集策略, 而在于對于已經存在的數據進行模式的發(fā)掘。 (對) 3. 圖挖掘技術在社會網絡分析中扮演了重要的角色。 (對) 4. 模式為對數據集的全局性總結,它對整個測量空間的每一點做出描述;模型則對變量變 9.基于劃分的聚類算法有K均值 和 K中心點 5. 尋找模式和規(guī)則主要是對數據進行干擾,使其符合某種規(guī)則以及模式。(錯) 6. 離群點可以是合法的數據對象或者值。(對) 7. 離散屬性總是具有有限個值。(錯) 8. 噪聲和偽像是數據錯誤這一相同表述的兩種叫法。(錯) 9. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息
20、。(對) (錯) (對) 10. 特征提取技術并不依賴于特定的領域。 11. 定量屬性可以是整數值或者是連續(xù)值。 12數據倉庫系統的組成部分包括數據倉庫,倉庫管理,數據抽取,分析工具等四個部分.(錯) 13. 關聯規(guī)則挖掘過程是發(fā)現滿足最小支持度的所有項集代表的規(guī)則。(錯) 14. 如果規(guī)則 不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的 子集。(對) 15. 具有較高的支持度的項集具有較高的置信度。(錯) 16. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分數據類或概念的模型(或函數),以 便能夠使用模型預測類標記未知的對象類。(錯) 17. 分類和回歸都可用
21、于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數值。(對) 18. Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分 類結果取決于各類域中樣本的全體。(錯) 19. 在那遙遠的地方是SQL中的字符串常量嗎? Y 20. SQL Server不允許字段名為漢字?N 21. 職稱in (教授,副教授“)與 職稱=教授or職稱=副教授等價嗎? Y 22. 在表中創(chuàng)建一個標識列 (IDENTITY),當用戶向表中插入新的數據行時,系統自動為該 行標識列賦值嗎? Y 23. 在事務中包含 create database語句嗎? N 24 連接、選擇和投影三種關系運算
22、具有相同的結果。N 25. 數據的安全性主要防的對象是合法用戶。 N 26. 恢復是利用冗余數據來重建數據庫。Y 27. 創(chuàng)建唯一性索引的列可以有一些重復的值?N 28. 存儲過程的輸出結果可以傳遞給一個變量。Y 29. 視圖具有與表相同的功能,在視圖上也可以創(chuàng)建觸發(fā)器。N 30. SQL Server 2000不具有數據的導入與導出功能。N 四、填空題(每空 0.5分,共20題) 1. 噪聲數據處理的方法主要有分箱 、 聚類 和 回歸 。 2. 數值歸約的常用方法有回歸和對數線性模型、直方圖 、聚類 、 選樣 和 對數模型等。 3. 評價關聯規(guī)則的 2個主要指標是支持度 和置信度。 4. 決
23、策樹是用屬性作為結點,用屬性的取值作為分支的樹結構。 5. 關聯可分為簡單關聯、 和。 6. 數據挖掘的主要功能包括概念描述 、 挖掘頻繁模式、分類和預 測、聚類分析、趨勢分析、孤立點分析和偏差分析7個方面。 7. 聚類分析的數據通??煞譃閰^(qū)間標度變量、 、序數型以及 混合類型等。 8. 聚類分析中最常用的距離計算公式有 、等。 10. 數據定義語言 (DDL )包括:_create、drop、alter、truncate 11. 數據操作語言(DML )包括: insert、 update、_delete。 12. 數據控制語言( DCL ) 包括: grant 、_revoke、 crea
24、te synonym 13. EXCEL中處理重復項共有四種方法:_countif函數、高級篩選 、 條件格式 、去除重復項 。 五、簡答題(每題 4分,共16分) 1名詞解釋:孤立點、頻繁項集、支持度、可信度、關聯規(guī)則 1. 孤立點:指數據庫中包含的一些與數據的一般行為或模型不一致的異常數據。 2. 頻繁項集:指滿足最小支持度的項集,是挖掘關聯規(guī)則的基本條件之一。 3. 支持度:規(guī)則AtB的支持度指的是所有事件中A與B同地發(fā)生的的概率,即 P(A U B),是AB同時發(fā)生的次數與事件總次數之比。支持度是對關聯規(guī)則重要性的衡量。 4. 可信度:規(guī)則AtB的可信度指的是包含 A項集的同時也包含
25、B項集的條件概率 P(B|A),是AB同時發(fā)生的次數與 A發(fā)生的所有次數之比??尚哦仁菍﹃P聯規(guī)則的 準確度的衡量。 2. 在數據挖掘之前為什么要對原始數據進行預處理? 原始業(yè)務數據來自多個數據庫或數據倉庫,它們的結構和規(guī)則可能是不同的,這 將導致原始數據非常的雜亂、不可用,即使在同一個數據庫中,也可能存在重復的和 不完整的數據信息,為了使這些數據能夠符合數據挖掘的要求,提高效率和得到清晰 的結果,必須進行數據的預處理。 為數據挖掘算法提供完整、干凈、準確、有針對性的數據,減少算法的計算量,提高挖掘效 率和準確程度。 3. 簡述處理空缺值的方法。 忽略該記錄; 去掉屬性; 手工填寫空缺值; 使用
26、默認值; 使用屬性平均值; 使用同類樣本平均值; 預測最可能的值。 4. 請說出常用的四種數據分析方法論 PEST分析法、5W2H分析法、邏輯樹分析法、4P營銷理論、用戶行為理論 六、計算題(每題 5分,共20分) 1、設某事務項集構成如下表,填空完成其中支持度和置信度的計算。 事務ID 項集 L2 支持度% 規(guī)則 置信度% T1 A, D r a, b 33.3 AtB 50 T2 : D, E A, C 33.3 CtA r 60 T3 A, C, E A, D 44.4 A t D 66.7 T4 A, B, D, E r b, d 33.3 Bt d 75 T5 A, B, C C,
27、D 33.3 Ct D 60 T6 A, B, D D, E 33.3 Dt e 43 T7 A, C, D Word文檔 T8 C, D, E T9 B, C, D 2. 簡述K-中心點算法的輸入、輸出及聚類過程(流程)。 輸入:結果簇的數目k,包含n個對象的數據集 輸出:k個簇,使得所有對象與其最近中心點的相異度總和最小。 流程: 隨機選擇k個對象作為初始中心點; 計算其它對象與這k個中心的距離,然后把每個對象歸入離它最近”的簇; 隨機地選擇一個非中心點對象Orandom,并計算用Orandom代替Oj的總代價 S; 如果S5) 4. 問題描述 : 已知關系模式 : S (SNO,SNAME) 學生關系。 SNO 為學號, SNAME 為 C (CNO,CNAME,CTEACHER) 課程關系。 CNO 為課程號, CNAME 為課程名, CTEACHER 為任課教師 SC(SNO,CNO,SCGRADE) 選課關系。 SCGRADE 為成績 1. 找出沒有選修過“明”老師講授課程的所有學生 -實現代碼 : Select SNAME FROM S Where NOT EXISTS( Word 文檔 Select * FROM SC,C Where SC.CNO=C.CNO AND CNAME= 明 AND SC.SNO=S.SNO) 2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 非拉國家的獨立和振興課件 華東師大版
- 旅行團自愿不買擺渡車的協議書
- 創(chuàng)意目錄篇課件
- 《跟腱斷裂護理查房》課件
- 電機與電力拖動課件-第6章
- 2024年度版權維權合同范本2篇
- 2025年貴州貨運從業(yè)資格考試試題及答案大全解析
- 2024年度水穩(wěn)材料采購與知識產權保護合同3篇
- 2025年阿壩道路運輸從業(yè)人員資格考試內容有哪些
- 《工作流程集合》課件
- 部編版八年級上冊語文期末考試試題及答案
- 2024年嬰幼兒發(fā)展引導員(中級)職業(yè)技能鑒定考試題庫(含答案)
- 解一元一次方程(單元整體說課)課件-2024-2025學年人教版七年級數學上冊
- TCAICC 001-2024 張家界莓茶質量等級評價
- 英語通識閱讀智慧樹知到答案2024年大連外國語大學
- 二十屆三中全會精神應知應會知識測試30題(附答案)
- 一例下肢靜脈血栓疑難病例護理討論
- 機電設備安裝工程建設監(jiān)理工作報告
- 2024年秋新蘇教版三年級上冊科學全冊復習資料
- 浙教版七年級數學(上)各單元測試題
- 1 分數乘法的簡便計算(教學設計)-2023-2024學年六年級上冊數學人教版
評論
0/150
提交評論