鹽城數(shù)據(jù)挖掘考試-內部選拔考題及答案_第1頁
鹽城數(shù)據(jù)挖掘考試-內部選拔考題及答案_第2頁
鹽城數(shù)據(jù)挖掘考試-內部選拔考題及答案_第3頁
鹽城數(shù)據(jù)挖掘考試-內部選拔考題及答案_第4頁
鹽城數(shù)據(jù)挖掘考試-內部選拔考題及答案_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘考試-內部選拔考題一、單選題(每題0.5分,共30題)1. 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A. 關聯(lián)規(guī)則發(fā)現(xiàn) B. 聚類 C. 分類 D. 自然語言處理2. 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?(C) A. 頻繁模式挖掘 B. 分類和預測 C. 數(shù)據(jù)預處理 D. 數(shù)據(jù)流挖掘3. 當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?(B) A. 分類 B. 聚類 C. 關聯(lián)分析 D. 隱馬爾可夫鏈4. 使用交互式的和可視化的技術,對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘

2、的哪一類任務?(A) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預測建模 D. 尋找模式和規(guī)則 5.下面哪種不屬于數(shù)據(jù)預處理的方法? (D)A變量代換 B離散化 C 聚集 D 估計遺漏值 6. 假設12個銷售價格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內? (B)A 第一個 B 第二個 C 第三個 D 第四個 7. 只有非零值才重要的二元屬性被稱作:( C )A 計數(shù)屬性 B 離散屬性 C非對稱的二元屬性 D 對稱屬性 8. 以下哪種方法不屬于特

3、征選擇的標準方法: (D)A嵌入 B 過濾 C 包裝 D 抽樣 9.下面不屬于創(chuàng)建新屬性的相關方法的是: (B)A特征提取 B特征修改 C映射數(shù)據(jù)到新的空間 D特征構造 10. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 11.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,

4、36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑,箱的深度為3。第二個箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 12. 數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是 (C)A. 數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內容;B. 捕捉到的新數(shù)據(jù)會覆蓋原來的快照;C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內容;D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合.13. 關于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結構相關的信息;B. 基本元數(shù)據(jù)包括與企業(yè)相關

5、的管理方面的數(shù)據(jù)和信息;C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調度信息;D. 基本元數(shù)據(jù)包括關于裝載和更新處理,分析處理以及管理方面的信息.14. 下面關于數(shù)據(jù)粒度的描述不正確的是: (C)A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;B. 數(shù)據(jù)越詳細,粒度就越小,級別也就越高;C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質量.15. 設X=1,2,3是頻繁項集,則可由X產(chǎn)生_(C)_個關聯(lián)規(guī)則。A、4 B、5 C、6 D、7 16. 概念分層圖是_(B)_圖。A、無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán)17

6、. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是: (C)A、頻繁項集 頻繁閉項集 =最大頻繁項集B、頻繁項集 = 頻繁閉項集 最大頻繁項集C、頻繁項集 頻繁閉項集 最大頻繁項集D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集18. 在圖集合中發(fā)現(xiàn)一組公共子結構,這樣的任務稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)項挖掘 D、頻繁模式挖掘19. 決策樹中不包含一下哪種結點,A,根結點(root node) B,內部結點(internal node) C,外部結點(external node) D,葉結點(leaf node) (C)20. 以下哪項關于決策樹的說法是錯誤的

7、 (C)A. 冗余屬性不會對決策樹的準確率造成不利的影響 B. 子樹可能在決策樹中重復多次 C. 決策樹算法對于噪聲的干擾非常敏感 D. 尋找最佳決策樹是NP完全問題21. 在基于規(guī)則分類器的中,依據(jù)規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。 22. 在SQL Server數(shù)據(jù)庫中,有一個產(chǎn)品表products,你想按照價格從小到大的順序顯示所有產(chǎn)品的名稱(productname)和價格(price),可以實現(xiàn)該功能的T-SQL語句

8、是( A )。(選擇一項)(A)SELECT productname,price from products order by price ASC(B)SELECT productname,price from products order by price DESC(C)SELECT productname and price from products order by price(D)SELECT productname and price from products order by price DESC23. 你是公司的SQL server數(shù)據(jù)庫管理員。你管理一個數(shù)據(jù)庫,其中有一個產(chǎn)

9、品表Products,記錄公司的產(chǎn)品信息,你想刪除過期的產(chǎn)品信息,應該用( D )語句。(選擇一項)(A)select (B)insert (C)update (D)delete24. 下列哪條語句可以完成刪除數(shù)據(jù)庫中某個視圖的操作:( D )ADelete * from view_Name BDelete from view _NameCDelete view Table_Name DDrop view Table_Name25. 下列哪條語句可以完成將表xjb中的數(shù)據(jù)按Class(班級)分組統(tǒng)計出各個班的總人數(shù)顯示出來:( B )ASelect * from xjb group by cl

10、ass BSelect Class ,總人數(shù)=count(Class)from xjb group by class CSelect Class,總人數(shù)=count(Class)from xjb order by class DSelect * from xjb Order by class26. 在SQL中,建立表用的命令是 ( B )。A.CREATE SCHEMA B.CREATE TABLEC.CREATE VIEW D.CREATE INDEX27. 下列四項中,不正確的提法是( C )。A.SQL語言是關系數(shù)據(jù)庫的國際標準語言B.SQL語言具有數(shù)據(jù)定義、查詢、操縱和控制功能C.SQ

11、L語言可以自動實現(xiàn)關系數(shù)據(jù)庫的規(guī)范化D.SQL語言稱為結構查詢語言28. 在SQL語言中,建立存儲過程的命令是( A )A、CREATE PROCEDURE B、CREATE RULEC、CREATE DURE D、CREATE FILE29. 數(shù)據(jù)庫管理系統(tǒng)的英文縮寫是( A )。ADBMS BDBS CDBA DDB30. 向用戶授予操作權限的SQL語句是( D )。ACTEATE BREVOKE CSELECT DGRANT二、 多選題(每題1分,共20題)1. 通過數(shù)據(jù)挖掘過程所推倒出的關系和摘要經(jīng)常被稱為:(A B) A. 模型 B. 模式 C. 模范 D. 模具2 尋找數(shù)據(jù)集中的關

12、系是為了尋找精確、方便并且有價值地總結了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟? (A B C D)A. 決定要使用的表示的特征和結構B. 決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C. 選擇一個算法過程使評分函數(shù)最優(yōu)D. 決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法。3. 數(shù)據(jù)挖掘算法的組件包括:(A B C D) A. 模型或模型結構 B. 評分函數(shù) C. 優(yōu)化和搜索方法 D. 數(shù)據(jù)管理策略4. 以下哪些學科和數(shù)據(jù)挖掘有密切聯(lián)系?(A D) A. 統(tǒng)計 B. 計算機組成原理 C. 礦產(chǎn)挖掘 D. 人工智能5. 在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方

13、法有: ()A忽略元組 C使用一個全局常量填充空缺值B使用屬性的平均值填充空缺值 D使用與給定元組屬同一類的所有樣本的平均值 E使用最可能的值填充空缺值6. 對于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有: ()A 不一致 B重復 C不完整 D 含噪聲 E 維度高 7. 下面列出的條目中,哪些是數(shù)據(jù)倉庫的基本特征: (ACD)A. 數(shù)據(jù)倉庫是面向主題的 B. 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的 C. 數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的 D. 數(shù)據(jù)倉庫的數(shù)據(jù)是反映歷史變化的 E. 數(shù)據(jù)倉庫是面向事務的8. 以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有(BCDE )。A數(shù)據(jù)倉庫就是數(shù)據(jù)庫B數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基

14、礎C數(shù)據(jù)倉庫是面向業(yè)務的,支持聯(lián)機事務處理(OLTP)D數(shù)據(jù)倉庫支持決策而非事務處理E數(shù)據(jù)倉庫的主要目標就是幫助分析,做長期性的戰(zhàn)略制定9. 數(shù)據(jù)倉庫在技術上的工作過程是: (ABCD)A. 數(shù)據(jù)的抽取 B. 存儲和管理 C. 數(shù)據(jù)的表現(xiàn)D. 數(shù)據(jù)倉庫設計 E. 數(shù)據(jù)的表現(xiàn)10. 聯(lián)機分析處理包括以下哪些基本分析功能? (BCD)A. 聚類 B. 切片 C. 轉軸 D. 切塊 E. 分類11. 利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃中產(chǎn)生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)ID 項集1 面包、牛奶2 面包、尿布、啤酒、

15、雞蛋3 牛奶、尿布、啤酒、可樂4 面包、牛奶、尿布、啤酒5 面包、牛奶、尿布、可樂A、啤酒、尿布 B、啤酒、面包 C、面包、尿布 D、啤酒、牛奶12. Apriori算法的計算復雜度受_(ABCD)?_影響。A、支持度閥值 B、項數(shù)(維度)C、事務數(shù) D、事務平均寬度13. 非頻繁模式_(AD)_A、其支持度小于閾值 B、都是不讓人感興趣的C、包含負模式和負相關模式 D、對異常數(shù)據(jù)項敏感14. 貝葉斯信念網(wǎng)絡(BBN)有如下哪些特點,A,構造網(wǎng)絡費時費力 B,對模型的過分問題非常魯棒 C,貝葉斯網(wǎng)絡不適合處理不完整的數(shù)據(jù) D,網(wǎng)絡結構確定后,添加變量相當麻煩 (AB)15.在SQL Serve

16、r數(shù)據(jù)庫(排序規(guī)則為默認值)中,有一個產(chǎn)品表products,你想按照價格從小到大的順序顯示所以產(chǎn)品的名稱(productname)和價格(price),可以實現(xiàn)該功能的T-SQL語句是( AC )。(選擇二項)(A) SELECT productname,price from products order by price ASC(B) SELECT productname,price from products order by price DESC(C) SELECT productname,price from products order by price(D) SELECT pro

17、ductname and price from products order by price DESC16.數(shù)據(jù)定義類語言包括( AB )ACREATE B.DROP C.INSERT D.GRANT17.數(shù)據(jù)操作類語言包括( ABC )A.INSERT B.UPDATE C.DELETE D.REVOKE18.PEST分析法包括(ABCD)A.政治 B.經(jīng)濟 C.社會 D.技術19.5W2H分析法包括( ABCD )A.Why B. What C.Who D.How20.4P營銷理論包括(ABCD)A.產(chǎn)品 B.價格 C.渠道 D.促銷三、 判斷題(每題0.5分,共15分)1. 數(shù)據(jù)挖掘的

18、主要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預測數(shù)據(jù)等任務。 (對)2. 數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。(對)3. 圖挖掘技術在社會網(wǎng)絡分析中扮演了重要的角色。(對)4. 模式為對數(shù)據(jù)集的全局性總結,它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。(錯)5. 尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。(錯)6. 離群點可以是合法的數(shù)據(jù)對象或者值。(對)7. 離散屬性總是具有有限個值。(錯)8. 噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。(錯)9. 用于分類的離散化方法之間的根本區(qū)別在

19、于是否使用類信息。(對)10. 特征提取技術并不依賴于特定的領域。(錯)11. 定量屬性可以是整數(shù)值或者是連續(xù)值。(對)12數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個部分. (錯)13. 關聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。(錯)14. 如果規(guī)則 不滿足置信度閾值,則形如 的規(guī)則一定也不滿足置信度閾值,其中 是X的子集。(對)15. 具有較高的支持度的項集具有較高的置信度。(錯)16. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預測類標記未知的對象類。 (錯)17. 分類和回歸都可用

20、于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對)18. Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。 (錯)19.在那遙遠的地方 是SQL中的字符串常量嗎?Y20. SQL Server不允許字段名為漢字?N21. 職稱 in (教授, 副教授)與 職稱 = 教授 or 職稱 = 副教授 等價嗎?Y22. 在表中創(chuàng)建一個標識列(IDENTITY),當用戶向表中插入新的數(shù)據(jù)行時,系統(tǒng)自動為該行標識列賦值嗎?Y23. 在事務中包含create database語句嗎?N24連接、選擇和投影三種關系運算具有相同的結果

21、。N25數(shù)據(jù)的安全性主要防范的對象是合法用戶。N26. 恢復是利用冗余數(shù)據(jù)來重建數(shù)據(jù)庫。Y27創(chuàng)建唯一性索引的列可以有一些重復的值?N28存儲過程的輸出結果可以傳遞給一個變量。Y29視圖具有與表相同的功能,在視圖上也可以創(chuàng)建觸發(fā)器。N30SQL Server 2000不具有數(shù)據(jù)的導入與導出功能。N四、填空題(每空0.5分,共20題)1. 噪聲數(shù)據(jù)處理的方法主要有分箱 、 聚類 和 回歸 。2. 數(shù)值歸約的常用方法有 回歸和對數(shù)線性模型 、 直方圖 、 聚類、選樣 和對數(shù)模型等。3. 評價關聯(lián)規(guī)則的2個主要指標是支持度 和置信度 。4. 決策樹是用 屬性 作為結點,用屬性的取值 作為分支的樹結構

22、。5. 關聯(lián)可分為簡單關聯(lián)、 和 。6. 數(shù)據(jù)挖掘的主要功能包括 概念描述 、 挖掘頻繁模式 、 分類和預測 、聚類分析 、趨勢分析、孤立點分析和偏差分析7個方面。7. 聚類分析的數(shù)據(jù)通??煞譃閰^(qū)間標度變量、 、 、 、序數(shù)型以及混合類型等。8. 聚類分析中最常用的距離計算公式有 、 、 等。9. 基于劃分的聚類算法有K均值 和K中心點 。10. 數(shù)據(jù)定義語言(DDL)包括:_create_、_drop_、_alter_、_truncate_、_。11. 數(shù)據(jù)操作語言(DML)包括:_insert_、_update_、_delete_。12. 數(shù)據(jù)控制語言(DCL)包括:_grant_、_re

23、voke_、_create synonym_。13. EXCEL中處理重復項共有四種方法:_countif函數(shù)_、_高級篩選_、_條件格式_、_去除重復項_。五、簡答題(每題4分,共16分)1.名詞解釋:孤立點、頻繁項集、支持度、可信度、關聯(lián)規(guī)則1. 孤立點:指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。2. 頻繁項集:指滿足最小支持度的項集,是挖掘關聯(lián)規(guī)則的基本條件之一。3. 支持度:規(guī)則AB的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(AB),是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關聯(lián)規(guī)則重要性的衡量。4. 可信度:規(guī)則AB的可信度指的是包含A項集的同時也包

24、含B項集的條件概率P(B|A),是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比??尚哦仁菍﹃P聯(lián)規(guī)則的準確度的衡量。2. 在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預處理?原始業(yè)務數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結構和規(guī)則可能是不同的,這將導致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結果,必須進行數(shù)據(jù)的預處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準確程度。3.簡述處理空缺值的方法。 忽略該記錄; 去掉屬性; 手工填寫空缺值; 使用默認值; 使用屬性平均

25、值; 使用同類樣本平均值; 預測最可能的值。4.請說出常用的四種數(shù)據(jù)分析方法論PEST分析法、5W2H分析法、邏輯樹分析法、4P營銷理論、用戶行為理論六、計算題(每題5分,共20分)1、設某事務項集構成如下表,填空完成其中支持度和置信度的計算。事務ID項集L2支持度%規(guī)則置信度%T1A, DA, B33.3AB50T2D, EA, C33.3CA60T3A, C, EA, D44.4AD66.7T4A, B, D, EB, D33.3BD75T5A, B, CC, D33.3CD60T6A, B, DD, E33.3DE43T7A, C, DT8C, D, ET9B, C, D2. 簡述K-中

26、心點算法的輸入、輸出及聚類過程(流程)。輸入:結果簇的數(shù)目k,包含n個對象的數(shù)據(jù)集輸出:k個簇,使得所有對象與其最近中心點的相異度總和最小。流程: 隨機選擇k個對象作為初始中心點; 計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇; 隨機地選擇一個非中心點對象Orandom,并計算用Orandom代替Oj的總代價S; 如果S5)4. 問題描述: 已知關系模式: S (SNO,SNAME) 學生關系。SNO 為學號,SNAME 為姓名 C (CNO,CNAME,CTEACHER) 課程關系。CNO 為課程號,CNAME 為課程名,CTEACHER 為任課教師 SC(SNO,CNO,SCGRADE) 選課關系。SCGRADE 為成績 1. 找出沒有選修過“李明”老師講授課程的所有學生姓名 -實現(xiàn)代碼: Select SNAME FROM S Where NOT EXISTS( Select * FROM SC,C Where SC.CNO=C.CNO AND CNAME=李明 AND SC.SNO=S.SNO) 2. 列出有二門以上(含兩門)不及格課程的學生姓名及其平均成績 -實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論