版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、海量數(shù)據(jù)挖掘技術(shù)及工程實踐題目80 題)1) ( D ) 的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。A. 數(shù)據(jù)清洗B.數(shù)據(jù)集成C. 數(shù)據(jù)變換D.數(shù)據(jù)歸約2) 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題? (A)A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B. 聚類C. 分類D. 自然語言處理3) 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準? (A)(a) 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b) 描述有多少比例的小偷給警察抓了的標準。A. Precision,Recall B. Recall,Prec
2、isionA. Precision,ROC D. Recall,ROC4) 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)? (C)A. 頻繁模式挖掘 B. 分類和預(yù)測C. 數(shù)據(jù)預(yù)處理D. 數(shù)據(jù)流挖掘5) 當不知道數(shù)據(jù)所帶標簽時, 可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離? (B)A. 分類B.聚類C. 關(guān)聯(lián)分析D. 隱馬爾可夫鏈6) 建立一個模型, 通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)? (C)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測建模 D. 尋找模式和規(guī)則7) 下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)A. 變
3、量代換B. 離散化C.聚集D. 估計遺漏值8) 假設(shè) 12 個銷售價格記錄組已經(jīng)排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每種方法將它們劃分成四個箱。 等頻 (等深) 劃分時, 15 在第幾個箱子內(nèi)?(B)A. 第一個B.第二個C.第三個D.第四個9) 下面哪個不屬于數(shù)據(jù)的屬性類型: (D)A. 標稱B.序數(shù)C. 區(qū)間D.相異10) 只有非零值才重要的二元屬性被稱作: ( C )A. 計數(shù)屬性B. 離散屬性C.非對稱的二元屬性D.對稱屬性11) 以下哪種方法不屬于特征選擇的標準方法: (D)A. 嵌入B.過濾C.包裝D.抽
4、樣12) 下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)A. 特征提取B. 特征修改C. 映射數(shù)據(jù)到新的空間 D. 特征構(gòu)造13) 下面哪個屬于映射數(shù)據(jù)到新的空間的方法? (A)A. 傅立葉變換B. 特征加權(quán)C.漸進抽樣D. 維歸約14) 假設(shè)屬性 income 的最大最小值分別是12000元和 98000元。利用最大最小規(guī)范化的方法將屬性的值映射到 0 至 1 的范圍內(nèi)。對屬性income 的 73600 元將被轉(zhuǎn)化為: (D)A.0.821B.1.224C.1.458D.0.71615) 一所大學(xué)內(nèi)的各年紀人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級 110 人。則年級
5、屬性的眾數(shù)是: (A)A. 一年級B.二年級C. 三年級D.四年級16) 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù): (B)A. 等高線圖 B. 餅圖C. 曲面圖 D. 矢量場圖17) 在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是: (D)A. 有放回的簡單隨機抽樣B. 無放回的簡單隨機抽樣C. 分層抽樣D 漸進抽樣18) 數(shù)據(jù)倉庫是隨著時間變化的 , 下面的描述不正確的是(C)A. 數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重
6、新綜合19) 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B.數(shù)據(jù)越詳細,粒度就越小,級別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量20) 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點 , 不正確的描述是: (A)A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B.數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確C.數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D.在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活, 且沒有固定的模式21)關(guān)于OLAP勺特性,下面正確的是:(D)(1
7、) 快速性 (2) 可分析性 (3) 多維性 (4) 信息性 (5) 共享性A.(1) (2) (3)B.(2) (3) (4)C.(1) (2) (3) (4)D.(1) (2) (3) (4) (5)22)關(guān)于OLA濟口 OLTP的區(qū)另J描述,不正確的是:(C)A.OLAPi要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTA而用程序不同B.與OLAP用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C.OLAP勺特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D.OLA呢以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP-樣均來自底層的數(shù)據(jù)庫系 統(tǒng) , 兩者面對的用戶是相同的23)關(guān)于OLAPf口
8、 OLTP的說法,下列不正確的是:(A)A.OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高B.OLAP的最終數(shù)據(jù)來源與 OLTP一樣C.OLTP0對的是決策人員和高層管理人員D.OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的24)設(shè)*=1, 2, 3是頻繁項集,則可由X產(chǎn)生(C )個關(guān)聯(lián)規(guī)則。A.4B.5C.6D.725) 考慮下面的頻繁3- 項集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有 5 個項 , 采用 合并策略 , 由候選產(chǎn)生過程得到 4- 項集不包含( C )A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,
9、3,4,526) 下面選項中 t 不是 s 的子序列的是( C )A.s= t=B.s= t=C.s= t=D.s= t=27) 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu) , 這樣的任務(wù)稱為 ( B )A. 頻繁子集挖掘 B. 頻繁子圖挖掘C.頻繁數(shù)據(jù)項挖掘D.頻繁模式挖掘28)下列度量不具有反演性的是(D)A.系數(shù) B. 幾率C.Cohen度量D.興趣因子29)下列(A )不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A.與同一時期其他數(shù)據(jù)對比B.可視化C.基于模板的方法D.主觀興趣度量30)下面購物藍能夠提取的3-項集的最大數(shù)量是多少(C)TID項集1牛奶,啤酒,尿布2面包,黃油,牛奶3牛奶,尿布,餅干4
10、面包,黃油,餅干5啤酒,餅干,尿布6牛奶,尿布,面包,黃油7面包,黃油,尿布8啤酒,尿布9牛奶,尿布,面包,黃油10啤酒,餅干A.1B.2C.3D.431)以下哪些算法是分類算法(B)A.DBSCAN B.C4.5 C.K-Mean D.EM32)以下哪些分類方法可以較好地避免樣本的不平衡問題(A)A.KNN B.SVM C.Bayes D. 神經(jīng)網(wǎng)絡(luò)33)決策樹中不包含一下哪種結(jié)點(C )A.根結(jié)點(root node)B.內(nèi)部結(jié)點(internal node )C. 外部結(jié)點( external node )D. 葉結(jié)點( leaf node )34) 以下哪項關(guān)于決策樹的說法是錯誤的 (
11、C)A. 冗余屬性不會對決策樹的準確率造成不利的影響B(tài). 子樹可能在決策樹中重復(fù)多次C. 決策樹算法對于噪聲的干擾非常敏感D.尋找最佳決策樹是NP完全問題35) 在基于規(guī)則分類器的中 , 依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序 , 保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類, 這種方案稱為 (B)A. 基于類的排序方案B. 基于規(guī)則的排序方案C. 基于度量的排序方案D. 基于規(guī)格的排序方案。36) 以下哪些算法是基于規(guī)則的分類器(A)A. C4.5 B. KNNC. Naive Bayes D. ANN37) 可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有(C) 。A. 決策樹、對數(shù)回歸、關(guān)聯(lián)模式B
12、. K均值法、SOM申經(jīng)網(wǎng)絡(luò)C. Apriori 算法、 FP-Tree 算法D. RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹38)如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B )A. 無序規(guī)則 B. 窮舉規(guī)則 C. 互斥規(guī)則 D. 有序規(guī)則39) 用于分類與回歸應(yīng)用的主要算法有: ( D )A.Apriori 算法、 HotSpot 算法B.RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹C.K均值法、SOMW經(jīng)網(wǎng)絡(luò)D.決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯40) 如果允許一條記錄觸發(fā)多條分類規(guī)則 , 把每條被觸發(fā)規(guī)則的后件看作是對相應(yīng)類的一次投票 , 然后計票確定測試記錄的類標號, 稱為(A
13、)A. 無序規(guī)則 B. 窮舉規(guī)則 C. 互斥規(guī)則 D. 有序規(guī)則41) 考慮兩隊之間的足球比賽: 隊 0 和隊 1。 假設(shè)65%的比賽隊0 勝出 , 剩余的比賽隊1 獲勝。隊 0 獲勝的比賽中只有30%是在隊1 的主場 , 而隊 1 取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1 的主場進行隊1 獲勝的概率為 (C)A.0.75 B.0.35 C.0.4678 D.0.573842)以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN的描述錯誤的有(A)A. 神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B. 可以處理冗余特征C.訓(xùn)練ANN一個很耗時的過程D. 至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)43) 通過聚集多個分類器的預(yù)測
14、來提高分類準確率的技術(shù)稱為 (A)A. 組合 (ensemble)B.聚集 (aggregate)C. 合并 (combination) D.投票 (voting)44) 簡單地將數(shù)據(jù)對象集劃分成不重疊的子集, 使得每個數(shù)據(jù)對象恰在一個子集中 , 這種聚類類型稱作( B )A. 層次聚類B. 劃分聚類C. 非互斥聚類D. 模糊聚類45)在基本K均值算法里,當鄰近度函數(shù)采用(A )的時候,合適的質(zhì)心是簇中各點的中位數(shù)。 A. 曼哈頓距離B. 平方歐幾里德距離C.余弦距離D.Bregman 散度46)( C ) 是一個觀測值, 它與其他觀測值的差別如此之大, 以至于懷疑它是由不同的機制產(chǎn)生的。 A
15、. 邊界點B.質(zhì)心C.離群點D.核心點47)BIRCH是一種( B )。A. 分類器B.聚類算法C.關(guān)聯(lián)分析算法D.特征選擇算法48) 檢測一元正態(tài)分布中的離群點 , 屬于異常檢測中的基于( A )的離群點檢測。A. 統(tǒng)計方法B. 鄰近度C.密度 D.聚類技術(shù)49) ( C ) 將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度, 它是一種凝聚層 次聚類技術(shù)。A.MIN (單鏈) B.MAX (全鏈)C. 組平均D.Ward 方法50) ( D )將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量, 它是一種凝聚層次聚類技術(shù)。A.MIN (單鏈) B.MAX (全鏈)C. 組平均D.W
16、ard 方法51) 下列算法中,不屬于外推法的是( B ) 。A. 移動平均法B.回歸分析法C. 指數(shù)平滑法D.季節(jié)指數(shù)法52) 關(guān)聯(lián)規(guī)則的評價指標是: ( C ) 。A. 均方誤差、均方根誤差B. Kappa 統(tǒng)計、顯著性檢驗C. 支持度、置信度D. 平均絕對誤差、相對誤差53)關(guān)于K均值和DBSCAN比較,以下說法不正確的是(A )。A.K 均值丟棄被它識別為噪聲的對象,而DBSCA”般聚類所有對象。B.K均值使用簇的基于原型的概念,而DBSCA使用基于密度的概念。C.K均值很難處理非球形的簇和不同大小的簇 QBSCANT以處理不同大小和不同形狀的 簇。D.K均值可以發(fā)現(xiàn)不是明顯分離的簇,
17、即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN合并有重疊的簇。54)從研究現(xiàn)狀上看,下面不屬于云計算特點的是(C )A. 超大規(guī)模B. 虛擬化C.私有化D.高可靠性55) 考慮這么一種情況:一個對象碰巧與另一個對象相對接近, 但屬于不同的類, 因為這兩個 對象一般不會共享許多近鄰 , 所以應(yīng)該選擇( D )的相似度計算方法。A. 平方歐幾里德距離B. 余弦距離C.直接相似度 D. 共享最近鄰56) 分析顧客消費行業(yè),以便有針對性的向其推薦感興趣的服務(wù),屬于(A )問題。A. 關(guān)聯(lián)規(guī)則挖掘 B. 分類與回歸C.聚類分析D.時序預(yù)測57) 以下哪個聚類算法不是屬于基于原型的聚類( D ) 。A.模糊C均
18、值 B.EM算法C.SOMD.CLIQUE58) 關(guān)于混合模型聚類算法的優(yōu)缺點 , 下面說法正確的是( B ) 。A. 當簇只包含少量數(shù)據(jù)點 , 或者數(shù)據(jù)點近似協(xié)線性時, 混合模型也能很好地處理。B.混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。C. 混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。D. 混合模型在有噪聲和離群點時不會存在問題。59) 以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法( D ) 。A.STINGB.WaveClusterC.MAFIA D.BIRCH60) 一個對象的離群點得分是該對象周圍密度的逆。這是基于( C )的離群點定義。A 概率B鄰近度C.密度D.
19、聚類61) 輿情研判,信息科學(xué)側(cè)重( C ) , 社會和管理科學(xué)側(cè)重突發(fā)群體事件管理中的群體心理行為及輿論控制研究,新聞傳播學(xué)側(cè)重對輿論的本體進行規(guī)律性的探索和研究。A. 輿論的本體進行規(guī)律性的探索和研究B. 輿論控制研究C. 互聯(lián)網(wǎng)文本挖掘和分析技術(shù)D. 用戶行為分析62) MapReduce勺Map函數(shù)產(chǎn)生很多的(C )A.keyB.valueC.D.Hash63) Mapreduce適用于(D )A. 任意應(yīng)用程序B. 任意可在 windows servet2008 上運行的程序C. 可以串行處理的應(yīng)用程序D. 可以并行處理的應(yīng)用程序64) PageRan思一個函數(shù),它對Web中的每個網(wǎng)
20、頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的 PageRankffi高,那么它就(D )。A. 相關(guān)性越高B. 越不重要C. 相關(guān)性越低D. 越重要X A.一對一B. 一對多D. 多對多 D. 多對一65) 協(xié)同過濾分析用戶興趣, 在用戶群中找到指定用戶的相似( 興趣 ) 用戶 , 綜合這些用戶對某一信息的評價, 形成系統(tǒng)對該指定用戶對此信息的喜好程度( D ) , 并將這些用戶喜歡的項推薦給有相似興趣的用戶。A. 相似B. 相同C.推薦D. 預(yù)測66) 大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具, 在合理時間內(nèi)達到擷取、管理、處理、并( B )成為幫助企業(yè)經(jīng)營決策更積極目的的信息。
21、A. 收集B.整理C. 規(guī)劃D.聚集67) 大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中( D )大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。A. 大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程C. 規(guī)律和驗證68) 大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、B.規(guī)劃建設(shè)運營管理D.發(fā)現(xiàn)和驗證D )后獲取最大的數(shù)據(jù)價值A(chǔ). 算法共享B. 共享應(yīng)用C. 數(shù)據(jù)交換D. 交叉復(fù)用69) 社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實時和完整的數(shù)據(jù), 同時社交網(wǎng)絡(luò)也記錄了用戶群體的( C ) , 通過深入挖掘這些數(shù)據(jù)來了解用戶 , 然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。A. 地址B.行為C. 情緒D.來源70) 通過數(shù)據(jù)收集和展示數(shù)據(jù)
22、背后的 ( D ) , 運用豐富的、 具有互動性的可視化手段數(shù)據(jù)新聞學(xué)成為新聞學(xué)作為一門新的分支進入主流媒體 , 即用數(shù)據(jù)報道新聞。A. 數(shù)據(jù)收集B. 數(shù)據(jù)挖掘C. 真相D. 關(guān)聯(lián)與模式71) CRISP-DM真型中Evaluation表示對建立的模型進行評估,重點具體考慮得出的結(jié)果是否符合( C )的商業(yè)目的。A. 第二步B.第三步C. 第一步D.最后一步72) 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過以下三個步驟:連接數(shù)據(jù), 作數(shù)據(jù)準備;給定最小支持度和( D ) , 利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評估關(guān)聯(lián)規(guī)則A. 最小興趣度B. 最小置信度C. 最大支持度D. 最小可信度
23、73) 規(guī)則 I-j, “有可能” , 等于所有包含 I 的購物籃中同時包含 J 的購物籃的比例, 為( B )。A. 置信度B. 可信度C. 興趣度D. 支持度74) 如果一個匹配中 , 任何一個節(jié)點都不同時是兩條或多條邊的端點 , 也稱作( C )A. 極大匹配B. 二分匹配C完美匹配D.極小匹配75) 只要具有適當?shù)恼咄苿? 大數(shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及( D )的關(guān)鍵要素。A. 提高消費B. 提高GDPC. 提高生活水平D. 創(chuàng)造消費者盈余76) 個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級商務(wù)智能平臺 , 以幫助( D )為其顧客購物提供完全個性化的
24、決策支持和信息服務(wù)。A. 公司B. 各單位C. 跨國企業(yè)D. 電子商務(wù)網(wǎng)站77) 云計算是對( D )技術(shù)的發(fā)展與運用A. 并行計算B. 網(wǎng)格計算C. 分布式計算D. 三個選項都是78) ( B )是 Google 提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運算的軟件架構(gòu)。A.GFSB.MapReduceC.Chubby D.BitTable79) 在 Bigtable 中, ( A )主要用來存儲子表數(shù)據(jù)以及一些日志文件A. GFSB. ChubbyC.SSTable D.MapReduce二、判斷題( 40 題)1) 分類是預(yù)測數(shù)據(jù)對象的離散類別,預(yù)測是用于數(shù)據(jù)對象的連續(xù)取值
25、。 ( 對 )2) 時序預(yù)測回歸預(yù)測一樣,也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。( 錯 )3) 數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。 ( 對 )4) 對遺漏數(shù)據(jù)的處理方法主要有:忽略該條記錄;手工填補遺漏值;利用默認值填補遺漏值;利用均值填補遺漏值;利用同類別均值填補遺漏值;利用最可能的值填充遺漏值。(對)5) 神經(jīng)網(wǎng)絡(luò)對噪音數(shù)據(jù)具有高承受能力,并能對未經(jīng)過訓(xùn)練的數(shù)據(jù)具有分類能力,但其需要很長的訓(xùn)練時間,因而對于有足夠長訓(xùn)練時間的應(yīng)用更合適。( 對)6) 數(shù)據(jù)分類由兩步過程組成: 第一步, 建立一個聚類模型, 描述
26、指定的數(shù)據(jù)類集或概念集;第二步,使用模型進行分類。 ( 錯 )7) 聚類是指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。 ( 對 )8) 決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。 ( 錯)9) 數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放 ( 如更換大單位) ,使之落入一個特定的區(qū)域(如 0-1 )以提高數(shù)據(jù)挖掘效率的方法。 規(guī)范化的常用方法有: 最大 - 最小規(guī)范化、 零- 均值規(guī)范化、小數(shù)定標規(guī)范化。( 對 )10) 原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠
27、符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進行數(shù)據(jù)的預(yù)處理。 ( 對 )11) 數(shù)據(jù)取樣時,除了要求抽樣時嚴把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。 ( 對 )12) 分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。 ( 對 )13) 可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量。 ( 錯 )14) 孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。 ( 錯 )15) Apriori 算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。 ( 對 )16) 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。 (對)17) 特征提取技術(shù)并不依賴于特定的領(lǐng)域。 (錯)18
28、) 模型的具體化就是預(yù)測公式, 公式可以產(chǎn)生與觀察值有相似結(jié)構(gòu)的輸出, 這就是預(yù)測值。(對)19) 文本挖掘又稱信息檢索,是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。 (錯)20) 定量屬性可以是整數(shù)值或者是連續(xù)值。 (對)21) 可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。 (錯)22) OLA眼術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。 (對)23) Wet據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)過程中提取信息。 (錯)24) 關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項
29、集代表的規(guī)則。 (錯)25) 利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)。 (對)26) 先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。 (錯)27) 回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。 (錯)28) 具有較高的支持度的項集具有較高的置信度。 (錯)29) 維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。 (對)30) 聚類( clustering )是這樣的過程:它找出描述并區(qū)分數(shù)據(jù)類或概念的模型( 或函數(shù) ) ,以便能夠使用模型預(yù)測類標記未知的對象類。 (錯)31)對于SVg類算法,待分樣本集中的大部分樣本
30、不是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。 (對)32) Bayes 法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。 ( 錯)33) 在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。 (錯)34) 在聚類分析當中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。 (錯)35) 聚類分析可以看作是一種非監(jiān)督的分類。 (對)36) K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(錯37) 基于鄰近度的離群點檢測方法不能處理具有不同
31、密度區(qū)域的數(shù)據(jù)集。 (對)38) 如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點。 (對)39) 大數(shù)據(jù)的4V 特點是Volume、 Velocity 、 Variety 、 Veracity 。 (對)40) 聚類分析的相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn 維的單模矩陣。 (對)三、多選題(共30 題)1) 噪聲數(shù)據(jù)的產(chǎn)生原因主要有:( ABCD)A. 數(shù)據(jù)采集設(shè)備有問題B. 在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C. 數(shù)據(jù)傳輸過程中發(fā)生錯誤D. 由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致2) 尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、 方便并且有價值地總結(jié)出數(shù)據(jù)的某
32、一特征的表示這個過程包括了以下哪些步驟? (A B C D)A. 選擇一個算法過程使評分函數(shù)最優(yōu)B.決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C.決定要使用的表示的特征和結(jié)構(gòu)D.決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法3) 數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題? (A B)A. 分類B. 回歸C. 聚類D. 關(guān)聯(lián)規(guī)則挖掘4) 下列屬于不同的有序數(shù)據(jù)的有: (A B C D)A. 時序數(shù)據(jù)B. 序列數(shù)據(jù)C.時間序列數(shù)據(jù)D.事務(wù)數(shù)據(jù)E. 空間數(shù)據(jù)5) 下面屬于數(shù)據(jù)集的一般特性的有: ( B C D)A. 連續(xù)性B. 維度C.稀疏性D.分辨率E. 相異性6下面屬于維歸約常用的處理技術(shù)的有:(A
33、 C)A. 主成分分析B. 特征提取C.奇異值分解D.特征加權(quán)E. 離散化7 噪聲數(shù)據(jù)處理的方法主要有: ( ABDA.分箱 B. 聚類C.關(guān)聯(lián)分析D. 回歸ABCD 等方面。8 數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及(C.聚類分析D.偏差分析9)以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有(BCD )。A .數(shù)據(jù)倉庫就是數(shù)據(jù)庫B .數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C .數(shù)據(jù)倉庫是面向業(yè)務(wù)的,支持聯(lián)機事務(wù)處理(OLTPD .數(shù)據(jù)倉庫支持決策而非事務(wù)處理10)聯(lián)機分析處理包括(BCD )基本分析功能。A.聚類B.切片C.轉(zhuǎn)軸D.切塊11)利用Apriori算法計算頻繁項集可
34、以有效降低計算頻繁集的時間復(fù)雜度。在以下的購物籃中產(chǎn)生支才I度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD )TID項集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶12)下表是一個購物籃,假定支持度閾值為40%,其中(AD )是頻繁閉項集ID項集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、雞蛋4面包、尿布、啤酒、雞蛋5啤酒、雞蛋A. 面包、牛奶、尿布B. 面包、啤酒C.尿布、啤酒 D.啤酒、雞蛋13) Apriori 算法的計算復(fù)雜度受( ABCD
35、) 影響。A. 支持度閥值B.項數(shù)(維度)C.事務(wù)數(shù)D.事務(wù)平均寬度14)以下關(guān)于非頻繁模式說法, 正確的是( AD )A. 其支持度小于閾值B. 都是不讓人感興趣的C. 包含負模式和負相關(guān)模式D. 對異常數(shù)據(jù)項敏感15)以下屬于分類器評價或比較尺度的有: ( ACD )A. 預(yù)測準確度B. 召回率C.模型描述的簡潔度D.計算復(fù)雜度16)貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點。(AB)A. 構(gòu)造網(wǎng)絡(luò)費時費力B.對模型的過分問題非常魯棒C.貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D.網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當麻煩17)如下哪些不是最近鄰分類器的特點。(C)A. 它使用具體的訓(xùn)練實例進行預(yù)測,不必維護源自數(shù)據(jù)的模型B.分類一個測試樣例開銷很大C.最近鄰分類器基于全局信息進行預(yù)測D.可以生產(chǎn)任意形狀的決策邊界18)以下屬于聚類算法的是(AB ) 。A.K-Means B.DBSCANC.AprioriD.KNN19) ( CD )都屬于簇有效性的監(jiān)督度量。A. 輪廓系數(shù)B.共
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向2024:歷史教案的新視野與新探索
- 2024年狐假虎威課件資源大全
- 2024年眼鏡設(shè)計教案:教學(xué)策略與成效
- 2024年春季教育展:《六國論》課件互動體驗
- 融合多媒體的2024《小學(xué)教育學(xué)》課件設(shè)計
- 第45屆世界技能大賽建筑金屬構(gòu)造項目全國選拔賽技術(shù)工作思路
- 全面深化改革:2024年SA20培訓(xùn)教程解讀
- 2024教學(xué)突破:《壺口瀑布》與自然教育
- 面向2024:探討《打瞌睡的房子》課件的新功能
- 2024年eepo培訓(xùn)心得體會與感悟
- 期中階段測試卷(六)-2024-2025學(xué)年語文三年級上冊統(tǒng)編版
- 第7課《不甘屈辱奮勇抗爭》(第2課時)(教學(xué)設(shè)計)-部編版道德與法治五年級下冊
- 中國腦出血診治指南
- 吉安市市直事業(yè)單位選調(diào)工作人員真題
- 高爾夫球場施工方案
- 2024年浙江省中考英語試題卷(含答案解析)
- 2024秋三年級語文上冊 第七單元 22 讀不完的大書教案 新人教版
- 高校實驗室安全基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 7 中華民族一家親 第一課時 (教學(xué)設(shè)計)-部編版道德與法治五年級上冊
- 高一機械制圖期末考試卷
- 2024-2030年中國圣誕裝飾品行業(yè)發(fā)展現(xiàn)狀與競爭力策略分析研究報告
評論
0/150
提交評論