版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、海量數(shù)據(jù)據(jù)挖掘技術(shù)術(shù)及工程實實踐題目目一、單選題題(共800題)( D )的目的縮縮小數(shù)據(jù)的的取值范圍圍,使其更更適合于數(shù)數(shù)據(jù)挖掘算算法的需要要,并且能能夠得到和和原始數(shù)據(jù)據(jù)相同的分分析結(jié)果。A.數(shù)據(jù)清清洗 B.數(shù)據(jù)集集成C.數(shù)據(jù)變變換 D.數(shù)據(jù)歸歸約某超市研究究銷售紀錄錄數(shù)據(jù)后發(fā)發(fā)現(xiàn),買啤啤酒的人很很大概率也也會購買尿尿布,這種種屬于數(shù)據(jù)據(jù)挖掘的哪哪類問題?(A) A. 關(guān)聯(lián)規(guī)規(guī)則發(fā)現(xiàn) B. 聚類 C. 分類 D. 自然語語言處理以下兩種描描述分別對對應(yīng)哪兩種種對分類算算法的評價價標準? (A) (a)警察抓小小偷,描述述警察抓的的人中有多多少個是小小偷的標準準。 (b)描述述有多少比比例的
2、小偷偷給警察抓抓了的標準準。 AA. Prrecission,Recaall B. RRecalll,Prrecission A. Preccisioon,ROOC DD. Reecalll,ROCC將原始數(shù)據(jù)據(jù)進行集成成、變換、維度規(guī)約約、數(shù)值規(guī)規(guī)約是在以以下哪個步步驟的任務(wù)務(wù)?(C) A. 頻繁模模式挖掘 B. 分類和預(yù)預(yù)測 C. 數(shù)據(jù)據(jù)預(yù)處理 D. 數(shù)數(shù)據(jù)流挖掘掘當不知道數(shù)數(shù)據(jù)所帶標標簽時,可可以使用哪哪種技術(shù)促促使帶同類類標簽的數(shù)數(shù)據(jù)與帶其其他標簽的的數(shù)據(jù)相分分離?(BB) AA. 分類類 BB. 聚類類 C. 關(guān)聯(lián)聯(lián)分析 D. 隱馬爾可可夫鏈建立一個模模型,通過過這個模型型根據(jù)已知知
3、的變量值值來預(yù)測其其他某個變變量值屬于于數(shù)據(jù)挖掘掘的哪一類類任務(wù)?(C) A. 根根據(jù)內(nèi)容檢檢索 B. 建建模描述 C. 預(yù)測建模模 DD. 尋找找模式和規(guī)規(guī)則下面哪種不不屬于數(shù)據(jù)據(jù)預(yù)處理的的方法? (D) A.變量代換換 B.離散化 C.聚集 DD.估計遺漏漏值 假設(shè)12個個銷售價格格記錄組已已經(jīng)排序如如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 2044, 2115 使用用如下每種種方法將它它們劃分成成四個箱。等頻(等等深)劃分分時,155在第幾個個箱子內(nèi)? (B) A.第一個 B.第二個 C.第三個個 D.第四個 下面哪個不不屬于數(shù)據(jù)據(jù)的屬性類類型:
4、(DD) A.標稱 B.序數(shù) C.區(qū)間 D.相異 只有非零值值才重要的的二元屬性性被稱作:( C ) A.計數(shù)屬性性 BB.離散屬性性 C.非對稱稱的二元屬屬性 D.對稱屬性性 以下哪種方方法不屬于于特征選擇擇的標準方方法: (DD) A.嵌入 B.過濾 C.包裝 D.抽樣 下面不屬于于創(chuàng)建新屬屬性的相關(guān)關(guān)方法的是是: (BB) A.特征提取取 B.特征修改改 C.映射數(shù)數(shù)據(jù)到新的的空間 D.特征構(gòu)造造 下面哪個屬屬于映射數(shù)數(shù)據(jù)到新的的空間的方方法? (A) A.傅立葉變變換 BB.特征加權(quán)權(quán) C.漸進抽抽樣 D.維歸約 假設(shè)屬性iincomme的最大大最小值分分別是122000元元和9800
5、00元。利用最大大最小規(guī)范范化的方法法將屬性的的值映射到到0至1的的范圍內(nèi)。對屬性iincomme的733600元元將被轉(zhuǎn)化化為:(DD) A.0.8221 B.1.2224 C.1.4458 D.0.7116 一所大學內(nèi)內(nèi)的各年紀紀人數(shù)分別別為:一年年級2000人,二年年級1600人,三年年級1300人,四年年級1100人。則年年級屬性的的眾數(shù)是: (A) A.一年級 B.二年級 C.三年級級 D.四年級 下列哪個不不是專門用用于可視化化時間空間間數(shù)據(jù)的技技術(shù): (B) A.等高線圖圖 B.餅圖 C.曲面圖圖 D.矢量場圖圖 在抽樣方法法中,當合合適的樣本本容量很難難確定時,可可以使用的的抽
6、樣方法法是: (D) A.有放回的的簡單隨機機抽樣 B.無放回回的簡單隨隨機抽樣 C.分層抽抽樣 D 漸進抽抽樣數(shù)據(jù)倉庫是是隨著時間間變化的,下面的描描述不正確確的是 (C)A.數(shù)據(jù)倉庫庫隨時間的的變化不斷斷增加新的的數(shù)據(jù)內(nèi)容容B.捕捉捉到的新數(shù)數(shù)據(jù)會覆蓋蓋原來的快快照C.數(shù)數(shù)據(jù)倉庫隨隨事件變化化不斷刪去去舊的數(shù)據(jù)據(jù)內(nèi)容D.數(shù)據(jù)倉庫庫中包含大大量的綜合合數(shù)據(jù),這這些綜合數(shù)數(shù)據(jù)會隨著著時間的變變化不斷地地進行重新新綜合下面關(guān)于數(shù)數(shù)據(jù)粒度的的描述不正正確的是: (C)A.粒度度是指數(shù)據(jù)據(jù)倉庫小數(shù)數(shù)據(jù)單元的的詳細程度度和級別BB.數(shù)據(jù)越越詳細,粒粒度就越小小,級別也也就越高CC.數(shù)據(jù)綜綜合度越高高,
7、粒度也也就越大,級別也就就越高D.粒度的具具體劃分將將直接影響響數(shù)據(jù)倉庫庫中的數(shù)據(jù)據(jù)量以及查查詢質(zhì)量有關(guān)數(shù)據(jù)倉倉庫的開發(fā)發(fā)特點,不不正確的描描述是: (A)AA.數(shù)據(jù)倉倉庫開發(fā)要要從數(shù)據(jù)出出發(fā)B.數(shù)數(shù)據(jù)倉庫使使用的需求求在開發(fā)出出去就要明明確C.數(shù)數(shù)據(jù)倉庫的的開發(fā)是一一個不斷循循環(huán)的過程程,是啟發(fā)發(fā)式的開發(fā)發(fā)D.在數(shù)數(shù)據(jù)倉庫環(huán)環(huán)境中,并并不存在操操作型環(huán)境境中所固定定的和較確確切的處理理流,數(shù)據(jù)據(jù)倉庫中數(shù)數(shù)據(jù)分析和和處理更靈靈活,且沒沒有固定的的模式關(guān)于OLAAP的特性性,下面正正確的是: (D)(1)快快速性 (2)可分分析性 (3)多維維性 (44)信息性性 (5)共享性AA.(1) (2
8、) (3)B.(22) (33) (44)C.(1) (2) (3) (4)D.(1) (2) (3) (4) (5)關(guān)于OLAAP和OLLTP的區(qū)區(qū)別描述,不正確的的是: (C)A.OLAPP主要是關(guān)關(guān)于如何理理解聚集的的大量不同同的數(shù)據(jù).它與OTTAP應(yīng)用用程序不同同B.與OOLAP應(yīng)應(yīng)用程序不不同,OLLTP應(yīng)用用程序包含含大量相對對簡單的事事務(wù)C.OOLAP的的特點在于于事務(wù)量大大,但事務(wù)務(wù)內(nèi)容比較較簡單且重重復(fù)率高DD.OLAAP是以數(shù)數(shù)據(jù)倉庫為為基礎(chǔ)的,但其最終終數(shù)據(jù)來源源與OLTTP一樣均均來自底層層的數(shù)據(jù)庫庫系統(tǒng),兩兩者面對的的用戶是相相同的關(guān)于OLAAP和OLLTP的說說法,
9、下列列不正確的的是: (A)A.OLAPP事務(wù)量大大,但事務(wù)務(wù)內(nèi)容比較較簡單且重重復(fù)率高BB.OLAAP的最終終數(shù)據(jù)來源源與OLTTP不一樣樣C.OLLTP面對對的是決策策人員和高高層管理人人員D.OOLTP以以應(yīng)用為核核心,是應(yīng)應(yīng)用驅(qū)動的的設(shè)X=11,2,33是頻繁繁項集,則則可由X產(chǎn)產(chǎn)生( C )個關(guān)聯(lián)聯(lián)規(guī)則。AA.4 B.5 C.6 D.7 考慮下面的的頻繁3-項集的集集合:11,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定定數(shù)據(jù)集中中只有5個個項,采用 合合并策略,由候選產(chǎn)產(chǎn)生過程得得到4-項項集不包含含( C )A.1,2,3,4 B
10、.1,2,3,5 C.1,22,4,5 D.1,3,4,5下面選項中中t不是ss的子序列列的是 ( C )A.s= t=BB.s= t=C.s= t=DD.s= t=在圖集合中中發(fā)現(xiàn)一組組公共子結(jié)結(jié)構(gòu),這樣的任任務(wù)稱為 ( B )A.頻繁子集集挖掘 B.頻繁子圖圖挖掘 C.頻繁數(shù)數(shù)據(jù)項挖掘掘 D.頻繁模式式挖掘下列度量不不具有反演演性的是 (D)AA.系數(shù) B.幾率 C.Cohhen度量量 D.興趣因子子下列 ( A )不是將主主觀信息加加入到模式式發(fā)現(xiàn)任務(wù)務(wù)中的方法法。A.與同一時時期其他數(shù)數(shù)據(jù)對比BB.可視化C.基于模板板的方法DD.主觀興趣趣度量下面購物藍藍能夠提取取的3-項項集的最大大
11、數(shù)量是多多少(C)TID項集1牛奶,啤酒酒,尿布2面包,黃油油,牛奶3牛奶,尿布布,餅干4面包,黃油油,餅干5啤酒,餅干干,尿布6牛奶,尿布布,面包,黃油7面包,黃油油,尿布8啤酒,尿布布9牛奶,尿布布,面包,黃油10啤酒,餅干干A.1 B.2 C.3 D.4以下哪些算算法是分類類算法 (B)A.DBSSCAN B.CC4.5 C.KK-Meaan D.EMM以下哪些分分類方法可可以較好地地避免樣本本的不平衡衡問題(AA)A.KNNN B.SSVM C.BBayess D.神神經(jīng)網(wǎng)絡(luò) 決策樹中不不包含一下下哪種結(jié)點點 ( C )根結(jié)點(rroot nodee)內(nèi)部結(jié)點(iinterrnal n
12、odee) 外部結(jié)點(eexterrnal nodee) 葉結(jié)點(lleaf nodee)以下哪項關(guān)關(guān)于決策樹樹的說法是是錯誤的 (C)A. 冗余余屬性不會會對決策樹樹的準確率率造成不利利的影響 B. 子子樹可能在在決策樹中中重復(fù)多次次 C. 決策樹樹算法對于于噪聲的干干擾非常敏敏感 DD. 尋找找最佳決策策樹是NPP完全問題題在基于規(guī)則則分類器的的中,依據(jù)規(guī)則則質(zhì)量的某某種度量對對規(guī)則排序序,保證每一一個測試記記錄都是由由覆蓋它的的“最好的的”規(guī)格來來分類,這種方案案稱為 (B)A. 基于類類的排序方方案 BB. 基于于規(guī)則的排排序方案 C. 基于度量量的排序方方案 DD. 基于于規(guī)格的排排
13、序方案。 以下哪些算算法是基于于規(guī)則的分分類器 (A) AA. CC4.5 B. KNN C. Naaive BBayess D. AANN可用作數(shù)據(jù)據(jù)挖掘分析析中的關(guān)聯(lián)聯(lián)規(guī)則算法法有(C)。A. 決策樹樹、對數(shù)回回歸、關(guān)聯(lián)聯(lián)模式 B. K均均值法、SSOM神經(jīng)經(jīng)網(wǎng)絡(luò) C. Appriorri算法、FP-TTree算算法 D. RBBF神經(jīng)網(wǎng)網(wǎng)絡(luò)、K均均值法、決決策樹如果對屬性性值的任一一組合,R中都存存在一條規(guī)規(guī)則加以覆覆蓋,則稱規(guī)則則集R中的的規(guī)則為( B )A.無序規(guī)規(guī)則 BB.窮舉規(guī)則則 C.互斥規(guī)則則 D.有序規(guī)則則用于分類與與回歸應(yīng)用用的主要算算法有: ( D )A.Aprrior
14、ii算法、HHotSppot算法法 B.RBFF神經(jīng)網(wǎng)絡(luò)絡(luò)、K均值值法、決策策樹 C.K均值值法、SOOM神經(jīng)網(wǎng)網(wǎng)絡(luò) D.決策樹樹、BP神神經(jīng)網(wǎng)絡(luò)、貝葉斯40)如果果允許一條條記錄觸發(fā)發(fā)多條分類類規(guī)則,把每條被被觸發(fā)規(guī)則則的后件看看作是對相相應(yīng)類的一一次投票,然后計票票確定測試試記錄的類類標號,稱為(AA) AA.無序規(guī)則則 B.窮舉規(guī)則則 C.互斥規(guī)則則 D.有序規(guī)則則41)考慮慮兩隊之間間的足球比比賽:隊00和隊1。假設(shè)655%的比賽賽隊0勝出出,剩余的比比賽隊1獲獲勝。隊00獲勝的比比賽中只有有30%是是在隊1的的主場,而隊1取取勝的比賽賽中75%是主場獲獲勝。如果果下一場比比賽在隊11
15、的主場進進行隊1獲獲勝的概率率為 (CC) A.0.755 B.0.355 C.0.46678 D.0.5773842)以下下關(guān)于人工工神經(jīng)網(wǎng)絡(luò)絡(luò)(ANNN)的描述述錯誤的有有 (A)A.神經(jīng)網(wǎng)絡(luò)絡(luò)對訓(xùn)練數(shù)數(shù)據(jù)中的噪噪聲非常魯魯棒 B.可以處處理冗余特特征 C.訓(xùn)練AANN是一一個很耗時時的過程 D.至少含含有一個隱隱藏層的多多層神經(jīng)網(wǎng)網(wǎng)絡(luò)43)通過過聚集多個個分類器的的預(yù)測來提提高分類準準確率的技技術(shù)稱為 (A) A.組合(enseemblee) B.聚集(aaggreegatee) C.合并(combbinattion) D.投票(vvotinng)44)簡單單地將數(shù)據(jù)據(jù)對象集劃劃分成不重
16、重疊的子集集,使得每個個數(shù)據(jù)對象象恰在一個個子集中,這種聚類類類型稱作作( B ) A.層次次聚類 B.劃分聚類類 C.非互互斥聚類 DD.模糊聚類類45)在基基本K均值值算法里,當鄰近度度函數(shù)采用用( A )的時候候,合適的質(zhì)質(zhì)心是簇中中各點的中中位數(shù)。 A.曼哈頓距距離 B.平方歐幾幾里德距離離 C.余弦距距離 DD.Breggman散散度 446)( C )是是一個觀測測值,它與其他他觀測值的的差別如此此之大,以至于懷懷疑它是由由不同的機機制產(chǎn)生的的。 A.邊界點 BB.質(zhì)心 C.離群點點 D.核心點477)BIRRCH是一一種( BB )。 A.分類器 BB.聚類算法法 C.關(guān)聯(lián)分分析
17、算法 D.特征選擇擇算法488)檢測一一元正態(tài)分分布中的離離群點,屬于異常常檢測中的的基于( A )的的離群點檢檢測。 A.統(tǒng)統(tǒng)計方法 B.鄰近度 C.密度 D.聚類技術(shù)術(shù)49)( C )將將兩個簇的的鄰近度定定義為不同同簇的所有有點對的平平均逐對鄰鄰近度,它是一種種凝聚層次次聚類技術(shù)術(shù)。 A.MIN(單單鏈) B.MAX(全全鏈) C.組平均均 D.Wardd方法500)( DD )將兩兩個簇的鄰鄰近度定義義為兩個簇簇合并時導(dǎo)導(dǎo)致的平方方誤差的增增量,它是一種種凝聚層次次聚類技術(shù)術(shù)。 A.MIN(單單鏈) B.MAX(全全鏈) C.組平均均 D.Wardd方法511) 下列列算法中,不不屬于
18、外推推法的是( B )。 A.移動平均均法 B.回歸分析析法 C.指數(shù)平平滑法 D.季節(jié)指數(shù)數(shù)法52) 關(guān)聯(lián)規(guī)規(guī)則的評價價指標是:( C )。 A. 均方誤誤差、均方方根誤差 B. Kaappa統(tǒng)統(tǒng)計、顯著著性檢驗 C. 支持持度、置信信度 D. 平均均絕對誤差差、相對誤誤差53)關(guān)于K均均值和DBBSCANN的比較,以下說法法不正確的的是( AA )。 A.K均值丟丟棄被它識識別為噪聲聲的對象,而DBSSCAN一一般聚類所所有對象。 BB.K均值使使用簇的基基于原型的的概念,而DBSSCAN使使用基于密密度的概念念。 C.K均值很很難處理非非球形的簇簇和不同大大小的簇,DBSCCAN可以以處
19、理不同同大小和不不同形狀的的簇。 D.K均值可可以發(fā)現(xiàn)不不是明顯分分離的簇,即便簇有有重疊也可可以發(fā)現(xiàn),但是DBBSCANN會合并有有重疊的簇簇。54)從研研究現(xiàn)狀上上看,下面面不屬于云云計算特點點的是( C )A.超大規(guī)規(guī)模 B.虛擬擬化 C.私有化化 D.高高可靠性55)考慮慮這么一種種情況:一一個對象碰碰巧與另一一個對象相相對接近,但屬于不不同的類,因為這兩兩個對象一一般不會共共享許多近近鄰,所以應(yīng)該該選擇( D )的的相似度計計算方法。 A.平方歐幾幾里德距離離 B.余弦距離離 C.直接相相似度 DD.共享最近近鄰56) 分析顧顧客消費行行業(yè),以便便有針對性性的向其推推薦感興趣趣的服務(wù)
20、,屬屬于( AA)問題。A.關(guān)聯(lián)規(guī)規(guī)則挖掘 B.分類與回回歸 C.聚類分分析 D.時序預(yù)測測57)以下下哪個聚類類算法不是是屬于基于于原型的聚聚類( DD )。 A.模糊C均值 B.EM算法法 C.SOMM D.CLIQQUE588)關(guān)于混混合模型聚聚類算法的的優(yōu)缺點,下面說法法正確的是是( B )。 A.當簇只包包含少量數(shù)數(shù)據(jù)點,或者數(shù)據(jù)據(jù)點近似協(xié)協(xié)線性時,混合模型型也能很好好地處理。 BB.混合模型型比K均值值或模糊cc均值更一一般,因為它可可以使用各各種類型的的分布。 C.混合模型型很難發(fā)現(xiàn)現(xiàn)不同大小小和橢球形形狀的簇。 DD.混合模型型在有噪聲聲和離群點點時不會存存在問題。59)以下下
21、哪個聚類類算法不屬屬于基于網(wǎng)網(wǎng)格的聚類類算法( D )。 A.STINNG BB.WaveCClustter C.MAFFIA D.BIRCCH60)一個對象象的離群點點得分是該該對象周圍圍密度的逆逆。這是基基于( CC )的離離群點定義義。 A概率率 B鄰近度 C密度 D聚類輿情研判,信息科學學側(cè)重( C ),社會和管管理科學側(cè)側(cè)重突發(fā)群群體事件管管理中的群群體心理行行為及輿論論控制研究究,新聞傳播播學側(cè)重對對輿論的本本體進行規(guī)規(guī)律性的探探索和研究究。 A.輿論的的本體進行行規(guī)律性的的探索和研研究B.輿論控控制研究C.互聯(lián)網(wǎng)網(wǎng)文本挖掘掘和分析技技術(shù)D.用戶行行為分析MapReeducee的M
22、app函數(shù)產(chǎn)生生很多的( C )A.keyy B.vallue C. D.HasshMapreeducee適用于 ( DD )A.任意應(yīng)應(yīng)用程序 B. 任意意可在wiindowws seervett20088上運行的的程序C.可以串串行處理的的應(yīng)用程序序 D. 可以以并行處理理的應(yīng)用程程序PageRRank是是一個函數(shù)數(shù),它對Weeb中的每每個網(wǎng)頁賦賦予一個實實數(shù)值。它它的意圖在在于網(wǎng)頁的的PageeRankk越高,那么它就就( D )。 A.相關(guān)性性越高 B.越不不重要 C.相關(guān)性性越低 D.越重重要A.一對對一 B.一對對多 C. 多對對多 D. 多多對一協(xié)同過濾分分析用戶興興趣,在用戶群
23、群中找到指指定用戶的的相似(興興趣)用戶戶,綜合這些些用戶對某某一信息的的評價,形成系統(tǒng)統(tǒng)對該指定定用戶對此此信息的喜喜好程度( D ),并將這些些用戶喜歡歡的項推薦薦給有相似似興趣的用用戶。A. 相似似 BB.相同 C.推薦 DD. 預(yù)測測大數(shù)據(jù)指的的是所涉及及的資料量量規(guī)模巨大大到無法透透過目前主主流軟件工工具,在合理時時間內(nèi)達到到擷取、管管理、處理理、并( B )成為幫幫助企業(yè)經(jīng)經(jīng)營決策更更積極目的的的信息。A.收集 BB.整理 C.規(guī)劃 DD.聚集大數(shù)據(jù)科學學關(guān)注大數(shù)數(shù)據(jù)網(wǎng)絡(luò)發(fā)發(fā)展和運營營過程中( D )大數(shù)據(jù)據(jù)的規(guī)律及及其與自然然和社會活活動之間的的關(guān)系。A.大數(shù)據(jù)據(jù)網(wǎng)絡(luò)發(fā)展展和運營
24、過過程 B.規(guī)劃建建設(shè)運營管管理C.規(guī)律和和驗證D.發(fā)現(xiàn)和和驗證大數(shù)據(jù)的價價值是通過過數(shù)據(jù)共享享、( D )后獲取取最大的數(shù)數(shù)據(jù)價值A(chǔ).算法共共享 B.共享應(yīng)用用 C. 數(shù)據(jù)據(jù)交換 D. 交叉復(fù)復(fù)用社交網(wǎng)絡(luò)產(chǎn)產(chǎn)生了海量量用戶以及及實時和完完整的數(shù)據(jù)據(jù),同時社交交網(wǎng)絡(luò)也記記錄了用戶戶群體的( C ),通過深入入挖掘這些些數(shù)據(jù)來了了解用戶,然后將這這些分析后后的數(shù)據(jù)信信息推給需需要的品牌牌商家或是是微博營銷銷公司。A.地址 BB.行為 C.情緒 DD.來源 通過數(shù)據(jù)收收集和展示示數(shù)據(jù)背后后的( D ),運用豐富富的、具有有互動性的的可視化手手段,數(shù)據(jù)新聞聞學成為新新聞學作為為一門新的的分支進入入主
25、流媒體體,即用數(shù)據(jù)據(jù)報道新聞聞。A.數(shù)據(jù)收收集 B.數(shù)據(jù)挖挖掘 C.真相 DD. 關(guān)聯(lián)聯(lián)與模式CRISPP-DM 模型中EEvaluuatioon表示對對建立的模模型進行評評估,重點具體體考慮得出出的結(jié)果是是否符合( C )的商業(yè)業(yè)目的。A.第二步步 BB.第三步步C.第一步步 DD.最后一一步發(fā)現(xiàn)關(guān)聯(lián)規(guī)規(guī)則的算法法通常要經(jīng)經(jīng)過以下三三個步驟:連接數(shù)據(jù)據(jù),作數(shù)據(jù)準準備;給定定最小支持持度和( DD ),利用數(shù)據(jù)據(jù)挖掘工具具提供的算算法發(fā)現(xiàn)關(guān)關(guān)聯(lián)規(guī)則;可視化顯顯示、理解解、評估關(guān)關(guān)聯(lián)規(guī)則A. 最小小興趣度 B. 最小小置信度C. 最大大支持度D. 最最小可信度度規(guī)則I-j,“有可能”,等于所有有
26、包含I的的購物籃中中同時包含含J的購物物籃的比例例,為( B )。A. 置信信度 B.可信度度 C. 興趣趣度 D. 支持度如果一個匹匹配中,任何一個個節(jié)點都不不同時是兩兩條或多條條邊的端點點,也稱作( C )A. 極大大匹配 B.二分匹匹配 C完美匹配配 D.極小匹匹配只要具有適適當?shù)恼卟咄苿?大數(shù)據(jù)的的使用將成成為未來提提高競爭力力、生產(chǎn)力力、創(chuàng)新能能力以及( D )的的關(guān)鍵要素素。A.提高消消費 B.提高GGDP C.提高生生活水平 D. 創(chuàng)造造消費者盈盈余個性化推薦薦系統(tǒng)是建建立在海量量數(shù)據(jù)挖掘掘基礎(chǔ)上的的一種高級級商務(wù)智能能平臺,以幫助( DD )為為其顧客購購物提供完完全個性化化
27、的決策支支持和信息息服務(wù)。 A.公司 B.各單位位 C.跨國企企業(yè) D. 電子子商務(wù)網(wǎng)站站云計算是對對( DD )技技術(shù)的發(fā)展展與運用A.并行計計算 B.網(wǎng)格計算算 C.分布式式計算 D.三個選項項都是( B )是Goooglee提出的用用于處理海海量數(shù)據(jù)的的并行編程程模式和大大規(guī)模數(shù)據(jù)據(jù)集的并行行運算的軟軟件架構(gòu)。A.GFSS B.MapRReducce C.Chuubby D.BitTTablee在Bigttablee中,( A )主主要用來存存儲子表數(shù)數(shù)據(jù)以及一一些日志文文件A. GFFS B. Chubbby C.SSTTablee D.MMapReeducee二、判斷題題(共400題
28、)分類是預(yù)測測數(shù)據(jù)對象象的離散類類別,預(yù)測是用用于數(shù)據(jù)對對象的連續(xù)續(xù)取值。 (對)時序預(yù)測回回歸預(yù)測一一樣,也是是用已知的的數(shù)據(jù)預(yù)測測未來的值值,但這些些數(shù)據(jù)的區(qū)區(qū)別是變量量所處時間間的不同。(錯)數(shù)據(jù)挖掘的的主要任務(wù)務(wù)是從數(shù)據(jù)據(jù)中發(fā)現(xiàn)潛潛在的規(guī)則則,從而能更更好的完成成描述數(shù)據(jù)據(jù)、預(yù)測數(shù)數(shù)據(jù)等任務(wù)務(wù)。 (對對)對遺漏數(shù)據(jù)據(jù)的處理方方法主要有有:忽略該該條記錄;手工填補補遺漏值;利用默認認值填補遺遺漏值;利利用均值填填補遺漏值值;利用同同類別均值值填補遺漏漏值;利用用最可能的的值填充遺遺漏值。(對)神經(jīng)網(wǎng)絡(luò)對對噪音數(shù)據(jù)據(jù)具有高承承受能力,并能對未未經(jīng)過訓(xùn)練練的數(shù)據(jù)具具有分類能能力,但其需要要很
29、長的訓(xùn)訓(xùn)練時間,因而對于于有足夠長長訓(xùn)練時間間的應(yīng)用更更合適。(對)數(shù)據(jù)分類由由兩步過程程組成:第第一步,建立一個個聚類模型,描述指定定的數(shù)據(jù)類類集或概念念集;第二二步,使用模型型進行分類類。(錯)聚類是指將將物理或抽抽象對象的的集合分組組成為由類類似的對象象組成的多多個類的過過程。 (對)決策樹方法法通常用于于關(guān)聯(lián)規(guī)則則挖掘。 (錯)數(shù)據(jù)規(guī)范化化指將數(shù)據(jù)據(jù)按比例縮縮放(如更更換大單位位),使之之落入一個個特定的區(qū)區(qū)域(如00-1)以提提高數(shù)據(jù)挖挖掘效率的的方法。規(guī)規(guī)范化的常常用方法有有:最大-最小規(guī)范范化、零-均值規(guī)范范化、小數(shù)數(shù)定標規(guī)范范化。(對對)原始業(yè)務(wù)數(shù)數(shù)據(jù)來自多多個數(shù)據(jù)庫庫或數(shù)據(jù)倉
30、倉庫,它們們的結(jié)構(gòu)和和規(guī)則可能能是不同的的,這將導(dǎo)導(dǎo)致原始數(shù)數(shù)據(jù)非常的的雜亂、不不可用,即即使在同一一個數(shù)據(jù)庫庫中,也可可能存在重重復(fù)的和不不完整的數(shù)數(shù)據(jù)信息,為為了使這些些數(shù)據(jù)能夠夠符合數(shù)據(jù)據(jù)挖掘的要要求,提高高效率和得得到清晰的的結(jié)果,必必須進行數(shù)數(shù)據(jù)的預(yù)處處理。(對對)數(shù)據(jù)取樣時時,除了要要求抽樣時時嚴把質(zhì)量量關(guān)外,還還要求抽樣樣數(shù)據(jù)必須須在足夠范范圍內(nèi)有代代表性。(對)分類規(guī)則的的挖掘方法法通常有:決策樹法法、貝葉斯斯法、人工工神經(jīng)網(wǎng)絡(luò)絡(luò)法、粗糙糙集法和遺遺傳算法。(對)可信度是對對關(guān)聯(lián)規(guī)則則的準確度度的衡量。 (錯)孤立點在數(shù)數(shù)據(jù)挖掘時時總是被視視為異常、無用數(shù)據(jù)據(jù)而丟棄。 (錯)A
31、prioori算法法是一種典典型的關(guān)聯(lián)聯(lián)規(guī)則挖掘掘算法。 (對)用于分類的的離散化方方法之間的的根本區(qū)別別在于是否否使用類信信息。(對對)特征提取技技術(shù)并不依依賴于特定定的領(lǐng)域。(錯錯)模型的具體體化就是預(yù)預(yù)測公式,公公式可以產(chǎn)產(chǎn)生與觀察察值有相似似結(jié)構(gòu)的輸輸出,這就就是預(yù)測值值。(對對)文本挖掘又又稱信息檢檢索,是從大量量文本數(shù)據(jù)據(jù)中提取以以前未知的的、有用的的、可理解解的、可操操作的知識識的過程。 (錯)定量屬性可可以是整數(shù)數(shù)值或者是是連續(xù)值。(對對)可視化技術(shù)術(shù)對于分析析的數(shù)據(jù)類類型通常不不是專用性性的。(錯錯)OLAP技技術(shù)側(cè)重于于把數(shù)據(jù)庫庫中的數(shù)據(jù)據(jù)進行分析析、轉(zhuǎn)換成成輔助決策策信息
32、,是繼數(shù)據(jù)據(jù)庫技術(shù)發(fā)發(fā)展之后迅迅猛發(fā)展起起來的一種種新技術(shù)。 (對)Web數(shù)據(jù)據(jù)挖掘是通通過數(shù)據(jù)庫庫仲的一些些屬性來預(yù)預(yù)測另一個個屬性,它在驗證證用戶提出出的假設(shè)過過程中提取取信息。 (錯錯)關(guān)聯(lián)規(guī)則挖挖掘過程是是發(fā)現(xiàn)滿足足最小支持持度的所有有項集代表表的規(guī)則。 (錯)利用先驗原原理可以幫幫助減少頻頻繁項集產(chǎn)產(chǎn)生時需要要探查的候候選項個數(shù)數(shù)。 (對)先驗原理可可以表述為為:如果一一個項集是是頻繁的,那包含它它的所有項項集也是頻頻繁的。(錯錯)回歸分析通通常用于挖挖掘關(guān)聯(lián)規(guī)規(guī)則。(錯)具有較高的的支持度的的項集具有有較高的置置信度。(錯錯)維歸約可以以去掉不重重要的屬性性,減少數(shù)數(shù)據(jù)立方體體的維
33、數(shù),從從而減少數(shù)數(shù)據(jù)挖掘處處理的數(shù)據(jù)據(jù)量,提高高挖掘效率率。(對)聚類(cllusteeringg)是這樣樣的過程:它找出描描述并區(qū)分分數(shù)據(jù)類或或概念的模模型(或函函數(shù)),以便能夠夠使用模型型預(yù)測類標標記未知的的對象類。 (錯錯)對于SVMM分類算法法,待分樣本本集中的大大部分樣本本不是支持持向量,移去或者者減少這些些樣本對分分類結(jié)果沒沒有影響。 (對)Bayess法是一種種在已知后后驗概率與與類條件概概率的情況況下的模式式分類方法法,待分樣本本的分類結(jié)結(jié)果取決于于各類域中中樣本的全全體。 (錯)在決策樹中中,隨著樹中中結(jié)點數(shù)變變得太大,即使模型型的訓(xùn)練誤誤差還在繼繼續(xù)減低,但是檢驗驗誤差開始
34、始增大,這是出現(xiàn)現(xiàn)了模型擬擬合不足的的問題。 (錯)在聚類分析析當中,簇內(nèi)的相相似性越大大,簇間的差差別越大,聚類的效效果就越差差。(錯)聚類分析可可以看作是是一種非監(jiān)監(jiān)督的分類類。(對)K均值是一一種產(chǎn)生劃劃分聚類的的基于密度度的聚類算算法,簇的個數(shù)數(shù)由算法自自動地確定定。(錯基于鄰近度度的離群點點檢測方法法不能處理理具有不同同密度區(qū)域域的數(shù)據(jù)集集。(對)如果一個對對象不強屬屬于任何簇簇,那么該對對象是基于于聚類的離離群點。(對對)大數(shù)據(jù)的44V特點是是Voluume、VVeloccity、Variiety、Veraacityy。(對)聚類分析的的相異度矩矩陣是用于于存儲所有有對象兩兩兩之間
35、相異異度的矩陣陣,為一個個nn維的的單模矩陣陣。(對)三、多選題題(共300題)噪聲數(shù)據(jù)的的產(chǎn)生原因因主要有:(ABCCD)數(shù)據(jù)采集設(shè)設(shè)備有問題題在數(shù)據(jù)錄入入過程中發(fā)發(fā)生了人為為或計算機機錯誤數(shù)據(jù)傳輸過過程中發(fā)生生錯誤由于命名規(guī)規(guī)則或數(shù)據(jù)據(jù)代碼不同同而引起的的不一致尋找數(shù)據(jù)集集中的關(guān)系系是為了尋尋找精確、方便并且且有價值地地總結(jié)出數(shù)據(jù)的某某一特征的的表示,這個過程程包括了以以下哪些步步驟? (A B C D)A.選擇一一個算法過過程使評分分函數(shù)最優(yōu)優(yōu)B.決定定如何量化化和比較不不同表示擬擬合數(shù)據(jù)的的好壞C.決定要使使用的表示示的特征和和結(jié)構(gòu)D.決定用什什么樣的數(shù)數(shù)據(jù)管理原原則以高效效地實現(xiàn)算算
36、法數(shù)據(jù)挖掘的的預(yù)測建模模任務(wù)主要要包括哪幾幾大類問題題? (AA B)A. 分類類 B. 回歸歸 C. 聚類類 D. 關(guān)聯(lián)聯(lián)規(guī)則挖掘掘4) 下列列屬于不同同的有序數(shù)數(shù)據(jù)的有:(A BB C DD)A.時序數(shù)據(jù)據(jù) B.序列數(shù)數(shù)據(jù) C.時間序序列數(shù)據(jù)D.事務(wù)數(shù)數(shù)據(jù)E.空間數(shù)數(shù)據(jù) 5) 下面面屬于數(shù)據(jù)據(jù)集的一般般特性的有有:( BB C DD)A.連續(xù)性B.維度 C.稀疏性性D.分辨率率E.相異性性6)下面屬屬于維歸約約常用的處處理技術(shù)的的有: (A C)A.主成分分分析B.特征提提取 C.奇異值值分解D.特征加加權(quán)E.離散化化噪聲數(shù)據(jù)處處理的方法法主要有:( ABBD )A.分箱 B.聚類C.關(guān)聯(lián)
37、分分析 D.回歸數(shù)據(jù)挖掘的的主要功能能包括概念念描述、趨趨勢分析、孤立點分分析及( ABCCD )等方面。A.挖掘頻頻繁模式 B.分類和預(yù)預(yù)測 C.聚類分分析 D.偏差分析析以下各項均均是針對數(shù)數(shù)據(jù)倉庫的的不同說法法,你認為正正確的有(BBCD )。 A數(shù)數(shù)據(jù)倉庫就就是數(shù)據(jù)庫庫 B數(shù)數(shù)據(jù)倉庫是是一切商業(yè)業(yè)智能系統(tǒng)統(tǒng)的基礎(chǔ) C數(shù)數(shù)據(jù)倉庫是是面向業(yè)務(wù)務(wù)的,支持聯(lián)機機事務(wù)處理理(OLTTP) D數(shù)據(jù)據(jù)倉庫支持持決策而非非事務(wù)處理理10)聯(lián)機機分析處理理包括( BCDD )基基本分析功功能。A.聚類類 B.切片 C.轉(zhuǎn)軸 D.切切塊11)利用用Apriiori算算法計算頻頻繁項集可可以有效降降低計算頻
38、頻繁集的時時間復(fù)雜度度。在以下下的購物籃籃中產(chǎn)生支支持度不小小于3的候候選3-項項集,在候選22-項集中中需要剪枝枝的是( BD )TID項集1面包、牛奶奶2面包、尿布布、啤酒、雞蛋3牛奶、尿布布、啤酒、可樂4面包、牛奶奶、尿布、啤酒5面包、牛奶奶、尿布、可樂A.啤酒、尿布 B.啤酒、面面包C.面包、尿布 D.啤酒、牛牛奶12)下表表是一個購購物籃,假定支持持度閾值為為40%,其中( AD )是頻頻繁閉項集集。ID項集1面包、牛奶奶、尿布2面包、牛奶奶、尿布、啤酒3牛奶、尿布布、雞蛋4面包、尿布布、啤酒、雞蛋5啤酒、雞蛋蛋A.面包、牛奶、尿布 B.面包、啤酒C.尿布、啤酒 DD.啤酒、雞蛋13
39、)Appriorri算法的的計算復(fù)雜雜度受( ABCCD )影響。A.支持度度閥值 B.項數(shù)(維維度)C.事務(wù)數(shù)數(shù) D.事務(wù)平均均寬度14)以下下關(guān)于非頻頻繁模式說說法,正確的是是( AAD )A.其支持持度小于閾閾值 B.都是不讓讓人感興趣趣的C.包含負負模式和負負相關(guān)模式式 D.對異常數(shù)數(shù)據(jù)項敏感感15)以下下屬于分類類器評價或或比較尺度度的有: ( ACD )A.預(yù)測準準確度 B.召回率C.模型描描述的簡潔潔度 D.計算復(fù)雜雜度16)貝葉葉斯信念網(wǎng)網(wǎng)絡(luò)(BBBN)有如如下哪些特特點。 (ABB)A.構(gòu)造網(wǎng)網(wǎng)絡(luò)費時費費力 B.對模型型的過分問問題非常魯魯棒 C.貝葉斯斯網(wǎng)絡(luò)不適適合處理不不完整的數(shù)數(shù)據(jù) D.網(wǎng)絡(luò)結(jié)結(jié)構(gòu)確定后后,添加變量量相當麻煩煩17)如下下哪些不是是最近鄰分分類器的特特點。 (CC)A.它使用用具體的訓(xùn)訓(xùn)練實例進進行預(yù)測,不必維護護源自數(shù)據(jù)據(jù)的模型 B.分類一一個測試樣樣例開銷很很大 C.最近鄰鄰分類器基基于全局信信息進行預(yù)預(yù)測 D.可以生生產(chǎn)任意形形狀的決策策邊界18)以下下屬于聚類類算法的是是( ABB )。 A.K-Meaans BB.DBSCCAN C.Aprriorii D.KNN19)( CD )都都屬于簇有有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年學校安全教育管理制度范文(六篇)
- 2024年固定時間職工勞動合同標準版本(二篇)
- 2024年學生會主席工作計劃書(二篇)
- 2024年小學三年級學習計劃(四篇)
- 2024年學校健康教育年度工作計劃(五篇)
- 【《金字火腿公司會計信息披露問題及優(yōu)化策略》論文任務(wù)書】
- 【《安佳食品廚房用品公司員工薪酬管理優(yōu)化的案例分析》論文】
- 2024年導(dǎo)游個人年終工作總結(jié)簡單版(七篇)
- 2024年小學教師考核工作總結(jié)簡單版(三篇)
- 2024年地下車庫租賃合同協(xié)議格式版(二篇)
- 《心系國防 強國有我》 課件-2024-2025學年高一上學期開學第一課國防教育主題班會
- 入團志愿書(2016版本)(可編輯打印標準A4) (1)
- 芝麻黑石材檢測報告14001855
- 《特種加工》課程實踐調(diào)查報告(共6頁)
- 關(guān)于城市運營的詮釋
- 房地產(chǎn)廣告公司招標書
- 儲罐安裝施工方案(完整版)
- 《指南》背景下幼兒園自主性游戲指導(dǎo)策略探究
- 律師庭審筆錄(民事)
- 運動競賽學課件PPT.ppt
- 高中小說閱讀教學策略
評論
0/150
提交評論