2024年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師筆試考試歷年高頻考點(diǎn)試題摘選含答案_第1頁(yè)
2024年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師筆試考試歷年高頻考點(diǎn)試題摘選含答案_第2頁(yè)
2024年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師筆試考試歷年高頻考點(diǎn)試題摘選含答案_第3頁(yè)
2024年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師筆試考試歷年高頻考點(diǎn)試題摘選含答案_第4頁(yè)
2024年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師筆試考試歷年高頻考點(diǎn)試題摘選含答案_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年商業(yè)經(jīng)濟(jì)行業(yè)技能考試-數(shù)據(jù)挖掘工程師筆試考試歷年高頻考點(diǎn)試題摘選含答案第1卷一.參考題庫(kù)(共75題)1.如何提高Apriori算法的有效性?有哪些常見(jiàn)方法?2.在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排序,保證每一個(gè)測(cè)試記錄都是由覆蓋它的“最好的”規(guī)格來(lái)分類,這種方案稱為()。A、基于類的排序方案B、基于規(guī)則的排序方案C、基于度量的排序方案D、基于規(guī)格的排序方案3.在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法有:()。A、忽略元組B、使用屬性的平均值填充空缺值C、使用一個(gè)全局常量填充空缺值D、使用與給定元組屬同一類的所有樣本的平均值E、使用最可能的值填充空缺值4.尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。5.在項(xiàng)目實(shí)施時(shí),根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求,可以選用()、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。6.劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含什么要點(diǎn)?7.()將兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward方法8.何謂相異度矩陣?它有什么特點(diǎn)?9.下列關(guān)于分類和聚類哪個(gè)描述是正確的?()A、分類和聚類都是有指導(dǎo)的學(xué)習(xí)B、分類和聚類都是無(wú)指導(dǎo)的學(xué)習(xí)C、分類是有指導(dǎo)的學(xué)習(xí),聚類是無(wú)指導(dǎo)的學(xué)習(xí)D、分類是無(wú)指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)10.以下哪項(xiàng)關(guān)于決策樹的說(shuō)法是錯(cuò)誤的?()A、冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響B(tài)、子樹可能在決策樹中重復(fù)多次C、決策樹算法對(duì)于噪聲的干擾非常敏感D、尋找最佳決策樹是NP完全問(wèn)題11.進(jìn)行數(shù)值歸約時(shí),三種常用的有參方法是:()、()和()12.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?13.在判定樹歸納中,為什么樹剪枝是有用的?14.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。15.給定兩個(gè)向量對(duì)象,分別表示為p1(22,1,42,10),p2(20,0,36,8): (a)計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離 (b)計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離 (c)計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,用x=3 (d)計(jì)算兩個(gè)對(duì)象之間的切比雪夫距離16.置信度(confidence)是衡量興趣度度量()的指標(biāo)。A、簡(jiǎn)潔性B、確定性C、實(shí)用性D、新穎性17.根據(jù)顧客的收入和職業(yè)情況,預(yù)測(cè)他們?cè)谟?jì)算機(jī)設(shè)備上的花費(fèi),所使用的相應(yīng)數(shù)據(jù)挖掘功能是()。A、關(guān)聯(lián)分析B、分類和預(yù)測(cè)C、演變分析D、概念描述18.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型:()。A、標(biāo)稱B、序數(shù)C、區(qū)間D、相異19.Apriori算法所面臨的主要的挑戰(zhàn)包括()。A、會(huì)消耗大量的內(nèi)存B、會(huì)產(chǎn)生大量的候選項(xiàng)集C、對(duì)候選項(xiàng)集的支持度計(jì)算非常繁瑣D、要對(duì)數(shù)據(jù)進(jìn)行多次掃描20.簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)的組成。21.下面的散點(diǎn)圖顯示哪種屬性相關(guān)性?() A、不相關(guān);B、正相關(guān);C、負(fù)相關(guān);D、先正相關(guān)然后負(fù)相關(guān)22.分類器設(shè)計(jì)階段包含三個(gè)過(guò)程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和()23.一個(gè)數(shù)據(jù)庫(kù)有5個(gè)事務(wù),如表所示。設(shè)min_sup=60%,min_conf=80%。 (a)分別用Apriori算法和FP-growth算法找出所有頻繁項(xiàng)集。比較兩種挖掘方法的效率。 (b)比較窮舉法和Apriori算法生成的候選項(xiàng)集的數(shù)量。 (c)利用(1)所找出的頻繁項(xiàng)集,生成所有的強(qiáng)關(guān)聯(lián)規(guī)則和對(duì)應(yīng)的支持度和置信度。24.以下哪些學(xué)科和數(shù)據(jù)挖掘有密切聯(lián)系?()A、統(tǒng)計(jì)B、計(jì)算機(jī)組成原理C、礦產(chǎn)挖掘D、人工智能25.什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則的應(yīng)用有哪些?26.定量屬性可以是整數(shù)值或者是連續(xù)值。27.平均值函數(shù)avg()屬于哪種類型的度量?()A、分布的B、代數(shù)的C、整體的D、混合的28.已知數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用min-max規(guī)范化,將age值35轉(zhuǎn)換到[0.0,1.0]區(qū)間。 (b)使用z-score規(guī)范化轉(zhuǎn)換age值35,其中,age的標(biāo)準(zhǔn)偏差為12.94年。 (c)使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。29.數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求有哪幾個(gè)方面?30.比較數(shù)據(jù)挖掘與OLAP的差異?31.數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是:()、()和()32.模式為對(duì)數(shù)據(jù)集的全局性總結(jié),它對(duì)整個(gè)測(cè)量空間的每一點(diǎn)做出描述;模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。33.在決策樹中,隨著樹中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開始增大,這是出現(xiàn)了模型擬合不足的問(wèn)題。34.如何用決策樹進(jìn)行分類?35.一種常用的確定離群點(diǎn)的簡(jiǎn)單方法是()36.Aprior算法包括()和()兩個(gè)基本步驟37.在數(shù)據(jù)挖掘中,常用的聚類算法包括:()、()、()、基于網(wǎng)格的方法和基于模型的方法。38.哪種OLAP操作可以讓用戶在更高的抽象層,更概化的審視數(shù)據(jù)?()A、上卷B、下鉆C、切塊D、轉(zhuǎn)軸39.計(jì)算一個(gè)單位的平均工資,使用哪個(gè)中心趨勢(shì)度量將得到最合理的結(jié)果?()A、算術(shù)平均值B、截尾均值C、中位數(shù)D、眾數(shù)40.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?()A、頻繁模式挖掘B、分類和預(yù)測(cè)C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘41.為什么說(shuō)數(shù)據(jù)倉(cāng)庫(kù)具有隨時(shí)間而變化的特征?42.數(shù)據(jù)清理的目的是什么?43.為什么要進(jìn)行維歸約?44.下面屬于維歸約常用的線性代數(shù)技術(shù)的有()。A、主成分分析B、特征提取C、奇異值分解D、特征加權(quán)E、離散化45.簡(jiǎn)述處理空缺值的方法。46.下面哪些問(wèn)題是我們進(jìn)行數(shù)據(jù)預(yù)處理的原因?()A、數(shù)據(jù)中的空缺值B、噪聲數(shù)據(jù)C、數(shù)據(jù)中的不一致性D、數(shù)據(jù)中的概念分層47.什么是用戶信息需求表(信息包圖法)?它為什么適用于數(shù)據(jù)倉(cāng)庫(kù)的概念模型的設(shè)計(jì)?48.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問(wèn)題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:()。A、18.3B、22.6C、26.8D、27.949.一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是:()。A、一年級(jí)B、二年級(jí)C、三年級(jí)D、四年級(jí)50.數(shù)據(jù)倉(cāng)庫(kù)在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)是什么?51.數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笥心男?2.簡(jiǎn)述k-means算法,層次聚類算法的優(yōu)缺點(diǎn)。53.Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。54.關(guān)于OLAP和OLTP的說(shuō)法,下列不正確的是()A、OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高B、OLAP的最終數(shù)據(jù)來(lái)源與OLTP不一樣C、OLTP面對(duì)的是決策人員和高層管理人員D、OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的55.下表中列出了4個(gè)點(diǎn)的兩個(gè)最近鄰。使用SNN相似度定義,計(jì)算每對(duì)點(diǎn)之間的SNN相似度。 56.層次聚類方法包括哪些?57.在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。58.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:()。A、1比特B、2.6比特C、3.2比特D、3.8比特59.為什么要關(guān)注離群點(diǎn)?60.分類模型的學(xué)習(xí)方法有哪些?61.Web挖掘包括哪些步驟?62.兩個(gè)文檔向量d1和d2的值為:d1=(1,0,3,0,2),d2=(3,2,0,0,1),則它們的余弦相似度為:()63.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為()。A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項(xiàng)挖掘D、頻繁模式挖掘64.從應(yīng)用的角度看,數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展演變可以歸納為5個(gè)階段:以報(bào)表為主、()、以預(yù)測(cè)模型為主、以運(yùn)營(yíng)導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)和自動(dòng)決策為主。65.何謂粒度?它對(duì)數(shù)據(jù)倉(cāng)庫(kù)有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?66.考慮下表數(shù)據(jù)集,請(qǐng)完成以下問(wèn)題: (1)估計(jì)條件概率。 (2)根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本(A=0,B=1,C=0)的類標(biāo)號(hào); (3)使用Laplace估計(jì)方法,其中p=1/2,l=4,估計(jì)條件概率。 (4)同(2),使用(3)中的條件概率。 (5)比較估計(jì)概率的兩種方法,哪一種更好,為什么?67.數(shù)據(jù)倉(cāng)庫(kù)按照其開發(fā)過(guò)程,其關(guān)鍵環(huán)節(jié)包括()、數(shù)據(jù)存儲(chǔ)于管理和數(shù)據(jù)表現(xiàn)等。68.請(qǐng)描述主成份分析(PCA)算法步驟69.下面哪種數(shù)據(jù)挖掘方法可以用來(lái)檢測(cè)孤立點(diǎn)?()A、概念描述B、分類和預(yù)測(cè)C、聚類分析D、演變分析70.關(guān)聯(lián)規(guī)則挖掘中,兩個(gè)主要的興趣度度量是:()和()71.著名的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)師W.H.Inmon認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)與其他數(shù)據(jù)存儲(chǔ)系統(tǒng)的區(qū)別的四個(gè)特征是:()、()、()和()72.數(shù)據(jù)分類模型的常用表示形式包括()、()等。73.聚類(clustering)是這樣的過(guò)程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。74.簡(jiǎn)述分類模型的評(píng)價(jià)。75.特征提取技術(shù)并不依賴于特定的領(lǐng)域。第2卷一.參考題庫(kù)(共75題)1.舉例說(shuō)明聚類分析的典型應(yīng)用。2.幫助市場(chǎng)分析人員從客戶的基本信息庫(kù)中發(fā)現(xiàn)不同的客戶群,通常所使用的數(shù)據(jù)挖掘功能是()。A、關(guān)聯(lián)分析B、分類和預(yù)測(cè)C、聚類分析D、孤立點(diǎn)分析E、演變分析3.數(shù)據(jù)聚合的目的是什么?4.OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)展之后迅猛發(fā)展起來(lái)的一種新技術(shù)。5.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:()。A、0.821B、1.224C、1.458D、0.7166.定義下列數(shù)據(jù)挖掘功能: 關(guān)聯(lián)、分類、聚類、演變分析、離群點(diǎn)檢測(cè) 使用你熟悉的生活中的數(shù)據(jù),給出每種數(shù)據(jù)挖掘功能的例子。7.數(shù)據(jù)倉(cāng)庫(kù)的三層架構(gòu)主要包括以下哪三部分?()A、數(shù)據(jù)源B、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器C、OLAP服務(wù)器D、前端工具8.何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對(duì)應(yīng)的變換公式。9.數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是()A、數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容B、捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照C、數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D、數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合10.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式D、對(duì)異常數(shù)據(jù)項(xiàng)敏感11.一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?12.下表所示的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù)。其中hotdogs指包含熱狗的事務(wù),指不包含熱狗的事務(wù)。hamburgers指包含漢堡的事務(wù),指不包含漢堡的事務(wù)。 假設(shè)挖掘出的關(guān)聯(lián)規(guī)則是“hotdogs=>hamburgers”。給定最小支持度閾值25%和最小置信度閾值50%,這個(gè)關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則嗎? 計(jì)算關(guān)聯(lián)規(guī)則“hotdogs=>hamburgers”的提升度,能夠說(shuō)明什么問(wèn)題?購(gòu)買熱狗和購(gòu)買漢堡是獨(dú)立的嗎?如果不是,兩者間存在哪種相關(guān)關(guān)系?13.考慮這么一種情況:一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近,但屬于不同的類,因?yàn)檫@兩個(gè)對(duì)象一般不會(huì)共享許多近鄰,所以應(yīng)該選擇()的相似度計(jì)算方法。A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰14.支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和()15.簡(jiǎn)述K-平均算法的輸入、輸出及聚類過(guò)程(流程)。16.數(shù)據(jù)的預(yù)處理方法有哪些?17.數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向主題的、集成的、()、反映歷史變化的數(shù)據(jù)集合。18.考慮值集{12,24,33,2,4,55,68,26},其四分位數(shù)極差是:()。A、31B、24C、55D、319.()都屬于分裂的層次聚類算法。A、二分K均值B、MSTC、ChameleonD、組平均20.操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、()、企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫(kù),也叫運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)。21.簡(jiǎn)述分類模型性能評(píng)價(jià)的指標(biāo)。22.維度可以根據(jù)其變化快慢分為元變化維度、()維度和劇烈變化維度三類。23.比較OLAP的數(shù)據(jù)模型MOLAP與ROLAP?24.只有非零值才重要的二元屬性被稱作:()。A、計(jì)數(shù)屬性B、離散屬性C、非對(duì)稱的二元屬性D、對(duì)稱屬性25.簡(jiǎn)述分類器設(shè)計(jì)階段包含的3個(gè)過(guò)程。26.ROLAP是基于()的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實(shí)現(xiàn)。27.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問(wèn)題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、探索性數(shù)據(jù)分析B、建模描述C、預(yù)測(cè)建模D、尋找模式和規(guī)則28.數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和()29.下列度量不具有反演性的是()。A、系數(shù)B、幾率C、Cohen度量D、興趣因子30.()通過(guò)將屬性域劃分為區(qū)間,從而減少給定連續(xù)值的個(gè)數(shù)。A、概念分層B、離散化C、分箱D、直方圖31.以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)?() (1)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。 (2)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC32.使用星型模式可以從一定程度上()查詢效率。因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過(guò)預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中。33.OLAP系統(tǒng)和OLTP系統(tǒng)的主要區(qū)別包括()。A、OLTP系統(tǒng)主要用于管理當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要存放的是歷史數(shù)據(jù)B、在數(shù)據(jù)的存取上,OLTP系統(tǒng)比OLAP系統(tǒng)有著更多的寫操作C、對(duì)OLTP系統(tǒng)上的數(shù)據(jù)訪問(wèn)量往往比對(duì)OLAP系統(tǒng)的數(shù)據(jù)訪問(wèn)量要大得多D、OLAP系統(tǒng)中往往存放的是匯總的數(shù)據(jù),而OLTP系統(tǒng)中往往存放詳細(xì)的數(shù)據(jù)34.何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。35.多維分析是指以“維”形式組織起來(lái)的數(shù)據(jù)采取切片、切塊、()和旋轉(zhuǎn)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。36.以下哪些分類方法可以較好地避免樣本的不平衡問(wèn)題,()。A、KNNB、SVMC、BayesD、神經(jīng)網(wǎng)絡(luò)37.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?()A、分類B、聚類C、關(guān)聯(lián)分析D、隱馬爾可夫鏈38.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?39.粒度是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類()40.在聚類分析當(dāng)中,()等技術(shù)可以處理任意形狀的簇。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Chameleon41.噪聲和偽像是數(shù)據(jù)錯(cuò)誤這一相同表述的兩種叫法。42.以下屬于分類器評(píng)價(jià)或比較尺度的有()。A、預(yù)測(cè)準(zhǔn)確度B、召回率C、模型描述的簡(jiǎn)潔度D、計(jì)算復(fù)雜度43.進(jìn)行數(shù)據(jù)規(guī)范化的目的是()。A、去掉數(shù)據(jù)中的噪聲B、對(duì)數(shù)據(jù)進(jìn)行匯總和聚集C、使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)D、將屬性按比例縮放,使之落入一個(gè)小的特定區(qū)間44.進(jìn)行數(shù)據(jù)預(yù)處理時(shí)所使用的主要方法包括:()、()、()和()45.數(shù)據(jù)挖掘處理的對(duì)象有哪些?請(qǐng)從實(shí)際生活中舉出至少三種。46.BIRCH是一種()。A、分類器B、聚類算法C、關(guān)聯(lián)分析算法D、特征選擇算法47.哪種數(shù)據(jù)變換的方法將數(shù)據(jù)沿概念分層向上匯總?()A、平滑B、聚集C、數(shù)據(jù)概化D、規(guī)范化48.數(shù)據(jù)挖掘要解決的問(wèn)題是什么?49.下面屬于數(shù)據(jù)集的一般特性的有:()。A、連續(xù)性B、維度C、稀疏性D、分辨率E、相異性50.什么是分類?分類的應(yīng)用領(lǐng)域有哪些?51.()這些數(shù)據(jù)特性都是對(duì)聚類分析具有很強(qiáng)影響的。A、高維性B、規(guī)模C、稀疏性D、噪聲和離群點(diǎn)52.下面的數(shù)據(jù)操作中,哪些操作不是多維數(shù)據(jù)模型上的OLAP操作?()A、上卷(roll-up)B、選擇(select)C、切片(slice)D、轉(zhuǎn)軸(pivot)53.何謂OLTP和OLAP?它們的主要異同有哪些?54.為什么在進(jìn)行聯(lián)機(jī)分析處理(OLAP)時(shí),我們需要一個(gè)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù),而不是直接在日常操作的數(shù)據(jù)庫(kù)上進(jìn)行。55.聚類分析中常見(jiàn)的數(shù)據(jù)類型有哪些?56.假設(shè)描述學(xué)生的信息包含屬性:性別,籍貫,年齡。有兩條記錄p、q及兩個(gè)簇C1、C2的信息如下,分別求出記錄和簇彼此之間的距離。(k-means算法的拓展) p={男,廣州,18},q={女,深圳,20} C1={男:25,女:5;廣州:20,深圳:6,韶關(guān):4;19} C2={男:3,女:12;汕頭:12,深圳:1,湛江:2;24}57.給定基本方體,方體的物化有三種選擇:()、()和()58.為什么說(shuō)相對(duì)于日常的應(yīng)用數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)更加不容易丟失?59.簡(jiǎn)述數(shù)據(jù)預(yù)處理方法和內(nèi)容。60.簡(jiǎn)述基于劃分的聚類方法。劃分的準(zhǔn)則是什么?61.抽取、轉(zhuǎn)換、加載過(guò)程的目的是為決策支持應(yīng)用提供一個(gè)()、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過(guò)程產(chǎn)生的數(shù)據(jù)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即時(shí)的和質(zhì)量可控制的。62.如果葉貝斯網(wǎng)絡(luò)的各個(gè)結(jié)點(diǎn)都沒(méi)有任何證據(jù),從歷史數(shù)據(jù)中如何用兩種不同的方法得到各個(gè)結(jié)點(diǎn)的發(fā)生概率?63.簡(jiǎn)述數(shù)據(jù)清理的基本內(nèi)容。64.下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理65.數(shù)據(jù)倉(cāng)庫(kù)常見(jiàn)的存儲(chǔ)優(yōu)化方法是什么?66.簡(jiǎn)述聯(lián)機(jī)分析處理的四個(gè)特征?67.怎樣從歷史數(shù)據(jù)中訓(xùn)練出結(jié)點(diǎn)之間的條件概率或聯(lián)合條件概率?68.依據(jù)類信息可利用的程度,離群點(diǎn)挖掘可分為哪三種基本方法?69.元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)分為()和業(yè)務(wù)元數(shù)據(jù)兩類。70.如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集。71.何謂數(shù)據(jù)倉(cāng)庫(kù)?為什么要建立數(shù)據(jù)倉(cāng)庫(kù)?72.通過(guò)數(shù)據(jù)挖掘過(guò)程所推倒出的關(guān)系和摘要經(jīng)常被稱為:()。A、模型B、模式C、模范D、模具73.()是一個(gè)觀測(cè)值,它與其他觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A、邊界點(diǎn)B、質(zhì)心C、離群點(diǎn)D、核心點(diǎn)74.通過(guò)聚集多個(gè)分類器的預(yù)測(cè)來(lái)提高分類準(zhǔn)確率的技術(shù)稱為()。A、組合(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)75.調(diào)和數(shù)據(jù)是存儲(chǔ)在()數(shù)據(jù)倉(cāng)庫(kù)和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。第1卷參考答案一.參考題庫(kù)1.參考答案: 可以使用一下幾個(gè)思路來(lái)提升Apriori算法:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法。 常見(jiàn)方法包括: 1,基于hash表的項(xiàng)集計(jì)數(shù); 2,事務(wù)壓縮; 3,劃分; 4,選樣; 5,動(dòng)態(tài)項(xiàng)集計(jì)數(shù)。2.參考答案:B3.參考答案:A,B,C,D,E4.參考答案:錯(cuò)誤5.參考答案:時(shí)間6.參考答案:選種某種距離作為數(shù)據(jù)樣本減的相似性度量、選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值。7.參考答案:D8.參考答案: 相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度的矩陣,為一個(gè)nn維的單模矩陣。 其特點(diǎn)是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示: 9.參考答案:C10.參考答案:C11.參考答案:線性回歸方法;多元回歸;對(duì)數(shù)線性模型12.參考答案: 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識(shí)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。 數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測(cè)、聚類分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。13.參考答案:決策樹建立時(shí),血多分析反映的是訓(xùn)練數(shù)據(jù)中的噪聲和離群點(diǎn)點(diǎn),樹剪枝可以識(shí)別并剪去這種分枝,以提高對(duì)未知數(shù)據(jù)分類的準(zhǔn)確性。14.參考答案:錯(cuò)誤15.參考答案:(a)計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離 (b)計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離 (c)計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,其中參數(shù)r=3 16.參考答案:B17.參考答案:B18.參考答案:D19.參考答案:B,C,D20.參考答案:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù),數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問(wèn)工具,數(shù)據(jù)集市,數(shù)據(jù)倉(cāng)庫(kù)管理,信息發(fā)布系統(tǒng)。21.參考答案:C22.參考答案:分類器測(cè)試23.參考答案:(a)頻繁1-項(xiàng)集:M,O,K,E,Y 頻繁2-項(xiàng)集:{M,K},{O,K},{O,E},{K,Y},{K,E} 頻繁3-項(xiàng)集:{O,K,E} (b)窮舉法:M=2k-1=211-1=2047 Apriori算法:23 (c){O,K}—>{E},支持度0.6,置信度1 {O,E}—>{k},支持度0.6,置信度124.參考答案:A,D25.參考答案: 關(guān)聯(lián)規(guī)則挖掘是用來(lái)發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶購(gòu)買的商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來(lái),稱為關(guān)聯(lián)規(guī)則(AssociationRule)。 關(guān)聯(lián)規(guī)則的應(yīng)用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等。26.參考答案:正確27.參考答案:B28.參考答案:(a)已知最大值為70,最小值為13,則可將35規(guī)范化為: (b)已知均值為30,標(biāo)準(zhǔn)差為12.94,則可將35規(guī)范化為: (c)使用小數(shù)定標(biāo)規(guī)范化可將35規(guī)范化為:35/100=0.3529.參考答案:可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性。30.參考答案: OLAP的典型應(yīng)用,通過(guò)商業(yè)活動(dòng)變化的查詢發(fā)現(xiàn)的問(wèn)題,經(jīng)過(guò)追蹤查詢找出問(wèn)題出現(xiàn)的原因,達(dá)到輔助決策的作用。 數(shù)據(jù)挖掘任務(wù)在于聚類(如神經(jīng)網(wǎng)絡(luò)聚類)、分類(如決策樹分類)、預(yù)測(cè)等。31.參考答案:分布的;代數(shù)的;整體的32.參考答案:錯(cuò)誤33.參考答案:錯(cuò)誤34.參考答案:決策樹用于對(duì)新樣本的分類,即通過(guò)決策樹對(duì)新樣本屬性值的測(cè)試,從樹的根結(jié)點(diǎn)開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。35.參考答案:出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位數(shù)1.5*IQR處的值36.參考答案:連接;剪枝37.參考答案:劃分方法;層次方法;基于密度的方法38.參考答案:A39.參考答案:B40.參考答案:C41.參考答案: 1,數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng)主要保存當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)從歷史的角度提供信息。 2,數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式的包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包含時(shí)間元素。42.參考答案:試圖填充缺失數(shù)據(jù),去除噪聲并識(shí)別離群點(diǎn),糾正數(shù)據(jù)中的不一致值。43.參考答案:維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。44.參考答案:A,C45.參考答案: ①忽略該記錄; ②去掉屬性; ③手工填寫空缺值; ④使用默認(rèn)值; ⑤使用屬性平均值; ⑥使用同類樣本平均值。46.參考答案:A,B,C47.參考答案: 信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一個(gè)維度用平面表格的一列表示,通常的維度如時(shí)間、地點(diǎn)、產(chǎn)品和顧客等;而細(xì)化本列的對(duì)象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日,甚至小時(shí);平面表格的最后一行(代表超立方體中的單元格)即為指標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的數(shù)據(jù)倉(cāng)庫(kù)。 總之,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點(diǎn)開始設(shè)計(jì)(用戶的觀點(diǎn)是通過(guò)與用戶交流得到的),站在管理者的角度把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響業(yè)務(wù)活動(dòng)的方式。48.參考答案:A49.參考答案:A50.參考答案:數(shù)據(jù)倉(cāng)庫(kù)面對(duì)的是大量數(shù)據(jù)的存儲(chǔ)與管理; 并行處理; 針對(duì)決策支持查詢的優(yōu)化; 支持多維分析的查詢模式。51.參考答案:1)可伸縮性 2)處理不同類型屬性的能力 3)發(fā)現(xiàn)任意形狀的聚類 4)用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化 5)處理噪聲數(shù)據(jù)的能力 6)對(duì)輸入記錄的順序不敏感 7)高維度 8)基于約束的聚類 9)可解釋性和可用性52.參考答案:(1)k-means算法: 優(yōu)點(diǎn):算法描述容易,實(shí)現(xiàn)簡(jiǎn)單快速 不足: 簇的個(gè)數(shù)要預(yù)先給定 對(duì)初始值的依賴極大 不適合大量數(shù)據(jù)的處理 對(duì)噪聲點(diǎn)和離群點(diǎn)很敏感 很難檢測(cè)到“自然的”簇 (2)層次聚類算法: BIRCH算法: 優(yōu)點(diǎn):利用聚類特征樹概括了聚類的有用信息,節(jié)省內(nèi)存空間;具有對(duì)象數(shù)目呈線性關(guān)系,可伸縮性和較好的聚類質(zhì)量。 不足:每個(gè)節(jié)點(diǎn)只能包含有限數(shù)目的條目,工作效率受簇的形狀的影響大。 C.URE算法: 優(yōu)點(diǎn):對(duì)孤立點(diǎn)的處理能力強(qiáng);適用于大規(guī)模數(shù)據(jù)處理,伸縮性好,沒(méi)有犧牲聚類質(zhì)量。 缺點(diǎn):算法在處理大量數(shù)據(jù)時(shí)必須基于抽樣,劃分等技術(shù)。 R.OCK算法: 優(yōu)點(diǎn):分類恰當(dāng),可采用隨機(jī)抽樣處理數(shù)據(jù)。 缺點(diǎn):最壞的情況下時(shí)間復(fù)雜度級(jí)數(shù)大。 基于密度的聚類算法:可識(shí)別具有任意形狀不同大小的簇,自動(dòng)確定簇的數(shù)目,分離簇和環(huán)境噪聲,一次掃描即可完成聚類,使用空間索引時(shí)間復(fù)雜度為O(NlbN)。53.參考答案:錯(cuò)誤54.參考答案:A55.參考答案:SNN即共享最近鄰個(gè)數(shù)為其相似度。 點(diǎn)1和點(diǎn)2的SNN相似度:0(沒(méi)有共享最近鄰) 點(diǎn)1和點(diǎn)3的SNN相似度:1(共享點(diǎn)4這個(gè)最近鄰) 點(diǎn)1和點(diǎn)4的SNN相似度:1(共享點(diǎn)3這個(gè)最近鄰) 點(diǎn)2和點(diǎn)3的SNN相似度:1(共享點(diǎn)4這個(gè)最近鄰) 點(diǎn)2和點(diǎn)4的SNN相似度:1(共享點(diǎn)3這個(gè)最近鄰) 點(diǎn)3和點(diǎn)4的SNN相似度:0(沒(méi)有共享最近鄰)56.參考答案:層次聚類方法包括凝聚型和分解型兩中層次聚類方法。57.參考答案: 1,忽略元組。當(dāng)類標(biāo)號(hào)缺少是通常這么做,當(dāng)每個(gè)屬性缺省值的百分比變化很大時(shí),他的效果非常差。 2,人工填寫空缺值。這種方法工作量大,可行性低。 3,使用一個(gè)全局變量填充空缺值。 4,使用屬性的平均值填充空缺值。 5,使用與給定元組屬同一類的所有樣本的平均值。 6,使用最可能的值填充空缺值。58.參考答案:B59.參考答案:在一些應(yīng)用領(lǐng)域中,識(shí)別離群點(diǎn)是許多工作的基礎(chǔ)和前提。一般地,離群點(diǎn)可能對(duì)應(yīng)于稀有事件或異常行為,所以,離群點(diǎn)的挖掘會(huì)給我們帶來(lái)新的視角和發(fā)現(xiàn),離群點(diǎn)往往具有特殊的意義和很高的實(shí)用價(jià)值,需要對(duì)其進(jìn)行認(rèn)真審視和研究,因?yàn)樗鼈儽硎疽环N偏差或新的模式的開始,這可能會(huì)對(duì)用戶帶來(lái)危害,或造成巨大損失。60.參考答案:基于決策樹的分類方法,貝葉斯分類方法,k-最近鄰分類方法,神經(jīng)網(wǎng)絡(luò)方法。61.參考答案:數(shù)據(jù)清理(可能有占全過(guò)程的60%的工作量);將數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù);建立數(shù)據(jù)立方體;選擇用來(lái)進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù);數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉?lái)找到感興趣的模式);展現(xiàn)挖掘結(jié)果;將模式或者知識(shí)應(yīng)用或者存入知識(shí)庫(kù)。62.參考答案:5/1363.參考答案:B64.參考答案:以分析為主65.參考答案: 粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。 粒度影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答查詢問(wèn)題的細(xì)節(jié)程度。 按粒度組織數(shù)據(jù)的方式主要有: ①簡(jiǎn)單堆積結(jié)構(gòu) ②輪轉(zhuǎn)綜合結(jié)構(gòu) ③簡(jiǎn)單直接結(jié)構(gòu) ④連續(xù)結(jié)構(gòu)66.參考答案: (5)當(dāng)條件概率為0的時(shí)候,條件概率的預(yù)測(cè)用Laplace估計(jì)方法比較好,因?yàn)槲覀儾幌胝麄€(gè)條件概率計(jì)算結(jié)果為0。67.參考答案:數(shù)據(jù)抽取68.參考答案: 1.規(guī)范化輸入的數(shù)據(jù):所有屬性落在相同的區(qū)間內(nèi); 2,計(jì)算k個(gè)標(biāo)準(zhǔn)正交向量,即主成分; 3,每個(gè)數(shù)據(jù)數(shù)據(jù)的向量都是這k主成分向量的線性組合; 4,主成分按照重要程度降序排序。69.參考答案:C70.參考答案:支持度;置信度71.參考答案:面向主題;數(shù)據(jù)集成;隨時(shí)間而變化;數(shù)據(jù)不易丟失72.參考答案:分類規(guī)則;決策樹和數(shù)學(xué)公式73.參考答案:錯(cuò)誤74.參考答案:分類過(guò)程一般分為兩步:第一步是利用分類算法對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),建立分類模型;第二步是用分類模型對(duì)標(biāo)號(hào)未知的測(cè)試數(shù)據(jù)進(jìn)行分類。75.參考答案:錯(cuò)誤第2卷參考答案一.參考題庫(kù)1.參考答案: ①商業(yè):幫助市場(chǎng)分析人員從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用不同的購(gòu)買模式描述不同客戶群的特征。 ②生物學(xué):推導(dǎo)植物或動(dòng)物的分類,對(duì)基于進(jìn)行分類,獲得對(duì)種群中固有結(jié)構(gòu)的認(rèn)識(shí)。 ③WEB文檔分類。 ④其他:如地球觀測(cè)數(shù)據(jù)庫(kù)中相似地區(qū)的確定;各類保險(xiǎn)投保人的分組;一個(gè)城市中不同類型、價(jià)值、地理位置房子的分組等。 ⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進(jìn)行聚類,然后再進(jìn)行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡(jiǎn)化技術(shù),它把基于相似數(shù)據(jù)特征的變量或個(gè)案組合在一起。2.參考答案:C3.參考答案:將兩個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)設(shè)備中。4.參考答案:正確5.參考答案:D6.參考答案:關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:。其中,X是一個(gè)表示學(xué)生的變量。該規(guī)則指出主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)的學(xué)生所占比例為12%,同時(shí),主修計(jì)算機(jī)專業(yè)的學(xué)生有98%擁有個(gè)人計(jì)算機(jī)。 分類是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽。例如,通過(guò)對(duì)過(guò)去銀行客戶流失與未流失客戶數(shù)據(jù)的分析,得到一個(gè)預(yù)測(cè)模型,預(yù)測(cè)新客戶是否可能會(huì)流失。 聚類是將數(shù)據(jù)劃分為相似對(duì)象組的過(guò)程,使得同一組中對(duì)象相似度最大而不同組中對(duì)象相似度最小。例如,通過(guò)對(duì)某大型超市客戶購(gòu)物數(shù)據(jù)進(jìn)行聚類,將客戶聚類細(xì)分為低值客戶、高值客戶以及普通客戶等。 數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析。 離群點(diǎn)檢測(cè)就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)??捎糜诎l(fā)現(xiàn)金融領(lǐng)域的欺詐檢測(cè)。7.參考答案:B,C,D8.參考答案: 將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的區(qū)域(如0.0~1.0),稱為規(guī)范化。 規(guī)范化的常用方法有: (1)最大-最小規(guī)范化; (2)零-均值規(guī)范化; (3)小數(shù)定標(biāo)規(guī)范化。 9.參考答案:C10.參考答案:A,D11.參考答案: 1,數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù); 2,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器; 3,知識(shí)庫(kù); 4,數(shù)據(jù)挖掘引擎; 5,模式評(píng)估模塊; 6.圖形用戶界面。12.參考答案: 故這個(gè)關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則。 S({hamburgers})=2500/5000=50% 提升度=1.334?提升度大于1,表明hot?dogs和hamburgers不是互相獨(dú)立的,二者之間存在正相關(guān)關(guān)系。13.參考答案:D14.參考答案:S型核函數(shù)15.參考答案:16.參考答案:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約,數(shù)據(jù)離散化。17.參考答案:相對(duì)穩(wěn)定的18.參考答案:A19.參考答案:A,B20.參考答案:當(dāng)前值的21.參考答案:(1)分類準(zhǔn)確率:指模型正確地預(yù)測(cè)新的或先前未知的數(shù)據(jù)的類標(biāo)號(hào)的能力。(影響分類準(zhǔn)確率的因素:訓(xùn)練數(shù)據(jù)集,記錄的數(shù)目,屬性的數(shù)目,屬性中的信息,測(cè)試數(shù)據(jù)集記錄的分布情況) (2)計(jì)算復(fù)雜度:決定著算法執(zhí)行的速率和占用的資源,依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和軟、硬件環(huán)境。 (3)可解釋性:分類結(jié)果只有可解釋性好,容易理解,才能更好地用于決策支持。 (4)可伸縮性。 (5)穩(wěn)定性:指不會(huì)隨著數(shù)據(jù)的變化而發(fā)生劇烈變化。 (6)強(qiáng)壯性:指數(shù)據(jù)集含有噪聲和空缺值的情況下,分類器正確分類數(shù)據(jù)的能力。22.參考答案:緩慢變化23.參考答案: MOLAP是事先生成多維立方體,供以后查詢分析用,而ROLAP是通過(guò)動(dòng)態(tài)的生成Sql,去做查詢關(guān)系型數(shù)據(jù)庫(kù),如果沒(méi)有做性能優(yōu)化,數(shù)據(jù)量很大的時(shí)候,性能問(wèn)題就會(huì)顯得比較突出了。 24.參考答案:C25.參考答案:劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測(cè)試。26.參考答案:關(guān)系數(shù)據(jù)庫(kù)27.參考答案:B28.參考答案:聯(lián)機(jī)分析處理29.參考答案:D30.參考答案:B31.參考答案:A32.參考答案:提高33.參考答案:A,B,D34.參考答案:文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過(guò)程。它與信息檢索之間有以下幾方面的區(qū)別:方法論不同:信息檢索是目標(biāo)驅(qū)動(dòng)的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨(dú)立于用戶的信息需求,是用戶無(wú)法預(yù)知的。著眼點(diǎn)不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請(qǐng)求的文本子集;而文本挖掘是為了揭示文本中隱含的知識(shí)。評(píng)價(jià)方法不同:信息檢索用查準(zhǔn)率和查全率來(lái)評(píng)價(jià)其性能。而文本挖掘采用收益、置信度、簡(jiǎn)潔性等來(lái)衡量所發(fā)現(xiàn)知識(shí)的有效性、可用性和可理解性。使用場(chǎng)合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場(chǎng)合。一方面,這兩種技術(shù)各有所長(zhǎng),有各自適用的場(chǎng)合;另一方面,可以利用文本挖掘的研究成果來(lái)提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個(gè)新的水平。35.參考答案:鉆取36.參考答案:A37.參考答案:B38.參考答案: 原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。 為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法的計(jì)算量,提高挖掘效率和準(zhǔn)確程度。39.參考答案:越多40.參考答案:A,D41.參考答案:錯(cuò)誤42.參考答案:A,C,D43.參考答案:D44.參考答案:數(shù)據(jù)清理;數(shù)據(jù)集成;數(shù)據(jù)變換;數(shù)據(jù)規(guī)約45.參考答案:數(shù)據(jù)挖掘處理的對(duì)象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù),對(duì)象既可以來(lái)自社會(huì)科學(xué),又可以來(lái)自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測(cè)得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),可以是面向?qū)ο蟮母呒?jí)數(shù)據(jù)庫(kù)系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫(kù),如空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)等,還可以是Web數(shù)據(jù)信息。 實(shí)際生活的例子: ①電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶行為分析,包含客戶通話記錄、通話時(shí)間、所開通的服務(wù)等,據(jù)此進(jìn)行客戶群體劃分以及客戶流失性分析。 ②天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對(duì)上百萬(wàn)天體數(shù)據(jù)進(jìn)行分類與分析,幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。 ③制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過(guò)程分析等。 ④市場(chǎng)業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位、消費(fèi)者分析、輔助制定市場(chǎng)營(yíng)銷策略等。46.參考答案:B47.參考答案:C48.參考答案:面對(duì)高維,復(fù)雜,異構(gòu)的海量數(shù)據(jù),如何集中獲取有用的信息和知識(shí)。49.參考答案:B,C,D50.參考答案: 分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過(guò)程,即給定一組輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類。 分類問(wèn)題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而及時(shí)制定救治方案,挽救病人的生命。51.參考答案:A,B,C,D52.參考答案:B53.參考答案: OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫(kù)為基礎(chǔ)、面向操作人員和低層管理人員、對(duì)基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理。 OLAP即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來(lái)的、以數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。 OLTP和OLAP的主要區(qū)別如下表: 54.參考答案: 使用一個(gè)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行OLAP處理為了以下的目的: 1,提高兩個(gè)系統(tǒng)的性能:操作數(shù)據(jù)庫(kù)是為了OLTP而設(shè)計(jì)的,沒(méi)有為OLAP操作優(yōu)化,同時(shí)在錯(cuò)啊做數(shù)據(jù)庫(kù)上處理OLAP查詢,會(huì)打打降低操作任務(wù)的性能;而數(shù)據(jù)倉(cāng)庫(kù)是為了OLAP而設(shè)計(jì),為復(fù)雜的OLAP查詢,多維視圖,匯總等OLAP功能提供了優(yōu)化。 2,兩者有著不同的功能:操作數(shù)據(jù)庫(kù)支持多事務(wù)的并行處理,而數(shù)據(jù)倉(cāng)庫(kù)往往只是對(duì)數(shù)據(jù)記錄進(jìn)行只讀訪問(wèn),這是如果將事務(wù)處理的并行機(jī)制和回復(fù)機(jī)制用于這種OLAP操作,就會(huì)顯著降低OLAP的性能。 3,兩者有著不同的數(shù)據(jù):數(shù)據(jù)倉(cāng)庫(kù)中存放歷史數(shù)據(jù);日常操作數(shù)據(jù)庫(kù)中存放的往往只是最新的數(shù)據(jù)。55.參考答案:常見(jiàn)數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、序數(shù)型以及混合類型等。56.參考答案:取x=1,得到的各距離如下: d(p,q)=1+1+20-18=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論