數(shù)據(jù)挖掘作業(yè)_第1頁(yè)
數(shù)據(jù)挖掘作業(yè)_第2頁(yè)
數(shù)據(jù)挖掘作業(yè)_第3頁(yè)
數(shù)據(jù)挖掘作業(yè)_第4頁(yè)
數(shù)據(jù)挖掘作業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘作業(yè)第一章引言一、填空題數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)包括以下七個(gè)步驟:、和數(shù)據(jù)挖掘的性能問(wèn)題主要包括:、和當(dāng)前的數(shù)據(jù)挖掘研究中,最主要的三個(gè)研究方向是:、和在萬(wàn)維網(wǎng)(WWW)上應(yīng)用的數(shù)據(jù)挖掘技術(shù)常被稱為:孤立點(diǎn)是扌旨:二、單選題數(shù)據(jù)挖掘應(yīng)用和一些常見(jiàn)的數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)的最主要區(qū)別在于:A、所涉及的算法的復(fù)雜性;B、所涉及的數(shù)據(jù)量;C、計(jì)算結(jié)果的表現(xiàn)形式;D、是否使用了人工智能技術(shù)孤立點(diǎn)挖掘適用于下列哪種場(chǎng)合?A、目標(biāo)市場(chǎng)分析B、購(gòu)物籃分析C、模式識(shí)別D、信用卡欺詐檢測(cè)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的應(yīng)用于股票價(jià)格走勢(shì)分析關(guān)聯(lián)分析B.分類和預(yù)測(cè)C.聚類分析D.演變分析下面的數(shù)據(jù)挖掘的

2、任務(wù)中,()將決定所使用的數(shù)據(jù)挖掘功能A、選擇任務(wù)相關(guān)的數(shù)據(jù)B、選擇要挖掘的知識(shí)類型C、模式的興趣度度量D、模式的可視化表示下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購(gòu)物籃分析A、關(guān)聯(lián)分析B、分類和預(yù)測(cè)C、聚類分析D、演變分析根據(jù)顧客的收入和職業(yè)情況,預(yù)測(cè)他們?cè)谟?jì)算機(jī)設(shè)備上的花費(fèi),所使用的相應(yīng)數(shù)據(jù)挖掘功能是()A.關(guān)聯(lián)分析B.分類和預(yù)測(cè)C.演變分析D.概念描述幫助市場(chǎng)分析人員從客戶的基本信息庫(kù)中發(fā)現(xiàn)不同的客戶群,通常所使用的數(shù)據(jù)挖掘功能是()A.關(guān)聯(lián)分析B.分類和預(yù)測(cè)C.聚類分析D.孤立點(diǎn)分析E.演變分析假設(shè)現(xiàn)在的數(shù)據(jù)挖掘任務(wù)是解析數(shù)據(jù)庫(kù)中關(guān)于客戶的一般特征的描述,通常所使用的數(shù)據(jù)挖掘功能是()

3、A.關(guān)聯(lián)分析B.分類和預(yù)測(cè)C.孤立點(diǎn)分析D.演變分析E.概念描述三、簡(jiǎn)答題什么是數(shù)據(jù)挖掘?一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?請(qǐng)簡(jiǎn)述不同歷史時(shí)代數(shù)據(jù)庫(kù)技術(shù)的演化。請(qǐng)列舉數(shù)據(jù)挖掘應(yīng)用常見(jiàn)的數(shù)據(jù)源。(或者說(shuō),我們都在什么樣的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘)什么是模式興趣度的客觀度量和主觀度量?在哪些情況下,我們認(rèn)為所挖掘出來(lái)的模式是有趣的?根據(jù)挖掘的知識(shí)類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)分為哪些類別?第2章數(shù)據(jù)預(yù)處理一、填空題進(jìn)行數(shù)據(jù)預(yù)處理時(shí)所使用的主要方法包括:、和處理噪聲數(shù)據(jù)的方法主要包括:、和模式集成的主要問(wèn)題包括:和數(shù)據(jù)概化是指:數(shù)據(jù)壓縮可分為:和兩種類型。進(jìn)行數(shù)值歸約時(shí),三種常用的有參方法是:、和

4、數(shù)據(jù)離散度的最常用度量是、和二、單選題數(shù)據(jù)歸約的目的是()A、填補(bǔ)數(shù)據(jù)種的空缺值B、集成多個(gè)數(shù)據(jù)源的數(shù)據(jù)C、得到數(shù)據(jù)集的壓縮表示D、規(guī)范化數(shù)據(jù)下面哪種數(shù)據(jù)預(yù)處理技術(shù)可以用來(lái)平滑數(shù)據(jù),消除數(shù)據(jù)噪聲?A.數(shù)據(jù)清理B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約進(jìn)行數(shù)據(jù)規(guī)范化的目的是()去掉數(shù)據(jù)中的噪聲對(duì)數(shù)據(jù)進(jìn)行匯總和聚集使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)將屬性按比例縮放,使之落入一個(gè)小的特定區(qū)間數(shù)據(jù)的噪聲是指()A、孤立點(diǎn)B、空缺值C、測(cè)量變量中的隨即錯(cuò)誤或偏差D、數(shù)據(jù)變換引起的錯(cuò)誤那種數(shù)據(jù)變換的方法將數(shù)據(jù)沿概念分層向上匯總A、平滑B、聚集C、數(shù)據(jù)概化D、規(guī)范化()通過(guò)將屬性域劃分為區(qū)間,從而減

5、少給定連續(xù)值的個(gè)數(shù)。A.概念分層B.離散化C.分箱D.直方圖三、多選題下面哪些問(wèn)題是我們進(jìn)行數(shù)據(jù)預(yù)處理的原因?A.數(shù)據(jù)中的空缺值B.噪聲數(shù)據(jù)C.數(shù)據(jù)中的不一致性D.數(shù)據(jù)中的概念分層下面的度量中,哪些是數(shù)據(jù)離散度的度量?C.模D.中間四分位數(shù)區(qū)間)CC.模D.中間四分位數(shù)區(qū)間)C、不一致數(shù)據(jù)D、敏感數(shù)據(jù)C、維歸約D、規(guī)范化數(shù)據(jù)清理的目的是處理數(shù)據(jù)中的(A、空缺值B、噪聲數(shù)據(jù)下列哪些是數(shù)據(jù)變換可能涉及的內(nèi)容?A、數(shù)據(jù)壓縮B、數(shù)據(jù)概化以下哪些原因可能引起空缺值A(chǔ)、設(shè)備異常B、命名規(guī)則的不一致C、與其他已有數(shù)據(jù)不一致而被刪除D、在輸入時(shí),有些數(shù)據(jù)因?yàn)榈貌坏街匾暥鴽](méi)有被輸入四、簡(jiǎn)答題常用的數(shù)值屬性概念分

6、層的方法有哪些?典型的生成分類數(shù)據(jù)的概念分層的方法有哪些?在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。常見(jiàn)的數(shù)據(jù)歸約策略包括哪些?第四章數(shù)據(jù)挖掘原語(yǔ)、語(yǔ)言和系統(tǒng)結(jié)構(gòu)一、填空題概念分層有四種類型,分別是:、和常用的四種興趣度的客觀度量是:、和(3)同時(shí)滿足和的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。二、單選題以下DMQL片斷:mineassociationsasbuyingHabitsmatchingP(X:customer,W)AQ(X,Y)=buys(X,Z)所指定的挖掘知識(shí)類型是:A、特征化B、區(qū)分C、關(guān)聯(lián)D、分類以下哪種數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成方式將會(huì)使數(shù)

7、據(jù)挖掘系統(tǒng)達(dá)到最好的性能?A、不耦合B、松散耦合C、半緊密耦合D、緊密耦合三、多選題以下哪些OLAP操作是和概念分層緊密相關(guān)的?A、上卷B、切片C、下鉆D、切塊四、簡(jiǎn)答題定義數(shù)據(jù)挖掘任務(wù)的原語(yǔ),主要應(yīng)該包括哪些部分?為什么需要數(shù)據(jù)挖掘原語(yǔ)和語(yǔ)言來(lái)指導(dǎo)數(shù)據(jù)挖掘?描述如下將數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成的結(jié)構(gòu)之間的差別:不耦合、松散耦合、半緊密耦合和緊密耦合。數(shù)據(jù)挖掘的GUI可能包含哪些部分?第五章概念描述:特征化與比較一、填空題概念描述由和組成。一般來(lái)說(shuō),進(jìn)行類比較的過(guò)程應(yīng)該包括以下幾個(gè)步驟:、和從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為兩類:和4)屬性相關(guān)分析的基本思想是計(jì)算某種度量,用于量

8、化屬性與給定類或概念的相關(guān)性。可采用的度量包括:、和(5)數(shù)據(jù)離散度的最常用度量包括:、和二、單選題(1)類比較的過(guò)程中,我們?cè)谀膫€(gè)步驟得到主目標(biāo)類關(guān)系/方體和主對(duì)比類關(guān)系/方體?A、數(shù)據(jù)收集B、維相關(guān)分析C、同步概化D、導(dǎo)出比較的表示(2)哪種圖形顯示方法常用于描述兩個(gè)變量間的依賴模式?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(3)哪種圖形顯示方法常用于確定兩個(gè)量化的變量之間看上去是否有聯(lián)系、模式或者趨勢(shì)?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(4)哪種圖形顯示方法用于顯示所有的數(shù)據(jù),允許用戶評(píng)估總的情況和不尋常情況的出現(xiàn)?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS

9、曲線(5)中心趨勢(shì)度量模(mode)是指A、算術(shù)平均值B、數(shù)據(jù)集中出現(xiàn)頻率最高的值C、最大值D、最小值三、多選題(1)下面哪些是常用的數(shù)據(jù)概化方法?A、離散化B、數(shù)據(jù)立方體(OLAP技術(shù))C、判定歸納樹(shù)D、面向?qū)傩缘臍w納(2)使用數(shù)據(jù)立方體方法進(jìn)行數(shù)據(jù)概化的優(yōu)點(diǎn)包括:A、數(shù)據(jù)概化的一種有效實(shí)現(xiàn)B、可以計(jì)算各種不同的度量值C、受數(shù)據(jù)類型和度量類型的約束比較少D、概化和特征分析通過(guò)一系列的數(shù)據(jù)立方體操作完成,簡(jiǎn)單高效(3)以下哪些是屬于中心趨勢(shì)的度量A、平均值B、標(biāo)準(zhǔn)差C、五數(shù)概括D、中位數(shù)四、簡(jiǎn)答題(1)簡(jiǎn)述類比較的過(guò)程。(2)簡(jiǎn)述面向?qū)傩詺w納的基本思想,并說(shuō)明什么時(shí)候使用屬性刪除,什么時(shí)候使用

10、屬性概化。(3)簡(jiǎn)述概念描述的屬性相關(guān)分析的基本步驟。(4)簡(jiǎn)要敘述概念描述和OLAP之間的主要區(qū)別。(5)為什么進(jìn)行屬性相關(guān)分析?(6)簡(jiǎn)述進(jìn)行概念描述時(shí),面向數(shù)據(jù)庫(kù)的方法和機(jī)器學(xué)習(xí)的主要區(qū)別。(7)什么是概念描述的增量挖掘?第六章大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘一、填空題(1)關(guān)聯(lián)規(guī)則挖掘中,兩個(gè)主要的興趣度度量是:和(2)Aprior算法包括和兩個(gè)基本步驟(3)項(xiàng)集的頻率是扌旨(4)大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘包含兩個(gè)過(guò)程:和(5)根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為:和Apriori性質(zhì)是扌旨:挖掘多維關(guān)聯(lián)規(guī)則的技術(shù)可以根據(jù)量化屬性的處理分為三種基本方法:和對(duì)于頻繁項(xiàng)集挖掘,在挖掘過(guò)程中使

11、用的約束包括以下五種類型:、和在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項(xiàng)集,而是、單選題1)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購(gòu)物籃分析。A1)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購(gòu)物籃分析。A、關(guān)聯(lián)分析B、分類和預(yù)測(cè)支持度(support)是衡量興趣度度量(A、實(shí)用性B、確定性置信度(confidence)是衡量興趣度度量(A、簡(jiǎn)潔性B、確定性C、聚類分析)的旨標(biāo)。C.、簡(jiǎn)潔性)的旨標(biāo)。C.、實(shí)用性D、演變分析D、新穎性D、新穎性)4)根據(jù)關(guān)聯(lián)分析中所處理的值類型,可以將關(guān)聯(lián)規(guī)則分類為:(A、布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則B、單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則C、單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則D、

12、簡(jiǎn)答關(guān)聯(lián)規(guī)則和復(fù)雜關(guān)聯(lián)規(guī)則(5)規(guī)則:age(X,”19-25”)Abuys(X,“popcorn”)=buys(X,“coke”)是一個(gè)A、單維關(guān)聯(lián)規(guī)則B、多維關(guān)聯(lián)規(guī)則C、混合維關(guān)聯(lián)規(guī)則D、不是一個(gè)關(guān)聯(lián)規(guī)則三、多選題根據(jù)關(guān)聯(lián)分析中所涉及的抽象層,可以將關(guān)聯(lián)規(guī)則分類為:()A、布爾關(guān)聯(lián)規(guī)則B、單層關(guān)聯(lián)規(guī)則C、多維關(guān)聯(lián)規(guī)則D、多層關(guān)聯(lián)規(guī)則根據(jù)關(guān)聯(lián)分析中所涉及的數(shù)據(jù)維,可以將關(guān)聯(lián)規(guī)則分類為:()A、布爾關(guān)聯(lián)規(guī)則A、布爾關(guān)聯(lián)規(guī)則B、單維關(guān)聯(lián)規(guī)則(3)Apriori算法所面臨的主要的挑戰(zhàn)包括:A、會(huì)消耗大量的內(nèi)存C、對(duì)候選項(xiàng)集的支持度計(jì)算非常繁瑣C、多維關(guān)聯(lián)規(guī)則D、多層關(guān)聯(lián)規(guī)則B、會(huì)產(chǎn)生大量的候選項(xiàng)集

13、D、要對(duì)數(shù)據(jù)進(jìn)行多次掃描四、簡(jiǎn)答題對(duì)于具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘,分別都有哪些搜索策略?各有什么特點(diǎn)?給出一個(gè)例子,表明強(qiáng)關(guān)聯(lián)規(guī)則中的項(xiàng)可能實(shí)際上是負(fù)相關(guān)的。簡(jiǎn)述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點(diǎn)。什么是簡(jiǎn)潔性約束?第6章分類和預(yù)測(cè)一、填空題通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測(cè)過(guò)程的、和防止分類中的過(guò)分適應(yīng)的兩種方法分別是:和二、單選題下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法?()A、判定樹(shù)歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理2)下面哪種分類方法是屬于統(tǒng)計(jì)學(xué)的分類方法?()A、判定樹(shù)歸納BA、判定樹(shù)歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推

14、理3)下列哪個(gè)描述是正確的?(3)下列哪個(gè)描述是正確的?(A、分類和聚類都是有指導(dǎo)的學(xué)習(xí)B、分類和聚類都是無(wú)指導(dǎo)的學(xué)習(xí)C、分類是有指導(dǎo)的學(xué)習(xí),聚類是無(wú)指導(dǎo)的學(xué)習(xí)D、分類是無(wú)指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)三、簡(jiǎn)答題(1)簡(jiǎn)述判定樹(shù)分類的主要步驟。(2)在判定樹(shù)歸納中,為什么樹(shù)剪枝是有用的?(3)為什么樸素貝葉斯分類稱為“樸素”的?簡(jiǎn)述樸素貝葉斯分類的主要思想(4)請(qǐng)簡(jiǎn)述判定樹(shù)歸納算法的基本策略。(5)對(duì)分類和預(yù)測(cè)方法進(jìn)行比較和評(píng)估的標(biāo)準(zhǔn)都有哪些?(6)簡(jiǎn)述數(shù)據(jù)分類的兩步過(guò)程。(7)簡(jiǎn)述后向傳播分類的優(yōu)缺點(diǎn)。四、算法題(1)使用判定樹(shù)歸納算法,根據(jù)顧客年齡age(分為3個(gè)年齡段:23),收入inc

15、ome(取值為high,medium,low),是否為student(取值為yes和no),信用credit_rating等級(jí)(取值為fair和excellent)來(lái)判定用戶是否會(huì)購(gòu)買(mǎi)PCGame,即構(gòu)建判定樹(shù)buys_PCGame,假設(shè)現(xiàn)有的數(shù)據(jù)經(jīng)過(guò)第一次劃分之后得到如下圖所示結(jié)果,并根據(jù)該結(jié)果對(duì)每一個(gè)劃分中的各個(gè)屬性計(jì)算信息增益對(duì)age23的顧客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155請(qǐng)根據(jù)以上結(jié)果繪制出判定樹(shù)buys_PCGame,來(lái)判定用戶是否會(huì)購(gòu)買(mǎi)PCGame。ageageincomestude

16、ntincomestudentcreditratingclasshighnofairnomediumyesfairnohighnofairnomediumyesexcellentyeslownoexcellentyesIncomestudentcreditratingclasshighnofairnohighyesexcellentyesmediumyesfairyeslowyesfairyeslownoexcellentnoincomestudentcreditratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexce

17、llentyes第7章聚類分析一、填空題在數(shù)據(jù)挖掘中,常用的聚類算法包括:、基于網(wǎng)格的方法和基于模型的方法。聚類分析常作為一個(gè)獨(dú)立的工具來(lái)獲得一個(gè)好的聚類分析方法會(huì)產(chǎn)生高質(zhì)量的聚類,具有兩個(gè)特征:和許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是和基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是:孤立點(diǎn)產(chǎn)生的主要原因包括:和在基于統(tǒng)計(jì)的孤立點(diǎn)檢測(cè)中,常用于不一致性檢驗(yàn)的參數(shù)包括:、和二、單選題下面那種數(shù)據(jù)挖掘方法可以用來(lái)檢測(cè)孤立點(diǎn)?A.概念描述B.分類和預(yù)測(cè)C.聚類分析D.演變分析以下哪個(gè)指標(biāo)不是表示對(duì)象間的相似度和相異度A、Euclidean距離B、Manhattan距離C、Eula距離D、Minkowski距離以下

18、哪種聚類方法可以發(fā)現(xiàn)任意形狀的聚類?A、劃分的方法B、基于模型的方法C、基于密度的方法D、層次的方法三、簡(jiǎn)答題數(shù)據(jù)挖掘?qū)垲惙治鲇心男┮???jiǎn)述基于劃分的聚類方法。劃分的準(zhǔn)則是什么?列舉孤立點(diǎn)挖掘的常見(jiàn)應(yīng)用。簡(jiǎn)單地描述如何計(jì)算由如下類型的變量描述的對(duì)象間的相異度:不對(duì)稱的二元變量標(biāo)稱變量比例標(biāo)度型(ratio-scaled)變量數(shù)值型的變量給出一個(gè)特定的聚類方法如何被綜合使用的例子,例如,什么情況下一個(gè)聚類算法被用作另一個(gè)算法的預(yù)處理步驟。第九章電子商務(wù)與數(shù)據(jù)挖掘一、填空題Web數(shù)據(jù)挖掘通常包括、和三種形式。進(jìn)行WebUsageMining主要是通過(guò)對(duì)系統(tǒng)日志信息的數(shù)據(jù)挖掘,常用的數(shù)據(jù)源包括:

19、、和。二、簡(jiǎn)答題列舉WEB日志的字段。2)跟其他應(yīng)用領(lǐng)域相比,在電子商務(wù)中進(jìn)行數(shù)據(jù)挖掘有哪些優(yōu)勢(shì)?(3)列舉WEB使用挖掘(WebUsageMining)的應(yīng)用。(4)基于Web日志的用戶訪問(wèn)模式挖掘有什么缺點(diǎn)?5)電子商務(wù)中進(jìn)行數(shù)據(jù)挖掘有哪些難點(diǎn)?作業(yè)答案第一章引言一、填空題(1)數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)挖掘,模式評(píng)估,知識(shí)表示(2)算法的效率、可擴(kuò)展性和并行處理(3)統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)(4)WEB挖掘(5)一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)二、單選題(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;三、簡(jiǎn)答題(1)什么是數(shù)

20、據(jù)挖掘?答:數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)。(2)一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?答:一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括以下部分:數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器知識(shí)庫(kù)數(shù)據(jù)挖掘引擎模式評(píng)估模塊圖形用戶界面(3)請(qǐng)簡(jiǎn)述不同歷史時(shí)代數(shù)據(jù)庫(kù)技術(shù)的演化。答:1960年代和以前:研究文件系統(tǒng)。1970年代:出現(xiàn)層次數(shù)據(jù)庫(kù)和網(wǎng)狀數(shù)據(jù)庫(kù)。1980年代早期:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的實(shí)現(xiàn)1980年代后期:出現(xiàn)各種高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)(如:擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)等等)以及面向應(yīng)用的數(shù)據(jù)庫(kù)系統(tǒng)

21、(空間數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)等等。1990年代:研究的重點(diǎn)轉(zhuǎn)移到數(shù)據(jù)挖掘,數(shù)據(jù)倉(cāng)庫(kù),多媒體數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。2000年代:人們專注于研究流數(shù)據(jù)管理和挖掘、基于各種應(yīng)用的數(shù)據(jù)挖掘、XML數(shù)據(jù)庫(kù)和整合的信息系統(tǒng)。(4)請(qǐng)列舉數(shù)據(jù)挖掘應(yīng)用常見(jiàn)的數(shù)據(jù)源。(或者說(shuō),我們都在什么樣的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘)答:常見(jiàn)的數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)和高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)。其中高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)包括:空間數(shù)據(jù)庫(kù)、時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)、流數(shù)據(jù)、多媒體數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)、異種數(shù)據(jù)庫(kù)和遺產(chǎn)(legacy)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW)等。(5)什么是模式興

22、趣度的客觀度量和主觀度量?答:客觀度量指的是基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì)來(lái)衡量模式的興趣度,比如:支持度、置信度等等;主觀度量基于用戶對(duì)數(shù)據(jù)的判斷來(lái)衡量模式的興趣度,比如:出乎意料的、新穎的、可行動(dòng)的等等。(6)在哪些情況下,我們認(rèn)為所挖掘出來(lái)的模式是有趣的?答:一個(gè)模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)。(7)根據(jù)挖掘的知識(shí)類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)分為哪些類別?答:根據(jù)挖掘的知識(shí)類型,數(shù)據(jù)挖掘系統(tǒng)可以分為特征分析,區(qū)分,關(guān)聯(lián)分析,分類聚類,孤立點(diǎn)分析/演變分析,偏差分析

23、,多種方法的集成和多層級(jí)挖掘等類型。第二章數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)一、填空題星形模式、雪花模式和事實(shí)星座模式不物化、部分物化和全物化面向主題、數(shù)據(jù)集成、隨時(shí)間而變化和數(shù)據(jù)不易丟失事務(wù)操作,只讀查詢分布的、代數(shù)的和整體的自頂向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉(cāng)庫(kù)視圖、商務(wù)查詢視圖關(guān)系OLAP服務(wù)器(ROLAP)、多維OLAP服務(wù)器(MOLAP)和混合OLAP服務(wù)器(HOLAP)分布的海量數(shù)據(jù),有限的內(nèi)存和時(shí)間二、單選題(1)B;(2)D;(3)C;(4)A;(5)B三、多選題(1)ABD;(2)ABC;(3)BCD;(4)ACD;四、簡(jiǎn)答題為什么在進(jìn)行聯(lián)機(jī)分析處理(OLAP)時(shí),我們需要一個(gè)獨(dú)立

24、的數(shù)據(jù)倉(cāng)庫(kù),而不是直接在日常操作的數(shù)據(jù)庫(kù)上進(jìn)行。答:使用一個(gè)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行OLAP處理是為了以下目的:提高兩個(gè)系統(tǒng)的性能操作數(shù)據(jù)庫(kù)是為OLTP而設(shè)計(jì)的,沒(méi)有為OLAP操作優(yōu)化,同時(shí)在操作數(shù)據(jù)庫(kù)上處理OLAP查詢,會(huì)大大降低操作任務(wù)的性能;而數(shù)據(jù)倉(cāng)庫(kù)是為OLAP而設(shè)計(jì),為復(fù)雜的OLAP查詢,多維視圖,匯總等OLAP功能提供了優(yōu)化。兩者有著不同的功能操作數(shù)據(jù)庫(kù)支持多事務(wù)的并行處理,而數(shù)據(jù)倉(cāng)庫(kù)往往只是對(duì)數(shù)據(jù)記錄進(jìn)行只讀訪問(wèn);這時(shí)如果將事務(wù)處理的并行機(jī)制和恢復(fù)機(jī)制用于這種OLAP操作,就會(huì)顯著降低OLAP的性能。兩者有著不同的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中存放歷史數(shù)據(jù);日常操作數(shù)據(jù)庫(kù)中存放的往往只是最新的數(shù)據(jù)。為

25、什么說(shuō)數(shù)據(jù)倉(cāng)庫(kù)具有隨時(shí)間而變化的特征?答:(1)數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng)主要保存當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)從歷史的角度提供信息(比如過(guò)去5-10年)。數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法(update-driven),而不愿使用查詢驅(qū)動(dòng)(query-driven)的方法?答:因?yàn)閷?duì)于多個(gè)異種信息源的集成,查詢驅(qū)動(dòng)方法需要復(fù)雜的信息過(guò)濾和集成處理,并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源,是一種低效的方法,并且對(duì)于頻繁的查詢,特別是需要聚集操作的查

26、詢,開(kāi)銷很大。而更新驅(qū)動(dòng)方法為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了高性能,因?yàn)閿?shù)據(jù)被處理和重新組織到一個(gè)語(yǔ)義一致的數(shù)據(jù)存儲(chǔ)中,進(jìn)行查詢的同時(shí)并不影響局部數(shù)據(jù)源上進(jìn)行的處理。此外,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)并集成歷史信息,支持復(fù)雜的多維查詢。請(qǐng)簡(jiǎn)述幾種典型的多維數(shù)據(jù)的0LAP操作答:典型的OLAP操作包括以下幾種上卷:通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維歸約,在數(shù)據(jù)立方體上進(jìn)行聚集;下鉆:上卷的逆操作,由不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù);通??梢酝ㄟ^(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn);切片:在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方;切塊:通過(guò)對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,定義子方;轉(zhuǎn)軸:轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的

27、替代表示;鉆過(guò):執(zhí)行涉及多個(gè)事實(shí)表的查詢;鉆透:使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表(5)為什么說(shuō)相對(duì)于日常的應(yīng)用數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)更加不容易丟失?答:(1)盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于操作數(shù)據(jù)庫(kù),但它們卻是在物理上分離保存的,操作數(shù)據(jù)庫(kù)的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下。(2)數(shù)據(jù)倉(cāng)庫(kù)不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制。(3)數(shù)據(jù)倉(cāng)庫(kù)只需要兩種數(shù)據(jù)訪問(wèn):數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(wèn)(讀操作)。(6)假定Big_University的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維:student,course,semester和instructor;2個(gè)度量:count和avg_grade。在最

28、低得到概念層(例如,對(duì)于給定的學(xué)生、課程、學(xué)期和教師的組合),度量avg_grade存放學(xué)生的實(shí)際成績(jī)。在較高的概念層,avg_grade存放給定組合的平均成績(jī)。(a)為數(shù)據(jù)倉(cāng)庫(kù)畫(huà)出雪花模式圖。(b)由基本方體student,course,semester,instructor開(kāi)始,為列出Big_University每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些OLAP操作(如,由學(xué)期上卷到學(xué)年)。(c)如果每維有5層(包括all),如studentmajorstatusuniversityall,該數(shù)據(jù)方包含多少方體(包含基本方體和頂點(diǎn)方體)?(7)在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)的主要用途包括哪些?答:在

29、數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)的主要用途包括:(1)用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定義(2)作為數(shù)據(jù)倉(cāng)庫(kù)和操作性數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí)的映射標(biāo)準(zhǔn)(3)用于指導(dǎo)當(dāng)前細(xì)節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導(dǎo)稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。(8)數(shù)據(jù)倉(cāng)庫(kù)后端工具和程序包括哪些?答:數(shù)據(jù)倉(cāng)庫(kù)后端工具主要指的是用來(lái)裝入和刷新數(shù)據(jù)的工具,包括:(1)數(shù)據(jù)提取:從多個(gè)外部的異構(gòu)數(shù)據(jù)源收集數(shù)據(jù)(2)數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)種的錯(cuò)誤并作可能的訂正(3)數(shù)據(jù)變換:將數(shù)據(jù)由歷史或主機(jī)的格式轉(zhuǎn)化為數(shù)據(jù)倉(cāng)庫(kù)的格式(4)裝載:排序、匯總、合并、計(jì)算視圖,檢查完整性,并建立索引和分區(qū)(5)刷新:將數(shù)據(jù)源

30、的更新傳播到數(shù)據(jù)倉(cāng)庫(kù)中五、計(jì)算題(1)答:a.內(nèi)存空間需求量最小的塊計(jì)算次序和內(nèi)存空間需求量最大的塊計(jì)算次序分別如下圖所示:allallABCABACBCABC內(nèi)存空間需求最小的塊計(jì)算次序ABC內(nèi)存空間需求最大的塊計(jì)算次序allallABCABACBCABC內(nèi)存空間需求最小的塊計(jì)算次序ABC內(nèi)存空間需求最大的塊計(jì)算次序b.這兩個(gè)次序下計(jì)算二維平面所需要的內(nèi)存空間的大?。簝?nèi)存空間需求最小的次序:10,000X1,000(用于整個(gè)BC平面)+(100,000/10)X1,000(用于AC平面的一行)+(100,000/10)X(10,000/10)(用于AB平面的一格)=30,000,000內(nèi)存空

31、間需求量最大的塊計(jì)算次序:100,000X10,000(用于整個(gè)AB平面)+100,000X(1,000/10)(用于AC平面的一行)+(10,000/10)X(1,000/10)=1,010,100,000第三章數(shù)據(jù)預(yù)處理一、填空題(1)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約(2)分箱、聚類、計(jì)算機(jī)和人工檢查結(jié)合、回歸(3)整合不同數(shù)據(jù)源中的元數(shù)據(jù),實(shí)體識(shí)別問(wèn)題(4)沿概念分層向上概化(5)有損壓縮,無(wú)損壓縮(6)線性回歸方法,多元回歸,對(duì)數(shù)線性模型(7)五數(shù)概括、中間四分位數(shù)區(qū)間、標(biāo)準(zhǔn)差二、單選題(1)C;(2)A;(3)D;(4)C;(5)C;(6)B三、多選題(1)ABC;(2)BD;

32、(3)ABC;(4)BD;(5)ACD四、簡(jiǎn)答題(1)常用的數(shù)值屬性概念分層的方法有哪些?答:常用的數(shù)值屬性概念分層的方法有分箱、直方圖分析、聚類分析、基于熵的離散化和通過(guò)自然劃分分段。(2)典型的生成分類數(shù)據(jù)的概念分層的方法有哪些?答:典型的生成分類數(shù)據(jù)的概念分層的方法包括:(1)由用戶或?qū)<以谀J郊?jí)顯示的說(shuō)明屬性的部分序;(2)通過(guò)顯示數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分。(3)說(shuō)明屬性集,但不說(shuō)明它們的偏序,然后系統(tǒng)根據(jù)算法自動(dòng)產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。(4)對(duì)只說(shuō)明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫(kù)模式中的數(shù)據(jù)語(yǔ)義定義對(duì)屬性的捆綁信息,來(lái)恢復(fù)相關(guān)的屬性。(3)在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在

33、某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。答:處理空缺值的方法有:(1)忽略元組。當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)設(shè)計(jì)分類或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的效果非常差。(2)人工填寫(xiě)空缺值。這種方法工作量大,可行性低(3)使用一個(gè)全局變量填充空缺值:比如使用unknown或(4)使用屬性的平均值填充空缺值(5)使用與給定元組屬同一類的所有樣本的平均值(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定樹(shù)這樣的基于推斷的方法(4)常見(jiàn)的數(shù)據(jù)歸約策略包括哪些?答:數(shù)據(jù)歸約策略包括:1)數(shù)據(jù)立方體聚集2)維歸約3)數(shù)據(jù)壓縮4)數(shù)值歸約5)離散化和概念分層

34、產(chǎn)生第四章數(shù)據(jù)挖掘原語(yǔ)、語(yǔ)言和系統(tǒng)結(jié)構(gòu)一、填空題(1)模式分層,集合分組分層,操作導(dǎo)出的分層,基于規(guī)則的分層(2)簡(jiǎn)單性、確定性、實(shí)用性、新穎性(3)最小置信度臨界值、最小支持度臨界值二、單選題(1)C;(2)D三、多選題(1)AC四、簡(jiǎn)答題(1)定義數(shù)據(jù)挖掘任務(wù)的原語(yǔ),主要應(yīng)該包括哪些部分?答:一個(gè)定義數(shù)據(jù)挖掘任務(wù)的原語(yǔ)主要應(yīng)該包括以下部分的說(shuō)明:說(shuō)明數(shù)據(jù)庫(kù)的部分或用戶感興趣的數(shù)據(jù)集;要挖掘的知識(shí)類型;用于指導(dǎo)挖掘的背景知識(shí);模式評(píng)估、興趣度量;如何顯示發(fā)現(xiàn)的知識(shí)。(2)為什么需要數(shù)據(jù)挖掘原語(yǔ)和語(yǔ)言來(lái)指導(dǎo)數(shù)據(jù)挖掘?答:如果不使用數(shù)據(jù)挖掘原語(yǔ)和語(yǔ)言來(lái)指導(dǎo)數(shù)據(jù)挖掘(1)會(huì)產(chǎn)生大量模式(重新把知識(shí)

35、淹沒(méi))(2)會(huì)涵蓋所有數(shù)據(jù),使得挖掘效率低下(3)大部分有價(jià)值的模式集可能被忽略(4)挖掘出的模式可能難以理解,缺乏有效性、新穎性和實(shí)用性令人不感興趣。(3)描述如下將數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成的結(jié)構(gòu)之間的差別:不耦合、松散耦合、半緊密耦合和緊密耦合。答:不耦合:DM系統(tǒng)不利用DB/DW系統(tǒng)的任何功能。這種集成結(jié)構(gòu)簡(jiǎn)單,但是沒(méi)有利用數(shù)據(jù)庫(kù)的功能意味著信息分析處理借助第三方工具,這使得系統(tǒng)的構(gòu)建和集成變得很困難。松散耦合:DM系統(tǒng)將使用DB/DW系統(tǒng)的某些功能。這種集成結(jié)構(gòu)簡(jiǎn)單地利用DB/DW提供的數(shù)據(jù)查詢功能,沒(méi)有使用DB/DW的后臺(tái)優(yōu)化,算法大部分是基于內(nèi)存的,性能和可擴(kuò)展性差。

36、半緊密耦合:除了將DM系統(tǒng)連接到一個(gè)DB/DW系統(tǒng)之外,一些基本數(shù)據(jù)挖掘原語(yǔ)(通過(guò)分析頻繁遇到的數(shù)據(jù)挖掘功能確定)可以在DB/DW系統(tǒng)中實(shí)現(xiàn)。如此一來(lái),一些中間的挖掘結(jié)果可以在DB/DW上實(shí)現(xiàn)計(jì)算或有效的即時(shí)計(jì)算,性能會(huì)有較大提高。緊密耦合:DM系統(tǒng)平滑的集成到DB/DW系統(tǒng)中。數(shù)據(jù)挖掘子系統(tǒng)被視為信息挖掘子系統(tǒng)的一部分,數(shù)據(jù)挖掘查詢和功能根據(jù)DB或DW系統(tǒng)的挖掘查詢分析、數(shù)據(jù)結(jié)構(gòu)、索引模式和查詢處理方法優(yōu)化。這種結(jié)構(gòu)提供了一個(gè)統(tǒng)一的信息處理平臺(tái),功能、性能等方面都會(huì)達(dá)到一個(gè)高水平。數(shù)據(jù)挖掘的GUI可能包含哪些部分?答:數(shù)據(jù)挖掘的GUI可能包含以下部分:數(shù)據(jù)收集和數(shù)據(jù)查詢編輯發(fā)現(xiàn)模式的表示分層

37、結(jié)構(gòu)說(shuō)明和操縱數(shù)據(jù)挖掘原語(yǔ)的操作交互的多層挖掘其他各種信息第五章概念描述:特征化與比較一、填空題特征化、區(qū)分?jǐn)?shù)據(jù)收集、維相關(guān)分析、同步概化、導(dǎo)出比較的表示描述性挖掘和預(yù)測(cè)性挖掘信息增益、Gini索引、不確定性和相關(guān)系數(shù)五數(shù)概括、中間四分位數(shù)區(qū)間、標(biāo)準(zhǔn)差二、單選題(1)C;(2)D;(3)C;(4)B;(5)B三、多選題(1)BD;(2)ABD;(3)AD四、簡(jiǎn)答題簡(jiǎn)述類比較的過(guò)程。答:類比較的過(guò)程一般包括以下四個(gè)步驟:數(shù)據(jù)收集通過(guò)查詢處理收集數(shù)據(jù)庫(kù)中相關(guān)的數(shù)據(jù),并將其劃分為一個(gè)目標(biāo)類和一個(gè)或多個(gè)對(duì)比類;維相關(guān)分析使用屬性相關(guān)分析方法,使我們的任務(wù)中僅包含強(qiáng)相關(guān)的維;同步概化同步的在目標(biāo)類和對(duì)比

38、類上進(jìn)行概化,得到主目標(biāo)類關(guān)系/方體和主對(duì)比類關(guān)系/方體;導(dǎo)出比較的表示用可視化技術(shù)表達(dá)類比較描述,通常會(huì)包含“對(duì)比”度量,反映目標(biāo)類與對(duì)比類間的比較。簡(jiǎn)述面向?qū)傩詺w納的基本思想,并說(shuō)明什么時(shí)候使用屬性刪除,什么時(shí)候使用屬性概化。答:面向?qū)傩詺w納的基本思想是:首先使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化(通過(guò)屬性刪除或者屬性概化)。聚集通過(guò)合并相等的廣義元組,并累計(jì)他們相應(yīng)的技術(shù)值進(jìn)行。這壓縮了概化后的數(shù)據(jù)集合。結(jié)果廣義關(guān)系可以映射到不同形式,如圖表或規(guī)則,提供用戶。使用屬性刪除的情況:如果初始工作關(guān)系的一個(gè)屬性上有大量的不同值,但是(1

39、)在此屬性上沒(méi)有概化操作符,或(2)它的較高層概念用其他屬性表示;使用屬性概化的情況:如果初始工作關(guān)系的一個(gè)屬性上有大量的不同值,并且該屬性上存在著概化操作符。簡(jiǎn)述概念描述的屬性相關(guān)分析的基本步驟。答:(1)數(shù)據(jù)收集:通過(guò)查詢處理,收集目標(biāo)類和對(duì)比類的數(shù)據(jù);使用保守的AOI進(jìn)行預(yù)相關(guān)分析:這一步識(shí)別屬性和維的集合,選擇的相關(guān)性度量用于他們;使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性:使用選定的相關(guān)分析度量,評(píng)估候選關(guān)系中的每個(gè)屬性;使用AOI產(chǎn)生概念描述:使用一組不太保守的屬性概化臨界值進(jìn)行AOI。簡(jiǎn)要敘述概念描述和OLAP之間的主要區(qū)別。答:兩者的主要區(qū)別有:概念描述可以處理復(fù)雜數(shù)據(jù)類型的

40、屬性及其聚集,而實(shí)際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡(jiǎn)單的數(shù)據(jù)分析模型。OLAP是一個(gè)由用戶控制的過(guò)程,而概念描述是一個(gè)更加自動(dòng)化的過(guò)程。為什么進(jìn)行屬性相關(guān)分析?答:數(shù)據(jù)倉(cāng)庫(kù)和OLAP系統(tǒng)中的多維數(shù)據(jù)分析缺乏一個(gè)自動(dòng)概化過(guò)程,這使得這個(gè)過(guò)程中需要有很多用戶干預(yù)。用戶必須告訴系統(tǒng)哪些維或?qū)傩詰?yīng)當(dāng)包含在類分析中。如果選擇的屬性太少,則造成挖掘的描述結(jié)果不正確;屬性太多,浪費(fèi)計(jì)算、淹沒(méi)知識(shí)。通過(guò)屬性相關(guān)分析,可以更容易地發(fā)現(xiàn)屬性之間的相關(guān)性,濾掉統(tǒng)計(jì)上不相關(guān)或弱相關(guān)的屬性,保留對(duì)手頭數(shù)據(jù)挖掘任務(wù)最相關(guān)的屬性。簡(jiǎn)述進(jìn)行概念描述時(shí),面向數(shù)據(jù)庫(kù)的

41、方法和機(jī)器學(xué)習(xí)的主要區(qū)別。答:面向數(shù)據(jù)庫(kù)的方法指的是面向大型數(shù)據(jù)庫(kù)的概念描述的概化方法,使用基于數(shù)據(jù)立方體的方法或面向?qū)傩缘臍w納的方法。機(jī)器學(xué)習(xí)使用示例學(xué)習(xí)的范例,在概念集或標(biāo)定訓(xùn)練樣本集上進(jìn)行,通過(guò)檢驗(yàn)這些集合在學(xué)習(xí)中導(dǎo)出關(guān)于描述類的假定。什么是概念描述的增量挖掘?答:增量挖掘根據(jù)數(shù)據(jù)庫(kù)中新增的數(shù)據(jù)DB來(lái)修正挖掘的結(jié)果,而不是重新從修正過(guò)的數(shù)據(jù)庫(kù)中進(jìn)行挖掘而得到結(jié)果。第六章大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘一、填空題支持度和置信度連接和剪枝包含項(xiàng)集的事務(wù)數(shù)找出所有頻繁項(xiàng)集、由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則布爾關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的所有非空子集也必須是頻繁的量化屬性的靜態(tài)離散化、量化關(guān)聯(lián)規(guī)則、基于距

42、離的關(guān)聯(lián)規(guī)則反單調(diào)的、單調(diào)的、簡(jiǎn)潔的、可轉(zhuǎn)變的、不可轉(zhuǎn)變的頻繁謂詞集二、單選題(1)A;(2)A;(3)B;(4);(5)C三、多選題1)BD;(2)BC;(3)ABD四、簡(jiǎn)答題(1)對(duì)于具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘,分別都有哪些搜索策略?各有什么特點(diǎn)?答:具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘中使用的搜索策略包括:逐層獨(dú)立:完全的寬度搜索,沒(méi)有頻繁項(xiàng)集的背景知識(shí)用于剪枝??疾烀恳粋€(gè)節(jié)點(diǎn),不管其父節(jié)點(diǎn)是否頻繁。特點(diǎn)是條件很松,可能導(dǎo)致在低層考察大量非頻繁的項(xiàng),找出一些不重要的關(guān)聯(lián);層交叉k-項(xiàng)集過(guò)濾:一個(gè)第i層的k-項(xiàng)集被考察,當(dāng)且僅當(dāng)它在第(i-1)層的對(duì)應(yīng)父節(jié)點(diǎn)的k-項(xiàng)集是頻繁的。特點(diǎn)是限制

43、太強(qiáng),有些有價(jià)值的模式可能被該方法過(guò)濾掉;層交叉單項(xiàng)過(guò)濾:一個(gè)第i層的項(xiàng)被考察,當(dāng)且僅當(dāng)它在第(i-1)層的父節(jié)點(diǎn)是頻繁的。它是上述兩個(gè)極端策略的折中。(2)給出一個(gè)例子,表明強(qiáng)關(guān)聯(lián)規(guī)則中的項(xiàng)可能實(shí)際上是負(fù)相關(guān)的。答:例如教材數(shù)據(jù)挖掘:概念與技術(shù)中例6.6和表6.4。(3)簡(jiǎn)述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點(diǎn)。答:對(duì)所有層都使用一致的最小支持度,優(yōu)點(diǎn)在于:搜索時(shí)容易采用優(yōu)化策略,即一個(gè)項(xiàng)如果不滿足最小支持度,它的所有子項(xiàng)都可以不用搜索;缺點(diǎn)在于:最小支持度值設(shè)置困難,如果設(shè)置太高,將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則,如果設(shè)置太低,會(huì)在較高層產(chǎn)生太多的無(wú)興趣的規(guī)則。

44、(4)什么是簡(jiǎn)潔性約束?答:一個(gè)約束被稱為簡(jiǎn)潔的,如果我們可以列出并僅僅列出所有確保滿足該約束的集合。利用簡(jiǎn)潔性約束,我們可以在計(jì)數(shù)前進(jìn)行剪枝,從而避免產(chǎn)生測(cè)試方式的過(guò)大開(kāi)銷。第七章分類和預(yù)測(cè)一、填空題(1)準(zhǔn)確性、有效性和可伸縮性(2)先剪枝、后剪枝二、單選題(1)C;(2)B;(3)C三、簡(jiǎn)答題(1)簡(jiǎn)述判定樹(shù)分類的主要步驟。答:首先是生成判定樹(shù)。分為2個(gè)步驟:(1)歸納生成判定樹(shù)。開(kāi)始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn),然后遞歸的通過(guò)選定的離散值屬性,來(lái)劃分樣本,直至滿足停止條件。(2)樹(shù)剪枝。許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹(shù)剪枝試圖檢測(cè)和剪去這種分枝接下來(lái)在判定樹(shù)的使用中,對(duì)于某

45、一未知樣本,通過(guò)將樣本的屬性值與判定樹(shù)相比較來(lái)判斷其類別歸屬。(2)在判定樹(shù)歸納中,為什么樹(shù)剪枝是有用的?答:當(dāng)判定樹(shù)創(chuàng)建時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常。剪枝方法處理這種過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題。通常,這種方法使用統(tǒng)計(jì)度量,剪去最不可靠的分枝,這將導(dǎo)致較快的分類,提高樹(shù)獨(dú)立于測(cè)試數(shù)據(jù)正確分類的可靠性。(3)為什么樸素貝葉斯分類稱為“樸素”的?簡(jiǎn)述樸素貝葉斯分類的主要思想。答:樸素貝葉斯分類被稱為“樸素”的原因是計(jì)算元組的類條件出現(xiàn)概率時(shí),做了類條件獨(dú)立的樸素假定。貝葉斯分類的主要思想?yún)⒖冀滩臄?shù)據(jù)挖掘:概念與技術(shù)7.4.2小節(jié)。(4)請(qǐng)簡(jiǎn)述判定樹(shù)歸納算法的基本策略。答:

46、樹(shù)以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開(kāi)始如果樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹(shù)葉,并用該類標(biāo)記否則,算法使用基于熵的度量信息增益作為指導(dǎo)信息,選擇能夠最好的將樣本分類的屬性;該屬性成為節(jié)點(diǎn)的“測(cè)試”或“判定”屬性。(使用分類屬性)對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分樣本算法使用同樣的過(guò)程,遞歸的形成每個(gè)劃分上的樣本判定樹(shù)。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何子節(jié)點(diǎn)上出現(xiàn)遞歸劃分步驟停止的條件有:(1)給定節(jié)點(diǎn)的所有樣本屬于同一類(2)沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本使用多數(shù)表決(3)沒(méi)有剩余的樣本(5)對(duì)分類和預(yù)測(cè)方法進(jìn)行比較和評(píng)估的標(biāo)準(zhǔn)都有哪些?答:(1)導(dǎo)出分類法后,再使用訓(xùn)

47、練數(shù)據(jù)評(píng)估分類法,這種方法可能錯(cuò)誤的導(dǎo)致樂(lè)觀的估計(jì)。(2)保持方法:給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集(2/3)和測(cè)試集(1/3)。訓(xùn)練集導(dǎo)出分類法,測(cè)試集對(duì)其準(zhǔn)確性進(jìn)行評(píng)估。隨機(jī)子選樣是保持方法的一個(gè)變形,將保持方法重復(fù)k次,然后取準(zhǔn)確率的平均值。(3)k-折交叉確認(rèn):初始數(shù)據(jù)被劃分為k個(gè)不相交的,大小大致相同的子集S1,S2Sk。進(jìn)行k次訓(xùn)練和測(cè)試,第i次時(shí),以Si做測(cè)試集,其他做訓(xùn)練集。準(zhǔn)確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)。(6)簡(jiǎn)述數(shù)據(jù)分類的兩步過(guò)程。答:第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集。訓(xùn)練數(shù)據(jù)集由為建立模型而被分析的數(shù)據(jù)元組形成,其中每個(gè)元組屬于一個(gè)預(yù)定義

48、的類,由一個(gè)類標(biāo)號(hào)屬性確定。學(xué)習(xí)模型可以用分類規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供。第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類。模型在使用之前,要先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率。對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較。模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比。測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況。(7)簡(jiǎn)述后向傳播分類的優(yōu)缺點(diǎn)。答:優(yōu)點(diǎn)(1)預(yù)測(cè)精度總的來(lái)說(shuō)較高(2)健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作(3)輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值(4)對(duì)目標(biāo)進(jìn)行分類較快缺點(diǎn)(1)訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng)(2)蘊(yùn)涵在學(xué)習(xí)的權(quán)中的

49、符號(hào)含義很難理解(3)很難跟專業(yè)領(lǐng)域知識(shí)相整合四、算法題判定樹(shù)buys_PCGame如下所示:18credit_ratingexcellentfairage?18.23yesyesstudent?noyesnono第八章聚類分析18credit_ratingexcellentfairage?18.23yesyesstudent?noyesnono一、填空題(1)劃分方法、層次的方法、基于密度的方法(2)數(shù)據(jù)分布的情況(3)高類內(nèi)相似度、低類間相似度(4)數(shù)據(jù)矩陣、相異度矩陣(5)處理數(shù)度快(6)度量或執(zhí)行錯(cuò)誤、數(shù)據(jù)變異的結(jié)果(7)數(shù)據(jù)分布、分布參數(shù)、預(yù)期的孤立點(diǎn)數(shù)、單選題1)C;(2)C;(3

50、)C三、簡(jiǎn)答題(1)數(shù)據(jù)挖掘?qū)垲惙治鲇心男┮??答:?)可擴(kuò)展性:大多數(shù)來(lái)自于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域的聚類算法只在處理數(shù)百條數(shù)據(jù)時(shí)能表現(xiàn)出高效率(2)能夠處理不同的數(shù)據(jù)類型(3)發(fā)現(xiàn)任意形狀聚類的能力(4)最小化用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)(5)能夠處理噪聲數(shù)據(jù)(6)對(duì)于輸入數(shù)據(jù)的順序不敏感:同一個(gè)數(shù)據(jù)集合,以不同的次序提交給同一個(gè)算法,應(yīng)該產(chǎn)生相似的結(jié)果(7)能夠高效地處理高維數(shù)據(jù)(8)支持基于約束的聚類(9)可解釋性和可用性:聚類要和特定的語(yǔ)義解釋和應(yīng)用相聯(lián)系(2)簡(jiǎn)述基于劃分的聚類方法。劃分的準(zhǔn)則是什么?答:給定一個(gè)n個(gè)對(duì)象或元組的數(shù)據(jù)庫(kù),一個(gè)劃分方法構(gòu)建數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分表示一個(gè)簇,并且k=n。每個(gè)簇至少包含一個(gè)對(duì)象,每個(gè)對(duì)象或元組屬于且僅屬于一個(gè)簇。劃分的準(zhǔn)則是同一個(gè)聚類中的對(duì)象盡可能地接近或相關(guān),不同聚類中的對(duì)象盡可能地遠(yuǎn)離或不同。(3)列舉孤立點(diǎn)挖掘的常見(jiàn)應(yīng)用。答:孤立點(diǎn)挖掘的常見(jiàn)應(yīng)用有(1)信用卡欺詐檢測(cè)(2)移動(dòng)電話欺詐檢測(cè)(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論