數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問(wèn)題:(a)它是又一個(gè)騙局嗎?(b)它是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)換嗎?(c)解釋數(shù)據(jù)庫(kù)技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘(d)當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過(guò)程時(shí),描述數(shù)據(jù)挖掘所涉及的步驟。給出一個(gè)例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢(xún)處理或簡(jiǎn)單的統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn)嗎?假定你是Big-University的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括如下信息:每個(gè)學(xué)生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學(xué)分

2、平均)。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個(gè)成分的作用是什么?數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有那些相似之處?15簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)和WWW。16定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類(lèi),預(yù)測(cè),聚類(lèi)和演變分析。使用你熟悉的現(xiàn)實(shí)生活中的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘的例子。17區(qū)分和分類(lèi)的差別是什么?特征化和聚類(lèi)的差別是什么?分類(lèi)和預(yù)測(cè)呢?對(duì)于每一對(duì)任務(wù),它們有何相似之處?18根據(jù)你的觀察,描述一種可能的知識(shí)類(lèi)型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?1.9描述關(guān)于數(shù)據(jù)挖掘方法和用戶(hù)交互問(wèn)題

3、的三個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。1.10描述關(guān)于性能問(wèn)題的兩個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法(構(gòu)造使用數(shù)據(jù)倉(cāng)庫(kù)),而不愿使用查詢(xún)驅(qū)動(dòng)的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢(xún)驅(qū)動(dòng)方法比更新驅(qū)動(dòng)方法更受歡迎。簡(jiǎn)略比較以下概念,可以用例子解釋你的觀點(diǎn)(a)雪花模式、事實(shí)星座、星型網(wǎng)查詢(xún)模型(b)數(shù)據(jù)清理、數(shù)據(jù)變換、刷新(c)發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體、多特征方、虛擬倉(cāng)庫(kù)2.3假定數(shù)據(jù)倉(cāng)庫(kù)包含三個(gè)維time,doctor和patient,兩個(gè)度量count和charge,其中charge是醫(yī)生對(duì)一位病人的一次診治的收費(fèi)。(a)列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模

4、模式。(b)使用(a)列舉的模式之一,畫(huà)出上面數(shù)據(jù)倉(cāng)庫(kù)的模式圖。(c)由基本方體day,doctor,patient開(kāi)始,為列出2000年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?(d)為得到同樣的結(jié)果,寫(xiě)一個(gè)SQL查詢(xún)。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式如下:fee(day,month,year,doctor,hospital,patient,count,charge)假定Big_University的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維student,course,semester和instructor,2個(gè)度量count和avg_grade。在最低的概念層(例如對(duì)于給定的學(xué)生、課程、學(xué)期和教師的組

5、合),度量avg_grade存放學(xué)生的實(shí)際成績(jī)。在較高的概念層,avg_grade存放給定組合的平均成績(jī)。為數(shù)據(jù)倉(cāng)庫(kù)畫(huà)出雪花模式圖;由基本方體student,course,semester,instructor開(kāi)始,為列出Big_University每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些OLAP操作(如由semester上卷到y(tǒng)ear);如果每維有5層(包括all),如studentMAJORSTATUSUNIVERSITY2.5假定數(shù)據(jù)倉(cāng)庫(kù)包含4個(gè)維date,spectator,location和game,2個(gè)度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)

6、。觀眾可以是學(xué)生、成年人或老人,每類(lèi)觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a)畫(huà)出該數(shù)據(jù)倉(cāng)庫(kù)的星型模式圖;由基本方體date,spectator,location,game開(kāi)始,為列出2000年學(xué)生觀眾在GM-Place的總付費(fèi),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?對(duì)于數(shù)據(jù)倉(cāng)庫(kù),位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡(jiǎn)略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問(wèn)題。為地區(qū)氣象局設(shè)計(jì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。氣象局大約有1000觀察點(diǎn),散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時(shí)的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長(zhǎng)達(dá)十年。你的設(shè)計(jì)應(yīng)當(dāng)有利于有效的查詢(xún)和聯(lián)機(jī)分析處理,有利于有效地導(dǎo)出多維空間的一般天氣模

7、式。關(guān)于數(shù)據(jù)立方體中的度量計(jì)算:根據(jù)計(jì)算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類(lèi);對(duì)于具有三個(gè)維time,location和product的數(shù)據(jù)立方體,函數(shù)variance屬于哪一類(lèi)?如果立方體被分割成一些塊,描述如何計(jì)算它;假定函數(shù)是最高的10個(gè)銷(xiāo)售額。討論如何在數(shù)據(jù)立方體里有效的計(jì)算該度量。2.8假定需要在數(shù)據(jù)立方體中記錄三種度量:min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設(shè)計(jì)有效的計(jì)算和存儲(chǔ)方法。數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)的流行方法是構(gòu)造一個(gè)稱(chēng)為數(shù)據(jù)立方體的多維數(shù)據(jù)庫(kù)。不幸的是,這常常產(chǎn)生大的、稀疏的多維矩陣。給出一個(gè)例子,解釋這種大的、稀疏

8、的數(shù)據(jù)立方體;設(shè)計(jì)一種實(shí)現(xiàn)方法,可以很好的克服這種稀疏矩陣問(wèn)題。注意,需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需求量,以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù);修改你在(b)的設(shè)計(jì),處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計(jì)的理由。假定數(shù)據(jù)倉(cāng)庫(kù)包含20個(gè)維,每個(gè)維有5級(jí)粒度。用戶(hù)感興趣的主要是4個(gè)特定的維,每維有3個(gè)上卷、下鉆頻繁訪(fǎng)問(wèn)的級(jí)。你如何設(shè)計(jì)數(shù)據(jù)立方結(jié)構(gòu),有效地對(duì)此予以支持?用戶(hù)時(shí)常想由一兩個(gè)特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?2.11假定基本立方體有三個(gè)維A,B,C,其單元數(shù)如下:|A|=1000000,|B|=100,|C|=1000。假定分塊將每維分成10部分。假定每維只有一層,畫(huà)出完

9、整的立方體的格。如果每個(gè)立方單元存放一個(gè)4字節(jié)的度量,若方是稠密的,所計(jì)算的立方體有多大?指出立方體中空間需求量最小的塊計(jì)算次序,并對(duì)計(jì)算2維平面所需要的內(nèi)存空間計(jì)算空間量。31數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來(lái)評(píng)估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。32在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。3.3假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70使用按箱平均值平滑對(duì)以上數(shù)據(jù)

10、進(jìn)行平滑,箱的深度是3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù),該技術(shù)的效果你怎樣確定數(shù)據(jù)中的孤立點(diǎn)?對(duì)于數(shù)據(jù)平滑,還有那些其他方法?34討論數(shù)據(jù)集成需要考慮的問(wèn)題。模式識(shí)別:這主要是實(shí)體識(shí)別問(wèn)題冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或唯的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來(lái)檢測(cè)數(shù)據(jù)值沖突的檢測(cè)與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同3.5使用習(xí)題3。3給出的age數(shù)據(jù),回答以下問(wèn)題:使用最小-最大規(guī)范化,將age值35轉(zhuǎn)換到0。0,1。0區(qū)間使用z-score規(guī)范化轉(zhuǎn)換age值35,其中age的標(biāo)準(zhǔn)差為12。94年使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。指出對(duì)于給定

11、的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。3.6使用流程圖概述如下屬性子集選擇過(guò)程逐步向前選擇逐步向后刪除逐步向前選擇和逐步向后刪除的結(jié)合3.7使用習(xí)題3.3給出的age數(shù)據(jù)畫(huà)一個(gè)寬度為10的等寬直方圖。為如下每種選樣技術(shù)勾畫(huà)例子:SRSWOR,SRSWR,聚類(lèi)選擇,分層選擇。使用長(zhǎng)度為5的樣本和層young,middle_aged和senior。對(duì)如下問(wèn)題,使用偽代碼或你喜歡用的程序設(shè)計(jì)語(yǔ)言,給出算法:對(duì)于分類(lèi)數(shù)據(jù),基于給定模式中屬性的不同值得個(gè)數(shù),自動(dòng)產(chǎn)生概念分層。對(duì)于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動(dòng)產(chǎn)生概念分層。對(duì)于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動(dòng)產(chǎn)生概念分層。列出和描述說(shuō)明數(shù)據(jù)挖掘任務(wù)

12、的五種原語(yǔ)。說(shuō)明為什么概念分層在數(shù)據(jù)挖掘中是有用的。概念分層的四種主要類(lèi)型是:模式分層,集合分組分層,操作導(dǎo)出的分層和基于規(guī)則的分層。簡(jiǎn)略定義每種類(lèi)型的分層。對(duì)于每種類(lèi)型的分層,給出一個(gè)不在本章中出現(xiàn)的例子??紤]下面的由Big-University的學(xué)生數(shù)據(jù)庫(kù)挖掘的關(guān)聯(lián)規(guī)則major(X,science)=status(X,undergrad)(4.8)假定學(xué)校的學(xué)生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專(zhuān)業(yè)是科學(xué),64%的學(xué)生注冊(cè)本科學(xué)位課程,70%的學(xué)生主修科學(xué)。計(jì)算規(guī)則(4.8)的支持度和置信度。考慮下面的規(guī)則(4.9):major(X,biology)=stat

13、us(X,undergrad)17%,80%(4.9)假定主攻科學(xué)的學(xué)生30%專(zhuān)業(yè)為biology。與規(guī)則(4.8)對(duì)比,你認(rèn)為規(guī)則(4.9)新穎嗎?解釋你的結(jié)論。語(yǔ)句可以用于挖掘特征化,區(qū)分,關(guān)聯(lián)和分類(lèi)規(guī)則。為聚類(lèi)的挖掘提出一個(gè)語(yǔ)法定義。論建立標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢(xún)語(yǔ)言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領(lǐng)域的最近提議。4.7下面的練習(xí)涉及定義概念分層的DMQL語(yǔ)法。典型情況,對(duì)于模式date(day,month,quarter,year)數(shù)據(jù)挖掘系統(tǒng)有一個(gè)預(yù)定義的概念分層。使用DMQL提供該概念分層的定義。概念分層定義可能涉及多個(gè)關(guān)系。例如,iterm_hierach

14、y可以涉及兩個(gè)關(guān)系item和supplier,由如下模式定義:item(item_ID,brand,type,place_made,supplier)supplier(name,type,headquarter_location,owner,size,assets,revenue)5.1對(duì)于類(lèi)特征化,基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。假定下面的表從面向?qū)傩缘臍w納導(dǎo)出classprogrammerbirth-placeCannadaothersCannadaDbaotherscount18012020;80將該表轉(zhuǎn)換成現(xiàn)

15、實(shí)相關(guān)t-權(quán)和d-權(quán)的交叉表(b)將類(lèi)Programmer轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如(birth_place(X)=CanadaA.)t:x%,d:y%.V(.)(t:w%,d:z%。?X,Programmer(X)5.3討論為什么需要解析特征化和如何進(jìn)行。比較兩種歸納方法的結(jié)果:(I)包含相關(guān)分析和(ii)不包含相關(guān)分析。對(duì)于數(shù)據(jù)離散的特征化,另外給出三個(gè)常用統(tǒng)計(jì)度量(未在本章說(shuō)明),并討論如何在大型數(shù)據(jù)庫(kù)中有效地計(jì)算它們。5.5假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,3

16、3,33,35,35,35,35,36,40,45,46,52,70A該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?B該數(shù)據(jù)的模是多少?評(píng)論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).C數(shù)據(jù)的中列數(shù)是什么D你能找出(粗略地)數(shù)據(jù)的第一個(gè)四分位數(shù)(q1)和第三個(gè)四分位數(shù)(Q3)嗎?E給出數(shù)據(jù)的五數(shù)概括F畫(huà)出數(shù)據(jù)的盒圖G分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?給定由數(shù)據(jù)庫(kù)DB導(dǎo)出的概化關(guān)系R,假定元組的集合厶DB需要從DB中刪除,簡(jiǎn)要給出用于R的必要?jiǎng)h除的增量更新過(guò)程。簡(jiǎn)要給出挖掘解析類(lèi)比較的基于數(shù)據(jù)立方體的增量算法。5.8簡(jiǎn)要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計(jì)度量的(i)并行和(ii)分布式挖掘方法。61Apr

17、iori算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí)證明頻繁項(xiàng)集的所有非空子集必須也是頻繁的。證明項(xiàng)集s的任意非空子集s的支持度至少和s的支持度一樣大。給定頻繁項(xiàng)集丨和丨的子集s,證明規(guī)則,s=(l-s)啲置信度不可能大于s=(l-s)的置信度。其中,s是s的子集。d)Apriori的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分成n個(gè)不重疊的部分。證明在D中是頻繁的任何項(xiàng)集至少在D的一個(gè)部分中是頻繁的。62數(shù)據(jù)庫(kù)有4個(gè)事務(wù)。設(shè)min_sup=60%,min_conf=80%。TIDDATEITEMS_BOUGHTT10010/15/99K,A,D,BT20010/15/99D,A,C,E,BT30010/19/99

18、C,A,B,ET40010/22/99B,A,DA)分別使用Apriori和FP-增長(zhǎng)算法找出頻繁項(xiàng)集。比較兩種挖掘過(guò)程的有效性。B)列出所有強(qiáng)關(guān)聯(lián)規(guī)則,他們與下面的元規(guī)則匹配,其中,X是代表顧客的變量,item時(shí)表示項(xiàng)的變量:xWtransaction,buys(X,item1)Abuys(X,item2)=buys(X,item3)s,c6.3在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時(shí),假定發(fā)現(xiàn)項(xiàng)集IBMdesktopcomputer,printer不滿(mǎn)足最小支持度。這一信息可以用來(lái)剪去諸如IBMdesktopcomputer,b/wprinter1的后代項(xiàng)集的挖掘嗎?給出一個(gè)一般規(guī)則,解釋這一信息如何用于對(duì)

19、搜索空間剪枝。6.4給出一個(gè)短例子,表明強(qiáng)關(guān)聯(lián)規(guī)則中的項(xiàng)可能實(shí)際上是負(fù)相關(guān)的。6.5下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù),其中,hotdogs表示包含熱狗的事務(wù),hotdogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡包的事務(wù),hamburgers表示不包含漢堡包的事務(wù)。HotdogshotdogsHamburgers20005002500hamburgers100015002500工col300020005000假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則hotdogs=hamburgers。給定最小支持度閾值25%,最小置信度閾值50%,該關(guān)聯(lián)規(guī)則是強(qiáng)的嗎?根據(jù)給定的數(shù)據(jù),買(mǎi)hotdog獨(dú)立于買(mǎi)hambu

20、rgers嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系?6.6數(shù)據(jù)庫(kù)有4個(gè)事務(wù),設(shè)min_sup=60%,min_conf=80%。Cust_IDTIDItems_bought(以brand-item_category形式)01T100Kings-Carb,Sunset-Milk,Dairyland-Cheese,best-Bread02T200Best-Cheese,Dairyland-Milk,Goldenfarm-Apple,Tasty-Pie,Wonder-Bread01T300Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie03T4

21、00Wonder-Bread,Sunset-Milk,Dairyland-Cheese在item_category粒度(例如,itemi可以是milk),對(duì)于下面規(guī)則模板xWtransaction,buys(X,item1)Abuys(X,item2)=buys(X,item3)s,c對(duì)于最大的k,列出頻繁k-項(xiàng)集和包含最大的k的頻繁k-項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則。在brand-item_category粒度(例如:item可以是sunset-milk),對(duì)于下面的規(guī)則模板:xWcustomer,buys(X,item1)Abuys(X,item2)=buys(X,item3)對(duì)最大的k,列出頻繁k

22、-項(xiàng)集。注意:不打印任何規(guī)則。假定一個(gè)大型存儲(chǔ)具有分布在4個(gè)站點(diǎn)的事務(wù)數(shù)據(jù)庫(kù)。每個(gè)成員數(shù)據(jù)庫(kù)中的事務(wù)具有相同的格式Tj:i1,.,im;其中,Tj是事務(wù)標(biāo)示符,而ik(1=k=m)是事務(wù)中購(gòu)買(mǎi)的商品標(biāo)識(shí)符。提出一個(gè)有效的算法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)??梢越o出你的算法的要點(diǎn)。你的算法不必將所有的數(shù)據(jù)移到一個(gè)站點(diǎn),并且不造成過(guò)度的網(wǎng)絡(luò)通信開(kāi)銷(xiāo)。6.8假定大型事務(wù)數(shù)據(jù)庫(kù)DB的頻繁項(xiàng)集已經(jīng)存儲(chǔ)。討論:如果新的事務(wù)集ADB(增量地)加進(jìn),在相同的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點(diǎn)。其中,每個(gè)項(xiàng)用它的層位置編碼,一次初始數(shù)據(jù)庫(kù)

23、掃描收集每個(gè)概念層的每個(gè)項(xiàng)的計(jì)數(shù),識(shí)別頻繁和子頻繁項(xiàng)集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與挖掘單層關(guān)聯(lián)規(guī)則的花費(fèi)進(jìn)行比較。6.10證明:包含項(xiàng)h和其祖先h的項(xiàng)集H的支持度與項(xiàng)集H-h的支持度相同。解釋如何將它用于層交叉關(guān)聯(lián)規(guī)則挖掘。提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞)的方法。序列模式可以用類(lèi)似于關(guān)聯(lián)規(guī)則挖掘的方法挖掘。設(shè)計(jì)一個(gè)有效的算法,由事務(wù)數(shù)據(jù)庫(kù)挖掘多層序列模式。這種模式的一個(gè)例子如下:買(mǎi)PC的顧客在三個(gè)月內(nèi)將買(mǎi)Microsoft軟件,在其上,可以下鉆,發(fā)現(xiàn)該模式的更詳細(xì)的版本,如買(mǎi)PentiumPC的顧客在三個(gè)月內(nèi)將買(mǎi)MicrosoftOffice。商店里每種商品的價(jià)格是非負(fù)

24、的。商店經(jīng)理只關(guān)心如下形式的規(guī)則:一件免費(fèi)商品可能觸發(fā)在同一事務(wù)中$200的總購(gòu)物。陳述如何有效地挖掘這種規(guī)則。商店里每種商品的價(jià)格是非負(fù)的。對(duì)于以下每種情況,識(shí)別它們提供的約束類(lèi)型,并簡(jiǎn)略討論如何有效地挖掘這種關(guān)聯(lián)規(guī)則。至少包含一件Nintendo游戲。包含一些商品,它們的單價(jià)和小于$150。包含一件免費(fèi)商品,并且其它商品的單價(jià)和至少是$200。所有商品的平均價(jià)格在$100和$500之間。簡(jiǎn)述判定樹(shù)分類(lèi)的主要步驟。在判定樹(shù)歸納中,為什么樹(shù)剪枝是有用的?用一個(gè)單獨(dú)的樣本集計(jì)值剪枝的缺點(diǎn)是什么?為什么樸素貝葉斯分類(lèi)稱(chēng)為樸素的?簡(jiǎn)述樸素貝葉斯分類(lèi)的主要思想。7.4比較急切分類(lèi)(如判定樹(shù)、貝葉斯、神

25、經(jīng)網(wǎng)絡(luò))相對(duì)于懶散分類(lèi)(如,k-最臨近、基于案例的推理)的優(yōu)缺點(diǎn)。通過(guò)對(duì)預(yù)測(cè)變量的變換,有些非線(xiàn)性回歸模型可以轉(zhuǎn)換成線(xiàn)性的。指出如何將非線(xiàn)性回歸方程Y=aXb轉(zhuǎn)換成可以用最小平方法求解的線(xiàn)性回歸方程。什么是推進(jìn)?陳述它為何能提高判定樹(shù)歸納的準(zhǔn)確性。的表決,這里每個(gè)分類(lèi)法的表決是其準(zhǔn)確率的函數(shù)。推進(jìn)算法也可以擴(kuò)充到連續(xù)值預(yù)測(cè)。證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù),即證明(7.31)式。當(dāng)一個(gè)數(shù)據(jù)對(duì)象可以同時(shí)屬于多個(gè)類(lèi)時(shí),很難評(píng)估分類(lèi)的準(zhǔn)確率。陳述在這種情況下,你將使用何種標(biāo)準(zhǔn)比較在相同數(shù)據(jù)上的建模的不同分類(lèi)方法。7.9給定判定樹(shù),你有選擇:(a)將判定樹(shù)轉(zhuǎn)換成規(guī)則,然后對(duì)結(jié)果規(guī)則剪枝,或(b)對(duì)

26、判定樹(shù)剪枝,然后將剪枝后的樹(shù)轉(zhuǎn)換成規(guī)則。相對(duì)于(b),(a)的優(yōu)點(diǎn)是什么?7.10給定k和描述每個(gè)樣本的屬性數(shù)n,寫(xiě)一個(gè)k-最臨近分類(lèi)算法。7.11下表給出課程數(shù)據(jù)庫(kù)中學(xué)生的期中和期末考試成績(jī)。X其中考試Y期末考試728450638177747894908675594983796577335288748190繪數(shù)據(jù)圖。X和Y看上去具有線(xiàn)性聯(lián)系嗎?使用最小二乘法,求由學(xué)生的期中成績(jī)預(yù)測(cè)學(xué)生的期末成績(jī)的方程式。預(yù)測(cè)期中成績(jī)?yōu)?6分的學(xué)生的期末成績(jī)。7.12下表有雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對(duì)于給定的行,count表示department,status,age和salary在該行上具有給定

27、值的元組數(shù)。departmentStatusAgeSalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K

28、4secretaryjunior26.3026K.30K6設(shè)salary是類(lèi)標(biāo)號(hào)屬性。你將如何修改ID3算法,以便考慮每個(gè)概化數(shù)據(jù)元組(即每一行)的count?使用你修改過(guò)的ID3算法,構(gòu)造給定數(shù)據(jù)的判定樹(shù)。給定一個(gè)數(shù)據(jù)樣本,它在屬性department,status和age上的值分別為systemsTjunior和20.24。該樣本的salary的樸素貝葉斯分類(lèi)是什么?為給定的數(shù)據(jù)設(shè)計(jì)一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點(diǎn)。使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實(shí)例(sales,senior,31.35,46K.50K)給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)

29、習(xí)率。給定年齡age的變量的如下度量值:18,22,25,42,28,43,33,35,56,28通過(guò)如下的方法進(jìn)行變量標(biāo)準(zhǔn)化:計(jì)算age的平均絕對(duì)誤差。計(jì)算頭四個(gè)值的zscore。給定兩個(gè)對(duì)象,分別用元組(22,1,42,10)和(20,0,36,8)表示計(jì)算兩個(gè)對(duì)象之間的歐幾里的距離計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離計(jì)算兩個(gè)對(duì)象間的明考斯基距離,q=3。什么是聚類(lèi)?簡(jiǎn)單描述下列聚類(lèi)方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方法,以及基于模型的方法。為每種方法給出例子。假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8個(gè)點(diǎn)(用(x,y)代表位置)聚類(lèi)為3個(gè)簇:A1(2,10),A2(2,5),A3(8,4),

30、B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐幾里的距離。假設(shè)初始選擇A1,B1,C1分別為每個(gè)聚類(lèi)的中心。請(qǐng)用K平均算法給出a)第一次循環(huán)執(zhí)行后的三個(gè)聚類(lèi)中心;b)最后的三個(gè)簇。人眼在判斷聚類(lèi)方法對(duì)二位數(shù)據(jù)的聚類(lèi)質(zhì)量上是快速而有效的。你能否設(shè)計(jì)出一個(gè)數(shù)據(jù)可視的方法類(lèi)似數(shù)據(jù)聚類(lèi)可視化和幫助人們判斷三維數(shù)據(jù)的聚類(lèi)質(zhì)量。對(duì)更高維的數(shù)據(jù)如何?給出如何集成特定聚類(lèi)算法的例子,例如,什么情況下一個(gè)聚類(lèi)算法被用作另一個(gè)算法的預(yù)處理。異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)由多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)組成,這些數(shù)據(jù)庫(kù)的定義是相互獨(dú)立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢(xún)。試述在這種系統(tǒng)

31、中如何使用基于概化的方法處理描述性挖掘查詢(xún)。對(duì)象立方體的建立,可以在執(zhí)行多維概化之前通過(guò)把面向?qū)ο蟮臄?shù)據(jù)庫(kù)概化為結(jié)構(gòu)化數(shù)據(jù)來(lái)完成。試述如何在對(duì)象立方體中處理集合值數(shù)據(jù)。9.3空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以實(shí)現(xiàn):(i)基于挖掘查詢(xún)的要求,可以動(dòng)態(tài)計(jì)算不同空間對(duì)象之間的空間關(guān)聯(lián)關(guān)系;(ii)預(yù)先計(jì)算出空間對(duì)象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預(yù)計(jì)算結(jié)果求得。試述(i)如何高效實(shí)現(xiàn)上述方法;(ii)各方法的適用條件。9.4假設(shè)某城市的交通部門(mén)需要規(guī)劃高速公路的建設(shè),為此希望根據(jù)每天不同時(shí)刻收集到的交通數(shù)據(jù)進(jìn)行有關(guān)高速公路大通方面的數(shù)據(jù)分析。(a)設(shè)計(jì)一存儲(chǔ)高速公路交通信息的空間數(shù)據(jù)倉(cāng)庫(kù),

32、可以方便地支持人們按高速公路、按一天的時(shí)間和按工作日查看平均的和高峰時(shí)間的交通流量,以及在發(fā)生重大交通事故時(shí)的交通狀況。(b)可以從該空間數(shù)據(jù)倉(cāng)庫(kù)中挖掘什么樣的信息用于支持城市規(guī)劃人員?(c)該數(shù)據(jù)倉(cāng)庫(kù)既包含了空間數(shù)據(jù),也包含了時(shí)態(tài)數(shù)據(jù)。設(shè)計(jì)一種挖掘技術(shù),可以高效地從該空間時(shí)態(tài)數(shù)據(jù)倉(cāng)庫(kù)挖掘有意義的模式。多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開(kāi)發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡(jiǎn)單多媒體特征分析,如顏色、形狀、描述、關(guān)鍵字,等等。(a)請(qǐng)指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合,可以給多媒體數(shù)據(jù)挖掘帶來(lái)重要的進(jìn)步??梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例,如多維分析、分類(lèi)、關(guān)聯(lián)或聚類(lèi)等。(b)請(qǐng)概述應(yīng)用基于相似性的搜索方法增強(qiáng)多媒體數(shù)據(jù)中聚類(lèi)質(zhì)量的實(shí)現(xiàn)技術(shù)。假設(shè)一供電站保存了按時(shí)間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶(hù)的能源使用信息。討論在這一時(shí)序數(shù)據(jù)庫(kù)中,如何解決如下問(wèn)題:(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線(xiàn);(b)當(dāng)能源消耗曲線(xiàn)急劇上升時(shí),20分鐘內(nèi)會(huì)發(fā)生什么情況?(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?9.7假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客行為,如每當(dāng)電視播出法裔加拿大人的曲棍球比賽時(shí),肯德雞的銷(xiāo)量會(huì)在比賽前一小時(shí)上升20。(a)給出一種找出這種模式的有效方法。(b)大部分與時(shí)間相關(guān)的關(guān)聯(lián)挖

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論