(完整版)數(shù)據(jù)挖掘概念課后習題答案_第1頁
(完整版)數(shù)據(jù)挖掘概念課后習題答案_第2頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、1.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預測聚類和演變分析。使用你熟悉的現(xiàn)實生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子。特征化是一個目標類數(shù)據(jù)的一般特性或特性的匯總。例如,學生的特征可被提出,形成所有大學的計算機科學專業(yè)一年級學生的輪廓,這些特征包括作為一種高的年級平均成績(GPA:Gradepointaversg的信息,還有所修的課程的最大數(shù)量。區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。例如,具有高GPA的學生的一般特性可被用來與具有低GPA的一般特性比較。最終的描述可能是學生的一個一般可比較的輪廓,就像具有高GPA的學生的75%是四年級計算機

2、科學專業(yè)的學生,而具有低GPA的學生的65%不是。關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X,“computingscience”)owns(X,“personalcomputer”)support=12%,confidence=98%其中,X是一個表示學生的變量。這個規(guī)則指出正在學習的學生,12%(支持度)主修計算機科學并且擁有一臺個人計算機。這個組一個學生擁有一臺個人電腦的概率是98%(置信度,或確定度。)分類與預測不同,因為前者的作用是構(gòu)造一系列能描述和區(qū)分數(shù)據(jù)類型或概念的模型(或功能),而后者是建

3、立一個模型去預測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預測的工具:分類被用作預測目標數(shù)據(jù)的類的標簽,而預測典型的應用是預測缺失的數(shù)字型數(shù)據(jù)的值。聚類分析的數(shù)據(jù)對象不考慮已知的類標號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預測,這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析1.9

4、列舉并描述說明數(shù)據(jù)挖掘任務的五種原語。五種原語是:任務相關(guān)數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù)。它包括指明數(shù)據(jù)庫、數(shù)據(jù)庫表、或數(shù)據(jù)倉庫,其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的條件、用于探索的關(guān)系數(shù)據(jù)的屬性或維、關(guān)于修復的數(shù)據(jù)排序和分組。挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特征化、區(qū)分、關(guān)聯(lián)、分類、聚類、或演化分析。同樣,用戶的要求可能更特殊,并可能提供所發(fā)現(xiàn)的模式必須匹配的模版。這些模版或超模式(也被稱為超規(guī)則)能被用來指導發(fā)現(xiàn)過程。背景知識:這種原語允許用戶指定已有的關(guān)于挖掘領域的知識。這樣的知識能被用來指導知識發(fā)現(xiàn)過程,并且評估發(fā)現(xiàn)的模式。關(guān)于數(shù)據(jù)中關(guān)系的概念分層和

5、用戶信念是背景知識的形式。模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感興趣的模式,并且被用來指導挖掘過程,也可評估發(fā)現(xiàn)的模式。這樣就允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量,因為一種數(shù)據(jù)挖掘系統(tǒng)可能產(chǎn)生大量的模式。興趣度測量能被指定為簡易性、確定性、適用性、和新穎性的特征。發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應該被顯示出來。為了使數(shù)據(jù)挖掘能有效地將知識傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應該能將發(fā)現(xiàn)的各種形式的模式展示出來,正如規(guī)則、表格、餅或條形圖、決策樹、立方體或其它視覺的表示。1.41.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦合、松散耦合、半緊耦合和

6、緊密耦合。你認為哪種方法最流行,為什么?解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始數(shù)據(jù)集,因為沒有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為處理過程的一部分執(zhí)行。因此,這種構(gòu)架是一種糟糕的設計。松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成,除了使用被挖掘的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲挖掘結(jié)果。這樣,這種構(gòu)架能得到數(shù)據(jù)庫和數(shù)據(jù)倉庫提供的靈活、高效、和特征的優(yōu)點。但是,在大量的數(shù)據(jù)集中,由松散耦合得到高可測性和良好的性能是非常困難的,因為許多這種系統(tǒng)是基于內(nèi)存的。半緊密耦合:一些數(shù)據(jù)挖掘原語,如聚合、分類、或統(tǒng)計功能的預

7、計算,可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行,以便數(shù)據(jù)挖掘系統(tǒng)在挖掘-查詢過程的應用。另外,一些經(jīng)常用到的中間挖掘結(jié)果能被預計算并存儲到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強了數(shù)據(jù)挖掘系統(tǒng)的性能。緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部份,并且因此提供了優(yōu)化的數(shù)據(jù)查詢處理。這樣的話,數(shù)據(jù)挖掘子系統(tǒng)被視為一個信息系統(tǒng)的功能組件。這是一中高度期望的結(jié)構(gòu),因為它有利于數(shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境的有效實現(xiàn)。從以上提供的體系結(jié)構(gòu)的描述看,緊密耦合是最優(yōu)的,沒有值得顧慮的技術(shù)和執(zhí)行問題。但緊密耦合系統(tǒng)所需的大量技術(shù)基礎結(jié)構(gòu)仍然在發(fā)展變化,其實現(xiàn)并非易事。因此,目前最流行的體系結(jié)構(gòu)

8、仍是半緊密耦合,因為它是松散耦合和緊密耦合的折中。第2章數(shù)據(jù)預處理2.2假設給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對應的頻率如下年齡頻率1520051545015203002050150050807008011044計算數(shù)據(jù)的近似中位數(shù)值。先判定屮位數(shù)區(qū)間:N=20(H450+300+15004-700+443194;N/2=1597V2Q0十450十300950V1597+46+52+.-0(C)使用小毅址標規(guī)范化變換零笳由于最夫的鉅對值沁所丘=吊552.14假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃

9、分成三個箱。(a)等頻(等深)劃分。(b)等寬劃分。(c)聚類。答:佃)等頻:等深劃分円(b)等寬劃分.,使用習題2.4給出的age數(shù)據(jù),每個區(qū)間的寬度是:(215-5)/3=70binl5.10J1,13,15,3550,55,72binI91binI204,2152.15畫出一個等寬為10的等寬直方;-.2l/./:./.;:青年”RSWORSRSWR,中年”(和“老年”1勺產(chǎn)八廣嚴rrrib1聚類抽樣,分層抽層本和樣。為如大每種抽樣樣術(shù)勾解答:(a)冋出-個等寬為10的等寬門方圖;SRSWOR和SRSWR;不是同次的隨機抽樣結(jié)果吋以不但前者因無放岡SampledSampledSamplt

10、:2SanipkSmiddleageyoungmiddleageTzyoungTnyoungyoungt416youngTi,325youngTi.733middleaget2546middleaget概述70Senior3.4假定BigUniversity的數(shù)據(jù)倉庫包含如下4個維student(student_name,area_id,major,status,university),course(course_namdepartment),semester(semesterar)和instructor(dept,rank);2個度量:Count和;avg_gade。在最低概念層,度量avg

11、_grade存放學生的實際課程成績。在較高概念層,avg_grade存放給定組合的平均成績。(a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。(b) (b)由基本方體student,course,semester,instructor開始,為列出BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的OLAP操作。(c) 如果每維有5層(包括all)女口“studentmajorstatusuniversityall,該立方體包含多少方體?解答:a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。b) 由基本方體student,course,semesterinstructor開始,為

12、歹U出BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的OLAP操作。這些特殊的聯(lián)機分析處理(OLAP)操作有:i.沿課程(course)維從coirse_id上卷”到department。ii.沿學生(student)維從student_id上卷”到university。iii.取depatment=“CS”和university-“BigUniversity”沿課程(course)維和學生(student)維切片。JC)如果每維有5層(包括all,“studentmajorstatusuniversity1.25*min(shelf)and1.5*min(shelf

13、)(b)用擴充的SQL表示該查詢。4.3題4.12考慮下面的多特an;aidmajorshitusuniversitymonh的所有子100美元、貨架student維表Selectitem,region,month,Min(shelf),SUM(R1)FromWherecubebyPurchaseyear=2004item,region,month:R1suchthatR1.shefm.25*MIN(Shef)and(R1.ShelfS1.5*MIN(Shdf)andR1.Price100(c) 這是一個分布式多特征立方體嗎?為什么?這不是一個分布多特征立方體,因為在“suchthat”語句中

14、采用了乜”條件。第五章5.3數(shù)據(jù)庫有5個事物。設min_sup=60%,min_conf=80。TID購買的商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,ET400M,U,C,K,YT500C,O,O,K,I,Ea)分別使用Apriori和FP增長算法找出所有的頻繁項集。比較兩種挖掘過程的效率。b)列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置信度c)其中,X是代表顧客的變量,em是表示項的變量(如“A”“B”等):Vxetransaction,buys(X,iteml)Abuys(X,item2)buys(X,item3)s,c解答:(a)分

15、別使用Apriori和FP增長算法找出所有的頻繁項集。比較兩種挖掘過程的效率。Apriori算法:由于只有5次購買事件,所以絕對支持度是5xminsup=3。00=P(X|senior)P(senior);所以:樸素貝葉斯分類器將X分到junior類。解二:設元組的各屬性之間不獨立,其聯(lián)合概率不能寫成份量相乘的形式。所以已知:X=(department=system,age=2630,salary=46K50K),元組總數(shù)為:30+40+40+20+5+3+3+10+4+4+6=165。先驗概率:當status=senior時,元組總數(shù)為:30+5+3+10+4=52,P(senior)=52/165=0.32;當status=junior時,元組總數(shù)為:40+40+20+3+4+6=113P,(junior)=113/165=0.68;因為status=senio狀態(tài)沒有對應的age=2530區(qū)間,所以:P(X|senior)=0;因為status=jun

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論