數(shù)據(jù)挖掘-概念和技術第三版部分習題的答案_第1頁
數(shù)據(jù)挖掘-概念和技術第三版部分習題的答案_第2頁
數(shù)據(jù)挖掘-概念和技術第三版部分習題的答案_第3頁
數(shù)據(jù)挖掘-概念和技術第三版部分習題的答案_第4頁
數(shù)據(jù)挖掘-概念和技術第三版部分習題的答案_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1.4數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同有哪些相似之處

答:區(qū)別:數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時間變化的數(shù)據(jù)集合,用來支持

管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向

操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù)。它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。

相似:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。

1.3定義以下數(shù)據(jù)挖掘功能:特征化、區(qū)分、關聯(lián)和相關分析、預測聚類和演變分析。使用你熟

悉的現(xiàn)實生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子。

答:特征化是一個目標類數(shù)據(jù)的一般特性或特性的匯總。例如,學生的特征可被提出,形成所有

大學的計算機科學專業(yè)一年級學生的輪廓,這些特征包括作為一種高的年級平均成績(GPA:Grade

pointaversge)的信息,

還有所修的課程的最大數(shù)量。

口區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個比照類對象的一般特性進展對比。例如,具

有高GPA的學生的一般特性可被用來與具有低GPA的一般特性對比。最終的描述可能是學生的一

個一般可對比的輪廓,就像具有高GPA的學生的75%是四年級計算機科學專業(yè)的學生,而具有低GPA

的學生的65%不是。

□關聯(lián)是指發(fā)現(xiàn)關聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,-

個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關聯(lián)規(guī)則為:major(X,"computingscience")Towns(X,

upersonalcomputer'')

[support=12%,confidence=98%]其中,X是一個表示學生的變量。這個規(guī)則指出正在學習的學生,

12%

(支持度)主修計算機科學并且擁有一臺個人計算機。這個組一個學生擁有一臺個人電腦的概率

是98%(置信度,或確定度)。

口分類與預測不同,因為前者的作用是構造一系列能描述和區(qū)分數(shù)據(jù)類型或概念的模型(或功

能),而后者是建設一個模型去預測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性

是他們都是預測的工具:

分類被用作預測目標數(shù)據(jù)的類的標簽,而預測典型的應用是預測缺失的數(shù)字型數(shù)據(jù)的值。

□聚類分析的數(shù)據(jù)對象不考慮的類標號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似

性的原則進展聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式,

將觀測組織成類分

層構造,把類似的事件組織在一起。

口數(shù)據(jù)演變分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可能包括時間相關數(shù)據(jù)的

特征化、區(qū)分、關聯(lián)和相關分析、分類、或預測,這種分析的明確特征包括時間序列數(shù)據(jù)分析、

序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析

2.3假設給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對應的頻率如下。

年齡頻率

廣5200

5~15450

15~20300

20~501500

50~80700

80^11044

計算數(shù)據(jù)的近似中位數(shù)值。

解答:先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597

200+450+300=950<1597<2450=950+1500;

20~50對應中位數(shù)區(qū)間。

median=32.97歲。

2.2假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組的age值(以遞增序)是:13,15,16,16,19,

20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,

70?

答:(a)該數(shù)據(jù)的均值是什么中位數(shù)是什么

均值

=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/

27

=29.96

中位數(shù)應是第14個,即xl4=25=Q2。

(b)該數(shù)據(jù)的眾數(shù)是什么討論數(shù)據(jù)的峰(即雙峰、三峰等)。

這個數(shù)集的眾數(shù)有兩個:25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。

(c)數(shù)據(jù)的中列數(shù)是什么

數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即:midrange=(70+13)/2=41.5o

(d)你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(/)和第三個四分位數(shù)(03)嗎

數(shù)據(jù)集的第一個四分位數(shù)應發(fā)生在25%處,即在(N+l)/4=(27+1)/4=7處。所以:0=20。

而第三個四分位數(shù)應發(fā)生在75%處,即在3X(N+l)/4=21處。所以:G=35

(e)給出數(shù)據(jù)的五數(shù)概括。

一個數(shù)據(jù)集的分布的5數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、和最

大值構成。它給出了分布形狀良好的匯總+并且這些數(shù)據(jù)是:13、20、25、35、70。

(f)畫出數(shù)據(jù)的盒圖。

(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么

分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比。

這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫

軸)被描繪出來。但分位數(shù)一分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變

量分布的分位數(shù)。兩個坐標軸顯示它們的測量值相應分布的值域,且點按照兩種分布分位數(shù)值展

示。一條線(y=x)可畫到圖中+以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的

分布比x軸的相應的等同分位數(shù)對應的值的分布高。反之,對落在該線以下的點則低。

2.4假設醫(yī)院檢測隨機選擇的18個成年人年齡和身體脂肪數(shù)據(jù),得到如下結果:

(a)計算年齡和脂肪百分比的均值、中位數(shù)和標準差.

年齡均值=(23+23+27+27+39+41+47+49+50+

52+54+54+56+57+58+58+60+61)/18=836/18=46.44,

中位數(shù)=(50+52)/2=51,

標準差=方差的平方根=開根號(l/n[g(Xi)-)2])=開根號1/18[2970.441=12.85.

脂肪百分比均值=28.78,中位數(shù)=30.7,標準差=8.99.

(b)繪制年齡和脂肪百分比的盒圖

(c)根據(jù)這兩個屬性,繪制散布圖,各q-q圖

q-q圖散布圖

(d)根據(jù)z-score標準化來標準化這兩個屬性(P46)

(e)計算相關系數(shù)(皮爾遜積矩系數(shù)).這兩個變量是正相關還是負相關?

rwE(a「A)(b「B)/N。.。B=(E(aibi)-NAB)/N。人。k(E(ab)-18*46.44*28.78)

/18*12.85*8.99=0.82

相關系數(shù)是0.82。變量呈正相關。

3.3使用習題2.4給出的age數(shù)據(jù)答復以下問題:

(a)使用分箱均值光滑對以上數(shù)據(jù)進展光滑,箱的深度為3。解釋你的步驟。評述對于給

定的數(shù)據(jù),該技術的效果。

(b)若何確定數(shù)據(jù)中的離群點

(c)對于數(shù)據(jù)光滑,還有哪些其他方法

解答:

(a)使用分箱均值光滑對以上數(shù)據(jù)進展光滑,箱的深度為3。解釋你的步驟。評述對于給定

的數(shù)據(jù),該技術的效果。

用箱深度為3的分箱均值光滑對以上數(shù)據(jù)進展光滑需要以下步驟:

步驟1:對數(shù)據(jù)排序。(因為數(shù)據(jù)已被排序,所以此時不需要該步驟。)

步驟2:將數(shù)據(jù)劃分到大小為3的等頻箱中。

箱1:13,15,16箱2:16,19,20箱3:20,21,22

箱4:22,25,25箱5:25,25,30箱6:33,33,35

箱7:35,35,35箱8:36,40,45箱9:46,52,70

步驟3:計算每個等頻箱的算數(shù)均值。

步驟4:用各箱計算出的算數(shù)均值替換每箱中的每個值。

箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21

箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3

箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56

(b)若何確定數(shù)據(jù)中的離群點

聚類的方法可用來將相似的點分成組或“簇",并檢測離群點。落到簇的集外的值可以被視

為離群點。作為選擇,一種人機結合的檢測可被采用,而計算機用一種事先決定的數(shù)據(jù)分布來區(qū)

分可能的離群點。這些可能的離群點能被用人工輕松的檢驗,而不必檢查整個數(shù)據(jù)集。

(c)對于數(shù)據(jù)光滑,還有哪些其他方法

其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,

等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以

使用回歸技術擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術也能被用來對概念分

層,這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù)。

3.5如下標準化方法的值域是什么

答:

(a)min-max標準化。

值域是[new_min,new_max](>

(b)z-score標準化。

值域是[(oldjnin-mean)/。,(oldjnax-mean)/。,總的來說,對于所有可能的數(shù)據(jù)集的值域

是(-8,+8)。

(c)小數(shù)定標標準化。

值域是(一1.0,1.0)。

3.7使用習題2.4給出的age數(shù)據(jù),答復以下問題:

(a)使用min-max標準化將age值35變換到[0.0,1.0]區(qū)間。

(b)使用z-score標準化變換age值35,其中age的標準差為12.94歲。

(O使用小數(shù)定標標準化變換age值35。

(d)對于給定的數(shù)據(jù),你愿意使用哪種方法陳述你的理由。

解答:

3.9假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35.

50,55,72,92,204,215?使用如下每種方法將其劃分成三個箱。

(a)等頻(等深)劃分。

(b)等寬劃分。(c)

聚類。解答:

(a)等頻(等深)劃分。___________________

binl5,10,11,13

binl15,35,50,55

binl72,91,204,215

(b)等寬劃分。

每個區(qū)間的寬度是:(215-5)/3=70

binl5,10,11,13,15,35,50,55,72

binl91

binl204,215

(c)聚類。

我們可以使用一種簡單的聚類技術:用2個最大的間隙將數(shù)據(jù)分成3個箱。

binl5,10,11,13,15

binl35,50,55,72,91

binl204,215

3.11使用習題2.4給出的age數(shù)據(jù),

(a)畫出一個等寬為10的等寬直方圖;

(b)為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層抽

樣。使用大小為5的樣本和層“青年;“中年”和"老年:

解答:(a)畫出一個等寬為10的等寬直方圖;

分層抽樣。

16T1225T2135

T3

Tl325T2236

T416

19T1425T2340

T5

2030T2445

T6TI5

T720T1633T2546

21T|733T",52

T8

T

22T352770

T918

SRSWOR和SRSWR:不是同次的隨機抽樣結果可以不同,但前者因無放回

所以不能有一樣的元組。

SRSWOR(n=5)SRSWR(n=5)

T416T720

T620T720

T1022T2035

Tn25T2135

T2652T2546

聚類抽樣:設起始聚類共有6類,可抽其中的m類。

Sample1Sample2Sample3Sample4Sample5Sample6

T,T,TTifiT

13(20n25332135T2652

T12T|7T22T27

T215T72025333670

Tl3Tl8T23

T316T821253540

T416T922T1425Tl935T2445

T10T15T20T25

T51922303546

Sample2slmple5

T620Ti35

T22

T72036

T23

T82140

T922T2445

22

T10T2546

Ti13youngT1022youngT1935middleage

T20

T215youngTH25young35middleage

T12T|

T316young25young235middleage

T13T22

T416young25young36middleage

T14T23

T519young25young40middleage

T24

T620youngT1530middleage45middleage

T

T720young「633middleage2546middleage

TR21youngT1733middleageT2652middleage

T922youngT1835middleageT2770senior

T416young

T1225young

Tf733middleage

46middleage

T2770Senior

4.3假定數(shù)據(jù)倉庫包含三維:time,doctor和patient;和兩個度量:count和charge;其中,charge

是醫(yī)生對病人一次診治的收費。

(a)列舉三種流行的數(shù)據(jù)倉庫建模模式

答:三類模式一般用于建模數(shù)據(jù)倉庫架構的星形模型,雪花模型和事實星座模型。

(b)使用(a)列舉的模式之一,畫出上面的數(shù)據(jù)倉庫的模式圖

數(shù)據(jù)倉庫的星形模型

(C)由基本方體[day,doctor,patient]開場,為列出2004年每位醫(yī)生的收費總數(shù),應當執(zhí)

行哪些OLAP操作沿課程(course)維從course_id"上卷"到department。

?沿時間(〃加e)維從day"上卷"到y(tǒng)ear。

?取出ne=2004,對維而ne作“切片'操作

?沿病人[patient)維從個制嬤人“上卷〃到全部病人。

(d)為得到同樣結果,寫一個SQL查詢。假定數(shù)據(jù)存放在關系數(shù)據(jù)庫中,其模式為

fee(day,month,year,doctor,hospital,patient,count,charge)o

答:SQL查詢語句如下:

selectdoctor,SUM(charge)

fromfee

whereyear=2004

groupbydoctor

4.4假定BigUniversity的數(shù)據(jù)倉庫包含如下4個維student(student_name,

area_id,major,status,university),course(course_name,department),

semester(semester,year)ffinstructor(dept,rank);2個度量:count和avg_grade。在最

低概念層,度量avg_grade存放學生的實際課程成績。在較高概念層,

avg_grade存放給定組合的平均成績。

(a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。

(b)由基本方體[student,course,semester,instructor]開場,為列出BigUniversity

每個學生的CS課程的平均成績,應當使用哪些特殊的OLAP操作。

(c)如果每維有5層(包括all)如I"student〈major<statusvuniversityvall';該立

方體包含多少方體

解答:

a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如以以下圖。

b)由基本方體[studenl,course,semester,instructor]開場,為列出

BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的

OLAP操作。

這些特殊的聯(lián)機分析處理(OLAP)操作有:

i.沿課程(course)維從course_id"上卷〃至department。

ii.沿學生(student)維從student_id”上卷〃至^university。

iii.取department"CS"和university="BigUniversity沿課程

(course)維和學生(student)維切片。

iv.沿學生(student)維從university下鉆到student_name。

c)如果每維有5層包括all)如student〈major<status<university<all該立方

體包含多少方體

這個立方體將包含54=625個方體。

4.5假定數(shù)據(jù)倉庫包含4維:date,spectator,location,和game,和兩個度量:count和charge;其中,charge是

觀眾在給定的日期觀看節(jié)目的付費。觀眾可以是學生、成年人或老年人,每類觀眾有不同的收費標準。

(a)畫出該數(shù)據(jù)倉庫的星形模式圖。

答:星形模式圖如下:

b.由基本方體Mare,spectator,location,ga/ne]開場,為列出2004年學生觀眾在GM_Place的總付費,應執(zhí)

行的OLAP操作:

?沿時間[date)雄從date_id"上卷"至!Jyear。

?沿時間[game]卿Kgame_id"上卷"到全部。

?沿時間(location)維從location.id"上卷"到location_name。

?沿時間(spectator)維從即ectaizyi/d"上卷"到status。

?以status="students”,locationname="GMPlace"andyear=2004作轉軸操作

4.6數(shù)據(jù)倉庫可以用星形模式或雪花模式建模。簡單討論這兩種模式的相似點和不同點,然后分析它們的相

對做優(yōu)、缺點。哪種模式更實用,給出你觀點并陳述你的理由。

答:星形模式或雪花模式的相似點是它們包含一個事實表和一些維表。它們主要的不同在于,雪花模式的維

表可能是標準化形式,以便減少了冗余,這種表易于維護并節(jié)省存儲空間。然而,與巨大的事實表相比,這

種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花形構造可能降低瀏覽的性能,這樣,

系統(tǒng)的性能可能相對的受到影響。星型模式的優(yōu)點是簡單、這使得它更有效,但它需要更多的空間。因此,

只要空間的要求不是太大時,星形模式比雪花模式更好,因為通常效率比空間具有更高的優(yōu)先級。在工業(yè)上,

有時可能將數(shù)據(jù)從一個雪花模式非標準化為星型模式以加快處理速度,另一種選擇是保持雪花模式的維表,

然后一樣數(shù)據(jù)的當前用戶折疊為星形。

4.9

4.11

5.15.2

5.4假定基本方體有三維A,B,C,其單元數(shù)如下:|A|=1000000,|B|=100,|C|=1000.假定每維均等地分塊成

10局部。

(a)假定每維只有一層,畫出完整的立方體的格。

答:完整的立方體的格如以以以下圖

(b)如果每個立方體單元存放一個4字節(jié)的度量,假設立方體是稠密的,所計算的立方體有多大

答:所計算的立方體大小如下:

all:1

A:1,000,000;B:100;C:1,000;小計:1,001,100

AB:1,000,000*100=100,000,000;BC:100*1,000=100,000;AC:\,000,000*1,000=1,000,000,000;

小計:1,100,100,000

ABC\1,000,000*100*1,000=100,000,000,000

總和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101*4=404,404,404,404字節(jié)

(C)指出空間需求量最小的立方體中的塊計算次序,并計算2-D平面計算所需要的內(nèi)存空間總量。

答:順序計算,需要最少數(shù)量的空間B-C-A.如以以下圖:

計算二維平面需要的總主內(nèi)存空間是:

總空間=(100X1,000)+(l,000,000X10)+(100X10,000)=20,100,000單元*4字節(jié)/單元=80,400,000字節(jié)

6.3Apriori算法使用子集支持性質的先驗知識。

(a)證明頻繁項集的所有非空的子集也必須是頻繁的。

答:設s是一個頻繁項集,加力s即是最小支持度閥值,任務相關的數(shù)據(jù)D是數(shù)據(jù)庫事務的集合,出|是

D有事務量,則有Supportcount(s)=minsupX.|D|;

再設s'是s的非空子集,則任何包含項集s的事務將同樣包含項集s',即:

support_count(s))>supportcount(s)=min_supX|D|.

所以,s'也是一個頻繁項集。

(b)證明項集S的任意非空子集s'的支持至少和S的支持度一樣大。

答:設任務相關的數(shù)據(jù)D是數(shù)據(jù)庫事務的集合,|D|是D的事務量,由定義得:

設s'是s的非空子集,由定義得:

由(a)可知:support(s,)>support(s)

由此證明,項集S的任意非空子集s'的支持至少和S的支持度一樣大。

(C)給定頻繁項集I和/的子集S,證明規(guī)則"s'n0-的置信度不可能大于“s=(2-S)”

答:設s是/的子集,則confidence(sZl-s))=雕患.

設s'是S的非空子集,則conf'idence(s'=(l—s'"))=5::黑"露以.

由(b)可知:support_count(sf)>supportcount(s),

此外,confidence^9)=(1-$'))confidence's)-s))

所以,規(guī)則"s'>a-的置信度不可能大于%=a-sy\

6.6設數(shù)據(jù)庫有5個事務。設minsup=60%,minconf=80%

(a)分別使用Apriori和FP增長算法找出所有頻繁項集。對比兩種挖掘過程的效率。

效率對比:Apriori需屢次掃描數(shù)據(jù)庫而FP增長建設FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是

昂貴的(由于聯(lián)接),而FP增長不產(chǎn)生任何候選。

(b)列舉所有與下面的元規(guī)則匹配的強關聯(lián)規(guī)則(給出支持度S和置信度C),其中,X是代表顧客的變量,item,

是表示項的變量(如:"A"、"B"等):

答:k,oe41i6.11

e,ok-fQ£,l]

6.8.數(shù)據(jù)庫有4個事務,設minsup=60%,minconf=80%

(a)在item_category粒度(例如,item,可以是"Milk"),對于下面的規(guī)則模板

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論