




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1.4數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫(kù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫(kù),是組成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)。它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。相似:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。1.3定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘功能的例子。答:特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這些
2、特征包括作為一種高的年級(jí)平均成績(jī)(GPA:Gradepointaversge)的信息,還有所修的課程的最大數(shù)量。?區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較。例如,具有高SPA的學(xué)生的一般特性可被用來與具有低GPA的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓,就像具有高GPA的學(xué)生的75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而具有低GPA的學(xué)生的65%不是。?關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X,“computingscience”)?owns(X,“perso
3、nalcomputer”)support=12%,confidence=98%其中,X是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%(置信度,或確定度)。?分類與預(yù)測(cè)不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具:分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值。?聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類
4、之間的相似性的原則進(jìn)行聚類或分組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式,將觀測(cè)組織成類分層結(jié)構(gòu),把類似的事件組織在一起。?數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析2.3假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。年齡頻率1520051545015203002050150050807008011044計(jì)算數(shù)據(jù)的近似中位數(shù)值。解答:先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+4
5、4=3194;N/2=1597.200+450+300=95015972450=950+1500;.2050對(duì)應(yīng)中位數(shù)區(qū)間。.*.median=32.97歲。2.2假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組的age值(以遞增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。答:(a)該數(shù)據(jù)的均值是什么?中位數(shù)是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52
6、+70)/27=29.96中位數(shù)應(yīng)是第14個(gè),即xl4=25=Q2。該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。這個(gè)數(shù)集的眾數(shù)有兩個(gè):25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即:midrange=(70+13)/2=41.5。你能(粗略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+l)/4=(27+1)/4=7處。所以:Ql=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3X(N+1)/4=21處。所以:Q3=35給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5
7、數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總+并且這些數(shù)據(jù)是:13、20、25、35、70。f)畫出數(shù)據(jù)的盒圖。(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中+以增加圖像的信息。落
8、在該線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)則低。2.4假設(shè)醫(yī)院檢測(cè)隨機(jī)選擇的18個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果:計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差.年齡均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位數(shù)=(50+52)/2=51,標(biāo)準(zhǔn)差=方差的平方根=開根號(hào)(1/n工(Xi)2-1/n(工Xi”)=開根號(hào)1/182970.44=12.85.脂肪百分比均值=28.78,中位數(shù)=30.7,標(biāo)準(zhǔn)差=8.99.繪制年
9、齡和脂肪百分比的盒圖根據(jù)這兩個(gè)屬性,繪制散布圖,各q-q圖q-q圖散布圖根據(jù)z-score規(guī)范化來規(guī)范化這兩個(gè)屬性(P46)計(jì)算相關(guān)系數(shù)(皮爾遜積矩系數(shù)).這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)?r_E(a-A)(b-B)/NaO=(E(ab)-NAB)/Noo=(E(ab)-18*46.44*28.78)/18*12.85*8.99=0.82a,b=iiABiiABii相關(guān)系數(shù)是0.82。變量呈正相關(guān)。3.3使用習(xí)題2.4給出的age數(shù)據(jù)回答下列問題:使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。如何確定數(shù)據(jù)中的離群點(diǎn)?對(duì)于數(shù)據(jù)光滑,還有哪些其他方法
10、?解答:使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為3的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:步驟1:對(duì)數(shù)據(jù)排序。(因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。)步驟2:將數(shù)據(jù)劃分到大小為3的等頻箱中。TOC o 1-5 h z箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,35箱7:35,35,35箱8:36,40,45箱9:46,52,70步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。箱1:44/3,44/3
11、,44/3箱2:55/3,55/3,55/3箱3:21,21,21箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56如何確定數(shù)據(jù)中的離群點(diǎn)?聚類的方法可用來將相似的點(diǎn)分成組或“簇”,并檢測(cè)離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇一種人機(jī)結(jié)合的檢測(cè)可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。對(duì)于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和
12、箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對(duì)概念分層,這是通過將低級(jí)概念上卷到高級(jí)概念來光滑數(shù)據(jù)。3.5如下規(guī)范化方法的值域是什么?答:min-max規(guī)范化。值域是new_min,new_max。z-score規(guī)范化。值域是(old_minmean)/o,(old_maxmean)/a,總的來說,對(duì)于所有可能的數(shù)據(jù)集的值域是(小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。37使用習(xí)題2.4給出的age數(shù)據(jù),回答以下問題:使用min-max規(guī)范化將age值35變
13、換到0.0,1.0區(qū)間。使用z-score規(guī)范化變換age值35,其中age的標(biāo)準(zhǔn)差為12.94歲。使用小數(shù)定標(biāo)規(guī)范化變換age值35。對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。解答:3.9假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個(gè)箱。等頻(等深)劃分。等寬劃分。(c)聚類。解答:(a)等頻(等深)劃分。bin15,10,11,13bin115,35,50,55bin172,91,204,215(b)等寬劃分。每個(gè)區(qū)間的寬度是:(215-5)/3=70bin15,10,11,13,15,
14、35,50,55,72bin191bin1204,215(c)聚類。我們可以使用一種簡(jiǎn)單的聚類技術(shù):用2個(gè)最大的間隙將數(shù)據(jù)分成3個(gè)箱。元組:3.11使用習(xí)題2.4給出的age數(shù)據(jù),畫出一個(gè)等寬為10的等寬直方圖;為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層抽樣。使用大小為5的樣本和層“青年”“,中年”和“老年”。解答:(a)畫出一個(gè)等寬為10的等寬直方圖;1用大小為5的樣本和455565,SRSWR,聚類抽樣,分層抽樣。使bin15,10,11,13,15bin135,50,55,72,91bin1204,215T16T25T35T16T25T36T19T25T40T2
15、0T30T45T20T33T46T21T33T52T22T35T70SRSWOR和SRSWR:不是同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T16T20T20T20T22T35T25T35T52T46fc蕪SamplelSample2Sample3Sample4Sample5Sample6T13T20T25T33T35T52T15T20T25T33T36T70T16T21T25T35T40T16T22T25T35T45T19T22-T30T35一T46T20T35T20T36T21T40T22T45T22T46T13youngT2
16、2youngT35middleageT15youngT25youngT35middleageT16youngT25youngT35middleageT16youngT25youngT36middleageT19youngT25youngT40middleageT20youngT30middleageT45middleageT20youngT33middleageT46middleageT21youngT33middleageT52middleageT22youngT35middleageT70seniorT16youngT25youngT33middleageT46middleageT70Se
17、nior4.3假定數(shù)據(jù)倉(cāng)庫(kù)包含三維:time,doctor和patient;和兩個(gè)度量:count和charge;其中,是醫(yī)生對(duì)病人一次診治的收費(fèi)。列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式答:三類模式一般用于建模數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的星形模型,雪花模型和事實(shí)星座模型。使用(a)列舉的模式之一,畫出上面的數(shù)據(jù)倉(cāng)庫(kù)的模式圖數(shù)據(jù)倉(cāng)庫(kù)的星形模型charge(C)由基本方體day,doctor,patient開始,為列出2004年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些0LAP操作?沿課程(course)維從course_id“上卷”到department。沿時(shí)間(time)維從day“上卷”到y(tǒng)ear。取time=2004,對(duì)
18、維time作切片”操作沿病人(patient)維從個(gè)別病人“上卷”到全部病人。為得到同樣結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式為fee(day,month,year,doctor,hospital,patient,count,charge)。答:SQL查詢語(yǔ)句如下:selectdoctor,SUM(charge)fromfeewhereyear=2004groupbydoctor4.4假定BigUniversity的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維student(student_name,area_id,major,status,university),course(course_n
19、ame,department),semester(semester,year)和instructor(dept,rank);2個(gè)度量:count和avg_grade。在最低概念層,度量avg_grade存放學(xué)生的實(shí)際課程成績(jī)。在較高概念層,avg_grade存放給定組合的平均成績(jī)。為該數(shù)據(jù)倉(cāng)庫(kù)畫出雪花形模式圖。由基本方體student,course,semester,instructor開始,為列出BigUniversity每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些特殊的OLAP操作。如果每維有5層(包括all)女口“studentmajorstatusuniversityall”該立方體包含
20、多少方體?解答:為該數(shù)據(jù)倉(cāng)庫(kù)畫出雪花形模式圖。雪花模式如圖所示。由基本方體student,course,semester,instructor開始,為列出BigUniversity每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些特殊的OLAP操作。這些特殊的聯(lián)機(jī)分析處理(OLAP)操作有:沿課程(course)維從course_id“上卷到Idepartment。沿學(xué)生(student)維從student_id“上卷至Uuniversityo取department=“CS”和university=“BigUniversity?沿課程(course)維和學(xué)生(student)維切片。沿學(xué)生(student)維從university下鉆至Ustudent_name。如果每維有5層包括all如studentmajorstatusuniversity1.所以,買hotdogs不是獨(dú)立于買lumburgers兩者存在正相關(guān)關(guān)系8.1簡(jiǎn)述決策樹分類的主要步驟。8.5給定一個(gè)具有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年四年級(jí)英語(yǔ)上冊(cè) Recycle 2 The second period (第二課時(shí))教學(xué)實(shí)錄 人教PEP
- 2025年鐵道及電車道用機(jī)車、車輛及動(dòng)車組項(xiàng)目合作計(jì)劃書
- 九下歷史思維導(dǎo)圖-(教學(xué)設(shè)計(jì))2023-2024學(xué)年九年級(jí)下冊(cè)歷史部編版(安徽)
- 2025年賽力皮革染料項(xiàng)目合作計(jì)劃書
- 2023七年級(jí)數(shù)學(xué)上冊(cè) 第4章 圖形的認(rèn)識(shí)4.3 角4.3.1 角與角的大小比較教學(xué)實(shí)錄 (新版)湘教版
- 品牌塑造的核心原則探索計(jì)劃
- 穩(wěn)步前進(jìn)行業(yè)月度個(gè)人穩(wěn)定發(fā)展計(jì)劃
- 21古詩(shī)三首《涼州詞》教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版語(yǔ)文四年級(jí)上冊(cè)
- 春季安全教育及文明祭祀
- 推動(dòng)幼兒園教學(xué)實(shí)驗(yàn)的工作計(jì)劃
- 工業(yè)建筑設(shè)計(jì)統(tǒng)一標(biāo)準(zhǔn)2023年
- 部編初中語(yǔ)文教材介紹
- 答案融資融券業(yè)務(wù)知識(shí)考試試題題庫(kù)
- 首件檢驗(yàn)作業(yè)流程控制卡
- 海德漢參數(shù)設(shè)置
- 杭州市建設(shè)工程項(xiàng)目工傷保險(xiǎn)參保 變更 登記表
- 人教版八年級(jí)下冊(cè)數(shù)學(xué)章末培優(yōu)試題:第十八章《平行四邊形》
- 混凝土銷售結(jié)算單
- 解決方案員工安全教育培訓(xùn)手冊(cè)
- 15、褥瘡護(hù)理翻身卡
- 庫(kù)存物品復(fù)檢記錄表
評(píng)論
0/150
提交評(píng)論