版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
DataMiningConceptsandTechniquesJiaweiHan MichelineKamber 范明孟曉峰譯11.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測聚征包括作為一種高的年級平均成績(GPA:Gradepointaversge的信息,區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般GPA的學(xué)生的一般特性可被用來與具有GPA的一般特性比較。最終的描述可能是學(xué)生的一個一般可比較的輪廓,就像具有高GPA的學(xué)生的75%是四年級計算機科學(xué)專業(yè)的學(xué)生,GPA65%不是。征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X,“computingscience”)owns(X,“personalcomputer”) 其中,X98%(置信度,或確定度?;蚋拍畹哪P停ɑ蚬δ埽笳呤墙⒁粋€模型去預(yù)測缺失的或無效數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可1.9列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特(也被稱為超規(guī)則)模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來。為了使1.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部1.142章數(shù)據(jù)預(yù)處理2.12.2∵∴20~50我們有:L120,N3197,(fq)l950,fqdian1500,wdt30,使用公式(2.3:
3197/2950medianL
width20
30
∴median=32.972.22.4ageage值(以遞增序)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等x1NN
8092729.9630(2.1。中位數(shù)應(yīng)是第x14=25=Q2該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等這個數(shù)集的眾數(shù)有兩個:2535,發(fā)生在同樣最高的頻率處,因此是雙峰數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即:midrange=(70+13)/2=41.575%3×(N+1)/4=21處。所以:Q3=355數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變兩種分布分位數(shù)值展示。一條線(yx)可畫到圖中,以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的分布比x的分布高。反之,對落在該線以下的點則低。2.32.72.4age3步驟1(23箱1:13,15,16 箱2:16,19,20 箱4:22,25,25 箱5:25,25,30 箱 箱 箱34箱1:44/3,44/3,44/3箱 箱箱 箱 箱箱 箱8:121/3,121/3,121/3箱2.42.10min-maxz-scoremin-max值域是[new_min,new_max]z-score值域是[(old_min-meanσ,(old_max-mean)/σ],總的來說,對于所有可能2.52.122.4age使用min-maxage35變換到[0.0,1.0]z-score規(guī)范化變換age35,其中age12.94使用小數(shù)定標(biāo)規(guī)范化變換age35使用min-maxage35變換到[0.0,1.0]∵minA=13,maxA=70,new_minA=0.0,new_maxA=1.0
new_
new_
35131.00.00.00.38607013z-score規(guī)范化變換age35,其中age12.94A1315216192202122243023343536404546528092
AA
161.2949,
sAs或s2 167.4986,s
v'vA3529.963
0.3966
或vs
vA
35
5.0370.3892使用小數(shù)定標(biāo)規(guī)范化變換age35。70j=2。v'
10
2.62.141250,55,72,92,204,215等頻(等深)等頻(等深)每個區(qū)間的寬度是:(215-232.72.152.4age10為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層510 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層56mmiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddlemiddle2.83章數(shù)據(jù)倉庫與OLAPsudentstuden_nae,area_id,major,status,university),course(course_name,department),semester(semesteryearinstructor(dept,rank);2個度量:countavg_grade。在最低概念層,度量avg_grade存放學(xué)生的實際課程成績。在較高概念層,avg_grade存放給定組合的平均成績。[student,course,semester,instructor]BigUniversity每個學(xué)生的CS課程的平均成績,應(yīng)當(dāng)使用哪些特殊的OLAP操作。all,[studentcoursesemesterinstructorBigUniversityCSOLAP操作。這些特殊的聯(lián)機分析處理(OLAP)沿課程(course)course_iddepartment沿學(xué)生(student)student_iduniversitydepartment=“CSuniversity=“BigUniversity”,沿課程(course)維和學(xué)生(student)沿學(xué)生(student)universitystudent_name5(allstudent<major<status<university<all,54=625
studentstudent
3.43.44章數(shù)據(jù)立方體計算與數(shù)據(jù)泛化4.12008-11-4.12考慮下面的多特征立方體查詢:按{item,region,month}2004100美元、貨架1.25~1.5倍之間的元組找出總銷售額部分。SQLSQL item,region,month,Min(shelf),SUM(R1) cube item,region,month:suchthat R1.shelf≥1.25*MIN(Shelf)and(R1.Shelf≤1.5*MIN(Shelf)and這不是一個分布多特征立方體,因為在“suchthat”語句中采用了“≤”條2008-11-2008-11-5章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)Apriori5.2.2節(jié)介紹了由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則的方法。提出了一個更有效的方5.2.2節(jié)的方法更有效(5.1(b)5.1(c)數(shù)據(jù)庫有5個事物。設(shè)min_sup=60%,min_conf=80。 {M,O,N,K,E, {D,O,N,K,E, {M,A,K, {M,U,C,K, {C,O,O,K,I,AprioriFP增長算法找出所有的頻繁項集。比較兩種挖列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置A:AprioriFP增長算法找出所有的頻繁項集。比較兩種挖掘過Apriori55×min_sup=3 C LOKE
L1
C2
L2
C FP-growthAprioriL1。再按支持度計數(shù)的遞減序排序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)}。掃描沒個事LFP-樹。5.3FP條件FP效率比較:AprioriFP-增長算Apriori算法中的自身連接過程產(chǎn)生候選項集,候選項集產(chǎn)生的計算代價非常高,而FP-增長算法不需產(chǎn)生任列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置信度c,其中,如“A:xtransaction,buys(X,“E”)∧buys(X,“E”)buys(X,“K”)[s=0.6,K,O→E[s(support)=0.660%,c(confidence)=1100%]E,O→K[s(support)=0.660%,c(confidence)=1Java2008-12-2009-01-6章分類和預(yù)測count?department,agesalary的值分別為“systems26…3046K…50使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實例(sales,senior31…3546K…50K如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)給定一個數(shù)據(jù)元組,它的屬性department,agesalary的值分別為“systems26…3046K…50K解一:P(46K-∵∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-P(46K-∵∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-∵∵∴P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);Xjunior類。所以已知:X=(department=system,age=26…30,salary=46K…50K),元組總數(shù)status=senior當(dāng)status=junior時,元組總數(shù)為:40+40+20+3+4+6=113status=seniorage=26
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JJF 2158-2024熱量表型式評價大綱
- 2024年度云南省高校教師資格證之高等教育學(xué)題庫檢測試卷B卷附答案
- 2024年度云南省高校教師資格證之高等教育心理學(xué)考前沖刺試卷B卷含答案
- 數(shù)據(jù)中心風(fēng)險管理方案
- 贛南師范大學(xué)《數(shù)學(xué)物理方法》2022-2023學(xué)年第一學(xué)期期末試卷
- 贛南師范大學(xué)《國際法》2022-2023學(xué)年第一學(xué)期期末試卷
- 阜陽師范大學(xué)《中國設(shè)計史》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024年泌尿系統(tǒng)感染用藥項目資金籌措計劃書代可行性研究報告
- 阜陽師范大學(xué)《外國音樂史二》2022-2023學(xué)年第一學(xué)期期末試卷
- 冀教版一年級科學(xué)下冊教案說課講解
- 裝修工程施工方案
- 社會保險稽核工作計劃
- 無人機應(yīng)用2024年的無人機技術(shù)和無人機行業(yè)
- ISTA-2A-包裝運輸測試報告-審核通過
- 新生兒身份識別課件
- 幕墻施工計劃書
- 鹵味官方直播話術(shù)
- 【湯臣倍健經(jīng)營戰(zhàn)略分析9000字(論文)】
- 供應(yīng)鏈方案設(shè)計
- 國防教育基地現(xiàn)狀分析報告
- 二年級學(xué)生的拖地勞動教案
評論
0/150
提交評論