數(shù)據(jù)挖掘的復(fù)習(xí)資料_第1頁
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第2頁
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第3頁
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第4頁
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1覆蓋算法首先尋找一個規(guī)則If ? then recommendation = hardage = youngage = pre-presbyopicage = presbyopicspectacle prescription = myope spectacle prescription = hypermetrope astigmatism = no astigmatism = yestear production rate = reduced tear production rate = normal2/81/83/121/120/12 4/121/80/124/12選擇最大一個比例值4/1

2、2,即第7個和最后一個之間任意選一個,建立規(guī)則:If astigmatism = yes then recommendation = hard2/41/41/4If astigmatism = yes and ? then recommendation = hardTable 48Pan ol rhe contact lens data lor which astignmtisn = yes.AgeSpectacle prescriptionAstigmatismTear production rateRecommended lensesyoungmyopeyesreducednoneyoun

3、gmyopeyesnormalhardyounghypermetropeyesreducednoneyounghypermetropeyesnormalhardpre-presbyopicmyopeyesreducednonepre-presbyopicmyopeyesnormalhardpre-presbyopichypermetropeyesreducednonepre-presbyopichypermetropeyesnormalnoneprestropicmyopeyesreducednonepresbyopicmyopeyesnormalhardpresbyopichypermetr

4、opeyesreducednonepresbvfopichypermetropeyesnormalnoneage = young age = pre-presbyopic age = presbyopic spectacle prescription = myope3/6spectacle prescription = hypermetrope 1/6 tear production rate = reduced0/6tear production rate = normal4/6If astigmatism = yes and tear production rate = normal th

5、en recommendation = hard一個選擇條件僅覆蓋2個正確的實例,另一個覆蓋了 3個。因此,在同等條件下,總是選 擇擁有更大覆蓋量的那個規(guī)則,所以最終的規(guī)則為: If astigmatism = yes and tear production rate = normal and spectacle prescription = myope then recommendation = hard 僅包含4個建議使用硬的隱形眼鏡情況中的3個。因此,從實例集中刪除這3個實例,并 且重新開始尋找另一種形式的規(guī)則: If ? then recommendation = hard age=y

6、oung是作為第一個條件的最佳選擇第2個條件的最佳選擇是astigmatism = yes ,選擇的是1/3 (實際上還存在一個相同比例的 值)If age = young and astigmatism = yes and tear production rate = normalthen recommendation = hardIf astigmatism = yes and tear production rate = normaland spectacle prescription = myope then recommendation = hard現(xiàn)在所有的硬的隱形眼鏡的實例都已經(jīng)

7、覆蓋了。下一步是用相同的步驟生成軟的隱形眼鏡的規(guī)則。最后生成none類別的規(guī)則。2.平滑規(guī)則等深:每個箱中的數(shù)據(jù)個數(shù)相等等寬:每個箱的取值區(qū)間大小相等用戶自定義區(qū)間:自己分布數(shù)據(jù)區(qū)間例:假設(shè)數(shù)據(jù)集中客戶收入屬性income排序后的值(人民幣元):800, 1000, 1200, 1500, 1500, 1800, 2000, 2300, 2500, 2800,3000,3500,4000,4500,4800,5000,對此進(jìn)行分箱技術(shù),結(jié)果為:等深:設(shè)定箱子深度為4,分箱后箱 1: 800, 1000, 1200, 1500箱 2: 1500, 1800, 2000, 2300箱3: 2500

8、, 2800, 3000, 3500箱4: 4000, 4500, 4800, 5000等寬:設(shè)定箱子寬度為1000元人民幣,分箱后箱 1: 800, 1000, 1200, 1500, 1500, 1800箱 2: 2000, 2300, 2500, 2800, 3000箱3: 3500, 4000, 4500箱4: 4800, 5000用戶自定義:如果客戶收入劃分為1000元以下、10002000,20003000,30004000和4000元以上幾組,分箱后箱 1: 800,箱 2: 1000, 1200, 1500,1500,1800,2000箱3: 2300, 2500, 2800,

9、 3000箱4: 3500, 4000箱5: 4500, 4800, 5000平均值平滑將同一箱中的數(shù)據(jù)全部用該箱中數(shù)據(jù)的平均值替換。等寬:設(shè)定箱子寬度為1000元人民幣,分箱后箱 1: 800, 1000, 1200, 1500, 1500, 1800箱 2: 2000, 2300, 2500, 2800, 3000箱3: 3500, 4000, 4500箱4: 4800, 5000平滑后箱 1: 1300, 1300, 1300, 1300, 1300, 1300箱 2: 2520, 2520, 2520, 2520, 3520箱3: 4000, 4000, 4000箱4: 4900, 4

10、900(2)邊界平滑將同一箱中的數(shù)據(jù)分別用該箱中最近的邊界值替換。(對于箱子中的每一個數(shù)據(jù),觀察它和 箱子兩個邊界值的距離,用距離較小的那個邊界值替代該數(shù)據(jù))平滑后箱 1: 800, 800, 800, 1800, 1800, 1800箱 2: 2000, 2000, 2000, 3000, 3000箱3: 3500, 3500, 4500箱4: 4800, 5000(3)中值平滑將同一箱中的數(shù)據(jù)全部用該箱中數(shù)據(jù)的中值替換。(中值也稱中位數(shù),將一些數(shù)據(jù)排序之后, 如果這些數(shù)據(jù)是奇數(shù)個,中值就是位于最中間位置的那一個;如果是偶數(shù)個,中值應(yīng)該是 中間兩個數(shù)的平均值)平滑后箱 1: 1350,135

11、0,1350,1350,1350,1350箱 2: 2500, 2500, 2500, 2500, 2500箱 3: 4000,4000,4000箱 4: 4900,49003關(guān)聯(lián)規(guī)則例9.J)假設(shè)事務(wù)集合T如表9.4所示,最小支持度閾值min_sup 20% 寫出搜索所有頻繁項集的過程。事務(wù)項ah-(4/3hf 614iif h* 和r5h,h16寥h fl4 b話h, &, h/9_h,房 表9. 4事務(wù)集合F因為:min_sup=2A m=9 n*min_sup =9*20%=1.8所以:支持計數(shù)大于等于1.8的項集是 頻繁項集.掃描一次事務(wù)集合,對T中的所有 項進(jìn)行支持計數(shù)計算,找出頻

12、繁1 項集集 合乙“如表95所示。對3中的所有可連接的頻繁1-項 疝行連接運算,產(chǎn)生候選2-項集集合G,瀑卷標(biāo)所示。例9. 假設(shè)事務(wù)集合T如表9.4所示,最小支持度閾值min_sup20%寫出搜索所有頻繁項集的過程。事務(wù)項ah-(4/3hf 614iif h* 和r5h,h16寥h fl4 b話h, &, h/9_h,房 表9. 4事務(wù)集合F因為:min_sup=2A m=9 n*min_sup =9*20%=1.8所以:支持計數(shù)大于等于1.8的項集是 頻繁項集.掃描一次事務(wù)集合,對T中的所有 項進(jìn)行支持計數(shù)計算,找出頻繁1 項集集 合乙“如表95所示。對3中的所有可連接的頻繁1-項 疝行連接

13、運算,產(chǎn)生候選2-項集集合G,瀑卷標(biāo)所示。項集支持度計數(shù)i16i27i35i42i52項集支持度計數(shù)i1,i24i1,i33i1,i52i2,i33i2,i42i2,i52項集支持度計數(shù)i1,i2,i52 TOC o 1-5 h z 們?nèi)?支持度為4,產(chǎn)生規(guī)則: 1號 1 n1confidence=4/6=67%iicOnfidence=4/7=57%i1,i5,支持度為2,產(chǎn)生規(guī)則:i5*confidence=2/6=33%i1i5confidence=2/2=100%nni2n,支持度為2,產(chǎn)生規(guī)則:y5在挖掘的過程中,支持度、可信度閾值定得越高,挖掘出的規(guī)則越少,相反閾值定得越低,挖掘出

14、的規(guī)則越多最小置信度值70%所以強關(guān)聯(lián)規(guī)則有:(大于70%的規(guī)則)4.預(yù)測兀線性回歸算法描述如下: 算法:一元線性回歸算法(S) 輸入:訓(xùn)練數(shù)據(jù)集S 輸出:一兒線性回歸方程 步驟:初始化&、Sy、S、&為零for S中的每個訓(xùn)練樣本(x,2.1) Sx=Sx+x計算支2.4)靜 nSSSnS“-(SS- S -破a-n計算1=12.2) Sy = Sy y計算巧23) S = S +打n計算耳乂1=1AEas圖10.9年薪數(shù)據(jù)的散點圖20例1?/假設(shè)年薪數(shù)據(jù)表如表10.7所示,大學(xué)畢業(yè)以后的“工作年數(shù)Yearn 冒性是描魄性,“年薪Salary屬性是預(yù)測屬性,建立回歸方程預(yù)測具有10年 工作經(jīng)

15、驗的大學(xué)畢業(yè)生的年薪。表10.7年薪數(shù)據(jù)表工作年敷Ytar38913361121116年薪SaF單位:S1000)30576472364359902083繪制年薪數(shù)據(jù)的散點圖如圖10.9所示。從年薪數(shù)據(jù)的散點圖可以推測,屬性性與預(yù)測屬性&7命以之間大致具有線 性相關(guān)關(guān)系,因此回歸方程的形式為SalaryYear) = a + ftx Year 10to因為Z Yw = 91 Salaryi = 554爻性昭品知= 6311# = 1187f=l所以 10 x6311-91x554 八b = 5- = 3,50 x1187-9F. 554-3.5x91a 23.610即Salary關(guān)于Year的一元線性回歸方程為Salary - 23.6 + 3.5 x Year具有10年工作經(jīng)驗的大學(xué)畢業(yè)生的年薪Salary = 23.64- 3.5 x 10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論