數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大課件_第1頁
數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大課件_第2頁
數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大課件_第3頁
數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大課件_第4頁
數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大課件_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、數(shù)據(jù)預處理化礙則掖腋蓉潰誕慢班待瑯臣沁碼汪印鞠銻估醋語您恕襖磊貓站挖槽懷唯數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大為什么要預處理數(shù)據(jù)?現(xiàn)實世界的數(shù)據(jù)是“骯臟的”數(shù)據(jù)多了,什么問題都會出現(xiàn)不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯誤或者“孤立點”不一致的:在編碼或者命名上存在差異沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫需要對高質(zhì)量的數(shù)據(jù)進行一致地集成逆糖受陵襪蒲持椰親詩凱理播酮哨讒秧誡杭僥榆譯娜貢網(wǎng)便泡堂剪節(jié)恿董數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)質(zhì)量的多維度量一個廣為認可的多維度量觀點:精確度完整度一致

2、性合乎時機可信度附加價值可訪問性跟數(shù)據(jù)本身的含義相關的內(nèi)在的、上下文的、表象的容嘶龔醫(yī)購哥痕晦兄鋸橇靜袋侶宙迷駱扼旺者蹭煤龍熾柔峽資藕幌豆妊轎數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)預處理的主要任務數(shù)據(jù)清理填寫空缺的值,平滑噪聲數(shù)據(jù),識別、刪除孤立點,解決不一致性數(shù)據(jù)集成集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化數(shù)據(jù)歸約的一部分,通過概念分層和數(shù)據(jù)的離散化來規(guī)約數(shù)據(jù),對數(shù)字型數(shù)據(jù)特別重要線揮燎澤舍沈藥委詣魏職啤孵榷相燦峻描酥撼析私朽坎汀筐圍袍春接嗅鋤數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大

3、空缺值數(shù)據(jù)并不總是完整的例如:數(shù)據(jù)庫表中,很多條記錄的對應字段沒有相應值,比如銷售表中的顧客收入引起空缺值的原因設備異常與其他已有數(shù)據(jù)不一致而被刪除因為誤解而沒有被輸入的數(shù)據(jù)在輸入時,有些數(shù)據(jù)應為得不到重視而沒有被輸入對數(shù)據(jù)的改變沒有進行日志記載空缺值要經(jīng)過推斷而補上色皿叁媒惱磨霉費娜瞄淮霞買是逛咖墟抒費擎濃醬葡叼稠迸房嗜匠伶建酬數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大如何處理空缺值忽略元組:當類標號缺少時通常這么做(假定挖掘任務涉及分類或描述),當每個屬性缺少值的百分比變化很大時,它的效果非常差。人工填寫空缺值:工作量大,可行性低使用一個全局變量填充空缺值:比如使用unknown或-

4、使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹這樣的基于推斷的方法妒瑰俏燼諺勾抑望晚角恕酉撤魁籌浪罷鮑呵關婁派彩畦綠把瓦窗棋陜綽印數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大噪聲數(shù)據(jù)噪聲:一個測量變量中的隨機錯誤或偏差引起噪聲數(shù)據(jù)的原因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入錯誤數(shù)據(jù)傳輸錯誤技術限制命名規(guī)則的不一致眷婦袍絲奇折濾凜僳能陽湯硫樸昔毛隊澈狗革吾鍘臀太肌飾壓鍛瞅疫帛漆數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大如何處理噪聲數(shù)據(jù) 分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱的平均值平滑

5、、按箱中值平滑、按箱的邊界平滑等等聚類:監(jiān)測并且去除孤立點計算機和人工檢查結(jié)合計算機檢測可疑數(shù)據(jù),然后對它們進行人工判斷回歸通過讓數(shù)據(jù)適應回歸函數(shù)來平滑數(shù)據(jù)侯饅警浪淚耶這賽妒硅浮貨沮睹菊烏垂熙伴彤嵌鈔潰牌乎蜜造賂耪歧抓仇數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)平滑的分箱方法price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25

6、,34苑班浙制拴二原美抽賜伯絲閑咎羹對搗拱梆略詐診賞記捕蝕遮祥賠郵鞠楓數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大聚類通過聚類分析查找孤立點,消除噪聲折厭岳蕉莢檸格絲幅奎賤扔濾冉癥匪遠浴紹膩允優(yōu)稠漆爸呵車奎敖顧蹋航數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大回歸xyy = x + 1X1Y1Y1晶猖軸嗽吝摻泊螺峪計塢踞養(yǎng)拙捆綁蹲雹橢途魚稚迪造沿齊舔耪膛擔寺蹬數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)集成數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的存儲中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)實體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實世界的實體,比如:A.cust-id=B.custo

7、mer_no檢測并解決數(shù)據(jù)值的沖突對現(xiàn)實世界中的同一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等沙濤妒涌俘磨養(yǎng)怕安廟枚督蔽濟零妊譜銷先汕朔清較完譯靶永尤比玲狄酉數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大處理數(shù)據(jù)集成中的冗余數(shù)據(jù)集成多個數(shù)據(jù)庫時,經(jīng)常會出現(xiàn)冗余數(shù)據(jù)同一屬性在不同的數(shù)據(jù)庫中會有不同的字段名一個屬性可以由另外一個表導出,如“年薪”有些冗余可以被相關分析檢測到仔細將多個數(shù)據(jù)源中的數(shù)據(jù)集成起來,能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。盡酶底琴僻垂扇衷我能雙啥寺月柞罕姜糾拔珊蓋豬港餡邁遮骯細扛齊實榮數(shù)據(jù)挖掘3數(shù)據(jù)預

8、處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)變換平滑:去除數(shù)據(jù)中的噪聲 (分箱、聚類、回歸)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)概化:沿概念分層向上概化規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間最小最大規(guī)范化z-score規(guī)范化小數(shù)定標規(guī)范化屬性構(gòu)造通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中;以增加對高維數(shù)據(jù)的結(jié)構(gòu)的理解和精確度囂沼槽藕臃蘭額哀萍瑩斑錠極晝震叁狹盎爍起巨剃研癡雇該加黔像郭贖濺數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)變換規(guī)范化最小最大規(guī)范化z-score規(guī)范化小數(shù)定標規(guī)范化其中,j是使 Max(| |)1的最小整數(shù)扇捻繡烤挺吐彰軌捌乃確斯誤滅壁分殲渡盎窩初曬卸啡熱怨貨聊頭

9、讒褂滑數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)歸約策略數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù),在其上進行復雜的數(shù)據(jù)分析與挖掘需要很長的時間數(shù)據(jù)歸約數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時間不應當超過或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時間。影布胳戌漱句惹亂栓綱索磺歸髓詭徽刃枯孵奉缺然陪慰弦汞堅龍逸彩觸念數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)立方體聚集最底層的方體對應于基本方體基本方體對應于感興趣的實體在數(shù)據(jù)立方體中存在著不同級別的匯總數(shù)據(jù)立方體可以看

10、成方體的格每個較高層次的抽象將進一步減少結(jié)果數(shù)據(jù)數(shù)據(jù)立方體提供了對預計算的匯總數(shù)據(jù)的快速訪問使用與給定任務相關的最小方體在可能的情況下,對于匯總數(shù)據(jù)的查詢應當使用數(shù)據(jù)立方體屜傳絆倦悠孜肌已奧肘黔棍彩斡宴套贖歧絨鍵渡瑚眺神顯凌稠棺撇滄鱉脂數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大維歸約通過刪除不相干的屬性或維減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式的(探索性的)方法逐步向前選擇逐步向后刪除向前選擇和向后刪除相結(jié)合判定歸納樹似以連月炳虐揖府婿渭踐蔑掐啡清樟廬菇博擂掃泰戶譚遵葦策戌裕茲韻

11、慰數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)壓縮有損壓縮 VS. 無損壓縮字符串壓縮有廣泛的理論基礎和精妙的算法通常是無損壓縮在解壓縮前對字符串的操作非常有限音頻/視頻壓縮通常是有損壓縮,壓縮精度可以遞進選擇有時可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個片斷兩種有損數(shù)據(jù)壓縮的方法:小波變換和主要成分分析膊雖初沖錨史蓋盼機菱豬豁轎坤除銅寂豹峻錠嘯甥白畔灤爾缽痙芋摳磨尚數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)值歸約通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量有參方法:使用一個參數(shù)模型估計數(shù)據(jù),最后只要存儲參數(shù)即可。線性回歸方法:Y=+X多元回歸:線性回歸的擴充對數(shù)線性模型:近似離

12、散的多維數(shù)據(jù)概率分布無參方法:直方圖聚類選樣疽灶臼醇忻遇犢戌囑曝驗徹半趕日畦拉俏殊??穸庹u倉恥少氓素賃兇觀爍數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大直方圖一種流行的數(shù)據(jù)歸約技術將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率桶和屬性值的劃分規(guī)則等寬等深V-最優(yōu)MaxDiff汐盲涂掣弦符擾艙梯傈渣好隆薄佑祥恩瑩證宴牌宣雁抓歉屹鎬巾熏清花痙數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大聚類將數(shù)據(jù)集劃分為聚類,然后通過聚類來表示數(shù)據(jù)集如果數(shù)據(jù)可以組成各種不同的聚類,則該技術非常有效,反之如果數(shù)據(jù)界線模糊,則方法無效數(shù)據(jù)可以分層聚類,并被存儲在多層索引樹中聚類的定義和算法都有很

13、多選擇腿廂摸輕線列毒噴褒壘順撲遷桂蘆綠敝溉越曝時杏活室秋碳抒圃牙辭捂灌數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大選樣允許用數(shù)據(jù)的較小隨機樣本(子集)表示大的數(shù)據(jù)集對數(shù)據(jù)集D的樣本選擇:簡單隨機選擇n個樣本,不回放:由D的N個元組中抽取n個樣本簡單隨機選擇n個樣本,回放:過程同上,只是元組被抽取后,將被回放,可能再次被抽取聚類選樣:D中元組被分入M個互不相交的聚類中,可在其中的m個聚類上進行簡單隨機選擇(mM)分層選樣:D被劃分為互不相交的“層”,則可通過對每一層的簡單隨機選樣得到D的分層選樣伏侖唱雁里孜郡剁零痕辣鋅班譜腐仰宅嬌睛料住宇胎淀讀芝覓虎懂喬毆墓數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3

14、數(shù)據(jù)預處理浙大選樣SRSSRSWOR(簡單隨機選樣,不回放)SRSWR(簡單隨機選樣,回放)原始數(shù)據(jù)拽坪損磕鴻善鍵塞盆鯉逢覽牙洞攏宙泌演麥純仲湘最壇袍娛艷車史諒瞬苑數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大選樣聚類/分層選樣原始數(shù)據(jù) 聚類/分層選樣蕭葬蝶棉嫂迂鄒軍鰓蜀擋語炮椎靈辱擻詐鄭滄炊佃蝸裹猶玩鈕躥哀隊趾蛤數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大離散化三種類型的屬性值:名稱型e.g. 無序集合中的值序數(shù)e.g. 有序集合中的值連續(xù)值e.g. 實數(shù)離散化將連續(xù)屬性的范圍劃分為區(qū)間有效的規(guī)約數(shù)據(jù)基于判定樹的分類挖掘離散化的數(shù)值用于進一步分析顱鈾禿柏淵亡爆長竣燼斌館量初已瑞昂卉乳崗

15、廬咽汲企撰耳斬炎癰叭帆膛數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大離散化和概念分層離散化通過將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個數(shù)。區(qū)間的標號可以代替實際的數(shù)據(jù)值。概念分層通過使用高層的概念(比如:青年、中年、老年)來替代底層的屬性值(比如:實際的年齡數(shù)據(jù)值)來規(guī)約數(shù)據(jù)賣娛閹鄰襄朋彪椒未早巨造齡吐戊亮撂濁繭痹嗽凍他弄蚤數(shù)更絆蜘將泰引數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)數(shù)值的離散化和概念分層生成分箱(binning)分箱技術遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層。直方圖分析(histogram)直方圖分析方法遞歸的應用于每一部分,可以自動產(chǎn)生多級概念分層。聚類分析將數(shù)據(jù)

16、劃分成簇,每個簇形成同一個概念層上的一個節(jié)點,每個簇可再分成多個子簇,形成子節(jié)點?;陟氐碾x散化通過自然劃分分段疾倫絮拯堵愁緬賜盾籠凳鄧漣露饅沿吮友檸虎厭敘映擠醉炸審瘍炳遞菱畝數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大通過自然劃分分段將數(shù)值區(qū)域劃分為相對一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。聚類分析產(chǎn)生概念分層可能會將一個工資區(qū)間劃分為:51263.98, 60872.34通常數(shù)據(jù)分析人員希望看到劃分的形式為50000,60000自然劃分的3-4-5規(guī)則常被用來將數(shù)值數(shù)據(jù)劃分為相對一致,“更自然”的區(qū)間仰田卜釜且圓殼蝕瀾煩銹繳瓶票譽堵窺土管催滴巳訝減架斃丘攤萍葷耍肛數(shù)據(jù)挖掘3數(shù)據(jù)

17、預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大自然劃分的3-4-5規(guī)則規(guī)則的劃分步驟:如果一個區(qū)間最高有效位上包含3,6,7或9個不同的值,就將該區(qū)間劃分為3個等寬子區(qū)間;(72,3,2)如果一個區(qū)間最高有效位上包含2,4,或8個不同的值,就將該區(qū)間劃分為4個等寬子區(qū)間;如果一個區(qū)間最高有效位上包含1,5,或10個不同的值,就將該區(qū)間劃分為5個等寬子區(qū)間;將該規(guī)則遞歸的應用于每個子區(qū)間,產(chǎn)生給定數(shù)值屬性的概念分層;對于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時,選用一個大部分的概率空間。e.g. 5%-95%駒猩示株芬怖鎊犬稗夜轍弦官嘻久肢花焙若埂屎譏夏締水亭

18、兒輸位閥擰令數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大數(shù)據(jù)挖掘3數(shù)據(jù)預處理浙大3-4-5規(guī)則例子(-$4000 -$5,000)(-$400 - 0)(-$400 - -$300)(-$300 - -$200)(-$200 - -$100)(-$100 - 0)(0 - $1,000)(0 - $200)($200 - $400)($400 - $600)($600 - $800)($800 - $1,000)($2,000 - $5, 000)($2,000 - $3,000)($3,000 - $4,000)($4,000 - $5,000)($1,000 - $2, 000)($1,000 - $1,200)($1,200 - $1,400)($1,400 - $1,600)($1,600 - $1,800)($1,800 - $2,000) msd=1,000Low=-$1,000High=$2,000第二步第四步第一步 -$351-$159pr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論