版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)預(yù)處理為什么要預(yù)處理數(shù)據(jù)?現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”——數(shù)據(jù)多了,什么問(wèn)題都會(huì)出現(xiàn)不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯(cuò)誤或者“孤立點(diǎn)”不一致的:在編碼或者命名上存在差異沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成2數(shù)據(jù)質(zhì)量的多維度量一個(gè)廣為認(rèn)可的多維度量觀點(diǎn):精確度完整度一致性合乎時(shí)機(jī)可信度附加價(jià)值可訪問(wèn)性跟數(shù)據(jù)本身的含義相關(guān)的內(nèi)在的、上下文的、表象的3數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化數(shù)據(jù)歸約的一部分,通過(guò)概念分層和數(shù)據(jù)的離散化來(lái)規(guī)約數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要45數(shù)據(jù)清理6空缺值數(shù)據(jù)并不總是完整的例如:數(shù)據(jù)庫(kù)表中,很多條記錄的對(duì)應(yīng)字段沒(méi)有相應(yīng)值,比如銷售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒(méi)有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)應(yīng)為得不到重視而沒(méi)有被輸入對(duì)數(shù)據(jù)的改變沒(méi)有進(jìn)行日志記載空缺值要經(jīng)過(guò)推斷而補(bǔ)上7如何處理空缺值忽略元組:當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)涉及分類或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的效果非常差。人工填寫空缺值:工作量大,可行性低使用一個(gè)全局變量填充空缺值:比如使用unknown或-∞使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹這樣的基于推斷的方法8噪聲數(shù)據(jù)噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起噪聲數(shù)據(jù)的原因數(shù)據(jù)收集工具的問(wèn)題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤技術(shù)限制命名規(guī)則的不一致9如何處理噪聲數(shù)據(jù)分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等聚類:監(jiān)測(cè)并且去除孤立點(diǎn)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷回歸通過(guò)讓數(shù)據(jù)適應(yīng)回歸函數(shù)來(lái)平滑數(shù)據(jù)10數(shù)據(jù)平滑的分箱方法price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,3411聚類通過(guò)聚類分析查找孤立點(diǎn),消除噪聲12回歸xyy=x+1X1Y1Y1’13數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)實(shí)體識(shí)別問(wèn)題:匹配來(lái)自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體,比如:A.cust-id=B.customer_no檢測(cè)并解決數(shù)據(jù)值的沖突對(duì)現(xiàn)實(shí)世界中的同一實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等14處理數(shù)據(jù)集成中的冗余數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù)時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)同一屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如“年薪”有些冗余可以被相關(guān)分析檢測(cè)到仔細(xì)將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)集成起來(lái),能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。15數(shù)據(jù)變換 平滑:去除數(shù)據(jù)中的噪聲(分箱、聚類、回歸)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)概化:沿概念分層向上概化規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間最?。畲笠?guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過(guò)現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中;以增加對(duì)高維數(shù)據(jù)的結(jié)構(gòu)的理解和精確度16數(shù)據(jù)變換——規(guī)范化最?。畲笠?guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化其中,j是使Max(||)<1的最小整數(shù)17數(shù)據(jù)歸約策略數(shù)據(jù)倉(cāng)庫(kù)中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長(zhǎng)的時(shí)間數(shù)據(jù)歸約數(shù)據(jù)歸約可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間。18數(shù)據(jù)立方體聚集最底層的方體對(duì)應(yīng)于基本方體基本方體對(duì)應(yīng)于感興趣的實(shí)體在數(shù)據(jù)立方體中存在著不同級(jí)別的匯總數(shù)據(jù)立方體可以看成方體的格每個(gè)較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)數(shù)據(jù)立方體提供了對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速訪問(wèn)使用與給定任務(wù)相關(guān)的最小方體在可能的情況下,對(duì)于匯總數(shù)據(jù)的查詢應(yīng)當(dāng)使用數(shù)據(jù)立方體19維歸約通過(guò)刪除不相干的屬性或維減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式的(探索性的)方法逐步向前選擇逐步向后刪除向前選擇和向后刪除相結(jié)合判定歸納樹202122數(shù)據(jù)壓縮有損壓縮VS.無(wú)損壓縮字符串壓縮有廣泛的理論基礎(chǔ)和精妙的算法通常是無(wú)損壓縮在解壓縮前對(duì)字符串的操作非常有限音頻/視頻壓縮通常是有損壓縮,壓縮精度可以遞進(jìn)選擇有時(shí)可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個(gè)片斷兩種有損數(shù)據(jù)壓縮的方法:小波變換和主要成分分析23數(shù)值歸約通過(guò)選擇替代的、較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量有參方法:使用一個(gè)參數(shù)模型估計(jì)數(shù)據(jù),最后只要存儲(chǔ)參數(shù)即可。線性回歸方法:Y=α+βX多元回歸:線性回歸的擴(kuò)充對(duì)數(shù)線性模型:近似離散的多維數(shù)據(jù)概率分布無(wú)參方法:直方圖聚類選樣24直方圖一種流行的數(shù)據(jù)歸約技術(shù)將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率桶和屬性值的劃分規(guī)則等寬等深V-最優(yōu)MaxDiff25聚類將數(shù)據(jù)集劃分為聚類,然后通過(guò)聚類來(lái)表示數(shù)據(jù)集如果數(shù)據(jù)可以組成各種不同的聚類,則該技術(shù)非常有效,反之如果數(shù)據(jù)界線模糊,則方法無(wú)效數(shù)據(jù)可以分層聚類,并被存儲(chǔ)在多層索引樹中聚類的定義和算法都有很多選擇26選樣允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集對(duì)數(shù)據(jù)集D的樣本選擇:簡(jiǎn)單隨機(jī)選擇n個(gè)樣本,不回放:由D的N個(gè)元組中抽取n個(gè)樣本簡(jiǎn)單隨機(jī)選擇n個(gè)樣本,回放:過(guò)程同上,只是元組被抽取后,將被回放,可能再次被抽取聚類選樣:D中元組被分入M個(gè)互不相交的聚類中,可在其中的m個(gè)聚類上進(jìn)行簡(jiǎn)單隨機(jī)選擇(m<M)分層選樣:D被劃分為互不相交的“層”,則可通過(guò)對(duì)每一層的簡(jiǎn)單隨機(jī)選樣得到D的分層選樣27選樣——SRSSRSWOR(簡(jiǎn)單隨機(jī)選樣,不回放)SRSWR(簡(jiǎn)單隨機(jī)選樣,回放)原始數(shù)據(jù)28選樣——聚類/分層選樣原始數(shù)據(jù)聚類/分層選樣29離散化三種類型的屬性值:名稱型——e.g.無(wú)序集合中的值序數(shù)——e.g.有序集合中的值連續(xù)值——e.g.實(shí)數(shù)離散化將連續(xù)屬性的范圍劃分為區(qū)間有效的規(guī)約數(shù)據(jù)基于判定樹的分類挖掘離散化的數(shù)值用于進(jìn)一步分析30離散化和概念分層離散化通過(guò)將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間的標(biāo)號(hào)可以代替實(shí)際的數(shù)據(jù)值。概念分層通過(guò)使用高層的概念(比如:青年、中年、老年)來(lái)替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來(lái)規(guī)約數(shù)據(jù)31數(shù)據(jù)數(shù)值的離散化和概念分層生成分箱(binning)分箱技術(shù)遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層。直方圖分析(histogram)直方圖分析方法遞歸的應(yīng)用于每一部分,可以自動(dòng)產(chǎn)生多級(jí)概念分層。聚類分析將數(shù)據(jù)劃分成簇,每個(gè)簇形成同一個(gè)概念層上的一個(gè)節(jié)點(diǎn),每個(gè)簇可再分成多個(gè)子簇,形成子節(jié)點(diǎn)?;陟氐碾x散化通過(guò)自然劃分分段32通過(guò)自然劃分分段將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。聚類分析產(chǎn)生概念分層可能會(huì)將一個(gè)工資區(qū)間劃分為:[51263.98,60872.34]通常數(shù)據(jù)分析人員希望看到劃分的形式為[50000,60000]自然劃分的3-4-5規(guī)則常被用來(lái)將數(shù)值數(shù)據(jù)劃分為相對(duì)一致,“更自然”的區(qū)間33自然劃分的3-4-5規(guī)則規(guī)則的劃分步驟:如果一個(gè)區(qū)間最高有效位上包含3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;(72,3,2)如果一個(gè)區(qū)間最高有效位上包含2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間;如果一個(gè)區(qū)間最高有效位上包含1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間;將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間,產(chǎn)生給定數(shù)值屬性的概念分層;對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g.5%-95%343-4-5規(guī)則——例子(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000第二步第四步第一步-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)35分類數(shù)據(jù)的概念分層生成分類數(shù)據(jù)是指無(wú)序的離散數(shù)據(jù),它有有限個(gè)值(可能很多個(gè))。分類數(shù)據(jù)的概念分層生成方法:由用戶或?qū)<以谀J郊?jí)顯式的說(shuō)明屬性的部分序。通過(guò)顯示數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分。說(shuō)明屬性集,但不說(shuō)明它們的偏序,然后系統(tǒng)根據(jù)算法自動(dòng)產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。對(duì)只說(shuō)明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫(kù)模式中的數(shù)據(jù)語(yǔ)義定義對(duì)屬性的捆綁信息,來(lái)恢復(fù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教A版高二地理下冊(cè)月考試卷含答案
- 2025年上教版九年級(jí)化學(xué)下冊(cè)階段測(cè)試試卷含答案
- 2025年北師大新版八年級(jí)生物上冊(cè)月考試卷含答案
- 2024版二手房購(gòu)房定金合同范本
- 2025年滬教版選擇性必修3地理下冊(cè)階段測(cè)試試卷
- 2024年項(xiàng)目合作資金撥付合同
- 2025年北師大版九年級(jí)地理上冊(cè)階段測(cè)試試卷含答案
- 2024年職工餐飲服務(wù)場(chǎng)所租賃協(xié)議條款版
- 2025年外研版八年級(jí)數(shù)學(xué)下冊(cè)階段測(cè)試試卷
- 2025年外研銜接版九年級(jí)物理上冊(cè)月考試卷含答案
- 家政服務(wù)與社區(qū)合作方案
- 2024年深圳市龍崗區(qū)城市建設(shè)投資集團(tuán)有限公司招聘筆試真題
- 2024-2025學(xué)年初中七年級(jí)上學(xué)期數(shù)學(xué)期末綜合卷(人教版)含答案
- 2024-2025學(xué)年北京市朝陽(yáng)區(qū)高三上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 四年級(jí)數(shù)學(xué)(除數(shù)是兩位數(shù))計(jì)算題專項(xiàng)練習(xí)及答案
- 四川省綿陽(yáng)市涪城區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期1月期末歷史試卷(含答案)
- 2025年山東水發(fā)集團(tuán)限公司社會(huì)招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年計(jì)算機(jī)二級(jí)WPS考試題庫(kù)(共380題含答案)
- 《湖南省房屋建筑和市政工程消防質(zhì)量控制技術(shù)標(biāo)準(zhǔn)》
- 《工業(yè)園區(qū)節(jié)水管理規(guī)范》
- 警校生職業(yè)生涯規(guī)劃
評(píng)論
0/150
提交評(píng)論