數(shù)據(jù)挖掘最新版_第1頁(yè)
數(shù)據(jù)挖掘最新版_第2頁(yè)
數(shù)據(jù)挖掘最新版_第3頁(yè)
數(shù)據(jù)挖掘最新版_第4頁(yè)
數(shù)據(jù)挖掘最新版_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.1,數(shù)據(jù)預(yù)處理,2、為什么要預(yù)處理數(shù)據(jù)?數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘(知識(shí)發(fā)現(xiàn))過程中的一個(gè)重要步驟,尤其是在對(duì)有噪聲、不完整甚至不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),需要進(jìn)行數(shù)據(jù)預(yù)處理來提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,最終達(dá)到提高數(shù)據(jù)挖掘所獲得的模式知識(shí)質(zhì)量的目的。為什么我們要預(yù)處理數(shù)據(jù)?真實(shí)世界的數(shù)據(jù)是“臟的”和不完整的:一些有趣的屬性缺少屬性值并包含噪音;包含錯(cuò)誤或異常(偏離預(yù)期值)的數(shù)據(jù)是不一致的:編碼或命名存在差異。沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果。高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)倉(cāng)庫(kù)。需要高質(zhì)量數(shù)據(jù)的一致集成,以使挖掘過程更加有效和容易。從多個(gè)方面檢查數(shù)據(jù)質(zhì)量,如準(zhǔn)確性、完整性、一致性、及時(shí)性、可信度、附加值、可解釋性)。5、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理、缺失值填充、平滑噪聲數(shù)據(jù)、識(shí)別和刪除孤立點(diǎn)、解決不一致數(shù)據(jù)整合、整合多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化和聚集數(shù)據(jù)縮減(約簡(jiǎn))的主要方法,以獲得數(shù)據(jù)集的壓縮表示,該數(shù)據(jù)集小得多但可以獲得相同或相似的結(jié)果。6,F(xiàn)ormsofDataPreprocessing,7,數(shù)據(jù)清理-空缺值,數(shù)據(jù)并不總是完整的,例如,在數(shù)據(jù)庫(kù)表中,許多記錄的相應(yīng)字段沒有相應(yīng)的值。例如,銷售表中的客戶收入導(dǎo)致空缺值的原因與其他現(xiàn)有數(shù)據(jù)不一致,并且由于誤解而未輸入的數(shù)據(jù)被刪除。輸入時(shí),應(yīng)在扣除后添加一些數(shù)據(jù),因?yàn)槲磳?duì)其進(jìn)行估價(jià),并且未輸入空缺值。8。如何處理空值并忽略記錄:如果記錄中的屬性值缺失,該記錄將被排除在數(shù)據(jù)挖掘過程之外,尤其是當(dāng)classlabel的值不可用并且需要進(jìn)行分類數(shù)據(jù)挖掘時(shí)。當(dāng)每個(gè)屬性的缺失值百分比變化很大時(shí),其效果很差。9、如何處理空缺值,手工填寫空缺值:工作量大,可行性低,用全局變量填寫空缺值:一個(gè)屬性的所有缺失值都用預(yù)定值填寫。例如,未知或-或確定用于用屬性的平均值填充缺失值。10、如何處理缺失值,以及用同一類別的平均值填充缺失值的方法特別適用于分類挖掘。例如,如果您想根據(jù)信用風(fēng)險(xiǎn)(credit_risk)對(duì)購(gòu)物中心客戶進(jìn)行分類,您可以使用同一信用風(fēng)險(xiǎn)類別下屬性的平均值(如good)來填寫同一信用風(fēng)險(xiǎn)類別下屬性的所有缺失值。數(shù)據(jù)清理噪聲數(shù)據(jù),噪聲:噪聲數(shù)據(jù)的原因由隨機(jī)誤差或測(cè)量變量數(shù)據(jù)收集工具的變化引起的問題數(shù)據(jù)輸入誤差數(shù)據(jù)傳輸誤差技術(shù)限制命名規(guī)則的不一致性,12,如何處理噪聲數(shù)據(jù),寧濱):首先對(duì)數(shù)據(jù)進(jìn)行排序,并將其劃分為等深框,然后將其劃分為(等深)框:框1: 4,8,15,21,21,24,25,28,34根據(jù)框的平均值,邊界,13,在給定數(shù)值屬性price:price的情況下,劃分排序數(shù)據(jù)(以美元為單位)的數(shù)據(jù)平滑方法。34平滑帶框平均值:框1: 9,9,9,2: 22,22,3: 29,29,29平滑帶框邊界:框1: 4,4,15,2: 21,21,24,3: 25,25,34,14,如何處理噪聲數(shù)據(jù),聚類方法:異常數(shù)據(jù)可以通過聚類分析找到,相似或相鄰的數(shù)據(jù)聚集在一起形成每個(gè)聚類集,這些聚類集之外的數(shù)據(jù)對(duì)象自然被認(rèn)為是異常數(shù)據(jù)。通過聚類分析找到孤立點(diǎn),消除噪聲,如何處理噪聲數(shù)據(jù),回歸使數(shù)據(jù)平滑,使數(shù)據(jù)適應(yīng)回歸函數(shù),數(shù)據(jù)集成,數(shù)據(jù)集成:數(shù)據(jù)挖掘任務(wù)通常涉及數(shù)據(jù)集成操作,即組合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),如數(shù)據(jù)庫(kù),公共文件等。形成統(tǒng)一的數(shù)據(jù)集,為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)集成過程中,需要考慮和解決以下問題:模式集成:不同數(shù)據(jù)源中元數(shù)據(jù)實(shí)體標(biāo)識(shí)的集成:來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的匹配,例如:a cust-id=b customer _ no檢測(cè)和解決數(shù)據(jù)值與現(xiàn)實(shí)世界中同一實(shí)體的沖突,來自不同數(shù)據(jù)源的屬性值可能有不同的可能原因:不同的數(shù)據(jù)表示、不同的度量等,19.在數(shù)據(jù)集成中處理冗余數(shù)據(jù)時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)。當(dāng)集成多個(gè)數(shù)據(jù)庫(kù)時(shí),同一屬性在不同的數(shù)據(jù)庫(kù)中將有不同的字段名。一個(gè)屬性可以從另一個(gè)表派生。例如,“年薪”中的一些冗余可以通過相關(guān)性分析檢測(cè)出來。仔細(xì)整合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)可以減少或避免結(jié)果數(shù)據(jù)中的冗余和不一致,從而提高挖掘的速度和質(zhì)量。數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)轉(zhuǎn)換或合并成適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括以下處理內(nèi)容:21,數(shù)據(jù)轉(zhuǎn)換和平滑:從數(shù)據(jù)中去除噪聲(盒子分割、聚類、回歸)聚合(聚合處理):匯總或聚合數(shù)據(jù)。例如,可以匯總每日銷售額(數(shù)據(jù))以獲得月度或年度總額。該操作通常用于構(gòu)建數(shù)據(jù)立方體或分析多種精細(xì)度的數(shù)據(jù)。數(shù)據(jù)的一般化:所謂的一般化過程是用更抽象(更高級(jí))的概念來替換較低級(jí)或數(shù)據(jù)級(jí)的數(shù)據(jù)對(duì)象。例如,街道屬性可以推廣到更高級(jí)別的概念,如城市和國(guó)家。同樣,數(shù)字屬性(如年齡屬性)可以映射到更高級(jí)別的概念,如年輕、中年和老年。規(guī)范化:將屬性數(shù)據(jù)縮放到一個(gè)小的特定間隔,例如-1.0到1.0或0.0到1.0最小-最大規(guī)范化:原始數(shù)據(jù)的線性變換。假設(shè)屬性A的最小值和最大值分別是minA和maxA,計(jì)算。24、將A的值映射到vz-在區(qū)間中的分?jǐn)?shù)歸一化new_minA,new_maxA:基于A的平均值和標(biāo)準(zhǔn)偏差的屬性A的值的歸一化,計(jì)算,十進(jìn)制縮放歸一化:通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行歸一化,計(jì)算,25,數(shù)據(jù)約簡(jiǎn),數(shù)據(jù)約簡(jiǎn)技術(shù)用于幫助從原始龐大的數(shù)據(jù)集獲得一個(gè)緊湊的數(shù)據(jù)集,并保持原始數(shù)據(jù)集的完整性。因此,在緊湊數(shù)據(jù)集上的數(shù)據(jù)挖掘顯然更有效,并且挖掘的結(jié)果與使用原始數(shù)據(jù)集獲得的結(jié)果基本相同。數(shù)據(jù)立方體聚合降維數(shù)據(jù)壓縮數(shù)值降維離散化和概念分層數(shù)據(jù)降維的時(shí)間不應(yīng)超過或“抵消”數(shù)據(jù)挖掘在降維數(shù)據(jù)上節(jié)省的時(shí)間。27,數(shù)據(jù)立方體聚合,數(shù)據(jù)立方體存儲(chǔ)多維數(shù)據(jù),在最低級(jí)別創(chuàng)建的數(shù)據(jù)立方體稱為基本立方體,在最高級(jí)別提取的數(shù)據(jù)立方體稱為頂點(diǎn)立方體,最高級(jí)別的數(shù)據(jù)立方體將減少結(jié)果數(shù)據(jù)。數(shù)據(jù)立方體聚合是為了提高感興趣實(shí)體的抽象水平,從而減少結(jié)果數(shù)據(jù),方便分析和使用。降維:通過刪除不相關(guān)的屬性(或維度)來減少數(shù)據(jù)量。通常使用屬性子集選擇方法。屬性子集選擇方法:目標(biāo):找到最小屬性集,使數(shù)據(jù)類的概率分布盡可能接近使用所有屬性的原始分布。優(yōu)點(diǎn):發(fā)現(xiàn)模式中出現(xiàn)的屬性數(shù)量減少,使模式更容易理解。數(shù)據(jù)預(yù)處理和屬性子集選擇方法包括以下技術(shù):逐步向前選擇:從一個(gè)空屬性集合開始,每次選擇原始屬性集合中的最佳屬性并添加到集合中。逐步向后刪除:從整個(gè)屬性集開始,在每一步刪除屬性集中最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論