數(shù)據(jù)挖掘最新版

上傳人：闖*** IP屬地：廣東上傳時(shí)間：2020-05-22 格式：PPT 頁(yè)數(shù)：30 大小：111KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩25頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.1，數(shù)據(jù)預(yù)處理，2、為什么要預(yù)處理數(shù)據(jù)？數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘(知識(shí)發(fā)現(xiàn))過程中的一個(gè)重要步驟，尤其是在對(duì)有噪聲、不完整甚至不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)，需要進(jìn)行數(shù)據(jù)預(yù)處理來提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量，最終達(dá)到提高數(shù)據(jù)挖掘所獲得的模式知識(shí)質(zhì)量的目的。為什么我們要預(yù)處理數(shù)據(jù)？真實(shí)世界的數(shù)據(jù)是“臟的”和不完整的：一些有趣的屬性缺少屬性值并包含噪音；包含錯(cuò)誤或異常(偏離預(yù)期值)的數(shù)據(jù)是不一致的：編碼或命名存在差異。沒有高質(zhì)量的數(shù)據(jù)，就沒有高質(zhì)量的挖掘結(jié)果。高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)倉(cāng)庫(kù)。需要高質(zhì)量數(shù)據(jù)的一致集成，以使挖掘過程更加有效和容易。從多個(gè)方面檢查數(shù)據(jù)質(zhì)量，如準(zhǔn)確性、完整性、一致性、及時(shí)性、可信度、附加值、可解釋性)。5、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理、缺失值填充、平滑噪聲數(shù)據(jù)、識(shí)別和刪除孤立點(diǎn)、解決不一致數(shù)據(jù)整合、整合多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化和聚集數(shù)據(jù)縮減(約簡(jiǎn))的主要方法，以獲得數(shù)據(jù)集的壓縮表示，該數(shù)據(jù)集小得多但可以獲得相同或相似的結(jié)果。6，F(xiàn)ormsofDataPreprocessing，7，數(shù)據(jù)清理-空缺值，數(shù)據(jù)并不總是完整的，例如，在數(shù)據(jù)庫(kù)表中，許多記錄的相應(yīng)字段沒有相應(yīng)的值。例如，銷售表中的客戶收入導(dǎo)致空缺值的原因與其他現(xiàn)有數(shù)據(jù)不一致，并且由于誤解而未輸入的數(shù)據(jù)被刪除。輸入時(shí)，應(yīng)在扣除后添加一些數(shù)據(jù)，因?yàn)槲磳?duì)其進(jìn)行估價(jià)，并且未輸入空缺值。8。如何處理空值并忽略記錄：如果記錄中的屬性值缺失，該記錄將被排除在數(shù)據(jù)挖掘過程之外，尤其是當(dāng)classlabel的值不可用并且需要進(jìn)行分類數(shù)據(jù)挖掘時(shí)。當(dāng)每個(gè)屬性的缺失值百分比變化很大時(shí)，其效果很差。9、如何處理空缺值，手工填寫空缺值：工作量大，可行性低，用全局變量填寫空缺值：一個(gè)屬性的所有缺失值都用預(yù)定值填寫。例如，未知或-或確定用于用屬性的平均值填充缺失值。10、如何處理缺失值，以及用同一類別的平均值填充缺失值的方法特別適用于分類挖掘。例如，如果您想根據(jù)信用風(fēng)險(xiǎn)(credit_risk)對(duì)購(gòu)物中心客戶進(jìn)行分類，您可以使用同一信用風(fēng)險(xiǎn)類別下屬性的平均值(如good)來填寫同一信用風(fēng)險(xiǎn)類別下屬性的所有缺失值。數(shù)據(jù)清理噪聲數(shù)據(jù)，噪聲：噪聲數(shù)據(jù)的原因由隨機(jī)誤差或測(cè)量變量數(shù)據(jù)收集工具的變化引起的問題數(shù)據(jù)輸入誤差數(shù)據(jù)傳輸誤差技術(shù)限制命名規(guī)則的不一致性，12，如何處理噪聲數(shù)據(jù)，寧濱):首先對(duì)數(shù)據(jù)進(jìn)行排序，并將其劃分為等深框，然后將其劃分為(等深)框：框1: 4，8，15，21，21，24，25，28，34根據(jù)框的平均值，邊界，13，在給定數(shù)值屬性price:price的情況下，劃分排序數(shù)據(jù)(以美元為單位)的數(shù)據(jù)平滑方法。34平滑帶框平均值：框1: 9，9，9，2: 22，22，3: 29，29，29平滑帶框邊界：框1: 4，4，15，2: 21，21，24，3: 25，25，34，14，如何處理噪聲數(shù)據(jù)，聚類方法：異常數(shù)據(jù)可以通過聚類分析找到，相似或相鄰的數(shù)據(jù)聚集在一起形成每個(gè)聚類集，這些聚類集之外的數(shù)據(jù)對(duì)象自然被認(rèn)為是異常數(shù)據(jù)。通過聚類分析找到孤立點(diǎn)，消除噪聲，如何處理噪聲數(shù)據(jù)，回歸使數(shù)據(jù)平滑，使數(shù)據(jù)適應(yīng)回歸函數(shù)，數(shù)據(jù)集成，數(shù)據(jù)集成：數(shù)據(jù)挖掘任務(wù)通常涉及數(shù)據(jù)集成操作，即組合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)，如數(shù)據(jù)庫(kù)，公共文件等。形成統(tǒng)一的數(shù)據(jù)集，為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)集成過程中，需要考慮和解決以下問題：模式集成：不同數(shù)據(jù)源中元數(shù)據(jù)實(shí)體標(biāo)識(shí)的集成：來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的匹配，例如：a cust-id=b customer _ no檢測(cè)和解決數(shù)據(jù)值與現(xiàn)實(shí)世界中同一實(shí)體的沖突，來自不同數(shù)據(jù)源的屬性值可能有不同的可能原因：不同的數(shù)據(jù)表示、不同的度量等，19.在數(shù)據(jù)集成中處理冗余數(shù)據(jù)時(shí)，經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)。當(dāng)集成多個(gè)數(shù)據(jù)庫(kù)時(shí)，同一屬性在不同的數(shù)據(jù)庫(kù)中將有不同的字段名。一個(gè)屬性可以從另一個(gè)表派生。例如，“年薪”中的一些冗余可以通過相關(guān)性分析檢測(cè)出來。仔細(xì)整合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)可以減少或避免結(jié)果數(shù)據(jù)中的冗余和不一致，從而提高挖掘的速度和質(zhì)量。數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)轉(zhuǎn)換或合并成適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括以下處理內(nèi)容：21，數(shù)據(jù)轉(zhuǎn)換和平滑：從數(shù)據(jù)中去除噪聲(盒子分割、聚類、回歸)聚合(聚合處理):匯總或聚合數(shù)據(jù)。例如，可以匯總每日銷售額(數(shù)據(jù))以獲得月度或年度總額。該操作通常用于構(gòu)建數(shù)據(jù)立方體或分析多種精細(xì)度的數(shù)據(jù)。數(shù)據(jù)的一般化：所謂的一般化過程是用更抽象(更高級(jí))的概念來替換較低級(jí)或數(shù)據(jù)級(jí)的數(shù)據(jù)對(duì)象。例如，街道屬性可以推廣到更高級(jí)別的概念，如城市和國(guó)家。同樣，數(shù)字屬性(如年齡屬性)可以映射到更高級(jí)別的概念，如年輕、中年和老年。規(guī)范化：將屬性數(shù)據(jù)縮放到一個(gè)小的特定間隔，例如-1.0到1.0或0.0到1.0最小-最大規(guī)范化：原始數(shù)據(jù)的線性變換。假設(shè)屬性A的最小值和最大值分別是minA和maxA，計(jì)算。24、將A的值映射到vz-在區(qū)間中的分?jǐn)?shù)歸一化new_minA，new_maxA:基于A的平均值和標(biāo)準(zhǔn)偏差的屬性A的值的歸一化，計(jì)算，十進(jìn)制縮放歸一化：通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行歸一化，計(jì)算，25，數(shù)據(jù)約簡(jiǎn)，數(shù)據(jù)約簡(jiǎn)技術(shù)用于幫助從原始龐大的數(shù)據(jù)集獲得一個(gè)緊湊的數(shù)據(jù)集，并保持原始數(shù)據(jù)集的完整性。因此，在緊湊數(shù)據(jù)集上的數(shù)據(jù)挖掘顯然更有效，并且挖掘的結(jié)果與使用原始數(shù)據(jù)集獲得的結(jié)果基本相同。數(shù)據(jù)立方體聚合降維數(shù)據(jù)壓縮數(shù)值降維離散化和概念分層數(shù)據(jù)降維的時(shí)間不應(yīng)超過或“抵消”數(shù)據(jù)挖掘在降維數(shù)據(jù)上節(jié)省的時(shí)間。27，數(shù)據(jù)立方體聚合，數(shù)據(jù)立方體存儲(chǔ)多維數(shù)據(jù)，在最低級(jí)別創(chuàng)建的數(shù)據(jù)立方體稱為基本立方體，在最高級(jí)別提取的數(shù)據(jù)立方體稱為頂點(diǎn)立方體，最高級(jí)別的數(shù)據(jù)立方體將減少結(jié)果數(shù)據(jù)。數(shù)據(jù)立方體聚合是為了提高感興趣實(shí)體的抽象水平，從而減少結(jié)果數(shù)據(jù)，方便分析和使用。降維：通過刪除不相關(guān)的屬性(或維度)來減少數(shù)據(jù)量。通常使用屬性子集選擇方法。屬性子集選擇方法：目標(biāo)：找到最小屬性集，使數(shù)據(jù)類的概率分布盡可能接近使用所有屬性的原始分布。優(yōu)點(diǎn)：發(fā)現(xiàn)模式中出現(xiàn)的屬性數(shù)量減少，使模式更容易理解。數(shù)據(jù)預(yù)處理和屬性子集選擇方法包括以下技術(shù)：逐步向前選擇：從一個(gè)空屬性集合開始，每次選擇原始屬性集合中的最佳屬性并添加到集合中。逐步向后刪除：從整個(gè)屬性集開始，在每一步刪除屬性集中最

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘最新版

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘最新版

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔