




已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
.1,數(shù)據(jù)預(yù)處理,2、為什么要預(yù)處理數(shù)據(jù)?數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘(知識(shí)發(fā)現(xiàn))過程中的一個(gè)重要步驟,尤其是在對(duì)有噪聲、不完整甚至不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),需要進(jìn)行數(shù)據(jù)預(yù)處理來提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,最終達(dá)到提高數(shù)據(jù)挖掘所獲得的模式知識(shí)質(zhì)量的目的。為什么我們要預(yù)處理數(shù)據(jù)?真實(shí)世界的數(shù)據(jù)是“臟的”和不完整的:一些有趣的屬性缺少屬性值并包含噪音;包含錯(cuò)誤或異常(偏離預(yù)期值)的數(shù)據(jù)是不一致的:編碼或命名存在差異。沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果。高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)倉(cāng)庫(kù)。需要高質(zhì)量數(shù)據(jù)的一致集成,以使挖掘過程更加有效和容易。從多個(gè)方面檢查數(shù)據(jù)質(zhì)量,如準(zhǔn)確性、完整性、一致性、及時(shí)性、可信度、附加值、可解釋性)。5、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理、缺失值填充、平滑噪聲數(shù)據(jù)、識(shí)別和刪除孤立點(diǎn)、解決不一致數(shù)據(jù)整合、整合多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化和聚集數(shù)據(jù)縮減(約簡(jiǎn))的主要方法,以獲得數(shù)據(jù)集的壓縮表示,該數(shù)據(jù)集小得多但可以獲得相同或相似的結(jié)果。6,F(xiàn)ormsofDataPreprocessing,7,數(shù)據(jù)清理-空缺值,數(shù)據(jù)并不總是完整的,例如,在數(shù)據(jù)庫(kù)表中,許多記錄的相應(yīng)字段沒有相應(yīng)的值。例如,銷售表中的客戶收入導(dǎo)致空缺值的原因與其他現(xiàn)有數(shù)據(jù)不一致,并且由于誤解而未輸入的數(shù)據(jù)被刪除。輸入時(shí),應(yīng)在扣除后添加一些數(shù)據(jù),因?yàn)槲磳?duì)其進(jìn)行估價(jià),并且未輸入空缺值。8。如何處理空值并忽略記錄:如果記錄中的屬性值缺失,該記錄將被排除在數(shù)據(jù)挖掘過程之外,尤其是當(dāng)classlabel的值不可用并且需要進(jìn)行分類數(shù)據(jù)挖掘時(shí)。當(dāng)每個(gè)屬性的缺失值百分比變化很大時(shí),其效果很差。9、如何處理空缺值,手工填寫空缺值:工作量大,可行性低,用全局變量填寫空缺值:一個(gè)屬性的所有缺失值都用預(yù)定值填寫。例如,未知或-或確定用于用屬性的平均值填充缺失值。10、如何處理缺失值,以及用同一類別的平均值填充缺失值的方法特別適用于分類挖掘。例如,如果您想根據(jù)信用風(fēng)險(xiǎn)(credit_risk)對(duì)購(gòu)物中心客戶進(jìn)行分類,您可以使用同一信用風(fēng)險(xiǎn)類別下屬性的平均值(如good)來填寫同一信用風(fēng)險(xiǎn)類別下屬性的所有缺失值。數(shù)據(jù)清理噪聲數(shù)據(jù),噪聲:噪聲數(shù)據(jù)的原因由隨機(jī)誤差或測(cè)量變量數(shù)據(jù)收集工具的變化引起的問題數(shù)據(jù)輸入誤差數(shù)據(jù)傳輸誤差技術(shù)限制命名規(guī)則的不一致性,12,如何處理噪聲數(shù)據(jù),寧濱):首先對(duì)數(shù)據(jù)進(jìn)行排序,并將其劃分為等深框,然后將其劃分為(等深)框:框1: 4,8,15,21,21,24,25,28,34根據(jù)框的平均值,邊界,13,在給定數(shù)值屬性price:price的情況下,劃分排序數(shù)據(jù)(以美元為單位)的數(shù)據(jù)平滑方法。34平滑帶框平均值:框1: 9,9,9,2: 22,22,3: 29,29,29平滑帶框邊界:框1: 4,4,15,2: 21,21,24,3: 25,25,34,14,如何處理噪聲數(shù)據(jù),聚類方法:異常數(shù)據(jù)可以通過聚類分析找到,相似或相鄰的數(shù)據(jù)聚集在一起形成每個(gè)聚類集,這些聚類集之外的數(shù)據(jù)對(duì)象自然被認(rèn)為是異常數(shù)據(jù)。通過聚類分析找到孤立點(diǎn),消除噪聲,如何處理噪聲數(shù)據(jù),回歸使數(shù)據(jù)平滑,使數(shù)據(jù)適應(yīng)回歸函數(shù),數(shù)據(jù)集成,數(shù)據(jù)集成:數(shù)據(jù)挖掘任務(wù)通常涉及數(shù)據(jù)集成操作,即組合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),如數(shù)據(jù)庫(kù),公共文件等。形成統(tǒng)一的數(shù)據(jù)集,為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)集成過程中,需要考慮和解決以下問題:模式集成:不同數(shù)據(jù)源中元數(shù)據(jù)實(shí)體標(biāo)識(shí)的集成:來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界實(shí)體的匹配,例如:a cust-id=b customer _ no檢測(cè)和解決數(shù)據(jù)值與現(xiàn)實(shí)世界中同一實(shí)體的沖突,來自不同數(shù)據(jù)源的屬性值可能有不同的可能原因:不同的數(shù)據(jù)表示、不同的度量等,19.在數(shù)據(jù)集成中處理冗余數(shù)據(jù)時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)。當(dāng)集成多個(gè)數(shù)據(jù)庫(kù)時(shí),同一屬性在不同的數(shù)據(jù)庫(kù)中將有不同的字段名。一個(gè)屬性可以從另一個(gè)表派生。例如,“年薪”中的一些冗余可以通過相關(guān)性分析檢測(cè)出來。仔細(xì)整合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)可以減少或避免結(jié)果數(shù)據(jù)中的冗余和不一致,從而提高挖掘的速度和質(zhì)量。數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)轉(zhuǎn)換或合并成適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括以下處理內(nèi)容:21,數(shù)據(jù)轉(zhuǎn)換和平滑:從數(shù)據(jù)中去除噪聲(盒子分割、聚類、回歸)聚合(聚合處理):匯總或聚合數(shù)據(jù)。例如,可以匯總每日銷售額(數(shù)據(jù))以獲得月度或年度總額。該操作通常用于構(gòu)建數(shù)據(jù)立方體或分析多種精細(xì)度的數(shù)據(jù)。數(shù)據(jù)的一般化:所謂的一般化過程是用更抽象(更高級(jí))的概念來替換較低級(jí)或數(shù)據(jù)級(jí)的數(shù)據(jù)對(duì)象。例如,街道屬性可以推廣到更高級(jí)別的概念,如城市和國(guó)家。同樣,數(shù)字屬性(如年齡屬性)可以映射到更高級(jí)別的概念,如年輕、中年和老年。規(guī)范化:將屬性數(shù)據(jù)縮放到一個(gè)小的特定間隔,例如-1.0到1.0或0.0到1.0最小-最大規(guī)范化:原始數(shù)據(jù)的線性變換。假設(shè)屬性A的最小值和最大值分別是minA和maxA,計(jì)算。24、將A的值映射到vz-在區(qū)間中的分?jǐn)?shù)歸一化new_minA,new_maxA:基于A的平均值和標(biāo)準(zhǔn)偏差的屬性A的值的歸一化,計(jì)算,十進(jìn)制縮放歸一化:通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行歸一化,計(jì)算,25,數(shù)據(jù)約簡(jiǎn),數(shù)據(jù)約簡(jiǎn)技術(shù)用于幫助從原始龐大的數(shù)據(jù)集獲得一個(gè)緊湊的數(shù)據(jù)集,并保持原始數(shù)據(jù)集的完整性。因此,在緊湊數(shù)據(jù)集上的數(shù)據(jù)挖掘顯然更有效,并且挖掘的結(jié)果與使用原始數(shù)據(jù)集獲得的結(jié)果基本相同。數(shù)據(jù)立方體聚合降維數(shù)據(jù)壓縮數(shù)值降維離散化和概念分層數(shù)據(jù)降維的時(shí)間不應(yīng)超過或“抵消”數(shù)據(jù)挖掘在降維數(shù)據(jù)上節(jié)省的時(shí)間。27,數(shù)據(jù)立方體聚合,數(shù)據(jù)立方體存儲(chǔ)多維數(shù)據(jù),在最低級(jí)別創(chuàng)建的數(shù)據(jù)立方體稱為基本立方體,在最高級(jí)別提取的數(shù)據(jù)立方體稱為頂點(diǎn)立方體,最高級(jí)別的數(shù)據(jù)立方體將減少結(jié)果數(shù)據(jù)。數(shù)據(jù)立方體聚合是為了提高感興趣實(shí)體的抽象水平,從而減少結(jié)果數(shù)據(jù),方便分析和使用。降維:通過刪除不相關(guān)的屬性(或維度)來減少數(shù)據(jù)量。通常使用屬性子集選擇方法。屬性子集選擇方法:目標(biāo):找到最小屬性集,使數(shù)據(jù)類的概率分布盡可能接近使用所有屬性的原始分布。優(yōu)點(diǎn):發(fā)現(xiàn)模式中出現(xiàn)的屬性數(shù)量減少,使模式更容易理解。數(shù)據(jù)預(yù)處理和屬性子集選擇方法包括以下技術(shù):逐步向前選擇:從一個(gè)空屬性集合開始,每次選擇原始屬性集合中的最佳屬性并添加到集合中。逐步向后刪除:從整個(gè)屬性集開始,在每一步刪除屬性集中最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 橋梁工程設(shè)計(jì)考題及答案
- 幼兒園數(shù)學(xué)智慧點(diǎn)滴試題及答案
- 家具設(shè)計(jì)中如何實(shí)現(xiàn)藝術(shù)性與功能性的結(jié)合試題及答案
- 鹽湖提鋰技術(shù)成本降低與產(chǎn)能快速擴(kuò)張可行性研究報(bào)告
- 綠色環(huán)保產(chǎn)業(yè)發(fā)展資金申請(qǐng)報(bào)告:環(huán)保產(chǎn)業(yè)技術(shù)創(chuàng)新與產(chǎn)業(yè)化
- 電動(dòng)汽車安全技術(shù)的現(xiàn)狀與發(fā)展前景探討試題及答案
- 新安全工程師施工安全考點(diǎn)試題及答案
- 未來科技背景下的大學(xué)物理考試試題及答案
- 2025特崗教師招聘教學(xué)能力測(cè)試題目及答案
- 2025南航招聘空姐面試試題及答案
- 靜脈導(dǎo)管常見并發(fā)癥臨床護(hù)理實(shí)踐指南
- 圍手術(shù)期血糖管理專家共識(shí)
- 上肢肘腕關(guān)節(jié)松動(dòng)術(shù)
- 2024年3月昆明市高三語文三診一??荚嚲砀酱鸢附馕?/a>
- (高清版)DZT 0419.3-2022 礦產(chǎn)資源潛力評(píng)價(jià)規(guī)范(1:250 000)第3部分:成礦規(guī)律研究
- 科學(xué)道德與學(xué)術(shù)規(guī)范知識(shí)試題及答案
- 將健康社區(qū)納入社區(qū)發(fā)展規(guī)劃
- 痛風(fēng)科普講座課件
- 心肌梗死的早期識(shí)別與緊急處理
- 國(guó)開【形考】《管理英語(3)》形成性考核1-8答案
- 2023學(xué)年完整公開課版用戶思維
評(píng)論
0/150
提交評(píng)論