第二周預(yù)處理 - ToStu_第1頁
第二周預(yù)處理 - ToStu_第2頁
第二周預(yù)處理 - ToStu_第3頁
第二周預(yù)處理 - ToStu_第4頁
第二周預(yù)處理 - ToStu_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1 1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理n數(shù)據(jù)預(yù)處理: 概述n數(shù)據(jù)質(zhì)量n數(shù)據(jù)預(yù)處理的主要任務(wù)n數(shù)據(jù)清理n數(shù)據(jù)集成n數(shù)據(jù)歸約n數(shù)據(jù)變換與數(shù)據(jù)離散化n小結(jié)2數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量: 為什么要預(yù)處理數(shù)據(jù)?為什么要預(yù)處理數(shù)據(jù)?n度量數(shù)據(jù)質(zhì)量: 涉及許多因素n準(zhǔn)確性: 正確的或錯誤的, 準(zhǔn)確的或不準(zhǔn)確的n完整性: 沒有被記錄, 缺失的, n一致性: 一些數(shù)據(jù)修改了,但一些沒有,n時效性: 及時更新? n可信性: 有多少數(shù)據(jù)是用戶信賴的?n可解釋性: 數(shù)據(jù)是否容易理解? 3數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)預(yù)處理的主要任務(wù)n數(shù)據(jù)清理數(shù)據(jù)清理n填寫缺失的值, 光滑噪聲數(shù)據(jù), 識別或刪除離群點(diǎn), 和解決不一致性n數(shù)據(jù)集成數(shù)據(jù)集成n集成多個

2、數(shù)據(jù)庫、數(shù)據(jù)立方體或文件n數(shù)據(jù)歸約數(shù)據(jù)歸約n維規(guī)約n數(shù)量規(guī)約n數(shù)據(jù)壓縮n數(shù)據(jù)變化與數(shù)據(jù)離散化數(shù)據(jù)變化與數(shù)據(jù)離散化n規(guī)范化n概念分層產(chǎn)生4 4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理n數(shù)據(jù)預(yù)處理: 概述n數(shù)據(jù)質(zhì)量n數(shù)據(jù)預(yù)處理的主要任務(wù)n數(shù)據(jù)清理n數(shù)據(jù)集成n數(shù)據(jù)歸約n數(shù)據(jù)變換與數(shù)據(jù)離散化n小結(jié)5數(shù)據(jù)清理數(shù)據(jù)清理n現(xiàn)實世界的數(shù)據(jù)一般是不完整的、有噪聲的和不一致的。例如,設(shè)備故障,人或計算機(jī)的錯誤,傳輸錯誤n不完整: 缺失屬性值, 缺失某些感興趣的屬性n例如, Occupation=“ ” (缺失數(shù)據(jù))n有噪聲: 包含噪聲,錯誤或者離群點(diǎn)n例如, Salary=“10” (錯誤)n不一致: 包括代碼或命名的不一致, 例如

3、,nAge=“42”, Birthday=“03/07/2010”n以前用 “1, 2, 3”評級, 現(xiàn)在用 “A, B, C”評級n重復(fù)記錄的不一致n故意故意 (例如, 被掩蓋的缺失數(shù)據(jù))n為生日選擇默認(rèn)值“1月1日”6缺失值缺失值n數(shù)據(jù)并非總是可以得到n例如, 許多元組的一些屬性沒有記錄值,如銷售數(shù)據(jù)中顧客的incomen缺失數(shù)據(jù)可能由于n設(shè)備故障n與其他記錄不一致的數(shù)據(jù)可能已經(jīng)被刪除n由于理解錯誤數(shù)據(jù)沒有被錄入n某些數(shù)據(jù)輸入時認(rèn)為是不重要的n歷史或修改的數(shù)據(jù)可能被忽略n缺失的數(shù)據(jù)可能需要推導(dǎo)出來7如何處理缺失數(shù)據(jù)?如何處理缺失數(shù)據(jù)?n忽略元組: 當(dāng)缺少類標(biāo)號時通常這樣做 (涉及分類時)除

4、非元組有多個屬性缺失值,否則該方法不是很有效n人工填寫缺失值: 費(fèi)時 + 行不通(數(shù)據(jù)集大時)n自動填充,使用n一個全局常量: 例如, “unknown”, 一個新的類別?! n屬性的均值n與給定元組屬同一類的所有樣本的屬性均值n最可能的值: 使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定8噪聲數(shù)據(jù)噪聲數(shù)據(jù)n噪聲: 被測量的變量的隨機(jī)誤差或方差n不正確的屬性值可能由于n收集數(shù)據(jù)的設(shè)備可能存在故障n數(shù)據(jù)輸入問題n數(shù)據(jù)傳輸問題n技術(shù)限制n命名約定不一致n其他需要清理的數(shù)據(jù)問題n重復(fù)記錄n不完整數(shù)據(jù)n不一致數(shù)據(jù)9如何處理噪聲數(shù)據(jù)如何處理噪聲數(shù)據(jù)?n分箱n將有序的值分布到一些(等頻)箱中n然后用

5、箱均值,箱中位數(shù),或箱邊界光滑數(shù)據(jù)n回歸n用回歸函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)n聚類n檢測和刪除離群點(diǎn)n結(jié)合計算機(jī)和人來檢查n刪除可疑數(shù)值(例如,處理可能的離群點(diǎn))10數(shù)據(jù)清理作為一個過程數(shù)據(jù)清理作為一個過程n數(shù)據(jù)偏差檢測n使用元數(shù)據(jù) (例如, 定義域, 值域, 依賴性, 分布)n檢查字段過載n檢查唯一性規(guī)則, 連續(xù)性規(guī)則和空值規(guī)則n使用商業(yè)工具n數(shù)據(jù)清洗: 使用簡單的領(lǐng)域知識 (如, 郵政地址知識, 拼寫檢查),檢查并糾正數(shù)據(jù)中的錯誤n數(shù)據(jù)審計: 通過分析數(shù)據(jù)發(fā)現(xiàn)規(guī)則和聯(lián)系,并檢測違反這些條件的數(shù)據(jù) (例如, 通過相關(guān)分析和聚類來發(fā)現(xiàn)離群點(diǎn))n數(shù)據(jù)遷移n數(shù)據(jù)遷移工具: 允許說明變換nETL (Ext

6、raction/Transformation/Loading,提取/變換/裝入) 工具: 允許用戶通過圖形用戶界面說明變換n結(jié)合兩步過程n迭代和交互 (例如, Potters Wheels)1111數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理n數(shù)據(jù)預(yù)處理: 概述n數(shù)據(jù)質(zhì)量n數(shù)據(jù)預(yù)處理的主要任務(wù)n數(shù)據(jù)清理n數(shù)據(jù)集成n數(shù)據(jù)歸約n數(shù)據(jù)變換與數(shù)據(jù)離散化n小結(jié)1212數(shù)據(jù)集成數(shù)據(jù)集成n數(shù)據(jù)集成數(shù)據(jù)集成: n合并來自多個數(shù)據(jù)源的數(shù)據(jù)n冗余: 如, A.cust-id B.cust-#n實體識別問題: n識別來自多個數(shù)據(jù)源的現(xiàn)實世界的等價實體, 例如, Bill Clinton = William Clintonn數(shù)據(jù)值沖突的檢測

7、與處理n對于現(xiàn)實世界的同一實體, 來自不同數(shù)據(jù)源的屬性值可能不同n可能的原因: 不同表示, 不同尺度, 例如, 公制單位 vs. 英制單位1313數(shù)據(jù)集成中的冗余處理數(shù)據(jù)集成中的冗余處理n當(dāng)集成多個數(shù)據(jù)庫時,冗余數(shù)據(jù)產(chǎn)生n屬性識別: 相同屬性在不同數(shù)據(jù)庫中的名稱可能不一樣n可導(dǎo)出數(shù)據(jù): 某些屬性可能是由其他屬性導(dǎo)出的, 如, 年收入n冗余屬性可以通過相關(guān)分析和協(xié)方差分析檢測到n小心集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,提高其后挖掘過程的準(zhǔn)確性和速度14相關(guān)分析相關(guān)分析 (標(biāo)稱數(shù)據(jù)標(biāo)稱數(shù)據(jù))n2 (卡方) 檢驗n假設(shè)屬性A有c個不同值,B有r個不同值;oij是聯(lián)合事件(Ai, Bj)的觀測頻度

8、,而eij是(Ai, Bj)的期望頻度neij=count(A=ai) count(B=bj)/n, 其中n是數(shù)據(jù)元組的個數(shù),count(A=ai)是A上具有值ai的元組個數(shù),而 count(B=bj)是B上具有值bj的元組個數(shù)。n2 值越大, 變量相關(guān)的可能性越大cirjijijijeeo1122152 計算計算: 一個例子一個例子n2 (卡方) 計算 (括號中的數(shù)是根據(jù)兩個屬性的數(shù)據(jù)分布得到的期望頻率)n計算結(jié)果顯示like_science_fiction 和 play_chess 兩個屬性是相關(guān)的93.507840)8401000(360)360200(210)21050(90)9025

9、0(22222Play chessNot play chessSum (row)Like science fiction250(90)200(360)450Not like science fiction50(210)1000(840)1050Sum(col.)3001200150016相關(guān)分析相關(guān)分析 (數(shù)值數(shù)據(jù)數(shù)值數(shù)據(jù))n相關(guān)系數(shù) (又稱Pearson積矩系數(shù))其中 n 是元組的個數(shù), 和 分別是A 和 B的均值, A 和 B 分別是A 和 B的標(biāo)準(zhǔn)差, 而 (aibi) 是 AB 叉積和(即對于每個元組,A的值乘以該元組B的值).n如果 rA,B 0, 則A 和 B 是正相關(guān)的 (A值隨

10、B值的增加而增加). 該值越大, 相關(guān)性越強(qiáng).nrA,B = 0: A和B是獨(dú)立的; rAB 0, 則A和B趨向于均大于他們的期望值.n負(fù)的協(xié)方差負(fù)的協(xié)方差: 如果 CovA,B 0.2020數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理n數(shù)據(jù)預(yù)處理: 概述n數(shù)據(jù)質(zhì)量n數(shù)據(jù)預(yù)處理的主要任務(wù)n數(shù)據(jù)清理n數(shù)據(jù)集成n數(shù)據(jù)歸約n數(shù)據(jù)變換與數(shù)據(jù)離散化n小結(jié)21數(shù)據(jù)規(guī)約策略數(shù)據(jù)規(guī)約策略n數(shù)據(jù)歸約數(shù)據(jù)歸約: 可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近于保持原始數(shù)據(jù)的完整性,即在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行В匀划a(chǎn)生相同(或幾乎相同)的分析結(jié)果n為什么要數(shù)據(jù)歸約? 數(shù)據(jù)集可能非常大,在海量數(shù)據(jù)上進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L

11、時間n數(shù)據(jù)歸約策略n維歸約,例如, 刪除不重要的屬性n小波變換n主成分分析 (PCA)n屬性子集選擇n數(shù)量歸約n回歸和對數(shù)線性模型n直方圖, 聚類, 抽樣n數(shù)據(jù)立方體聚集n數(shù)據(jù)壓縮22數(shù)據(jù)歸約數(shù)據(jù)歸約1: 維歸約維歸約n維歸約技術(shù)維歸約技術(shù)n小波變換n主成分分析n監(jiān)督的非線性技術(shù) (例如, 屬性子集選擇)23小波變換小波變換n每個元組看做一個n維數(shù)據(jù)向量,即X=(x1,x2,xn)n壓縮近似: 僅存放一小部分最強(qiáng)的小波系數(shù)n與離散傅里葉變換相似,但有更好的有損壓縮n方法:n輸入數(shù)據(jù)向量的長度 L 必須是2的整數(shù)冪 (必要時,通過在向量后面添加0)n每次變換涉及兩個函數(shù): 平滑, 差分n兩個函數(shù)

12、作用于X中的數(shù)據(jù)點(diǎn)對,導(dǎo)致兩個長度為L/2的數(shù)據(jù)集n遞歸地應(yīng)用兩個函數(shù), 直到得到的結(jié)果數(shù)據(jù)集的長度為224小波分解小波分解nS = 2, 2, 0, 2, 3, 5, 4, 4 可以被變換為S = 23/4, -11/4, 1/2, 0, 0, -1, -1, 0n壓縮: 許多小的細(xì)節(jié)的系數(shù)可以被0取代, 只保留最強(qiáng)的小波系數(shù)25x2x1e主成分分析主成分分析 (PCA)n假設(shè)待歸約數(shù)據(jù)由用n個屬性或維描述的元組組成,PCA搜索k個最能代表數(shù)據(jù)的n維正交向量。n將原數(shù)據(jù)投影到一個小得多的空間上,導(dǎo)致維歸約。26n給定N 個具有n個屬性或維的數(shù)據(jù)向量,搜索k n 個最能代表數(shù)據(jù)的正交向量n對輸

13、入數(shù)據(jù)規(guī)范化: 使得每個屬性都落入相同的區(qū)間n計算 k 個標(biāo)準(zhǔn)正交向量即主成分n每個輸入數(shù)據(jù)是k 個主成分向量的線性組合n對主成分按“重要性”或強(qiáng)度降序排列n既然主成分根據(jù)“重要性”降序排列,因此可以去掉較弱的成分(即方差較小的那些)來歸約數(shù)據(jù)n僅用于數(shù)值數(shù)據(jù)主成分分析主成分分析 (步驟步驟)27屬性子集選擇屬性子集選擇n另一種減少數(shù)據(jù)維數(shù)的方法n冗余屬性 n復(fù)制已經(jīng)包含在其他屬性中的信息n例如, 一個商品的購買價格和應(yīng)付的銷售稅n不相關(guān)屬性n與當(dāng)前挖掘任務(wù)不相關(guān)的屬性n例如, 學(xué)生的ID通常與預(yù)測學(xué)生GPA的任務(wù)不相關(guān)28數(shù)據(jù)歸約數(shù)據(jù)歸約2: 數(shù)量歸約數(shù)量歸約n用替代的、較小的數(shù)據(jù)表示形式替

14、換原數(shù)據(jù)n參數(shù)化方法參數(shù)化方法 (例如, 回歸)n使用模型估計數(shù)據(jù), 估計模型參數(shù), 只存放模型參數(shù), 丟棄實際數(shù)據(jù) (可能的離群點(diǎn)除外)n例如: 對數(shù)線性模型n非參數(shù)化方法非參數(shù)化方法n不假設(shè)模型n主要有: 直方圖, 聚類, 抽樣, 29參數(shù)化數(shù)據(jù)歸約參數(shù)化數(shù)據(jù)歸約: 回歸和對數(shù)線性模型回歸和對數(shù)線性模型n線性回歸線性回歸n對數(shù)據(jù)建模,使之?dāng)M合到一條直線n常常采用最小二乘法擬合直線n多元回歸多元回歸n是線性回歸的擴(kuò)展,允許用兩個或多個自變量的線性函數(shù)對因變量y建模n對數(shù)線性模型對數(shù)線性模型n近似離散的多維概率分布30回歸分析回歸分析n回歸分析: 對包含一個或多個自變量一個或多個自變量和一個一

15、個因變量因變量的數(shù)值數(shù)據(jù)建模和分析n估計參數(shù)給出數(shù)據(jù)的“最佳最佳” 擬合n通常最佳擬合用最小二乘法估計,但也可能用其他標(biāo)準(zhǔn)yxy = x + 1X1Y1Y131n線性回歸: Y = w X + bn兩個回歸系數(shù) w 和 b, 通過實際數(shù)據(jù)估計n對已知的數(shù)值 Y1, Y2, , X1, X2, .采用最小二乘法求解n多元回歸: Y = b0 + b1 X1 + b2 X2n許多非線性函數(shù)可以轉(zhuǎn)換為以上多元回歸n對數(shù)線性模型:n近似離散的多維概率分布n把每個元組看做n維空間的點(diǎn),估計多維空間中每個點(diǎn)的概率n用于維歸約與數(shù)據(jù)平滑回歸分析和對數(shù)線性模型回歸分析和對數(shù)線性模型32直方圖分析直方圖分析n將

16、數(shù)據(jù)劃分為不相交的桶,每個桶中n劃分規(guī)則:n等寬: 每個桶的寬度區(qū)間是一致的n等頻:每個桶大致包含相同個數(shù)的鄰近數(shù)據(jù)樣本051015202530354010000200003000040000500006000070000800009000010000033抽樣抽樣n抽樣: 用數(shù)據(jù)的小得多的隨機(jī)樣本表示大型數(shù)據(jù)集n主要原理: 選擇數(shù)據(jù)的一個代表性子集n簡單隨機(jī)抽樣在傾斜分布數(shù)據(jù)上表現(xiàn)不好n進(jìn)而發(fā)展出分層抽樣分層抽樣34抽樣類型抽樣類型n簡單隨機(jī)抽樣簡單隨機(jī)抽樣n每個特定的樣本被選中的概率相等n無放回抽樣無放回抽樣n一旦樣本被選中,則不放回數(shù)據(jù)集中n有放回抽樣有放回抽樣n被選中的樣本,記錄它,然

17、后放回原處n分層抽樣分層抽樣: n將數(shù)據(jù)集劃分成互不相交的部分,稱做“層”,通過對每一層的簡單隨機(jī)抽樣就可以得到數(shù)據(jù)集的分層抽樣n可以用到傾斜分布數(shù)據(jù)中3535數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理n數(shù)據(jù)預(yù)處理: 概述n數(shù)據(jù)質(zhì)量n數(shù)據(jù)預(yù)處理的主要任務(wù)n數(shù)據(jù)清理n數(shù)據(jù)集成n數(shù)據(jù)歸約n數(shù)據(jù)變換與數(shù)據(jù)離散化n小結(jié)36數(shù)據(jù)變換數(shù)據(jù)變換n將給定屬性的所有值映射到一組新的代替值,每個舊的值都可以通過一個新的值識別n數(shù)據(jù)變換策略n光滑: 去掉數(shù)據(jù)中的噪聲,如分箱,回歸和聚類n屬性/特征構(gòu)造n由給定的屬性構(gòu)造新的屬性n聚集: 匯總, 數(shù)據(jù)立方體構(gòu)造n規(guī)范化: 縮放數(shù)據(jù)使之落入一個特定的小區(qū)間n最小-最大規(guī)范化nZ分?jǐn)?shù)( z-s

18、core )規(guī)范化n小數(shù)定標(biāo)規(guī)范化n離散化: 概念分層37規(guī)范化規(guī)范化n最小最小-最大規(guī)范化最大規(guī)范化: 到 new_minA, new_maxAn例如 將收入范圍 $12,000 到 $98,000 規(guī)范化到 0.0, 1.0. 然后 $73,000 被映射成nz分?jǐn)?shù)規(guī)范化分?jǐn)?shù)規(guī)范化 (: 均值, : 標(biāo)準(zhǔn)差):n例如 = 54,000, = 16,000. 那么n小數(shù)定標(biāo)規(guī)范化小數(shù)定標(biāo)規(guī)范化716. 00)00 . 1 (000,12000,98000,12600,73AAAAAAminnewminnewmaxnewminmaxminvv_)_(AAvvjvv10其中 j 是使得Max(|) 1的最小整數(shù)225. 1000,16000,54600,7338離散化離散化n三種類型屬性n標(biāo)稱值是無需的, 例如, 顏色, 職業(yè)n序數(shù)值是有序的, 例如, 軍階或者職稱 n數(shù)值定量的, 例如, 整數(shù)或者實數(shù)n離散化: 將連續(xù)屬性值離散化n區(qū)間標(biāo)簽用來代替實際的數(shù)值n通過離散化減小數(shù)據(jù)集尺寸n監(jiān)督和非監(jiān)督n分裂(自頂向下) 和合并 (自底向上)n離散化可以遞歸地在一個屬性上進(jìn)行n為進(jìn)一步的分析做準(zhǔn)備, 例如, 分類39數(shù)據(jù)離散化方法數(shù)據(jù)離散化方法n主要方法: 所有方法均可遞歸進(jìn)行n分箱n自頂向下分裂, 非監(jiān)督n直方圖分析n自頂向下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論