第二周預(yù)處理 - ToStu_第1頁
第二周預(yù)處理 - ToStu_第2頁
第二周預(yù)處理 - ToStu_第3頁
第二周預(yù)處理 - ToStu_第4頁
第二周預(yù)處理 - ToStu_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

11數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化小結(jié)2數(shù)據(jù)質(zhì)量:為什么要預(yù)處理數(shù)據(jù)?度量數(shù)據(jù)質(zhì)量:涉及許多因素準(zhǔn)確性:正確的或錯(cuò)誤的,準(zhǔn)確的或不準(zhǔn)確的完整性:沒有被記錄,缺失的,…一致性:一些數(shù)據(jù)修改了,但一些沒有,…時(shí)效性:及時(shí)更新?可信性:有多少數(shù)據(jù)是用戶信賴的?可解釋性:數(shù)據(jù)是否容易理解?3數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填寫缺失的值,光滑噪聲數(shù)據(jù),識別或刪除離群點(diǎn),和解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件數(shù)據(jù)歸約維規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮數(shù)據(jù)變化與數(shù)據(jù)離散化規(guī)范化概念分層產(chǎn)生44數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化小結(jié)5數(shù)據(jù)清理現(xiàn)實(shí)世界的數(shù)據(jù)一般是不完整的、有噪聲的和不一致的。例如,設(shè)備故障,人或計(jì)算機(jī)的錯(cuò)誤,傳輸錯(cuò)誤不完整:缺失屬性值,缺失某些感興趣的屬性例如,Occupation=“”(缺失數(shù)據(jù))有噪聲:包含噪聲,錯(cuò)誤或者離群點(diǎn)例如,Salary=“?10”(錯(cuò)誤)不一致:包括代碼或命名的不一致,例如,Age=“42”,Birthday=“03/07/2010”以前用“1,2,3”評級,現(xiàn)在用“A,B,C”評級重復(fù)記錄的不一致故意

(例如,被掩蓋的缺失數(shù)據(jù))為生日選擇默認(rèn)值“1月1日”6缺失值數(shù)據(jù)并非總是可以得到例如,許多元組的一些屬性沒有記錄值,如銷售數(shù)據(jù)中顧客的income缺失數(shù)據(jù)可能由于設(shè)備故障與其他記錄不一致的數(shù)據(jù)可能已經(jīng)被刪除由于理解錯(cuò)誤數(shù)據(jù)沒有被錄入某些數(shù)據(jù)輸入時(shí)認(rèn)為是不重要的歷史或修改的數(shù)據(jù)可能被忽略缺失的數(shù)據(jù)可能需要推導(dǎo)出來7如何處理缺失數(shù)據(jù)?忽略元組:當(dāng)缺少類標(biāo)號時(shí)通常這樣做(涉及分類時(shí))—除非元組有多個(gè)屬性缺失值,否則該方法不是很有效人工填寫缺失值:費(fèi)時(shí)+行不通(數(shù)據(jù)集大時(shí))自動(dòng)填充,使用一個(gè)全局常量:例如,“unknown”,一個(gè)新的類別?!屬性的均值與給定元組屬同一類的所有樣本的屬性均值最可能的值:使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定8噪聲數(shù)據(jù)噪聲:被測量的變量的隨機(jī)誤差或方差不正確的屬性值可能由于收集數(shù)據(jù)的設(shè)備可能存在故障數(shù)據(jù)輸入問題數(shù)據(jù)傳輸問題技術(shù)限制命名約定不一致其他需要清理的數(shù)據(jù)問題重復(fù)記錄不完整數(shù)據(jù)不一致數(shù)據(jù)9如何處理噪聲數(shù)據(jù)?分箱將有序的值分布到一些(等頻)箱中然后用箱均值,箱中位數(shù),或箱邊界光滑數(shù)據(jù)回歸用回歸函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)聚類檢測和刪除離群點(diǎn)結(jié)合計(jì)算機(jī)和人來檢查刪除可疑數(shù)值(例如,處理可能的離群點(diǎn))10數(shù)據(jù)清理作為一個(gè)過程數(shù)據(jù)偏差檢測使用元數(shù)據(jù)(例如,定義域,值域,依賴性,分布)檢查字段過載檢查唯一性規(guī)則,連續(xù)性規(guī)則和空值規(guī)則使用商業(yè)工具數(shù)據(jù)清洗:使用簡單的領(lǐng)域知識(如,郵政地址知識,拼寫檢查),檢查并糾正數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù)審計(jì):通過分析數(shù)據(jù)發(fā)現(xiàn)規(guī)則和聯(lián)系,并檢測違反這些條件的數(shù)據(jù)(例如,通過相關(guān)分析和聚類來發(fā)現(xiàn)離群點(diǎn))數(shù)據(jù)遷移數(shù)據(jù)遷移工具:允許說明變換ETL(Extraction/Transformation/Loading,提取/變換/裝入)工具:允許用戶通過圖形用戶界面說明變換結(jié)合兩步過程迭代和交互(例如,Potter’sWheels)1111數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化小結(jié)1212數(shù)據(jù)集成數(shù)據(jù)集成:合并來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)冗余:如,A.cust-idB.cust-#實(shí)體識別問題:識別來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的等價(jià)實(shí)體,例如,BillClinton=WilliamClinton數(shù)據(jù)值沖突的檢測與處理對于現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同可能的原因:不同表示,不同尺度,例如,公制單位vs.英制單位1313數(shù)據(jù)集成中的冗余處理當(dāng)集成多個(gè)數(shù)據(jù)庫時(shí),冗余數(shù)據(jù)產(chǎn)生屬性識別:相同屬性在不同數(shù)據(jù)庫中的名稱可能不一樣可導(dǎo)出數(shù)據(jù):

某些屬性可能是由其他屬性導(dǎo)出的,如,年收入冗余屬性可以通過相關(guān)分析和協(xié)方差分析檢測到小心集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,提高其后挖掘過程的準(zhǔn)確性和速度14相關(guān)分析(標(biāo)稱數(shù)據(jù))Χ2(卡方)檢驗(yàn)假設(shè)屬性A有c個(gè)不同值,B有r個(gè)不同值;oij是聯(lián)合事件(Ai,Bj)的觀測頻度,而eij是(Ai,Bj)的期望頻度eij=count(A=ai)×count(B=bj)/n,其中n是數(shù)據(jù)元組的個(gè)數(shù),count(A=ai)是A上具有值ai的元組個(gè)數(shù),而count(B=bj)是B上具有值bj的元組個(gè)數(shù)。Χ2值越大,變量相關(guān)的可能性越大15Χ2計(jì)算:一個(gè)例子Χ2(卡方)計(jì)算(括號中的數(shù)是根據(jù)兩個(gè)屬性的數(shù)據(jù)分布得到的期望頻率)計(jì)算結(jié)果顯示like_science_fiction和play_chess兩個(gè)屬性是相關(guān)的PlaychessNotplaychessSum(row)Likesciencefiction250(90)200(360)450Notlikesciencefiction50(210)1000(840)1050Sum(col.)3001200150016相關(guān)分析(數(shù)值數(shù)據(jù))相關(guān)系數(shù)(又稱Pearson積矩系數(shù))其中n是元組的個(gè)數(shù),和

分別是A和B的均值,σA和

σB分別是A和B的標(biāo)準(zhǔn)差,而

Σ(aibi)是AB叉積和(即對于每個(gè)元組,A的值乘以該元組B的值).如果rA,B>0,則A和B是正相關(guān)的(A值隨B值的增加而增加).該值越大,相關(guān)性越強(qiáng).rA,B=0:A和B是獨(dú)立的;rAB<0:負(fù)相關(guān)的17估計(jì)相關(guān)性Scatterplotsshowingthesimilarityfrom–1to1.18協(xié)方差(數(shù)值數(shù)據(jù))協(xié)方差和方差類似其中n是元組的個(gè)數(shù),和

是A和B的期望值,σA和

σB是A和B的標(biāo)準(zhǔn)差.正的協(xié)方差:如果CovA,B>0,則A和B趨向于均大于他們的期望值.負(fù)的協(xié)方差:如果CovA,B<0,則如果A大于它的期望值,則B趨向于小于它的期望值.互相獨(dú)立的:CovA,B=0,然而其逆不成立:某些隨機(jī)變量對可能具有協(xié)方差0,但是不是獨(dú)立的相關(guān)系數(shù):協(xié)方差:例子可以簡化計(jì)算為假設(shè)兩個(gè)公司A和B在一周內(nèi)的股票價(jià)格如下:(2,5),(3,8),(5,10),(4,11),(6,14).問題:如果股市受相同的產(chǎn)業(yè)趨勢影響,它們的股價(jià)會一起漲跌嗎?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6Cov(A,B)=(2×5+3×8+5×10+4×11+6×14)/5?4×9.6=4因此,A和B公司的股票同時(shí)上漲,因?yàn)镃ov(A,B)>0.2020數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化小結(jié)21數(shù)據(jù)規(guī)約策略數(shù)據(jù)歸約:可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近于保持原始數(shù)據(jù)的完整性,即在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行?,仍然產(chǎn)生相同(或幾乎相同)的分析結(jié)果為什么要數(shù)據(jù)歸約?—數(shù)據(jù)集可能非常大,在海量數(shù)據(jù)上進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L時(shí)間數(shù)據(jù)歸約策略維歸約,例如,刪除不重要的屬性小波變換主成分分析(PCA)屬性子集選擇數(shù)量歸約回歸和對數(shù)線性模型直方圖,聚類,抽樣數(shù)據(jù)立方體聚集數(shù)據(jù)壓縮22數(shù)據(jù)歸約1:維歸約維歸約技術(shù)小波變換主成分分析監(jiān)督的非線性技術(shù)(例如,屬性子集選擇)23小波變換每個(gè)元組看做一個(gè)n維數(shù)據(jù)向量,即X=(x1,x2,…,xn)壓縮近似:僅存放一小部分最強(qiáng)的小波系數(shù)與離散傅里葉變換相似,但有更好的有損壓縮方法:輸入數(shù)據(jù)向量的長度L必須是2的整數(shù)冪(必要時(shí),通過在向量后面添加0)每次變換涉及兩個(gè)函數(shù):平滑,差分兩個(gè)函數(shù)作用于X中的數(shù)據(jù)點(diǎn)對,導(dǎo)致兩個(gè)長度為L/2的數(shù)據(jù)集遞歸地應(yīng)用兩個(gè)函數(shù),直到得到的結(jié)果數(shù)據(jù)集的長度為224小波分解S=[2,2,0,2,3,5,4,4]可以被變換為S^=[23/4,-11/4,1/2,0,0,-1,-1,0]壓縮:許多小的細(xì)節(jié)的系數(shù)可以被0取代,只保留最強(qiáng)的小波系數(shù)25x2x1e主成分分析(PCA)假設(shè)待歸約數(shù)據(jù)由用n個(gè)屬性或維描述的元組組成,PCA搜索k個(gè)最能代表數(shù)據(jù)的n維正交向量。將原數(shù)據(jù)投影到一個(gè)小得多的空間上,導(dǎo)致維歸約。26給定N個(gè)具有n個(gè)屬性或維的數(shù)據(jù)向量,搜索k≤n個(gè)最能代表數(shù)據(jù)的正交向量對輸入數(shù)據(jù)規(guī)范化:使得每個(gè)屬性都落入相同的區(qū)間計(jì)算

k

個(gè)標(biāo)準(zhǔn)正交向量即主成分每個(gè)輸入數(shù)據(jù)是k個(gè)主成分向量的線性組合對主成分按“重要性”或強(qiáng)度降序排列既然主成分根據(jù)“重要性”降序排列,因此可以去掉較弱的成分(即方差較小的那些)來歸約數(shù)據(jù)僅用于數(shù)值數(shù)據(jù)主成分分析(步驟)27屬性子集選擇另一種減少數(shù)據(jù)維數(shù)的方法冗余屬性

復(fù)制已經(jīng)包含在其他屬性中的信息例如,一個(gè)商品的購買價(jià)格和應(yīng)付的銷售稅不相關(guān)屬性與當(dāng)前挖掘任務(wù)不相關(guān)的屬性例如,學(xué)生的ID通常與預(yù)測學(xué)生GPA的任務(wù)不相關(guān)28數(shù)據(jù)歸約2:數(shù)量歸約用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)參數(shù)化方法

(例如,回歸)使用模型估計(jì)數(shù)據(jù),估計(jì)模型參數(shù),只存放模型參數(shù),丟棄實(shí)際數(shù)據(jù)(可能的離群點(diǎn)除外)例如:對數(shù)線性模型非參數(shù)化方法不假設(shè)模型主要有:直方圖,聚類,抽樣,…29參數(shù)化數(shù)據(jù)歸約:回歸和對數(shù)線性模型線性回歸對數(shù)據(jù)建模,使之?dāng)M合到一條直線常常采用最小二乘法擬合直線多元回歸是線性回歸的擴(kuò)展,允許用兩個(gè)或多個(gè)自變量的線性函數(shù)對因變量y建模對數(shù)線性模型近似離散的多維概率分布30回歸分析回歸分析:

對包含一個(gè)或多個(gè)自變量和一個(gè)因變量的數(shù)值數(shù)據(jù)建模和分析估計(jì)參數(shù)給出數(shù)據(jù)的“最佳”

擬合通常最佳擬合用最小二乘法估計(jì),但也可能用其他標(biāo)準(zhǔn)yxy=x+1X1Y1Y1’31線性回歸:Y=wX+b兩個(gè)回歸系數(shù)

w

b,

通過實(shí)際數(shù)據(jù)估計(jì)對已知的數(shù)值

Y1,Y2,…,X1,X2,….采用最小二乘法求解多元回歸:Y=b0+b1X1+b2X2許多非線性函數(shù)可以轉(zhuǎn)換為以上多元回歸對數(shù)線性模型:近似離散的多維概率分布把每個(gè)元組看做n維空間的點(diǎn),估計(jì)多維空間中每個(gè)點(diǎn)的概率用于維歸約與數(shù)據(jù)平滑回歸分析和對數(shù)線性模型32直方圖分析將數(shù)據(jù)劃分為不相交的桶,每個(gè)桶中劃分規(guī)則:等寬:每個(gè)桶的寬度區(qū)間是一致的等頻:每個(gè)桶大致包含相同個(gè)數(shù)的鄰近數(shù)據(jù)樣本33抽樣抽樣:用數(shù)據(jù)的小得多的隨機(jī)樣本表示大型數(shù)據(jù)集主要原理:選擇數(shù)據(jù)的一個(gè)代表性子集簡單隨機(jī)抽樣在傾斜分布數(shù)據(jù)上表現(xiàn)不好進(jìn)而發(fā)展出分層抽樣34抽樣類型簡單隨機(jī)抽樣每個(gè)特定的樣本被選中的概率相等無放回抽樣一旦樣本被選中,則不放回?cái)?shù)據(jù)集中有放回抽樣被選中的樣本,記錄它,然后放回原處分層抽樣:將數(shù)據(jù)集劃分成互不相交的部分,稱做“層”,通過對每一層的簡單隨機(jī)抽樣就可以得到數(shù)據(jù)集的分層抽樣可以用到傾斜分布數(shù)據(jù)中3535數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)歸約數(shù)據(jù)變換與數(shù)據(jù)離散化小結(jié)36數(shù)據(jù)變換將給定屬性的所有值映射到一組新的代替值,每個(gè)舊的值都可以通過一個(gè)新的值識別數(shù)據(jù)變換策略光滑:去掉數(shù)據(jù)中的噪聲,如分箱,回歸和聚類屬性/特征構(gòu)造由給定的屬性構(gòu)造新的屬性聚集:匯總,數(shù)據(jù)立方體構(gòu)造規(guī)范化:縮放數(shù)據(jù)使之落入一個(gè)特定的小區(qū)間最小-最大規(guī)范化Z分?jǐn)?shù)(z-score)規(guī)范化小數(shù)定標(biāo)規(guī)范化離散化:概念分層37規(guī)范化最小-最大規(guī)范化:到[new_minA,new_maxA]例如

將收入范圍$12,000到$98,000規(guī)范化到[0.0,1.0].然后$73,000被映射成z分?jǐn)?shù)規(guī)范化

(μ:均值,σ:標(biāo)準(zhǔn)差):例如

μ=54,000,σ=16,000.那么小數(shù)定標(biāo)規(guī)范化其中

j

是使得Max(|ν’|)<1的最小整數(shù)38離散化三種類型屬性標(biāo)稱—值是無需的,例如,顏色,職業(yè)序數(shù)—值是有序的,例如,軍階或者職稱

數(shù)值—定量的,例如,整數(shù)或者實(shí)數(shù)離散化:將連續(xù)屬性值離散化區(qū)間標(biāo)簽用來代替實(shí)際的數(shù)值通過離散化減小數(shù)據(jù)集尺寸監(jiān)督和非監(jiān)督分裂(自頂向下)和合并(自底向上)離散化可以遞歸地在一個(gè)屬性上進(jìn)行為進(jìn)一步的分析做準(zhǔn)備,例如,分類39數(shù)據(jù)離散化方法主要方法:所有方法均可遞歸進(jìn)行分箱自頂向下分裂,非

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論