




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析第8章為數(shù)據(jù)挖掘準(zhǔn)備數(shù)據(jù)
8.1數(shù)據(jù)統(tǒng)計(jì)特征>>
8.2數(shù)據(jù)預(yù)處理>>
2/32每個(gè)公司都會(huì)存在有類似于冗余數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、失效數(shù)據(jù)以及編碼錯(cuò)誤數(shù)據(jù)的情況,只是可能存在于IT隱蔽處秘而不宣。這雖然不是新問(wèn)題,但是現(xiàn)在這種數(shù)據(jù)混亂卻在一些知名項(xiàng)目里變得更加突出,如在實(shí)施企業(yè)資源規(guī)劃軟件或供應(yīng)鏈管理軟件(SCM)時(shí),一位工作于波士頓AMR研究機(jī)構(gòu)的分析師約翰·哈格蒂(JohnHagerty)指出:往往當(dāng)公司把注意力集中在業(yè)務(wù)流程而非數(shù)據(jù)的形式和一致性上時(shí),這種問(wèn)題就出現(xiàn)了。當(dāng)這種情況發(fā)生后,這個(gè)公司的IT部門就不得不重新從公司的各個(gè)數(shù)據(jù)庫(kù)中凈化、一致化以及集成化數(shù)據(jù),然后再存入數(shù)據(jù)倉(cāng)庫(kù)。殼牌勘探有限公司(ShellExploration)正在吃這樣的苦頭。這家燃料公司希望整合其企業(yè)資源,規(guī)劃財(cái)務(wù)數(shù)據(jù)和若干容量系統(tǒng)產(chǎn)生的數(shù)據(jù),后者是處理該公司發(fā)現(xiàn)并開采了多少天然氣和石油的計(jì)量信息系統(tǒng)?!懊總€(gè)不同的系統(tǒng)都有自己的一系列編碼,”殼牌勘探有限公司位于蘇格蘭Aberdeen的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目經(jīng)理SteveMutch解釋說(shuō),“如果推翻重來(lái),在這些系統(tǒng)里再重新凈化和集成數(shù)據(jù)并非良策,可能會(huì)占用太多的時(shí)間,而且花費(fèi)昂貴?!盡utch換了一種辦法,他找到了Kalido公司的一個(gè)軟件工具。在倫敦用這個(gè)工具從各個(gè)系統(tǒng)里分析和映射數(shù)據(jù),然后把這些數(shù)據(jù)集成到數(shù)據(jù)倉(cāng)庫(kù)里。在經(jīng)過(guò)了近7個(gè)月的數(shù)據(jù)分析和數(shù)據(jù)映射工作后,27個(gè)數(shù)據(jù)源被整合在了一個(gè)450GB的數(shù)據(jù)倉(cāng)庫(kù)中。SteveMutch說(shuō),其實(shí)合作的策略并不賴,每個(gè)子公司也不會(huì)因此而失去對(duì)自身數(shù)據(jù)的控制權(quán)。現(xiàn)在,他們更加理解了公司作為一個(gè)整體進(jìn)行信息處理的意義?!耙坏┙⒘诉@種概念,我們就感到了來(lái)自高層領(lǐng)導(dǎo)的壓力,要求我們從其他一些應(yīng)用中集成數(shù)據(jù),”他說(shuō),“他們自己就可以看到現(xiàn)在能從數(shù)據(jù)倉(cāng)庫(kù)中得到什么信息,而且看到它的功能是多么強(qiáng)大?!辟Y料來(lái)源:JameA.O’Brien.IntroductiontoInformationSystem,12thedition,Copyright@2005bytheMcGrawHillCompanies,Inc.開篇案例——?dú)づ瓶碧接邢薰緮?shù)據(jù)倉(cāng)庫(kù)的商業(yè)價(jià)值8.1數(shù)據(jù)統(tǒng)計(jì)特征(1)8.1.1頻數(shù)和眾數(shù)8.1.2百分位數(shù)8.1.3中心度量8.1.4散布程度度量8.1數(shù)據(jù)統(tǒng)計(jì)特性(2)4數(shù)據(jù)統(tǒng)計(jì)又稱為匯總統(tǒng)計(jì),用單個(gè)數(shù)或數(shù)的小集合來(lái)捕獲大的數(shù)據(jù)集的各種屬性特征。通常需要數(shù)據(jù)的中心趨勢(shì)和離散程度特征。中心趨勢(shì)度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange);而數(shù)據(jù)離散程度度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(InterQuartilesRange,IQR)和方差(variance)等。設(shè)一個(gè)在上取值的分類屬性x和m對(duì)象的取值,值的頻率定義為眾數(shù)是集合中出現(xiàn)頻率最高的值。對(duì)分類屬性來(lái)說(shuō),眾數(shù)可以看成中心趨勢(shì)度量;對(duì)于連續(xù)屬性來(lái)說(shuō),眾數(shù)通常沒(méi)有意義。8.1.1頻率和眾數(shù)8.1.2百分位數(shù)對(duì)于有序數(shù)據(jù),有時(shí)考慮值集的百分位(percentile)更有意義。給定一個(gè)有序的或連續(xù)的屬性x和0與100之間的數(shù)p,數(shù)據(jù)集合的第p個(gè)百分位數(shù)一個(gè)x值,使得x的p%的觀測(cè)值小于。最常用的百分位數(shù)是四分位數(shù)(quartile)。第一個(gè)四分位數(shù)記作Q1,是第25個(gè)百分位數(shù);第三個(gè)四分位數(shù)記作Q3,是第75個(gè)百分位數(shù)。第一個(gè)和第三個(gè)四分位數(shù)之間的距離是分布的一種簡(jiǎn)單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為中間四分位數(shù)極差,定義為IQR=Q3-Q1。8.1.3中心度量(1)數(shù)據(jù)集“中心”的最常用、最有效的數(shù)值度量是均值和中位數(shù)。設(shè)x1,x2,…,xm是m個(gè)值的集合,則該值集的均值和中位數(shù)分別定義為:78.1.3中心度量(2)集合中每個(gè)值與一個(gè)權(quán)值相關(guān)聯(lián)。權(quán)值反映對(duì)應(yīng)值的顯著性、重要性或出現(xiàn)頻率。在這種情況下,使用加權(quán)算術(shù)均值(weightedarithmeticmean):88.1.3中心度量(3)截?cái)嗑担褐付?和100間的百分位數(shù)p,丟棄高端和低端(p/2)%的數(shù)據(jù),然后用常規(guī)方法計(jì)算均值,所得的結(jié)果即是截?cái)嗑怠V形粩?shù)是p=100%時(shí)的截?cái)嗑?,而?biāo)準(zhǔn)均值是對(duì)應(yīng)于p=0%的截?cái)嗑怠@河?jì)算{1,2,3,4,5,90}值集的均值,中位數(shù)和p=40%的截?cái)嗑?解:均值是17.5,中位數(shù)是3.5,p=40%時(shí)的截?cái)嗑狄彩?.598.1.4散布程度度量(1)極差和方差是值集的散布度量,表明屬性值是否散布很寬,或者是否相對(duì)集中在單個(gè)點(diǎn)(如均值)附近。最簡(jiǎn)單的散布度量是極差,即最大值和最小值之差假設(shè)屬性x具有m個(gè)值,其極差定義為:
range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定義如下:108.1.4散布程度度量(2)因?yàn)榉讲钣玫搅司担等菀妆浑x群值扭曲,所以方差對(duì)離群值很敏感。更加穩(wěn)健的值集散布估計(jì)方法:絕對(duì)平均偏差(AbsoluteAverageDeviation,AAD)中位數(shù)絕對(duì)偏差(MedianAbsoluteDeviation,MAD)四分位數(shù)極差(InterquartileRange,IQR)118.2數(shù)據(jù)預(yù)處理(1)8.2.1數(shù)據(jù)清理8.2.2數(shù)據(jù)集成8.2.3數(shù)據(jù)變換8.2.4數(shù)據(jù)歸約128.2數(shù)據(jù)預(yù)處理(2)數(shù)據(jù)挖掘的目的是在大量的、潛在有用的數(shù)據(jù)中挖掘出有用的模式或信息,挖掘的效果直接受到源數(shù)據(jù)質(zhì)量的影響。高質(zhì)量的數(shù)據(jù)是進(jìn)行有效挖掘的前提,高質(zhì)量的決定必須建立在高質(zhì)量的數(shù)據(jù)上。138.2數(shù)據(jù)預(yù)處理(3)數(shù)據(jù)清理填寫空缺數(shù)據(jù),平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和數(shù)據(jù)泛化特征提取和特征構(gòu)造數(shù)據(jù)離散化數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示及特征選擇通過(guò)概念分層和數(shù)據(jù)離散化來(lái)規(guī)約數(shù)據(jù),對(duì)數(shù)值數(shù)據(jù)特別重要148.2數(shù)據(jù)預(yù)處理(4)15數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約臟數(shù)據(jù)“干凈”數(shù)據(jù)-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A115為什么要清理數(shù)據(jù)?現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”不完整的:有感興趣的屬性缺少屬性值含噪聲的:包含錯(cuò)誤的或是“孤立點(diǎn)”意義:數(shù)據(jù)清理的目的就是試圖填充缺失值、去除噪聲并識(shí)別離群點(diǎn)168.2.1數(shù)據(jù)清洗(1)存在缺失值數(shù)據(jù)并不總是完整的引起空缺值的原因有些信息暫時(shí)無(wú)法獲取某些屬性并不能用于所有對(duì)象有些信息是被遺漏的有些信息(被認(rèn)為)是不重要的要求統(tǒng)計(jì)的時(shí)間窗口并非對(duì)所有數(shù)據(jù)都適合178.2.1數(shù)據(jù)清洗(2)缺失值的處理方法忽略元組:當(dāng)缺少類標(biāo)號(hào)時(shí)通常這樣處理(在分類任務(wù)中)。除非同一記錄中有多個(gè)屬性缺失值,否則該方法不是很有效。忽略屬性列:如果該屬性的缺失值太多,如超過(guò)80%,則在整個(gè)數(shù)據(jù)集中忽略該屬性。數(shù)據(jù)填充:是用一定的值去填充缺失值,如用其余屬性的平均值或最常見值來(lái)進(jìn)行補(bǔ)充等。人工填寫缺失值:通常情況下,該方法費(fèi)時(shí)費(fèi)力,并且當(dāng)數(shù)據(jù)集很大或缺少很多值時(shí),該方法可能行不通。自動(dòng)填充缺失值:有三種不同的策略。使用一個(gè)全局常量填充缺失值,將缺失的屬性值用同一個(gè)常數(shù)替換。使用與給定記錄屬同一類的所有樣本的均值或眾數(shù)填充缺省值。用可能值來(lái)代替缺失值:可以用回歸、基于推理的工具或決策樹歸納確定。188.2.1數(shù)據(jù)清洗(3)噪聲數(shù)據(jù)的平滑方法噪聲是測(cè)量變量的隨機(jī)錯(cuò)誤或偏差。噪聲是測(cè)量誤差的隨機(jī)部分,包含錯(cuò)誤或孤立點(diǎn)值。導(dǎo)致噪聲產(chǎn)生的原因有:數(shù)據(jù)收集的設(shè)備故障
數(shù)據(jù)錄入過(guò)程中人的疏忽數(shù)據(jù)傳輸過(guò)程中的錯(cuò)誤噪聲數(shù)據(jù)常用分箱的方法平滑:分箱:分箱方法通過(guò)考察“鄰居”(即周圍的值)來(lái)平滑有序數(shù)據(jù)的值。198.2.1數(shù)據(jù)清洗(4)數(shù)據(jù)平滑實(shí)例一組排序后的數(shù)據(jù)(單位:元):4,8,15,21,21,24,25,31,34,36劃分為等深的箱箱1:4,8,15箱2:21,21,24箱3:25,31,34,36用箱平均值進(jìn)行平滑箱1:9,9,9箱2:22,22,22箱3:31.5,31.5,31.5,31.5用箱的邊界進(jìn)行平滑箱1:4,4,15箱2:21,21,24箱3:25,36,36,36208.2.1數(shù)據(jù)清洗(5)特殊字段的處理有兩種極端的字段需要特殊處理:取值幾乎相同和幾乎都不同的字段。8.2.1數(shù)據(jù)清洗(5)8.2.2數(shù)據(jù)集成將兩個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)設(shè)備中。在數(shù)據(jù)集成時(shí),有許多問(wèn)題需要考慮,數(shù)據(jù)一致性和冗余是兩個(gè)重要問(wèn)題。不同表中可能使用不同名稱來(lái)指示同一屬性,正如一個(gè)人有多個(gè)不同的別名或不同的人擁有相同的名字,這樣將導(dǎo)致數(shù)據(jù)的不一致或沖突。一個(gè)屬性是冗余的,如果它能由另一個(gè)表“導(dǎo)出”;屬性或維命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。228.2.3數(shù)據(jù)變換(1)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)泛化:沿概念分層高上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間(消除量綱的影響)最小-最大規(guī)范化Z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化特征構(gòu)造通過(guò)現(xiàn)有屬性構(gòu)造新的特征,并添加到數(shù)據(jù)集中數(shù)據(jù)離散化23(1)數(shù)據(jù)泛化概念分層通過(guò)使用高層的概念(比如:老年,中年,青年)來(lái)替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來(lái)規(guī)約數(shù)據(jù)概念分層可以用樹來(lái)表示,樹的每一個(gè)節(jié)點(diǎn)代表一個(gè)概念(比如:按地區(qū)劃分世界)對(duì)于數(shù)值屬性,概念分層可以根據(jù)數(shù)據(jù)的分布自動(dòng)地構(gòu)造,如用分箱、直方圖分析、聚類分析、基于熵的離散化和自然劃分分段等技術(shù)生成數(shù)據(jù)概念分層。對(duì)于分類屬性,有時(shí)可能具有很多個(gè)不同值。減少大量分類值的一個(gè)方法是使用代碼屬性而不是代碼本身。這時(shí)領(lǐng)域知識(shí)通常會(huì)有幫助,如果領(lǐng)域知識(shí)不能提供有用的指導(dǎo),或者這樣的方法會(huì)導(dǎo)致很差的性能,則需要使用更為經(jīng)驗(yàn)性的方法,僅當(dāng)分組結(jié)果能提高分類準(zhǔn)確率或達(dá)到某種其它數(shù)據(jù)挖掘目標(biāo)時(shí),才將值聚集到一起。8.2.3數(shù)據(jù)變換(2)(2)規(guī)范化最小-最大規(guī)范化Z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化258.2.3數(shù)據(jù)變換(3)(3)特征構(gòu)造特征提取(FeatureExtraction):由原始數(shù)據(jù)創(chuàng)建新的特征集特征構(gòu)造:由一個(gè)或多個(gè)原始特征共同構(gòu)造新的特征提取來(lái)自單個(gè)屬性的特征在記錄內(nèi)合并數(shù)值轉(zhuǎn)軸正則時(shí)間序列匯總交易記錄基于行為變量268.2.3數(shù)據(jù)變換(4)(4)離散化通過(guò)將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間標(biāo)號(hào)可以代替實(shí)際的數(shù)據(jù)值。等寬離散化方法、等頻離散化方法、近似等頻離散化方法。278.2.3數(shù)據(jù)變換(5)8.2.4數(shù)據(jù)歸約(1)從記錄和維度兩個(gè)方面減少數(shù)據(jù)量維歸約特征變換與特征選擇
維規(guī)約的好處如果維度較低,許多數(shù)據(jù)挖掘算法效果會(huì)更好。維歸約使模型涉及更少的特征,因而可以產(chǎn)生更容易理解的模型。使用維歸約可以降低數(shù)據(jù)挖掘算法的時(shí)間和空間復(fù)雜度。2829(1)特征選擇概念:從一組已知特征集合中選擇最具代表性的特征子集,使其保留原有數(shù)據(jù)的大部分信息,即所選特征子集可以像原來(lái)的特征全集一樣用來(lái)正確區(qū)分?jǐn)?shù)據(jù)集的每個(gè)數(shù)據(jù)對(duì)象。通過(guò)特征選擇,一些和任務(wù)無(wú)關(guān)或是冗余的特征被刪除,從而提高數(shù)據(jù)處理的效率。目的:去除不相關(guān)和冗余的特征,降低時(shí)間空間復(fù)雜度,提高數(shù)據(jù)質(zhì)量及數(shù)據(jù)泛化能力。理想的特征
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版遺贈(zèng)撫養(yǎng)協(xié)議
- 山羊分腿騰越教案課程
- 2025年硫代硫酸鹽項(xiàng)目發(fā)展計(jì)劃
- 主題班會(huì)教案之《交通安全在我心中》主題班會(huì)教案
- 蔬菜供應(yīng)方案設(shè)計(jì)
- 心理輔導(dǎo)活動(dòng)計(jì)劃方案書
- 租房協(xié)議模板租房合同
- 井蓋勞務(wù)合同標(biāo)準(zhǔn)文本
- 教師個(gè)人教學(xué)反思以及整改措施
- 代銷土方合同樣本
- 驅(qū)動(dòng)橋畢業(yè)設(shè)計(jì)
- 2023機(jī)關(guān)公文寫作與處理PPT模板
- 基坑支護(hù)、降水及土方開挖專項(xiàng)施工方案
- 幼兒數(shù)字1-100字帖練習(xí)
- 細(xì)胞生物學(xué)-7細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)課件
- 攪拌站安全培訓(xùn)試卷
- 茶葉市場(chǎng)營(yíng)銷講義
- 走進(jìn)中國(guó)傳統(tǒng)節(jié)日 詳細(xì)版課件
- API SPEC 5DP-2020鉆桿規(guī)范
- 乙肝兩對(duì)半ppt課件
- 鍋爐空氣預(yù)熱器拆除安裝方案
評(píng)論
0/150
提交評(píng)論