




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二章數(shù)據(jù)準(zhǔn)備本章目標(biāo):分析原始大型數(shù)據(jù)集的基本表述和特征。對(duì)數(shù)值型屬性應(yīng)用不同的標(biāo)準(zhǔn)化技術(shù)。了解數(shù)據(jù)準(zhǔn)備的不同技術(shù),包括屬性轉(zhuǎn)化。比較去除丟失值的不同方法。構(gòu)造時(shí)間相關(guān)數(shù)據(jù)的統(tǒng)一表達(dá)方法。比較不同異常點(diǎn)探測(cè)技術(shù)。實(shí)現(xiàn)一些數(shù)據(jù)預(yù)處理技術(shù)。2.1
原始數(shù)據(jù)的表述常見的數(shù)據(jù)類型:數(shù)據(jù)挖掘過程的基本對(duì)象是數(shù)據(jù)樣本,每個(gè)樣本都用幾個(gè)特征來描述,每個(gè)特征有不同的類型的值。常見類型:數(shù)值型和分類型。數(shù)值型的值包括實(shí)型變量和整型變量。數(shù)值型:其特征是其值有順序關(guān)系和距離關(guān)系。分類型:其特征是變量間是否相等,且可用二進(jìn)制數(shù)來表述?;谧兞恐档淖兞糠诸惙ǎ哼B續(xù)型變量和離散型變量.連續(xù)型變量也稱為定量型或度量型變量??捎瞄g隔尺度或比例尺度來衡量。溫度尺度屬間隔尺度,沒有絕對(duì)零點(diǎn)。高度、長(zhǎng)度和工資屬比例尺度,有絕對(duì)零點(diǎn),離散型變量也稱為定性型變量??捎妹x尺度或有序尺度來衡量。顧客類型標(biāo)志和郵編屬名義尺度,排名屬有序尺度。周期變量是一種特殊的離散變量,存在距離關(guān)系不存在順序關(guān)系。星期、月屬周期變量?;跀?shù)據(jù)的與時(shí)間有關(guān)的行為特性的類型:靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。在數(shù)據(jù)挖掘初始階段面對(duì)的數(shù)據(jù)也許有潛在的雜亂性,存在著丟失值、失真、誤記錄和不適當(dāng)?shù)臉颖?。因此在必須根?jù)已有的數(shù)據(jù)甚至是丟失值的數(shù)據(jù)進(jìn)行建模。這樣就可能避免在挖掘前處理丟失值問題。2.2原始數(shù)據(jù)的特性另一個(gè)問題是必須有處理“非常值”的機(jī)制,來消除“非常值”對(duì)最終結(jié)果的影響,數(shù)據(jù)可能并不是來自我們假定的總體。異常點(diǎn)是典型的例子。失真的數(shù)據(jù)、方法上錯(cuò)誤的步驟、濫用挖掘工具、模型太理想化、超出各種不確定性和模糊性的數(shù)據(jù)來源的模型可能導(dǎo)致挖掘方向的錯(cuò)誤。因此挖掘不只是簡(jiǎn)單在應(yīng)用一系列工具于已知問題,而是一種批判性的鑒定、考查、檢查以及評(píng)估過程。挖掘過程中一個(gè)最關(guān)鍵的步驟是對(duì)初始數(shù)據(jù)集的預(yù)備和轉(zhuǎn)換,數(shù)據(jù)預(yù)備有兩個(gè)中心任務(wù):1.把數(shù)據(jù)組織成一種標(biāo)準(zhǔn)形式,使其能被挖掘工具和其他基于計(jì)算機(jī)的工具處理(一個(gè)關(guān)系表)2.準(zhǔn)備數(shù)據(jù)集使之能得到最佳的挖掘效果1.標(biāo)準(zhǔn)化挖掘中基于n維空間距離計(jì)算的方法需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理來達(dá)到最佳效果,將數(shù)據(jù)按比例對(duì)應(yīng)到特定的范圍,否則距離測(cè)量將會(huì)超出平均起來數(shù)值更大的那些特征。標(biāo)準(zhǔn)化常用技術(shù):2.3原始數(shù)據(jù)的轉(zhuǎn)換(1)小數(shù)縮放:小數(shù)縮放移動(dòng)小數(shù)點(diǎn),但大多數(shù)原始數(shù)據(jù)保持不變。設(shè)縮放區(qū)間為[-1,1],其變換公式為:K是保證縮放后的值落在指定區(qū)間的最小比例。方法為:在原數(shù)據(jù)集中選擇絕對(duì)值最大者,取K使該值絕對(duì)值〈1,然后將該因子施加于所有數(shù)據(jù)進(jìn)行縮放。(2)最小-最大標(biāo)準(zhǔn)化:小數(shù)縮放存在這樣一個(gè)問題,假設(shè)數(shù)據(jù)集在150到250之間,縮放后數(shù)據(jù)在0.15到0.25之間,只落在[-1,1]中的一個(gè)小的子區(qū)間中,為了使值在整個(gè)標(biāo)準(zhǔn)區(qū)間中有較好的分布,采用最?。畲蠊剑?3)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化:該方法對(duì)距離測(cè)量非常有效,但把原數(shù)據(jù)轉(zhuǎn)化為未被認(rèn)可的形式。對(duì)于特征v,其均值mean(v)和標(biāo)準(zhǔn)差sd(v)由整個(gè)數(shù)據(jù)集計(jì)算產(chǎn)生。那么樣本I,用下式對(duì)其進(jìn)行轉(zhuǎn)化:例如數(shù)據(jù)集是v={1,2,3},mean(v)=2,sd(v)=1,則標(biāo)準(zhǔn)化后的新集合為v*={-1,0,1}。2.數(shù)據(jù)平整對(duì)許多挖掘技術(shù)來講,值之間小小的區(qū)別并不重要,但可能會(huì)降低挖掘過程的性能并影響最終結(jié)果。這些值也可認(rèn)為是同一潛在值的隨機(jī)變差。因此,有時(shí)它對(duì)變量的值的平整處理很有用。設(shè)樣本集合為:{0.93,1.01,1.001,3.02,2.99,5.03,5.01,4.98}平整后的集合為:{1.0,1.0,1.0,3.0,3.00,5.0,5.0,5.0}這個(gè)簡(jiǎn)單轉(zhuǎn)化并沒有降低質(zhì)量,但特征的不同實(shí)數(shù)值的數(shù)目卻減少到了3個(gè)。在挖掘中特征中不同值的數(shù)目的降低意味著數(shù)據(jù)空間維數(shù)的降低,這一點(diǎn)對(duì)于基于邏輯的挖掘特別有用。3.差值和比率即使是對(duì)特征很小的改變也能顯著地提高挖掘的性能。差值和比率可使目標(biāo)說明得到改進(jìn),尤其是應(yīng)用于輸出特征的時(shí)候。例如:在生產(chǎn)過程控制中,用最終優(yōu)化s(t+1)-s(t)的相對(duì)改動(dòng)的目標(biāo)比優(yōu)化輸出s(t+1)的絕對(duì)量相比更加有效。比率是另一種簡(jiǎn)單的特征轉(zhuǎn)換方法。用s(t+1)/s(t)作為挖掘的輸出,而不是s(t+1),這意味著特征的值的增長(zhǎng)或減少的水平也能提高挖掘的性能。
例如,在醫(yī)學(xué)數(shù)據(jù)中,病人有兩個(gè)特征,身高和體重,作為不同診斷的輸入?yún)?shù),許多應(yīng)用表明,若用體重和身高的加權(quán)比的特征進(jìn)行轉(zhuǎn)換,診斷結(jié)果會(huì)更好。在大型數(shù)據(jù)集中,丟失數(shù)據(jù)某些特征的值是可能,要得到完整的數(shù)據(jù)案例的子集是困難的,對(duì)丟失數(shù)據(jù)的處理有許多方法,可減少子集,去掉丟失值的樣本,或把丟失值補(bǔ)上。2.4丟失數(shù)據(jù)第一種方法是利用經(jīng)驗(yàn)手動(dòng)檢查缺省值樣本,加入一個(gè)合理的、可能的、預(yù)期的值。第二種方法是給出了消除丟失值的一個(gè)更簡(jiǎn)單的解決方案,這種方法基于一種形式的、常常是用一些常量自動(dòng)地替代丟失值。1.用全局常量;2.用特征平均值;3.用屬于給定種類的特征的平均值。實(shí)際的挖掘應(yīng)用包括從強(qiáng)時(shí)間相關(guān)到弱時(shí)間相關(guān)或者時(shí)間無關(guān)。對(duì)于時(shí)間相關(guān)的問題需要特殊的數(shù)據(jù)準(zhǔn)備和轉(zhuǎn)換,這一點(diǎn)對(duì)挖掘的成功至關(guān)重要。例如溫度測(cè)量值是一個(gè)一元時(shí)間序列問題,其特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同簽署次序與內(nèi)容
- 學(xué)前班口腔教育主題班會(huì)
- 阿克蘇工業(yè)職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)免疫學(xué)研究進(jìn)展》2023-2024學(xué)年第二學(xué)期期末試卷
- 阿壩師范學(xué)院《西方史學(xué)史》2023-2024學(xué)年第一學(xué)期期末試卷
- 阿魯科爾沁旗2024-2025學(xué)年小學(xué)六年級(jí)第二學(xué)期小升初數(shù)學(xué)試卷含解析
- 陜師大附中2025屆中考化學(xué)試題原創(chuàng)模擬卷(十)含解析
- 陜西學(xué)前師范學(xué)院《臨床流行病學(xué)與循證醫(yī)學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西工商職業(yè)學(xué)院《傳感器及測(cè)試技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- SCI論文寫作與投稿 第2版-課件 12-SCI論文表格使用
- 陜西機(jī)電職業(yè)技術(shù)學(xué)院《網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)與制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024-2025學(xué)年二年級(jí)語文下冊(cè)統(tǒng)編版第三單元基礎(chǔ)達(dá)標(biāo)卷(單元測(cè)試)(含答案)
- DB37T 4834-2025高速公路集中養(yǎng)護(hù)工作指南
- 2024年全國(guó)單招護(hù)理專業(yè)綜合題庫(kù)
- 2025年土木工程業(yè)務(wù)能力試題及答案
- (一模)2025年廣州市普通高中畢業(yè)班綜合測(cè)試(一)歷史試卷
- 江門2025年廣東省江門市新會(huì)區(qū)教育系統(tǒng)招聘事業(yè)編制教師188人筆試歷年參考題庫(kù)附帶答案詳解-1
- 2024年10月成都市金牛區(qū)人民政府西華街道辦事處公開招考1名編外人員筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 2024年四川公務(wù)員《行政職業(yè)能力測(cè)驗(yàn)》試題真題及答案
- 2025年福建鑫葉投資管理集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- (完整版)最新版線束標(biāo)準(zhǔn)
- 武漢大學(xué)教師專業(yè)技術(shù)職務(wù)聘任辦法(修訂版)附件2:武漢大學(xué)教師專業(yè)技術(shù)職務(wù)聘任辦法(final)
評(píng)論
0/150
提交評(píng)論