數(shù)據(jù)預處理任務及方法_第1頁
數(shù)據(jù)預處理任務及方法_第2頁
數(shù)據(jù)預處理任務及方法_第3頁
數(shù)據(jù)預處理任務及方法_第4頁
數(shù)據(jù)預處理任務及方法_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)預處理任務及方法聚類(Aggregation)抽樣(Sample)維數(shù)約減(Dimensionality reduction )特征子集選擇(Feature subset selection)特征創(chuàng)造(Feature creation)離散化和二進制化(Discretization and binarization)變量轉換(Variable transformation)總的來說,這些內容可以分為兩類:為分析數(shù)據(jù)選擇數(shù)據(jù)對象和屬性;為分析數(shù)據(jù)創(chuàng)造或改 變屬性。所有這些內容都是考慮到時間、成本和質量,提高數(shù)據(jù)挖掘分析質量。(屬性、特 征、變量都是近義詞,不做具體區(qū)分)考慮到有時候“l(fā)ess

2、 is more”,將兩個或多個對象合并成一個就是聚類的思想。舉個 例子,下表是由交易記錄(數(shù)據(jù)對象)構成的一個數(shù)據(jù)集,它是不同地點的商店在一年內的 時間的產品日常銷售數(shù)據(jù)(Minneapolis,Chicago,Paris,)。聚合這樣的數(shù)據(jù)集的 一種方法是將一個商店的所有的交易記錄用一個單獨的商店范圍的交易代替。這樣就可以減 少上千條交易記錄了。Transaction IDItemStore LocationDataPrice 101123WatchChicago09/06/04$25.99 101123BatteryChicago09/06/04$5.99 101124ShoesMinn

3、eapolis09/06/04$75.00 但是這樣的方法有一個非常明顯的問題:如何創(chuàng)造一個聚類的交易記錄,即應該如何根 據(jù)一個指定地點的記錄來合并屬性的值,創(chuàng)造聚類交易,使其能代表一個商店或者一個時間 的交易。數(shù)值型屬性如價格,可以采用加和或者平均值的方式代替。質量型屬性如項目,則 可以采用省略或者某個地點的項目和的方法。該表格的數(shù)據(jù)可以看成是多維的列,每個屬性即是一個維度。根據(jù)這種思想,聚類可以 看成是消除屬性,如刪除項目列,或者減少某個屬性的值的數(shù)量,如將日期可能的值從365 天改成12個月的記錄方式。這種聚類經(jīng)常出現(xiàn)在在線分析處理中(Online AnalyticalProcessin

4、g, OLAP )中。聚類的動機:1、小的數(shù)據(jù)集可以節(jié)省內存,提高處理效率。2、聚類可以提供更高層 的數(shù)據(jù)視圖。3、群體對象的行為要比個體更加穩(wěn)定。但是聚類有一個缺點就是可能會丟失有趣的細節(jié)。二抽樣數(shù)據(jù)挖掘中的抽樣動機與統(tǒng)計學中的抽樣有所不同。統(tǒng)計學的抽樣是因為獲得全體的成 本花費太高,而數(shù)據(jù)挖掘的抽樣是因為處理所有的數(shù)據(jù)代價太高。抽樣就要使樣本具有代表 性,即樣本與總體有近似的屬性。抽樣的方法:最簡單的抽樣方法是隨機抽樣。隨即抽樣分成兩種(其它抽樣方法類似): 不帶重復的抽樣和帶重復的抽樣。當樣本與總體數(shù)據(jù)相比很小時,兩種方法沒有大的區(qū)別, 但是帶重復的抽樣在分析時相對簡單,因為在樣本處理中

5、,選取任何對象的概率是一樣的。當總體有很多不同類型的對象,且對象的數(shù)量有很大不同時,簡單隨機抽樣并不適合。 這就要使用分層抽樣。約減(Dimensionality Reduction)數(shù)據(jù)集可以有很多的特征。對維數(shù)進行約減可以有很多好處。其中一個關鍵的有點是很 多數(shù)據(jù)挖掘算法在低維度的情況下有很好的表現(xiàn)。這是因為維數(shù)約減可以消除無關的特征并 降低噪音數(shù)據(jù),也可能是因為維數(shù)災難(the curse of dimensionality),維數(shù)約減的另一 個好處是可以建立一個容易被理解的模型。維數(shù)約減通??梢圆捎媒⑿聦傩缘姆绞?,將幾個舊屬性合并在一起。也可以選擇舊屬 性集中的子集,這種方法通常稱為

6、特征子集選擇或者特征選擇。災難(The Curse of Dimensionality)維數(shù)災難是指很多情況下的數(shù)據(jù)分析在數(shù)據(jù)維度增加的情況下會變得非常困難的現(xiàn)象。 特別地,當數(shù)據(jù)維度增加時,數(shù)據(jù)會變得非常稀疏。與維數(shù)約減有關的線性代數(shù)技術維數(shù)約減中最常用的方法(尤其是針對連續(xù)性數(shù)據(jù)來說)是使用線性代數(shù)的相關技術。主成分分析(Principal Components Analysis, PCA )是給連續(xù)性數(shù)據(jù)建立新屬性的線性 代數(shù)的方法。其新屬性是:(1)源屬性的線性聯(lián)合,(2)是相互正交的,(3)是數(shù)據(jù)中變 化最大的(capture the maximum amount of variat

7、ion in the data)。奇異值分解(Singular Value Decomposition, SVD)是一種與PCA有關的線性代數(shù)的技術,在維數(shù) 約減中被經(jīng)常使用。三、特征子集選擇只使用特征集中的一個子集是維數(shù)約減中的一種方法盡管這樣的方法可能會丟失信息, 但是如果有多余的(redundant)和無關的(irrelevant)特征時就不會出現(xiàn)這種狀況。多 余的特征(Redundant features)是指有重復的信息或者所有的信息都在一個或者多個屬 性中。無關的特征(Irrelevant features)包含了目前的數(shù)據(jù)挖據(jù)中沒有用的信息。盡管無關的和多余的屬性可以使用常識或者

8、領域知識被消除定期選擇最好的特征子集 需要一個系統(tǒng)的方法。特征選擇的完美的方法是盡可能嘗試所有可能的特征子集作為數(shù)據(jù)挖 掘算法的輸入,然后選擇輸出結果最好的特征子集。但是這樣的窮舉法顯然不適合。特征選 擇有三種標準的方法:嵌入式(embedded),過濾器(filter)和封裝器(wrapper)。嵌入式方法(Embedded approaches):特征選擇是數(shù)據(jù)挖掘算法的一部分。特別地, 數(shù)據(jù)挖掘算法操作時,算法本身決定使用哪些屬性忽略哪些屬性。過濾器方法(Filter approaches):在算法運行之前選擇特征,使用一些獨立于數(shù)據(jù)挖 掘任務的方法。比如,選擇屬性之間關聯(lián)盡可能小的。封

9、裝器方法(Wrapper approaches):這類的方法將目標數(shù)據(jù)挖掘算法作為一個黑盒 尋找最好的屬性子集。但通常并不枚舉出所有可能的子集。特征子集選擇的架構(An Architecture for Feature SubsetSelection )一般的架構可能既包含過濾器也包含封裝器。特征選擇處理一般有四個部分:一個評價 子集的測量方法,一個搜尋策略(控制新特征子集的產生),一個停止標準和一個驗證程序。 過濾方法和封裝方法的不同僅僅在于其對子集的評價方式上。從概念上說,特征子集選擇就是搜尋所有可能的特征子集。有很多搜尋策略可以使用, 但是搜尋策略在計算代價方面要較小,且能夠找出最優(yōu)的或

10、者近似最優(yōu)的特征集合。由于通 常情況下不可能滿足所有的要求,因此必須要權衡。SelectedAttributesDoneStoppingCriterionEvaluationNotAttributesSearchStrategySubset ofAttributesDoneValidationProcedure搜尋中一個必不可少的部分就是評價目前的特征子集。這就需要針對特定的數(shù)據(jù)挖掘任 務測量評價屬性子集的好處。對于過濾器方法,這些測量嘗試預測在給定的屬性集下實際的 數(shù)據(jù)挖掘算法運行的情況。對于封裝器方法,評價是由實際運行的目標數(shù)據(jù)挖掘應用組成。由于子集的數(shù)量可能很大,因此枚舉出所有的子集實際

11、上并不可能,所以需要一些停止 策略。這個策略通?;谝韵乱粋€或者多個情況:迭代次數(shù)子集價值的評價是否是最優(yōu)的或者超過一個闕值是否已經(jīng)得到一定量子集數(shù)量標準與評價標準是否同時達到這個策略下是否還有其他選項可以提升效果一旦子集確定了,關于該子集的目標數(shù)據(jù)挖掘結果就要被驗證了。一個直觀的評價方法 是直接運行算法并比較總體結果與子集結果。希望的結果是利用子集產生的結果要比使用所 有特征好或者至少差不多。另一種驗證方法是使用很多不同的特征選擇算法獲得特征子集并 比較每種特征子集下算法運行的結果。特征賦權(Feature Weighting )特征賦權是一種替代保持或消除特征的方法。更重要的特征被賦予更高

12、的權重,反之亦 然。這些權重有時是基于領域知識確定的。也可以自動確定。特征創(chuàng)造(Feature Creation)從源屬性中創(chuàng)造一些包含重要信息的新的屬性集也是一種高效的方法。新的屬性數(shù)量要 比源屬性少,這就使我們可以獲得屬性約減所有的好處。特征創(chuàng)造有以下一些內容:特征抽 取(feature extraction),將數(shù)據(jù)映射到新的空間中(mapping the data to a new space), 特征構造(feature construction)o特征抽取(Feature Extraction)從原始數(shù)據(jù)源中構造新的特征集合叫做特征抽取。例如,圖片的分類可以根據(jù)它是否包 含人臉來進

13、行。源數(shù)據(jù)是像素的集合,這并不適合大多數(shù)的分類算法。然而,如果數(shù)據(jù)被處 理后可以提供更高級別的特征,如與人臉相關的某些邊界和區(qū)域是否存在。那么,很多的分 類技術就可以在這個問題上使用了。不幸的是,通常情況下,特征抽取都是高度領域化的。某個特定的領域,如圖片處理中, 需要很長時間來建立特征和技術來從眾抽取,同時,這些技術很少可以使用到其它領域。因 此,當數(shù)據(jù)挖掘應用到一個新的領域時,就需要發(fā)展一些新的特征抽取方法了。數(shù)據(jù)映射到新的空間(Mapping the Data to a New Space)舉個例子,時間序列數(shù)據(jù)經(jīng)常包含周期模式。如果只有一種周期模式并且沒有噪音,這 樣的周期模式就很容易

14、被偵測。相反,如果有很多周期模式且存在大量噪音數(shù)據(jù),這就很難 偵測。這樣的情況下,通常對時間序列使用傅立葉變換(Fourier transform )轉換表示方 法。特征構造(Feature Construction)源數(shù)據(jù)中的某些特征有必要的信息,但其并不適合數(shù)據(jù)挖掘算法。這種情況通常需要從 原始特征中構造一個或多個新特征使用。、離散化和二進制化一些數(shù)據(jù)挖掘算法,尤其是某些分類算法,需要數(shù)據(jù)的屬性是類別屬性(categorical attributes )格式的。關聯(lián)規(guī)則算法需要數(shù)據(jù)的屬性是二進制形式的(binary attributes )。 因此常常需要將連續(xù)屬性(continuous

15、attributes )轉變成類別屬性(categorical attributes),即離散化(discretization )o而連續(xù)屬性或者類別屬性則可能需要變成二進制 化(binarization)。此外,如果類別屬性有太多的值,或者一些值出現(xiàn)的頻率很小,通過 把一些值聯(lián)合起來可以減少類別的屬性。類似于特征選擇,離散化和二進制化最好的方法是對分析數(shù)據(jù)的數(shù)據(jù)挖掘算法來說, 會產生最好的結果。通常這并不實際,因此,離散化和二進制化都只是需要滿足一些標準, 以期能獲得好點的數(shù)據(jù)挖掘結果。二進制化(Binarization)類別屬性的二進制化的一個簡單的例子如下:如果類別有m個值,給每個原始的

16、值賦 予唯一的整數(shù),其區(qū)間在0,m-1o如果屬性是順序的,則賦值也是順序的(注意,即便原 始屬性值是整數(shù)類型的,這一步也是必須的,因為原始的屬性值可能不在0,m-1之間)。下 一步,將每個整數(shù)值變成二進制的形式。由于n = Flog2(m)J個二進位制可以代表這些整數(shù),因此,代表這些二進位數(shù)需要有n個二進位屬性。例如下表1 :Categorical ValueInteger ValuexiX2X3awful0000poor1001OK2010good3011great4100Categorical ValueInteger ValuexiX 2X3X4X 5awful010000poor101

17、000OK200100good300010great400001但是,這種轉變會帶來復雜性。如屬性和x3會產生聯(lián)系,因為good這個屬性的編碼 同時用到了這兩個屬性。此外,關聯(lián)分析需要非對稱的二進制屬性,只有那些值為1的屬 性才是重要的。因此,對于關聯(lián)問題,有必要給每個類別值引入一個二進制屬性,如表2, 如果結果屬性數(shù)量太大,下面的內容可以用來減少這樣的類別值的數(shù)量。同樣的,對于關聯(lián)問題,將一個二進制屬性用兩個非對稱二進制屬性代替是有必要的。 考慮一個二進制屬性代表了一個人的性別,男性或者女性。對于傳統(tǒng)的關聯(lián)規(guī)則算法,這樣 的信息要轉變成兩個非對稱二進制屬性,一個是其中一個1代表女性,一個是其

18、中一個1 是代表男性。連續(xù)屬性的離散化(Discretization of Continuous Attributes )離散化通常在分類和關聯(lián)分析中使用。一般情況下,最好的離散化依賴于使用的算法, 也要考慮到其他的屬性。然而,一個屬性的離散化通常是單獨考慮的。連續(xù)屬性轉變成類別屬性通常涉及到兩個子任務:確定類別數(shù)量,確定多少連續(xù)屬性映 射到這些類別中。第一步中,連續(xù)屬性值分類后,通過指定的n-1個分割點(split points) 將它們分成n個區(qū)間。第二步,所有一個區(qū)間內的值映射到相同的類別值上。因此,離散 化的問題主要是確定選擇多少個分割點并在哪里分割。結果可以表示成一個區(qū)間的集合 (X

19、 ,X ,(X ,X ,., (X ,X ,其中6和X 可能代表+8或者8 ,且、xj,,x 0 112 n1 n0 n01 n1X x。耳非監(jiān)督式的離散化(Unsupervised Discretization)分類中離散化方法的一個很大的區(qū)別是是否使用類別信息。使用了類別信息的成為監(jiān)督 式的離散化(supervised),沒有使用類別信息的成為非監(jiān)督式的方法(Unsupervised)。 等寬方法(equal width)將范圍內的屬性劃分成一個用戶指定的區(qū)間數(shù)量,每個區(qū)間都有 相同的寬度(width)。這樣的方法受離群值影響很大。因此,等頻方法(等深方法)(equal frequency

20、,equal depth),是將相同數(shù)量的對象分到每個區(qū)間中,這也很常用。ffiS式的M散化( Supervised Discretization )使用額外的信息(類標簽)通常會產生更好的結果。無類標簽知識構造的區(qū)間通常會包 含混合的類標簽。從概念上講,分割的簡單的方法是最大化區(qū)間純度(purity)。實際中, 這樣的方法需要人工選擇區(qū)間的純度和最小的區(qū)間大小。為了克服這樣的困難,一些統(tǒng)計的 方法被用來解決這些問題。先將每個類的值都作為單獨的區(qū)間,再根據(jù)統(tǒng)計測試,合并臨近 的相似區(qū)間(adjacent intervals)獲取更大的區(qū)間?;陟?entropy)的方法是很好的。有太多得類別屬性(Categorical Attributes with Too ManyValues)類別屬性有時候會產生很多的值。如果類別屬性的是順序的,可以利用類似連續(xù)屬性離 散化的方法。如果類別屬性是分類的則要利用一些領域知識。如一個大學可以有很多學院。 學院名稱可能有很多的值,這種情況我們可以將很多的學院聯(lián)合在一起組成更大的組,如工 程類,社會科學類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論