商務智能課件第7章數(shù)據(jù)預處理_第1頁
商務智能課件第7章數(shù)據(jù)預處理_第2頁
商務智能課件第7章數(shù)據(jù)預處理_第3頁
商務智能課件第7章數(shù)據(jù)預處理_第4頁
商務智能課件第7章數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第7章 數(shù)據(jù)預處理Chapter 7: Data Preprocessing主要內(nèi)容7.1 數(shù)據(jù)預處理的原因和任務7.2 數(shù)據(jù)規(guī)范化7.3 數(shù)據(jù)離散化7.1 數(shù)據(jù)預處理的原因和任務(1)數(shù)據(jù)離散化(discretization)(2)數(shù)據(jù)規(guī)范化(normalization)(3) 數(shù)據(jù)清洗(data cleaning)(4)特征提取與特征選擇7.2 數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化又稱標準化(standardization),通過將屬性的取值范圍進行統(tǒng)一,避免不同的屬性在數(shù)據(jù)分析的過程中具有不平等的地位常用方法最小-最大法(min-max normalization)z-score最小-最大法假設需要映射

2、到目標區(qū)間為L,R。原來的取值范圍為l, r,則根據(jù)等比例映射的原理,一個值x映射到新區(qū)間后的值v的計算方法如下:例如,對于描述客戶的屬性“年收入(萬元)”,如果原來的取值范圍為3,200,新的取值范圍為0,1,則若某客戶的年收入為60萬元,規(guī)范化后為(60-3)/(200-3)=0.29z-scorez-score,又稱零均值規(guī)范化(zero-mean normalization)。給定一個屬性A,設其取值的均值為A,標準差為A,A的某個取值x規(guī)范化后的值v計算如下:均值為A和標準差為A通過已有樣本的屬性值進行計算。規(guī)范化后的屬性A取值的均值為零例如,年收入屬性的均值為82,標準差為39,則

3、年收入60萬規(guī)范化后為-0.317.3 數(shù)據(jù)離散化7.3 數(shù)據(jù)離散化7.3.1 分箱離散化7.3.2 基于熵的離散化7.3.3 離散化方法ChiMerge7.3.1 分箱離散化等距離分箱、等頻率分箱等距離(equal- distance)分箱又稱為等寬度分箱(equal-width binning),是將每個取值映射到等大小的區(qū)間的方法給定屬性A的最小和最大取值分別為min和max,若區(qū)間個數(shù)為k,則每個區(qū)間的間距為I=(max-min)/k,區(qū)間分別為min,min+I)、min+I, min+2I)、min+(k-1)I, min+kI等距離分箱可能導致屬于某些的取值非常多,而某些又非常少

4、7.3.1 分箱離散化等頻率(equal-frequency)分箱又稱等深度分箱(equal-depth binning)。它將每個取值映射到一個區(qū)間,每個區(qū)間內(nèi)包含的取值個數(shù)大致相同例如:假設14個客戶的屬性“年收入”的取值按順序為:20,40,50,58,65,80,80,82,86,90,96,105,120,200利用等距離分箱,區(qū)間的個數(shù)為4,則區(qū)間間距為(200-20)/4=45,則4個箱的區(qū)間分別為20,65),65,110),110,155),155,200利用等頻率分箱,每箱3個值,則4個箱分別為20,40,50,58,65,80,80,82,86,90,96,105,120

5、,2007.3.2 基于熵的離散化分箱離散化由于是一種無監(jiān)督離散化方法基于熵的離散化方法是常用的有監(jiān)督的離散化方法給定一個數(shù)據(jù)集D及分類屬性的取值,即類別集合C=c1, c2, , ck,數(shù)據(jù)集D的信息熵entropy(D)的計算公式其中p(ci)=count(ci)/|D|,count(ci)表示類別ci在D中出現(xiàn)的次數(shù),|D|代表D中的數(shù)據(jù)行數(shù),即對象個數(shù)。信息熵的取值越小,類別分布越純,反之越不純7.3.2 基于熵的離散化首先將D中的行按照屬性A的取值進行排序。分割的方法是利用條件Av,v是A的一個取值。相應地,數(shù)據(jù)集D按照此條件分裂為兩個子數(shù)據(jù)集:D1, D2,綜合這2個子數(shù)據(jù)集的信息

6、熵作為衡量這種分割優(yōu)劣的度量,entropy(D, v),一個數(shù)據(jù)集D按Av分裂前后信息熵的差值稱為信息增益,記為gain(D,v)gain(D,v)=entropy(D)-entropy(D,v) 基于熵的離散化Entropy(D,40)=-2/5(2/2log22/2)-3 /5(2/3log22/3+ 1/3log21/3) =0.52Entropy(D,58)=-4/5( 1/2log21/2+ 1/2log21/2)-1 /5log21 =0.8gain(D, 40)=0.97-0.52=0.45gain(D, 58)=0.97-0.8=0.17年收入豪華車20否40否50是58是6

7、5否7.3.3 離散化方法ChiMerge如果基于熵的方法可以看作是自頂向下的分裂方法,則ChiMerge則屬于自底向上的合并方法ChiMerge則是從每個值都是一個小區(qū)間開始,不斷合并相鄰區(qū)間成為大的區(qū)間,它是基于統(tǒng)計量卡方檢驗實現(xiàn)的豪華車=是豪華車=否合計0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合計0(C1)2(C2)2k為類別的個數(shù)7.3.3 離散化方法ChiMerge(1)將待離散化屬性“年收入”的取值排序,生成只含有單個取值的區(qū)間,以相鄰兩個值的中點為分界,初始區(qū)間為0,30,30,45,45,54,54,61.5,61.5,+。(2)

8、對兩個相鄰區(qū)間構(gòu)建列聯(lián)表年收入豪華車20否40否50是58是65否豪華車=是豪華車=否合計0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合計0(C1)2(C2)2ChiMerge7.4 數(shù)據(jù)清洗數(shù)據(jù)清洗處理數(shù)據(jù)的缺失、噪音數(shù)據(jù)的處理以及數(shù)據(jù)不一致的識別和處理處理數(shù)據(jù)的缺失如果數(shù)據(jù)集含有分類屬性,一種簡單的填補缺失值的方法為,將屬于同一類的對象的該屬性值的均值賦予此缺失值;對于離散屬性或定性屬性,用眾數(shù)代替均值更復雜的方法,可以將其轉(zhuǎn)換為分類問題或數(shù)值預測問題數(shù)據(jù)清洗噪音數(shù)據(jù)的處理一類是識別出噪音,將其去除;另一類是利用其它非噪音數(shù)據(jù)降低噪音的影響,起到

9、平滑(smoothing)的作用。孤立點的識別屬于第一類方法,上一章中介紹聚類算法DBSCAN時提到過,最終不屬于任一個簇的點可以看作噪音。分箱(binning)方法可以用于平滑噪音。例如,將年收入的缺失值填補之后,將其取值利用分箱法平滑噪音。7.5 特征提取與特征選擇7.5.1 特征選擇介紹面向分類的特征選擇方法。有效地特征選擇不僅降低數(shù)據(jù)量,提高分類模型的構(gòu)建效率,有時還可以提高分類準確率。特征選擇方法有很多,總結(jié)它們的共同特點,其過程可以分為以下幾步:根據(jù)一定的方法選擇一個屬性子集;衡量子集的相關(guān)性;判斷是否需要更新屬性子集,若是,轉(zhuǎn)第1步繼續(xù),若否,進入下一步;輸出最終選取的屬性子集。

10、屬性子集的選擇選擇屬性子集的方法,一般采用啟發(fā)式方法,只檢驗部分可能性比較大的子集,這樣可以快速完成屬性的選擇常用的方法包括:逐步增加法(stepwise forward selection)、逐步遞減法(stepwise backward elimination)、隨機選取。衡量子集的相關(guān)性第二步中,通常采用兩類不同的方法一類稱為filter方法,利用距離、信息熵以及相關(guān)度檢驗等方法直接衡量屬性子集與類別的關(guān)聯(lián);另一類稱為wrapper方法,利用分類模型來衡量屬性子集的效果,通常效率很低Relief: 給定數(shù)據(jù)集D,屬性集A=A1, A2, , Am, class,權(quán)重閾值,樣本個數(shù)N, 主

11、要步驟1. 初始化每個屬性Ai的權(quán)重wi=0, j=0,數(shù)值屬性規(guī)范化到0,1;2. 從D 中隨機抽取一個對象作為樣本x,從與x類別相同的對象中選取一個距離與x最近的樣本h,h稱為x的near-hit;從與x類別不同的對象中選取一個距離與x最近的樣本s, s稱為x的near-miss;3. 對于每個屬性Ai,調(diào)整其權(quán)重如下:wi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) (7-8)4. j=j+1; 如果jN,轉(zhuǎn)至步驟2。否則,輸出那些權(quán)重大于閾值的屬性Reliefwi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) x.Ai代表對象x屬性Ai的取值;

12、d(x.Ai, h.Ai)代表對象x和h在屬性Ai的取值的相異性。若屬性Ai為數(shù)值屬性,d(x.Ai, h.Ai)=|x.Ai- h.Ai|;若為標稱屬性,取值相同時d(x.Ai, h.Ai)=0,不同則d(x.Ai, h.Ai)=1;若為序數(shù)屬性,有p個不同取值,按照順序映射為整數(shù)0(p-1),d(x.Ai, h.Ai)=|x.Ai- h.Ai|/(p-1)。實際上,權(quán)值的調(diào)整只需要對取值不同的屬性進行。Relief對象編號ABCDEFClass10000010200011103001001040011001501000106010111071010011801110019101100110

13、11000017.5.2 特征提取主成分分析,PCA(principle component analysis)最早由Karl Pearson于1901年提出,后經(jīng)Harold Hotelling發(fā)展,是一種經(jīng)典的統(tǒng)計方法。它通過對原有變量(屬性、特征)進行線性變換,提取反映事物本質(zhì)的新的變量,同時去除冗余、降低噪音,達到降維的目的。PCA: 主成分分析給定數(shù)據(jù)集D,包括n個對象的數(shù)據(jù),每個對象由m個屬性A1、A2、Am描述。每個對象可以看作m維空間中的一個點。sepal_lengthsepal_widthpetal_lengthpetal_widthtype5.72.94.21.3Iris-

14、versicolor6.22.94.31.3Iris-versicolorFeature extraction-PCAPCA計算協(xié)方差矩陣C的特征根和主成分矩陣,保留前q 個最大的特征根及對應的特征向量,其中最大特征根對應的特征向量稱為第一主成分,第二大特征根對應的是第二主成分,構(gòu)造主成分矩陣P,其中其列向量pi是第i個主成分假設降序排列的特征根為 ,第i個主成分的貢獻率的計算如下:計算最終降維后的數(shù)據(jù)集Y,Y=XP,其中P是主成分矩陣,X是步驟1中得到的矩陣。PCAsepal_lengthsepal_widthpetal_lengthpetal_width5.72.94.21.36.22.94.31.35.72.84.11.36.33.36.02.55.82.75.11.97.13.05.92.15.13.81.60.24.63.21.40.25.33.71.50.2PCA特征根貢獻率累積貢獻率4.224840.924620

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論