第6章-數據預處理

上傳人：a*** IP屬地：湖北上傳時間：2023-02-05 格式：PPT 頁數：75 大?。?03.50KB 積分：28 舉報 版權申訴

已閱讀5頁，還剩70頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第6章數據預處理宋杰鯤?中國石油大學（華東）管理科學與工程系數據預處理

由于數據庫系統所獲數據量的迅速膨脹（已達GB或TB數量級），從而導致了現實世界數據庫中常常包含許多含有噪聲、不完整、甚至是不一致的數據。顯然對數據挖掘所涉及的數據對象必須進行預處理。數據預處理主要包括：數據清理、數據集成、數據選擇、數據變換、數據歸約等。數據預處理本章目標：了解并掌握數據預處理的幾種方法，特別是分箱方法、數據規(guī)格化方法。數據預處理6.1數據預處理的必要性6.2數據清理6.3數據集成6.4數據變換6.5數據歸約6.1數據預處理的必要性

數據挖掘的效果和數據質量之間有著緊密的聯系，所謂“垃圾入，垃圾出”，即數據的質量越好，則挖掘的結果就越精確，反之則不可能取得好的挖掘結果。尤其是在對包含有噪聲、不完整、不一致數據進行數據挖掘時，更需要進行數據的預處理，以提高數據挖掘對象的質量，并最終提高數據挖掘所獲模式知識的質量。6.1數據預處理的必要性

噪聲數據：噪聲是指一個測量變量中的隨機錯誤或偏離期望的孤立點值，產生噪聲的原因很多，人為的、設備的和技術的等，如數據輸入時的人為錯誤或計算機錯誤，網絡傳輸中的錯誤，數據收集設備的故障等。不完整數據：實際應用系統中，由于系統設計的不合理或者使用過程中的某些因素，某些屬性值可能會缺失或者值不確定。6.1數據預處理的必要性

不一致數據：由于原始數據來源于多個不同的應用系統或數據庫，信息龐雜，采集和加工的方法有別，數據描述的格式也各不相同，缺乏統一的分類標準和信息的編碼方案，難以實現信息的集成共享，很難直接用于數據挖掘。重復數據：同一事物在數據庫中存在兩條或多條完全相同的記錄，或者相同的信息冗余的存在于多個數據源中。6.1數據預處理的必要性

維度高數據：原始數據中通常記錄事物的較為全面的屬性，而在一次挖掘中，這些屬性并不是都有用，只需要一部分屬性即可得到希望知道的知識，而且無用屬性的增加還會導致無效歸納，把挖掘結果引向錯誤的結論。6.2數據清理

數據預處理的方法主要包括：數據清理（datacleaning）、數據集成（dataintegration）、數據變換（datatransformation）、數據歸約（datareduction）。

數據清理通過填補遺漏數據、消除異常數據、平滑噪聲數據，以及糾正不一致的數據。6.2數據清理

6.2.1遺漏數據處理

假設在分析一個商場銷售數據時，發(fā)現有多個記錄中的屬性值為空，如：顧客的收入屬性，對于為空的屬性值，可以采用以下方法進行遺漏數據處理：（1）忽略該條記錄。當一個記錄中有多個屬性值空缺，特別是關鍵信息丟失時，即使是采用某些方法把所有缺失的屬性值填充好，該記錄也不能反映真實情況，對于數據挖掘算法來說，這樣的數據性質很差，應該忽略該條記錄。6.2數據清理

6.2.1遺漏數據處理

（2）去掉屬性。如果所有記錄中的某一個屬性值缺失嚴重，可以認為該屬性對知識發(fā)現來說已經沒有意義，將其直接去掉。（3）手工填補遺漏值。以某些背景資料為依據，手工填寫空缺值，一般講這種方法比較耗時，而且對于存在許多遺漏情況的大規(guī)模數據集而言，顯然可行較差。6.2數據清理

6.2.1遺漏數據處理

（4）利用缺省值填補遺漏值。對一個離散屬性的所有遺漏的值均利用一個事先確定好的值來填補。如：都用OK來填補。但當一個屬性遺漏值較多值，若采用這種方法，就可能誤導挖掘進程。因此這種方法雖然簡單，但并不推薦使用，或使用時需要仔細分析填補后的情況，以盡量避免對最終挖掘結果產生較大誤差。（5）利用均值填補遺漏值。計算一個屬性（值）的平均值，并用此值填補該屬性所有遺漏的值。如：若一個顧客的平均收入(income)為12000元，則用此值填補屬性中所有被遺漏的值。6.2數據清理

6.2.1遺漏數據處理

（6）利用同類別均值填補遺漏值。計算同類樣本記錄的該屬性平均值，用來填充空缺值。如：若要對商場顧客按信用風險進行分類挖掘時，就可以用在同一信用風險類別下（如良好）的income屬性的平均值，來填補所有在同一信用風險類別下屬性income的遺漏值。6.2數據清理

6.2.1遺漏數據處理

（7）利用最可能的值填補遺漏值?？梢岳没貧w分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。例如：利用數據集中其它顧客的屬性值，可以構造一個決策樹來預測屬性income的遺漏值。與其他方法相比，該方法最大程度地利用了當前數據所包含的信息來幫助預測所遺漏的數據，是目前最為常用的方法。

（1）分箱方法。通過考察相鄰數據來確定最終值。把待處理的數據（某列屬性值）按照一定的規(guī)則放進一些箱子中，考察每一個箱子的數據，采用某種方法分別對各個箱子中的數據進行處理。常用的方法包括等深分箱法、等寬分箱法以及自定義分箱法。完成分箱之后，就要選擇一種方法對數據進行平滑，使得數據盡可能接近。常用的方法包括：6.2數據清理

6.2.2噪聲數據處理

①按平均值平滑：對同一箱值中的數據求平均值，然后用這個平均值替代該箱子中的所有數據。②按邊界值平滑：對于箱子中的每一個數據，觀察它和箱子兩個邊界值的距離，用距離較小的那個邊界值替代該數據。③按中值平滑：取箱子的中值，用來替代箱子中的所有數據。中值也稱中數，將數據排序之后，如果這些數據是奇數個，中值就是最中間位置的那個數；如果是偶數個，中值應該是中間兩個數的平均值。6.2數據清理

6.2.2噪聲數據處理price的排序后數據（元）：4,8,15,21,21,24,25,28,34等深分箱（箱深為3）：箱1：4,8,15

箱2：21,21,24

箱3：25,28,34等寬分箱（箱寬為10）：箱1：4,8

箱2：15,21,21,24,25

箱3：28,34自定義分箱（10以下，10~20，20~30，30~40）：箱1：4,8

箱2：15

箱3：21,21,24,25,28

箱4：346.2數據清理

6.2.2噪聲數據處理price的排序等深后數據：4,8,15;21,21,24;25,28,34用平均值平滑：箱1：9,9,9

箱2：22,22,22

箱3：29,29,29用邊界平滑：箱1：4,4,15

箱2：21,21,24

箱3：25,25,34用中值平滑：箱1：8,8,8

箱2：21,21,21

箱3：28,28,286.2數據清理

6.2.2噪聲數據處理課堂練習：假定用于分析的數據包含屬性age。數據元組中age的值如下（按遞增序）：13,15,16,16,19,20,20,21,22。1）使用按箱平均值（保留整數，四舍五入）平滑對以上數據進行平滑，箱的深度為3。說明你的步驟。2）使用按箱邊界平滑對以上數據進行平滑，箱的深度為3。說明你的步驟。6.2數據清理

6.2.2噪聲數據處理

（2）聚類方法。通過聚類分析可幫助發(fā)現異常數據，相似或相鄰近的數據聚合在一起形成各個聚類集合，而那些位于這些聚類集合之外的數據對象被認為是異常數據。聚類方法不需要任何先驗知識。6.2數據清理

6.2.2噪聲數據處理

（3）回歸方法。可以利用擬合函數對數據進行平滑。如：借助線性回歸（linearregression）方法，包括多變量回歸方法，就可以獲得的多個變量之間的一個擬合關系，從而達到利用一個（或一組）變量值來幫助預測另一個變量取值的目的。利用回歸分析方法所獲得的擬合函數，能夠幫助平滑數據及除去其中的噪聲。

6.2數據清理

6.2.2噪聲數據處理

（4）人機結合檢查方法。通過人與計算機檢查相結合方法，可以幫助發(fā)現異常數據。如：利用基于信息論方法可幫助識別用于分類識別手寫符號庫中的異常模式；所識別出的異常模式可輸出到一個列表中；然后由人對這一列表中的各異常模式進行檢查，并最終確認無用的模式（真正異常的模式）。這種人機結合檢查方法比單純利用手工方法手寫符號庫進行檢查要快許多。6.2數據清理

6.2.2噪聲數據處理

（1）多個取名或不規(guī)范取名的清理問題。數據清理將數據值進行一致化，即相同含義的值應具有統一的形式。如人員的出生地在不同的數據源中可能分別使用“上?！?、“滬”、“上海市”、“滬市、“申”、“申城”、“Shanghai”，、“SH”等表示上海市出生的人員，應將這類值統一表示。在不同的數據源中，相同類型的信息可能表現為不同的格式，例如，電話號碼通常定義為字符型數據，但在有些數據源中可能將其定義為數值型數據，因此應將其一致化。6.2數據清理

6.2.3不一致數據處理

（2）錯誤數據的清理問題。數據清洗包括數據的一致性確認，如人員的聯系信息在地址域的值為“中國石油大學（華東）”，而在相應的郵政編碼域值為“257000”，則記錄的數據存在不一致。在本例中，假如存在一個標準的地址和郵政編碼的對應表，則可對記錄中的郵政編碼值自動更正。當然，這需要結合一定的業(yè)務規(guī)則，因為也有可能郵政編碼的值正確，而地址域的值不正確。6.2數據清理

6.2.3不一致數據處理

（3）失效數據或過期數據的清理問題。地址是一個經常出現過時數據的典型例子。在當今社會中，人們常常改變他們的地址，所以一年以上的住址變得不再可靠。體現在有的客戶概況信息已超過兩年以上，而且客戶已經搬家，但新的地址并沒有在地址表中反映出來。郵寄清單必須經常更新，因為人們的工作會發(fā)生變化，他們的住址也隨之改變。我們將這種不再正確的老地址稱為失效數據。6.2數據清理

6.2.3不一致數據處理

（4）印刷錯誤的清理問題。英文單詞會經常性地被誤拼或誤打，漢語詞組也同樣如此。6.2數據清理

6.2.3不一致數據處理6.3數據集成

數據挖掘任務常常涉及數據集成操作，即將來自多個數據源的數據，如：數據庫、數據立方、普通文件等，結合在一起并形成一個統一數據集合，以便為數據挖掘工作的順利完成提供完整的數據基礎。數據集成（dataintegration）將多數據源中的數據進行合并處理，解決語義模糊性并整合成一致的數據存儲。數據集成涉及模式集成、屬性冗余、數據值沖突檢測與消除這三個方面的問題。

模式集成從多個異構數據庫、文件或遺留系統提取并集成數據，解決語義二義性，統一不同格式的數據。因此，模式集成涉及實體識別(entityidentification)，即如何表示不同數據庫中的字段是同一個實體，如何將不同信息源中的實體匹配來進行模式集成。例如：如何確定一個數據庫中的“customer-id”與另一個數據庫中的“custom-id”是否表示同一實體。數據庫與數據倉庫通常包含元數據，所謂元數據就是關于數據的數據，這些元數據可以幫助避免在模式集成時發(fā)生錯誤。

6.3數據集成

6.3.1模式集成問題

若一個屬性可以從其它屬性中推演出來，那這個屬性就是冗余屬性。如：一個顧客數據表中的平均月收入屬性，就是冗余屬性，顯然它可以根據月收入屬性計算出來。利用相關分析可以幫助發(fā)現一些比較隱蔽的數據冗余情況。例如：給定兩個屬性，則根據這兩個屬性的數值分析出這兩個屬性間的相互關系。屬性A，B之間的相互關系可以根據以下計算公式分析獲得。

6.3數據集成

6.3.2冗余問題記錄行冗余同步進行。

對于一個現實世界實體，其來自不同數據源的屬性值或許不同。產生這樣問題原因可能是表示的差異、比例尺度不同或編碼的差異等。例如：重量屬性在一個系統中采用公制，而在另一個系統中卻采用英制。同樣價格屬性在不同地點采用不同貨幣單位，而且可能涉及不同的服務（如免費早餐）或稅。這些語義的差異為數據集成提出許多問題。

6.3數據集成

6.3.3數據值沖突檢測與消除問題6.4數據變換

數據變換（datatransformation）就是將數據進行規(guī)范化和聚集。（1）平滑。幫助除去數據中的噪聲，還可以將連續(xù)的數據離散化。主要技術方法有：分箱方法、聚類方法和回歸方法。（2）聚集。對數據進行總結或合計操作。例如：每天銷售額（數據）可以進行合計操作以獲得每月或每年的總額。這一操作常用于構造數據立方或對數據進行多維度的分析。6.4數據變換

（3）數據泛化（generation）。所謂泛化處理就是用更抽象（更高層次）的概念來取代低層次或數據層的數據對象。例如：街道屬性，就可以泛化到更高層次的概念，諸如：城市、國家。同樣對于數值型的屬性，如年齡屬性，就可以映射到更高層次概念，如：年輕、中年和老年。6.4數據變換

（4）規(guī)格化。規(guī)格化就是將有關屬性數據按比例投射到特定小范圍之中，如將工資收入屬性值映射到-1.0到1.0范圍內，以消除數值型屬性因大小不一而造成挖掘結果的偏差。規(guī)格化處理常常用于神經網絡、聚類挖掘的數據預處理等等。下面介紹三種規(guī)格化方法：最小-最大規(guī)范化、z-score規(guī)范化和按小數定標規(guī)范化。6.4數據變換①最小-最大規(guī)范化假定minA和maxA分別為屬性A的最小和最大值。最小-最大規(guī)范化通過計算：例1假定屬性income的最小與最大值分別為$12,000和$98,000。我們想映射income到區(qū)間[0.0,0.1]。根據最小-最大規(guī)范化，income值$73,600將變換為：6.4數據變換②z-score規(guī)范化屬性A的值基于A的平均值和標準差規(guī)范化。A的值v被規(guī)范化為v’，由下式計算：例2假定屬性income的平均值和標準差分別為$54,000和$16,000。使用z-score規(guī)范化，值$73,600被轉換為6.4數據變換③小數定標規(guī)范化通過移動屬性A的小數點位置進行規(guī)范化。小數點的移動位數依賴于A的最大絕對值。A的值v被規(guī)范化為v’，由下式計算。其中j是使Max(|v’|)<1的最小整數。例3假定A的值由-986到917。A的最大絕對值為986。為使用小數定標規(guī)范化，我們用1,000（即j=3）除每個值。這樣，-986被規(guī)范化為-0.986。6.4數據變換

注意，規(guī)范化將原來的數據改變很多，特別是上述的后兩種方法。有必要保留規(guī)范化參數（如平均值和標準差，如果使用z-score規(guī)范化），以便將來的數據可以用一致的方式規(guī)范化。6.4數據變換課堂練習：假定用于分析的數據包含屬性age。數據元組中age的值如下（按遞增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70(a)使用min-max規(guī)范化，將age值35轉換到[0.0,1.0]區(qū)間。(b)使用z-score規(guī)范化轉換age值35，其中，age的標準偏差為12.94年。(c)使用小數定標規(guī)范化轉換age值35。6.4數據變換

（5）屬性構造。根據已有屬性集構造新的屬性，以幫助數據挖掘過程。對于屬性構造方法，它可以利用已有屬性集構造出新的屬性，并加入到現有屬性集合中以幫助挖掘更深層次的模式知識，提高挖掘結果準確性。例如，在客戶背景數據表中，根據客戶月收入，構造“收入水平”屬性，取值為低、中、高；再如：根據寬、高屬性，可以構造一個新屬性：面積。構造合適的屬性能夠幫助減少學習構造決策樹時所出現的碎塊情況。此外通過屬性結合可以幫助發(fā)現所遺漏的屬性間相互聯系，而這常常對于數據挖掘過程是十分重要的。6.5數據歸約

對大規(guī)模數據庫內容進行復雜的數據分析通常需要耗費大量的時間，這就常常使得這樣的分析變得不現實和不可行，尤其是需要交互式數據挖掘時。數據歸約技術正是用于幫助從原有龐大數據集中獲得一個精簡的數據集合，并使這一精簡數據集保持原有數據集的完整性，這樣在精簡數據集上進行數據挖掘顯然效率更高，并且挖掘出來的結果與使用原有數據集所獲得結果基本相同。數據歸約的主要策略有數據立方合計、維歸約、數據壓縮、數值歸約、離散化和概念分層產生等。

數據立方體是數據的多維建模和表示。數據立方體的維數可以是任意的n維。在最低層次所建立的數據立方稱為基立方，而最高抽象層次的數據立方稱為頂立方。6.5數據歸約

6.5.1數據立方合計

頂立方代表整個公司三年、所有分支、所有類型商品的銷售總額。顯然每一層次的數據立方都是對其低一層數據的進一步抽象。

6.5數據歸約

6.5.1數據立方合計

維歸約主要用于檢測和消除無關、弱相關、或冗余的屬性或維。由于數據集或許包含成百上千的屬性，這些屬性中的許多屬性是與挖掘任務無關的或冗余的。例如：挖掘顧客是否會在商場購買CD播放機的分類規(guī)則時，顧客的電話號碼很可能與挖掘任務無關。但如果利用人類專家來幫助挑選有用的屬性，則是一件困難和費時費力的工作，特別是當數據內涵并十分清楚的時候。6.5數據歸約

6.5.2維歸約

維歸約就是通過消除多余和無關的屬性而有效消減數據集的規(guī)模。通常采用屬性子集的選擇方法。屬性子集選擇方法的目標就是尋找出最小的屬性子集并確保新數據子集的概率分布盡可能接近原來數據集的概率分布。利用篩選后的屬性集進行數據挖掘所獲結果，由于使用了較少的屬性，從而使得用戶更加容易理解挖掘結果。

6.5數據歸約

6.5.2維歸約

包含d個屬性的集合共有2d個不同子集，從初始屬性集中發(fā)現較好的屬性子集的過程就是一個最優(yōu)窮盡搜索的過程，顯然隨著d不斷增加，搜索的可能將會增加到難以實現的地步。因此一般利用啟發(fā)知識來幫助有效縮小搜索空間。這類啟發(fā)式搜索通常都是基于可能獲得全局最優(yōu)的局部最優(yōu)來指導并幫助獲得相應的屬性子集。構造屬性子集的基本啟發(fā)式方法有以下幾種：逐步向前選擇、逐步向后刪除、向前選擇和向后刪除結合、決策樹歸納。6.5數據歸約

6.5.2維歸約

（1）逐步向前選擇。從一個空屬性集（作為屬性子集初始值）開始，每次從原來屬性集合中選擇一個當前最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最優(yōu)屬性或滿足一定閾值約束為止。（2）逐步向后刪除。從一個全屬性集（作為屬性子集初始值）開始，每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消去。直到無法選擇出最差屬性為止或滿足一定閾值約束為止。6.5數據歸約

6.5.2維歸約

（3）向前選擇和向后刪除相結合。將逐步向前選擇方法與逐步向后刪除結合在一起，每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消去，以及從原來屬性集合中選擇一個當前最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最優(yōu)屬性且無法選擇出最差屬性為止，或滿足一定閾值約束為止。6.5數據歸約

6.5.2維歸約

（4）決策樹歸納方法。通常用于分類的決策樹算法也可以用于構造屬性子集。具體方法就是：利用決策樹的歸納方法對初始數據進行分類歸納學習，獲得一個初始決策樹，所有沒有出現這個決策樹上的屬性均認為是無關屬性，因此將這些屬性從初始屬性集合刪除掉，就可以獲得一個較優(yōu)的屬性子集。6.5數據歸約

6.5.2維歸約6.5數據歸約

6.5.2維歸約

數據壓縮就是利用數據編碼或數據轉換將原來的數據集合壓縮為一個較小規(guī)模的數據集合。若僅根據壓縮后的數據集就可以恢復原來的數據集，那么就認為這一壓縮是無損的，如基于熵的編碼方法；否則就稱為有損的。在數據挖掘領域通常使用的三種數據壓縮方法均是有損的，分別是小波轉換、分形技術和主成分分析。6.5數據歸約

6.5.3數據壓縮

主成分分析法具有變差最優(yōu)性、信息損失最小性、相關最優(yōu)性和回歸最優(yōu)性，是數據壓縮和多元降維的重要工具。利用主成分分析法可以把多個相關的變量（指標）變換成少數幾個互相無關的綜合變量（主成分），這些綜合變量中包含了原來所有變量的大部分信息，且每個綜合變量只反映了經濟系統一個獨立方向上的信息。6.5數據歸約

6.5.3數據壓縮

數值或數據塊歸約是指通過選擇替代的、較小的數據表示形式減少數量，主要包含參數與非參數兩種基本方法。所謂參數方法就是利用一個模型來幫助通過計算獲得原來的數據，因此只需要存儲模型的參數即可（當然異常數據也需要存儲）。例如：線性和非線性回歸模型就可以根據一組變量預測計算另一個變量。而非參數方法則是存儲利用直方圖、聚類或取樣而獲得的消減后數據集。6.5數據歸約

6.5.4數值歸約（1）直方圖直方圖使用分箱近似數據分布，是一種流行的數據歸約形式。屬性A的直方圖將A的數據分布劃分為不相交的子集(buckets)，或桶。桶安放在水平軸上，而桶的高度（和面積）是該桶所代表的值的平均頻率。如果每個桶只代表單個屬性值/頻率對，則該桶稱為單桶。通常，桶表示給定屬性的一個連續(xù)區(qū)間。6.5數據歸約

6.5.4數值歸約例4下面的數據是AllElectronics通常銷售的商品的單價表（按$取整）。已對數據進行了排序：1（2）、5（5）、8（2）、10（4）、12、14（3）、15（5）、18（8）、20（7）、21（4）、25（5）、28、30（3）6.5數據歸約

6.5.4數值歸約等寬：在等寬的直方圖中，每個桶的寬度區(qū)間是一個常數。等深（或等高）：每個桶的頻率粗略地為常數。6.5數據歸約

6.5.4數值歸約課堂練習：

假定用于分析的數據包含屬性age。數據元組中age的值如下（按遞增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。畫一個長度為10（按照年齡原本定義，最小值從0開始，一直到數據最大值70）的等寬直方圖。

6.5數據歸約

6.5.4數值歸約（2）聚類聚類技術將數據行視為對象。對于聚類分析所獲得的組或類則有性質：同一組或類中的對象彼此相似而不同組或類中的對象彼此不相似。在數據歸約中，數據的聚類表示用于替換原來的數據。當然這一技術的有效性依賴于實際數據內在規(guī)律。在處理帶有較強噪聲數據采用數據聚類方法常常是非常有效的。

6.5數據歸約

6.5.4數值歸約（3）數據抽樣數據抽樣用數據的較小的樣本表示大的數據集。它主要利用統計學中的抽樣方法，如不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣、分層抽樣等。6.5數據歸約

6.5.4數值歸約①不放回簡單隨機抽樣：由D的N個元組中不回放抽取n個樣本（n<N）；其中，D中任何元組被抽取的概率均為1/N。即，所有元組是等可能的。

②放回簡單隨機抽樣：該方法類似于不放回簡單隨機抽樣，不同在于當一個元組被抽取后，記錄它，然后放回去。這樣，一個元組被抽取后，它又被放回D，以便它可以再次被抽取。

6.5數據歸約

6.5.4數值歸約6.5數據歸約

6.5.4數值歸約③聚類選樣：如果D中的元組被分組放入M個互不相交的“聚類”，則可以得到聚類的m個簡單隨機選樣；這里，m<M。例如，數據庫中元組通常一次取一頁，這樣每頁就可以視為一個聚類。

6.5數據歸約

6.5.4數值歸約④分層選樣：如果D被劃分成互不相交的部分，稱作“層”，則通過對每一層的簡單隨機選樣就可以得到D的分層選樣。6.5數據歸約

6.5.4數值歸約（4）離散化和概念分層產生離散化技術方法可以通過將屬性（連續(xù)取值）域值范圍分為若干區(qū)間，來幫助消減一個連續(xù)（取值）屬性的取值個數?？梢杂靡粋€標簽來表示一個區(qū)間內的實際數據值，這樣就形成了數據集的概念分層。如對數據集D遞歸的使用等寬分箱技術，形成概念分層。6.5數據歸約

6.5.4數值歸約6.5數據歸約

6.5.4數值歸約1）數值數據的離散化與概念分層數值數據的概念分層可以通過數據分析自動產生，這些方法包括前面介紹過的分箱、直方圖、聚類等。它們能夠無干預的完成對屬性的概念分層，但是這些方法劃分出來的層并不考慮邊界值是否直觀或自然。通常，用戶更希望分層具有自然的，易于記憶的、符合人類思維習慣的邊界。例如人們希望看到[20-30]、[30-40]，而不愿意看到[23.333-36.97]之類的分層。6.5數據歸約

6.5.4數值歸約

介紹一種通過自然劃分分段的方法進行概念分層的過程。該方法應用3-4-5規(guī)則，遞歸地將給定數據區(qū)域劃分為3、4、或5個等寬的區(qū)間，具體描述如下：

(1)如果待劃分的區(qū)間在最高有效位上包含3、6、7或9個不同的值，則將該區(qū)間劃分成3個區(qū)間。其中，如果是3、6或9，則劃分成等寬的3個區(qū)間，如果是7，則按2-3-2劃分成3個區(qū)間。

(2)如果待劃分區(qū)間最高有效位上包含2、4或8個不同的值，則把它劃分成4個等寬的區(qū)間。

(3)如果待劃分區(qū)間最高有效位上包含1、5或10個不同的值，則把它劃分成5個等寬的區(qū)間。在每個區(qū)間上遞歸的應用3—4—5規(guī)則，生成數據的概念分層，直到滿足預先設定的終止條件。

6.5數據歸約

6.5.4數值歸約6.5數據歸約

6.5.4數值歸約

如果數據集D的分布曲線呈現下圖所示的情況，區(qū)間兩端的值所占的比例非常少，可以根據情況設值一個置信區(qū)間(如5％-95％)，以這兩個點上的值作為初始劃分的區(qū)間，如[-9，28]，同樣在10(千元)上取整，得到區(qū)間[-10，30]，采用3-4-5規(guī)則。6.5數據歸約

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第6章-數據預處理

文檔簡介

溫馨提示

最新文檔

評論

第6章-數據預處理

文檔簡介

溫馨提示

最新文檔

評論

相關文檔