


全文預覽已結束
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第二章數(shù)據(jù)預處理n 為什么要預處理數(shù)據(jù)?現(xiàn)實世界中的數(shù)據(jù)是臟的:不完整、聲、不一致不完整原因:收集和分析面對的不同情況人為/機器等原因有噪聲原因:人為/機器輸入的錯誤數(shù)據(jù)轉換的錯誤不一致原因:不同的數(shù)據(jù)源沒有高質量的數(shù)據(jù),就沒有高質量的挖掘結果!n 數(shù)據(jù)預處理的主要任務數(shù)據(jù)清理:通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性帶來“清理”數(shù)據(jù)。數(shù)據(jù)集成:涉及集成多個數(shù)據(jù)庫,數(shù)據(jù)立方體或文件數(shù)據(jù)變換:規(guī)范化和集聚數(shù)據(jù)歸約:得到數(shù)據(jù)集的簡化表示,它小得多但是產(chǎn)生同樣的結果數(shù)據(jù)離散化:數(shù)據(jù)規(guī)約形式,對于從數(shù)值數(shù)據(jù)自動地產(chǎn)生概念分成是非常有用n 描述性數(shù)據(jù)匯總動機:更好的理解數(shù)據(jù):中心趨勢和離中趨勢特征數(shù)據(jù)離散特征:(中心趨勢)均值、中位數(shù)、眾數(shù)、中列數(shù)(離中趨勢)四分位數(shù)、四分位數(shù)極差、方差 度量數(shù)據(jù)的離散程度:極差、四分位數(shù)、離群點和盒圖n 數(shù)據(jù)清洗重要性:試圖填充缺失的值,光滑噪聲并識別離群點,并糾正數(shù)據(jù)中的不一致數(shù)據(jù)清理的任務:填充缺失值:忽略元組、人工填寫缺失值、使用一個全局變量填充缺失值、使用屬性的均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值,使用最可能的值填充缺失值噪聲數(shù)據(jù):分箱:通過考察數(shù)據(jù)的緊鄰來光滑有序數(shù)據(jù)的值(用箱均值光滑、用箱邊界光滑、用箱中位數(shù)光滑)等寬分箱:每個分箱之間的數(shù)據(jù)值區(qū)間一致等深度分箱:每個分箱的數(shù)據(jù)量一致回歸:回歸函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)聚類:將類似的值組織成為群或“簇”校正不一致數(shù)據(jù):清楚數(shù)據(jù)集成帶來的冗余數(shù)據(jù):n 數(shù)據(jù)集成與變換數(shù)據(jù)集成:合并多個數(shù)據(jù)源中的數(shù)據(jù),存放在一個一致的數(shù)據(jù)存儲中數(shù)據(jù)變換:平滑:去掉數(shù)據(jù)中的噪音。這種技術包括分箱、聚類和回歸。 聚集:對數(shù)據(jù)進行匯總和聚集。例如,可以聚集日銷售數(shù)據(jù),計算月和年銷售額。通常,這一步用來為多粒度數(shù)據(jù)分析構造數(shù)據(jù)方。 數(shù)據(jù)泛化:使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)。例如,分類的屬性,如street,可以泛化為較高層的概念,如city 或country。類似地,數(shù)值屬性,如age,可以映射到較高層概念,如young, middle-age 和senior。 規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如-1.0 到1.0 或0.0 到1.0。 屬性構造(或特征構造):可以構造新的屬性并添加到屬性集中,以幫助挖掘過程。數(shù)據(jù)規(guī)范化方法:最小-最大規(guī)范化:小數(shù)定標規(guī)范化:z-score規(guī)范化:n 數(shù)據(jù)歸約重要性:復雜數(shù)據(jù)庫分析需要很長時間 數(shù)據(jù)規(guī)約策略:1. 數(shù)據(jù)方聚集:聚集操作用于數(shù)據(jù)方中的數(shù)據(jù)。2. 維歸約:可以檢測并刪除不相關、弱相關或冗余的屬性或維。3. 數(shù)據(jù)壓縮:使用編碼機制壓縮數(shù)據(jù)集。4. 數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示替換或估計數(shù)據(jù),如參數(shù)模型(只需要存放模型參數(shù),而不是實際數(shù)據(jù))或非參數(shù)方法,如聚類、選樣和使用直方圖。5. 離散化和概念分層產(chǎn)生:屬性的原始值用區(qū)間值或較高層的概念替換。概念分層允許挖掘多個抽象層上的數(shù)據(jù),是數(shù)據(jù)挖掘的一種強有力的工具。直方圖: 等寬:在等寬的直方圖中,每個桶的寬度區(qū)間是一個常數(shù)(如圖3.10 中每個桶的寬度為$10)。 等深(或等高):在等深的直方圖中,桶這樣創(chuàng)建,使得每個桶的頻率粗略地為常數(shù)(即,每個桶大致包含相同個數(shù)的臨近樣本)。 V-最優(yōu):給定桶個數(shù),如果我們考慮所有可能的直方圖,V-最優(yōu)直方圖是具有最小偏差的直方圖。直方圖的偏差是每個桶代表的原數(shù)據(jù)的加權和,其中權等于桶中值的個數(shù)。抽樣: 簡單抽樣:n 個樣本,不回放(SRSWOR):由D 的N 個元組中抽取n 個樣本(n N);其中, D中任何元組被抽取的概率均為1/N。即,所有元組是等可能的。 簡單抽樣:n 個樣本,回放(SRSWR):該方法類似于SRSWOR,不同在于當一個元組被抽取后,記錄它,然后放回去。這樣,一個元組被抽取后,它又被放回D,以便它可以再次被抽取。 聚類抽樣:如果D 中的元組被分組放入M 個互不相交的“聚類”,則可以得到聚類的m 個簡單隨機選樣;這里,m M。例如,數(shù)據(jù)庫中元組通常一次取一頁,這樣每頁就可以視為一個聚類。例如,可以將SRSWOR 用于頁,得到元組的聚類樣本,由此得到數(shù)據(jù)的歸約表示。 分層抽樣:如果D 被劃分成互不相交的部分,稱作“層”,則通過對每一層的簡單隨機選樣就可以得到D 的分層選樣。特別是當數(shù)據(jù)傾斜時,這可以幫助確保樣本的代表性。例如,可以得到關于顧客數(shù)據(jù)的一個分層選樣,其中分層對顧客的每個年齡組創(chuàng)建。這樣,具有最少顧客數(shù)目的年齡組肯定能夠表示。n 小結 數(shù)據(jù)預處理對于建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是一個重要的問題,因為現(xiàn)實世界中的數(shù)據(jù)多半是不完整的、有噪音的和不一致的。數(shù)據(jù)預處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。 數(shù)據(jù)清理例程可以用于填充遺漏的值,平滑數(shù)據(jù),找出局外者并糾正數(shù)據(jù)的不一致性。 數(shù)據(jù)集成將來自不同數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲。元數(shù)據(jù)、相關分析、數(shù)據(jù)沖突檢測和語義異種性的解決都有助于數(shù)據(jù)集成。 數(shù)據(jù)變換例程將數(shù)據(jù)變換成適于挖掘的形式。例如,屬性數(shù)據(jù)可以規(guī)范化,使得它們可以落入小區(qū)間,如0.0 到1.0。 數(shù)據(jù)歸約技術,如數(shù)據(jù)方聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約和離散化都可以用來得到數(shù)據(jù)的歸約表示,而使得信息內(nèi)容的損失最小。 數(shù)值數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025企業(yè)標準租車協(xié)議范本
- 公司工作流程管理制度
- 公司環(huán)境體系管理制度
- 湖南省長沙麓山國際實驗學校2025屆高三下學期二模英語試卷(含答案無聽力音頻及聽力原文)
- 福建省龍巖市2024~2025學年 高二下冊第二次月考(3月)數(shù)學試卷附解析
- 2025年中考語文(長沙用)課件:主題4 尋訪家鄉(xiāng)文化講好家鄉(xiāng)故事綜合實踐活動
- 雨水用水量徑流控制計算書
- 2025屆安徽省宣城市寧國市中考二模數(shù)學試卷含答案
- 2024年南充市順慶區(qū)考調(diào)真題
- 西安工程大學招聘筆試真題2024
- 混凝土回彈法測試原始記錄表
- 《英語詞匯學》期末考試試卷附答案
- 2022年7月浙江省普通高中學業(yè)水平考試語文試題(原卷版)
- 2023年南京市中考歷史試題及答案
- DLT 1051-2019電力技術監(jiān)督導則
- 2024屆安徽省淮南市西部地區(qū)七年級數(shù)學第二學期期末達標測試試題含解析
- 學校食堂食品安全追溯體系
- 新入職護士婦產(chǎn)科出科小結
- 第4課《直面挫折+積極應對》第1框《認識挫折+直面困難》【中職專用】《心理健康與職業(yè)生涯》(高教版2023基礎模塊)
- 第一課學會使用栽培工具
- 公交車事故分析與預防措施
評論
0/150
提交評論