數(shù)據(jù)探查與預(yù)處理_第1頁
數(shù)據(jù)探查與預(yù)處理_第2頁
數(shù)據(jù)探查與預(yù)處理_第3頁
數(shù)據(jù)探查與預(yù)處理_第4頁
數(shù)據(jù)探查與預(yù)處理_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、SWUFE1數(shù)據(jù)探查張英2022年3月27日星期日SWUFE2數(shù)據(jù)質(zhì)量 數(shù)據(jù)對應(yīng)用的適合性:相關(guān)性、完備性、時效性數(shù)據(jù)對應(yīng)用的適合性:相關(guān)性、完備性、時效性 數(shù)據(jù)的可用性:數(shù)據(jù)的可用性:屬性含義及其取值的可理解性 數(shù)據(jù)集成程度數(shù)據(jù)集成程度 數(shù)據(jù)的規(guī)模及抽樣偏倚數(shù)據(jù)的規(guī)模及抽樣偏倚 數(shù)據(jù)收集和測量問題數(shù)據(jù)收集和測量問題 收集問題收集問題 測量問題測量問題2022年3月27日星期日SWUFE3數(shù)據(jù)特征數(shù)據(jù)特征 屬性類型與測量水平屬性類型與測量水平 定性與定量、分散與連續(xù)定性與定量、分散與連續(xù) 數(shù)據(jù)的粒度與單位數(shù)據(jù)的粒度與單位 缺失值與數(shù)據(jù)的稀疏性缺失值與數(shù)據(jù)的稀疏性 基本統(tǒng)計特征基本統(tǒng)計特征202

2、2年3月27日星期日數(shù)據(jù)對象(實例、記錄、觀測)數(shù)據(jù)對象(實例、記錄、觀測)屬性(變量、維、特征)屬性(變量、維、特征)SWUFE4字符型(分類屬性、定性屬性) 二元(BINARY)屬性 對稱二元屬性 例如:性別 不對稱二元屬性 例如:是否欺詐,只關(guān)注非零值 標(biāo)稱(NOMINAL)屬性(類別屬性)(定類變量)取值無序 例如:職業(yè)、專業(yè)、婚姻狀況 序數(shù)(ORDINAL)屬性(定序變量)取值有序 例如:職稱、滿意度2022年3月27日星期日SWUFE5數(shù)值型(定量屬性) 區(qū)間(INTERVAL)屬性 (定距變量) 例如:溫度 比率(RATIO)屬性 (定比變量) 例如:成績、收入、利潤、人數(shù)202

3、2年3月27日星期日SWUFE6屬性類型的不同操作特征2022年3月27日星期日注意:每種類型擁有其上方類型的性質(zhì)和操作注意:每種類型擁有其上方類型的性質(zhì)和操作SWUFE7缺失值和數(shù)據(jù)的稀疏性-排序的影響2022年3月27日星期日SWUFE8基本統(tǒng)計描述 屬性取值的一般水平 屬性取值的離散程度 分布的對稱性與中心集中度 屬性間取值的相關(guān)性2022年3月27日星期日SWUFE9數(shù)據(jù)的中心趨勢 數(shù)值屬性 均值 中位數(shù) 截尾均值 三均值 字符屬性 眾數(shù)2022年3月27日星期日niixnx11x8.08.08.08.08.08.08.019.08.08.08.0SWUFE10數(shù)據(jù)的離散程度 數(shù)值屬性

4、 極差、方差、標(biāo)準(zhǔn)差、平均絕對偏差 四分位數(shù)與四分位極差QR=Q3-Q1 變異系數(shù) 字符屬性取值個數(shù)2022年3月27日星期日 下截斷點:Q1 -1.5*QR 上截斷點:Q3+1.5*QR孤立點上截斷點 CV=(%)100 xSWUFE11數(shù)據(jù)分布的對稱性2022年3月27日星期日偏度SWUFE12數(shù)據(jù)分布的中心集中度2022年3月27日星期日峰度為負(fù)正態(tài)分布,峰度為0峰度為正SWUFE13屬性間的相關(guān)性相關(guān)系數(shù)相關(guān)系數(shù)夾角余弦夾角余弦2022年3月27日星期日A、B屬性為標(biāo)稱屬性或二元屬性,其取值個數(shù)分別為c,rOij:實際頻數(shù)eij:期望頻數(shù)自由度:(r-1)*(c-1)原假設(shè):A和B獨立

5、12211(6 .1 0 )niiinniiiixxcxx SWUFE14 性別與閱讀興趣相關(guān)?結(jié)論:性別與閱讀興趣相關(guān)2022年3月27日星期日SWUFE15安斯庫姆四重奏安斯庫姆四重奏一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.1

6、36.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.892022年3月27日星期日統(tǒng)計量數(shù)值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x與y之間的相關(guān)系數(shù)0.816SWUFE16數(shù)據(jù)的圖形表示 分位數(shù)圖 直方圖或柱形圖 盒形圖 莖葉圖 餅圖 散點圖、折線圖2022年3月27日星期日等高線圖等高線圖平行坐標(biāo)系平行坐標(biāo)系圖形矩陣圖形矩陣星型坐標(biāo)圖星型坐標(biāo)圖Chern

7、off臉圖臉圖SWUFE17分位數(shù)圖2022年3月27日星期日MQ1Q3MQ1Q3SWUFE18直方圖(柱形圖)2022年3月27日星期日SWUFE19盒形圖2022年3月27日星期日中位數(shù)中位數(shù)平均數(shù)平均數(shù)Q1Q3上截斷點上截斷點或最大值或最大值下截斷點下截斷點或最小值或最小值孤立點孤立點SWUFE20散點圖2022年3月27日星期日SWUFE21多維圖2022年3月27日星期日平行坐標(biāo)系平行坐標(biāo)系Chernoff臉圖臉圖星型坐標(biāo)圖星型坐標(biāo)圖SWUFE22客戶信息數(shù)據(jù)問題舉例部分屬性值為空部分屬性值為空收入為收入為0出生日期填寫為出生日期填寫為1900.1.1不同地區(qū)的客戶分散在不同的數(shù)據(jù)集

8、中不同地區(qū)的客戶分散在不同的數(shù)據(jù)集中不同的屬性分散在不同的數(shù)據(jù)集中不同的屬性分散在不同的數(shù)據(jù)集中客戶數(shù)量太大、屬性個數(shù)太多客戶數(shù)量太大、屬性個數(shù)太多缺乏年齡屬性缺乏年齡屬性收入分布偏斜收入分布偏斜地址對分析目標(biāo)而言太詳細(xì)地址對分析目標(biāo)而言太詳細(xì)2022年3月27日星期日SWUFE23 數(shù)據(jù)清洗 數(shù)據(jù)集成 數(shù)據(jù)消減 數(shù)據(jù)轉(zhuǎn)換 復(fù)雜數(shù)據(jù)類型的預(yù)處理2022年3月27日星期日 數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量 分析方法分析方法 需求需求SWUFE24數(shù)據(jù)清洗 處理錯誤或不一致的數(shù)據(jù) 處理缺失值 識別處理孤立點 平滑噪聲數(shù)據(jù)2022年3月27日星期日SWUFE252022年3月27日星期日缺失值的處理缺失值的處理 忽

9、略該條記錄 填補 人工確定值或固定值 均值(中位數(shù))或眾數(shù) 同類別的均值(中位數(shù))或眾數(shù) 預(yù)測值:利用分類預(yù)測技術(shù)推斷出最大可能取值 增加標(biāo)識變量SWUFE26識別并處理孤立點 識別 常識 統(tǒng)計規(guī)則 聚類, 處理 去除 視為噪聲,進(jìn)行平滑2022年3月27日星期日SWUFE27噪聲平滑 分箱分箱 聚類聚類 回歸回歸2022年3月27日星期日SWUFE282022年3月27日星期日分箱(Bin) 等高分箱:每箱數(shù)據(jù)個數(shù)相同 等寬分箱:每箱的箱距相同排序確定箱數(shù)確定每箱數(shù)據(jù)個數(shù)確定箱距分配替換SWUFE292022年3月27日星期日等高分箱方法舉例4,15,25,34,8,21,26,9,24,2

10、8,29,21(1)排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34(2)將數(shù)據(jù)分割為等高的3箱,每箱4個數(shù)據(jù)項 :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34(3)根據(jù)箱中的平均值進(jìn)行平滑:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29SWUFE302022年3月27日星期日聚類與回歸平滑方法SWUFE31數(shù)據(jù)集成 合并多個數(shù)據(jù)源中的數(shù)據(jù),將之存放在一個一致的數(shù)據(jù)存儲中。 模式

11、集成問題 :同名不同義,同義不同名。 數(shù)據(jù)值沖突的檢測與處理例如:不同的計量單位、取值層次 數(shù)據(jù)冗余問題 縱向集成和橫向集成2022年3月27日星期日數(shù)據(jù)集數(shù)據(jù)集1中:中: Customerid(客戶編號)(客戶編號) Cid(客戶身份證號)(客戶身份證號) (一)季度存款額:單位:元(一)季度存款額:單位:元 開戶行:分行開戶行:分行數(shù)據(jù)集數(shù)據(jù)集2中:中: Cid(客戶編號)(客戶編號) (二)季度存款額:單位:千元(二)季度存款額:單位:千元 開戶行:支行開戶行:支行 SWUFE32 維歸約 數(shù)據(jù)壓縮(PCA、小波變換等) 屬性構(gòu)造 屬性子集選擇 行規(guī)約2022年3月27日星期日SWUFE

12、332022年3月27日星期日數(shù)據(jù)壓縮數(shù)據(jù)壓縮 數(shù)據(jù)壓縮是使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的“壓縮”表示。如果根據(jù)壓縮的數(shù)據(jù)集可以恢復(fù)原來的數(shù)據(jù)集,則數(shù)據(jù)壓縮是無損的,否則,數(shù)據(jù)壓縮是有損的。例如: 主成分分析 小波變換 奇異值分解SWUFE342022年3月27日星期日屬性子集選擇 手工消除無用或無關(guān)屬性 特征子集選取 特征子集選取就是選取最小的特征屬性集合,得到的數(shù)據(jù)挖掘結(jié)果與所有特征參加的數(shù)據(jù)挖掘結(jié)果相近或完全一致。 和建模過程集成 (嵌入方法) .多元回歸分析 逐步添加法(前向法) 逐步刪除法(后向法) 添加和刪除結(jié)合法(前向和后向結(jié)合法) .決策樹方法 進(jìn)行獨立的選取工作(過濾方法

13、和包裝方法) 例如:用關(guān)聯(lián)分析選取重要變量 用決策樹方法選取重要變量具有唯一值或近似唯一值的變量具有唯一值或近似唯一值的變量具有單一值或近似單一值的變量具有單一值或近似單一值的變量可以相互轉(zhuǎn)換或同意義的變量可以相互轉(zhuǎn)換或同意義的變量SWUFE352022年3月27日星期日特征子集選擇過程(過濾方法和包裝方法)SWUFE362022年3月27日星期日行規(guī)約 參數(shù)方法 非參數(shù)方法 聚集 抽樣 聚類 直方圖SWUFE37匯總屬性的粒度 電話流失客戶分月通話分鐘數(shù)2022年3月27日星期日 電話流失客戶分天通話分鐘數(shù)SWUFE38抽樣 簡單隨機抽樣(又放回和無放回) 分層抽樣 簇抽樣 自適應(yīng)或漸進(jìn)抽樣

14、2022年3月27日星期日SWUFE39數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)平滑去噪 數(shù)據(jù)聚集 新指標(biāo)屬性的構(gòu)造 數(shù)據(jù)規(guī)范化處理 數(shù)據(jù)泛化2022年3月27日星期日SWUFE402022年3月27日星期日數(shù)據(jù)規(guī)范化處理數(shù)據(jù)規(guī)范化處理 最小-最大規(guī)范化 z-score規(guī)范化(標(biāo)準(zhǔn)化) 十進(jìn)制縮放規(guī)范化。身高(m)體重(kg)X 張三 1.760Y 李四 1.880身高(cm)體重(kg)X 張三 17060Y 李四 18080SWUFE412022年3月27日星期日最小-最大規(guī)范化 A屬性的原取值區(qū)間minA,maxA 目標(biāo)新區(qū)間new_minA, new_maxA例如:百分制的85分轉(zhuǎn)化為5分制:SWUFE422022年3月27日星期日零均值(z-sco

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論