版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
主講教師:張鑫浙江經(jīng)貿(mào)職業(yè)技術(shù)學院數(shù)據(jù)采集與處理異常數(shù)據(jù)處理案例導入異常數(shù)據(jù)的定義異常數(shù)據(jù)的成因異常數(shù)據(jù)的檢測01020304異常數(shù)據(jù)的處理051、案例導入小明在一家大型的電商企業(yè)做數(shù)據(jù)分析師工作,近期,他接到一個要分析企業(yè)銷售額為什么會下降的任務(wù),首先,小明通過外部以及內(nèi)部數(shù)據(jù)采集工具對銷售相關(guān)數(shù)據(jù)進行了采集,但是,他發(fā)現(xiàn)采集得到的數(shù)據(jù)中,有很多數(shù)據(jù)明顯不對,有異常,比如,客戶的年齡是300歲,產(chǎn)品的價格是-10,諸如此類,對此,他要對異常數(shù)據(jù)進行處理。2、異常數(shù)據(jù)的定義首先,我們來看一下異常值的定義,異常值是指一組測定值中與平均值的偏差超過兩倍標準差的測定值。而與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。異常值通常被稱為“離群點”,而異常值是如何產(chǎn)生的呢?3、異常數(shù)據(jù)的成因常見的異常成因有以下幾點:測量誤差01收集誤差02有意離群值03自然離群值04測量誤差01在數(shù)據(jù)測量的時候出現(xiàn)錯誤。有意離群值03在通常涉及到敏感的數(shù)據(jù)收集時會出現(xiàn)偏差,比如,青少年通常會隱瞞他們吸煙的情況。收集誤差02人工收集的時候出現(xiàn)了誤差,比如人工輸入數(shù)據(jù)的時候,手誤打了一個0自然離群值04當異常數(shù)據(jù)不是人為錯誤導致,就是自然離群值,比如在看人均收入時,富豪榜上的人群收入水平明顯高于普通人。3、異常數(shù)據(jù)的檢測對于異常值,我們首先要將其檢測出來,異常檢測也稱偏差檢測和例外挖掘,通常的檢測方法有下面幾種:簡單的統(tǒng)計分析01基于模型檢測02箱型圖分析03基于密度檢測044、異常數(shù)據(jù)的檢測01簡單的統(tǒng)計分析拿到數(shù)據(jù)后可以對數(shù)據(jù)進行一個簡單的描述性統(tǒng)計分析,譬如最大最小值可以用來判斷這個變量的取值是否超過了合理的范圍,如客戶的年齡為-20歲或200歲,顯然是不合常理的,為異常值。02基于模型檢測首先建立一個數(shù)據(jù)模型,異常是那些同模型不能完美擬合的對象;如果模型是簇的集合,則異常是不顯著屬于任何簇的對象;如圖中剪頭所示數(shù)據(jù)點,在使用回歸模型時,異常是相對遠離預測值的對象。優(yōu)點:有堅實的統(tǒng)計學理論基礎(chǔ),當存在充分的數(shù)據(jù)和所用的檢驗類型的知識時,這些檢驗可能非常有效。缺點:對于多元數(shù)據(jù),可用的選擇少一些,并且對于高維數(shù)據(jù),這些檢測可能性很差。4、異常數(shù)據(jù)的檢測03箱型圖分析箱型圖提供了一個識別異常值的標準,即大于或小于箱型圖設(shè)定的上下界的數(shù)值即為異常值,箱型圖如圖所示:定義上下四分位:上
四分位我們設(shè)為U,表示的是所有樣本中只有1/4的數(shù)值大于U下四分位我們設(shè)為L,表示的是所有樣本中只有1/4的數(shù)值小于L定義上下界:設(shè)上四分位與下四分位的差值為IQR,即:IQR=U-L那么,上界為U+1.5IQR,下界為:L-1.5IQR箱型圖選取異常值比較客觀,在識別異常值方面有一定的優(yōu)越性。4、異常數(shù)據(jù)的檢測03基于密度檢測當一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數(shù)。如果該距離小,則密度高,這種方法適合非均勻分布的數(shù)據(jù)。優(yōu)點:給出了對象是離群點的定量度量,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理。缺點:與基于距離的方法一樣,對于大數(shù)據(jù)集所花費的時間較長。參數(shù)選擇困難。雖然算法通過觀察不同的k值,取得最大離群點得分來處理該問題。但是,仍然需要選擇這些值的上下界。那應(yīng)該怎樣處理“異常值”呢?4、異常數(shù)據(jù)的檢測01020301刪除明顯看出是異常且數(shù)量較少可以直接刪除02平均值替代該方法損失信息小,簡單高效03視為缺失值可以按照處理缺失值的方法來處理5、異常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 毽子里的銅錢課件
- 《心肌梗死健康宣教》課件
- 單位管理制度展示選集【職工管理】
- 單位管理制度展示大全【職員管理篇】
- 2025年家電行業(yè)策略報告:內(nèi)銷走出休息區(qū)關(guān)注外銷自主品牌
- 幼兒園組織與管理課件
- 2025物品保管合同范本
- 北大中醫(yī)養(yǎng)生學課件 飲食類養(yǎng)生
- 砂場項目立項申請報告模板
- 中國國有銀行市場全面調(diào)研及行業(yè)投資潛力預測報告
- 93江蘇省宿遷市泗洪縣2023-2024學年八年級上學期期末英語試題()
- 教學能力大賽決賽獲獎-教學實施報告-(完整圖文版)
- 亞朵酒店管理手冊
- 紀檢機關(guān)查辦案件分析報告
- 高一期末家長會課件
- 2024年航空職業(yè)技能鑒定考試-航空乘務(wù)員危險品歷年考試高頻考點試題附帶答案
- 2024版全文:中國2型糖尿病預防及治療指南
- 醫(yī)院禁毒行動方案
- 設(shè)立影視服務(wù)公司商業(yè)計劃書
- 《流行性腦脊髓膜炎》課件
- 《工程地質(zhì)勘察 》課件
評論
0/150
提交評論