《商務數(shù)據(jù)分析》課件-缺失數(shù)據(jù)處理_第1頁
《商務數(shù)據(jù)分析》課件-缺失數(shù)據(jù)處理_第2頁
《商務數(shù)據(jù)分析》課件-缺失數(shù)據(jù)處理_第3頁
《商務數(shù)據(jù)分析》課件-缺失數(shù)據(jù)處理_第4頁
《商務數(shù)據(jù)分析》課件-缺失數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商務數(shù)據(jù)分析缺失數(shù)據(jù)處理缺失數(shù)據(jù)的定義1目錄CONTENTS缺失數(shù)據(jù)的處理3缺失數(shù)據(jù)的定義01缺失數(shù)據(jù)的定義01缺失數(shù)據(jù)(MissingValue)是指數(shù)據(jù)集中的某些值沒有被觀測到或記錄下來。這些數(shù)據(jù)存在于原始數(shù)據(jù)集中,但是由于各種原因,缺失了某些值,導致數(shù)據(jù)集中有空白或空缺值的地方。信息暫時無法獲取。如某種產(chǎn)品的收益等具有滯后效應。01數(shù)據(jù)因人為因素沒有被記錄、遺漏或丟失,這個是數(shù)據(jù)缺失的主要原因。02數(shù)據(jù)采集設備的故障、存儲介質、傳輸媒體故障而造成數(shù)據(jù)丟失。03獲取這些信息的代價太大。04有些對象的某個或某些屬性是不可用的;如:未婚者的配偶姓名、兒童的固定收入狀況等。05系統(tǒng)實時性能要求較高,即要求得到這些信息前迅速做出判斷或決策。06缺失值產(chǎn)生的原因缺失數(shù)據(jù)的處理02(1)刪除0102(2)插補03(3)不處理缺失數(shù)據(jù)的處理樣本清單中,如果單元格為空,則認為存在缺失數(shù)據(jù)。缺失數(shù)據(jù)通常用以下兩種方法替換:(1)刪除

刪除含缺失值的樣本(行)刪除含缺失值的特征(列)成對刪除(在重要變量存在的情況下,成對刪除只會刪除相對不重要的變量行。這樣可以盡可能保證充足的數(shù)據(jù)。該方法的優(yōu)勢在于它能夠幫助增強分析效果,但是它也有許多不足。它假設缺失數(shù)據(jù)服從完全隨機丟失(MCAR)。如果你使用此方法,最終模型的不同部分就會得到不同數(shù)量的觀測值,從而使得模型解釋非常困難。)(2)插補平均值填充人工填寫0103將初始數(shù)據(jù)集中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進行處理。如果空值是數(shù)值型的,就用平均值來填充該缺失的屬性值;如果空值是非數(shù)值型的,就使用眾數(shù)來填充缺失值當你對自己手頭的數(shù)據(jù)集足夠了解時,可以選擇自己填寫缺失值。然而一般來說,該方法很費時,當數(shù)據(jù)規(guī)模很大、空值很多的時候,該方法是不可行的。一般不推薦。02將空值作為一種特殊的屬性值來處理,它不同于其他的任何屬性值。如所有的空值都用“unknown”填充。一般作為臨時填充或中間過程。有時可能導致嚴重的數(shù)據(jù)偏離,一般不推薦。特殊值填充(3)不處理缺失值當樣本量足夠大,缺失值的數(shù)量相對較小時,缺失值對整體數(shù)據(jù)的影響微乎其微的時候,可以選擇不處理缺失值。缺失數(shù)據(jù)的處理首先要發(fā)現(xiàn)缺失值。一般用定位條件來查找缺失數(shù)據(jù)的單元格。下面演示將“年齡”字段中的空值替換為“20”。1)選中年齡所在的E列,選擇“查找和選擇”→“定位條件”命令,如圖4-6所示。圖4-6選擇“定位條件”命令

2)在“定位條件”對話框中,選中空值單選按鈕,如圖4-7所示。3)單擊“確定”按鈕,E列所有的空白單元格呈選中狀態(tài),如圖4-8所示。圖

4-7

選中

空值”

單選按鈕圖

4-8

選中所有空值缺失數(shù)據(jù)的處理(4) 輸入替代值“20”,按<Ctrl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論