大數(shù)據(jù)管理培訓(xùn)課件_第1頁
大數(shù)據(jù)管理培訓(xùn)課件_第2頁
大數(shù)據(jù)管理培訓(xùn)課件_第3頁
大數(shù)據(jù)管理培訓(xùn)課件_第4頁
大數(shù)據(jù)管理培訓(xùn)課件_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第3章 大數(shù)據(jù)管理大數(shù)據(jù)管理第1頁本章內(nèi)容3.1 大數(shù)據(jù)清洗3.1.1 數(shù)據(jù)質(zhì)量3.1.2 數(shù)據(jù)清洗作用3.1.3 數(shù)據(jù)清洗方法和過程3.1.4 數(shù)據(jù)清洗實例3.2 數(shù)據(jù)類型和數(shù)據(jù)轉(zhuǎn)換3.2.1 數(shù)據(jù)類型3.2.2 數(shù)據(jù)轉(zhuǎn)換3.3 大數(shù)據(jù)提取和加載試驗3 數(shù)據(jù)處理大數(shù)據(jù)管理第2頁3.1 大數(shù)據(jù)清洗 大數(shù)據(jù)時代下,管理關(guān)鍵依靠著數(shù)據(jù),但伴隨信息量不停增加、智慧工具不停涌現(xiàn),怎樣對數(shù)據(jù)進行有效清洗實現(xiàn)數(shù)據(jù)真實性,有效性,唯一性變得十分含有挑戰(zhàn)。為了使數(shù)據(jù)統(tǒng)計更準(zhǔn)確、一致,消除重復(fù)和異常統(tǒng)計就變得很主要,所以數(shù)據(jù)預(yù)處理工作是相當(dāng)必要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理一個主要步驟,在大數(shù)據(jù)分析過程中占據(jù)主要位置

2、。大數(shù)據(jù)管理第3頁 3.1.1 數(shù)據(jù)質(zhì)量 1.數(shù)據(jù)質(zhì)量四大要素 在技術(shù)發(fā)展不一樣階段,對數(shù)據(jù)質(zhì)量有不一樣定義和標(biāo)準(zhǔn)。早期對數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)主要以數(shù)據(jù)準(zhǔn)確性為出發(fā)點,伴隨信息系統(tǒng)功效和定位不停延伸,用戶關(guān)心重點逐步由數(shù)據(jù)準(zhǔn)確性擴展至正當(dāng)性、一致性等方面。歸納起來,數(shù)據(jù)質(zhì)量含有四大要素: 完整性 一致性 準(zhǔn)確性 及時性大數(shù)據(jù)管理第4頁2. 數(shù)據(jù)質(zhì)量管理關(guān)鍵 制訂規(guī)范數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn)建立有效數(shù)據(jù)質(zhì)量監(jiān)管體系建立完善數(shù)據(jù)質(zhì)量管理制度 大數(shù)據(jù)管理第5頁3.1.2 數(shù)據(jù)清洗作用 數(shù)據(jù)清洗就是按照一定規(guī)則把“臟數(shù)據(jù)”“洗掉”,過濾不符合要求數(shù)據(jù),主要包含不完整數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù),然后將過濾結(jié)果交給業(yè)務(wù)

3、主管部門,確認(rèn)是否過濾掉還是修正之后再進行提取。所以怎樣對數(shù)據(jù)進行有效清理和轉(zhuǎn)換,使之成為符合數(shù)據(jù)分析要求數(shù)據(jù)源,是影響數(shù)據(jù)分析準(zhǔn)確性關(guān)鍵原因。大數(shù)據(jù)管理第6頁3.1.3 數(shù)據(jù)清洗方法和過程1. 數(shù)據(jù)清洗方法 經(jīng)過人工檢驗 經(jīng)過專門編寫應(yīng)用程序 針對特定應(yīng)用領(lǐng)域數(shù)據(jù)清理 針對與特定應(yīng)用領(lǐng)域無關(guān)數(shù)據(jù)清理大數(shù)據(jù)管理第7頁3.1.3 數(shù)據(jù)清洗方法和過程2. 數(shù)據(jù)清洗過程第一階段:數(shù)據(jù)分析、定義錯誤類型第二階段:搜索、識別錯誤統(tǒng)計第三階段:修正錯誤大數(shù)據(jù)管理第8頁3.1.4 數(shù)據(jù)清洗實例DataEye 原始數(shù)據(jù)源提供一組游戲下載時長數(shù)據(jù)集 假如直接計算游戲平均下載時長,得到結(jié)果為23 062.57 秒

4、,約6.4小時,與實際情況嚴(yán)重不符,說明這一數(shù)據(jù)集受到噪聲數(shù)據(jù)顯著影響。大數(shù)據(jù)管理第9頁3.1.4 數(shù)據(jù)清洗實例將數(shù)據(jù)集等分為240 300 個區(qū)間,找到數(shù)據(jù)集中區(qū)域0,3 266.376,對取值之間數(shù)據(jù)做箱型圖分析,對此區(qū)間外數(shù)據(jù)剔除離群值,重新計算平均下載時長最終計算目標(biāo)數(shù)據(jù)源平均下載時長為192.93 秒,約3.22 分,符合實際情況。經(jīng)過數(shù)據(jù)分布特征及箱型圖方法來識別、剔除噪聲數(shù)據(jù)較為快捷且效果顯著。大數(shù)據(jù)管理第10頁3.2.1 數(shù)據(jù)類型1. 整理數(shù)據(jù)類型(1)INT(或INTEGER)數(shù)據(jù)類型;(2)SMALLINT 數(shù)據(jù)類型(3)TINYINT 數(shù)據(jù)類型;(4)BIGINT 數(shù)據(jù)類

5、型2. 浮點數(shù)據(jù)類型(1)REAL 數(shù)據(jù)類型;(2)FLOAT 數(shù)據(jù)類型(3)DECIMAL 數(shù)據(jù)類型;(4)NUMERIC 數(shù)據(jù)類型3. 二進制數(shù)據(jù)類型(1)BINARY 數(shù)據(jù)類型 ;(2)VARBINARY 數(shù)據(jù)類型 3.2 數(shù)據(jù)類型和數(shù)據(jù)轉(zhuǎn)換大數(shù)據(jù)管理第11頁3.2.1 數(shù)據(jù)類型4. 邏輯數(shù)據(jù)類型 BIT 數(shù)據(jù)類型5. 字符數(shù)據(jù)類型(1)CHAR 數(shù)據(jù)類型;(2)NCHAR 數(shù)據(jù)類型(3)VARCHAR 數(shù)據(jù)類型;(4)NVARCHAR 數(shù)據(jù)類型6. 文本和圖像數(shù)據(jù)類型(1)TEXT 數(shù)據(jù)類型;(2)NTEXT 數(shù)據(jù)類型;(3)IMAGE 數(shù)據(jù)類型7. 日期和時間數(shù)據(jù)類型 DATETIM

6、E 數(shù)據(jù)類型用于存放日期和時間大數(shù)據(jù)管理第12頁3.2.2 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一個表示形式變?yōu)榱硪粋€表示形式過程。因為每一個軟件后臺數(shù)據(jù)庫構(gòu)架與數(shù)據(jù)存放形式都是不相同,所以就需要對數(shù)據(jù)進行轉(zhuǎn)換。比如,對兩個操作數(shù)進行運算,當(dāng)操作數(shù)類型不一樣,而且不屬于基本數(shù)據(jù)類型時,經(jīng)常需要將操作數(shù)轉(zhuǎn)換為所需要類型,這個過程即為強制類型轉(zhuǎn)換。強制類型轉(zhuǎn)換有兩種形式:顯式強制類型轉(zhuǎn)換和隱式強制類型轉(zhuǎn)換。大數(shù)據(jù)管理第13頁3.3 大數(shù)據(jù)提取和加載 大數(shù)據(jù)提取和加載是指將轉(zhuǎn)換好數(shù)據(jù)保留到數(shù)據(jù)倉庫中去。大數(shù)據(jù)在加載時普通采取兩種方式:完全刷新加載從技術(shù)角度上說,完全刷新加載比增量提取和加載要簡單得多,它適用于數(shù)據(jù)量不大而且時間代價和條件代價較小情況。增量提取和加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論