數(shù)據(jù)倉(cāng)庫(kù)的基本原理.ppt_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的基本原理.ppt_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的基本原理.ppt_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的基本原理.ppt_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的基本原理.ppt_第5頁(yè)
已閱讀5頁(yè),還剩109頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉(cāng)庫(kù)的基本原理,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的功能和構(gòu)成,第一章 數(shù)據(jù)倉(cāng)庫(kù)概論,業(yè)務(wù)數(shù)據(jù)庫(kù),提取、清洗、轉(zhuǎn)換,數(shù)據(jù)存儲(chǔ),OLAP,數(shù)據(jù)挖掘,企業(yè)決策層,數(shù)據(jù)倉(cāng)庫(kù),決策支持,多維查詢,預(yù)測(cè),數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu),數(shù)據(jù)挖掘分析系統(tǒng)/數(shù)據(jù)展現(xiàn)系統(tǒng),數(shù)據(jù)市場(chǎng),數(shù)據(jù)市場(chǎng),數(shù)據(jù)市場(chǎng),數(shù)據(jù)市場(chǎng),數(shù)據(jù) 元數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ),數(shù)據(jù)清洗/轉(zhuǎn)換,數(shù)據(jù)提取,提取倉(cāng)庫(kù),外部系統(tǒng),業(yè)務(wù)操作型系統(tǒng),數(shù)據(jù)提取 業(yè)務(wù)數(shù)據(jù)庫(kù)中并不是所有的數(shù)據(jù)都是決策支持所必需的。所以要把必需的那部分提取出來(lái)。 例子:某超市確定以分析客戶的購(gòu)買行為為主題建立數(shù)據(jù)倉(cāng)庫(kù)。 需要提取的數(shù)據(jù):與客戶購(gòu)買行為相關(guān)的 關(guān)于員工的數(shù)據(jù)沒(méi)有必要提取。,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,D

2、ata Extraction,數(shù)據(jù)清洗 數(shù)據(jù)不完整性 數(shù)據(jù)中的錯(cuò)誤 數(shù)據(jù)的不同步,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時(shí)間內(nèi)補(bǔ)全。補(bǔ)全后才寫入數(shù)據(jù)倉(cāng)庫(kù)。,錯(cuò)誤產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒(méi)有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫(kù)造成的,可用SQL語(yǔ)句進(jìn)行查找和改進(jìn),Data Cleaning,例子: 客戶基本信息表 客戶咨詢信息表 客戶號(hào):100 客戶號(hào):100 姓名:張山 姓名:張三 年齡:23 咨詢問(wèn)題: 兩個(gè)表中,客戶姓名不同。這是常見(jiàn)的錯(cuò)誤,數(shù)據(jù)清洗,客戶基本信息表 客戶業(yè)務(wù)變更信息表 客戶號(hào):100 客戶號(hào):100 姓名:張山 姓名:

3、張山 年齡:23 業(yè)務(wù)變更:停機(jī) 手機(jī)服務(wù)狀態(tài):正常 由于不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)刷新不是實(shí)時(shí)的,所以數(shù)據(jù)不同步。,數(shù)據(jù)清洗,在ETL開(kāi)發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過(guò)濾數(shù)據(jù)的郵件,促使他們盡快地修正錯(cuò)誤,同時(shí)也可以做為將來(lái)驗(yàn)證數(shù)據(jù)的依據(jù)。,數(shù)據(jù)轉(zhuǎn)化 不同的數(shù)據(jù)庫(kù)廠商,提供的數(shù)據(jù)類型可能不同。 例子: 不同的時(shí)間表達(dá)方式 2000-2-3 2/3/2000 2000/2/3 不同的坐標(biāo)系統(tǒng) WGS84 西安803 度帶 北京543度帶,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,Data Transformation,提取倉(cāng)庫(kù) 正是因?yàn)闃I(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)和數(shù)據(jù)格式存在不一致的問(wèn)題。將數(shù)據(jù)放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)前要先放進(jìn)提取倉(cāng)

4、庫(kù),等待清洗和轉(zhuǎn)換。,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,數(shù)據(jù)提取,清洗 轉(zhuǎn)換,提取日志 記錄了倉(cāng)庫(kù)中數(shù)據(jù)的來(lái)源,數(shù)據(jù)的轉(zhuǎn)化過(guò)程。便于保證和驗(yàn)證數(shù)據(jù)的質(zhì)量,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,數(shù)據(jù)管理員 不同于數(shù)據(jù)庫(kù)管理員或系統(tǒng)管理員。 在數(shù)據(jù)導(dǎo)入時(shí)負(fù)責(zé)管理數(shù)據(jù)質(zhì)量的專業(yè)人員。 查閱提取日志,發(fā)現(xiàn)數(shù)據(jù)提取中出現(xiàn)的錯(cuò)誤 有時(shí)還要檢測(cè)源于業(yè)務(wù)系統(tǒng)的錯(cuò)誤。,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,外部數(shù)據(jù)源 從系統(tǒng)外部獲取的,與分析主題相關(guān)的數(shù)據(jù)。 例子:超市采購(gòu)部門確定采購(gòu)貨單 既要了解超市內(nèi)部產(chǎn)品的銷售情況,還要了解市場(chǎng)上的信息,后者即為外部數(shù)據(jù)源。 外部數(shù)據(jù)源越來(lái)越多地采用服務(wù)的技術(shù),數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,ArcGis rest 服務(wù) O

5、GC WMS OGC WFS,地理信息服務(wù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ) 多維數(shù)據(jù)庫(kù) 關(guān)系型數(shù)據(jù)庫(kù) 兩者的結(jié)合,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,Data Repository,數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)中的原始數(shù)據(jù)是由業(yè)務(wù)系統(tǒng)提取的或外部數(shù)據(jù)源導(dǎo)入,經(jīng)過(guò)清洗、轉(zhuǎn)化而來(lái)。 為了完成OLAP分析和數(shù)據(jù)挖掘,必需在原始數(shù)據(jù)基礎(chǔ)上增加冗余信息與預(yù)運(yùn)算。,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,元數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是主要包含兩類數(shù)據(jù): 為了從操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),包含所有源數(shù)據(jù)項(xiàng)的名稱、屬性及其轉(zhuǎn)化。 用來(lái)在多維商業(yè)模型和前端工具之間建立映射的,叫做決策支持系統(tǒng)元數(shù)據(jù)。具體包括數(shù)據(jù)倉(cāng)庫(kù)中信息的種類、存儲(chǔ)位置、存儲(chǔ)格式;信息之間的關(guān)系

6、、信息和業(yè)務(wù)的關(guān)系、數(shù)據(jù)使用的業(yè)務(wù)規(guī)則;數(shù)據(jù)模型;數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系。,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,元數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,數(shù)據(jù),系統(tǒng),數(shù)據(jù),系統(tǒng),元數(shù)據(jù),Polygon的例子,數(shù)據(jù)集市 數(shù)據(jù)倉(cāng)庫(kù)中的信息按照不同的主題來(lái)組織。 舉例:市場(chǎng)發(fā)展趨勢(shì)的分析主題,由市場(chǎng)部門的人使用。 為避免在全部的巨量數(shù)組中檢索,把某主題的數(shù)據(jù)邏輯上或物理上分離出來(lái),可稱為數(shù)據(jù)集市。 數(shù)據(jù)集市面向某個(gè)部門。,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,數(shù)據(jù)集市,數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),數(shù)據(jù)的安全性 本地?cái)?shù)據(jù)的安全性:數(shù)據(jù)加密、訪問(wèn)權(quán)限設(shè)置。 網(wǎng)絡(luò)訪問(wèn)數(shù)據(jù)庫(kù):網(wǎng)絡(luò)安全機(jī)制、網(wǎng)絡(luò)傳輸中的數(shù)據(jù)加密和鑒權(quán)、防止監(jiān)聽(tīng)

7、和口令泄漏。,數(shù)據(jù)庫(kù)的功能和特征,數(shù)據(jù)處理的并發(fā)性 加鎖解鎖實(shí)現(xiàn)同步與互斥 多線程,多進(jìn)程技術(shù),磁盤的存儲(chǔ)優(yōu)化,合適的索引提高并發(fā)訪問(wèn)的效率。 事務(wù)處理的可靠性 原子操作不能分開(kāi)執(zhí)行,如果某步驟失敗,系統(tǒng)必須返回并更改操作。,數(shù)據(jù)庫(kù)的功能和特征,數(shù)據(jù)的一致性和完整性 數(shù)據(jù)庫(kù)設(shè)計(jì)、應(yīng)用的開(kāi)發(fā)、系統(tǒng)的維護(hù)方面共同努力。,數(shù)據(jù)庫(kù)的功能和特征,操作型數(shù)據(jù)的特點(diǎn) 分析型數(shù)據(jù)的特點(diǎn) 細(xì)節(jié)的 綜合的、經(jīng)過(guò)提煉的 在存取的瞬間是準(zhǔn)確的 代表過(guò)去的數(shù)據(jù) 可更新 不更新 操作需求通常事先可知 分析需求通常不知道 生命周期符合SDLC 生命周期不同于SDLC 對(duì)性能(如操作時(shí)延)要求高 對(duì)性能要求較寬 一個(gè)時(shí)刻操作

8、一個(gè)數(shù)據(jù)單元 一個(gè)時(shí)刻操作一個(gè)數(shù)據(jù)集合 事務(wù)驅(qū)動(dòng) 分析驅(qū)動(dòng) 面向應(yīng)用 面向分析 一次操作數(shù)據(jù)量小 一次操作數(shù)據(jù)量很大 支持日常操作需求 支持管理需求,數(shù)據(jù)倉(cāng)庫(kù)的功能和特征,W.H.Inmon把數(shù)據(jù)倉(cāng)庫(kù)定義為 “用于管理決策支持的面向主題、 集成、穩(wěn)定、隨時(shí)間變化的數(shù)據(jù) 集合”。 面向主題、集成、穩(wěn)定、隨時(shí)間變化是4個(gè)最重要特征。,數(shù)據(jù)倉(cāng)庫(kù)的功能和特征,面向主題 業(yè)務(wù)系統(tǒng)一般是以優(yōu)化事務(wù)處理的方式構(gòu)造數(shù)據(jù)結(jié)構(gòu)的,因此某個(gè)主題數(shù)據(jù)常常分布在不同的業(yè)務(wù)數(shù)據(jù)庫(kù)中,對(duì)于決策支持不利。,數(shù)據(jù)倉(cāng)庫(kù)的功能和特征,計(jì)費(fèi)數(shù)據(jù)庫(kù),賬務(wù)數(shù)據(jù)庫(kù),客戶服務(wù)數(shù)據(jù)庫(kù),市場(chǎng)信息數(shù)據(jù)庫(kù),業(yè)務(wù)系統(tǒng),面向主題分析,集成,計(jì)費(fèi)數(shù)據(jù)庫(kù),

9、賬務(wù)數(shù)據(jù)庫(kù),客戶服務(wù)數(shù)據(jù)庫(kù),市場(chǎng)信息數(shù)據(jù)庫(kù),現(xiàn)有業(yè)務(wù)系統(tǒng),面向主題的數(shù)據(jù)倉(cāng)庫(kù),收益數(shù)據(jù) 客戶數(shù)據(jù) 市場(chǎng)數(shù)據(jù),為了解決上述問(wèn)題,數(shù)據(jù)倉(cāng)庫(kù)把上述數(shù)據(jù)集中。 客戶基本信息表 客戶呼叫記錄表 客戶標(biāo)識(shí)號(hào) 客戶標(biāo)識(shí)號(hào) 客戶姓名 客戶呼叫時(shí)間 客戶年齡 客戶呼叫地點(diǎn) 客戶地址 客戶呼叫號(hào)碼 呼叫時(shí)長(zhǎng) 呼叫費(fèi)率 客戶話費(fèi)表 客戶標(biāo)示號(hào) 客戶咨詢表 客戶本月總話費(fèi) 客戶標(biāo)識(shí)號(hào) 本月通話費(fèi) 客戶咨詢內(nèi)容 本月短信費(fèi) 咨詢答案 ,數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中還是以數(shù)據(jù)表的形式存儲(chǔ),但數(shù)據(jù)的組織方式和建模方法有大的變化,現(xiàn)有業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)是分散的。而決策支持需要集成的數(shù)據(jù)。 實(shí)際上,要對(duì)分散的數(shù)據(jù)進(jìn)行集成,首先要完成對(duì)

10、數(shù)據(jù)的清洗和轉(zhuǎn)化。而數(shù)據(jù)轉(zhuǎn)化會(huì)遇到如下問(wèn)題:,數(shù)據(jù)的集成性,數(shù)據(jù)格式:比如電話號(hào)碼在不同數(shù)據(jù)庫(kù)中采用char(10)、varchar(50)、integer格式,沒(méi)有統(tǒng)一。 測(cè)量單位:不同的數(shù)據(jù)庫(kù)中對(duì)于統(tǒng)一屬性的測(cè)量單位可能不同,比如時(shí)間使用微妙、秒、分鐘、小時(shí) 數(shù)據(jù)代碼含義混亂:比如用定義H高、M中、L低分別表示收入級(jí)別。有的數(shù)據(jù)庫(kù)設(shè)計(jì)者可能定義1高、2中、3低分別表示收入級(jí)別。,集成中遇到的問(wèn)題,數(shù)據(jù)名稱混亂:比如客戶名稱,有的設(shè)計(jì)者定義為user_name,有的定義為name,有的定義為USERNAME 等。,集成中遇到的問(wèn)題,下圖實(shí)例了實(shí)際問(wèn)題中可能遇到的數(shù)據(jù)轉(zhuǎn)化工作:,集成中遇到的問(wèn)

11、題,進(jìn)一步考慮,數(shù)據(jù)倉(cāng)庫(kù)必須能夠使集成數(shù)據(jù)以一定的周期進(jìn)行刷新,使決策者能夠使用新增的數(shù)據(jù)。 刷新周期取決于需要分析的問(wèn)題。,集成中遇到的問(wèn)題,數(shù)據(jù)庫(kù)中的數(shù)據(jù)是不穩(wěn)定的,記錄系統(tǒng)中每一個(gè)變化的瞬態(tài)。 而決策分析必須與歷史數(shù)據(jù)為依托。 在數(shù)據(jù)倉(cāng)庫(kù)中,定期增加記錄,而從不刪除。 不必投入過(guò)多精力于并發(fā)控制等環(huán)節(jié)。訪問(wèn)全部是只讀方式。,數(shù)據(jù)的穩(wěn)定性,例子:在3 月23 日,100 號(hào)客戶的消費(fèi)金額為200 元,當(dāng)時(shí)間推移到3 月24 日,100 號(hào)客戶的消費(fèi)金額變成250 元,這一信息在業(yè)務(wù)系統(tǒng)中被更新了。 但是在數(shù)據(jù)倉(cāng)庫(kù)中(假定數(shù)據(jù)倉(cāng)庫(kù)每天進(jìn)行一次數(shù)據(jù)提?。?,3 月23 日的數(shù)據(jù)提取結(jié)果是在數(shù)據(jù)倉(cāng)

12、庫(kù)中增加了記錄XXX,說(shuō)明100 號(hào)客戶在3 月23 日的消費(fèi)金額為200 元,在執(zhí)行3 月24 日的數(shù)據(jù)提取工作后,原先的記錄XXX 并沒(méi)有發(fā)生任何的改變,而是在數(shù)據(jù)倉(cāng)庫(kù)中增加了一條新的記錄YYY,說(shuō)明100 號(hào)客戶在3 月24 日的消費(fèi)金額為250元??梢?jiàn),數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是為100 號(hào)客戶的消費(fèi)行為進(jìn)行了定期的拍照。,數(shù)據(jù)的穩(wěn)定性,由于在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)只增不刪,這使得數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)總是擁有時(shí)間維度。數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上就是記錄系統(tǒng)的各個(gè)瞬態(tài),并通過(guò)將各個(gè)瞬態(tài)連接起來(lái)形成動(dòng)畫,從而在數(shù)據(jù)分析的時(shí)候再現(xiàn)系統(tǒng)運(yùn)動(dòng)的全過(guò)程,數(shù)據(jù)隨時(shí)間變化的特點(diǎn),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不再像數(shù)據(jù)庫(kù)中的數(shù)據(jù)具有嚴(yán)格規(guī)范化的特點(diǎn)

13、。數(shù)據(jù)倉(cāng)庫(kù)為了能夠在盡量短的時(shí)間內(nèi)將數(shù)據(jù)呈現(xiàn)給使用人員,使用所謂的“空間換時(shí)間”的技術(shù),犧牲了數(shù)據(jù)的規(guī)范化,增加了數(shù)據(jù)的冗余度,從而減小系統(tǒng)的響應(yīng)時(shí)間。,數(shù)據(jù)倉(cāng)庫(kù)的功能和特征,數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在硬件的利用模式上具有很大的區(qū)別 。 在數(shù)據(jù)庫(kù)環(huán)境下,硬件資源利用率總是保持在一個(gè)相對(duì)穩(wěn)定的狀態(tài)。,數(shù)據(jù)倉(cāng)庫(kù)的功能和特征,而在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下,系統(tǒng)的硬件資源常常在高用率和低利用率之間切換。,數(shù)據(jù)倉(cāng)庫(kù)的功能和特征,由于數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在硬件利用率上的差異,難于在同一臺(tái)服務(wù)器上既優(yōu)化操作型處理,又優(yōu)化分析型處理 因此數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在物理上應(yīng)當(dāng)由不同的服務(wù)器來(lái)運(yùn)行。,數(shù)據(jù)倉(cāng)庫(kù)的功能和特

14、征,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu) 在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)被分成 4 種級(jí)別,分別是: 高度綜合級(jí) 輕度綜合級(jí) 當(dāng)前細(xì)節(jié)級(jí) 早期細(xì)節(jié)級(jí),數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織,當(dāng)前的數(shù)據(jù)總是首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),然后根據(jù)應(yīng)用的需求,通過(guò)預(yù)運(yùn)算將數(shù)據(jù)聚合成輕度綜合和高度綜合級(jí)。 在數(shù)據(jù)倉(cāng)庫(kù)中,細(xì)節(jié)數(shù)據(jù)可以聚合成輕度和高度綜合級(jí)別的數(shù)據(jù),比如按“月”“季度”“年”統(tǒng)計(jì),需要說(shuō)明的是輕度和高度是一種相對(duì)的概念,而沒(méi)有絕對(duì)的邊界,并且在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的綜合程度常常有很多的級(jí)別。 過(guò)期的老化數(shù)據(jù)被導(dǎo)出到備份設(shè)備上。,實(shí)際上綜合數(shù)據(jù)也可能被導(dǎo)出系統(tǒng)。比如企業(yè)的管理者認(rèn)為企業(yè)的決策只同企業(yè)近 15年來(lái)的運(yùn)營(yíng)數(shù)據(jù)有關(guān), 則 15 年之前的綜合

15、數(shù)據(jù)也可以導(dǎo)出。對(duì)于高度綜合的數(shù)據(jù),由于其數(shù)據(jù)量已經(jīng)很少,所以一般可以不考慮它們的導(dǎo)出問(wèn)題。,總的來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的這種組織方式的核心思想是在系統(tǒng)中保留最有可能被用戶使用的數(shù)據(jù),而用戶很少使用的數(shù)據(jù)則備份出系統(tǒng)。,數(shù)據(jù)顆粒度是數(shù)據(jù)倉(cāng)庫(kù)中極其重要的概念。我們知道數(shù)據(jù)倉(cāng)庫(kù)是面向 OLAP(聯(lián)機(jī)分析處理)和DM(數(shù)據(jù)挖掘)的,對(duì)于OLAP 和DM 數(shù)據(jù)顆粒度有不同的含義。 OLAP 的一個(gè)重要的功能就是向最終用戶呈現(xiàn)不同綜合程度的數(shù)據(jù)。第一種粒度就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)綜合程度高度的一個(gè)度量。 數(shù)據(jù)的綜合程度不同,其數(shù)據(jù)量將相差很大。數(shù)據(jù)粒度越小,信息越細(xì)節(jié),數(shù)據(jù)量越大。 數(shù)據(jù)粒度越大,忽略了眾多的細(xì)節(jié),

16、數(shù)據(jù)量越小。,數(shù)據(jù)顆粒度,按照每“月”統(tǒng)計(jì)的客戶呼叫數(shù)據(jù)和按照每次呼叫記載的客戶呼叫數(shù)據(jù),兩者的數(shù)據(jù)量相差極大。 每個(gè)字段為8 個(gè)字節(jié),每個(gè)用戶一天進(jìn)行5 次通話,則一個(gè)客戶1 個(gè)月的呼叫細(xì)節(jié)數(shù)據(jù)的數(shù)據(jù)量為:863057200 字節(jié)。 而一個(gè)客戶1 個(gè)月的呼叫匯總數(shù)據(jù)的數(shù)據(jù)量為8432字節(jié)。,數(shù)據(jù)的綜合程度還會(huì)影響數(shù)據(jù)的用途。對(duì)于多維查詢來(lái)說(shuō),可能使用的是細(xì)節(jié)數(shù)據(jù), 例子:回答“王五在 2001/3/21 號(hào)是否在北京給趙六發(fā)送了短信”這樣非常細(xì)致的問(wèn)題,細(xì)節(jié)數(shù)據(jù)非常合適,而綜合數(shù)據(jù)不可能回答,因?yàn)閿?shù)據(jù)的綜合使得細(xì)節(jié)信息丟失。 例子:回答“王五在2001/3 到2001/7 間的總話費(fèi)是多少”

17、 ,使用細(xì)節(jié)數(shù)據(jù)將需要進(jìn)行統(tǒng)計(jì)運(yùn)算后才能回答,這將增加用戶的等待時(shí)間,而使用綜合數(shù)據(jù)則可以迅速地回答這個(gè)問(wèn)題。,綜合程度不同的數(shù)據(jù)其用途不同,在數(shù)據(jù)倉(cāng)庫(kù)中多重的數(shù)據(jù)粒度是必不可少的。 但是,由于數(shù)據(jù)倉(cāng)庫(kù)最主要的目的是反映企業(yè)整體信息和DSS 分析,回答綜合程度較高的問(wèn)題。,粒度的第二種形式是針對(duì)數(shù)據(jù)挖掘的。數(shù)據(jù)挖掘計(jì)算的復(fù)雜度較高,如果將數(shù)據(jù)倉(cāng)庫(kù)中存放的巨量數(shù)據(jù)直接運(yùn)算,系統(tǒng)難于承受。 進(jìn)行數(shù)據(jù)挖掘時(shí),需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行抽樣。粒度的第二種形式是指抽樣率,即以一定的抽樣率對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行抽樣后得到一個(gè)樣本數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘?qū)⒃谶@個(gè)樣本數(shù)據(jù)庫(kù)上進(jìn)行。,由抽樣帶來(lái)的模型誤差可以在模型建立

18、之后再次使用源數(shù)據(jù)對(duì)模型進(jìn)行校驗(yàn)和調(diào)整,這樣可以大大縮短模型建立的時(shí)間,提高模型的精確度。 數(shù)據(jù)挖掘就是通過(guò)這樣的循環(huán)來(lái)不斷地改進(jìn)分析模型。,在抽樣中,抽樣率和抽樣方法要慎重考慮。過(guò)大的抽樣率將浪費(fèi)系統(tǒng)的計(jì)算資源; 過(guò)小的抽樣率可能使得樣本數(shù)據(jù)集合太小,而不能反映源數(shù)據(jù)特征。,例子:比如將19952001 年的客戶呼叫行為放在一張表中,則一次查詢需要檢索整張表,如果問(wèn)題的范圍只在2001 年內(nèi),則我們僅需檢索2001 年的信息即可。另一種想法就是將客戶呼叫行為按年分成1995、1996、1997、1998、1999、2000、2001 等幾張表,則我們只需檢索2001 表即可。對(duì)于一個(gè)數(shù)據(jù)量很

19、大的系統(tǒng)來(lái)說(shuō),這兩種策略的效率相差很大。,數(shù)據(jù)的分割,所謂數(shù)據(jù)分割是指將數(shù)據(jù)分散到各自的物理單元中以便能夠獨(dú)立處理,提高數(shù)據(jù)處理的效率。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。 數(shù)據(jù)分割沒(méi)有固定的標(biāo)準(zhǔn),分割的方法和粒度應(yīng)當(dāng)根據(jù)實(shí)際情況來(lái)確定。分割方法常??梢赃x擇時(shí)間、地點(diǎn)、業(yè)務(wù)領(lǐng)域來(lái)劃分。按照時(shí)間進(jìn)行分割符合數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)隨時(shí)間變化的特點(diǎn),并且分割后數(shù)據(jù)分布比較均勻,是最常用的分割方法。,按照地理位置分割,如果問(wèn)題涉及的數(shù)量非常大,可以按照問(wèn)題的需求從多個(gè)角度進(jìn)行分割 例如按照時(shí)間和地理位置兩個(gè)角度進(jìn)行分割。,按照時(shí)間和地理位置分割,重組是對(duì)分割的數(shù)據(jù)進(jìn)行新的組合,1簡(jiǎn)單堆積文件 每天由數(shù)據(jù)庫(kù)提取并處理后

20、的數(shù)據(jù)逐天存儲(chǔ)起來(lái),數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)組織形式,2定期綜合文件 在定期綜合文件這種方式中,數(shù)據(jù)存儲(chǔ)單位被分成日、周、旬、月、季度、年等多個(gè)級(jí)別,如圖所示。數(shù)據(jù)被逐一地添加到每天的數(shù)據(jù)集合中,當(dāng)一個(gè)星期過(guò)去了,每天數(shù)據(jù)被綜合成周數(shù)據(jù),以此類推,周數(shù)據(jù)被綜合成月數(shù)據(jù),定期綜合文件的組織方式使得數(shù)據(jù)量比簡(jiǎn)單堆積文件方式大大減小,但是數(shù)據(jù)的細(xì)節(jié)在綜合中丟失。因此,定期綜合文件的形式是犧牲數(shù)據(jù)的細(xì)節(jié)換取數(shù)據(jù)量級(jí)的減小。,3連續(xù)文件 定期綜合文件數(shù)據(jù)量級(jí)小時(shí)丟失了數(shù)據(jù)細(xì)節(jié),簡(jiǎn)單堆積文件保留細(xì)節(jié)但數(shù)據(jù)量級(jí)又很大,是否可以綜合兩者形式的優(yōu)點(diǎn)呢?,在簡(jiǎn)單堆積文件中,每天的數(shù)據(jù)表中有許多雷同的信息, 例子:商場(chǎng)2001

21、/1和2001/2 的兩張采購(gòu)表,其中“牙膏”和“毛巾”在兩個(gè)表都出現(xiàn)了?!把栏唷痹?001/1 是從上海購(gòu)買的,而2001/2 是在北京購(gòu)買,其他的信息都相同。如果能夠記錄兩表之間不同的信息,則既能保留細(xì)節(jié)信息,又能大大減小數(shù)據(jù)量。,對(duì)于兩個(gè)表中相同的表項(xiàng)“毛巾”,只需在時(shí)間列上說(shuō)明使用范圍是“2001/1001/2”,對(duì)于兩表不同的表項(xiàng)分別記錄。,隨著時(shí)間的推移,如果又有新的數(shù)據(jù)表加入,則我們可以使用連續(xù)文件和新的數(shù)據(jù)表進(jìn)行類似的處理。但是,連續(xù)文件增加的“時(shí)間”列也會(huì)為查詢帶來(lái)一定的不便。一個(gè)系統(tǒng)某些性能的提高,總是通過(guò)犧牲其他的性能來(lái)獲得的。,數(shù)據(jù)的組織結(jié)構(gòu)和數(shù)據(jù)的組織形式解決的是數(shù)據(jù)

22、倉(cāng)庫(kù)數(shù)據(jù)的存儲(chǔ)問(wèn)題。 數(shù)據(jù)追加解決的是在數(shù)據(jù)倉(cāng)庫(kù)初始數(shù)據(jù)轉(zhuǎn)載后,如何再向數(shù)據(jù)倉(cāng)庫(kù)輸入數(shù)據(jù)的問(wèn)題。,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加技術(shù),如果數(shù)據(jù)庫(kù)中的數(shù)據(jù)沒(méi)有發(fā)生變化,則不需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行追加,因此,數(shù)據(jù)追加實(shí)際上只增加在上次數(shù)據(jù)輸入后數(shù)據(jù)庫(kù)中變化了的數(shù)據(jù)。 要完成數(shù)據(jù)追加的工作,最關(guān)鍵的是“捕獲”數(shù)據(jù)變化,并將數(shù)據(jù)的變化記錄下來(lái)。,1時(shí)標(biāo)法 最早提出“時(shí)標(biāo)法”的思想是為數(shù)據(jù)記錄增加一個(gè)時(shí)間標(biāo)記。當(dāng)數(shù)據(jù)在上次數(shù)據(jù)導(dǎo)入完成后發(fā)生了變化,則修改這條記錄的時(shí)間標(biāo)記。 例子:如圖所示。,但是,在時(shí)間的數(shù)據(jù)庫(kù)系統(tǒng)中,通常沒(méi)有專門的時(shí)間標(biāo)記。數(shù)據(jù)庫(kù)應(yīng)用的設(shè)計(jì)者主要是從實(shí)現(xiàn)事務(wù)處理的功能角度來(lái)考慮問(wèn)題,因此,數(shù)據(jù)庫(kù)應(yīng)用

23、的設(shè)計(jì)者通常不會(huì)增加時(shí)間標(biāo)記列,因?yàn)樵摿袑?duì)于事務(wù)處理系統(tǒng)來(lái)說(shuō)是不必要的。 由于這些原因,時(shí)標(biāo)法雖然簡(jiǎn)單,很難得到應(yīng)用。,2前后映像比較法 另一種簡(jiǎn)單的方法是前后映像比較法,其想法很簡(jiǎn)單:將上次執(zhí)行完數(shù)據(jù)追加任務(wù)的數(shù)據(jù)庫(kù)快照記錄下來(lái),同要執(zhí)行新的數(shù)據(jù)追加任務(wù)前的數(shù)據(jù)庫(kù)快照進(jìn)行比較,比較這兩次快照的不同,來(lái)生成追加的內(nèi)容。,如果數(shù)據(jù)庫(kù)的數(shù)量級(jí)很大,進(jìn)行這樣全數(shù)據(jù)庫(kù)的比較將會(huì)耗費(fèi)大量的系統(tǒng)資源和時(shí)間。,3DELTA 文件法 后來(lái),人們又提出了從應(yīng)用程序來(lái)感知數(shù)據(jù)變化的方法“DELTA 文件法”。其基本思想是:數(shù)據(jù)的變化是由數(shù)據(jù)庫(kù)應(yīng)用程序引發(fā)的,因此數(shù)據(jù)庫(kù)應(yīng)用程序應(yīng)當(dāng)知道它修改了哪些數(shù)據(jù),應(yīng)用程序可以

24、將它執(zhí)行成功的修改操作記錄下來(lái),形成DELTA 文件作為追加的內(nèi)容。,數(shù)據(jù)庫(kù)的應(yīng)用程序主要是為了完成事務(wù)處理而設(shè)計(jì)的,要使所有的應(yīng)用程序都支持DELTA 文件的功能在實(shí)際的工程應(yīng)用中很難,因此,這種方法也沒(méi)有得到實(shí)用化。,4日志文件法(真正實(shí)用方法) 各個(gè)應(yīng)用程序都是通過(guò)同數(shù)據(jù)庫(kù)服務(wù)器進(jìn)程通信來(lái)實(shí)現(xiàn)其數(shù)據(jù)訪問(wèn)功能,最終數(shù)據(jù)的訪問(wèn)和處理工作是由數(shù)據(jù)庫(kù)服務(wù)器來(lái)承擔(dān),因此數(shù)據(jù)庫(kù)服務(wù)器能夠感知數(shù)據(jù)的變化。如果數(shù)據(jù)庫(kù)開(kāi)啟了系統(tǒng)日志,數(shù)據(jù)庫(kù)服務(wù)器將會(huì)把它所執(zhí)行的所有操作詳細(xì)地記錄下來(lái)。我們可以通過(guò)分析數(shù)據(jù)庫(kù)日志來(lái)獲取數(shù)據(jù)變化的情況。,一段簡(jiǎn)化了的系統(tǒng)日志,它包含操作時(shí)間、操作人員、操作內(nèi)容、操作結(jié)果(包你

25、括正確和錯(cuò)誤)等基本信息。我們可以通過(guò)對(duì)數(shù)據(jù)追加任務(wù)完成后新生成的系統(tǒng)日志進(jìn)行分析,得到追加內(nèi)容。,例如,對(duì)于條目“2001/1/1:9:01: LiMing SELECT * FROM user WHERE user_id100;” 是查詢操作可以忽略。 對(duì)于條目“2001/1/1:9:00: LiMing UPDATE =林沖WHERE user_id=100;”,數(shù)據(jù)庫(kù)用戶LiMing 將100 號(hào)客戶name 修改為林沖,但是我們發(fā)現(xiàn)后面的條目“2001/1/1:9:00: sa UPDATE =林勝之WHERE user_id=100;”, sa

26、將100 號(hào)客戶name 修改為林勝之, 我們只需將后一條引起的變化記錄下來(lái)即可。,由此,可以知道并不是日志文件中所有的信息都是必須的,通過(guò)分析日志文件可以減少工作量。雖然日志文件法需要對(duì)日志本身進(jìn)行比較復(fù)雜的分析,但是比起其它方法明顯更加可行。得到了廣泛的使用。,2.3.6 清理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù) 同任何系統(tǒng)一樣,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)也具有自身的生命周期,數(shù)據(jù)清理是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)人員需要重點(diǎn)考慮的問(wèn)題之一。 數(shù)據(jù)倉(cāng)庫(kù)的清理與普通系統(tǒng)中數(shù)據(jù)清理的含義有區(qū)別。在普通的系統(tǒng)中,數(shù)據(jù)清理意味著將數(shù)據(jù)刪除。而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中清理并不是簡(jiǎn)單地刪除,而是從細(xì)化級(jí)別的數(shù)據(jù)逐漸上升為高級(jí)綜合度的數(shù)據(jù),直到數(shù)據(jù)已經(jīng)不再具

27、備任何意義時(shí)被清除的過(guò)程。,數(shù)據(jù)倉(cāng)庫(kù)中清理的過(guò)程如下: 數(shù)據(jù)從操作型環(huán)境進(jìn)入分析型環(huán)境; 數(shù)據(jù)從細(xì)節(jié)數(shù)據(jù)逐漸轉(zhuǎn)換為綜合數(shù)據(jù); 數(shù)據(jù)從高速磁盤中轉(zhuǎn)移到低速存儲(chǔ)介質(zhì)上; 數(shù)據(jù)失去實(shí)際意義,最終被清除。 這個(gè)過(guò)程實(shí)際上也是數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的生命周期。,2.4 OLAP的基本原理 2.4.1 基本概念 變量 維:與某一事件相關(guān)的因素在關(guān)系模型的抽象。 例子:客戶打電話這一事件中包含客戶、時(shí)間、地點(diǎn)、業(yè)務(wù)提供商、業(yè)務(wù)類型等,維的層次性:時(shí)間維度可以用“日”作為單位刻度,也可以使用“周”、“月”、“年”等作為時(shí)間維度的單位刻度。 維的取值: 例子:地理維由國(guó)家、省、地區(qū)3 個(gè)層次構(gòu)成,則“中國(guó)福建省廈門地

28、區(qū)”是維的一個(gè)取值。,維的分類: 例子:產(chǎn)品可分成“暢銷”、“不暢銷”。 事實(shí):不同維度在某一取值下的交叉點(diǎn),它是對(duì)事件的度量。 多維數(shù)據(jù)立方體: 例子:立方體的3 個(gè)維度分別是客戶維、時(shí)間維、地理維,反映的是客戶通話情況。立方體中每一個(gè)交點(diǎn)對(duì)應(yīng)于一個(gè)事件,比如圖中標(biāo)明的那個(gè)點(diǎn)代表事件“王五于2001 年1 月1 日在北京進(jìn)行了一次通話”。,2.4.1 OLAP 的基本分析動(dòng)作 數(shù)據(jù)切片 多維數(shù)據(jù)是由多個(gè)維度組成的,如果在某一維度上選定一個(gè)取值,則多維數(shù)據(jù)就從n 維 下降成了n-1 維,我們稱多維數(shù)組的子集(維度1、維度2、維度3維度i,維度i+1,.維度n,度量變量)為多維數(shù)組在維度i 上的

29、切片。,例子:如果存在一個(gè)(時(shí)間,城市,產(chǎn)品,價(jià)格)的數(shù)據(jù)立方體,其中時(shí)間、城市、產(chǎn)品是3 個(gè)維度,價(jià)格是度量變量。在城市維上取定“上?!薄ⅰ皬V州”,則分別形成兩個(gè)在城市維上的數(shù)據(jù)切片,分別顯示的是上海和廣州各年各種產(chǎn)品的價(jià)格情況。 再如,圖中右下角在產(chǎn)品維中取定“電視機(jī)”、“電冰箱”,則分別生成兩個(gè)在產(chǎn)品維上的數(shù)據(jù)切片,顯示的是各個(gè)城市各年份電視機(jī)和電冰箱的價(jià)格情況。,數(shù)據(jù)切塊 將完整的數(shù)據(jù)立方體切取一部分?jǐn)?shù)據(jù)而得到的新的數(shù)據(jù)立方體 例子:假設(shè)問(wèn)題同時(shí)間維、地理維、產(chǎn)品維相關(guān),指定時(shí)間維的取值為19982001,地理維指定為(上海、北京、廣州),產(chǎn)品維指定為(計(jì)算機(jī)、電冰箱、電視機(jī)),則我們可以得到如圖數(shù)據(jù)切塊,它是原先完整的數(shù)據(jù)立方體的一部分。,數(shù)據(jù)鉆?。簭妮^高的維度層次下降到較低的維度層次上來(lái)觀察多維數(shù)據(jù)。 例子:展示了一個(gè)企業(yè)在不同時(shí)間和地理上的銷售量的分布情況。圖中的第一張表,時(shí)間層次是“年“,如果我們選擇時(shí)間維度向下鉆取,得到圖中的第二張表,第二

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論