數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章商務(wù)智能基本概念

數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展與展望

作為商務(wù)智能三大核心技術(shù)之一的數(shù)據(jù)倉(cāng)庫(kù)發(fā)源于處理日常業(yè)務(wù)的數(shù)據(jù)庫(kù)。傳統(tǒng)數(shù)據(jù)庫(kù)

在日常的業(yè)務(wù)處理中獲得了巨大的成功,但是對(duì)管理人員的決策分析要求卻無(wú)法滿足。因?yàn)?

管理人員常常希望能夠通過對(duì)組織中的大量數(shù)據(jù)進(jìn)行分析,了解業(yè)務(wù)的發(fā)展趨勢(shì)。而傳統(tǒng)數(shù)

據(jù)庫(kù)只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量歷史信息。為滿足管理人員

的決策分析需要,在數(shù)據(jù)庫(kù)的基礎(chǔ)上就產(chǎn)生了適應(yīng)決策分析的數(shù)據(jù)環(huán)境---數(shù)據(jù)倉(cāng)庫(kù)(DW,

DataWarehouse)?

1.數(shù)據(jù)倉(cāng)庫(kù)--一種能夠?qū)⑷粘I(yè)務(wù)處理中所收集到的各種數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂猩虡I(yè)價(jià)值信息

的技術(shù)

2.而傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)無(wú)法承擔(dān)起這一責(zé)任。因?yàn)閭鹘y(tǒng)數(shù)據(jù)庫(kù)的處理方式與決策分析中的數(shù)

據(jù)需求不相稱,導(dǎo)致傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法支持決策分析活動(dòng)。這些不相稱性主要表現(xiàn)在決策

處理中的系統(tǒng)響應(yīng)問題、決策數(shù)據(jù)需求的問題和決策數(shù)據(jù)的操作問題

?系統(tǒng)響應(yīng)問題

在傳統(tǒng)的事務(wù)處理系統(tǒng)中,用戶對(duì)系統(tǒng)和數(shù)據(jù)庫(kù)的要求是數(shù)據(jù)存取頻率要高、操作

時(shí)間要快。用戶的業(yè)務(wù)處理操作請(qǐng)求往往在很短的時(shí)間內(nèi)就能完成,這就使系統(tǒng)在多用

戶的情況下,也可以保持較高的系統(tǒng)響應(yīng)時(shí)間。

但在決策分析處理中,用戶對(duì)系統(tǒng)和數(shù)據(jù)的要求發(fā)生了很大的變化。有的決策問題

處理請(qǐng)求,可能會(huì)導(dǎo)致系統(tǒng)長(zhǎng)達(dá)數(shù)小時(shí)的運(yùn)行。有的決策分析問題的解決,則需要遍歷

數(shù)據(jù)庫(kù)中大部分?jǐn)?shù)據(jù)。這些操作必然要消耗大量的系統(tǒng)資源,這是實(shí)時(shí)處理業(yè)務(wù)的事務(wù)

聯(lián)機(jī)處理系統(tǒng)所無(wú)法忍受的。

?據(jù)測(cè)數(shù)據(jù)需求的問題

在進(jìn)行決策分析時(shí),需要全面、正確的集成數(shù)據(jù),這些集成數(shù)據(jù)不僅包含企業(yè)內(nèi)部

各部門的又關(guān)上護(hù)具,而且還包含企業(yè)外部的、甚至競(jìng)爭(zhēng)對(duì)手的相關(guān)數(shù)據(jù)。但是在傳統(tǒng)

數(shù)據(jù)庫(kù)中,只存儲(chǔ)了本部門的事務(wù)處理數(shù)據(jù),而沒有與決策問題有關(guān)的集成數(shù)據(jù),更沒

有企業(yè)外部數(shù)據(jù)。(數(shù)據(jù)的集成操做是有數(shù)據(jù)倉(cāng)庫(kù)處理,不是由決策分析程序處理)。

在決策數(shù)據(jù)的繼承中還需要解決數(shù)據(jù)混亂問題。例如,同一實(shí)體的屬性在不同的應(yīng)

用系統(tǒng)中,可能有不同的數(shù)據(jù)類型、不同的字段名稱?這樣在使用這些數(shù)據(jù)進(jìn)行決策

之前,必須對(duì)這些數(shù)據(jù)進(jìn)行分析,確認(rèn)其真實(shí)含義。

在決策分析中,系統(tǒng)常常需要從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)、查找有用的數(shù)據(jù),然后將這些

數(shù)據(jù)導(dǎo)入其他文件或數(shù)據(jù)庫(kù)中,供用戶使用。這些被抽取出來(lái)的數(shù)據(jù),有可能被其他用

戶再次抽取。由于這種不加限制數(shù)據(jù)的連續(xù)抽取,使企業(yè)的數(shù)據(jù)控件構(gòu)成了一個(gè)錯(cuò)綜復(fù)

雜的數(shù)據(jù)“蜘蛛網(wǎng)”,即形成了自然演化體系結(jié)構(gòu)。在這個(gè)數(shù)據(jù)“蜘蛛”網(wǎng)中,有可能

兩個(gè)節(jié)點(diǎn)上的數(shù)據(jù)來(lái)自于同一個(gè)原始數(shù)據(jù)庫(kù)。但是由于數(shù)據(jù)抽取的時(shí)間、抽取方法、抽

取級(jí)別等方面的差異,可能使這兩個(gè)節(jié)點(diǎn)的數(shù)據(jù)不一致。這樣,在對(duì)同一個(gè)問題的決策

分析中,由于數(shù)據(jù)的出發(fā)基準(zhǔn)不同,而可能導(dǎo)致截然相反的結(jié)果。也就是說(shuō),由于決策

分析過程中所形成的自然演化體系,造成了數(shù)據(jù)可信度的降低,必然導(dǎo)致數(shù)據(jù)u轉(zhuǎn)化為

信息的不可行與不可信,使企業(yè)無(wú)法將大量寶貴的信息資源轉(zhuǎn)化為企業(yè)的核心競(jìng)爭(zhēng)力。

數(shù)據(jù)的集成還涉及外部數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用問題。決策分析中經(jīng)常要用到系

統(tǒng)外數(shù)據(jù),如行業(yè)的統(tǒng)計(jì)報(bào)告,管理咨詢公司的市場(chǎng)調(diào)查分析數(shù)據(jù)。這些數(shù)據(jù)必須經(jīng)過

格式、類型的轉(zhuǎn)換,曾能被決策系統(tǒng)應(yīng)用。在決策分析系統(tǒng)中要求數(shù)據(jù)能夠進(jìn)行定期的、

及時(shí)的更新,數(shù)據(jù)的更新期可能是一天,也可能是一周,而傳統(tǒng)數(shù)據(jù)庫(kù)缺乏數(shù)據(jù)動(dòng)態(tài)更

新的能力。

為完成事務(wù)處理的需要,傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般只保留當(dāng)前的數(shù)據(jù)。但是對(duì)于決

策分析而言,歷史上的、長(zhǎng)期的數(shù)據(jù)卻具有重要的意義。利用歷史數(shù)據(jù)可對(duì)未來(lái)的發(fā)

展進(jìn)行正確的預(yù)測(cè),但是傳統(tǒng)數(shù)據(jù)庫(kù)卻無(wú)法長(zhǎng)期保留大量的歷史數(shù)據(jù)。

在決策分析過程中,決策人員往往需要的并不是非常詳細(xì)的數(shù)據(jù),而是一些經(jīng)過匯

總、概要的數(shù)據(jù)。但在傳統(tǒng)數(shù)據(jù)庫(kù)中為支持日常的事務(wù)處理需要,只保留一些非常詳細(xì)

的數(shù)據(jù),這對(duì)決策分析十分不利。

?策數(shù)據(jù)的操作問題

在對(duì)數(shù)據(jù)的操作方式上,決策分析人員則往往希望以專業(yè)用戶的身份,而不是參數(shù)

用戶的身份對(duì)數(shù)據(jù)進(jìn)行操作。他們希望能夠用各種工具對(duì)數(shù)據(jù)進(jìn)行多種形式的操作,

希望數(shù)據(jù)操作的結(jié)果能以商務(wù)智能的方式表達(dá)出來(lái)。而傳統(tǒng)的業(yè)務(wù)處理系統(tǒng)智能以標(biāo)

準(zhǔn)的固定報(bào)表方式為用戶提供信息,使用戶很難理解信息的內(nèi)涵,無(wú)法用于管理決策。

由于系統(tǒng)響應(yīng)、決策數(shù)據(jù)需求和決策數(shù)據(jù)操作等問題的影響,使企業(yè)無(wú)法使用現(xiàn)有

的事務(wù)處理系統(tǒng)去解決決策分析的需要。因此,決策分析需要一個(gè)能夠不受傳統(tǒng)事務(wù)

處理的約束,能夠高效處理決策分析數(shù)據(jù)的環(huán)境,由此而產(chǎn)色和難過了可以滿足這一

要求的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)組織技術(shù)……數(shù)據(jù)倉(cāng)庫(kù)。

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的對(duì)比表

對(duì)比內(nèi)容數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)內(nèi)容當(dāng)前值1歷史的、存檔的、歸納的、計(jì)|

Z算的數(shù)據(jù)t

11.多

數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序、重復(fù)處理1面向主題域、管理決策分析的:

應(yīng)用i

數(shù)據(jù)特性動(dòng)態(tài)變化、按字段更新1靜態(tài)、不能直接更新、只定時(shí)i

添加

數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜、適合操作1簡(jiǎn)單、適合分析1

11

計(jì)算:1

\使用頻率中到低1

數(shù)據(jù)訪問量每個(gè)事務(wù)只訪問少量記錄有的事務(wù)可能要訪問大量記1

i錄]

j

對(duì)響應(yīng)時(shí)間的要求以秒為單位計(jì)量以秒、分鐘、甚至小時(shí)為計(jì)量>

單位>

二.數(shù)據(jù)倉(cāng)庫(kù)的定義與基本特性

數(shù)據(jù)倉(cāng)庫(kù)具有這樣一些重要的特性:面向主題性、數(shù)據(jù)的集成性、數(shù)據(jù)的時(shí)變性、數(shù)

據(jù)的非易失性、數(shù)據(jù)的集合性和支持決策作用。

1.面向主題性

面向主題性表示了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉(cāng)庫(kù)中的所有數(shù)據(jù)都是圍繞著

某一主題組織展開的。從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)

中的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。從數(shù)據(jù)組織的角度看,

主題就是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對(duì)分析對(duì)象做了比較完整的、一致的描述,這種描述

不僅涉及數(shù)據(jù)自身,并且還涉及數(shù)據(jù)之間的聯(lián)系。

2.數(shù)據(jù)集成性

數(shù)據(jù)倉(cāng)庫(kù)的集成性就是指根據(jù)決策分析的要求,將分散于各處的元數(shù)據(jù)進(jìn)行抽取、篩選、

清理、綜合等工作,最終集成到數(shù)據(jù)倉(cāng)庫(kù)中。

首先要從源數(shù)據(jù)庫(kù)中挑選出數(shù)據(jù)倉(cāng)庫(kù)所需要的數(shù)據(jù);然后將這些來(lái)自不同數(shù)據(jù)庫(kù)中的數(shù)

據(jù)按照某一標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,即將不同數(shù)據(jù)源中數(shù)據(jù)的單位、字長(zhǎng)與內(nèi)容按照數(shù)據(jù)倉(cāng)庫(kù)的要求

統(tǒng)一起來(lái),消除元數(shù)據(jù)中字段的同名異義、異名同義現(xiàn)象,這些工作統(tǒng)稱為數(shù)據(jù)的清理;在

將元數(shù)據(jù)加載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)后,即元數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)后,還需要將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行某

種程度的綜合,經(jīng)根據(jù)決策分析的需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。

3.數(shù)據(jù)的時(shí)變性

數(shù)據(jù)倉(cāng)庫(kù)必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉(cāng)庫(kù)中去,

也就是說(shuō)在數(shù)據(jù)倉(cāng)庫(kù)中不斷生成主題的新快照,以滿足決策分析的需要。

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的時(shí)變性,不僅反映在數(shù)據(jù)的追加方面,而且還反映在數(shù)據(jù)的刪除匕盡

管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)可以長(zhǎng)期保留,但是在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存儲(chǔ)期限還是有限的,一般保

留5-10年,在超過期限以后,也需要?jiǎng)h除。

數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的時(shí)變性還表現(xiàn)在概括數(shù)據(jù)的變化上。數(shù)據(jù)倉(cāng)庫(kù)中的概括數(shù)據(jù)是與時(shí)間

有關(guān)的,概括數(shù)據(jù)需要按照時(shí)間進(jìn)行綜合,按照時(shí)間進(jìn)行抽取。因此,在數(shù)據(jù)倉(cāng)庫(kù)中的概括

數(shù)據(jù)必須隨著時(shí)間的變化而重新進(jìn)行概括處理。

4.數(shù)據(jù)的非易失性

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,就會(huì)保持一個(gè)相

當(dāng)長(zhǎng)的時(shí)間。數(shù)據(jù)在追加以后,一般不再修改。數(shù)據(jù)的非易失性,可以支持不同的用戶在

不同的時(shí)間查詢、分析相同的問題時(shí),獲得同一結(jié)果。避免了以往決策分析中面對(duì)同一問題,

因?yàn)閿?shù)據(jù)的變化而導(dǎo)致結(jié)論不同的尷尬。

5.數(shù)據(jù)的集合性

目前數(shù)據(jù)倉(cāng)庫(kù)所采用的數(shù)據(jù)集合方式主要是以多為數(shù)據(jù)庫(kù)方式進(jìn)行存儲(chǔ)的多維模式、以

關(guān)系數(shù)據(jù)庫(kù)方式進(jìn)行存儲(chǔ)的關(guān)系模式或以兩者相結(jié)合的方式進(jìn)行存儲(chǔ)的混合模式。

6.支持決策作用

數(shù)據(jù)倉(cāng)庫(kù)組織的根本目的在于對(duì)決策的支持。高層的企業(yè)決策者、中層的管理者和基層

的業(yè)務(wù)處理這等不同層次的管理人員均可以利用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策分析,提高管理決策的質(zhì)

量。

企業(yè)各級(jí)管理人員可以利用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種管理決策的分析,利用自己所特有的、敏

銳的商業(yè)洞察力和業(yè)務(wù)知識(shí)從貌似平淡的數(shù)據(jù)中敏銳地發(fā)現(xiàn)眾多的上級(jí)。數(shù)據(jù)倉(cāng)庫(kù)為管理者

利用數(shù)據(jù)進(jìn)行管理決策分析提供了極大的便利。

三.數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)建立在其概念結(jié)構(gòu)基礎(chǔ)之上,并根據(jù)商務(wù)智能的不同應(yīng)用情況可以選

擇虛擬數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)、數(shù)據(jù)集市結(jié)構(gòu)、單一數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)和分布式數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)。

1.數(shù)據(jù)倉(cāng)庫(kù)的概念結(jié)構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該包含:數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)備區(qū)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)、數(shù)據(jù)集市/知識(shí)挖掘庫(kù)及

各種管理工具和應(yīng)用工具。數(shù)據(jù)倉(cāng)庫(kù)建立以后,首先要從數(shù)據(jù)源中抽取所需要的數(shù)據(jù)到數(shù)據(jù)

準(zhǔn)備區(qū),在數(shù)據(jù)準(zhǔn)備區(qū)中經(jīng)過數(shù)據(jù)的凈化處理,再加載到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)中,最后在根據(jù)用

戶的需求將數(shù)據(jù)發(fā)布到數(shù)據(jù)集市/知識(shí)挖掘庫(kù)中。當(dāng)用戶使用數(shù)據(jù)倉(cāng)庫(kù)時(shí).,可以通過OLAP

等數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用工具向數(shù)據(jù)集市/知識(shí)挖掘庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策查詢分析或知識(shí)挖掘。

如圖

V,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋,跋“

2.數(shù)據(jù)集市結(jié)構(gòu)

數(shù)據(jù)集市結(jié)構(gòu)或稱為主題結(jié)構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)是按照主題進(jìn)行構(gòu)思所形成的數(shù)據(jù)倉(cāng)庫(kù),它沒

有一個(gè)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)。系統(tǒng)的數(shù)據(jù)不存儲(chǔ)在統(tǒng)一數(shù)據(jù)倉(cāng)庫(kù)中,每個(gè)主題有自己的物理存儲(chǔ)

區(qū)。但是不同的主題數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)時(shí)采用了統(tǒng)一企業(yè)數(shù)據(jù)模型,這就保證了不同主題數(shù)據(jù)

倉(cāng)庫(kù)可以cia用相同的字段結(jié)構(gòu)、編碼和關(guān)鍵字,可以保證不同主題數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)合查詢。

四.數(shù)據(jù)倉(cāng)庫(kù)的參照結(jié)構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)的參照結(jié)構(gòu)由不同的層次組成,這些層次包含了數(shù)據(jù)倉(cāng)庫(kù)的基本功能層、數(shù)據(jù)

倉(cāng)庫(kù)的管理層和數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境支持層。

數(shù)據(jù)倉(cāng)庫(kù)的基本功能層包含:數(shù)據(jù)抽取,數(shù)據(jù)篩選、清理,清理后的數(shù)據(jù)加載,設(shè)立數(shù)

據(jù)及時(shí),完成數(shù)據(jù)倉(cāng)庫(kù)的查詢、決策分析和知識(shí)的挖掘等操作。

數(shù)據(jù)倉(cāng)庫(kù)的管理層分成數(shù)據(jù)管理與元數(shù)據(jù)管理兩部分,主要負(fù)責(zé)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)抽

取、清理、加載、更新等操作進(jìn)行管理。

1.數(shù)據(jù)倉(cāng)庫(kù)基本功能層

包含數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉(cāng)庫(kù)功能結(jié)構(gòu)、數(shù)據(jù)集市,知識(shí)挖掘庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)

存取與使用功能部分,如圖

“-------?―,/~-.

:數(shù)據(jù)源,數(shù)據(jù)準(zhǔn)備區(qū)|數(shù)據(jù)倉(cāng)庫(kù)|數(shù)據(jù)集市/知識(shí):數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)f

j挖掘庫(kù)]存取與使用j

J—”———,,%———*-J丁

A.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源

包含業(yè)務(wù)數(shù)據(jù)、歷史數(shù)據(jù)、辦公數(shù)據(jù)、Web數(shù)據(jù)、外部數(shù)據(jù)及數(shù)據(jù)源元數(shù)據(jù),如圖

fZiSi-]歷史數(shù)據(jù)1辦公數(shù)據(jù);而藪孤~~~"[既前贏數(shù)據(jù)源元數(shù)]

>iiiif據(jù),

幼…//.____________W——“《

a.業(yè)務(wù)數(shù)據(jù)是指從組織目前正在運(yùn)行的業(yè)務(wù)處理系統(tǒng)那里收集到,并保存在業(yè)務(wù)處理

系統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

b.歷史數(shù)據(jù)是指組織在長(zhǎng)期的信息處理過程中所積累下來(lái)的數(shù)據(jù),這些數(shù)據(jù)一般進(jìn)行

了脫機(jī)處理,以磁帶或其他脫機(jī)存儲(chǔ)設(shè)施保存,對(duì)業(yè)務(wù)系統(tǒng)的當(dāng)前運(yùn)行不起作用。

這些數(shù)據(jù)一般要根據(jù)倉(cāng)庫(kù)模型和用戶的決策分析需求來(lái)確定是否加載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)

c.辦公數(shù)據(jù)主要是指組織內(nèi)部的辦公系統(tǒng)數(shù)據(jù),這些數(shù)據(jù)分電子數(shù)據(jù)和非電子數(shù)據(jù)兩

種。非電子數(shù)據(jù)主要指那些文件、通知、會(huì)議紀(jì)要等公文。辦公數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)

十分復(fù)雜,這就給數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)抽取、加教增加了很大的難度。有時(shí)甚至需要人

工處理以后,才能加載到數(shù)據(jù)倉(cāng)庫(kù)。辦公數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中常常用于支持對(duì)跨部門

的決策分析。對(duì)于辦公數(shù)據(jù)中非電子數(shù)據(jù)的抽取和加載首先要利用掃描儀將書面文

檔轉(zhuǎn)變?yōu)殡娮訄D像,然后利用可是文字識(shí)別軟件(OCR)將圖像文件轉(zhuǎn)換為文本文

件,最后還要?jiǎng)?chuàng)建能夠描述和組織文檔內(nèi)部信息的元數(shù)據(jù)。經(jīng)過這些處理以后,非

電子數(shù)據(jù)才能加載到數(shù)據(jù)倉(cāng)庫(kù)。

d.Web數(shù)據(jù)是企業(yè)通過internet所獲得的數(shù)據(jù),則和諧數(shù)據(jù)可以通過企業(yè)的電子商務(wù)

系統(tǒng)獲取,也可以通過網(wǎng)絡(luò)調(diào)查獲取。Web數(shù)據(jù)大多是HTML格式,需要將其轉(zhuǎn)

換成數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)一格式后才能家再進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。

e.外部數(shù)據(jù)是指那些不為企業(yè)所操作、所擁有、所控制的數(shù)據(jù)?這些數(shù)據(jù)有的是電子

形式的,如證券市場(chǎng)的證券數(shù)據(jù),或市場(chǎng)咨詢部門的研究報(bào)告。有的是以電子形式

的,如報(bào)刊、政府公告等。

f.數(shù)據(jù)源元數(shù)據(jù)屬于元數(shù)據(jù)管理層范圍,在數(shù)據(jù)倉(cāng)庫(kù)哦那廣州的所有數(shù)據(jù)都需要通過

元數(shù)據(jù)管理層來(lái)進(jìn)行管理、控制。源數(shù)據(jù)的元數(shù)據(jù)描述了關(guān)于源數(shù)據(jù)的一些說(shuō)明,

包含了源數(shù)據(jù)的來(lái)源,源數(shù)據(jù)的名稱、源數(shù)據(jù)的定義、源數(shù)據(jù)的創(chuàng)建時(shí)間等對(duì)源數(shù)

據(jù)進(jìn)行管理所需要的信息。源數(shù)據(jù)的來(lái)源說(shuō)明源數(shù)據(jù)是從哪一個(gè)系統(tǒng)、哪一個(gè)歷史

數(shù)據(jù)、哪一個(gè)辦公數(shù)據(jù)、哪一個(gè)Web頁(yè)上、哪一個(gè)外部系統(tǒng)抽取來(lái)的。源數(shù)據(jù)的名

稱,用以說(shuō)明源數(shù)據(jù)現(xiàn)在和過去的名稱。源數(shù)據(jù)的定義,用以說(shuō)明源數(shù)據(jù)在數(shù)據(jù)倉(cāng)

庫(kù)中的作用、用途及數(shù)據(jù)類型,長(zhǎng)度等基本屬性。數(shù)據(jù)的變化時(shí)間是指源數(shù)據(jù)在數(shù)

據(jù)源的創(chuàng)建時(shí)間和在數(shù)據(jù)倉(cāng)庫(kù)中的創(chuàng)建時(shí)間及變化時(shí)間。這些信息主要用于對(duì)源數(shù)

據(jù)的管理:

B.數(shù)據(jù)準(zhǔn)備區(qū)

由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源十分復(fù)雜,這些數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前常常需要在數(shù)據(jù)

準(zhǔn)備區(qū)內(nèi)進(jìn)行篩選、清理等數(shù)據(jù)的標(biāo)準(zhǔn)化處理。因此,數(shù)據(jù)準(zhǔn)備區(qū)的功能結(jié)構(gòu)部分由數(shù)

據(jù)的標(biāo)準(zhǔn)化處理、數(shù)據(jù)的過濾與匹配、數(shù)據(jù)的凈化處理、標(biāo)明數(shù)據(jù)的時(shí)間戳、確認(rèn)數(shù)

據(jù)質(zhì)量與源數(shù)據(jù)抽取和創(chuàng)建等操作組成。

7數(shù)據(jù)的標(biāo)準(zhǔn)化處理彳元數(shù)彳

「藪麗還i現(xiàn)海1據(jù)抽;

數(shù)據(jù)的凈化處理取與

鄉(xiāng)標(biāo)明數(shù)據(jù)的時(shí)間戳Jg

「觥藪琬質(zhì)瓦~~1i

a.數(shù)據(jù)的標(biāo)準(zhǔn)化處理主要是將同名不同內(nèi)容、同內(nèi)容不同名、同名同內(nèi)容但不同結(jié)

構(gòu)的數(shù)據(jù)進(jìn)行統(tǒng)一處理。例如,在不同數(shù)據(jù)源中,關(guān)于銷售地點(diǎn)“上海市”,有的

系統(tǒng)用了“上海”,有的用了“上海市”,有的甚至用了“滬”等值,但是它們的

實(shí)際含義都是一致的,為此需要對(duì)這些值進(jìn)行統(tǒng)一處理,這樣才不至于導(dǎo)致數(shù)據(jù)

倉(cāng)庫(kù)的應(yīng)用混亂。

b.數(shù)據(jù)的過濾與匹配主要是對(duì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)按照用戶的需要進(jìn)行篩選,將不

需要的數(shù)據(jù)從數(shù)據(jù)源中剔除,而留下的數(shù)據(jù)要能夠與數(shù)據(jù)倉(cāng)庫(kù)用戶的需求相匹配。

c.數(shù)據(jù)的凈化處理主要是對(duì)準(zhǔn)備加載到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行正確性判斷,將那些

數(shù)據(jù)內(nèi)容錯(cuò)誤、格式錯(cuò)誤或類型錯(cuò)誤的數(shù)據(jù)進(jìn)行修正、凈化處理。例如,數(shù)據(jù)倉(cāng)

庫(kù)中的客戶郵政編碼是字符類型,但在有的數(shù)據(jù)源中卻以數(shù)字類型表示。此時(shí),

就需要將其轉(zhuǎn)換為字符類型。

d.表明數(shù)據(jù)的時(shí)間戳,由于在數(shù)據(jù)倉(cāng)庫(kù)重要進(jìn)行數(shù)據(jù)的概括,以分析事務(wù)的發(fā)展趨

勢(shì)。而數(shù)據(jù)的概括與發(fā)展趨勢(shì)的分析,都需要知名數(shù)據(jù)的時(shí)間屬性。因?yàn)閿?shù)據(jù)的

概括往往是基于時(shí)間進(jìn)行的,而趨勢(shì)的分析也是以時(shí)間為基軸描繪的。因此在將

數(shù)據(jù)夾加載到數(shù)據(jù)倉(cāng)庫(kù)之前必須完成數(shù)據(jù)的時(shí)間戳設(shè)置,使時(shí)間具有時(shí)間屬性。

e.確認(rèn)數(shù)據(jù)質(zhì)量,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量的高低是數(shù)據(jù)倉(cāng)庫(kù)能否成功的關(guān)鍵因素之一。

例如,在對(duì)客戶進(jìn)行郵寄廣告促銷時(shí),由于客戶名稱的錯(cuò)誤,可能會(huì)激怒客戶,

導(dǎo)致客戶轉(zhuǎn)向其他供應(yīng)商而造成客戶的流失。有的又會(huì)因客戶地址的錯(cuò)誤耽誤時(shí)

間,造成郵寄廣告費(fèi)的浪費(fèi)。這些信息應(yīng)用的失敗,都是由于數(shù)據(jù)質(zhì)量的低劣所

造成的。因此,需要在數(shù)據(jù)準(zhǔn)備區(qū)通過手工的方式或軟件自動(dòng)檢測(cè)的方式來(lái)完成

對(duì)數(shù)據(jù)質(zhì)量的確認(rèn)。

元數(shù)據(jù)抽取與創(chuàng)建,在數(shù)據(jù)的求精過程中,還需要從數(shù)據(jù)源中確定這些源數(shù)據(jù)的

元數(shù)據(jù)內(nèi)容,完成元數(shù)據(jù)的名稱與定義,以及其有關(guān)描述,為今后數(shù)據(jù)倉(cāng)庫(kù)的管

理提供基礎(chǔ)。

數(shù)據(jù)倉(cāng)庫(kù)功能結(jié)構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)的功能結(jié)

構(gòu)部分有數(shù)<數(shù)據(jù)重整;數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建;元數(shù)據(jù)管理<據(jù)重

整、數(shù)據(jù)倉(cāng)除觸嬴暹夕“數(shù)據(jù)倉(cāng)庫(kù)的建模元數(shù)據(jù)瀏覽與導(dǎo)航庫(kù)創(chuàng)建

,y/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/ar/a>/A2,,彳ATffl2立R

和元數(shù)據(jù)管1數(shù)據(jù)概括與聚集1數(shù)據(jù)的概括1

分組成,如

:數(shù)據(jù)預(yù)算與推導(dǎo)?數(shù)據(jù)的聚集?元數(shù)據(jù)的創(chuàng)建1

a.數(shù)據(jù)重

數(shù)據(jù)翻譯與格式化數(shù)據(jù)的調(diào)整與確認(rèn)‘

整是為

使數(shù)據(jù)1數(shù)據(jù)轉(zhuǎn)換與映射1建立結(jié)構(gòu)化查詢1創(chuàng)建詞匯表

倉(cāng)庫(kù)能

夠更好地為用戶服務(wù)所進(jìn)行的一些操作。

?數(shù)據(jù)集成與分解。對(duì)來(lái)自不同系統(tǒng)的數(shù)據(jù)進(jìn)行集成,創(chuàng)建新的數(shù)據(jù)。有時(shí)按照

數(shù)據(jù)處理的需要,在將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)過程中,可能要將一個(gè)表中的數(shù)據(jù)

分解成數(shù)據(jù)倉(cāng)庫(kù)的兩個(gè)或多個(gè)數(shù)據(jù)塊。

?數(shù)據(jù)的概括與聚集。就是根據(jù)某一屬性將數(shù)據(jù)進(jìn)行匯總。例如,客戶每天的采

購(gòu)就是特定客戶在一天內(nèi)的所有采購(gòu)總和。數(shù)據(jù)的概括處理就要根據(jù)用戶使用

數(shù)據(jù)倉(cāng)庫(kù)的需要,預(yù)先進(jìn)行數(shù)據(jù)的匯總與疊加操作,為使用數(shù)據(jù)倉(cāng)庫(kù)提供便利。

?數(shù)據(jù)的預(yù)算與推導(dǎo)。為提高數(shù)據(jù)倉(cāng)庫(kù)信息使用者的使用效率,在數(shù)據(jù)倉(cāng)庫(kù)中需

要事先對(duì)信息使用者的常規(guī)操作進(jìn)行預(yù)先設(shè)置。即無(wú)須用戶干預(yù)就可以實(shí)現(xiàn)數(shù)

據(jù)的預(yù)算和推導(dǎo)。作為數(shù)據(jù)預(yù)算和推導(dǎo)的算法應(yīng)該作為數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)進(jìn)行

存儲(chǔ)和管理。

?數(shù)據(jù)的轉(zhuǎn)換與映射、數(shù)據(jù)的翻譯與格式化(跟數(shù)據(jù)準(zhǔn)備區(qū)的操作類似)

b.數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建...................重點(diǎn)

作為數(shù)據(jù)倉(cāng)庫(kù)的核心功能,應(yīng)該完成數(shù)據(jù)倉(cāng)庫(kù)的建模、數(shù)據(jù)的概括、數(shù)據(jù)的聚集、

數(shù)據(jù)的調(diào)整與確認(rèn),并建立結(jié)構(gòu)化查詢。

?數(shù)據(jù)倉(cāng)庫(kù)的建模。從已經(jīng)創(chuàng)建的數(shù)據(jù)模型中導(dǎo)出數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型(星型模

型或雪花模型),如果沒有數(shù)據(jù)模型,就需要構(gòu)造新的數(shù)據(jù)模型。在數(shù)據(jù)倉(cāng)庫(kù)

模型的書籍過程中,要完成數(shù)據(jù)的分割、主題域和粒度的確認(rèn),實(shí)際數(shù)據(jù)庫(kù)的

設(shè)計(jì)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理數(shù)據(jù)庫(kù)模式的定型等工作。

?數(shù)據(jù)的概括。根據(jù)用戶的需要,從初步的概括數(shù)據(jù)中創(chuàng)建用戶所需的高度概括

數(shù)據(jù).

?數(shù)據(jù)的聚集。從擁有大批量數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行查詢分析,是一個(gè)非常費(fèi)時(shí)

的操作。例如,在一個(gè)有1000個(gè)產(chǎn)品和10萬(wàn)個(gè)客戶的數(shù)據(jù)倉(cāng)庫(kù)中,為執(zhí)行一

個(gè)概括性查詢,就要涉及1億條記錄,需要較長(zhǎng)的時(shí)間才能完成,這對(duì)經(jīng)常查

詢的信息使用者而言是無(wú)法接受的。因此,在數(shù)據(jù)倉(cāng)庫(kù)中,常常要根據(jù)一些典

型的查詢需求,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)進(jìn)行聚集處理。例如,可以對(duì)產(chǎn)品的地區(qū)分

布、品牌的分布進(jìn)行事先聚集,只有這樣才能使用戶在數(shù)據(jù)倉(cāng)庫(kù)的使用中每次

都感受到使用時(shí)間的一致性和快速性。

?數(shù)據(jù)的調(diào)整與確認(rèn)。在數(shù)據(jù)完成概括聚集以后,需要對(duì)概括與聚集后的數(shù)據(jù)進(jìn)

行確認(rèn),如果數(shù)據(jù)概括、聚集的效果不好,還需要進(jìn)行一些調(diào)整,以保證數(shù)據(jù)

倉(cāng)庫(kù)的使用效果

?建立結(jié)構(gòu)化查詢。為提高一些結(jié)構(gòu)化查詢,可以預(yù)定義這些查詢,并將這些結(jié)

構(gòu)化查詢結(jié)果作為元數(shù)據(jù)存儲(chǔ)在元數(shù)據(jù)庫(kù)中。當(dāng)用戶進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的查詢時(shí),

只要從元數(shù)據(jù)庫(kù)中取回就可,這樣可以大大提高數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行效率。

c.元數(shù)據(jù)管理...................重點(diǎn)(元數(shù)據(jù)有這么重要

嗎???????wwq)

數(shù)據(jù)倉(cāng)庫(kù)的功能能夠發(fā)揮在很大的程度上取決于元數(shù)據(jù)的管理功能,元數(shù)據(jù)管理功

能的強(qiáng)弱決定了數(shù)據(jù)倉(cāng)庫(kù)功能發(fā)揮的好壞。元數(shù)據(jù)管理功能主要包含元數(shù)據(jù)瀏覽與導(dǎo)

航、元數(shù)據(jù)的創(chuàng)建和創(chuàng)建詞匯表。

?元數(shù)據(jù)瀏覽與導(dǎo)航。數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)者在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)和維護(hù)中需要利用數(shù)

據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)瀏覽和導(dǎo)航功能,而且數(shù)據(jù)倉(cāng)庫(kù)用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí)也需要

利用元數(shù)據(jù)的瀏覽及導(dǎo)航功能對(duì)數(shù)據(jù)倉(cāng)庫(kù)所提供的各種決策輔助信息加以說(shuō)

明。

?元數(shù)據(jù)創(chuàng)建。在數(shù)據(jù)重整過程中需要從集成數(shù)據(jù)、概括數(shù)據(jù)和衍生數(shù)據(jù)中捕獲

元數(shù)據(jù)。確定數(shù)據(jù)的粒度和分割程度、數(shù)據(jù)的翻譯和轉(zhuǎn)移規(guī)則,捕獲映射規(guī)則

及數(shù)據(jù)源和數(shù)據(jù)倉(cāng)庫(kù)之間的映射關(guān)系。這些都是元數(shù)據(jù)創(chuàng)建的內(nèi)容。

?創(chuàng)建詞匯表。在創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的過程中,需要根據(jù)所捕獲的元數(shù)據(jù)建立元數(shù)據(jù)

的詞匯表。在詞匯表中一般需要包含元數(shù)據(jù)的名稱,別名,簡(jiǎn)述,創(chuàng)建時(shí)間,

上次更新時(shí)間,關(guān)鍵字,數(shù)據(jù)來(lái)源,轉(zhuǎn)移/轉(zhuǎn)換信息,概括或推到算法等內(nèi)容。

D.數(shù)據(jù)集市/知識(shí)挖掘庫(kù)

數(shù)據(jù)集市/知

—————..

識(shí)挖掘庫(kù)的\求精與重整;數(shù)據(jù)集市/知識(shí)挖掘庫(kù)創(chuàng)建」元數(shù)據(jù)管理J

功能結(jié)構(gòu)與過濾與匹配建模元數(shù)據(jù)瀏覽與

數(shù)據(jù)倉(cāng)庫(kù)的

I集成與分割\概括I導(dǎo)航I

功能結(jié)構(gòu)極,----------------------------,

概括與聚集聚集元數(shù)據(jù)的抽取

為相似,如jJJJ

預(yù)算與推導(dǎo)調(diào)整與確認(rèn)與創(chuàng)建

(底贏贏筋藏嬴廠—套遏雨花而廠詢港而裝可

只是數(shù)據(jù)集fE

f

//如,a/如,婚/如,婚/如,婚/如,婚/如,婚/如,婚/如,婚/婚“,―rgtr,“gv,gr-r,“gv,gr-r,“gv,gr-r,“gv,gr-r,grgv,/,,g,g,g,g,g,g,g,g,g,g,g,g,a

的在于為某一部門或某一領(lǐng)域的用戶提供服務(wù),而設(shè)立數(shù)據(jù)倉(cāng)庫(kù)的目的則在于為企業(yè)

全體用戶提供服務(wù)。因此,可以將數(shù)據(jù)集市/知識(shí)挖掘庫(kù)看成是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上

或物理上的子集。

E.數(shù)據(jù)倉(cāng)庫(kù)的存取與使用

數(shù)據(jù)倉(cāng)庫(kù)的存取與使用結(jié)構(gòu)主要用于實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的最終功能,為數(shù)據(jù)倉(cāng)庫(kù)的最終

用戶提供進(jìn)行決策分析和知識(shí)挖掘的功能。為達(dá)到這一目的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存取與使

用結(jié)構(gòu)應(yīng)該包含數(shù)據(jù)倉(cāng)庫(kù)存取與檢索、數(shù)據(jù)倉(cāng)庫(kù)分析與報(bào)告及元數(shù)據(jù)管理,如圖

數(shù)據(jù)倉(cāng)庫(kù)存取與檢索數(shù)據(jù)倉(cāng)庫(kù)分析與報(bào)告元數(shù)據(jù)管理

數(shù)據(jù)倉(cāng)庫(kù)直接存取;報(bào)表處理工具:元數(shù)據(jù)管理與;

數(shù)據(jù)集市存?。环治雠c決策支持工具報(bào)表I

mm——mm;

數(shù)據(jù)集市重整;業(yè)務(wù)建模與分析處理工具;元數(shù)據(jù)抽取與:

轉(zhuǎn)換為多維結(jié)構(gòu)I數(shù)據(jù)挖掘工具|創(chuàng)建7

〃》z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?z?s*——~i

創(chuàng)建局部存儲(chǔ)I圖形工具II

“藪落礁系最衛(wèi)益藁菽為i面盤前亍蕩亂藪潴蒼簟贏據(jù)集市的功能,利向這些

功能可以將用戶所檢索的數(shù)據(jù)轉(zhuǎn)換為多維數(shù)據(jù)并存入多維數(shù)據(jù)庫(kù)??梢詫?shù)據(jù)倉(cāng)庫(kù)或數(shù)

據(jù)集市中的數(shù)據(jù)“卸載”下來(lái),成為局部存儲(chǔ)數(shù)據(jù),便于用戶進(jìn)行局部分析、數(shù)據(jù)挖掘、

翻譯轉(zhuǎn)換等處理。這就需要解決如何從預(yù)定義的查詢到即席的查詢、到迭代的查詢、到

細(xì)剖查詢的實(shí)現(xiàn)。

為用戶使用方便,這里還提供了管理與使用數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理功能。這些功能可

以幫助用戶了解數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的名稱、描述說(shuō)明、數(shù)值、價(jià)值來(lái)源及版本內(nèi)容,

了解數(shù)據(jù)的名稱、數(shù)值等內(nèi)容和數(shù)據(jù)從抽取到存入數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的轉(zhuǎn)移過程,了

解數(shù)據(jù)的定位和數(shù)據(jù)的可靠性,以及如何存取和使用數(shù)據(jù)。這些功能有助于用戶掌握數(shù)

據(jù)的正確內(nèi)容、信息的粒度、信息的概括成都、原始數(shù)據(jù)的來(lái)源和日期。并可以按照其

上下文查看數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為信息。此外,還可以驗(yàn)證數(shù)據(jù)源的質(zhì)量,在數(shù)據(jù)抽取和

存儲(chǔ)過程中用于判斷數(shù)據(jù)的可靠性和質(zhì)量。

數(shù)據(jù)倉(cāng)庫(kù)分析與報(bào)告為最終用戶使用數(shù)據(jù)倉(cāng)庫(kù)提供了一組工具,可以是用戶能夠依

靠數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市進(jìn)行決策分析或知識(shí)挖掘。這些工具包含了報(bào)表處理工具、分析

與決策支持工具、業(yè)務(wù)建模與分析處理工具、數(shù)據(jù)挖掘工具等。

具體地說(shuō),這些工具具有地理信息系統(tǒng)(GIS)、數(shù)據(jù)挖掘工具、聯(lián)機(jī)分析處理

(OLAP),可視化工具、經(jīng)理信息系統(tǒng)(EIS)、統(tǒng)計(jì)工具、internet瀏覽器、元數(shù)據(jù)瀏

覽器、第四代語(yǔ)言、圖形用戶界面(GUI)建立程序、電子表格、報(bào)表生成器和數(shù)據(jù)訪

問工具等。

地理信息系統(tǒng)(GIS)可以利用數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)圖示化地表達(dá)數(shù)據(jù)關(guān)系。例如,

可以通過GIS了解生活在某一特定銷售點(diǎn)范圍之內(nèi)的客戶數(shù)量,或在兩個(gè)銷售點(diǎn)之間

的平均到達(dá)時(shí)間。利用GIS還可以確定對(duì)公司感興趣的潛在客戶居住區(qū)域,幫助企業(yè)

確定新的銷售點(diǎn)位置。

利用數(shù)據(jù)挖掘工具和統(tǒng)計(jì)工具可以找出隱臧在大量數(shù)據(jù)背后的商業(yè)規(guī)律。例如,哪

些客戶可能會(huì)在信用上發(fā)生問題,哪些客戶可能會(huì)對(duì)企業(yè)的促銷手段作出積極的反應(yīng)。

連接分析處理和經(jīng)理信息系統(tǒng)能夠以便捷的手段讓用戶完成復(fù)雜的數(shù)據(jù)查詢,并能

以形象的圖形、圖像和表格的方式給出決策分析的結(jié)果。

Internet瀏覽器主要為用戶的WEB數(shù)據(jù)倉(cāng)庫(kù)使用提供便利。

電子表格作為辦公處理軟件,許多企業(yè)都已經(jīng)擁有。電子表哥也可作為數(shù)據(jù)倉(cāng)庫(kù)的

分析工具加以應(yīng)用。但是將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)轉(zhuǎn)入電子表格還需費(fèi)一番周折。

可視化工具、元數(shù)據(jù)瀏覽器、第四代語(yǔ)言、圖形用戶界面(GUI)建立程序、報(bào)表

生成器和數(shù)據(jù)訪問工具等都可以作為數(shù)據(jù)倉(cāng)庫(kù)的范文分析工具使用,知識(shí)在實(shí)際應(yīng)用中

各有千秋。例如,OLAP可以提供強(qiáng)大的數(shù)據(jù)查詢功能,但是報(bào)表的生成能力就不如報(bào)

表生成器。而第四代語(yǔ)言與GUI建立程序可以提供受限的查詢界面,并能知道用戶完

成查詢。這對(duì)數(shù)據(jù)倉(cāng)庫(kù)的安全使用與知道新用戶使用數(shù)據(jù)倉(cāng)庫(kù)十分有利,但不利于有經(jīng)

驗(yàn)的用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)的知識(shí)挖掘。此外,根據(jù)需要也可以用第四代語(yǔ)言建立一個(gè)OLAP

工具。

2.數(shù)據(jù)倉(cāng)庫(kù)的管理層

數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行除依靠上面所介紹的數(shù)據(jù)倉(cāng)庫(kù)基本功能外,還需要能對(duì)這些基本功能進(jìn)

行管理的結(jié)構(gòu)框架,這樣數(shù)據(jù)倉(cāng)庫(kù)才能正常運(yùn)行使用。數(shù)據(jù)倉(cāng)庫(kù)管理層由數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)管

理層和數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)管理層組成。

A.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)管理層

包含數(shù)據(jù)抽取與新數(shù)據(jù)需求和查詢管理,數(shù)據(jù)加載、存儲(chǔ)、刷新和更新系統(tǒng),安全

性與用戶授權(quán)管理系統(tǒng),數(shù)據(jù)歸檔、恢復(fù)及凈化系統(tǒng)。

數(shù)據(jù)抽取與新數(shù)據(jù)需數(shù)據(jù)加載、存儲(chǔ)、刷安全性與用戶授權(quán)管數(shù)據(jù)歸檔、恢復(fù)及凈

求和查詢管理新和更新系統(tǒng)理系統(tǒng)化系統(tǒng)

數(shù)據(jù)抽取與新數(shù)據(jù)需求和查詢管理主要負(fù)責(zé)完成從數(shù)據(jù)源中抽取數(shù)據(jù)的管理;用戶

在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中出現(xiàn)對(duì)新數(shù)據(jù)的要求時(shí),從新的數(shù)據(jù)源或當(dāng)前數(shù)據(jù)源中按照用戶需求

追蹤和充實(shí)新數(shù)據(jù);對(duì)數(shù)據(jù)查詢中的并行處理工作的管理。

數(shù)據(jù)加載、存儲(chǔ)、刷新和更新系統(tǒng)負(fù)責(zé)對(duì)從數(shù)據(jù)源中所抽取的數(shù)據(jù)在完成篩選、凈

化處理以后,將這些數(shù)據(jù)加載、存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中:捕獲數(shù)據(jù)源中的數(shù)據(jù)變化,用最新

數(shù)據(jù)充實(shí)數(shù)據(jù)倉(cāng)庫(kù);根據(jù)用戶的需求和數(shù)據(jù)倉(cāng)庫(kù)管理的要求對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行更新等工

作。

安全性與用戶授權(quán)管理系統(tǒng)主要負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)的安全管理工作,禁止用戶對(duì)數(shù)據(jù)倉(cāng)

庫(kù)進(jìn)行某些非法操作;根據(jù)用戶的管理權(quán)限和工作需要給予用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同操作

權(quán)限。

數(shù)據(jù)歸檔、恢復(fù)及凈化系統(tǒng)中的數(shù)據(jù)歸檔、恢復(fù)功能主要負(fù)責(zé)定期對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的

數(shù)據(jù)進(jìn)行歸檔、備份,以便在數(shù)據(jù)倉(cāng)庫(kù)遭到破壞時(shí)可以恢復(fù);而凈化系統(tǒng)則負(fù)責(zé)對(duì)從數(shù)

據(jù)源所抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)的篩選、數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一、數(shù)據(jù)內(nèi)容的統(tǒng)一等各種求精、重

整凈化工作的管理。

B.數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)管理層

數(shù)據(jù)倉(cāng)庫(kù)的有效性完全建立在數(shù)據(jù)的定義(元數(shù)據(jù))之上。元數(shù)據(jù)已經(jīng)滲透到數(shù)據(jù)

倉(cāng)庫(kù)的各種活動(dòng)中,數(shù)據(jù)源的性質(zhì)有所獲得數(shù)據(jù)的定義來(lái)刻畫,增加時(shí)間戳就需要有與

元數(shù)據(jù)相關(guān)的時(shí)間信息,元數(shù)據(jù)還要為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)操作提供索引。

數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)管理層負(fù)責(zé)管理數(shù)據(jù)倉(cāng)庫(kù)所使用的元數(shù)據(jù),其中包括數(shù)據(jù)倉(cāng)庫(kù)、

數(shù)據(jù)集市/知識(shí)挖掘庫(kù)和詞匯表管理,元數(shù)據(jù)抽取、創(chuàng)建、存儲(chǔ)和更新管理,預(yù)定義的

查詢、報(bào)表和索引管理,刷新和復(fù)制管理,登錄、歸檔、恢復(fù)與凈化管理。如圖:

1括數(shù)據(jù)倉(cāng)庫(kù)、數(shù)元數(shù)據(jù)抽取、創(chuàng)預(yù)定義的查詢、,刷新和復(fù)制管理;登錄、歸檔、恢j

,據(jù)集市/知識(shí)挖建、存儲(chǔ)和更新報(bào)表和索引管理1復(fù)與凈化管理;

1掘庫(kù)和詞匯表管管理1

!理」

____________JL—J

a.數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市/知識(shí)挖掘庫(kù)和元數(shù)據(jù)詞匯表管理

元數(shù)據(jù)管理層利用元數(shù)據(jù)詞匯表來(lái)管理數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市中邏輯數(shù)據(jù)模型和

物理數(shù)據(jù)模型,以及與技術(shù)和業(yè)務(wù)相關(guān)的數(shù)據(jù)說(shuō)明。

元數(shù)據(jù)主要包含兩大部分的元數(shù)據(jù):一類元數(shù)據(jù)用于說(shuō)明從數(shù)據(jù)源想數(shù)據(jù)倉(cāng)庫(kù)

轉(zhuǎn)移的數(shù)據(jù),主要方便數(shù)據(jù)倉(cāng)庫(kù)維護(hù)人員對(duì)數(shù)據(jù)艙倉(cāng)庫(kù)的應(yīng)用;另一類元數(shù)據(jù)用于

建立從數(shù)據(jù)倉(cāng)庫(kù)想數(shù)據(jù)倉(cāng)庫(kù)前端工具的映射,以方便用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)的使用。

b.元數(shù)據(jù)抽取、創(chuàng)建、存儲(chǔ)和更新管理

元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)抽取、清理、加載等操作過程中需要對(duì)所

涉及的元數(shù)據(jù)進(jìn)行抽取、創(chuàng)建、存儲(chǔ)和更新處理。即從數(shù)據(jù)源中將關(guān)于這些數(shù)據(jù)的

說(shuō)明抽取出來(lái),如果在元數(shù)據(jù)庫(kù)中沒有這些元數(shù)據(jù),就需要?jiǎng)?chuàng)建并存儲(chǔ)在元數(shù)據(jù)庫(kù)

中。如果這些元數(shù)據(jù)已經(jīng)存在于元數(shù)據(jù)庫(kù)中,則需要根據(jù)最新情況進(jìn)行更新。

C.預(yù)定義的查詢、報(bào)表和索引管理

在元數(shù)據(jù)管理中還需要對(duì)設(shè)計(jì)人員為數(shù)據(jù)倉(cāng)庫(kù)用戶預(yù)定義的查詢和報(bào)表進(jìn)行管

理,將預(yù)定義的查詢和報(bào)表處理方式,甚至處理結(jié)果置于元數(shù)據(jù)庫(kù)中,這樣當(dāng)用戶

需要進(jìn)行相同的預(yù)定義查詢和報(bào)表時(shí),就可以提供相應(yīng)的結(jié)果。而預(yù)定義的查詢和

報(bào)表處理方式也需要存儲(chǔ)在元數(shù)據(jù)中。元數(shù)據(jù)管理層哈需要實(shí)現(xiàn)大型數(shù)據(jù)倉(cāng)庫(kù)的多

級(jí)索引、數(shù)據(jù)壓縮和復(fù)合鍵等方面的管理。

d.刷新和復(fù)制、登錄、歸檔、恢復(fù)與凈化管理

當(dāng)數(shù)據(jù)倉(cāng)庫(kù)所連接的數(shù)據(jù)源發(fā)生變化時(shí),數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容也要定期刷新。這些

刷新工作的進(jìn)行需要依靠元數(shù)據(jù)庫(kù)中所包含的有關(guān)說(shuō)明。為保證數(shù)據(jù)倉(cāng)庫(kù)的安全,

需要經(jīng)常定期進(jìn)行復(fù)制。這樣在數(shù)據(jù)倉(cāng)庫(kù)遇到破壞后,可以從備份中將數(shù)據(jù)倉(cāng)庫(kù)恢

復(fù)。數(shù)據(jù)倉(cāng)庫(kù)的備份與恢復(fù)工作也有賴于元數(shù)據(jù)的幫助。用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí)需

要進(jìn)行身份的驗(yàn)證,對(duì)用戶的登錄管理也離不開元數(shù)據(jù)的支持。元數(shù)據(jù)在加載進(jìn)數(shù)

據(jù)倉(cāng)庫(kù)之前必須要進(jìn)行凈化處理,而凈化處理的規(guī)則也需要元數(shù)據(jù)說(shuō)明。

3.數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境支持層

數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行除需要數(shù)據(jù)倉(cāng)庫(kù)管理層對(duì)基本功能進(jìn)行管理外,還需要有數(shù)據(jù)倉(cāng)庫(kù)的環(huán)

境支持層對(duì)基本功能提供支持。數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境支持層有數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)傳輸層和數(shù)據(jù)倉(cāng)庫(kù)基

礎(chǔ)層組成。

A.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)傳輸層

數(shù)據(jù)倉(cāng)庫(kù)中不同結(jié)構(gòu)之間的數(shù)據(jù)傳輸,需由數(shù)據(jù)倉(cāng)庫(kù)的傳輸層完成,數(shù)據(jù)傳輸層包

含了數(shù)據(jù)傳輸和傳送網(wǎng)絡(luò)、客戶-服務(wù)器代理和中間件、數(shù)據(jù)復(fù)制系統(tǒng)、數(shù)據(jù)傳輸?shù)陌?/p>

全和保障系統(tǒng)。如圖

——————————,產(chǎn)

:數(shù)據(jù)傳輸和傳送網(wǎng)絡(luò)|客戶-服務(wù)器代理和|數(shù)據(jù)復(fù)制系統(tǒng)|數(shù)據(jù)傳輸?shù)陌踩捅

\\中間件I\障系統(tǒng)\

a.數(shù)據(jù)傳輸層的組成

在數(shù)據(jù)傳輸層中的數(shù)據(jù)傳輸和傳送網(wǎng)絡(luò)包含網(wǎng)絡(luò)協(xié)議、網(wǎng)絡(luò)管理框架、網(wǎng)絡(luò)操作系

統(tǒng)和網(wǎng)絡(luò)。

從數(shù)據(jù)倉(cāng)庫(kù)的角度看,網(wǎng)絡(luò)操作系統(tǒng)的性能應(yīng)該支持內(nèi)核線程、高達(dá)4TB的內(nèi)存、

最大為1TB的特大型文件系統(tǒng)、大小可變的應(yīng)用程序所用頁(yè)面及并行處理,并有日志

文件系統(tǒng)、內(nèi)存分頁(yè)管理功能、動(dòng)態(tài)加載核心模塊功能,可以為數(shù)據(jù)倉(cāng)庫(kù)提供良好的可

恢復(fù)性能。而且操作系統(tǒng)應(yīng)該遵循開放系統(tǒng)標(biāo)準(zhǔn),能夠支持系統(tǒng)的互操作,這樣才能使

數(shù)據(jù)倉(cāng)庫(kù)在多操作系統(tǒng)環(huán)境中運(yùn)行。

數(shù)據(jù)倉(cāng)庫(kù)中的網(wǎng)絡(luò)問題在于貸款,在數(shù)據(jù)倉(cāng)庫(kù)的網(wǎng)絡(luò)配置中可以將用戶和系統(tǒng)數(shù)據(jù)

分隔到不同的網(wǎng)絡(luò)中,以增加系統(tǒng)的整體帶寬。系統(tǒng)數(shù)據(jù)流量可以通過100Base-TX以

太網(wǎng)、FDDI、ATM、千兆位或HIPPI接口,而用戶數(shù)據(jù)流量則放在10/100Base-TX以

太局域網(wǎng)上。

b.客戶一服務(wù)器代理與中間件

包含數(shù)據(jù)庫(kù)網(wǎng)管、數(shù)據(jù)倉(cāng)庫(kù)的中間件、傳輸層的數(shù)據(jù)艙倉(cāng)庫(kù)數(shù)據(jù)發(fā)布和復(fù)制系統(tǒng)等。

數(shù)據(jù)庫(kù)網(wǎng)管便于將數(shù)據(jù)倉(cāng)庫(kù)鏈接到其他軟件產(chǎn)品上。

而數(shù)據(jù)倉(cāng)庫(kù)的中間件一般用于補(bǔ)充數(shù)據(jù)倉(cāng)庫(kù)中其他組件功能的不足,如用于監(jiān)視數(shù)

據(jù)庫(kù)與查詢管理程序之間的TCP/IP包,這就可以提供關(guān)于數(shù)據(jù)倉(cāng)庫(kù)用戶、被訪問數(shù)據(jù)

庫(kù)及訪問時(shí)間等信息。利用這些信息可以對(duì)數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)進(jìn)行調(diào)整,提高數(shù)據(jù)倉(cāng)庫(kù)的

性能。目前許多數(shù)據(jù)庫(kù)管理系統(tǒng)開始將各種中間件的功能添加到數(shù)據(jù)庫(kù)管理系統(tǒng)中,英

雌,在選擇中間件之前需要了解中間件的功能是否已經(jīng)在數(shù)據(jù)庫(kù)管理系統(tǒng)存在。

傳輸層的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)發(fā)布和復(fù)制系統(tǒng)主要用于將數(shù)據(jù)源中的源數(shù)據(jù)庫(kù)數(shù)據(jù)復(fù)制

到數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)數(shù)據(jù)庫(kù)上,或?qū)?shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)庫(kù)數(shù)據(jù)復(fù)制到數(shù)據(jù)集市的目標(biāo)數(shù)

據(jù)庫(kù)上。源數(shù)據(jù)庫(kù)和幕布奧數(shù)據(jù)庫(kù)可以在同一臺(tái)機(jī)器上,也可以不再同一臺(tái)及其上。數(shù)

據(jù)的復(fù)制可以根據(jù)制定的時(shí)間進(jìn)行數(shù)據(jù)發(fā)送,還可以在數(shù)據(jù)發(fā)送過程中對(duì)發(fā)送數(shù)據(jù)進(jìn)行

修改,然后再發(fā)送到目標(biāo)數(shù)據(jù)庫(kù)上。

c.數(shù)據(jù)復(fù)制系統(tǒng)

在傳輸層的復(fù)制系統(tǒng)中有發(fā)布與復(fù)制系統(tǒng)、數(shù)據(jù)庫(kù)網(wǎng)管內(nèi)定義的復(fù)制工具和專用的

數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品等。

d.數(shù)據(jù)傳輸?shù)陌踩捅U舷到y(tǒng)

數(shù)據(jù)傳輸?shù)陌踩捅U舷到y(tǒng)不僅要解決保障數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)安全問題,還需要保

護(hù)用戶正常使用數(shù)據(jù)倉(cāng)庫(kù)的權(quán)利問題。因此數(shù)據(jù)倉(cāng)庫(kù)安全保障系統(tǒng)需要設(shè)立用戶的安全

角色,明確哪些用戶可以訪問哪些數(shù)據(jù),確認(rèn)用戶對(duì)數(shù)據(jù)的訪問是否威脅到系統(tǒng)的安全;

為不同數(shù)據(jù)設(shè)立不同的安全級(jí)別,根據(jù)安全需要對(duì)數(shù)據(jù)進(jìn)行安全分區(qū);對(duì)用戶進(jìn)行鑒別,

并將鑒別的用戶通知安全保障系統(tǒng);保護(hù)用戶訪問數(shù)據(jù)的路徑。

B.數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)層

包含系統(tǒng)管理、工作流程管理、存儲(chǔ)系統(tǒng)和處理系統(tǒng)部分,如圖:

彳系統(tǒng)管理7工作流程管理彳存儲(chǔ)系統(tǒng)彳處理系統(tǒng)彳

系統(tǒng)管理部分為數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者和最終用戶提供執(zhí)行、管理、終止工具和應(yīng)用程

序等功能。

工作流程管理部分主要支持處理集成和管理,以協(xié)調(diào)各種工具、應(yīng)用程序和操作有

條不紊地進(jìn)行,正確完成對(duì)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的抽取、刷新、復(fù)制、更新、聚集、概

括及其他維護(hù)人物和系統(tǒng)管理了任務(wù)。利用工作流程的管理實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市

的自動(dòng)維護(hù)與刷新,并且可以提供預(yù)定義的報(bào)表和查詢結(jié)果,以提高系統(tǒng)的設(shè)計(jì)者和最

終用戶的工作效率。

存儲(chǔ)系統(tǒng)為數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市中的數(shù)據(jù)庫(kù)目錄提供了數(shù)據(jù)庫(kù)和文件管理

器,為數(shù)據(jù)倉(cāng)庫(kù)的存取與使用提供多為的和本地的存儲(chǔ)。

處理系統(tǒng)實(shí)際上是數(shù)據(jù)倉(cāng)庫(kù)核心的基本操作環(huán)境,即數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、

數(shù)據(jù)倉(cāng)庫(kù)存取與使用、中間件的操作環(huán)境。

數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)結(jié)構(gòu)層還需要考慮配置管理程序、存儲(chǔ)管理程序、安全性管理程序、

軟件分布管理程序、特許證管理程序、性能監(jiān)控程序和容量分析程序等。

五.數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(DM,DataMining)是基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)(KDD,KnowledgeDiscovery

inDatabase)過程中最為關(guān)鍵的步驟,因此,在實(shí)際應(yīng)用中對(duì)數(shù)據(jù)挖掘和KDD這兩個(gè)數(shù)據(jù)

的應(yīng)用往往不加區(qū)別。

1.數(shù)據(jù)挖掘的發(fā)展

經(jīng)營(yíng)管理的實(shí)際需要:進(jìn)入21世紀(jì)以后,全球經(jīng)濟(jì)一體化的進(jìn)程日益加快,企業(yè)所面

臨的市場(chǎng)競(jìng)爭(zhēng)壓力日趨嚴(yán)重,企業(yè)經(jīng)營(yíng)管理者西夏王能夠從企業(yè)基類的大量歷史數(shù)據(jù)中找到

應(yīng)對(duì)日趨嚴(yán)重的競(jìng)爭(zhēng)壓力良方,希望能夠從這些數(shù)據(jù)中找到經(jīng)營(yíng)管理出現(xiàn)問題的根本原因。

例如,經(jīng)營(yíng)管理者往往希望了解企業(yè)的某些產(chǎn)品為什么銷售業(yè)績(jī)良好,是產(chǎn)品自身的原因?

還是銷售的原因?如果是銷售的原因,產(chǎn)品的銷售人員在銷售中采用了什么銷售方式?處于

這些因素的考慮,是企業(yè)經(jīng)營(yíng)管理人員,特別是決策人員希望能夠采用某種工具從這些數(shù)據(jù)

中去找原因,能夠快速地從大量數(shù)據(jù)中挖掘出對(duì)經(jīng)營(yíng)管理有用的信息,以應(yīng)對(duì)瞬息萬(wàn)變的市

場(chǎng)壓力。

2.數(shù)據(jù)挖掘的定義

從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。

A.數(shù)據(jù)挖掘的技術(shù)定義

數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨即的實(shí)際數(shù)據(jù)中,提取隱含

在其中的、人們所不知道的、但又是潛在有用的信息和知識(shí)的過程。

知識(shí),如果從嚴(yán)格的意義上講,熱門們通常將概念、規(guī)則、模式、規(guī)律和約束等看作是

知識(shí)。但是知識(shí)都是相對(duì)的,是有特定前提和約束條件的,在特定領(lǐng)域中具有實(shí)際應(yīng)用價(jià)值。

同時(shí)還要能夠易于被用戶理解,最好能用自然語(yǔ)言表達(dá)所發(fā)現(xiàn)的結(jié)果。

人們將數(shù)據(jù)看作是形成知識(shí)的源泉,數(shù)據(jù)挖掘就是從知識(shí)的源泉去挖掘知識(shí)。原始數(shù)據(jù)

可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖像和圖像數(shù)據(jù);

甚至可以是分布在網(wǎng)絡(luò)上的異構(gòu)數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;

可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持和過

程控制等。

因此,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升

到從數(shù)據(jù)庫(kù)中挖掘知識(shí),提供決策支持。在這種需求的推動(dòng)下,匯集了不同領(lǐng)域的研究者,

尤其是數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的

學(xué)者和工程技術(shù)人員。

B.數(shù)據(jù)挖掘的商業(yè)定義

數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)

數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵之時(shí),即從一個(gè)

數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)相關(guān)商業(yè)模式。

數(shù)據(jù)挖掘是利用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的技術(shù)來(lái)探求哪些符合市場(chǎng)、客戶行為的模式。對(duì)

于數(shù)據(jù)挖掘的應(yīng)用不僅要依靠良好的算法建立模型,而且更重的是要解決如何將數(shù)據(jù)挖

掘技術(shù)集成到當(dāng)今復(fù)雜的信息技術(shù)應(yīng)用環(huán)境中。其次還需要有商務(wù)分析人員參與,

因?yàn)閿?shù)據(jù)挖掘技術(shù)不具備人所特有的經(jīng)驗(yàn)和直覺,不能區(qū)分挖掘出的哪些模式在現(xiàn)實(shí)中是有

意義的,哪些是無(wú)意義的。因此,商務(wù)分析人員的參與是必不可少的。

數(shù)據(jù)挖掘是一類深層次的數(shù)據(jù)分析技術(shù)。

數(shù)據(jù)挖掘工具與傳統(tǒng)數(shù)據(jù)分析工具的比較如圖:

傳統(tǒng)數(shù)據(jù)分析工具(DSS/EIS)數(shù)據(jù)挖掘工具

工具特點(diǎn)回顧型的、驗(yàn)證型的預(yù)測(cè)型的、發(fā)現(xiàn)型的

分析重點(diǎn)已經(jīng)發(fā)生了什么預(yù)測(cè)未來(lái)的情況、解釋發(fā)生的原因

分析目的從過去的事實(shí)中列出管理人員感興趣的鎖定未來(lái)的可能客戶,以減少未來(lái)的

事實(shí)銷售成本

數(shù)據(jù)集大數(shù)據(jù)維、為重屬性數(shù)、維中數(shù)據(jù)均是少量數(shù)據(jù)維、為重屬性數(shù)、維中數(shù)據(jù)均是

小的龐大的

啟動(dòng)方式企業(yè)管理人員、系統(tǒng)分析員、管理顧問啟數(shù)據(jù)與系統(tǒng)啟動(dòng)、少量的人員指導(dǎo)

動(dòng)與控制

技術(shù)狀況成熟統(tǒng)計(jì)分析工具成熟,其他在發(fā)展中

六.數(shù)據(jù)挖掘技術(shù)與工具

隨著海量數(shù)據(jù)搜集、強(qiáng)大的多處理器計(jì)算機(jī)和數(shù)據(jù)挖掘算法這3中基礎(chǔ)技術(shù)的發(fā)展和成

熟,數(shù)據(jù)挖掘技術(shù)已在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中得到了廣泛的應(yīng)用。

A.常用的數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘的發(fā)展受到數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化技術(shù)、信息技術(shù)及其他學(xué)

科的影響,如神經(jīng)網(wǎng)絡(luò)、模糊/粗糙集理論、知識(shí)表示、歸納技術(shù)與高性能計(jì)算等。從常用

的數(shù)據(jù)挖掘技術(shù)來(lái)看,可以分成三大類:傳統(tǒng)分析類、知識(shí)發(fā)現(xiàn)類和其他最新發(fā)展的數(shù)據(jù)

挖掘技術(shù)。

a.傳統(tǒng)分析類

傳統(tǒng)的統(tǒng)計(jì)分析(或稱數(shù)據(jù)分析)技術(shù)中使用的數(shù)據(jù)挖掘模型主要有線性分析和非線性

分析、回歸分析、邏輯回歸分析、單變量分析、多變量分析、時(shí)間序列分析、最近鄰算法和

聚類分析等技術(shù)。

利用這些技術(shù)可以檢查那些異常形式的數(shù)據(jù),然后,利用各種統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)幾

時(shí)這些數(shù)據(jù),解釋隱藏在這些數(shù)據(jù)背后的市場(chǎng)規(guī)律和商業(yè)機(jī)會(huì)。例如,可以使用統(tǒng)計(jì)分析工

具尋求最佳商業(yè)機(jī)會(huì)來(lái)增加市場(chǎng)份額和利潤(rùn),利用全面質(zhì)量管理程序來(lái)提高產(chǎn)品或服務(wù)的質(zhì)

量使客戶更加滿意,通過對(duì)流水線產(chǎn)品制造的調(diào)整或企業(yè)業(yè)務(wù)過程的重整來(lái)增加利潤(rùn)。在所

有的數(shù)據(jù)挖掘技術(shù)中,統(tǒng)計(jì)型數(shù)據(jù)挖掘工具是數(shù)據(jù)挖掘技術(shù)中最成熟的一種,已經(jīng)在數(shù)據(jù)

挖掘中得到了廣泛的應(yīng)用。

b.知識(shí)發(fā)現(xiàn)類

知識(shí)發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù)是與統(tǒng)計(jì)類數(shù)據(jù)挖掘技術(shù)完全不同的一種挖掘技術(shù)。它可以從

數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)中篩選信息,尋找市場(chǎng)可能出現(xiàn)的運(yùn)營(yíng)模式,發(fā)掘人們所不知道的事

實(shí)。

知識(shí)發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù)包含人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、粗糙集(RS)和關(guān)聯(lián)

規(guī)則等。

人工神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立三大

類神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。前饋式網(wǎng)絡(luò)以感知機(jī)、反向傳播

模型、函數(shù)性網(wǎng)絡(luò)為代表,可用于預(yù)測(cè)、模式識(shí)別等領(lǐng)域;反饋式網(wǎng)絡(luò)以Hopfield的離散

模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計(jì)算;自組織網(wǎng)絡(luò)以ART模型、Koholon

模型為代表,用于聚類處理。

決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在某一屬性上的測(cè)試,每

一個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布。由于每個(gè)決策和事件(即自

然狀態(tài))都可能引出兩個(gè)或多個(gè)事件,導(dǎo)致不同的結(jié)果,決策樹在數(shù)據(jù)挖掘中一般用于數(shù)據(jù)

的分類處理上,使具有某種內(nèi)在規(guī)律的分析對(duì)象處于同一類中。

遺傳算法是近幾年發(fā)展起來(lái)的一種嶄新的全局化算法,它借用了生物遺傳學(xué)的觀點(diǎn),通

過自然選擇、遺傳、變異等作用機(jī)制,實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性提高。解決問題是,要對(duì)解決

問題的模型結(jié)構(gòu)和參數(shù)進(jìn)行編碼,一般用字符串來(lái)表示,這個(gè)過程就將問題符號(hào)化、離散化

了。遺傳算法由3個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的

個(gè)體,產(chǎn)生新種群(后代)的過程;交叉(重組)是選擇兩個(gè)不同個(gè)體(染色體)的部分(基

因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。

遺傳算法的目的在于獲取最優(yōu)化的知識(shí)集合。

粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決

模糊或不確定的分析和處理問題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)

據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成

相應(yīng)的子集,然后依據(jù)條件屬性劃分的子集與依結(jié)論屬性劃分的子集之間上下近似關(guān)系生成

判定規(guī)則。所有相似對(duì)象的集合稱為處登記和,它形成知識(shí)點(diǎn)基本成分;任何初等集合的病

機(jī)稱為精確集,否則一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集就具有邊界元素,也就

是那些既不能確定為集合元素也不能確定為集合補(bǔ)集元素的元素,而精確集市完全沒有邊界

元素的。粗糙集一般用于對(duì)象的相似性或共性分析、因果關(guān)系及范式挖掘等。

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一種主要形式,是與大多數(shù)人想象的數(shù)據(jù)挖掘過程最為相似的一

種數(shù)據(jù)挖掘形式,即在大型數(shù)據(jù)庫(kù)中“淘金”---人們感興趣的規(guī)則。在關(guān)聯(lián)規(guī)則系統(tǒng)中,

規(guī)則適用“如果怎么樣、怎么樣、怎么樣,那么久怎么樣”的簡(jiǎn)單形式表示的。關(guān)聯(lián)規(guī)則主

要用于查找那些由于某些事件的發(fā)生而引發(fā)的另外一些事件,這種關(guān)聯(lián)規(guī)則越來(lái)越引起企

業(yè)管理人員的注意。

C.最新發(fā)展的數(shù)據(jù)挖掘技術(shù)

在數(shù)據(jù)挖掘技術(shù)的最新發(fā)展中包含了文本數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、可視化系統(tǒng)、空間

數(shù)據(jù)挖掘和分布式數(shù)據(jù)挖掘技術(shù)等。

文本數(shù)據(jù)挖掘和Web數(shù)據(jù)挖掘是近幾年新發(fā)展起來(lái)的嶄新數(shù)據(jù)挖掘技術(shù),前者主要是為

了滿足對(duì)非結(jié)構(gòu)化信息挖掘的需要,后者則是正對(duì)日益發(fā)展的Internet技術(shù)所帶來(lái)的大批量

網(wǎng)絡(luò)信息的挖掘。

可視化系統(tǒng)是為了使數(shù)據(jù)挖掘能夠以圖形或圖像的方式在屏幕上顯示出來(lái),并能進(jìn)行交

互處理,這樣就可以很清楚地發(fā)現(xiàn)隱含的和有用的知識(shí)??梢暬夹g(shù)可分為兩類:表示控件

數(shù)據(jù)場(chǎng)的體可視化技術(shù)和表示非控件數(shù)據(jù)的信息可視化技術(shù)??梢暬瘮?shù)據(jù)挖掘可以分為數(shù)據(jù)

可視化、數(shù)據(jù)挖掘結(jié)果可視化和交互式數(shù)據(jù)可視化挖掘4類。

控件數(shù)據(jù)挖掘。

分布式數(shù)據(jù)挖掘是基于分布式數(shù)據(jù)庫(kù)的,利用分布式算法從分布式數(shù)據(jù)庫(kù)中挖掘知識(shí)的

技術(shù)。

B.常用數(shù)據(jù)挖掘工具

由于數(shù)據(jù)挖掘工具在企業(yè)經(jīng)營(yíng)管理、政府行政管理決策及科學(xué)研究等領(lǐng)域獲得了廣泛的

應(yīng)用,許多軟件開發(fā)商或研究機(jī)構(gòu)紛紛推出了各式數(shù)據(jù)挖掘商品化工具。這些工具可以按照

使用方式、所采用的數(shù)據(jù)挖掘技術(shù)和應(yīng)用范圍進(jìn)行分類。

a.按使用方式匪類的數(shù)據(jù)挖掘工具

可分成決策方案生成工具、商業(yè)分析工具和研究分析工具三類。

決策方案生成工具往往是針對(duì)某個(gè)特定行業(yè)或特定問題而開發(fā)的一類數(shù)據(jù)挖掘工具,如

金融行業(yè)的欺詐檢查工具,零售行業(yè)的客戶流失分析工具。

商業(yè)分析工具有兩種類型,一種是只為用戶提供一個(gè)黑箱,用戶只需要將需要分析的對(duì)

象和相關(guān)的一些環(huán)境因素提供給工具,數(shù)據(jù)挖掘工具將自動(dòng)給出數(shù)據(jù)挖掘的結(jié)果,其內(nèi)部的

一些復(fù)雜模型并不向用戶展示。這種類型的數(shù)據(jù)挖掘工具適合管理人員使用。另一種數(shù)據(jù)

挖掘工具則向用戶展示數(shù)據(jù)挖掘模型,用戶可以根據(jù)自己的需要去選擇數(shù)據(jù)挖掘模型或?qū)?shù)

據(jù)挖掘模型進(jìn)行適當(dāng)?shù)目刂?。例如,將決策樹展示給用戶,用戶可以對(duì)決策樹進(jìn)行切片處理。

這一類工具主要為企業(yè)管理顧問或商業(yè)分析人員服務(wù)。

研究分析工具為用戶提供了更大的數(shù)據(jù)挖掘應(yīng)用的自由空間,其用戶主要是數(shù)據(jù)挖掘研

究人員或商業(yè)分析人員。這些工具包含了一些數(shù)據(jù)挖掘研究領(lǐng)域的最新研究成果如文本挖

掘、Web挖掘或圖形、可視化工具等。

b.按數(shù)據(jù)挖掘技術(shù)分類的數(shù)據(jù)挖掘工具

可分成基于神經(jīng)網(wǎng)絡(luò)的工具、基于規(guī)則和決策樹的工具、基于模糊邏輯的工具和綜合型

數(shù)據(jù)挖掘工具。

基于神經(jīng)網(wǎng)絡(luò)的工具由于有非線性數(shù)據(jù)的快速建模能力,在實(shí)際應(yīng)用中越來(lái)越流行。開

發(fā)過程基本上是首先進(jìn)行數(shù)據(jù)聚類,然后分類計(jì)算權(quán)值。神經(jīng)網(wǎng)絡(luò)很適合非線性數(shù)據(jù)和含

噪聲數(shù)據(jù),所以在市場(chǎng)數(shù)據(jù)庫(kù)的分析和建模方面應(yīng)用比較廣泛。

基于規(guī)則和決策樹的工具則采用規(guī)則發(fā)現(xiàn)或決策樹分類技術(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則,其

核心是某種歸納算法。這類工具通常是對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行開發(fā),生成規(guī)則和決策樹,然后

對(duì)新數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。這類工具的主要優(yōu)點(diǎn)是規(guī)則和決策樹都是可讀的。

基于模糊邏輯工具的數(shù)據(jù)挖掘方法是應(yīng)用于模糊邏輯進(jìn)行數(shù)據(jù)查詢、排序等。該工具使

用模糊概念和“最近”搜索技術(shù)的數(shù)據(jù)查詢工具,它可以讓用戶指定目標(biāo),然后對(duì)數(shù)據(jù)庫(kù)進(jìn)

行搜索,找出接近目標(biāo)的所有記錄,并對(duì)結(jié)果進(jìn)行評(píng)估。

綜合性數(shù)據(jù)挖掘工具采用了多種數(shù)據(jù)挖掘方法,這類工具一般規(guī)模較大,適合對(duì)大型數(shù)

據(jù)庫(kù)的數(shù)據(jù)進(jìn)行挖掘。綜合性數(shù)據(jù)挖掘工具的數(shù)據(jù)挖掘能力很強(qiáng),但價(jià)格昂貴,并且用戶需

要花很長(zhǎng)的時(shí)間進(jìn)行學(xué)習(xí),才能掌握這里工具的應(yīng)用。

C.按應(yīng)用范圍分類的數(shù)據(jù)挖掘工具

?專用型數(shù)據(jù)挖掘工具

主要用于某一特定領(lǐng)域。由于專用型的數(shù)據(jù)挖掘工具針對(duì)性較強(qiáng),采用了一些特殊

的算法對(duì)特定的數(shù)據(jù)集進(jìn)行處理,數(shù)據(jù)挖掘的效率較高,挖掘出的知識(shí)可靠性也高,

但是應(yīng)用范圍受到限制。

?通用型數(shù)據(jù)挖掘工具

一般不考慮所挖掘?qū)ο蟮膶?shí)際含義,只提供各種通用挖掘算法,允許用戶自定義數(shù)

據(jù)源進(jìn)行多模式挖掘。由于這種類型挖掘算法的通用性,在數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論