數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第一章商務(wù)智能基本概念一數(shù)據(jù)倉庫的發(fā)展與展望作為商務(wù)智能三大核心技術(shù)之一的數(shù)據(jù)倉庫發(fā)源于處理日常業(yè)務(wù)的數(shù)據(jù)庫。傳統(tǒng)數(shù)據(jù)庫在日常的業(yè)務(wù)處理中獲得了巨大的成功,但是對管理人員的決策分析要求卻無法滿足。因?yàn)?,管理人員常常希望能夠通過對組織中的大量數(shù)據(jù)進(jìn)行分析,了解業(yè)務(wù)的發(fā)展趨勢。而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量歷史信息。為滿足管理人員的決策分析需要,在數(shù)據(jù)庫的基礎(chǔ)上就產(chǎn)生了適應(yīng)決策分析的數(shù)據(jù)環(huán)境-數(shù)據(jù)倉庫(DW,Data Warehouse)。數(shù)據(jù)倉庫-一種能夠夠?qū)⑷粘I(yè)務(wù)處理理中所收集到到的各種數(shù)據(jù)據(jù)轉(zhuǎn)變?yōu)榫哂杏猩虡I(yè)價(jià)值信信息的技術(shù)而傳統(tǒng)數(shù)據(jù)庫系系統(tǒng)無法承擔(dān)擔(dān)起這一

2、責(zé)任任。因?yàn)閭鹘y(tǒng)統(tǒng)數(shù)據(jù)庫的處處理方式與決決策分析中的的數(shù)據(jù)需求不不相稱,導(dǎo)致致傳統(tǒng)數(shù)據(jù)庫庫無法支持決決策分析活動(dòng)動(dòng)。這些不相相稱性主要表表現(xiàn)在決策處處理中的系統(tǒng)統(tǒng)響應(yīng)問題、決策數(shù)據(jù)需需求的問題和和決策數(shù)據(jù)的的操作問題系統(tǒng)響應(yīng)問題在傳統(tǒng)的事務(wù)處處理系統(tǒng)中,用用戶對系統(tǒng)和和數(shù)據(jù)庫的要要求是數(shù)據(jù)存存取頻率要高高、操作時(shí)間間要快。用戶戶的業(yè)務(wù)處理理操作請求往往往在很短的的時(shí)間內(nèi)就能能完成,這就就使系統(tǒng)在多多用戶的情況況下,也可以以保持較高的的系統(tǒng)響應(yīng)時(shí)時(shí)間。但在決策分析析處理中,用用戶對系統(tǒng)和和數(shù)據(jù)的要求求發(fā)生了很大大的變化。有有的決策問題題處理請求,可可能會(huì)導(dǎo)致系系統(tǒng)長達(dá)數(shù)小小時(shí)的運(yùn)行。有有的決策分

3、析析問題的解決決,則需要遍遍歷數(shù)據(jù)庫中中大部分?jǐn)?shù)據(jù)據(jù)。這些操作作必然要消耗耗大量的系統(tǒng)統(tǒng)資源,這是是實(shí)時(shí)處理業(yè)業(yè)務(wù)的事務(wù)聯(lián)聯(lián)機(jī)處理系統(tǒng)統(tǒng)所無法忍受受的。據(jù)測數(shù)據(jù)需求的的問題在進(jìn)行決策分析析時(shí),需要全全面、正確的的集成數(shù)據(jù),這這些集成數(shù)據(jù)據(jù)不僅包含企企業(yè)內(nèi)部各部部門的又關(guān)上上護(hù)具,而且且還包含企業(yè)業(yè)外部的、甚甚至競爭對手手的相關(guān)數(shù)據(jù)據(jù)。但是在傳統(tǒng)數(shù)數(shù)據(jù)庫中,只只存儲(chǔ)了本部部門的事務(wù)處處理數(shù)據(jù),而而沒有與決策策問題有關(guān)的的集成數(shù)據(jù),更更沒有企業(yè)外外部數(shù)據(jù)。(數(shù)據(jù)的集成操做是有數(shù)據(jù)倉庫處理,不是由決策分析程序處理)。在決策數(shù)據(jù)的繼繼承中還需要要解決數(shù)據(jù)混混亂問題。例例如,同一實(shí)實(shí)體的屬性在在不同的應(yīng)

4、用用系統(tǒng)中,可可能有不同 的數(shù)據(jù)類型型、不同的字字段名稱。這這樣在使用這這些數(shù)據(jù)進(jìn)行行決策之前,必必須對這些數(shù)數(shù)據(jù)進(jìn)行分析析,確認(rèn)其真真實(shí)含義。在決策分析中,系系統(tǒng)常常需要要從數(shù)據(jù)庫中中抽取數(shù)據(jù)、查查找有用的數(shù)數(shù)據(jù),然后將將這些數(shù)據(jù)導(dǎo)導(dǎo)入其他文件件或數(shù)據(jù)庫中中,供用戶使使用。這些被被抽取出來的的數(shù)據(jù),有可可能被其他用用戶再次抽取取。由于這種種不加限制數(shù)數(shù)據(jù)的連續(xù)抽抽取,使企業(yè)業(yè)的數(shù)據(jù)控件件構(gòu)成了一個(gè)個(gè)錯(cuò)綜復(fù)雜的的數(shù)據(jù)“蜘蛛網(wǎng)”,即形成了了自然演化體體系結(jié)構(gòu)。在在這個(gè)數(shù)據(jù)“蜘蛛”網(wǎng)中,有可可能兩個(gè)節(jié)點(diǎn)點(diǎn)上的數(shù)據(jù)來來自于同一個(gè)個(gè)原始數(shù)據(jù)庫庫。但是由于于數(shù)據(jù)抽取的的時(shí)間、抽取取方法、抽取取級(jí)別等方面

5、面的差異,可可能使這兩個(gè)個(gè)節(jié)點(diǎn)的數(shù)據(jù)據(jù)不一致。這這樣,在對同同一個(gè)問題的的決策分析中中,由于數(shù)據(jù)據(jù)的出發(fā)基準(zhǔn)準(zhǔn)不同,而可可能導(dǎo)致截然然相反的結(jié)果果。也就是說說,由于決策策分析過程中中所形成的自自然演化體系系,造成了數(shù)數(shù)據(jù)可信度的的降低,必然然導(dǎo)致數(shù)據(jù)uu轉(zhuǎn)化為信息息的不可行與與不可信,使使企業(yè)無法將將大量寶貴的的信息資源轉(zhuǎn)轉(zhuǎn)化為企業(yè)的的核心競爭力力。數(shù)據(jù)的集成還涉涉及外部數(shù)據(jù)據(jù)與非結(jié)構(gòu)化化數(shù)據(jù)的應(yīng)用用問題。決策策分析中經(jīng)常常要用到系統(tǒng)統(tǒng)外數(shù)據(jù),如如行業(yè)的統(tǒng)計(jì)計(jì)報(bào)告,管理理咨詢公司的的市場調(diào)查分分析數(shù)據(jù)。這這些數(shù)據(jù)必須須經(jīng)過格式、類類型的轉(zhuǎn)換,曾曾能被決策系系統(tǒng)應(yīng)用。在在決策分析系系統(tǒng)中要求數(shù)數(shù)

6、據(jù)能夠進(jìn)行行定期的、及及時(shí)的更新,數(shù)數(shù)據(jù)的更新期期可能是一天天,也可能是是一周,而傳傳統(tǒng)數(shù)據(jù)庫缺缺乏數(shù)據(jù)動(dòng)態(tài)態(tài)更新的能力力。為完成事務(wù)處理理的需要,傳傳統(tǒng)數(shù)據(jù)庫中中的數(shù)據(jù)一般般只保留當(dāng)前前的數(shù)據(jù)。但但是對于決策策分析而言,歷歷史上的、長長期的數(shù)據(jù)卻卻具有重要的的意義。利用用歷史數(shù)據(jù)可可對未來的發(fā)發(fā)展進(jìn)行正確確的預(yù)測,但但是傳統(tǒng)數(shù)據(jù)據(jù)庫卻無法長長期保留大量量的歷史數(shù)據(jù)據(jù)。在決策分析過程程中,決策人人員往往需要要的并不是非非常詳細(xì)的數(shù)數(shù)據(jù),而是一一些經(jīng)過匯總總、概要的數(shù)數(shù)據(jù)。但在傳傳統(tǒng)數(shù)據(jù)庫中中為支持日常常的事務(wù)處理理需要,只保保留一些非常常詳細(xì)的數(shù)據(jù)據(jù),這對決策策分析十分不不利。策數(shù)據(jù)的操作問問

7、題在對數(shù)據(jù)的操作作方式上,決決策分析人員員則往往希望望以專業(yè)用戶戶的身份,而而不是參數(shù)用用戶的身份對對數(shù)據(jù)進(jìn)行操操作。他們希希望能夠用各各種工具對數(shù)數(shù)據(jù)進(jìn)行多種種形式的操作作,希望數(shù)據(jù)據(jù)操作的結(jié)果果能以商務(wù)智智能的方式表表達(dá)出來。而而傳統(tǒng)的業(yè)務(wù)務(wù)處理系統(tǒng)智智能以標(biāo)準(zhǔn)的的固定報(bào)表方方式為用戶提提供信息,使使用戶很難理理解信息的內(nèi)內(nèi)涵,無法用用于管理決策策。由于系統(tǒng)響應(yīng)、決決策數(shù)據(jù)需求求和決策數(shù)據(jù)據(jù)操作等問題題的影響,使使企業(yè)無法使使用現(xiàn)有的事事務(wù)處理系統(tǒng)統(tǒng)去解決決策策分析的需要要。因此,決決策分析需要要一個(gè)能夠不不受傳統(tǒng)事務(wù)務(wù)處理的約束束,能夠高效效處理決策分分析數(shù)據(jù)的環(huán)環(huán)境,由此而而產(chǎn)色和難過

8、過了可以滿足足這一要求的的數(shù)據(jù)存儲(chǔ)和和數(shù)據(jù)組織技技術(shù)-數(shù)據(jù)據(jù)倉庫。數(shù)據(jù)倉庫與數(shù)據(jù)據(jù)庫的對比表表對比內(nèi)容數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的的、歸納的、計(jì)計(jì)算的數(shù)據(jù)數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程程序、重復(fù)處處理面向主題域、管管理決策分析析的應(yīng)用數(shù)據(jù)特性動(dòng)態(tài)變化、按字字段更新靜態(tài)、不能直接接更新、只定定時(shí)添加數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)復(fù)雜、適合操操作計(jì)算簡單、適合分析析使用頻率高中到低數(shù)據(jù)訪問量每個(gè)事務(wù)只訪問問少量記錄有的事務(wù)可能要要訪問大量記記錄對響應(yīng)時(shí)間的要要求以秒為單位計(jì)量量以秒、分鐘、甚甚至小時(shí)為計(jì)計(jì)量單位二數(shù)據(jù)倉庫的的定義與基本本特性數(shù)據(jù)倉庫具有這這樣一些重要要的特性:面面向主題性、數(shù)據(jù)的集成

9、成性、數(shù)據(jù)的時(shí)變變性、數(shù)據(jù)的非易易失性、數(shù)據(jù)的集合合性和支持決策作作用。面向主題性面向主題性表示示了數(shù)據(jù)倉庫庫中數(shù)據(jù)組織織的基本原則則,數(shù)據(jù)倉庫庫中的所有數(shù)數(shù)據(jù)都是圍繞繞著某一主題題組織展開的的。從信息管管理的角度看看,主題就是是在一個(gè)較高高的管理層次次上對信息系系統(tǒng)中的數(shù)據(jù)據(jù)按照某一具具體的管理對對象進(jìn)行綜合合、歸類所形形成的分析對對象。從數(shù)據(jù)據(jù)組織的角度度看,主題就就是一些數(shù)據(jù)據(jù)集合,這些些數(shù)據(jù)集合對對分析對象做做了比較完整整的、一致的的描述,這種種描述不僅涉涉及數(shù)據(jù)自身身,并且還涉涉及數(shù)據(jù)之間間的聯(lián)系。數(shù)據(jù)集成性數(shù)據(jù)倉庫的集成成性就是指根根據(jù)決策分析析的要求,將將分散于各處處的元數(shù)據(jù)進(jìn)進(jìn)

10、行抽取、篩選、清理、綜合等工作,最最終集成到數(shù)數(shù)據(jù)倉庫中。首先要從源數(shù)據(jù)據(jù)庫中挑選出數(shù)據(jù)倉倉庫所需要的的數(shù)據(jù);然后后將這些來自自不同數(shù)據(jù)庫庫中的數(shù)據(jù)按按照某一標(biāo)準(zhǔn)準(zhǔn)進(jìn)行統(tǒng)一,即即將不同數(shù)據(jù)據(jù)源中數(shù)據(jù)的的單位、字長長與內(nèi)容按照照數(shù)據(jù)倉庫的的要求統(tǒng)一起起來,消除元元數(shù)據(jù)中字段段的同名異義義、異名同義義現(xiàn)象,這些些工作統(tǒng)稱為為數(shù)據(jù)的清理理;在將元數(shù)數(shù)據(jù)加載進(jìn)數(shù)數(shù)據(jù)倉庫后,即即元數(shù)據(jù)裝入入數(shù)據(jù)倉庫后后,還需要將將數(shù)據(jù)倉庫中中的數(shù)據(jù)進(jìn)行行某種程度的的綜合,經(jīng)根據(jù)據(jù)決策分析的的需要對這些些數(shù)據(jù)進(jìn)行概概括、聚集處處理。數(shù)據(jù)的時(shí)變性數(shù)據(jù)倉庫必須能能夠不斷捕捉捉主題的變化化數(shù)據(jù),將那那些變化的數(shù)數(shù)據(jù)追加到數(shù)數(shù)據(jù)

11、倉庫中去去,也就是說說在數(shù)據(jù)倉庫庫中不斷生成成主題的新快快照,以滿足足決策分析的的需要。數(shù)據(jù)倉庫數(shù)據(jù)的的時(shí)變性,不不僅反映在數(shù)數(shù)據(jù)的追加方方面,而且還還反映在數(shù)據(jù)據(jù)的刪除上。盡盡管數(shù)據(jù)倉庫庫中的數(shù)據(jù)可可以長期保留留,但是在數(shù)數(shù)據(jù)倉庫中的的數(shù)據(jù)存儲(chǔ)期期限還是有限限的,一般保保留5-100年,在超過過期限以后,也也需要?jiǎng)h除。數(shù)據(jù)倉庫中數(shù)據(jù)據(jù)的時(shí)變性還還表現(xiàn)在概括括數(shù)據(jù)的變化化上。數(shù)據(jù)倉倉庫中的概括括數(shù)據(jù)是與時(shí)間有關(guān)的,概概括數(shù)據(jù)需要要按照時(shí)間進(jìn)行綜合合,按照時(shí)間間進(jìn)行抽取。因因此,在數(shù)據(jù)據(jù)倉庫中的概概括數(shù)據(jù)必須須隨著時(shí)間的的變化而重新新進(jìn)行概括處處理。數(shù)據(jù)的非易失性性數(shù)據(jù)倉庫中的數(shù)數(shù)據(jù)不進(jìn)行更更新

12、處理,而而是一旦數(shù)據(jù)據(jù)進(jìn)入數(shù)據(jù)倉倉庫以后,就就會(huì)保持一個(gè)個(gè)相當(dāng)長的時(shí)時(shí)間。數(shù)據(jù)在在追加以后,一一般不再修改改。數(shù)據(jù)的非非易失性,可可以支持不同同的用戶在不不同的時(shí)間查查詢、分析相相同的問題時(shí)時(shí),獲得同一一結(jié)果。避免免了以往決策策分析中面對對同一問題,因因?yàn)閿?shù)據(jù)的變變化而導(dǎo)致結(jié)結(jié)論不同的尷尷尬。數(shù)據(jù)的集合性目前數(shù)據(jù)倉庫所所采用的數(shù)據(jù)據(jù)集合方式主主要是以多為為數(shù)據(jù)庫方式式進(jìn)行存儲(chǔ)的的多維模式、以以關(guān)系數(shù)據(jù)庫庫方式進(jìn)行存存儲(chǔ)的關(guān)系模模式或以兩者者相結(jié)合的方方式進(jìn)行存儲(chǔ)儲(chǔ)的混合模式式。支持決策作用數(shù)據(jù)倉庫組織的的根本目的在在于對決策的的支持。高層層的企業(yè)決策策者、中層的的管理者和基基層的業(yè)務(wù)處處理這等

13、不同同層次的管理理人員均可以以利用數(shù)據(jù)倉倉庫進(jìn)行決策策分析,提高高管理決策的的質(zhì)量。企業(yè)各級(jí)管理理人員可以利利用數(shù)據(jù)倉庫庫進(jìn)行各種管管理決策的分分析,利用自自己所特有的的、敏銳的商商業(yè)洞察力和和業(yè)務(wù)知識(shí)從從貌似平淡的的數(shù)據(jù)中敏銳銳地發(fā)現(xiàn)眾多多的上級(jí)。數(shù)數(shù)據(jù)倉庫為管管理者利用數(shù)數(shù)據(jù)進(jìn)行管理理決策分析提提供了極大的的便利。三數(shù)據(jù)倉庫的的體系結(jié)構(gòu)數(shù)據(jù)倉庫體系結(jié)結(jié)構(gòu)建立在其其概念結(jié)構(gòu)基礎(chǔ)礎(chǔ)之上,并根根據(jù)商務(wù)智能能的不同應(yīng)用用情況可以選選擇虛擬數(shù)據(jù)據(jù)倉庫結(jié)構(gòu)、數(shù)據(jù)集市結(jié)結(jié)構(gòu)、單一數(shù)據(jù)倉倉庫結(jié)構(gòu)和分布式數(shù)據(jù)據(jù)倉庫結(jié)構(gòu)。數(shù)據(jù)倉庫的概念念結(jié)構(gòu)數(shù)據(jù)倉庫應(yīng)該包包含:數(shù)據(jù)源源、數(shù)據(jù)準(zhǔn)備區(qū)區(qū)、數(shù)據(jù)倉庫數(shù)數(shù)據(jù)庫、數(shù)據(jù)集

14、市/知識(shí)挖掘庫庫及各種管理理工具和應(yīng)用用工具。數(shù)據(jù)據(jù)倉庫建立以以后,首先要要從數(shù)據(jù)源中中抽取所需要要的數(shù)據(jù)到數(shù)數(shù)據(jù)準(zhǔn)備區(qū),在在數(shù)據(jù)準(zhǔn)備區(qū)區(qū)中經(jīng)過數(shù)據(jù)據(jù)的凈化處理理,再加載到到數(shù)據(jù)倉庫數(shù)數(shù)據(jù)庫中,最最后在根據(jù)用用戶的需求將將數(shù)據(jù)發(fā)布到到數(shù)據(jù)集市/知識(shí)挖掘庫庫中。當(dāng)用戶戶使用數(shù)據(jù)倉倉庫時(shí),可以以通過OLAAP等數(shù)據(jù)倉倉庫的應(yīng)用工工具向數(shù)據(jù)集集市/知識(shí)挖挖掘庫或數(shù)據(jù)據(jù)倉庫進(jìn)行決決策查詢分析析或知識(shí)挖掘掘。如圖業(yè)務(wù)系統(tǒng)外部數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備區(qū)業(yè)務(wù)系統(tǒng)外部數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)集市/數(shù)據(jù)挖掘庫數(shù)據(jù)集市/數(shù)據(jù)挖掘庫應(yīng)用工具應(yīng)用工具管理工具用戶用戶數(shù)據(jù)集市結(jié)構(gòu)或或稱為主題結(jié)結(jié)構(gòu)的數(shù)據(jù)倉倉庫是按照主主

15、題進(jìn)行構(gòu)思思所形成的數(shù)數(shù)據(jù)倉庫,它它沒有一個(gè)獨(dú)獨(dú)立的數(shù)據(jù)倉倉庫。系統(tǒng)的的數(shù)據(jù)不存儲(chǔ)儲(chǔ)在統(tǒng)一數(shù)據(jù)據(jù)倉庫中,每每個(gè)主題有自自己的物理存存儲(chǔ)區(qū)。但是是不同的主題題數(shù)據(jù)倉庫在在設(shè)計(jì)時(shí)采用用了統(tǒng)一企業(yè)業(yè)數(shù)據(jù)模型,這這就保證了不不同主題數(shù)據(jù)據(jù)倉庫可以ccia用相同同的字段結(jié)構(gòu)構(gòu)、編碼和關(guān)關(guān)鍵字,可以以保證不同主主題數(shù)據(jù)倉庫庫的聯(lián)合查詢詢。四數(shù)據(jù)倉庫的的參照結(jié)構(gòu)數(shù)據(jù)倉庫的參照照結(jié)構(gòu)由不同同的層次組成成,這些層次次包含了數(shù)據(jù)據(jù)倉庫的基本本功能層、數(shù)據(jù)倉庫的的管理層和數(shù)據(jù)倉庫的的環(huán)境支持層層。數(shù)據(jù)倉庫的基本本功能層包含含:數(shù)據(jù)抽取取,數(shù)據(jù)篩選選、清理,清清理后的數(shù)據(jù)據(jù)加載,設(shè)立立數(shù)據(jù)及時(shí),完完成數(shù)據(jù)倉庫庫的查詢

16、、決決策分析和知知識(shí)的挖掘等等操作。數(shù)據(jù)倉庫的管理理層分成數(shù)據(jù)據(jù)管理與元數(shù)數(shù)據(jù)管理兩部部分,主要負(fù)負(fù)責(zé)對數(shù)據(jù)倉倉庫中的數(shù)據(jù)據(jù)抽取、清理理、加載、更更新等操作進(jìn)進(jìn)行管理。數(shù)據(jù)倉庫基本功功能層包含數(shù)據(jù)源、數(shù)數(shù)據(jù)準(zhǔn)備區(qū)數(shù)數(shù)據(jù)倉庫功能能結(jié)構(gòu)、數(shù)據(jù)據(jù)集市知識(shí)識(shí)挖掘庫以及及數(shù)據(jù)倉庫的的數(shù)據(jù)存取與與使用功能部部分,如圖數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉庫數(shù)據(jù)集市/知識(shí)識(shí)挖掘庫數(shù)據(jù)倉庫的數(shù)據(jù)據(jù)存取與使用用數(shù)據(jù)倉庫的數(shù)據(jù)據(jù)源包含業(yè)務(wù)數(shù)據(jù)、歷歷史數(shù)據(jù)、辦辦公數(shù)據(jù)、WWeb數(shù)據(jù)、外外部數(shù)據(jù)及數(shù)數(shù)據(jù)源元數(shù)據(jù)據(jù),如圖業(yè)務(wù)數(shù)據(jù)歷史數(shù)據(jù)辦公數(shù)據(jù)Web數(shù)據(jù)外部數(shù)據(jù)數(shù)據(jù)源元數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)是指從從組織目前正正在運(yùn)行的業(yè)業(yè)務(wù)處理系統(tǒng)統(tǒng)那里收集到

17、到,并保存在在業(yè)務(wù)處理系系統(tǒng)數(shù)據(jù)庫中中的數(shù)據(jù)。歷史數(shù)據(jù)是指組組織在長期的的信息處理過過程中所積累累下來的數(shù)據(jù)據(jù),這些數(shù)據(jù)據(jù)一般進(jìn)行了了脫機(jī)處理,以以磁帶或其他他脫機(jī)存儲(chǔ)設(shè)設(shè)施保存,對對業(yè)務(wù)系統(tǒng)的的當(dāng)前運(yùn)行不不起作用。這這些數(shù)據(jù)一般般要根據(jù)倉庫庫模型和用戶戶的決策分析析需求來確定定是否加載進(jìn)進(jìn)數(shù)據(jù)倉庫辦公數(shù)據(jù)主要是是指組織內(nèi)部部的辦公系統(tǒng)統(tǒng)數(shù)據(jù),這些些數(shù)據(jù)分電子子數(shù)據(jù)和非電電子數(shù)據(jù)兩種種。非電子數(shù)數(shù)據(jù)主要指那那些文件、通通知、會(huì)議紀(jì)紀(jì)要等公文。辦辦公數(shù)據(jù)源的的數(shù)據(jù)結(jié)構(gòu)十十分復(fù)雜,這這就給數(shù)據(jù)倉倉庫的數(shù)據(jù)抽抽取、加載增增加了很大的的難度。有時(shí)時(shí)甚至需要人人工處理以后后,才能加載載到數(shù)據(jù)倉庫庫。辦公

18、數(shù)據(jù)據(jù)在數(shù)據(jù)倉庫庫中常常用于于支持對跨部部門的決策分分析。對于辦公數(shù)據(jù)據(jù)中非電子數(shù)數(shù)據(jù)的抽取和和加載首先要要利用掃描儀儀將書面文檔檔轉(zhuǎn)變?yōu)殡娮幼訄D像,然后后利用可是文文字識(shí)別軟件件(OCR)將將圖像文件轉(zhuǎn)轉(zhuǎn)換為文本文文件,最后還還要?jiǎng)?chuàng)建能夠夠描述和組織織文檔內(nèi)部信信息的元數(shù)據(jù)據(jù)。經(jīng)過這些些處理以后,非非電子數(shù)據(jù)才才能加載到數(shù)數(shù)據(jù)倉庫。Web數(shù)據(jù)是企企業(yè)通過innterneet所獲得的的數(shù)據(jù),則和和諧數(shù)據(jù)可以以通過企業(yè)的的電子商務(wù)系系統(tǒng)獲取,也也可以通過網(wǎng)網(wǎng)絡(luò)調(diào)查獲取取。Web數(shù)據(jù)大大多是HTMML格式,需需要將其轉(zhuǎn)換換成數(shù)據(jù)倉庫庫的統(tǒng)一格式式后才能家再再進(jìn)數(shù)據(jù)倉庫庫。外部數(shù)據(jù)是指那那些不為企業(yè)

19、業(yè)所操作、所所擁有、所控控制的數(shù)據(jù)。這這些數(shù)據(jù)有的的是電子形式式的,如證券券市場的證券券數(shù)據(jù),或市市場咨詢部門門的研究報(bào)告告。有的是以以電子形式的的,如報(bào)刊、政政府公告等。數(shù)據(jù)源元數(shù)據(jù)屬屬于元數(shù)據(jù)管管理層范圍,在在數(shù)據(jù)倉庫哦哦那廣州的所所有數(shù)據(jù)都需需要通過元數(shù)數(shù)據(jù)管理層來來進(jìn)行管理、控控制。源數(shù)據(jù)據(jù)的元數(shù)據(jù)描描述了關(guān)于源源數(shù)據(jù)的一些些說明,包含含了源數(shù)據(jù)的的來源,源數(shù)數(shù)據(jù)的名稱、源源數(shù)據(jù)的定義義、源數(shù)據(jù)的的創(chuàng)建時(shí)間等等對源數(shù)據(jù)進(jìn)進(jìn)行管理所需需要的信息。源源數(shù)據(jù)的來源源說明源數(shù)據(jù)是從哪哪一個(gè)系統(tǒng)、哪哪一個(gè)歷史數(shù)數(shù)據(jù)、哪一個(gè)個(gè)辦公數(shù)據(jù)、哪哪一個(gè)Webb頁上、哪一一個(gè)外部系統(tǒng)統(tǒng)抽取來的。源源數(shù)據(jù)的名

20、稱稱,用以說明明源數(shù)據(jù)現(xiàn)在在和過去的名名稱。源數(shù)據(jù)據(jù)的定義,用用以說明源數(shù)數(shù)據(jù)在數(shù)據(jù)倉倉庫中的作用用、用途及數(shù)數(shù)據(jù)類型,長長度等基本屬屬性。數(shù)據(jù)的的變化時(shí)間是是指源數(shù)據(jù)在在數(shù)據(jù)源的創(chuàng)創(chuàng)建時(shí)間和在在數(shù)據(jù)倉庫中中的創(chuàng)建時(shí)間間及變化時(shí)間間。這些信息息主要用于對對源數(shù)據(jù)的管管理;數(shù)據(jù)準(zhǔn)備區(qū)由于數(shù)據(jù)倉庫的的數(shù)據(jù)來源十十分復(fù)雜,這這些數(shù)據(jù)在進(jìn)進(jìn)入數(shù)據(jù)倉庫庫之前常常需需要在數(shù)據(jù)準(zhǔn)準(zhǔn)備區(qū)內(nèi)進(jìn)行行篩選、清理理等數(shù)據(jù)的標(biāo)標(biāo)準(zhǔn)化處理。因因此,數(shù)據(jù)準(zhǔn)準(zhǔn)備區(qū)的功能能結(jié)構(gòu)部分由由數(shù)據(jù)的標(biāo)準(zhǔn)化化處理、數(shù)據(jù)的過濾濾與匹配、數(shù)據(jù)的凈化化處理、標(biāo)明數(shù)據(jù)的時(shí)時(shí)間戳、確認(rèn)數(shù)據(jù)質(zhì)質(zhì)量與源數(shù)據(jù)抽取取和創(chuàng)建等操操作組成。 數(shù)據(jù)的標(biāo)準(zhǔn)化處處

21、理元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建數(shù)據(jù)的過濾與匹匹配數(shù)據(jù)的凈化處理理標(biāo)明數(shù)據(jù)的時(shí)間間戳確認(rèn)數(shù)據(jù)質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)化處處理主要是將將同名不同內(nèi)內(nèi)容、同內(nèi)容容不同名、同同名同內(nèi)容但但不同結(jié)構(gòu)的的數(shù)據(jù)進(jìn)行統(tǒng)統(tǒng)一處理。例例如,在不同同數(shù)據(jù)源中,關(guān)關(guān)于銷售地點(diǎn)點(diǎn)“上海市”,有的系統(tǒng)統(tǒng)用了“上?!?,有的用了了“上海市”,有的甚至至用了“滬”等值,但是是它們的實(shí)際際含義都是一一致的,為此此需要對這些些值進(jìn)行統(tǒng)一一處理,這樣樣才不至于導(dǎo)導(dǎo)致數(shù)據(jù)倉庫庫的應(yīng)用混亂亂。數(shù)據(jù)的過濾與匹匹配主要是對對進(jìn)入數(shù)據(jù)倉倉庫的數(shù)據(jù)按按照用戶的需需要進(jìn)行篩選選,將不需要要的數(shù)據(jù)從數(shù)數(shù)據(jù)源中剔除除,而留下的的數(shù)據(jù)要能夠夠與數(shù)據(jù)倉庫庫用戶的需求求相匹配

22、。數(shù)據(jù)的凈化處理理主要是對準(zhǔn)準(zhǔn)備加載到數(shù)數(shù)據(jù)倉庫中的的數(shù)據(jù)進(jìn)行正正確性判斷,將將那些數(shù)據(jù)內(nèi)內(nèi)容錯(cuò)誤、格格式錯(cuò)誤或類類型錯(cuò)誤的數(shù)數(shù)據(jù)進(jìn)行修正正、凈化處理理。例如,數(shù)數(shù)據(jù)倉庫中的的客戶郵政編編碼是字符類類型,但在有有的數(shù)據(jù)源中中卻以數(shù)字類類型表示。此此時(shí),就需要要將其轉(zhuǎn)換為為字符類型。表明數(shù)據(jù)的時(shí)間間戳,由于在在數(shù)據(jù)倉庫重重要進(jìn)行數(shù)據(jù)據(jù)的概括,以以分析事務(wù)的的發(fā)展趨勢。而而數(shù)據(jù)的概括括與發(fā)展趨勢勢的分析,都都需要知名數(shù)數(shù)據(jù)的時(shí)間屬屬性。因?yàn)閿?shù)數(shù)據(jù)的概括往往往是基于時(shí)時(shí)間進(jìn)行的,而而趨勢的分析析也是以時(shí)間間為基軸描繪繪的。因此在在將數(shù)據(jù)夾加加載到數(shù)據(jù)倉倉庫之前必須須完成數(shù)據(jù)的的時(shí)間戳設(shè)置置,使時(shí)間具

23、具有時(shí)間屬性性。確認(rèn)數(shù)據(jù)質(zhì)量,數(shù)數(shù)據(jù)倉庫中數(shù)數(shù)據(jù)質(zhì)量的高高低是數(shù)據(jù)倉倉庫能否成功功的關(guān)鍵因素素之一。例如如,在對客戶戶進(jìn)行郵寄廣廣告促銷時(shí),由由于客戶名稱稱的錯(cuò)誤,可可能會(huì)激怒客客戶,導(dǎo)致客客戶轉(zhuǎn)向其他他供應(yīng)商而造造成客戶的流流失。有的又又會(huì)因客戶地地址的錯(cuò)誤耽耽誤時(shí)間,造造成郵寄廣告告費(fèi)的浪費(fèi)。這這些信息應(yīng)用用的失敗,都都是由于數(shù)據(jù)據(jù)質(zhì)量的低劣劣所造成的。因此,需要在數(shù)據(jù)準(zhǔn)備區(qū)通過手工的方式或軟件自動(dòng)檢測的方式來完成對數(shù)據(jù)質(zhì)量的確認(rèn)。元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建,在數(shù)據(jù)據(jù)的求精過程程中,還需要要從數(shù)據(jù)源中中確定這些源源數(shù)據(jù)的元數(shù)數(shù)據(jù)內(nèi)容,完完成元數(shù)據(jù)的的名稱與定義義,以及其有有關(guān)描述,為為今后數(shù)據(jù)倉倉

24、庫的管理提提供基礎(chǔ)。數(shù)據(jù)倉庫功能結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫的功能能結(jié)構(gòu)部分有有數(shù)據(jù)重整、數(shù)據(jù)倉庫創(chuàng)創(chuàng)建和元數(shù)據(jù)管理3部部分組成,如如圖數(shù)據(jù)重整數(shù)據(jù)倉庫創(chuàng)建元數(shù)據(jù)管理數(shù)據(jù)集成與分解解數(shù)據(jù)倉庫的建模模元數(shù)據(jù)瀏覽與導(dǎo)導(dǎo)航數(shù)據(jù)概括與聚集集數(shù)據(jù)的概括數(shù)據(jù)預(yù)算與推導(dǎo)導(dǎo)數(shù)據(jù)的聚集元數(shù)據(jù)的創(chuàng)建數(shù)據(jù)翻譯與格式式化數(shù)據(jù)的調(diào)整與確確認(rèn)數(shù)據(jù)轉(zhuǎn)換與映射射建立結(jié)構(gòu)化查詢詢創(chuàng)建詞匯表數(shù)據(jù)重整是為使使數(shù)據(jù)倉庫能能夠更好地為為用戶服務(wù)所所進(jìn)行的一些些操作。數(shù)據(jù)集成與分解解。對來自不不同系統(tǒng)的數(shù)數(shù)據(jù)進(jìn)行集成成,創(chuàng)建新的的數(shù)據(jù)。有時(shí)時(shí)按照數(shù)據(jù)處處理的需要,在在將數(shù)據(jù)存儲(chǔ)儲(chǔ)到數(shù)據(jù)倉庫庫過程中,可可能要將一個(gè)個(gè)表中的數(shù)據(jù)據(jù)分解成數(shù)據(jù)據(jù)倉庫的兩個(gè)個(gè)

25、或多個(gè)數(shù)據(jù)據(jù)塊。數(shù)據(jù)的概括與聚聚集。就是根根據(jù)某一屬性性將數(shù)據(jù)進(jìn)行行匯總。例如如,客戶每天天的采購就是是特定客戶在在一天內(nèi)的所所有采購總和和。數(shù)據(jù)的概概括處理就要要根據(jù)用戶使使用數(shù)據(jù)倉庫庫的需要,預(yù)預(yù)先進(jìn)行數(shù)據(jù)據(jù)的匯總與疊疊加操作,為為使用數(shù)據(jù)倉倉庫提供便利利。數(shù)據(jù)的預(yù)算與推推導(dǎo)。為提高高數(shù)據(jù)倉庫信信息使用者的的使用效率,在在數(shù)據(jù)倉庫中中需要事先對對信息使用者者的常規(guī)操作作進(jìn)行預(yù)先設(shè)設(shè)置。即無須須用戶干預(yù)就就可以實(shí)現(xiàn)數(shù)數(shù)據(jù)的預(yù)算和和推導(dǎo)。作為為數(shù)據(jù)預(yù)算和和推導(dǎo)的算法法應(yīng)該作為數(shù)數(shù)據(jù)倉庫的元元數(shù)據(jù)進(jìn)行存存儲(chǔ)和管理。數(shù)據(jù)的轉(zhuǎn)換與映映射、數(shù)據(jù)的的翻譯與格式式化(跟數(shù)據(jù)據(jù)準(zhǔn)備區(qū)的操操作類似)數(shù)據(jù)倉庫創(chuàng)

26、建-重重點(diǎn)作為數(shù)據(jù)倉庫的的核心功能,應(yīng)應(yīng)該完成數(shù)據(jù)據(jù)倉庫的建模模、數(shù)據(jù)的概概括、數(shù)據(jù)的的聚集、數(shù)據(jù)據(jù)的調(diào)整與確確認(rèn),并建立立結(jié)構(gòu)化查詢詢。數(shù)據(jù)倉庫的建模模。從已經(jīng)創(chuàng)創(chuàng)建的數(shù)據(jù)模模型中導(dǎo)出數(shù)數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)模型(星星型模型或雪雪花模型),如如果沒有數(shù)據(jù)據(jù)模型,就需需要構(gòu)造新的的數(shù)據(jù)模型。在在數(shù)據(jù)倉庫模模型的書籍過過程中,要完完成數(shù)據(jù)的分分割、主題域域和粒度的確確認(rèn),實(shí)際數(shù)數(shù)據(jù)庫的設(shè)計(jì)計(jì)模型和數(shù)據(jù)據(jù)倉庫的物理理數(shù)據(jù)庫模式式的定型等工工作。數(shù)據(jù)的概括。根根據(jù)用戶的需需要,從初步步的概括數(shù)據(jù)據(jù)中創(chuàng)建用戶戶所需的高度度概括數(shù)據(jù)。數(shù)據(jù)的聚集。從從擁有大批量量數(shù)據(jù)的數(shù)據(jù)據(jù)倉庫中進(jìn)行行查詢分析,是是一個(gè)非常費(fèi)

27、費(fèi)時(shí)的操作。例例如,在一個(gè)個(gè)有10000個(gè)產(chǎn)品和110萬個(gè)客戶戶的數(shù)據(jù)倉庫庫中,為執(zhí)行行一個(gè)概括性性查詢,就要要涉及1億條條記錄,需要要較長的時(shí)間間才能完成,這這對經(jīng)常查詢詢的信息使用用者而言是無無法接受的。因因此,在數(shù)據(jù)據(jù)倉庫中,常常常要根據(jù)一一些典型的查查詢需求,對對數(shù)據(jù)倉庫中中數(shù)據(jù)進(jìn)行聚聚集處理。例例如,可以對對產(chǎn)品的地區(qū)區(qū)分布、品牌牌的分布進(jìn)行行事先聚集,只只有這樣才能能使用戶在數(shù)數(shù)據(jù)倉庫的使使用中每次都都感受到使用用時(shí)間的一致致性和快速性性。數(shù)據(jù)的調(diào)整與確確認(rèn)。在數(shù)據(jù)據(jù)完成概括聚聚集以后,需需要對概括與與聚集后的數(shù)數(shù)據(jù)進(jìn)行確認(rèn)認(rèn),如果數(shù)據(jù)據(jù)概括、聚集集的效果不好好,還需要進(jìn)進(jìn)行一些調(diào)

28、整整,以保證數(shù)數(shù)據(jù)倉庫的使使用效果建立結(jié)構(gòu)化查詢詢。為提高一一些結(jié)構(gòu)化查查詢,可以預(yù)預(yù)定義這些查查詢,并將這這些結(jié)構(gòu)化查查詢結(jié)果作為為元數(shù)據(jù)存儲(chǔ)儲(chǔ)在元數(shù)據(jù)庫庫中。當(dāng)用戶戶進(jìn)行數(shù)據(jù)倉倉庫的查詢時(shí)時(shí),只要從元元數(shù)據(jù)庫中取取回就可,這這樣可以大大大提高數(shù)據(jù)倉倉庫的運(yùn)行效效率。元數(shù)據(jù)管理-重點(diǎn)點(diǎn)(元數(shù)據(jù)有有這么重要嗎嗎?wwqq)數(shù)據(jù)倉庫的功能能能夠發(fā)揮在在很大的程度度上取決于元元數(shù)據(jù)的管理理功能,元數(shù)數(shù)據(jù)管理功能能的強(qiáng)弱決定定了數(shù)據(jù)倉庫庫功能發(fā)揮的的好壞。元數(shù)數(shù)據(jù)管理功能能主要包含元元數(shù)據(jù)瀏覽與與導(dǎo)航、元數(shù)數(shù)據(jù)的創(chuàng)建和和創(chuàng)建詞匯表表。元數(shù)據(jù)瀏覽與導(dǎo)導(dǎo)航。數(shù)據(jù)倉倉庫的建設(shè)者者在數(shù)據(jù)倉庫庫的建設(shè)和維維護(hù)

29、中需要利利用數(shù)據(jù)倉庫庫的元數(shù)據(jù)瀏瀏覽和導(dǎo)航功功能,而且數(shù)數(shù)據(jù)倉庫用戶戶在使用數(shù)據(jù)據(jù)倉庫時(shí)也需需要利用元數(shù)數(shù)據(jù)的瀏覽及及導(dǎo)航功能對對數(shù)據(jù)倉庫所所提供的各種種決策輔助信信息加以說明明。元數(shù)據(jù)創(chuàng)建。在在數(shù)據(jù)重整過過程中需要從從集成數(shù)據(jù)、概概括數(shù)據(jù)和衍衍生數(shù)據(jù)中捕捕獲元數(shù)據(jù)。確確定數(shù)據(jù)的粒粒度和分割程程度、數(shù)據(jù)的的翻譯和轉(zhuǎn)移移規(guī)則,捕獲獲映射規(guī)則及及數(shù)據(jù)源和數(shù)數(shù)據(jù)倉庫之間間的映射關(guān)系系。這些都是是元數(shù)據(jù)創(chuàng)建建的內(nèi)容。創(chuàng)建詞匯表。在在創(chuàng)建數(shù)據(jù)倉倉庫的過程中中,需要根據(jù)據(jù)所捕獲的元元數(shù)據(jù)建立元元數(shù)據(jù)的詞匯匯表。在詞匯匯表中一般需需要包含元數(shù)數(shù)據(jù)的名稱,別別名,簡述,創(chuàng)創(chuàng)建時(shí)間,上上次更新時(shí)間間,關(guān)鍵字,數(shù)

30、數(shù)據(jù)來源,轉(zhuǎn)轉(zhuǎn)移/轉(zhuǎn)換信信息,概括或或推到算法等等內(nèi)容。數(shù)據(jù)集市/知識(shí)識(shí)挖掘庫數(shù)據(jù)集市/知識(shí)識(shí)挖掘庫的功功能結(jié)構(gòu)與數(shù)數(shù)據(jù)倉庫的功功能結(jié)構(gòu)極為為相似,如圖圖求精與重整數(shù)據(jù)集市/知識(shí)識(shí)挖掘庫創(chuàng)建建元數(shù)據(jù)管理過濾與匹配建模元數(shù)據(jù)瀏覽與導(dǎo)導(dǎo)航集成與分割概括概括與聚集聚集元數(shù)據(jù)的抽取與與創(chuàng)建預(yù)算與推導(dǎo)調(diào)整與確認(rèn)標(biāo)明時(shí)間維的數(shù)數(shù)據(jù)源建立結(jié)構(gòu)化查詢詢創(chuàng)建詞匯表只是數(shù)據(jù)集市設(shè)設(shè)立的目的在在于為某一部部門或某一領(lǐng)領(lǐng)域的用戶提提供服務(wù),而而設(shè)立數(shù)據(jù)倉倉庫的目的則則在于為企業(yè)業(yè)全體用戶提提供服務(wù)。因因此,可以將將數(shù)據(jù)集市/知識(shí)挖掘庫庫看成是數(shù)據(jù)據(jù)倉庫的一個(gè)個(gè)邏輯上或物物理上的子集集。數(shù)據(jù)倉庫的存取取與使用數(shù)據(jù)倉庫的

31、存取取與使用結(jié)構(gòu)構(gòu)主要用于實(shí)實(shí)現(xiàn)數(shù)據(jù)倉庫庫的最終功能能,為數(shù)據(jù)倉倉庫的最終用用戶提供進(jìn)行行決策分析和和知識(shí)挖掘的的功能。為達(dá)達(dá)到這一目的的,數(shù)據(jù)倉庫庫的數(shù)據(jù)存取取與使用結(jié)構(gòu)構(gòu)應(yīng)該包含數(shù)數(shù)據(jù)倉庫存取取與檢索、數(shù)據(jù)倉庫分分析與報(bào)告及及元數(shù)據(jù)管理理,如圖數(shù)據(jù)倉庫存取與與檢索數(shù)據(jù)倉庫分析與與報(bào)告元數(shù)據(jù)管理數(shù)據(jù)倉庫直接存存取報(bào)表處理工具元數(shù)據(jù)管理與報(bào)報(bào)表數(shù)據(jù)集市存取分析與決策支持持工具數(shù)據(jù)集市重整業(yè)務(wù)建模與分析析處理工具元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建轉(zhuǎn)換為多維結(jié)構(gòu)構(gòu)數(shù)據(jù)挖掘工具創(chuàng)建局部存儲(chǔ)圖形工具數(shù)據(jù)倉庫存取取與檢索部分分為用戶提供供了訪問數(shù)據(jù)據(jù)倉庫或數(shù)據(jù)據(jù)集市的功能能,利用這些些功能可以將將用戶所檢索索的數(shù)據(jù)轉(zhuǎn)換

32、換為多維數(shù)據(jù)據(jù)并存入多維維數(shù)據(jù)庫??煽梢詫?shù)據(jù)倉倉庫或數(shù)據(jù)集集市中的數(shù)據(jù)據(jù)“卸載”下來,成為為局部存儲(chǔ)數(shù)數(shù)據(jù),便于用用戶進(jìn)行局部部分析、數(shù)據(jù)據(jù)挖掘、翻譯譯轉(zhuǎn)換等處理理。這就需要要解決如何從從預(yù)定義的查查詢到即席的的查詢、到迭迭代的查詢、到到細(xì)剖查詢的的實(shí)現(xiàn)。為用戶使用方方便,這里還還提供了管理理與使用數(shù)據(jù)據(jù)倉庫元數(shù)據(jù)據(jù)管理功能。這這些功能可以以幫助用戶了了解數(shù)據(jù)倉庫庫或數(shù)據(jù)集市市的名稱、描描述說明、數(shù)數(shù)值、價(jià)值來來源及版本內(nèi)內(nèi)容,了解數(shù)數(shù)據(jù)的名稱、數(shù)數(shù)值等內(nèi)容和和數(shù)據(jù)從抽取取到存入數(shù)據(jù)據(jù)倉庫或數(shù)據(jù)據(jù)集市的轉(zhuǎn)移移過程,了解解數(shù)據(jù)的定位位和數(shù)據(jù)的可可靠性,以及及如何存取和和使用數(shù)據(jù)。這這些功能有助

33、助于用戶掌握握數(shù)據(jù)的正確確內(nèi)容、信息息的粒度、信信息的概括成成都、原始數(shù)數(shù)據(jù)的來源和和日期。并可可以按照其上上下文查看數(shù)數(shù)據(jù),將數(shù)據(jù)據(jù)轉(zhuǎn)換為信息息。此外,還還可以驗(yàn)證數(shù)數(shù)據(jù)源的質(zhì)量量,在數(shù)據(jù)抽抽取和存儲(chǔ)過過程中用于判判斷數(shù)據(jù)的可可靠性和質(zhì)量量。數(shù)據(jù)倉庫分析與與報(bào)告為最終終用戶使用數(shù)數(shù)據(jù)倉庫提供供了一組工具具,可以是用用戶能夠依靠靠數(shù)據(jù)倉庫或或數(shù)據(jù)集市進(jìn)進(jìn)行決策分析析或知識(shí)挖掘掘。這些工具具包含了報(bào)表表處理工具、分分析與決策支支持工具、業(yè)業(yè)務(wù)建模與分分析處理工具具、數(shù)據(jù)挖掘掘工具等。具體地說,這些些工具具有地地理信息系統(tǒng)統(tǒng)(GIS)、數(shù)數(shù)據(jù)挖掘工具具、聯(lián)機(jī)分析析處理(OLLAP)、可可視化工具、

34、經(jīng)經(jīng)理信息系統(tǒng)統(tǒng)(EIS)、統(tǒng)統(tǒng)計(jì)工具、iinternnet瀏覽器器、元數(shù)據(jù)瀏瀏覽器、第四四代語言、圖圖形用戶界面面(GUI)建建立程序、電電子表格、報(bào)報(bào)表生成器和和數(shù)據(jù)訪問工工具等。地理信息系統(tǒng)(GGIS)可以以利用數(shù)據(jù)倉倉庫中的數(shù)據(jù)據(jù)圖示化地表表達(dá)數(shù)據(jù)關(guān)系系。例如,可可以通過GIIS了解生活活在某一特定定銷售點(diǎn)范圍圍之內(nèi)的客戶戶數(shù)量,或在在兩個(gè)銷售點(diǎn)點(diǎn)之間的平均均到達(dá)時(shí)間。利利用GIS還還可以確定對對公司感興趣趣的潛在客戶戶居住區(qū)域,幫幫助企業(yè)確定定新的銷售點(diǎn)點(diǎn)位置。利用數(shù)據(jù)挖掘工工具和統(tǒng)計(jì)工工具可以找出出隱藏在大量量數(shù)據(jù)背后的的商業(yè)規(guī)律。例例如,哪些客客戶可能會(huì)在在信用上發(fā)生生問題,哪些

35、些客戶可能會(huì)會(huì)對企業(yè)的促促銷手段作出出積極的反應(yīng)應(yīng)。連接分析處理和和經(jīng)理信息系系統(tǒng)能夠以便便捷的手段讓讓用戶完成復(fù)復(fù)雜的數(shù)據(jù)查查詢,并能以以形象的圖形形、圖像和表表格的方式給給出決策分析析的結(jié)果。Interneet瀏覽器主主要為用戶的的WEB數(shù)據(jù)據(jù)倉庫使用提提供便利。電子表格作為辦辦公處理軟件件,許多企業(yè)業(yè)都已經(jīng)擁有有。電子表哥哥也可作為數(shù)數(shù)據(jù)倉庫的分分析工具加以以應(yīng)用。但是是將數(shù)據(jù)倉庫庫中的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)入電子表格格還需費(fèi)一番番周折??梢暬ぞ?、元元數(shù)據(jù)瀏覽器器、第四代語語言、圖形用用戶界面(GGUI)建立立程序、報(bào)表表生成器和數(shù)數(shù)據(jù)訪問工具具等都可以作作為數(shù)據(jù)倉庫庫的范文分析析工具使用,知知識(shí)在

36、實(shí)際應(yīng)應(yīng)用中各有千千秋。例如,OOLAP可以以提供強(qiáng)大的的數(shù)據(jù)查詢功功能,但是報(bào)報(bào)表的生成能能力就不如報(bào)報(bào)表生成器。而而第四代語言言與GUI建建立程序可以以提供受限的的查詢界面,并并能知道用戶戶完成查詢。這這對數(shù)據(jù)倉庫庫的安全使用用與知道新用用戶使用數(shù)據(jù)據(jù)倉庫十分有有利,但不利利于有經(jīng)驗(yàn)的的用戶對數(shù)據(jù)據(jù)倉庫的知識(shí)識(shí)挖掘。此外外,根據(jù)需要要也可以用第第四代語言建建立一個(gè)OLLAP工具。數(shù)據(jù)倉庫的管理理層數(shù)據(jù)倉庫的運(yùn)行行除依靠上面面所介紹的數(shù)數(shù)據(jù)倉庫基本本功能外,還還需要能對這這些基本功能能進(jìn)行管理的的結(jié)構(gòu)框架,這這樣數(shù)據(jù)倉庫庫才能正常運(yùn)運(yùn)行使用。數(shù)數(shù)據(jù)倉庫管理理層由數(shù)據(jù)倉庫的的數(shù)據(jù)管理層層和數(shù)據(jù)

37、倉庫庫的元數(shù)據(jù)管管理層組成。數(shù)據(jù)倉庫的數(shù)據(jù)據(jù)管理層包含數(shù)據(jù)抽取與與新數(shù)據(jù)需求求和查詢管理理,數(shù)據(jù)加載載、存儲(chǔ)、刷刷新和更新系系統(tǒng),安全性性與用戶授權(quán)權(quán)管理系統(tǒng),數(shù)數(shù)據(jù)歸檔、恢恢復(fù)及凈化系系統(tǒng)。數(shù)據(jù)抽取與新數(shù)數(shù)據(jù)需求和查查詢管理數(shù)據(jù)加載、存儲(chǔ)儲(chǔ)、刷新和更更新系統(tǒng)安全性與用戶授授權(quán)管理系統(tǒng)統(tǒng)數(shù)據(jù)歸檔、恢復(fù)復(fù)及凈化系統(tǒng)統(tǒng)數(shù)據(jù)抽取與新數(shù)數(shù)據(jù)需求和查查詢管理主要要負(fù)責(zé)完成從從數(shù)據(jù)源中抽抽取數(shù)據(jù)的管管理;用戶在在數(shù)據(jù)倉庫應(yīng)應(yīng)用中出現(xiàn)對對新數(shù)據(jù)的要要求時(shí),從新新的數(shù)據(jù)源或或當(dāng)前數(shù)據(jù)源源中按照用戶戶需求追蹤和和充實(shí)新數(shù)據(jù)據(jù);對數(shù)據(jù)查查詢中的并行行處理工作的的管理。數(shù)據(jù)加載、存儲(chǔ)儲(chǔ)、刷新和更更新系統(tǒng)負(fù)責(zé)責(zé)對從數(shù)

38、據(jù)源源中所抽取的的數(shù)據(jù)在完成成篩選、凈化化處理以后,將將這些數(shù)據(jù)加加載、存儲(chǔ)到到數(shù)據(jù)倉庫中中;捕獲數(shù)據(jù)據(jù)源中的數(shù)據(jù)據(jù)變化,用最最新數(shù)據(jù)充實(shí)實(shí)數(shù)據(jù)倉庫;根據(jù)用戶的的需求和數(shù)據(jù)據(jù)倉庫管理的的要求對數(shù)據(jù)據(jù)倉庫進(jìn)行更更新等工作。安全性與用戶授授權(quán)管理系統(tǒng)統(tǒng)主要負(fù)責(zé)數(shù)數(shù)據(jù)倉庫的安安全管理工作作,禁止用戶戶對數(shù)據(jù)倉庫庫進(jìn)行某些非非法操作;根根據(jù)用戶的管管理權(quán)限和工工作需要給予予用戶對數(shù)據(jù)據(jù)倉庫的不同同操作權(quán)限。數(shù)據(jù)歸檔、恢復(fù)復(fù)及凈化系統(tǒng)統(tǒng)中的數(shù)據(jù)歸歸檔、恢復(fù)功功能主要負(fù)責(zé)責(zé)定期對數(shù)據(jù)據(jù)倉庫中的數(shù)數(shù)據(jù)進(jìn)行歸檔檔、備份,以以便在數(shù)據(jù)倉倉庫遭到破壞壞時(shí)可以恢復(fù)復(fù);而凈化系系統(tǒng)則負(fù)責(zé)對對從數(shù)據(jù)源所所抽取的數(shù)據(jù)據(jù)進(jìn)

39、行數(shù)據(jù)的的篩選、數(shù)據(jù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一一、數(shù)據(jù)內(nèi)容容的統(tǒng)一等各各種求精、重重整凈化工作作的管理。數(shù)據(jù)倉庫的元數(shù)數(shù)據(jù)管理層數(shù)據(jù)倉庫的有效效性完全建立立在數(shù)據(jù)的定定義(元數(shù)據(jù)據(jù))之上。元元數(shù)據(jù)已經(jīng)滲滲透到數(shù)據(jù)倉倉庫的各種活活動(dòng)中,數(shù)據(jù)據(jù)源的性質(zhì)有有所獲得數(shù)據(jù)據(jù)的定義來刻刻畫,增加時(shí)時(shí)間戳就需要要有與元數(shù)據(jù)據(jù)相關(guān)的時(shí)間間信息,元數(shù)數(shù)據(jù)還要為數(shù)數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)操作提供供索引。數(shù)據(jù)倉庫的元數(shù)數(shù)據(jù)管理層負(fù)負(fù)責(zé)管理數(shù)據(jù)據(jù)倉庫所使用用的元數(shù)據(jù),其其中包括數(shù)據(jù)據(jù)倉庫、數(shù)據(jù)據(jù)集市/知識(shí)識(shí)挖掘庫和詞詞匯表管理,元數(shù)據(jù)抽取取、創(chuàng)建、存存儲(chǔ)和更新管管理,預(yù)定義的查查詢、報(bào)表和和索引管理,刷新和復(fù)制制管理,登錄、歸檔檔、恢復(fù)與

40、凈凈化管理。如如圖:括數(shù)據(jù)倉庫、數(shù)數(shù)據(jù)集市/知知識(shí)挖掘庫和和詞匯表管理理元數(shù)據(jù)抽取、創(chuàng)創(chuàng)建、存儲(chǔ)和和更新管理預(yù)定義的查詢、報(bào)報(bào)表和索引管管理刷新和復(fù)制管理理登錄、歸檔、恢恢復(fù)與凈化管管理數(shù)據(jù)倉庫、數(shù)據(jù)據(jù)集市/知識(shí)識(shí)挖掘庫和元元數(shù)據(jù)詞匯表表管理元數(shù)據(jù)管理層利利用元數(shù)據(jù)詞詞匯表來管理理數(shù)據(jù)倉庫和和數(shù)據(jù)集市中中邏輯數(shù)據(jù)模模型和物理數(shù)數(shù)據(jù)模型,以以及與技術(shù)和和業(yè)務(wù)相關(guān)的的數(shù)據(jù)說明。元數(shù)據(jù)主要包含含兩大部分的的元數(shù)據(jù):一一類元數(shù)據(jù)用用于說明從數(shù)數(shù)據(jù)源想數(shù)據(jù)據(jù)倉庫轉(zhuǎn)移的的數(shù)據(jù),主要要方便數(shù)據(jù)倉倉庫維護(hù)人員員對數(shù)據(jù)艙倉倉庫的應(yīng)用;另一類元數(shù)數(shù)據(jù)用于建立立從數(shù)據(jù)倉庫庫想數(shù)據(jù)倉庫庫前端工具的的映射,以方方便用戶

41、對數(shù)數(shù)據(jù)倉庫的使使用。元數(shù)據(jù)抽取、創(chuàng)創(chuàng)建、存儲(chǔ)和和更新管理元數(shù)據(jù)在數(shù)據(jù)倉倉庫對數(shù)據(jù)源源進(jìn)行數(shù)據(jù)抽抽取、清理、加加載等操作過過程中需要對對所涉及的元元數(shù)據(jù)進(jìn)行抽抽取、創(chuàng)建、存存儲(chǔ)和更新處處理。即從數(shù)數(shù)據(jù)源中將關(guān)關(guān)于這些數(shù)據(jù)據(jù)的說明抽取取出來,如果果在元數(shù)據(jù)庫庫中沒有這些些元數(shù)據(jù),就就需要?jiǎng)?chuàng)建并并存儲(chǔ)在元數(shù)數(shù)據(jù)庫中。如如果這些元數(shù)數(shù)據(jù)已經(jīng)存在在于元數(shù)據(jù)庫庫中,則需要要根據(jù)最新情情況進(jìn)行更新新。預(yù)定義的查詢、報(bào)報(bào)表和索引管管理在元數(shù)據(jù)管理中中還需要對設(shè)設(shè)計(jì)人員為數(shù)數(shù)據(jù)倉庫用戶戶預(yù)定義的查查詢和報(bào)表進(jìn)進(jìn)行管理,將將預(yù)定義的查查詢和報(bào)表處處理方式,甚甚至處理結(jié)果果置于元數(shù)據(jù)據(jù)庫中,這樣樣當(dāng)用戶需要要進(jìn)行

42、相同的的預(yù)定義查詢詢和報(bào)表時(shí),就就可以提供相相應(yīng)的結(jié)果。而而預(yù)定義的查查詢和報(bào)表處處理方式也需需要存儲(chǔ)在元元數(shù)據(jù)中。元元數(shù)據(jù)管理層層哈需要實(shí)現(xiàn)現(xiàn)大型數(shù)據(jù)倉倉庫的多級(jí)索索引、數(shù)據(jù)壓壓縮和復(fù)合鍵鍵等方面的管管理。刷新和復(fù)制、登登錄、歸檔、恢恢復(fù)與凈化管管理當(dāng)數(shù)據(jù)倉庫所連連接的數(shù)據(jù)源源發(fā)生變化時(shí)時(shí),數(shù)據(jù)倉庫庫的內(nèi)容也要要定期刷新。這這些刷新工作作的進(jìn)行需要要依靠元數(shù)據(jù)據(jù)庫中所包含含的有關(guān)說明明。為保證數(shù)數(shù)據(jù)倉庫的安安全,需要經(jīng)經(jīng)常定期進(jìn)行行復(fù)制。這樣樣在數(shù)據(jù)倉庫庫遇到破壞后后,可以從備備份中將數(shù)據(jù)據(jù)倉庫恢復(fù)。數(shù)數(shù)據(jù)倉庫的備備份與恢復(fù)工工作也有賴于于元數(shù)據(jù)的幫幫助。用戶在在使用數(shù)據(jù)倉倉庫時(shí)需要進(jìn)進(jìn)行身

43、份的驗(yàn)驗(yàn)證,對用戶戶的登錄管理理也離不開元元數(shù)據(jù)的支持持。元數(shù)據(jù)在在加載進(jìn)數(shù)據(jù)據(jù)倉庫之前必必須要進(jìn)行凈凈化處理,而而凈化處理的的規(guī)則也需要要元數(shù)據(jù)說明明。數(shù)據(jù)倉庫的環(huán)境境支持層數(shù)據(jù)倉庫的運(yùn)行行除需要數(shù)據(jù)據(jù)倉庫管理層層對基本功能能進(jìn)行管理外外,還需要有有數(shù)據(jù)倉庫的的環(huán)境支持層層對基本功能能提供支持。數(shù)數(shù)據(jù)倉庫的環(huán)環(huán)境支持層有有數(shù)據(jù)倉庫數(shù)數(shù)據(jù)傳輸層和和數(shù)據(jù)倉庫基基礎(chǔ)層組成。數(shù)據(jù)倉庫的數(shù)據(jù)據(jù)傳輸層數(shù)據(jù)倉庫中不同同結(jié)構(gòu)之間的的數(shù)據(jù)傳輸,需需由數(shù)據(jù)倉庫庫的傳輸層完完成,數(shù)據(jù)傳傳輸層包含了了數(shù)據(jù)傳輸和和傳送網(wǎng)絡(luò)、客戶-服務(wù)務(wù)器代理和中中間件、數(shù)據(jù)復(fù)制系系統(tǒng)、數(shù)據(jù)傳輸?shù)牡陌踩捅U险舷到y(tǒng)。如圖圖數(shù)據(jù)傳輸和傳

44、送送網(wǎng)絡(luò)客戶-服務(wù)器代代理和中間件件數(shù)據(jù)復(fù)制系統(tǒng)數(shù)據(jù)傳輸?shù)陌踩捅U舷到y(tǒng)統(tǒng)數(shù)據(jù)傳輸層的組組成在數(shù)據(jù)傳輸層中中的數(shù)據(jù)傳輸輸和傳送網(wǎng)絡(luò)絡(luò)包含網(wǎng)絡(luò)協(xié)協(xié)議、網(wǎng)絡(luò)管管理框架、網(wǎng)網(wǎng)絡(luò)操作系統(tǒng)統(tǒng)和網(wǎng)絡(luò)。從數(shù)據(jù)倉庫的角角度看,網(wǎng)絡(luò)絡(luò)操作系統(tǒng)的的性能應(yīng)該支支持內(nèi)核線程程、高達(dá)4TTB的內(nèi)存、最最大為1TBB的特大型文文件系統(tǒng)、大大小可變的應(yīng)應(yīng)用程序所用用頁面及并行行處理,并有有日志文件系系統(tǒng)、內(nèi)存分分頁管理功能能、動(dòng)態(tài)加載載核心模塊功功能,可以為為數(shù)據(jù)倉庫提提供良好的可可恢復(fù)性能。而而且操作系統(tǒng)統(tǒng)應(yīng)該遵循開開放系統(tǒng)標(biāo)準(zhǔn)準(zhǔn),能夠支持持系統(tǒng)的互操操作,這樣才才能使數(shù)據(jù)倉倉庫在多操作作系統(tǒng)環(huán)境中中運(yùn)行。數(shù)據(jù)倉庫中的

45、網(wǎng)網(wǎng)絡(luò)問題在于于貸款,在數(shù)數(shù)據(jù)倉庫的網(wǎng)網(wǎng)絡(luò)配置中可可以將用戶和和系統(tǒng)數(shù)據(jù)分分隔到不同的的網(wǎng)絡(luò)中,以以增加系統(tǒng)的的整體帶寬。系系統(tǒng)數(shù)據(jù)流量量可以通過1100Basse-TX以以太網(wǎng)、FDDDI、ATTM、千兆位位或HIPPPI接口,而而用戶數(shù)據(jù)流流量則放在110/1000Base-TX以太局局域網(wǎng)上??蛻?服務(wù)器代代理與中間件件包含數(shù)據(jù)庫網(wǎng)管管、數(shù)據(jù)倉庫庫的中間件、傳傳輸層的數(shù)據(jù)據(jù)艙倉庫數(shù)據(jù)據(jù)發(fā)布和復(fù)制制系統(tǒng)等。數(shù)據(jù)庫網(wǎng)管便于于將數(shù)據(jù)倉庫庫鏈接到其他他軟件產(chǎn)品上上。而數(shù)據(jù)倉庫的中中間件一般用用于補(bǔ)充數(shù)據(jù)據(jù)倉庫中其他他組件功能的的不足,如用用于監(jiān)視數(shù)據(jù)據(jù)庫與查詢管管理程序之間間的TCP/IP包,這

46、這就可以提供供關(guān)于數(shù)據(jù)倉倉庫用戶、被被訪問數(shù)據(jù)庫庫及訪問時(shí)間間等信息。利利用這些信息息可以對數(shù)據(jù)據(jù)倉庫的結(jié)構(gòu)構(gòu)進(jìn)行調(diào)整,提提高數(shù)據(jù)倉庫庫的性能。目目前許多數(shù)據(jù)據(jù)庫管理系統(tǒng)統(tǒng)開始將各種種中間件的功功能添加到數(shù)數(shù)據(jù)庫管理系系統(tǒng)中,英雌雌,在選擇中中間件之前需需要了解中間間件的功能是是否已經(jīng)在數(shù)數(shù)據(jù)庫管理系系統(tǒng)存在。傳輸層的數(shù)據(jù)倉倉庫數(shù)據(jù)發(fā)布布和復(fù)制系統(tǒng)統(tǒng)主要用于將將數(shù)據(jù)源中的的源數(shù)據(jù)庫數(shù)數(shù)據(jù)復(fù)制到數(shù)數(shù)據(jù)倉庫的目目標(biāo)數(shù)據(jù)庫上上,或?qū)?shù)據(jù)據(jù)倉庫中的元元數(shù)據(jù)庫數(shù)據(jù)據(jù)復(fù)制到數(shù)據(jù)據(jù)集市的目標(biāo)標(biāo)數(shù)據(jù)庫上。源源數(shù)據(jù)庫和幕幕布奧數(shù)據(jù)庫庫可以在同一一臺(tái)機(jī)器上,也也可以不再同同一臺(tái)及其上上。數(shù)據(jù)的復(fù)復(fù)制可以根據(jù)據(jù)制定

47、的時(shí)間間進(jìn)行數(shù)據(jù)發(fā)發(fā)送,還可以以在數(shù)據(jù)發(fā)送送過程中對發(fā)發(fā)送數(shù)據(jù)進(jìn)行行修改,然后后再發(fā)送到目目標(biāo)數(shù)據(jù)庫上上。數(shù)據(jù)復(fù)制系統(tǒng)在傳輸層的復(fù)制制系統(tǒng)中有發(fā)發(fā)布與復(fù)制系系統(tǒng)、數(shù)據(jù)庫庫網(wǎng)管內(nèi)定義義的復(fù)制工具具和專用的數(shù)數(shù)據(jù)倉庫產(chǎn)品品等。數(shù)據(jù)傳輸?shù)陌踩捅U舷到y(tǒng)統(tǒng)數(shù)據(jù)傳輸?shù)陌踩捅U舷到y(tǒng)統(tǒng)不僅要解決決保障數(shù)據(jù)倉倉庫中的數(shù)據(jù)據(jù)安全問題,還還需要保護(hù)用用戶正常使用用數(shù)據(jù)倉庫的的權(quán)利問題。因因此數(shù)據(jù)倉庫庫安全保障系系統(tǒng)需要設(shè)立立用戶的安全全角色,明確確哪些用戶可可以訪問哪些些數(shù)據(jù),確認(rèn)認(rèn)用戶對數(shù)據(jù)據(jù)的訪問是否否威脅到系統(tǒng)統(tǒng)的安全;為為不同數(shù)據(jù)設(shè)設(shè)立不同的安安全級(jí)別,根根據(jù)安全需要要對數(shù)據(jù)進(jìn)行行安全分區(qū);對用戶進(jìn)

48、行行鑒別,并將將鑒別的用戶戶通知安全保保障系統(tǒng);保保護(hù)用戶訪問問數(shù)據(jù)的路徑徑。數(shù)據(jù)倉庫的基礎(chǔ)礎(chǔ)層包含系統(tǒng)管理、工作流程管管理、存儲(chǔ)系統(tǒng)和處理系統(tǒng)部分分,如圖:系統(tǒng)管理工作流程管理存儲(chǔ)系統(tǒng)處理系統(tǒng)系統(tǒng)管理部分為為數(shù)據(jù)倉庫的的設(shè)計(jì)者和最最終用戶提供供執(zhí)行、管理理、終止工具具和應(yīng)用程序序等功能。工作流程管理部部分主要支持持處理集成和和管理,以協(xié)協(xié)調(diào)各種工具具、應(yīng)用程序序和操作有條條不紊地進(jìn)行行,正確完成成對數(shù)據(jù)倉庫庫和數(shù)據(jù)集市市的抽取、刷刷新、復(fù)制、更更新、聚集、概概括及其他維維護(hù)人物和系系統(tǒng)管理了任任務(wù)。利用工工作流程的管管理實(shí)現(xiàn)對數(shù)數(shù)據(jù)倉庫和數(shù)數(shù)據(jù)集市的自自動(dòng)維護(hù)與刷刷新,并且可可以提供預(yù)定定義

49、的報(bào)表和和查詢結(jié)果,以以提高系統(tǒng)的的設(shè)計(jì)者和最最終用戶的工工作效率。存儲(chǔ)系統(tǒng)為數(shù)據(jù)據(jù)源、數(shù)據(jù)倉倉庫、數(shù)據(jù)集集市中的數(shù)據(jù)據(jù)庫目錄提供供了數(shù)據(jù)庫和和文件管理器器,為數(shù)據(jù)倉倉庫的存取與與使用提供多多為的和本地地的存儲(chǔ)。處理系統(tǒng)實(shí)際上上是數(shù)據(jù)倉庫庫核心的基本本操作環(huán)境,即即數(shù)據(jù)源、數(shù)數(shù)據(jù)倉庫、數(shù)數(shù)據(jù)集市、數(shù)數(shù)據(jù)倉庫存取取與使用、中中間件的操作作環(huán)境。數(shù)據(jù)倉庫的基礎(chǔ)礎(chǔ)結(jié)構(gòu)層還需需要考慮配置置管理程序、存存儲(chǔ)管理程序序、安全性管管理程序、軟軟件分布管理理程序、特許許證管理程序序、性能監(jiān)控控程序和容量量分析程序等等。五數(shù)據(jù)挖掘概概述數(shù)據(jù)挖掘(DDM,Datta Minning)是是基于數(shù)據(jù)庫庫的知識(shí)發(fā)現(xiàn)現(xiàn)(

50、KDD,KKnowleedge DDiscovvery iin Dattabasee)過程中最最為關(guān)鍵的步步驟,因此,在在實(shí)際應(yīng)用中中對數(shù)據(jù)挖掘掘和KDD這這兩個(gè)數(shù)據(jù)的的應(yīng)用往往不不加區(qū)別。1.數(shù)據(jù)挖掘掘的發(fā)展經(jīng)營管理的實(shí)際際需要:進(jìn)入入21世紀(jì)以以后,全球經(jīng)經(jīng)濟(jì)一體化的的進(jìn)程日益加加快,企業(yè)所所面臨的市場場競爭壓力日日趨嚴(yán)重,企企業(yè)經(jīng)營管理理者西夏王能能夠從企業(yè)基基類的大量歷歷史數(shù)據(jù)中找找到應(yīng)對日趨趨嚴(yán)重的競爭爭壓力良方,希希望能夠從這這些數(shù)據(jù)中找找到經(jīng)營管理理出現(xiàn)問題的的根本原因。例例如,經(jīng)營管管理者往往希希望了解企業(yè)業(yè)的某些產(chǎn)品品為什么銷售售業(yè)績良好,是是產(chǎn)品自身的的原因?還是是銷售的原

51、因因?如果是銷銷售的原因,產(chǎn)產(chǎn)品的銷售人人員在銷售中中采用了什么么銷售方式?處于這些因因素的考慮,是是企業(yè)經(jīng)營管管理人員,特特別是決策人人員希望能夠夠采用某種工工具從這些數(shù)數(shù)據(jù)中去找原原因,能夠快快速地從大量量數(shù)據(jù)中挖掘掘出對經(jīng)營管管理有用的信信息,以應(yīng)對對瞬息萬變的的市場壓力。2.數(shù)據(jù)挖掘掘的定義從技術(shù)角度和商商業(yè)角度給出出數(shù)據(jù)挖掘的的定義。A.數(shù)據(jù)挖掘掘的技術(shù)定義義數(shù)據(jù)挖掘是從從大量的、不不完全的、有有噪聲的、模模糊的、隨即即的實(shí)際數(shù)據(jù)據(jù)中,提取隱隱含在其中的的、人們所不不知道的、但但又是潛在有有用的信息和和知識(shí)的過程程。知識(shí),如果從從嚴(yán)格的意義義上講,熱門門們通常將概概念、規(guī)則、模模式、

52、規(guī)律和和約束等看作作是知識(shí)。但但是知識(shí)都是是相對的,是是有特定前提提和約束條件件的,在特定定領(lǐng)域中具有有實(shí)際應(yīng)用價(jià)價(jià)值。同時(shí)還還要能夠易于于被用戶理解解,最好能用用自然語言表表達(dá)所發(fā)現(xiàn)的的結(jié)果。人們將數(shù)據(jù)看看作是形成知知識(shí)的源泉,數(shù)數(shù)據(jù)挖掘就是是從知識(shí)的源源泉去挖掘知知識(shí)。原始數(shù)數(shù)據(jù)可以是結(jié)結(jié)構(gòu)化的,如如關(guān)系數(shù)據(jù)庫庫中的數(shù)據(jù);也可以是半半結(jié)構(gòu)化的,如如文本、圖像像和圖像數(shù)據(jù)據(jù);甚至可以以是分布在網(wǎng)網(wǎng)絡(luò)上的異構(gòu)構(gòu)數(shù)據(jù)。發(fā)現(xiàn)現(xiàn)知識(shí)的方法法可以是數(shù)學(xué)學(xué)的,也可以以是非數(shù)學(xué)的的;可以是演演繹的,也可可以是歸納的的。發(fā)現(xiàn)的知知識(shí)可以用于于信息管理、查查詢優(yōu)化、決決策支持和過過程控制等。因此,數(shù)據(jù)挖挖掘是

53、一門交交叉學(xué)科,它它把人們對數(shù)數(shù)據(jù)的應(yīng)用從從低層次的簡簡單查詢,提提升到從數(shù)據(jù)據(jù)庫中挖掘知知識(shí),提供決決策支持。在在這種需求的的推動(dòng)下,匯匯集了不同領(lǐng)領(lǐng)域的研究者者,尤其是數(shù)數(shù)據(jù)庫技術(shù)、人工智能技技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)術(shù)、并行計(jì)算算等方面的學(xué)學(xué)者和工程技技術(shù)人員。B.數(shù)據(jù)挖掘掘的商業(yè)定義義數(shù)據(jù)挖掘是一一種嶄新的商商業(yè)信息處理理技術(shù),其主主要特點(diǎn)是對對商業(yè)數(shù)據(jù)庫庫中的大量業(yè)業(yè)務(wù)數(shù)據(jù)進(jìn)行行抽取、轉(zhuǎn)化化、分析和模模式化處理,從從中提取輔助助商業(yè)決策的的關(guān)鍵之時(shí),即即從一個(gè)數(shù)據(jù)據(jù)庫中自動(dòng)發(fā)發(fā)現(xiàn)相關(guān)商業(yè)業(yè)模式。數(shù)據(jù)挖掘是利利用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的技技術(shù)來探求哪哪些符合市場場、客戶行為為的模式。對對于數(shù)

54、據(jù)挖掘掘的應(yīng)用不僅僅要依靠良好好的算法建立立模型,而且且更重的是要要解決如何將將數(shù)據(jù)挖掘技技術(shù)集成到當(dāng)當(dāng)今復(fù)雜的信信息技術(shù)應(yīng)用用環(huán)境中。其次還需要要有商務(wù)分析析人員參與,因因?yàn)閿?shù)據(jù)挖掘掘技術(shù)不具備備人所特有的的經(jīng)驗(yàn)和直覺覺,不能區(qū)分分挖掘出的哪哪些模式在現(xiàn)現(xiàn)實(shí)中是有意意義的,哪些些是無意義的的。因此,商商務(wù)分析人員員的參與是必必不可少的。數(shù)據(jù)挖掘是一一類深層次的的數(shù)據(jù)分析技技術(shù)。數(shù)據(jù)挖掘工具具與傳統(tǒng)數(shù)據(jù)據(jù)分析工具的的比較如圖:傳統(tǒng)數(shù)據(jù)分析工工具(DSSS/EIS)數(shù)據(jù)挖掘工具工具特點(diǎn)回顧型的、驗(yàn)證證型的預(yù)測型的、發(fā)現(xiàn)現(xiàn)型的分析重點(diǎn)已經(jīng)發(fā)生了什么么預(yù)測未來的情況況、解釋發(fā)生生的原因分析目的從過去

55、的事實(shí)中中列出管理人人員感興趣的的事實(shí)鎖定未來的可能能客戶,以減減少未來的銷銷售成本數(shù)據(jù)集大小數(shù)據(jù)維、為重屬屬性數(shù)、維中中數(shù)據(jù)均是少少量的數(shù)據(jù)維、為重屬屬性數(shù)、維中中數(shù)據(jù)均是龐龐大的啟動(dòng)方式企業(yè)管理人員、系系統(tǒng)分析員、管管理顧問啟動(dòng)動(dòng)與控制數(shù)據(jù)與系統(tǒng)啟動(dòng)動(dòng)、少量的人人員指導(dǎo)技術(shù)狀況成熟統(tǒng)計(jì)分析工具成成熟,其他在在發(fā)展中六數(shù)據(jù)挖掘技技術(shù)與工具隨著海量數(shù)據(jù)搜搜集、強(qiáng)大的的多處理器計(jì)計(jì)算機(jī)和數(shù)據(jù)據(jù)挖掘算法這這3中基礎(chǔ)技技術(shù)的發(fā)展和和成熟,數(shù)據(jù)據(jù)挖掘技術(shù)已已在數(shù)據(jù)倉庫庫系統(tǒng)中得到到了廣泛的應(yīng)應(yīng)用。A.常用的數(shù)數(shù)據(jù)挖掘技術(shù)術(shù)數(shù)據(jù)挖掘的發(fā)展展受到數(shù)據(jù)庫庫系統(tǒng)、統(tǒng)計(jì)計(jì)學(xué)、機(jī)器學(xué)學(xué)習(xí)、可視化化技術(shù)、信息息技術(shù)

56、及其他他學(xué)科的影響響,如神經(jīng)網(wǎng)網(wǎng)絡(luò)、模糊/粗糙集理論論、知識(shí)表示示、歸納技術(shù)術(shù)與高性能計(jì)計(jì)算等。從常常用的數(shù)據(jù)挖挖掘技術(shù)來看看,可以分成成三大類:傳傳統(tǒng)分析類、知識(shí)發(fā)現(xiàn)類類和其他最新發(fā)發(fā)展的數(shù)據(jù)挖挖掘技術(shù)。傳統(tǒng)分析類傳統(tǒng)的統(tǒng)計(jì)分析析(或稱數(shù)據(jù)據(jù)分析)技術(shù)術(shù)中使用的數(shù)數(shù)據(jù)挖掘模型型主要有線性性分析和非線線性分析、回回歸分析、邏邏輯回歸分析析、單變量分分析、多變量量分析、時(shí)間間序列分析、最最近鄰算法和和聚類分析等等技術(shù)。利用這些技術(shù)可可以檢查那些些異常形式的的數(shù)據(jù),然后后,利用各種種統(tǒng)計(jì)模型和和數(shù)學(xué)模型來來幾時(shí)這些數(shù)數(shù)據(jù),解釋隱隱藏在這些數(shù)數(shù)據(jù)背后的市市場規(guī)律和商商業(yè)機(jī)會(huì)。例例如,可以使使用統(tǒng)計(jì)分

57、析析工具尋求最最佳商業(yè)機(jī)會(huì)會(huì)來增加市場場份額和利潤潤,利用全面面質(zhì)量管理程程序來提高產(chǎn)產(chǎn)品或服務(wù)的的質(zhì)量使客戶戶更加滿意,通通過對流水線線產(chǎn)品制造的的調(diào)整或企業(yè)業(yè)業(yè)務(wù)過程的的重整來增加加利潤。在所所有的 數(shù)據(jù)據(jù)挖掘技術(shù)中中,統(tǒng)計(jì)型數(shù)數(shù)據(jù)挖掘工具具是數(shù)據(jù)挖掘掘技術(shù)中最成成熟的一種,已已經(jīng)在數(shù)據(jù)挖挖掘中得到了了廣泛的應(yīng)用用。知識(shí)發(fā)現(xiàn)類知識(shí)發(fā)現(xiàn)類數(shù)據(jù)據(jù)挖掘技術(shù)是是與統(tǒng)計(jì)類數(shù)數(shù)據(jù)挖掘技術(shù)術(shù)完全不同的的一種挖掘技技術(shù)。它可以以從數(shù)據(jù)倉庫庫的大量數(shù)據(jù)據(jù)中篩選信息息,尋找市場場可能出現(xiàn)的的運(yùn)營模式,發(fā)發(fā)掘人們所不不知道的事實(shí)實(shí)。知識(shí)發(fā)現(xiàn)類數(shù)據(jù)據(jù)挖掘技術(shù)包包含人工神經(jīng)經(jīng)網(wǎng)絡(luò)、決策策樹、遺傳算算法、粗糙集集(R

58、S)和和關(guān)聯(lián)規(guī)則等等。人工神經(jīng)網(wǎng)絡(luò)是是模擬人腦神神經(jīng)元結(jié)構(gòu),以以MP模型和和Hebb學(xué)學(xué)習(xí)規(guī)則為基基礎(chǔ),建立三三大類神經(jīng)網(wǎng)網(wǎng)絡(luò)模型:前前饋式網(wǎng)絡(luò)、反反饋式網(wǎng)絡(luò)和和自組織網(wǎng)絡(luò)絡(luò)。前饋式網(wǎng)網(wǎng)絡(luò)以感知機(jī)機(jī)、反向傳播播模型、函數(shù)數(shù)性網(wǎng)絡(luò)為代代表,可用于于預(yù)測、模式式識(shí)別等領(lǐng)域域;反饋式網(wǎng)網(wǎng)絡(luò)以Hoppfieldd的離散模型型和連續(xù)模型型為代表,分分別用于聯(lián)想想記憶和優(yōu)化計(jì)算;自自組織網(wǎng)絡(luò)以以ART模型型、Kohoolon模型型為代表,用用于聚類處理理。決策樹是一個(gè)類類似于流程圖圖的樹結(jié)構(gòu),其其中每個(gè)內(nèi)部部節(jié)點(diǎn)表示在在某一屬性上上的測試,每每一個(gè)分枝代代表一個(gè)測試試輸出,而每每個(gè)樹葉節(jié)點(diǎn)點(diǎn)代表類或類類分

59、布。由于于每個(gè)決策和和事件(即自自然狀態(tài))都都可能引出兩兩個(gè)或多個(gè)事事件,導(dǎo)致不不同的結(jié)果,決決策樹在數(shù)據(jù)據(jù)挖掘中一般般用于數(shù)據(jù)的的分類處理上上,使具有某某種內(nèi)在規(guī)律律的分析對象象處于同一類類中。遺傳算法是近幾幾年發(fā)展起來來的一種嶄新新的全局化算算法,它借用用了生物遺傳傳學(xué)的觀點(diǎn),通過自然選擇、遺傳、變異等作用機(jī)制,實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性提高。解決問題是,要對解決問題的模型結(jié)構(gòu)和參數(shù)進(jìn)行編碼,一般用字符串來表示,這個(gè)過程就將問題符號(hào)化、離散化了。遺傳算法由3個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉(重組)是選擇兩個(gè)不同個(gè)體(染色體)的部

60、分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對某些個(gè)體的某些基因進(jìn)行變異的過程。遺傳算法的目的在于獲取最優(yōu)化的知識(shí)集合。粗糙集能夠在缺缺少關(guān)于數(shù)據(jù)據(jù)先驗(yàn)知識(shí)的的情況下,只只以考察數(shù)據(jù)據(jù)的分類能力力為基礎(chǔ),解解決模糊或不不確定的分析析和處理問題題。粗糙集用用于從數(shù)據(jù)庫庫中發(fā)現(xiàn)分類類規(guī)則的基本本思想是將數(shù)數(shù)據(jù)庫中的屬屬性分為條件件屬性和結(jié)論論屬性,對數(shù)數(shù)據(jù)庫中的元元組根據(jù)各個(gè)個(gè)屬性不同的的屬性值分成成相應(yīng)的子集集,然后依據(jù)據(jù)條件屬性劃劃分的子集與與依結(jié)論屬性性劃分的子集集之間上下近近似關(guān)系生成成判定規(guī)則。所所有相似對象象的集合稱為為處登記和,它它形成知識(shí)點(diǎn)點(diǎn)基本成分;任何初等集集合的病機(jī)稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論