




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
MIS的應(yīng)用→海量信息→產(chǎn)生了與傳統(tǒng)數(shù)據(jù)庫有很大差異的數(shù)據(jù)環(huán)境→
如何從這些海量數(shù)據(jù)中獲取專門的知識→……§1基本概念§2數(shù)據(jù)倉庫的通用框架參考書第一章數(shù)據(jù)倉庫基本概念及通用框架§1基本概念1.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫(DW,DataWarehouse)是“一個面向主題的、集成的、隨時間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過程”。[WilliamH.Inmon,1993]
面向主題的:對應(yīng)某一個宏觀分析領(lǐng)域,如,銷售。CH1上述概念中涉及到的“主題”:在一個較高管理層次上,對信息系統(tǒng)中的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象——基于信息管理的角度;是一些數(shù)據(jù)的集合,這些數(shù)據(jù)集合對分析對象進(jìn)行了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,還涉及到數(shù)據(jù)間的聯(lián)系——基于數(shù)據(jù)組織的角度。CH1因此,數(shù)據(jù)倉庫的該特性要求:①抽取主題——按決策分析過程進(jìn)行。②界定數(shù)據(jù)——確定所抽取的主題包含哪些數(shù)據(jù)。③組織數(shù)據(jù)——如何組織上述數(shù)據(jù)(往往使用多維數(shù)據(jù)庫或關(guān)系數(shù)據(jù)庫的方式進(jìn)行組織)。CH1例如:根據(jù)銷售管理要考慮的問題(如:哪些產(chǎn)品銷量大/利潤高?哪些客戶采購量多?競爭對手的哪些產(chǎn)品對本企業(yè)構(gòu)成威脅?),可以抽取出“產(chǎn)品”、“客戶”為主題;為了描述產(chǎn)品的銷售活動,銷售業(yè)務(wù)處理系統(tǒng)中一般包含以下數(shù)據(jù):產(chǎn)品訂單、產(chǎn)品銷售明細(xì)、產(chǎn)品庫存、客戶等——在進(jìn)行決策分析過程中(如,哪些客戶采購量多?
),上述數(shù)據(jù)只有客戶數(shù)據(jù)是可用的,其它數(shù)據(jù)僅用于業(yè)務(wù)操作;然而,僅有“客戶”數(shù)據(jù)還不足以完成對客戶的分析,還要圍繞客戶進(jìn)一步組織所有相關(guān)數(shù)據(jù)——如,客戶產(chǎn)品采購量、最后一次采購時間、采購競爭對手產(chǎn)品量(落在外部系統(tǒng)中)、客戶信譽(yù)(落在財務(wù)系統(tǒng)中)等。
集成的對分散在各處的數(shù)據(jù)源進(jìn)行抽取、篩選、清理、綜合等加工工作,然后存放在數(shù)據(jù)倉庫中,可見,集成是建立DW的關(guān)鍵步驟。數(shù)據(jù)倉庫的數(shù)據(jù)主要源于各個業(yè)務(wù)處理系統(tǒng),由于其用途各不相同,因此需上述處理工作。清理——把各個數(shù)據(jù)源的單位、內(nèi)容、字長等統(tǒng)一起來,消除字段名的同名異義、異名同義等現(xiàn)象。CH1隨時間變化的(時變性)數(shù)據(jù)倉庫中的數(shù)據(jù),雖然不像業(yè)務(wù)處理系統(tǒng)那樣記載的是實時數(shù)據(jù),但也要隨著時間的推移補(bǔ)充與主題相關(guān)的、變化了的數(shù)據(jù)(快照),快照的時間間隔根據(jù)決策需求而定(年/月/天)。此外還有:刪除過了時的數(shù)據(jù);及時更新DW中的那些概括數(shù)據(jù)。為滿足時變性進(jìn)行的所有操作統(tǒng)稱為數(shù)據(jù)倉庫的刷新。CH1非易失的DW的非易失性指的是,數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫后,便不進(jìn)行更新處理(但可以追加新數(shù)據(jù)),并且將保持一個相當(dāng)長的時間。
數(shù)據(jù)倉庫→查詢、分析
業(yè)務(wù)處理系統(tǒng)→隨時記錄發(fā)生的業(yè)務(wù)因此,DW中,可以可以通過索引、預(yù)計算等方式來提高查詢效率。CH1集合性事實上,“面向主題的”便要求DW以主題的某種數(shù)據(jù)集合的形式存儲數(shù)據(jù),其形式為以下三種之一:多維數(shù)據(jù)庫方式關(guān)系數(shù)據(jù)庫方式多維數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫組合方式顯然,DW中,“集合”是否全面決定了數(shù)據(jù)倉庫應(yīng)用范圍的大小。CH1支持決策建立數(shù)據(jù)倉庫的目的就是支持決策,其用戶可以是高層/中層/基層管理者,他們可以利用所提供的分析工具,發(fā)現(xiàn)DW數(shù)據(jù)中隱含的商機(jī),使得管理決策更加科學(xué)化。CH12.DW與傳統(tǒng)DB的比較數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計算的數(shù)據(jù)。數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序、重復(fù)處理面向主題域、管理決策分析應(yīng)用數(shù)據(jù)特性動態(tài)變化、按字段更新靜態(tài)、不能直接更新、只定時添加數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜、適合操作計算簡單、適合分析使用頻率高中到低數(shù)據(jù)訪問量每個事務(wù)只訪問少量記錄有的事務(wù)可能要訪問大量記錄對響應(yīng)時間的要求以秒為單位計量以秒、分鐘、甚至小時為計量單位CH13.數(shù)據(jù)倉庫的概概念結(jié)構(gòu)數(shù)據(jù)據(jù)倉倉庫庫的的概概念念結(jié)結(jié)構(gòu)構(gòu)包包含含::數(shù)數(shù)據(jù)據(jù)源源、、數(shù)數(shù)據(jù)據(jù)準(zhǔn)準(zhǔn)備備區(qū)區(qū)、、數(shù)數(shù)據(jù)據(jù)倉倉庫庫數(shù)數(shù)據(jù)據(jù)庫庫、、數(shù)數(shù)據(jù)據(jù)集集市市/知知識識挖挖掘掘庫庫以以及及各各種種管管理理工工具具和和應(yīng)應(yīng)用用工工具具。。業(yè)務(wù)系統(tǒng)數(shù)據(jù)源外部數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉庫數(shù)據(jù)庫應(yīng)用工具管理工具數(shù)據(jù)集市/知識挖掘庫應(yīng)用工具數(shù)據(jù)集市/知識挖掘庫CH14.虛擬擬數(shù)數(shù)據(jù)據(jù)倉倉庫庫結(jié)結(jié)構(gòu)構(gòu)虛擬擬數(shù)數(shù)據(jù)據(jù)倉倉庫庫利利用用((描描述述了了業(yè)業(yè)務(wù)務(wù)系系統(tǒng)統(tǒng)中中數(shù)數(shù)據(jù)據(jù)位位置置和和抽抽取取數(shù)數(shù)據(jù)據(jù)算算法法的的))元元數(shù)數(shù)據(jù)據(jù)直直接接從從業(yè)業(yè)務(wù)務(wù)系系統(tǒng)統(tǒng)中中抽抽取取查查詢詢的的數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行概概括括、、聚聚合合操操作作后后,,將將最最終終結(jié)結(jié)果果提提供供給給用用戶戶。。[思考考::優(yōu)優(yōu)、、缺缺點點??]數(shù)據(jù)倉庫查詢管理服務(wù)器業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫CH15.數(shù)數(shù)據(jù)據(jù)集集市市結(jié)結(jié)構(gòu)構(gòu)數(shù)據(jù)據(jù)集集市市,,或或稱稱為為主題題結(jié)結(jié)構(gòu)構(gòu)的的數(shù)據(jù)據(jù)倉倉庫庫是是按按照照主主題題進(jìn)進(jìn)行行構(gòu)構(gòu)思思所所形形成成的的數(shù)數(shù)據(jù)據(jù)倉倉庫庫,,它它沒沒有有一一個個獨獨立立的的數(shù)數(shù)據(jù)據(jù)倉倉庫庫。。系系統(tǒng)統(tǒng)的的數(shù)數(shù)據(jù)據(jù)不不存存儲儲在在同同一一數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中,,每每個個主主題題有有自自己己的的物物理理存存儲儲區(qū)區(qū)。。[思考考::優(yōu)優(yōu)、、缺缺點點??]數(shù)據(jù)倉庫查詢管理服務(wù)器業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫主題1主題2CH16.單單一一數(shù)數(shù)據(jù)據(jù)倉倉庫庫結(jié)結(jié)構(gòu)構(gòu)將所所有有的的主主題題都都集集中中到到一一個個大大型型數(shù)數(shù)據(jù)據(jù)庫庫中中的的體體系系結(jié)結(jié)構(gòu)構(gòu)。。數(shù)數(shù)據(jù)據(jù)源源中中數(shù)數(shù)據(jù)據(jù)被被按按照照同同一一標(biāo)標(biāo)準(zhǔn)準(zhǔn)抽抽取取到到獨獨立立的的數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中,,用用戶戶在在使使用用時時再再根根據(jù)據(jù)主主題題將將數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù)發(fā)發(fā)布布到到數(shù)數(shù)據(jù)據(jù)集集市市中中。。[思考考::優(yōu)優(yōu)、、缺缺點點??]數(shù)據(jù)倉庫查詢管理服務(wù)器業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)集市1數(shù)據(jù)集市2CH17.分分布布式式數(shù)數(shù)據(jù)據(jù)倉倉庫庫結(jié)結(jié)構(gòu)構(gòu)各分分公公司司具具有有相相當(dāng)當(dāng)大大的的獨獨立立性性時時,,企企業(yè)業(yè)總總部部設(shè)設(shè)置置一一個個全全局局?jǐn)?shù)數(shù)據(jù)據(jù)倉倉庫庫,,分分公公司司設(shè)設(shè)置置各各自自的的局局部部數(shù)數(shù)據(jù)據(jù)倉倉庫庫。。局局部部數(shù)數(shù)據(jù)據(jù)倉倉庫庫主主要要存存儲儲各各自自的的未未經(jīng)經(jīng)轉(zhuǎn)轉(zhuǎn)換換的的細(xì)細(xì)節(jié)節(jié)數(shù)數(shù)據(jù)據(jù),,全全局局?jǐn)?shù)數(shù)據(jù)據(jù)倉倉庫庫中中主主要要存存儲儲經(jīng)經(jīng)過過轉(zhuǎn)轉(zhuǎn)換換的的綜綜合合數(shù)數(shù)據(jù)據(jù)。。[思考考::優(yōu)優(yōu)缺缺點點??]局部數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫局部數(shù)據(jù)倉庫全局?jǐn)?shù)據(jù)倉庫站點B站點D站點A站點CCH1§2數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的通通用用框框架架框架架———把把復(fù)復(fù)雜雜的的事事物物分分為為若若干干細(xì)細(xì)小小的的易易于理理解解的的構(gòu)構(gòu)件件的的形形式式。。數(shù)據(jù)據(jù)倉倉庫庫研研究究中中,,常常稱稱為為通用用框框架架,或或參考考框框架架。最初初,,DW的的通通用用框框架架被被描描述述為為::⑴數(shù)數(shù)據(jù)據(jù)集集合合((從從運運行行的的DB中中抽抽取?。?;⑵軟軟件件環(huán)環(huán)境境((供供用用戶戶存存取取數(shù)數(shù)據(jù)據(jù)));;⑶應(yīng)應(yīng)用用程程序序及及工工具具集集合合((用用于于復(fù)復(fù)雜雜查查詢詢))。。CH1為了了有有助助于于理理解解,,并并給給出出DW實實現(xiàn)現(xiàn)過過程程中中所所需需的的更更為為詳詳細(xì)細(xì)的的信信息息,,對對上上述述框框架架進(jìn)進(jìn)行行了了進(jìn)進(jìn)一一步步細(xì)細(xì)化化。。右圖圖給給出出了了細(xì)細(xì)化化之之后后通通用用框框架架的的頂頂層層結(jié)結(jié)構(gòu)構(gòu)。。DW通用框架的頂層結(jié)構(gòu)層層塊數(shù)據(jù)據(jù)管管理理數(shù)據(jù)據(jù)源源DW結(jié)構(gòu)構(gòu)數(shù)據(jù)據(jù)站站場結(jié)結(jié)構(gòu)構(gòu)DW存存取使使用用元數(shù)數(shù)據(jù)據(jù)管管理理傳輸輸基礎(chǔ)礎(chǔ)結(jié)結(jié)構(gòu)構(gòu)工具具、、技技術(shù)術(shù)及及角角色色((附附加加層層))CH1若干干說說明明::框架架由由若若干干層層和和塊塊組組成成;;數(shù)據(jù)據(jù)管管理理和元數(shù)數(shù)據(jù)據(jù)管管理理層包括括對對數(shù)數(shù)據(jù)據(jù)的的抽抽取取、、加加載載、、更更新新等等操操作作,,以以不不斷斷為為DW和和數(shù)數(shù)據(jù)據(jù)站站場場提提供供數(shù)數(shù)據(jù)據(jù);;傳輸層層和基礎(chǔ)結(jié)結(jié)構(gòu)層層對DW及數(shù)數(shù)據(jù)站站場提提供通通用服服務(wù);;附加層層提供支支持DW的的方法法(學(xué)學(xué)),,可按按該層層的要要求構(gòu)構(gòu)建DW及及相應(yīng)應(yīng)的工工具。。一般,,數(shù)據(jù)據(jù)源塊塊、傳傳輸層層和基基礎(chǔ)結(jié)結(jié)構(gòu)層層是企企業(yè)已已有的的,其其他塊塊、層層均需需新建建。具體應(yīng)應(yīng)用時時,設(shè)設(shè)計者者可以以從通通用框框架中中選取取有用用的構(gòu)構(gòu)件,,沒用用的可可以忽忽略。。CH11.數(shù)數(shù)據(jù)源源塊產(chǎn)品數(shù)據(jù)遺留數(shù)據(jù)內(nèi)部辦公系統(tǒng)外部系統(tǒng)數(shù)據(jù)源元數(shù)據(jù)產(chǎn)品數(shù)數(shù)據(jù)也稱業(yè)業(yè)務(wù)數(shù)數(shù)據(jù),,由生生產(chǎn)系系統(tǒng)產(chǎn)產(chǎn)生,,并保保存在在生產(chǎn)產(chǎn)系統(tǒng)統(tǒng)的數(shù)數(shù)據(jù)庫庫中,,且,,該數(shù)數(shù)據(jù)庫庫可以以是任任意類類型的的(如如,關(guān)關(guān)系、、層次次、網(wǎng)網(wǎng)絡(luò)等等類型型)。。注意::產(chǎn)品數(shù)數(shù)據(jù)((業(yè)務(wù)務(wù)數(shù)據(jù)據(jù))與與數(shù)據(jù)倉倉庫模型之間的的關(guān)系系。CH1遺留數(shù)數(shù)據(jù)——脫脫機(jī)機(jī)或檔檔案數(shù)數(shù)據(jù),,也稱稱歷史數(shù)數(shù)據(jù)。特點::可可能不不支持持當(dāng)前前應(yīng)用用程序序;用用專用用的程程序輸輸入到到DW中;;對對DM很有有用。。內(nèi)部辦辦公系系統(tǒng)——數(shù)數(shù)據(jù)據(jù)來源源之一一,一一般是是非商商業(yè)的的,也也不存存放在在當(dāng)前前運行行的DB中中,其其形式式有以以下幾幾種::CH1非結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù)((如,,非電電子的的);;結(jié)結(jié)構(gòu)化化數(shù)據(jù)據(jù)(報報表、、文本本文檔檔等));半半結(jié)構(gòu)構(gòu)化數(shù)數(shù)據(jù)((年度度報表表等))。外部系系統(tǒng)——有有各各種可可能的的形式式,或或各種種想象象得到到的形形式。。數(shù)據(jù)源源元數(shù)數(shù)據(jù)元數(shù)據(jù)據(jù)是關(guān)關(guān)于數(shù)數(shù)據(jù)的的數(shù)據(jù)據(jù),如如:數(shù)數(shù)據(jù)的的名稱稱、數(shù)數(shù)據(jù)內(nèi)內(nèi)容的的定義義、數(shù)數(shù)據(jù)創(chuàng)創(chuàng)建的的日期期、數(shù)數(shù)據(jù)的的來源源等。。CH1隨著DW以以及Internet的的應(yīng)應(yīng)用與與發(fā)展展,數(shù)數(shù)據(jù)據(jù)源塊塊中又又增加加了““Web數(shù)數(shù)據(jù)””塊((如左左圖所所示))。Web數(shù)據(jù)據(jù),通通常是是HTML方式式的,,因因此,,需要要轉(zhuǎn)換換才能能加載載進(jìn)數(shù)數(shù)據(jù)倉倉庫之之中。。業(yè)務(wù)數(shù)數(shù)據(jù)歷史數(shù)數(shù)據(jù)辦公數(shù)數(shù)據(jù)外部數(shù)數(shù)據(jù)數(shù)據(jù)源源元數(shù)數(shù)據(jù)Web數(shù)據(jù)據(jù)CH12.DW結(jié)結(jié)構(gòu)塊塊由求精精、重重構(gòu)工工程和和數(shù)據(jù)據(jù)倉庫庫構(gòu)成成。標(biāo)準(zhǔn)化化過濾與與匹配配凈化標(biāo)明時時間戳戳的數(shù)據(jù)據(jù)源確認(rèn)數(shù)數(shù)據(jù)質(zhì)質(zhì)量集成與與分割割概括與與聚集集預(yù)算與與推導(dǎo)導(dǎo)翻譯與與格式式化轉(zhuǎn)換與與映像像元數(shù)據(jù)據(jù)創(chuàng)建建元數(shù)據(jù)據(jù)抽取與與創(chuàng)建建建模概括集聚調(diào)整與與確認(rèn)認(rèn)建立結(jié)結(jié)構(gòu)化化查詢創(chuàng)建詞詞匯表表元數(shù)據(jù)據(jù)瀏覽與與導(dǎo)航航重構(gòu)工工程數(shù)據(jù)倉倉庫求精CH1求精——有的資資料中中,把把“求求精””子塊塊稱為為“數(shù)數(shù)據(jù)準(zhǔn)準(zhǔn)備區(qū)區(qū)”,,且與與“數(shù)數(shù)據(jù)源源”等等并列列列出出。標(biāo)準(zhǔn)化過濾與匹配凈化標(biāo)明時間戳的數(shù)據(jù)源確認(rèn)數(shù)據(jù)質(zhì)量元數(shù)據(jù)抽取與創(chuàng)建統(tǒng)一處處理同同名不不同內(nèi)內(nèi)容、、同內(nèi)內(nèi)容不不同名名、同同名同同內(nèi)容容但結(jié)結(jié)構(gòu)不不同的的數(shù)據(jù)據(jù)。對進(jìn)入入DW的數(shù)數(shù)據(jù)進(jìn)進(jìn)行篩篩選———從從數(shù)據(jù)據(jù)源刪刪除用用戶不不需要要的數(shù)數(shù)據(jù),,留下下與用用戶需需求相相匹配配的數(shù)數(shù)據(jù)。。對準(zhǔn)備備加載載到DW的的數(shù)據(jù)據(jù)進(jìn)行行正確確性判判斷———把把那些些內(nèi)容容、格格式或或類型型不對對的數(shù)數(shù)據(jù)進(jìn)進(jìn)行修修正。。例例如如,DW中中“郵郵政編編碼””是字字符型型的,,則數(shù)數(shù)據(jù)源源中所所有數(shù)數(shù)值型型的““郵郵政編編碼””均需需先行行轉(zhuǎn)換換。DW中中,經(jīng)經(jīng)常要要進(jìn)行行數(shù)據(jù)據(jù)的概概括等等計算算,以以分析析事物物的發(fā)發(fā)展趨趨勢。。這些些工作作均要要求相相應(yīng)的的數(shù)據(jù)據(jù)具有有明確確的時時間屬屬性,,因此此,數(shù)數(shù)據(jù)加加載到到DW之前前,要要完成成其時時間戳戳的設(shè)設(shè)置。。雖然““標(biāo)準(zhǔn)準(zhǔn)化””、““過過程與與匹配配”、、“凈凈化””等等對數(shù)數(shù)據(jù)的的質(zhì)量量有了了一定定的保保證,,但加加載到到DW前,,還還要進(jìn)進(jìn)行““確認(rèn)認(rèn)數(shù)據(jù)據(jù)質(zhì)量量”的的操作作———通通常用用手工工或軟軟件自自動檢檢測方方式完完成。。在數(shù)據(jù)據(jù)求精精過程程中,,同時時還要要根據(jù)據(jù)數(shù)據(jù)據(jù)源確確定相相應(yīng)數(shù)數(shù)據(jù)的的元數(shù)數(shù)據(jù),,包括括名稱稱、定定義、、創(chuàng)建建者、、創(chuàng)建建時間間等。。CH1重構(gòu)工程程——為了了使DW更好地地為用戶戶服務(wù)所所進(jìn)行的的一系列列操作。。集成與分分割概括與聚聚集預(yù)算與推推導(dǎo)翻譯與格格式化轉(zhuǎn)換與映映像元數(shù)據(jù)創(chuàng)創(chuàng)建把一個表表的數(shù)據(jù)據(jù)分割為為多個數(shù)數(shù)據(jù)塊((按日日期/地地理位置置/時間間);把把多個個數(shù)據(jù)源源的若干干數(shù)據(jù)集集合為一一塊。概括與聚聚集就是按照照某一((組)屬屬性進(jìn)行行匯總———根據(jù)據(jù)建立DW的需需求,預(yù)預(yù)先把某某些常用用的匯總總求出并并存儲在在DW中中,以提提高DW的效率率。對DW用用戶的常規(guī)操作作進(jìn)行的預(yù)預(yù)設(shè)置,,包括這這些操作作的結(jié)果果的存儲儲以及相相應(yīng)算法法的存儲儲(做為為元數(shù)據(jù)據(jù)),其其目的也也是提高高將來DW的使使用效率率。對來自于于不同數(shù)數(shù)據(jù)源的的數(shù)據(jù)進(jìn)進(jìn)行翻譯和格格式化處理以便便于日后后的統(tǒng)一一處理。。例如,,客戶的的性別不不同的數(shù)數(shù)據(jù)源中中可能有有不同的的表示值值,加載載到DW后,要要統(tǒng)一起起來。大多數(shù)數(shù)數(shù)據(jù)源是是關(guān)系模模型,DW一般般采用星星形模型型或雪花花模型。。轉(zhuǎn)換與映映射就是連接接數(shù)據(jù)源源與DW的,它它不僅指指明了兩兩者數(shù)據(jù)據(jù)間的關(guān)關(guān)系,還還消除了了其模型型間的差差異。參見下一一小節(jié)。。CH1數(shù)據(jù)倉庫庫(創(chuàng)建建)——數(shù)數(shù)據(jù)倉庫庫的核心心功能塊塊。建模概括集聚調(diào)整與確確認(rèn)建立結(jié)構(gòu)構(gòu)化查詢創(chuàng)建詞匯匯表元數(shù)據(jù)瀏覽與導(dǎo)導(dǎo)航設(shè)計數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)模模型(一一般為星星形或雪雪花形模模型),,包括數(shù)數(shù)據(jù)的分分割、主主題域和和粒度的的確認(rèn)等等。根據(jù)用戶戶的需要要,從初初步的概概括中建建立高度度的數(shù)據(jù)據(jù)概括。。概括的的程度與與用戶使使用的時時間等因因素有關(guān)關(guān)。根據(jù)用戶戶的典型型查詢需需求進(jìn)行行聚集處處理。如如,可以以對產(chǎn)品品的地區(qū)區(qū)分布、、品牌的的分布等等進(jìn)行聚聚集處理理。對完成了了概括與與聚集的的數(shù)據(jù)進(jìn)進(jìn)行確認(rèn)認(rèn),如果果效果不不好,則則需進(jìn)行行調(diào)整直直至滿意意為止。。為了提高高DW的的使用效效率而預(yù)預(yù)定義一一些常用用的結(jié)構(gòu)構(gòu)化查詢詢,這些些查詢及及其結(jié)果果均作為為元數(shù)據(jù)據(jù)存儲起起來備用用。實際上每每個塊都都具有該該功能((可稱之之為元數(shù)據(jù)的的管理)。具體體包括元數(shù)據(jù)瀏瀏覽與導(dǎo)導(dǎo)航、元數(shù)據(jù)創(chuàng)創(chuàng)建、創(chuàng)建詞匯匯表等。CH13.數(shù)據(jù)據(jù)站場(集市??)結(jié)構(gòu)構(gòu)塊其構(gòu)成如如下:過濾與匹配集成與分割概括與聚集預(yù)算與推導(dǎo)標(biāo)明時間戳的數(shù)據(jù)源元數(shù)據(jù)抽取與創(chuàng)建建模概括集聚調(diào)整與確認(rèn)建立結(jié)構(gòu)化查詢創(chuàng)建詞匯表元數(shù)據(jù)瀏覽與導(dǎo)航求精與重構(gòu)工程數(shù)據(jù)站場創(chuàng)建CH1注:有了DW的單位位,該塊塊是可選選的;數(shù)據(jù)站場場與數(shù)據(jù)倉庫庫功能上相相似。數(shù)據(jù)站場場的主要要功能::過濾濾、匹配配從DW中抽取取的數(shù)據(jù)據(jù);將DW集成成到新的的主題域域;創(chuàng)建建新的概概括或聚聚集;將DW中初初步概括括的數(shù)據(jù)據(jù)進(jìn)行高高度概括括;導(dǎo)出出新數(shù)據(jù)據(jù)(對不不同時間間、來源源者)。。CH14.DW存取與與使用塊塊實現(xiàn)DW的最終終功能———為用用戶提供供決策分分析和知知識挖掘掘的功能能。DW直接接存取數(shù)據(jù)集市市存取重構(gòu)工程程轉(zhuǎn)換為多維結(jié)構(gòu)構(gòu)創(chuàng)建局部部存儲元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建報表工具具分析工具具業(yè)務(wù)建模模工具DM工具具新產(chǎn)品應(yīng)用工具具元數(shù)據(jù)管理與報報表OLAP存取與檢檢索分析與報報表管理DW元數(shù)據(jù)CH1存取與檢檢索——為用用戶提供供訪問DW或數(shù)數(shù)據(jù)集市市的功能能。DW直接接存取數(shù)據(jù)集市市存取重構(gòu)工程程轉(zhuǎn)換為多維結(jié)構(gòu)構(gòu)創(chuàng)建局部部存儲利用這些些功能,,用戶可可以將檢檢索到的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)變?yōu)槎喽嗑S數(shù)據(jù)據(jù)并存儲儲到多維維數(shù)據(jù)庫庫中;可可以把DW或數(shù)數(shù)據(jù)集市市的數(shù)據(jù)據(jù)“卸載載”下來來以便進(jìn)進(jìn)行局部部分析、、數(shù)據(jù)挖挖掘等。。CH1分析與報報表——為用用戶提供供一組利利用DW或數(shù)據(jù)據(jù)集市進(jìn)進(jìn)行決策策分析或或知識挖挖掘的工工具。報表工具具分析工具具業(yè)務(wù)建模模工具DM工具具新產(chǎn)品應(yīng)用工具具OLAP包括:GIS,,DM工工具,,OLAP,可可視化工工具,EIS,4GL,統(tǒng)統(tǒng)計工具具,Internet瀏瀏覽器,,元數(shù)據(jù)據(jù)瀏覽器器,GUI程程序,電電子表格格,報表表生成器器,數(shù)據(jù)據(jù)訪問工工具等。。CH1元數(shù)據(jù)管管理元數(shù)據(jù)抽取與創(chuàng)建元數(shù)據(jù)管理與報表1.幫助用戶戶了解DW及及數(shù)據(jù)集市的的名稱、描述述說明、數(shù)值值、價值來源源等;2.了解數(shù)據(jù)據(jù)的名稱、數(shù)數(shù)值以及從抽抽取到存入DW或數(shù)據(jù)集集市的過程等等;3.了解數(shù)據(jù)據(jù)的定位、數(shù)數(shù)據(jù)的可靠性性以及如何存存取和使用數(shù)數(shù)據(jù);4.幫助用戶戶掌握數(shù)據(jù)的的正確內(nèi)容、、信息的粒度度、信息的概概括程度、原原始數(shù)據(jù)的來來源和日期等等;5.幫助驗證證數(shù)據(jù)源的質(zhì)質(zhì)量、判斷數(shù)數(shù)據(jù)的可靠性性等。CH15.數(shù)據(jù)管理理層模塊該模塊的構(gòu)成成如圖所示。。數(shù)據(jù)抽取、查詢與需求管理加載、存儲、刷新、更新系統(tǒng)安全性與授權(quán)管理歸檔、恢復(fù)和凈化系統(tǒng)1.從數(shù)據(jù)源源抽取數(shù)據(jù);;2.需要時,,追蹤并充實實數(shù)據(jù);3.數(shù)據(jù)查詢詢中的并行處處理的管理等等。1.完成數(shù)據(jù)據(jù)的加載;2.捕捉數(shù)據(jù)據(jù)的變化并用用以充實數(shù)據(jù)據(jù)倉庫;3.根據(jù)用戶戶以及DW管管理需求更新新DW等。1.禁止用戶戶進(jìn)行非法操操作;2.賦予用戶戶以不同的操操作權(quán)限等。。1.定期地進(jìn)進(jìn)行歸檔、備備份,以便恢恢復(fù)系統(tǒng);2.對從數(shù)據(jù)據(jù)源抽取的數(shù)數(shù)據(jù)進(jìn)行篩選選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報書語文
- 課題申報書咋寫
- 微課題研究申報書
- 借款合同范本員工向公司
- 醫(yī)學(xué)課題申報書 范文
- 學(xué)生曠課課題申報書
- 業(yè)務(wù)員用車合同范例
- 前后院老屋出租合同范本
- 合同范本文壁紙
- 創(chuàng)新專業(yè)研究課題申報書
- COP生產(chǎn)一致性控制計劃
- 2025年電力人工智能多模態(tài)大模型創(chuàng)新技術(shù)及應(yīng)用報告-西安交通大學(xué)
- 天津2025年天津市機(jī)關(guān)后勤事務(wù)服務(wù)中心分支機(jī)構(gòu)天津市迎賓館招聘2人筆試歷年參考題庫附帶答案詳解
- 2025年江蘇南京技師學(xué)院招聘工作人員19人高頻重點模擬試卷提升(共500題附帶答案詳解)
- 華東師大版七年級數(shù)學(xué)下冊“第1周周考”
- DBJ50-T-385-2023半柔性復(fù)合路面技術(shù)標(biāo)準(zhǔn)
- 職業(yè)院校教師人工智能素養(yǎng):內(nèi)涵流變、框架構(gòu)建與生成路徑
- 如何在初中數(shù)學(xué)教學(xué)中提升學(xué)生的核心素養(yǎng)
- (完整版)小學(xué)一年級數(shù)學(xué)20以內(nèi)進(jìn)退位加減法(1600道題)計算卡
- 2025年包頭鐵道職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 學(xué)習(xí)雷鋒主題班會雷鋒日學(xué)習(xí)雷鋒精神-
評論
0/150
提交評論