數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(第2版)-陳文偉版課后習(xí)題答案(非常全)(共30頁)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(第2版)-陳文偉版課后習(xí)題答案(非常全)(共30頁)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(第2版)-陳文偉版課后習(xí)題答案(非常全)(共30頁)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(第2版)-陳文偉版課后習(xí)題答案(非常全)(共30頁)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(第2版)-陳文偉版課后習(xí)題答案(非常全)(共30頁)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上第一章作業(yè)1 數(shù)據(jù)庫與數(shù)據(jù)倉庫的本質(zhì)差別是什么?書P2(1)數(shù)據(jù)庫用于事務(wù)處理,數(shù)據(jù)倉庫用于決策分析。(2)數(shù)據(jù)庫保持事物處理的當(dāng)前狀態(tài),數(shù)據(jù)倉庫即保存過去的數(shù)據(jù)又保存當(dāng)前的數(shù)據(jù)。(3)數(shù)據(jù)倉庫的數(shù)據(jù)是大量數(shù)據(jù)庫的集成。(4)對數(shù)據(jù)庫的操作比較明確,操作數(shù)量較小。對數(shù)據(jù)倉庫操作不明確,操作數(shù)據(jù)量大。2從數(shù)據(jù)庫發(fā)展到數(shù)據(jù)倉庫的原因是什么?書P1(1)數(shù)據(jù)庫數(shù)據(jù)太多,信息貧乏。如何將大量的數(shù)據(jù)轉(zhuǎn)化為輔助決策信息成為了研究熱點。(2)異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換和共享。隨著各類數(shù)據(jù)庫產(chǎn)品的增加,異構(gòu)環(huán)境的數(shù)據(jù)也逐漸增加,如何實現(xiàn)這些異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換的共享也成了研究熱點。(3)利用數(shù)

2、據(jù)進(jìn)行事物處理轉(zhuǎn)變?yōu)槔脭?shù)據(jù)支持決策。3舉例說明數(shù)據(jù)庫與數(shù)據(jù)倉庫的不同。比如,銀行中儲蓄業(yè)務(wù)要建立儲蓄數(shù)據(jù)庫,信用卡要建立信用卡數(shù)據(jù)庫,貸款業(yè)務(wù)要建立貸款數(shù)據(jù)庫,這些數(shù)據(jù)庫方便了銀行的事務(wù)處理。但是要對這些獨立數(shù)據(jù)庫進(jìn)行決策分析就很復(fù)雜了。因此可以把這些數(shù)據(jù)庫中的數(shù)據(jù)存儲轉(zhuǎn)化到數(shù)據(jù)倉庫中,方便進(jìn)行決策。4.OLTP(On Line Transaction Processing,聯(lián)機事物處理)是在網(wǎng)絡(luò)環(huán)境下的事務(wù)處理工作,以快速的響應(yīng)和頻繁的數(shù)據(jù)修改為特征,使用戶利用數(shù)據(jù)庫能夠快速地處理具體的業(yè)務(wù)。OLAP(On Line Analytical Processing,聯(lián)機分析處理)是使用多維數(shù)據(jù)

3、庫和多維分析的方法,對多個關(guān)系數(shù)據(jù)庫共同進(jìn)行大量的綜合計算來得到結(jié)果的方法。5.OLTP是用戶的數(shù)據(jù)可以立即傳送到計算中心進(jìn)行處理,并在很短的時間內(nèi)給出處理結(jié)果。6.OLTPOLAP細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)時間合理面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動7包括數(shù)據(jù)項、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)流、數(shù)據(jù)存儲和處理過程五個部分。8 定義為關(guān)于數(shù)據(jù)的數(shù)據(jù),描述數(shù)據(jù)倉庫中數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。9 元數(shù)據(jù)不僅僅是數(shù)據(jù)倉庫的字典,而且還是數(shù)據(jù)倉庫本身功能的說明數(shù)據(jù),是整個數(shù)據(jù)倉庫的核心。數(shù)據(jù)字典是關(guān)于數(shù)據(jù)庫中數(shù)據(jù)的描述,而不是

4、數(shù)據(jù)本身,數(shù)據(jù)字典是數(shù)據(jù)庫的元數(shù)據(jù)。10 .數(shù)據(jù)倉庫的定義是什么? 答:(1)W.H.Inmon對數(shù)據(jù)倉庫的定義:數(shù)據(jù)倉庫是面向主題的,集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定過程。 (2)SAS軟件研究所的觀點:數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理,達(dá)到有限的決策支持。 從數(shù)據(jù)倉庫定義可以看出,數(shù)據(jù)倉庫是明確為決策支持服務(wù)的,而數(shù)據(jù)庫是為事務(wù)處理服務(wù)的。11.數(shù)據(jù)倉庫的特點有哪些? 答:數(shù)據(jù)倉庫的特點有一下幾個:(1) 數(shù)據(jù)倉庫是面向主題的(2) 數(shù)據(jù)倉庫是集成的(3) 數(shù)據(jù)倉庫是穩(wěn)定的(4) 數(shù)據(jù)倉庫是隨時間變化的(5) 數(shù)據(jù)倉庫中的數(shù)據(jù)量很大(

5、6) 數(shù)據(jù)倉庫的軟硬件要求較高12、說明機器學(xué)習(xí)如何形成人工智能的學(xué)科方向。答:機器學(xué)習(xí)是研究使計算機模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,即讓計算機自動獲取知識。20世紀(jì)80年代,機器學(xué)習(xí)取得了較大成果,如AQ11系統(tǒng)、ID3決策樹方法等,讓機器學(xué)習(xí)上了一個新的臺階,機器學(xué)習(xí)便成為人工智能的一個主要學(xué)科方向。13、說明數(shù)據(jù)挖掘的含義。答:數(shù)據(jù)挖掘就是從數(shù)據(jù)庫中的所有數(shù)據(jù)記錄中歸納總結(jié)出知識,讓人們從抽象復(fù)雜的數(shù)據(jù)中看到客觀規(guī)律,以便做出決策。14、OLAP多維分析如何輔助決策?舉例說明。答:OLAP是在多維數(shù)據(jù)結(jié)構(gòu)上進(jìn)行數(shù)據(jù)分析的,一般在多維數(shù)據(jù)上切片、切塊成簡單數(shù)據(jù)來進(jìn)行分析,或是上鉆、下鉆來分析。O

6、LAP要查詢大量的日常商業(yè)信息,以及大量的商業(yè)活動變化情況,如每周購買量的變化值,經(jīng)理通過查詢變化值來做決策。例如經(jīng)理看到利潤小于預(yù)計值是,就會去深入到各地區(qū)去查看產(chǎn)品利潤情況,這樣他會發(fā)現(xiàn)一些比較異常的數(shù)據(jù)。經(jīng)過進(jìn)一步的分析和追蹤查詢可以發(fā)現(xiàn)問題并解決。15 OLAP是在帶層次的維度和跨維度進(jìn)行多維數(shù)據(jù)分析的。數(shù)據(jù)挖掘則不同,它是以變量和記錄為基礎(chǔ)進(jìn)行分析的。16比如對超市的所有的購物賬單中成對出現(xiàn)的商品的統(tǒng)計,可以有助于超市商品的合理擺放。17(1)常用統(tǒng)計(2)相關(guān)分析(3)回歸分析(4)假設(shè)檢驗(5)聚類分析(6)判別分析(7)主成分分析18、統(tǒng)計學(xué)與數(shù)據(jù)挖掘的不同。統(tǒng)計學(xué)主要是對數(shù)量

7、數(shù)據(jù)或連續(xù)值數(shù)據(jù)進(jìn)行數(shù)值計算的定量分析,得到數(shù)量信息。數(shù)據(jù)挖掘主要對離散數(shù)據(jù)進(jìn)行定性分析,得到規(guī)則知識。在統(tǒng)計學(xué)中有聚類分析和判別分析,它們與數(shù)據(jù)挖掘中的聚類和分類相似。但是,采用的標(biāo)準(zhǔn)不一樣,統(tǒng)計學(xué)的聚類采用的“距離”是歐式距離,即兩點間的坐標(biāo)(數(shù)值)距離。而數(shù)據(jù)挖掘的聚類采用的“距離”是海明距離,即屬性取值是否相同,相同者距離為0,不相同者距離為1??傊?,統(tǒng)計學(xué)與數(shù)據(jù)挖掘是有區(qū)別的,但是,它們之間是相互補充的。不少數(shù)據(jù)挖掘的著作中均把統(tǒng)計學(xué)的不少方法引入到數(shù)據(jù)挖掘中,與將機器學(xué)習(xí)中不少方法引入到數(shù)據(jù)挖掘中一樣,作為從數(shù)據(jù)獲取知識的一大類方法。19、說明數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的不同。數(shù)據(jù)倉庫是在

8、數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的。它將大量的數(shù)據(jù)庫的數(shù)據(jù)按決策需求進(jìn)行重新組織,以數(shù)據(jù)倉庫的形式進(jìn)行存儲,將為用戶提供輔助決策的隨機查詢、綜合信息以及隨時間變化的趨勢分析信息等。數(shù)據(jù)倉庫是一種存儲技術(shù),其數(shù)據(jù)存儲量是一般數(shù)據(jù)庫的100倍,包含大量的歷史數(shù)據(jù)、當(dāng)前的詳細(xì)數(shù)據(jù)以及綜合數(shù)據(jù)。它能適應(yīng)不同用戶對不同決策需要提供所需的數(shù)據(jù)和信息。數(shù)據(jù)挖掘是從人工智能機器學(xué)習(xí)中發(fā)展起來的。它研究各種方法和技術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知識。最常用的數(shù)據(jù)挖掘方法是統(tǒng)計分析方法、神經(jīng)網(wǎng)絡(luò)方法和機器學(xué)習(xí)中研究的方法。數(shù)據(jù)挖掘中采用機器學(xué)習(xí)的方法有歸納學(xué)習(xí)方法(如覆蓋正例排斥反例方法,如AQ系列算法、決策樹方法等

9、)、遺傳算法、發(fā)現(xiàn)學(xué)習(xí)算法(如公式發(fā)現(xiàn)系統(tǒng)BACON)等。利用數(shù)據(jù)挖掘的方法和技術(shù)從數(shù)據(jù)倉庫中挖掘的信息和知識,反映了數(shù)據(jù)倉庫中數(shù)據(jù)的規(guī)律性。用戶利用這些信息和知識來指導(dǎo)和幫助決策。例如,利用分類規(guī)則來預(yù)測未知實體的類別。20、數(shù)據(jù)挖掘應(yīng)用于數(shù)據(jù)庫與數(shù)據(jù)挖掘應(yīng)用與數(shù)據(jù)倉庫有什么不同。數(shù)據(jù)挖掘興起是針對數(shù)據(jù)庫的,隨著數(shù)據(jù)倉庫的興起和發(fā)展,由于數(shù)據(jù)倉庫不同于數(shù)據(jù)庫,數(shù)據(jù)挖掘也隨之發(fā)生變化。 (1)數(shù)據(jù)存儲方式的不同數(shù)據(jù)庫的數(shù)據(jù)存儲是按照管理業(yè)務(wù)中事物處理項目的要求而存放的。 數(shù)據(jù)倉庫的數(shù)據(jù)存儲是按決策分析需求而存放的。這種需求是以決策主題為對象的,典型的主題是客戶。這樣,在數(shù)據(jù)倉庫中客戶數(shù)據(jù)需要從

10、多個數(shù)據(jù)庫集成而來,如銀行數(shù)據(jù)倉庫需要從儲蓄、信用卡、貸款等不同數(shù)據(jù)庫中,對同一客戶的數(shù)據(jù)抽取并集成在一起,以便完成對該客戶的分析。 (2)數(shù)據(jù)存儲的數(shù)據(jù)量的不同數(shù)據(jù)庫的數(shù)據(jù)存儲量相對數(shù)據(jù)倉庫的數(shù)據(jù)存儲量小得多。從上面的例子可以看出,以客戶主題建立數(shù)據(jù)倉庫的數(shù)據(jù)量是儲蓄、信用卡、貸款3個數(shù)據(jù)庫的數(shù)據(jù)量的總和。按一般的統(tǒng)計,數(shù)據(jù)倉庫的數(shù)據(jù)量是數(shù)據(jù)庫數(shù)據(jù)量的100倍。數(shù)據(jù)倉庫的數(shù)據(jù)量比數(shù)據(jù)庫的數(shù)據(jù)量大這么多在于:數(shù)據(jù)倉庫中的數(shù)據(jù)(近期基本數(shù)據(jù))是數(shù)據(jù)庫中數(shù)據(jù)按決策主題重新組織并集成而來;數(shù)據(jù)倉庫中數(shù)據(jù)還需要保留大量的歷史數(shù)據(jù),用于預(yù)測分析;數(shù)據(jù)倉庫為了給不同級別管理者提供各種決策分析的數(shù)據(jù),需要對

11、近期基本數(shù)據(jù)進(jìn)行輕度綜合和高度綜合,這些綜合數(shù)據(jù)在數(shù)據(jù)倉庫中占據(jù)了不小的比重。近期基本數(shù)據(jù)、歷史數(shù)據(jù)、綜合數(shù)據(jù)三者的數(shù)據(jù)相加,使數(shù)據(jù)倉庫的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)庫中的數(shù)據(jù)量。(3)數(shù)據(jù)存儲的結(jié)構(gòu)不同由于數(shù)據(jù)倉庫的數(shù)據(jù)量遠(yuǎn)大于數(shù)據(jù)庫的存儲量,數(shù)據(jù)庫的關(guān)系型二維(平面)存儲格式不能適應(yīng)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)存儲結(jié)構(gòu)采用多維的超立方體結(jié)構(gòu)形式。數(shù)據(jù)倉庫的數(shù)據(jù)存儲結(jié)構(gòu)采用星型模型或者多維立體數(shù)據(jù)庫形式。21:答:數(shù)據(jù)倉庫實在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的,它將大量的數(shù)據(jù)庫的數(shù)據(jù)按決策需求進(jìn)行重新組織,以數(shù)據(jù)倉庫的形式進(jìn)行存儲。數(shù)據(jù)挖掘是從人工智能機器學(xué)習(xí)中發(fā)展起來的,它研究各種方法和技術(shù),從大量的數(shù)據(jù)挖掘出有

12、用的信息和知識。數(shù)據(jù)挖掘應(yīng)用于數(shù)據(jù)倉庫后,能挖掘更深層次上的信息,如:哪些商品一起銷售更好?高價值客戶的共同點是什么?等。22:答:數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提出的新要求為:1,數(shù)據(jù)挖掘需要可擴展性。2,數(shù)據(jù)挖掘方法需要能挖掘多維知識。23:答:數(shù)據(jù)倉庫視為輔助決策而建立的,單依靠數(shù)據(jù)倉庫達(dá)到輔助決策的能力是有限的,綜合信息和預(yù)測信息是數(shù)據(jù)倉庫所獲得的輔助決策信息。數(shù)據(jù)倉庫中增加聯(lián)機分析處理和數(shù)據(jù)挖掘等分析工具,能較大的提高輔助決策能力。數(shù)據(jù)倉庫和聯(lián)機分析處理幾數(shù)據(jù)挖掘結(jié)合的決策支持系統(tǒng),是以數(shù)據(jù)倉庫為基礎(chǔ)的,稱為基于數(shù)據(jù)倉庫的決策支持系統(tǒng)。概括地說:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)是從數(shù)據(jù)倉庫的數(shù)據(jù)中獲取

13、輔助決策信息和知識,為決策提供支持。24基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的組成是什么?答:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)由三個部件組成:數(shù)據(jù)倉庫技術(shù),聯(lián)機分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù),其中數(shù)據(jù)倉庫技術(shù)是系統(tǒng)的核心。25畫出基于數(shù)據(jù)倉庫的決策支持系統(tǒng)結(jié)構(gòu)圖。如圖:26說明基于數(shù)據(jù)倉庫的決策支持系統(tǒng)與傳統(tǒng)決策支持系統(tǒng)有什么區(qū)別。答:數(shù)據(jù)倉庫技術(shù)將傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)及其他源數(shù)據(jù)進(jìn)行了抽取、轉(zhuǎn)換、裝載等工作,使之成為統(tǒng)一、集中、穩(wěn)定的數(shù)據(jù),并在元數(shù)據(jù)庫中保存了數(shù)據(jù)轉(zhuǎn)換、映射等過程,就能為決策過程提供良好的數(shù)據(jù)基礎(chǔ)。而傳統(tǒng)的決策支持系統(tǒng)主要以關(guān)系數(shù)據(jù)庫為基礎(chǔ),主要關(guān)注于對數(shù)據(jù)的操作,很難有效率地獲取決策需要的信息。

14、27. 商業(yè)智能描述了一系列的概念和方法,通過應(yīng)用基于事實的支持系統(tǒng)來輔助商業(yè)決策的制定。商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。28 可以認(rèn)為,商業(yè)智能是對商業(yè)信息的搜集、管理和分析過程,目的是使企業(yè)的各級決策者獲得知識或洞察力(insight),促使他們做出對企業(yè)更有利的決策。商業(yè)智能一般由數(shù)據(jù)倉庫、聯(lián)機分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成。商業(yè)智能的實現(xiàn)涉及到軟件、硬件、咨詢服務(wù)及應(yīng)用,其基本體系結(jié)構(gòu)包括數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘三個部分。29 信息共享, 實時反饋系統(tǒng) ,鼓勵用戶找出問題的根

15、本原因,使用主動智能,實時智能等方面第二章作業(yè)周劼人1-3 郭朋4-6 王國梁7-9 旦增群培10-11 劉洋12-14 許赟昊15-17 杜海洋18-20 徐文松21-23 何金海24-25 陶漢26-271. 畫出數(shù)據(jù)倉庫的結(jié)構(gòu)圖,說明各部分內(nèi)容。P18當(dāng)前基本數(shù)據(jù)是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分?jǐn)?shù)據(jù)量大。隨著時間的推移,有數(shù)據(jù)倉庫的時間控制機制轉(zhuǎn)為歷史數(shù)據(jù),輕度綜合數(shù)據(jù)是從當(dāng)前基本數(shù)據(jù)中提取出來的,最高一層是高度綜合數(shù)據(jù)層,這一層的數(shù)據(jù)十分精煉,是一種準(zhǔn)決策數(shù)據(jù)。2. 說明數(shù)據(jù)倉庫結(jié)構(gòu)圖中包含輕度綜合層與高度綜合數(shù)據(jù)層的作用。這些數(shù)據(jù)為什么不是臨時計算出來的。P18-1

16、9數(shù)據(jù)倉庫除了存儲按主題組織起來的當(dāng)前詳細(xì)數(shù)據(jù)外,還需要存儲綜合數(shù)據(jù),這是為了適應(yīng)決策需求而增加的。在數(shù)據(jù)庫中需要得到綜合數(shù)據(jù)時,采用數(shù)據(jù)立方體的方法對詳細(xì)數(shù)據(jù)進(jìn)行綜合。在數(shù)據(jù)倉庫中并不采取臨時計算的方式得到綜合數(shù)據(jù),而在用戶提出需要綜合數(shù)據(jù)之前,就預(yù)先將可能的綜合數(shù)據(jù)利用數(shù)據(jù)立方體計算好,存入綜合數(shù)據(jù)層中,這種綜合數(shù)據(jù)層在用戶查詢時,能迅速提供給用戶。3. 說明數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別和聯(lián)系。P20聯(lián)系:數(shù)據(jù)集市是一種更小,更集中的數(shù)據(jù)倉庫,為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個具有戰(zhàn)略意義的應(yīng)用或者具體部門級的應(yīng)用,支持用戶利用已有的數(shù)據(jù)獲

17、得重要的競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。區(qū)別:(1)數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的, 它面向企業(yè)范圍內(nèi)的主題。而數(shù)據(jù)集市是按照某一 特定部門的數(shù)據(jù)模型建立的。(2)部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián), 也可能不存在關(guān)聯(lián)。(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。4.1、規(guī)模是小的2、特定的應(yīng)用3、面向部門4、由業(yè)務(wù)部門定義,設(shè)計和開發(fā)5、由業(yè)務(wù)部門管理和維護(hù)6、快速實現(xiàn)7、購買較便宜8、投資快速回收9、更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集10、可升級到完整的數(shù)據(jù)倉庫5. 獨立型數(shù)據(jù)集市直接從操作型環(huán)境獲取數(shù)據(jù),從屬型數(shù)據(jù)集市從企業(yè)級數(shù)據(jù)倉庫獲取數(shù)據(jù),帶有從屬型數(shù)據(jù)集市的

18、體系結(jié)構(gòu)。6.原因:倉庫管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計和報告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲管理。訪問工具:為用戶訪問數(shù)據(jù)倉庫提供手段7 倉庫管理包括數(shù)據(jù)建模;數(shù)據(jù)抽取、轉(zhuǎn)換、裝載;元數(shù)據(jù);系統(tǒng)管理四部分。8 分析工具包含的內(nèi)容:查詢工具、多維數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具、客戶/服務(wù)器。數(shù)據(jù)倉庫服務(wù)器客戶端9 二層C/S結(jié)構(gòu)數(shù)據(jù)倉庫服務(wù)器三層C/S結(jié)構(gòu)客戶端OLAP服務(wù)器OLAP服務(wù)器將加強和規(guī)范化決策支持的服務(wù)工作,集中和簡化了數(shù)據(jù)倉庫服務(wù)器的部分工作,即OLAP服務(wù)器從數(shù)據(jù)倉庫服務(wù)器中抽取數(shù)據(jù),在OLAP服務(wù)器

19、中轉(zhuǎn)換成客戶端要求的多維視圖,并進(jìn)行多維數(shù)據(jù)分析,將分析結(jié)果傳送給客戶端,這種結(jié)構(gòu)形式工作效率更高。10.數(shù)據(jù)倉庫的邏輯模型有哪些? 答:星型模型、雪花模型、星網(wǎng)模型、第三范式。11.數(shù)據(jù)模型與數(shù)學(xué)模型有什么區(qū)別? 答:數(shù)據(jù)模型是數(shù)據(jù)特征的抽象,數(shù)據(jù)管理教學(xué)的形式框架,數(shù)據(jù)庫系統(tǒng)中用以提高信息表示和操作手段的形勢構(gòu)架。數(shù)據(jù)模型包括數(shù)據(jù)庫的數(shù)據(jù)的結(jié)構(gòu)部分、數(shù)據(jù)庫數(shù)據(jù)的操作部分和數(shù)據(jù)庫數(shù)據(jù)的約束條件。數(shù)學(xué)模型是根據(jù)對研究對象所觀察到的現(xiàn)象及實踐經(jīng)驗,歸結(jié)成的一套反映其內(nèi)部因素數(shù)量關(guān)系的數(shù)學(xué)公式、邏輯準(zhǔn)則和具體算法。用以描述和研究客觀現(xiàn)象的運動規(guī)律。12、說明星型模型有什么好處。答:星型模型使非規(guī)范

20、化的,用增加存儲空間的代價來提高數(shù)據(jù)查詢速度,且數(shù)據(jù)的冗余保持在最少,并減少當(dāng)數(shù)據(jù)改變時系統(tǒng)必須執(zhí)行的動作。13、說明數(shù)據(jù)倉庫的數(shù)據(jù)模型為什么含時間維數(shù)據(jù)。答:因為數(shù)據(jù)倉庫不僅存儲當(dāng)前的最新數(shù)據(jù),它還存儲過去的所有數(shù)據(jù),即隨著時間的推移,所有的當(dāng)前數(shù)據(jù)都會變成歷史數(shù)據(jù)。有時間維數(shù)據(jù)不僅方便查詢某一時間的數(shù)據(jù),還有助于得到一時期的數(shù)據(jù)變化規(guī)律。14、說明雪花模型與星網(wǎng)模型的不同點。答:雪花模型使對星型模型的擴展,是對星型模型的維表進(jìn)一步層次化,原來的維表被擴展為小的事實表。星網(wǎng)模型是多個相關(guān)的星型模型通過相同的維表連接起來形成的網(wǎng)狀結(jié)構(gòu),即事實表之間有共享的維表。15第三范式不同于星型模型之處在

21、于,把事實表和維表的屬性作為一個實體都集中在同一數(shù)據(jù)庫表中,或分成多個實體用多個表來表示,每個表按第三范式組織數(shù)據(jù)。它減少了為表中的鍵和不必要的屬性。16星型模型優(yōu)點:星型模型是非規(guī)范化的,以增加存儲空間代價,提高了多維數(shù)據(jù)的查詢速度。星型模型缺點:當(dāng)業(yè)務(wù)問題發(fā)生變化時,原來的維不能滿足要求時,需要增加新的維。由于事實表的主鍵由所有的維表的主鍵組成,因此這種維的變化帶來數(shù)據(jù)變化將是非常復(fù)雜、非常耗時的。第三范式優(yōu)點:解決數(shù)據(jù)冗余,善于處理海量數(shù)據(jù)且需要處理大量的動態(tài)業(yè)務(wù)。第三范式缺點:使用第三范式會形成比較復(fù)雜的關(guān)系表。17ETL過程的主要步驟概括為:(1)決定數(shù)據(jù)倉庫中需要的所有的目標(biāo)數(shù)據(jù)(

22、2)決定所有的數(shù)據(jù)源,包括內(nèi)部和外部的數(shù)據(jù)源(3)準(zhǔn)備從源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的數(shù)據(jù)映射關(guān)系(4)建立全面的數(shù)據(jù)抽取規(guī)則(5)決定數(shù)據(jù)轉(zhuǎn)換和清洗規(guī)則(6)為綜合表制定計劃(7)組織數(shù)據(jù)緩沖區(qū)域和檢測工具(8)為所有的數(shù)據(jù)裝載編寫規(guī)程(9)維度表的抽取、轉(zhuǎn)換和裝載(10)事實表的抽取、轉(zhuǎn)換和裝載18、說明數(shù)據(jù)抽取工作的內(nèi)容。數(shù)據(jù)抽取工作包括以下兩點。1確認(rèn)數(shù)據(jù)源對數(shù)據(jù)源的確認(rèn)不僅是對數(shù)據(jù)源的簡單確認(rèn),還包括檢查和確定數(shù)據(jù)源是否可以提供數(shù)據(jù)倉庫需要的數(shù)據(jù)。該項工作包括:(1)列出對事實表的每一個數(shù)據(jù)項和事實;(2)列出每一個維度屬性;(3)對于每個目標(biāo)數(shù)據(jù)項,找出源數(shù)據(jù)項;(4)數(shù)據(jù)倉庫中一個數(shù)據(jù)元素有

23、多個來源,學(xué)則最好的來源;(5)確認(rèn)一個目標(biāo)字段的多個源字段,建立合并規(guī)則;(6)確認(rèn)多個目標(biāo)字段的一個源字段,建立分離規(guī)則;(7)確定默認(rèn)值;(8)檢查缺失值的源數(shù)據(jù)。2數(shù)據(jù)抽取技術(shù)數(shù)據(jù)抽取時要考慮兩種情況: (1)當(dāng)前值。源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時刻的值,當(dāng)商業(yè)交易時,這些數(shù)據(jù)是會發(fā)生變化的。(2)周期性的狀態(tài)。這類數(shù)據(jù)存儲的是每次發(fā)生變化時的狀態(tài)。例如,對于每一保險索賠,都經(jīng)過索賠開始、確認(rèn)、評估和解決等步驟,都要考慮時間說明。在建立數(shù)據(jù)倉庫時,從某一特定時間開始的最初數(shù)據(jù)必須遷移到數(shù)據(jù)倉庫中,以使數(shù)據(jù)倉庫開始運轉(zhuǎn),這是初始裝載。在初始裝載之后,數(shù)據(jù)倉庫必須保持更新,使變化的歷史和

24、狀態(tài)可以在數(shù)據(jù)倉庫中反映出來。數(shù)據(jù)抽取完成兩類數(shù)據(jù)的抽?。?1)靜態(tài)數(shù)據(jù)的抽取。一般在數(shù)據(jù)倉庫的初始裝載時抽取的是靜態(tài)數(shù)據(jù),它代表了某個時刻的快照。(2)修正數(shù)據(jù)的抽取。它也稱為追加的數(shù)據(jù)抽取。修正數(shù)據(jù)的抽取過程包括特定時刻抽取的數(shù)據(jù)值,分為立即型數(shù)據(jù)抽取(實時的數(shù)據(jù)抽取)和延緩型的數(shù)據(jù)抽取。立即型數(shù)據(jù)抽取的典型方法是通過讀取交易日志抽取所有相關(guān)交易記錄。一般利用復(fù)制技術(shù)從交易日志中捕獲交易日志中的變化數(shù)據(jù),從日志傳輸?shù)侥繕?biāo)文件中,并檢驗數(shù)據(jù)變化的傳輸情況,確保復(fù)制的成功。延緩型數(shù)據(jù)抽取的典型方法是,通過讀取源記錄中包括日期和時間的標(biāo)記,抽取更新源記錄的數(shù)據(jù)。如果沒有時間標(biāo)記的舊數(shù)據(jù)源,就要通

25、過“快照對比技術(shù)”,即通過比較源數(shù)據(jù)的兩個快照來抽取變化的數(shù)據(jù)。19、說明數(shù)據(jù)轉(zhuǎn)換的基本功能。數(shù)據(jù)轉(zhuǎn)換的基本功能:(1)選擇。從源系統(tǒng)中選擇整個記錄或者部分記錄。 (2)分離合并。對源系統(tǒng)中記錄中的數(shù)據(jù)進(jìn)行分離操作或者對很多源系統(tǒng)中選擇的部分?jǐn)?shù)據(jù)進(jìn)行合并操作。(3)轉(zhuǎn)化。對字段的轉(zhuǎn)化包括對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和使字段對用戶來說是可用和可理解的。(4)匯總。數(shù)據(jù)倉庫中需要保存很多匯總數(shù)據(jù)。這需要將最低粒度數(shù)據(jù)進(jìn)行匯總。(5)清晰化。對單個字段數(shù)據(jù)進(jìn)行重新分配和化簡的過程,使數(shù)據(jù)倉庫更便利使用。20、數(shù)據(jù)轉(zhuǎn)換有哪些類型。(1)格式修正。包括數(shù)據(jù)類型和單個字段長度的變化,例如在源系統(tǒng)中,產(chǎn)品類型通過代碼

26、和名稱在數(shù)值型和文本類型中表示,不同的源系統(tǒng)將會有所不同,對這些數(shù)據(jù)類型進(jìn)行標(biāo)準(zhǔn)化,改變成更有意義的文本值。(2)字段的解碼。對所有晦澀的編碼進(jìn)行解碼,將它們變成用戶可以理解的值。 (3)計算值和導(dǎo)出值。在數(shù)據(jù)倉庫中,有時需要用銷售和成本一起計算出利潤值。導(dǎo)出字段包括平均每天的收支差額和相關(guān)比率。(4)單個字段的分離。在舊系統(tǒng)中將客戶名稱、地址存放在大型文本字段中;姓和名存放在一個字段中;城市、地區(qū)和郵政編碼存放在一個字段中。在數(shù)據(jù)倉庫中卻需要將姓名和地址存放在不同的字段中,便利不同要求的分析工作。(5)信息的合并。例如,一個產(chǎn)品的信息可能從不同的數(shù)據(jù)源中獲得:產(chǎn)品編碼和產(chǎn)品名從一個數(shù)據(jù)源得到

27、;相關(guān)包裝類型從另一個數(shù)據(jù)源中得到;成本數(shù)據(jù)從第三個數(shù)據(jù)源中得到。信息合并是將產(chǎn)品編碼、產(chǎn)品名、包裝類型和成本的有機組合,成為一個新的實體。(6)特征集合轉(zhuǎn)化。例如,在源系統(tǒng)中數(shù)據(jù)采用EBCDIC碼,而數(shù)據(jù)倉庫數(shù)據(jù)采用ASCII碼這將要進(jìn)行代碼集合的轉(zhuǎn)化。 (7)度量單位的轉(zhuǎn)化。使數(shù)據(jù)具有相同的標(biāo)準(zhǔn)度量單位。不少國家有自己的度量單位,需要在數(shù)據(jù)倉庫中采用標(biāo)準(zhǔn)度量單位。(8)日期時間轉(zhuǎn)化。日期和時間的表示應(yīng)該轉(zhuǎn)化成國際標(biāo)準(zhǔn)格式。如2005年lo月15日在美國表示成Io152005,而在英國表示為15102005。標(biāo)準(zhǔn)格式為15 OCT 2005。(9)匯總。這種類型的轉(zhuǎn)換是創(chuàng)建數(shù)據(jù)倉庫的匯總數(shù)據(jù)

28、。匯總數(shù)據(jù)適合于客觀戰(zhàn)略性的查詢。(10)關(guān)鍵字重新構(gòu)造。在源系統(tǒng)中關(guān)鍵字可能包含很多項的內(nèi)容。如產(chǎn)品編碼包括倉庫代碼、銷售區(qū)域、產(chǎn)品編碼等多項內(nèi)容。在數(shù)據(jù)倉庫中,關(guān)鍵字要發(fā)生變化,轉(zhuǎn)換成適合于事實表和維表的普通鍵值。21答:數(shù)據(jù)倉庫中最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字典。由于數(shù)據(jù)倉庫和數(shù)據(jù)庫有很大的不同,因此元數(shù)據(jù)的作用遠(yuǎn)不是數(shù)據(jù)字典所能相比的。元數(shù)據(jù)在數(shù)據(jù)倉庫中有著舉足輕重的作用,它不僅僅定義了數(shù)據(jù)倉庫有什么,指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲了與數(shù)據(jù)倉庫有關(guān)的各種商業(yè)信息,而且整個數(shù)據(jù)倉庫的運行都是基于元數(shù)據(jù)的,如數(shù)據(jù)的修改,跟蹤,抽取,裝入,綜合等

29、。22答:關(guān)于數(shù)據(jù)源的元數(shù)據(jù)是現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息,是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述,具體為:1,數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。2,所有數(shù)據(jù)項的業(yè)務(wù)定義。3,每個數(shù)據(jù)項更新的頻率,以及由誰或哪個過程更改過。4,每個數(shù)據(jù)項的有效值。5,其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項的清單。23答:關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,是用戶管理數(shù)據(jù)倉庫的基礎(chǔ)。這種元數(shù)據(jù)可以支持從數(shù)據(jù)倉庫中獲取數(shù)據(jù)。用戶可以提出需要哪些表,系統(tǒng)從中選一個表,并得到表之間的關(guān)系。重復(fù)該過程,用戶希望能夠得到希望的數(shù)據(jù)。24什么是關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)? 答

30、:關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)間的關(guān)系,支持用戶從數(shù)據(jù)倉庫中獲取數(shù)據(jù)。25什么是關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)?答:關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù),反映了數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)之間的映射,以及數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源抽取的,經(jīng)過了哪些轉(zhuǎn)換、變換和裝載。26用于描述要素、數(shù)據(jù)集或數(shù)據(jù)集系列的內(nèi)容、覆蓋范圍、質(zhì)量、管理方式、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式等有關(guān)的信息。27元數(shù)據(jù)告訴數(shù)據(jù)倉庫如何按照主題查看數(shù)據(jù)倉庫的內(nèi)容。 元數(shù)據(jù)提供已有的可以重復(fù)利用的 語言的信息。第三章作業(yè)周劼人1-3 郭朋4-6 王國梁7-8 旦增群培9-10 劉洋11-12 許赟昊13-14 杜海洋15-16 徐

31、文松17-18 何金海19-20 陶漢21-221. 聯(lián)機分析處理(OLAP)的簡單定義是什么?它體現(xiàn)的特征是什么。P40聯(lián)機分析處理是共享多維信息的快速分析。它體現(xiàn)在四個特征:(1)快速性(2)可分析性(3)多維性(4)信息性2. OLAP準(zhǔn)則中的主要準(zhǔn)則有哪些?P41(1) 多維概念視圖(2)透明性(3)可訪問性(4)一直穩(wěn)定的報表性能(5)客戶/服務(wù)器體系結(jié)構(gòu)(6)維的等同性(7)動態(tài)的系數(shù)矩陣處理(8)多用戶支持能力(9)非限定的跨維操作(10)直觀的數(shù)據(jù)操作(11)靈活的報表生成(12)不受限制的維和聚集層次3.什么是維?關(guān)系數(shù)據(jù)庫是二維數(shù)據(jù)嗎?如何理解多維數(shù)據(jù)?P43維是人們觀察數(shù)

32、據(jù)的特定角度。關(guān)系數(shù)據(jù)庫不是二維數(shù)據(jù),只是通過二維關(guān)系表示了數(shù)據(jù)的多維概念。多維數(shù)據(jù)就是從多個特定角度來觀察特定的變量。4.MDDB(Multi Dimensional Database, 多維數(shù)據(jù)庫)是以多維的方式組織數(shù)據(jù),即以維作為坐標(biāo)系,采用類似于數(shù)組的形式存儲數(shù)據(jù)。RDBMS(relational database management system,關(guān)系型數(shù)據(jù)庫管理系統(tǒng))通過數(shù)據(jù)、關(guān)系和對數(shù)據(jù)的約束三者組成的數(shù)據(jù)模型來存放和管理數(shù)據(jù)MDDB特點:1. 數(shù)據(jù)庫中的元素具有相同的數(shù)值2. 多維數(shù)據(jù)庫表達(dá)清晰,3. 占用存儲少RDBMS的特點:1.數(shù)據(jù)以表格的形式出現(xiàn)2.每行為各種記錄名稱

33、3.每列為記錄名稱所對應(yīng)的數(shù)據(jù)域4.許多的行和列組成一張表單5.若干的表單組成database5.1.數(shù)據(jù)存取速度ROLAP服務(wù)器需要將SQL語句轉(zhuǎn)化為多維存儲語句,臨時“拼合”出多維數(shù)據(jù)立方體。因此,ROLAP的響應(yīng)時間較長。MOLAP在數(shù)據(jù)存儲速度上性能好,響應(yīng)速度快。 2.數(shù)據(jù)存儲的容量ROLAP使用的傳統(tǒng)關(guān)系數(shù)據(jù)庫的存儲方法,在存儲容量上基本沒有限制。MOLAP通常采用多平面疊加成立體的方式存放數(shù)據(jù)。當(dāng)數(shù)據(jù)量超過操作系統(tǒng)最大文件長度時,需要進(jìn)行數(shù)據(jù)分割。多維數(shù)據(jù)庫的數(shù)據(jù)量級難以達(dá)到太大的字節(jié)級。 3.多維計算的能力MOLAP能夠支持高性能的決策支持計算。ROLAP無法完成多行的計算和維

34、之間的計算。4.維度變化的適應(yīng)性MOLAP增加新的維度,則多維數(shù)據(jù)庫通常需要重新建立。ROLAP對于維表的變更有很好的適應(yīng)性。5.數(shù)據(jù)變化的適應(yīng)性當(dāng)數(shù)據(jù)頻繁的變化時,MOLAP需要進(jìn)行大量的重新計算,甚至重新建立索引乃至重構(gòu)多維數(shù)據(jù)庫。在ROLAP中靈活性較好,對于數(shù)據(jù)變化的適應(yīng)性高。6.軟硬件平臺的適應(yīng)性ROLAP對軟硬件平臺的適應(yīng)性很好,而MOLAP相對較差。7.元數(shù)據(jù)管理目前在元數(shù)據(jù)的管理,MOLAP和ROLAP都沒有成形的標(biāo)準(zhǔn)。 6.在HOLAP中,對最常用的維度和維層次,使用多維數(shù)據(jù)表來存儲,對于用戶不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來存儲。7多維數(shù)據(jù)顯示的兩種方法:關(guān)系數(shù)據(jù)

35、庫方式和多維數(shù)據(jù)庫方式。關(guān)系數(shù)據(jù)庫可以顯示更多維的數(shù)據(jù),但用事實表顯示多維數(shù)據(jù)時,重復(fù)數(shù)據(jù)很多,也很繁瑣;多維數(shù)據(jù)庫雖然不能同時顯示三維以上數(shù)據(jù),但顯示的數(shù)據(jù)很精煉。8多維類型結(jié)構(gòu):每一個維度用一條線段來表示,維度上的每個成員都用線段上一個單位區(qū)間來表示。例如,用三個線段分別表示時間、產(chǎn)品和指標(biāo)三個維的多維類型結(jié)構(gòu):9.舉例說明四維數(shù)據(jù)顯示? 答·10.舉例說明六位數(shù)據(jù)顯示?答:11、多維數(shù)據(jù)顯示的經(jīng)驗規(guī)則是什么?答:多維數(shù)據(jù)的顯示只能在平面上展現(xiàn)出來,用多維數(shù)據(jù)庫顯示時,不能同時顯示三維以上數(shù)據(jù),但可以固定一些維成員,重點顯示兩維維數(shù)據(jù)。最有效表示多維數(shù)據(jù)使用多維類型結(jié)構(gòu)(MTS)

36、,即每一維用一條線段表示,維度中每一個成員都用線段上的一個區(qū)間表示。還可以使用行、列和頁表三個顯示組來表示。 經(jīng)驗規(guī)則:1. 將維度盡量放在頁中,除非確定需要同時看到一個維度的多個成員;2. 當(dāng)維度嵌套在行貨列中時,考慮到垂直空間比水平空間更有用,所以講維度嵌套在列中比嵌套在行中要好;3. 在決定數(shù)據(jù)的屏幕顯示方式前,應(yīng)首先弄清楚需要查找和分析比較的內(nèi)容;12、舉例說明OLAP的多維數(shù)據(jù)分析的切片操作。答:切片就是在某兩個維上取一定區(qū)間的維成員或全部維成員。如用三維數(shù)組表示為(地區(qū),時間,產(chǎn)品,銷售額),如果在地區(qū)維度上選定一個維成員,就可以得到在該地區(qū)的一個切片(關(guān)于時間和產(chǎn)品的切片)。13

37、比如部門銷售數(shù)據(jù)表中部門1的銷售額為900元,對時間維進(jìn)行下鉆操作,可以得到各個季度分別的銷售額為多少。14(1) 切片:切片就是在某兩個維上取一定區(qū)間的為成員或全部維成員,而在其余的維上選定一個維成員的操作。切片的作用就是舍棄一些觀察角度,使人們能在兩個維上集中觀察數(shù)據(jù)。(2) 切塊:切塊分兩種情況:(1)在多維數(shù)據(jù)的某一個維上選定某一區(qū)間的維成員的操作。(2)選定多維數(shù)組的一個三維子集的操作。切塊可以看成是在切片的基礎(chǔ)上確定某一個維成員的區(qū)間得到的片段,也即由多個切片疊合起來的。(3) 鉆?。合蛳裸@取是使用戶在多層數(shù)據(jù)中能通過導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),向上鉆取獲取概括性信息。(4)

38、旋轉(zhuǎn):通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù),旋轉(zhuǎn)操作相當(dāng)于平面數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)。15、廣義OLAP功能如何提高多維數(shù)據(jù)分析能力。廣義OLAP功能主要是通過四個模型逐層深入從而提高多維數(shù)據(jù)分析能力。這四個模型分別是:(1)絕對模型它屬于靜態(tài)數(shù)據(jù)分析,通過比較歷史數(shù)據(jù)值或行為來描述過去發(fā)生的事實。該模型查詢比較簡單,綜合路徑是預(yù)先定義好的,用戶交互少。(2)解釋模型它也屬于靜態(tài)數(shù)據(jù)分析,分析人員利用系統(tǒng)已有的多層次的綜合路徑層層細(xì)化,找出事實發(fā)生的原因。(3)思考模型它屬于動態(tài)數(shù)據(jù)分析,旨在說明在一維或多維上引入一組具體變量或參數(shù)后將會發(fā)生什么。分析人員在引入確定的變量或公式關(guān)系時,必須創(chuàng)建大量的綜合路

39、徑。(4)公式模型它的動態(tài)數(shù)據(jù)分析能力更高,該模型表示在多個維上,需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。16、說明數(shù)據(jù)立方體的概念數(shù)據(jù)立方體的概念是1996年,Jim Gray等首次提出的。數(shù)據(jù)立方體是實現(xiàn)多維數(shù)據(jù)查詢與分析的一種重要手段。實質(zhì)上,數(shù)據(jù)立方體就是數(shù)據(jù)倉庫結(jié)構(gòu)圖中的綜合數(shù)據(jù)層。從此,基于數(shù)據(jù)立方體的生成方法一直是OLAP和數(shù)據(jù)倉庫領(lǐng)域研究者所關(guān)注的熱點問題。多數(shù)據(jù)集的屬性分為維屬性和度量屬性。維數(shù)性是觀察數(shù)據(jù)對象的角度,而度量屬相則反映數(shù)據(jù)對象的特征。對于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過程。在數(shù)據(jù)立方體中,不同維度組合構(gòu)成了不同的子立方體,不同維

40、值的組合機器對應(yīng)的度量值構(gòu)成相應(yīng)的對于不同的查詢和分析。因此,數(shù)據(jù)立方體的構(gòu)建和維護(hù)等計算方法成為了多維數(shù)據(jù)分析研究的關(guān)鍵問題。17答:OLAP的邏輯結(jié)構(gòu)由OLAP視圖和數(shù)據(jù)存儲兩部分組成。OLAP視圖:對于用戶來說它是數(shù)據(jù)倉庫或數(shù)據(jù)集市中數(shù)據(jù)的多維邏輯表示,不管數(shù)據(jù)怎么存儲和存儲在何處。數(shù)據(jù)存儲:要求選擇數(shù)據(jù)實際存儲方式和實際存儲位置,兩種常用的選擇是多維數(shù)據(jù)存儲和關(guān)系數(shù)據(jù)存儲。18答:OLAP的物理結(jié)構(gòu)包括基于數(shù)據(jù)存儲的兩種方式:多維數(shù)據(jù)存儲和關(guān)系數(shù)據(jù)存儲。多維數(shù)據(jù)存儲主要有兩種選擇:多維數(shù)據(jù)存儲于客戶端或OLAP服務(wù)器。在第一種情況,多維數(shù)據(jù)存儲于客戶端,數(shù)據(jù)分析也在客戶端,這樣形成了“

41、胖”客戶端,這是一種兩層客戶/服務(wù)器的物理結(jié)構(gòu)。在第二種情況,多維數(shù)據(jù)存儲放在OLAP服務(wù)器中,抽取數(shù)據(jù)倉庫中的數(shù)據(jù),然后將其轉(zhuǎn)換成多維數(shù)據(jù)結(jié)構(gòu),并把OLAP服務(wù)器傳給客戶端,這時客戶端就變成了“瘦”客戶端,這是一種經(jīng)典的三層客戶/服務(wù)器物理結(jié)構(gòu)。19說明濃縮立方體的壓縮方法和效果。答:濃縮立方體計算方法的基本原理是,在某些屬性或組合下的一個元組相對于其他元組具有唯一性,則稱為基本單一組(BST),當(dāng)它的超集也是BST,且都是取同一度量值,在聚集運算時,可以把這些屬性的度量值對應(yīng)的元組壓縮成一條元組存儲。一般來說,濃縮立方體的壓縮率可以達(dá)到30%-70%。20.多維數(shù)據(jù)分析的MDX語言與數(shù)據(jù)庫

42、的SQL語言有什么不同?答:MDX語言結(jié)合了多維數(shù)據(jù)集,指定“維度”(ON子句)和“創(chuàng)建表達(dá)式計算的新成員”(MEMBER子句),這樣就可以來從多維數(shù)據(jù)集中挖掘出指定的數(shù)據(jù)。21MDX提供的函數(shù)children來完成這個操作。Children 函數(shù)返回一個自然排序的集,該集包含指定成員的子成員。 如果指定的成員沒有子成員,則此函數(shù)返回一個空集。示例下例將返回 Geography 維度中 Geography 層次結(jié)構(gòu)的 United States 成員的子成員。SELECT Geography.Geography.Country.&United States.Chil

43、dren ON 0FROM Adventure Works22用相應(yīng)的表達(dá)式函數(shù)來計算。第四章作業(yè)周劼人1-3 郭朋4-6 王國梁7-9 旦增群培10-12 劉洋13-15 許赟昊16-18 杜海洋19-21 徐文松22-24 何金海25-27 陶漢28-301. 數(shù)據(jù)倉庫的需求分析的任務(wù)是什么?P67需求分析的任務(wù)是通過詳細(xì)調(diào)查現(xiàn)實世界要處理的對象(企業(yè)、部門用戶等),充分了解源系統(tǒng)工作概況,明確用戶的各種需求,為設(shè)計數(shù)據(jù)倉庫服務(wù)。概括地說,需求分析要明確用那些數(shù)據(jù)經(jīng)過分析來實現(xiàn)用戶的決策支持需求。2. 數(shù)據(jù)倉庫系統(tǒng)需要確定的問題有哪些?P67、(1) 確定主題域a) 明確對于決策分析最有價

44、值的主題領(lǐng)域有哪些b) 每個主題域的商業(yè)維度是那些?每個維度的粒度層次有哪些?c) 制定決策的商業(yè)分區(qū)是什么?d) 不同地區(qū)需要哪些信息來制定決策?e) 對那個區(qū)域提供特定的商品和服務(wù)?(2) 支持決策的數(shù)據(jù)來源a) 那些源數(shù)據(jù)與商品的主題有關(guān)?b) 在已有的報表和在線查詢(OLTP)中得到什么樣的信息?c) 提供決策支持的細(xì)節(jié)程度是怎么樣的?(3) 數(shù)據(jù)倉庫的成功標(biāo)準(zhǔn)和關(guān)鍵性指標(biāo)a) 衡量數(shù)據(jù)倉庫成功的標(biāo)準(zhǔn)是什么?b) 有哪些關(guān)鍵的性能指標(biāo)?如何監(jiān)控?c) 對數(shù)據(jù)倉庫的期望是什么?d) 對數(shù)據(jù)倉庫的預(yù)期用途有哪些?e) 對計劃中的數(shù)據(jù)倉庫的考慮要點是什么?(4) 數(shù)據(jù)量與更新頻率a) 數(shù)據(jù)倉

45、庫的總數(shù)據(jù)量有多少?b) 決策支持所需的數(shù)據(jù)更新頻率是多少?時間間隔是多長?c) 每種決策分析與不同時間的標(biāo)準(zhǔn)對比如何?d) 數(shù)據(jù)倉庫中的信息需求的時間界限是什么?3. 實現(xiàn)決策支持所需要的數(shù)據(jù)包括哪些內(nèi)容?P68(1)源數(shù)據(jù)(2)數(shù)據(jù)轉(zhuǎn)換(3)數(shù)據(jù)存儲(4)決策分析4概念:將需求分析過程中得到的用戶需求抽象為計算機表示的信息結(jié)構(gòu),叫做概念模型。特點:(1)能真實反映現(xiàn)實世界,能滿足用戶對數(shù)據(jù)的分析,達(dá)到?jīng)Q策支持的要求,它是現(xiàn)實世界的一個真實模型。(2)易于理解,便利和用戶交換意見,在用戶的參與下,能有效地完成對數(shù)據(jù)倉庫的成功設(shè)計。(3)易于更改,當(dāng)用戶需求發(fā)生變化時,容易對概念模型修改和擴充

46、。(4)易于向數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。5用長方形表示實體,在數(shù)據(jù)倉庫中就表示主題,橢圓形表示主題的屬性,并用無向邊把主題與其屬性連接起來;用菱形表示主題之間的聯(lián)系,用無向邊把菱形分別與有關(guān)的主題連接;若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無向邊連接上。6數(shù)據(jù)庫的概念模型設(shè)計主要采用E-R概念模型的設(shè)計方法。數(shù)據(jù)倉庫的概念模型設(shè)計主要采用E-R概念模型和面向?qū)ο蟮姆治龇椒ā? .圖4.1所示的概念模型:商品和客戶是兩個主題,商品的銷售信息等同于客戶的購物信息,而每個商品具有本身的商品固有信息和商品號,還有就是商品的庫存信息;客戶具有自己的固有信息,還有就是客戶號。8.邏輯模型

47、:計算機所支持的有E-R圖轉(zhuǎn)換成的數(shù)據(jù)模型,數(shù)據(jù)的邏輯結(jié)構(gòu) 數(shù)據(jù)倉庫的邏輯模型:星型模型9.數(shù)據(jù)倉庫的邏輯模型:用來構(gòu)建數(shù)據(jù)倉庫的數(shù)據(jù)庫邏輯模型。在數(shù)據(jù)庫中,邏輯模型有關(guān)系、網(wǎng)狀、層次,可以清晰的表示各個關(guān)系。10.舉例說明從數(shù)據(jù)倉庫的概念模型到邏輯模型的轉(zhuǎn)換?答:概念模型是對每個決策與屬性及主體之間的關(guān)系用E-R圖來表示的,E-R圖能有效的將現(xiàn)實的世界表示成信息世界,他利于向計算機的表示形式進(jìn)行轉(zhuǎn)化。而邏輯模型設(shè)計是需求分析主題域,將概念模型E-R圖轉(zhuǎn)化為邏輯模型,即計算機表示的數(shù)據(jù)模型,數(shù)據(jù)倉庫的數(shù)據(jù)模型一般采用星型模型。例如 概念模型設(shè)計時,確定了商品和客戶兩個主題。其中商品對于商場來說

48、是更基本的業(yè)務(wù)對象,商品的業(yè)務(wù)有銷售、采購、庫存。其中商品銷售時最重要的業(yè)務(wù)。它是進(jìn)行決策分析的重要方面。星型模型的設(shè)計如下:確定決策分析需求,數(shù)據(jù)倉庫是面向決策分析的,決策需求是建立多維數(shù)據(jù)模型的依據(jù)。例如分析銷售額趨勢,對商品的銷售量,促銷手段對銷售的影響。從需求中識別出事實,從決策主題確定的情況下,選擇或設(shè)計反映決策主體業(yè)務(wù)表。例如在商品主題中,以銷售數(shù)據(jù)為事實表。確定維,確定影響事實的各種因素,對銷售業(yè)務(wù)的維一般的包括商店,地區(qū),部門,城市,時間,商品等。確定數(shù)據(jù)匯總的水平,存在于數(shù)據(jù)倉庫中的數(shù)據(jù)包括匯總的數(shù)據(jù)。數(shù)據(jù)倉庫中對數(shù)據(jù)不同粒度的綜合形成了多層次的數(shù)據(jù)結(jié)構(gòu)。例如 對于時間維,可

49、以用年 月 日 不同水平進(jìn)行匯總。設(shè)計事實表和維表,設(shè)計事實表和維表的屬性,再事實表中應(yīng)該記錄哪些屬性是有維表的數(shù)量來決定的,一般來說,與事實表相關(guān)的維表的數(shù)量應(yīng)該適中,太少的維表會影響查詢的質(zhì)量,用戶得不到需要的數(shù)據(jù),太多的數(shù)據(jù)會影響查詢的速度。11. 在數(shù)據(jù)倉庫中為什么考慮數(shù)據(jù)的粒度層次劃分?答: 所謂的粒度是指數(shù)據(jù)倉庫宗數(shù)據(jù)單元的詳細(xì)程度和級別,數(shù)據(jù)越詳細(xì),粒度越小,層次級別九月低;數(shù)據(jù)綜合度越高,粒度越大,層次級別就越高。在傳統(tǒng)事務(wù)處理系統(tǒng)中,對數(shù)據(jù)的處理,操作都是再詳細(xì)數(shù)據(jù)級別上的,即最低的粒度。但是數(shù)據(jù)倉庫環(huán)境中主要是分析處理,粒度的劃分鍵直接影響數(shù)據(jù)倉庫中數(shù)據(jù)量以及所適合的查詢類

50、型。一般需要將數(shù)據(jù)劃分為詳細(xì)數(shù)據(jù),輕度綜合,高度綜合三級或更多及粒度。不同粒度級別的數(shù)據(jù)用于不同類型的分析處理。力度的劃分是數(shù)據(jù)倉庫設(shè)計工作的一項重要內(nèi)容,粒度劃分是否適當(dāng)影響數(shù)據(jù)倉庫性能的一個重要方面。12.數(shù)據(jù)倉庫的記錄系統(tǒng)包括什么內(nèi)容,舉例說明?答:數(shù)據(jù)倉庫中的數(shù)據(jù)來源與多個已經(jīng)存在的事務(wù)處理系統(tǒng)外部系統(tǒng),由于各個原系統(tǒng)的數(shù)據(jù)是面向應(yīng)用的,不能完整地描述企業(yè)中的主題域,并且多個數(shù)據(jù)源的數(shù)據(jù)存在者許多不一致,因此要從數(shù)據(jù)倉庫的概念模型出發(fā),結(jié)合主題的多個表的關(guān)系模式,需要確定現(xiàn)有系統(tǒng)的哪些數(shù)據(jù)能較好地適應(yīng)數(shù)據(jù)的需求。這就要求選擇最完整的、最及時的、最準(zhǔn)確的、最接近外部實體源的數(shù)據(jù)作為記錄系

51、統(tǒng),同時這些數(shù)據(jù)所在的表的關(guān)系模式接近于構(gòu)成主體的多個標(biāo)的關(guān)系模式。記錄系統(tǒng)的定義要記入數(shù)據(jù)倉庫的元數(shù)據(jù)。13、什么是物理模型?數(shù)據(jù)倉庫的物理模型設(shè)計包括哪些工作?答:物理模型就是邏輯模型在計算機中的物理結(jié)構(gòu),其中包括存儲結(jié)構(gòu)和存取方法;數(shù)據(jù)倉庫的物理模型設(shè)計的工作包括:估計存儲容量、確定數(shù)據(jù)的存儲計劃、確定索引策略、確定數(shù)據(jù)存放位置和確定存儲分配。14、為什么數(shù)據(jù)倉庫物理模型設(shè)計中要建立匯總計劃和確定數(shù)據(jù)分區(qū)方案?答:如果數(shù)據(jù)倉庫只存儲最小粒度的數(shù)據(jù),每次查詢遍歷所有的明細(xì)記錄,然后生成匯總信息,這會造成很大的開銷,因此要建立匯總計劃; 分區(qū)可以將表分解成易于管理的小表,對事實表的分區(qū)醫(yī)保采

52、用垂直分區(qū)或水平分區(qū),這樣使得大表被分成小表,因此要建立分區(qū)方案。15、說明圖4.8中邏輯模型與物理模型的區(qū)別。答:邏輯模型表現(xiàn)出各數(shù)據(jù)元素間直接或間接的關(guān)系,并體現(xiàn)主題域的結(jié)構(gòu),而且說明各個表所包含的元素。而物理模型要體現(xiàn)在計算機中的物理結(jié)構(gòu),所以有各個表元素的類型和長度。在圖4.8中,產(chǎn)品維表的主鍵為產(chǎn)品鍵,我們只能在邏輯模型中得到這個信息,而在物理模型中,產(chǎn)品鍵為integer類型,長度為10,這是在計算機中的存儲結(jié)構(gòu)。16.概念模型:E-R圖邏輯模型:星型模型物理模型:存儲結(jié)構(gòu)、索引、數(shù)據(jù)存放位置、存儲分配。17.(1)位索引技術(shù)Bit-Wise索引技術(shù)B-Tree索引技術(shù)(2)表示技

53、術(shù)(3)廣義索引18.因為B-Tree索引增加了在數(shù)據(jù)倉庫中構(gòu)造和維護(hù)索引的代價;B-Tree不適合復(fù)雜查詢19、數(shù)據(jù)倉庫中采用標(biāo)識技術(shù)有什么好處。答:使用標(biāo)準(zhǔn)的數(shù)據(jù)庫技術(shù)來儲存數(shù)據(jù)倉庫是非常昂貴的。較好的替代方法是用基于標(biāo)識的技術(shù)來儲存數(shù)據(jù)倉庫。一旦將基于標(biāo)識的數(shù)據(jù)庫存放在內(nèi)存中,處理速度會得到很大的提高。數(shù)據(jù)越多,標(biāo)識數(shù)據(jù)比標(biāo)準(zhǔn)的、基于記錄的數(shù)據(jù)更有利。因為數(shù)據(jù)被大量壓縮,所以整個數(shù)據(jù)庫可以存放在內(nèi)存中。可以索引所有的行和所有的列。20、數(shù)據(jù)倉庫的廣義索引時什么時候建立的?簡單說明原因。答:在從操作型環(huán)境抽取數(shù)據(jù)并向數(shù)據(jù)倉庫中裝載的同時,就可以根據(jù)用戶的需要建立許多“廣義索引”。每次數(shù)據(jù)倉

54、庫裝載時,就重新生成這些“廣義索引”的內(nèi)容。這樣并不需要為了建立“廣義索引”而去掃描數(shù)據(jù)倉庫。而且這些索引都非常小,開銷也是相當(dāng)小,但它給應(yīng)用所帶來的便利卻是顯而易見的。對于一些經(jīng)常性的查詢,利用一個規(guī)模小得多的“廣義索引”總比去搜索一個大得多的關(guān)系表方便得多。21、說明數(shù)據(jù)倉庫開發(fā)的四個階段和12個步驟答:如下圖所示發(fā):分為分析設(shè)計階段;數(shù)據(jù)獲取階段;決策支持階段;維護(hù)與評估階段。22. 數(shù)據(jù)獲取階段包括數(shù)據(jù)抽取,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)裝載3個步驟。數(shù)據(jù)抽?。簲?shù)據(jù)抽取主要進(jìn)行數(shù)據(jù)源的確認(rèn),確定數(shù)據(jù)抽取技術(shù),確認(rèn)數(shù)據(jù)抽取頻率,按照時間要求抽取數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)抽取得到的數(shù)據(jù)不能直接存入數(shù)據(jù)倉庫的。數(shù)

55、據(jù)轉(zhuǎn)換工作包括:數(shù)據(jù)格式的修改,字段的解碼,單個字段的分離,信息的合并,變量單位的轉(zhuǎn)化,時間的轉(zhuǎn)化,數(shù)據(jù)匯總等。數(shù)據(jù)裝載:數(shù)據(jù)裝載包括初始裝載,增量裝載,完全刷新。23. 數(shù)據(jù)倉庫的簡歷就是要達(dá)到?jīng)Q策支持的目的。決策支持階段包括信息查詢和知識探索兩個步驟。信息查詢:信息查詢者使用數(shù)據(jù)倉庫發(fā)現(xiàn)目前存在的問題。為適應(yīng)信息查詢者的要求,數(shù)據(jù)倉庫一般采用如下的方法提高信息查詢效率:創(chuàng)建數(shù)據(jù)陳列,預(yù)連接表格,預(yù)聚集數(shù)據(jù),聚類數(shù)據(jù)。知識探索:只是探索者使用數(shù)據(jù)倉庫能對發(fā)現(xiàn)的問題找出原因。24. 維護(hù)與評估階段包括數(shù)據(jù)倉庫增長,數(shù)據(jù)倉庫維護(hù),數(shù)據(jù)倉庫評價。數(shù)據(jù)倉庫增長:數(shù)據(jù)倉庫建立以后,隨著數(shù)據(jù)用戶的不斷增

56、加,時間的曾增長,用戶查詢需求更多,數(shù)據(jù)會迅速增長。數(shù)據(jù)倉庫維護(hù):數(shù)據(jù)倉庫維護(hù)包括適應(yīng)數(shù)據(jù)倉庫增長的維護(hù)和正常系統(tǒng)維護(hù)兩類。數(shù)據(jù)倉庫評估:數(shù)據(jù)倉庫評估包括系統(tǒng)性能評定,投資回報分析,數(shù)據(jù)質(zhì)量評估。25.概括說明“概念模型、邏輯模型、物理模型”分別是什么樣的數(shù)據(jù)模型?答:將需求分析過程中得到的用戶需求抽象為計算機表示的信息結(jié)構(gòu),即概念模型。邏輯模型是由概念模型進(jìn)一步轉(zhuǎn)化成計算機支持的數(shù)據(jù)模型。物理模型是邏輯模型設(shè)計的數(shù)據(jù)模型適應(yīng)應(yīng)用要求在計算機中的存儲結(jié)構(gòu)和存取方法。26.數(shù)據(jù)倉庫索引技術(shù)包括哪些內(nèi)容?答:位索引技術(shù)、標(biāo)識技術(shù)、廣義索引。27.為什么B-Tree索引不適合數(shù)據(jù)倉庫?答:1、B-Tree只適合于高基數(shù)字段,但對于低基數(shù)字段毫無價值。2、B-Tree索引需占一定的空間和時間,增加了在數(shù)據(jù)倉庫中構(gòu)造和維護(hù)索引的代價。3、數(shù)據(jù)倉庫應(yīng)用中常常是復(fù)雜的查詢,并經(jīng)常帶有分組及聚合條件,此時B-Tree索引往往無能為力。28. 當(dāng)有一個或多個維表沒有直接連接到事實表上,而是通過其他維表連接到事實表上時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論