版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第四講數(shù)據(jù)倉庫第一頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)庫與數(shù)據(jù)倉庫數(shù)據(jù)不一致可頻繁刪除數(shù)據(jù)存放短期數(shù)據(jù)(3個月內(nèi))存在數(shù)據(jù)冗余第二頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理的很多工作都是以數(shù)據(jù)倉庫為基礎(chǔ)展開的。利用數(shù)據(jù)倉庫,企業(yè)可以對客戶行為進(jìn)行分析和預(yù)測,從而制定準(zhǔn)確的市場策略、發(fā)現(xiàn)重點客戶和評價市場性能。對于客戶量大、市場策略對企業(yè)影響較大的企業(yè)來說,必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉庫。第三頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫的產(chǎn)生早期的數(shù)據(jù)庫主要支持聯(lián)機事務(wù)處理傳統(tǒng)數(shù)據(jù)庫不能滿足決策支持對數(shù)據(jù)庫的要求(1)事務(wù)處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)歷史數(shù)據(jù)問題第四頁,共四十二頁,編輯于2023年,星期五(1)事務(wù)處理和分析處理的性能特性不同所有聯(lián)機事務(wù)處理強調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性。在事務(wù)處理環(huán)境中,用戶的行為特點是數(shù)據(jù)的存取操作頻率高,每次操作處理的時間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的決策支持(DSS)應(yīng)用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。聯(lián)機分析和事務(wù)處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個環(huán)境中運行顯然是不適當(dāng)?shù)摹5谖屙?,共四十二頁,編輯?023年,星期五(2)數(shù)據(jù)集成問題DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。第六頁,共四十二頁,編輯于2023年,星期五(3)歷史數(shù)據(jù)問題事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲短期數(shù)據(jù),且不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢的。DSS對數(shù)據(jù)在空間和時間上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。第七頁,共四十二頁,編輯于2023年,星期五要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。數(shù)據(jù)倉庫的數(shù)據(jù)從聯(lián)機的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機的歷史業(yè)務(wù)數(shù)據(jù)中得到。它是一個聯(lián)機的系統(tǒng),專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù),通過它可滿足決策支持和聯(lián)機分析應(yīng)用所要求的一切。第八頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫的概念和特征著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。第九頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫概念的兩個層次功能上:數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;內(nèi)容和特征上:數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。第十頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫特點-面向主題數(shù)據(jù)倉庫是面向主題而進(jìn)行數(shù)據(jù)組織的。主題是一個在較高層次上對數(shù)據(jù)的抽象,在邏輯意義上,它是對企業(yè)中某一宏觀領(lǐng)域所涉及的分析對象,即將數(shù)據(jù)組織成主題域。第十一頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫特點-集成數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。在數(shù)據(jù)倉庫建設(shè)中,這是最關(guān)鍵最復(fù)雜的一個步驟,主要工作有:一是,進(jìn)行數(shù)據(jù)的綜合和計算;二是,統(tǒng)一源數(shù)據(jù)中所有不一致和矛盾的地方(如同名異義、異名同義、字長不一致、單位不一致等)。第十二頁,共四十二頁,編輯于2023年,星期五第十三頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫四個特點-相對穩(wěn)定操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。第十四頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫四個特點-相對穩(wěn)定的第十五頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫四個特點-反映歷史變化數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的數(shù)據(jù)時間期限。操作型系統(tǒng)的時間期限一般是60~90天,而數(shù)據(jù)倉庫中數(shù)據(jù)的時間期限通常是5~10年。第十六頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫四個特點-反映歷史變化第十七頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫本質(zhì)如果說傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的要求是快速、準(zhǔn)確、安全、可靠地將數(shù)據(jù)存進(jìn)數(shù)據(jù)庫中的話,那么數(shù)據(jù)倉庫的要求就是能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,再供管理人員進(jìn)行分析使用。數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息。
第十八頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)
第十九頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。
第二十頁,共四十二頁,編輯于2023年,星期五數(shù)據(jù)的存儲與管理數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
第二十一頁,共四十二頁,編輯于2023年,星期五OLAP服務(wù)器OLAP服務(wù)器對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。第二十二頁,共四十二頁,編輯于2023年,星期五前端工具前端工具主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。第二十三頁,共四十二頁,編輯于2023年,星期五聯(lián)機分析處理(OLAP)聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當(dāng)時,Codd認(rèn)為聯(lián)機事務(wù)處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大量數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)分析的概念即OLAP。第二十四頁,共四十二頁,編輯于2023年,星期五聯(lián)機分析處理(OLAP)OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的,這些信息是從原始數(shù)據(jù)直接轉(zhuǎn)換過來的,它們以用戶容易理解的方式反映企業(yè)的真實情況。OLAP大部分策略都是將關(guān)系型的或普通的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)存貯,以便于進(jìn)行分析,從而達(dá)到聯(lián)機分析處理的目的。這種多維DB也被看作一個超立方體,沿著各個維方向存貯數(shù)據(jù)。第二十五頁,共四十二頁,編輯于2023年,星期五OLAP的多維數(shù)據(jù)概念維是人們觀察問題的特定角度,例如:時間維、地理維、產(chǎn)品維。假定某某是個百貨零售商,有一些因素會影響他的銷售業(yè)務(wù),如商品、時間、商店。這里,商品、時間和商店都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。維就是相同類數(shù)據(jù)的集合,也可以理解為變量。而每個商店、每段時間、每種商品都是某一維的一個成員。每個銷售事實由一個特定的商店、特定的時間和特定的商品組成。第二十六頁,共四十二頁,編輯于2023年,星期五OLAP的多維數(shù)據(jù)概念數(shù)據(jù)單元。多維數(shù)據(jù)集的取值稱為數(shù)據(jù)單元。當(dāng)在多維數(shù)據(jù)集的每個維都選中一個維成員以后,這些維成員的組合就惟一確定了觀察變量的值。第二十七頁,共四十二頁,編輯于2023年,星期五OLAP多維數(shù)據(jù)分析1.切片和切塊(SliceandDice)在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進(jìn)行切片,按三維進(jìn)行切塊,可得到所需要的數(shù)據(jù)。如在“城市、產(chǎn)品、時間”三維立方體中進(jìn)行切塊和切片,可得到各城市、各產(chǎn)品的銷售情況。2.鉆取(Drill)
鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,鉆取的深度與維所劃分的層次相對應(yīng)。3.
旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。第二十八頁,共四十二頁,編輯于2023年,星期五案例說明現(xiàn)有某企業(yè)1995和1996兩年,在廣州和上海兩個城市的各類電器產(chǎn)品的銷售數(shù)據(jù)。該組數(shù)據(jù)就是典型的多維數(shù)據(jù),其維度分別為時間、城市、產(chǎn)品。第二十九頁,共四十二頁,編輯于2023年,星期五OLAP的分析方法(一)切片、切塊第三十頁,共四十二頁,編輯于2023年,星期五OLAP的分析方法(二)鉆取按時間維向下鉆取按時間維向上鉆取60第三十一頁,共四十二頁,編輯于2023年,星期五OLAP的分析方法(三)旋轉(zhuǎn)如果需要比較同一個季度中不同年份的部門銷售數(shù)據(jù),那么應(yīng)該如何調(diào)整上表的數(shù)據(jù)組織方式?第三十二頁,共四十二頁,編輯于2023年,星期五OLAP的分析方法(三)旋轉(zhuǎn)第三十三頁,共四十二頁,編輯于2023年,星期五練習(xí)一已有2000至2009年間全國省會城市的中心城區(qū)和郊區(qū)的平均房價數(shù)據(jù),請問該數(shù)據(jù)應(yīng)如何用三維數(shù)據(jù)立方來表示?如果想抽取廣州地區(qū)2000至2009年中心城區(qū)和郊區(qū)的平均房價數(shù)據(jù)應(yīng)如何對數(shù)據(jù)立方進(jìn)行切片?如果想抽取2005年全國省會城市的中心城區(qū)和郊區(qū)的平均房價數(shù)據(jù)應(yīng)如何對數(shù)據(jù)立方進(jìn)行切片?第三十四頁,共四十二頁,編輯于2023年,星期五年份城市地段000905廣州南京……中心城區(qū)郊區(qū)…………廣州05第三十五頁,共四十二頁,編輯于2023年,星期五練習(xí)二已知南京廣州武漢三個省會城市的2008年平均房價和季度平均房價,請畫出數(shù)據(jù)鉆取的表格。第三十六頁,共四十二頁,編輯于2023年,星期五2008年平均房價南京廣州武漢2008年平均房價第一季度第二季度第三季度第四季度南京廣州武漢第三十七頁,共四十二頁,編輯于2023年,星期五練習(xí)三已知南京廣州武漢三個省會城市2008年和2009年每個季度的平均房價。如果要比較同一年不同季度的房價,那么應(yīng)該如何列出數(shù)據(jù)?
如果要比較不同年同一季度的房價,那么應(yīng)該如何列出數(shù)據(jù)?第三十八頁,共四十二頁,編輯于2023年,星期五2008年2009年第一季度第二季度第三季度第四季度第一季度第二季度第三季度第四季度廣州南京武漢第一季度第二季度第三季度第四季度20082009200820092008200920082009廣州南京武漢第三十九頁,共四十二頁,編輯于2023年,星期五課堂練習(xí)已有2005至2009年間全國各大區(qū)域(華東、華南、華西、華北)不同收入人群(高中低)的家庭支出數(shù)據(jù),請問該數(shù)據(jù)應(yīng)如何用三維數(shù)據(jù)立方來表示?如果想抽取華東地區(qū)2005至2009年不同收入人群的家庭支出數(shù)據(jù),應(yīng)如何對數(shù)據(jù)立方進(jìn)行切片?如果想抽取2007年全國各大區(qū)域的不同收入人群的家庭支出數(shù)據(jù),應(yīng)如何對數(shù)據(jù)立方進(jìn)行切片?如果想比較同一地區(qū)內(nèi)不同收入人群的家庭支出,應(yīng)如何列出數(shù)據(jù)?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州大學(xué)《影視音樂欣賞》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽幼兒師范高等??茖W(xué)?!段枧_語言基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025江蘇省建筑安全員A證考試題庫及答案
- 貴陽學(xué)院《復(fù)合材料學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025重慶建筑安全員-B證考試題庫附答案
- 2025年-浙江省安全員C證考試(專職安全員)題庫附答案
- 2025貴州省建筑安全員-C證考試(專職安全員)題庫及答案
- 廣州醫(yī)科大學(xué)《材料創(chuàng)新導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025四川省建筑安全員知識題庫附答案
- 2025遼寧建筑安全員B證(項目經(jīng)理)考試題庫
- 2024年道路清障拖車服務(wù)合同協(xié)議3篇
- 2025年1月八省聯(lián)考河南新高考物理試卷真題(含答案詳解)
- 建設(shè)工程檢試驗工作管理實施指引
- 軟件租賃合同范例
- 匯川技術(shù)在線測評題及答案
- 廣東省廣州市2023-2024學(xué)年高一上學(xué)期期末物理試卷(含答案)
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 物理 含解析
- 食品企業(yè)產(chǎn)品出廠檢驗報告
- 鍋爐本體水壓試驗記錄
- 綜治工作中心信訪穩(wěn)定和矛盾糾紛排查化解工作流程圖
- 牛初乳知識課件
評論
0/150
提交評論