




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 淺論數(shù)據(jù)倉(cāng)庫(kù)技術(shù) 賴小平摘要:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是網(wǎng)絡(luò)時(shí)代的數(shù)據(jù)特征,也是數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)用到一定階段的產(chǎn)物。本文闡述了數(shù)據(jù)倉(cāng)庫(kù)的起源、結(jié)構(gòu)、特性,以及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展趨勢(shì)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在不斷發(fā)展,并在實(shí)際應(yīng)用中發(fā)揮了巨大作用,給企業(yè)帶來(lái)巨大的變革。關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);面向主題;數(shù)據(jù)庫(kù)中圖法分類號(hào):tp311.11文獻(xiàn)標(biāo)識(shí)碼:a數(shù)據(jù)倉(cāng)庫(kù)(data warehousing,dw)是近年來(lái)興起的一種新的數(shù)據(jù)庫(kù)應(yīng)用。隨著各種計(jì)算機(jī)技術(shù),如數(shù)據(jù)模型、數(shù)據(jù)庫(kù)技術(shù)和應(yīng)用開(kāi)發(fā)技術(shù)的不斷進(jìn)步,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)也在不斷發(fā)展,并在實(shí)際應(yīng)用中發(fā)揮了巨大的作用。1數(shù)據(jù)倉(cāng)庫(kù)的起源
2、如今是網(wǎng)絡(luò)的時(shí)代,數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn)和發(fā)展是網(wǎng)絡(luò)時(shí)代的數(shù)據(jù)特征,也是數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)用到一定階段的必然產(chǎn)物。最初的數(shù)據(jù)管理形式主要是文件系統(tǒng),數(shù)據(jù)的存取方式是固定的、死板的。1969年,e.f codd博士提出了關(guān)系數(shù)據(jù)模型。此后,關(guān)系數(shù)據(jù)庫(kù)的出現(xiàn)開(kāi)創(chuàng)了數(shù)據(jù)管理的一個(gè)新時(shí)代。近幾十年來(lái),像cs系統(tǒng)結(jié)構(gòu)、存儲(chǔ)過(guò)程等新技術(shù)、新思路的出現(xiàn),sql在數(shù)據(jù)庫(kù)中的應(yīng)用,使得關(guān)系數(shù)據(jù)庫(kù)成為聯(lián)機(jī)事務(wù)處理系統(tǒng)的主宰。然而,應(yīng)用是不斷進(jìn)步的,當(dāng)聯(lián)機(jī)事務(wù)處理系統(tǒng)應(yīng)用到一定階段后。用戶發(fā)現(xiàn)這不足以獲得市場(chǎng)競(jìng)爭(zhēng)的優(yōu)勢(shì),他們需要對(duì)大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,從而作出有利的決策。這種基于業(yè)務(wù)數(shù)據(jù)的決策分析,稱之為聯(lián)機(jī)分析處理,比以往任
3、何時(shí)候都顯得重要。人們?cè)趯?shí)際應(yīng)用中發(fā)現(xiàn)要查詢的數(shù)據(jù)越來(lái)越多,所以人們就設(shè)想專門(mén)為業(yè)務(wù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,這個(gè)中心就叫數(shù)據(jù)倉(cāng)庫(kù)。業(yè)界公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)概念創(chuàng)始人w.h inmon在數(shù)據(jù)倉(cāng)庫(kù)一書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義是:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。從辨證的眼光來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的興起實(shí)際是數(shù)據(jù)管理的一種回歸,是螺旋式的上升。如今,各大數(shù)據(jù)庫(kù)廠商紛紛宣布產(chǎn)品支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)并提出一整套用以建立和使用數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)品,比如:informix公司的數(shù)據(jù)倉(cāng)庫(kù)解決方案oracle公司的數(shù)據(jù)倉(cāng)庫(kù)解決方案;sybase公司的交互式數(shù)據(jù)倉(cāng)庫(kù)解決方案等等。這些發(fā)展引起了學(xué)術(shù)界的極大興
4、趣,出現(xiàn)了專門(mén)研究數(shù)據(jù)倉(cāng)庫(kù)(dw)、聯(lián)機(jī)分析處理(olap)、數(shù)據(jù)挖掘(dm)的論文。數(shù)據(jù)倉(cāng)庫(kù)雖然起源于20世紀(jì)90年代,但其發(fā)展非常迅速,特別是網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,為數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展提供了更寬闊的數(shù)據(jù)跑道。當(dāng)今數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)不再是純粹的理論。而是一個(gè)活生生的事實(shí)。2數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)(1)基本體系結(jié)構(gòu)(結(jié)構(gòu)1)它由以下5個(gè)基本組成部分:數(shù)據(jù)源(db),為數(shù)據(jù)倉(cāng)庫(kù)提供最底層數(shù)據(jù)的運(yùn)作數(shù)據(jù)庫(kù)系統(tǒng)及外部數(shù)據(jù);監(jiān)視器,負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按數(shù)據(jù)倉(cāng)庫(kù)的需求提取數(shù)據(jù);集成器,將從運(yùn)作數(shù)據(jù)庫(kù)中提取的數(shù)據(jù)經(jīng)過(guò)轉(zhuǎn)換、計(jì)算、綜合等操作,并集成到數(shù)據(jù)倉(cāng)庫(kù)中;數(shù)據(jù)倉(cāng)庫(kù)(dw),存儲(chǔ)已經(jīng)按企業(yè)級(jí)視圖轉(zhuǎn)換的數(shù)據(jù),供分析
5、處理用;客戶應(yīng)用,供用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行訪問(wèn)查詢,并以直觀的方式表示分析結(jié)果的工具。(2)數(shù)據(jù)組織結(jié)構(gòu)(如圖2)3數(shù)據(jù)倉(cāng)庫(kù)的特性傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫(kù)為中心,進(jìn)行事務(wù)處理、批處理、決策分析等各種數(shù)據(jù)處理工作,由于企業(yè)的日常事務(wù)處理工作,而難于實(shí)現(xiàn)對(duì)數(shù)據(jù)分析處理要求,已無(wú)法滿足數(shù)據(jù)處理多樣化的要求。近年來(lái),隨著數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用和發(fā)展。人們嘗試對(duì)db中的數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境,以更好支持決策分析,從而形成了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。這與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。主題是一個(gè)在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn)。每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。例
6、如:對(duì)一個(gè)保險(xiǎn)公司來(lái)說(shuō),應(yīng)用問(wèn)題可能是汽車保險(xiǎn)、人壽保險(xiǎn)與意外傷亡保險(xiǎn),公司的主題域卻可能是顧客、保險(xiǎn)單、保險(xiǎn)費(fèi)和索賠。不同類型的公司其主題域是不同的,這樣管理人員就可根據(jù)不同的主題進(jìn)行分析,作出切實(shí)可行的決策。數(shù)據(jù)倉(cāng)庫(kù)是集成的。在數(shù)據(jù)倉(cāng)庫(kù)的所有特性中,這是最重要的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)不同的數(shù)據(jù)源傳來(lái)的。當(dāng)這些數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí),必須經(jīng)過(guò)數(shù)據(jù)加工和集成,進(jìn)行轉(zhuǎn)換,重新格式化,重新排列以及匯總等操作,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟。這樣得到的結(jié)果就是只要是存在于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就是具有企業(yè)的單一物理映像。數(shù)據(jù)倉(cāng)庫(kù)是非易失的。即穩(wěn)定性。操作型環(huán)境中的數(shù)據(jù)一般必然是要更新的,但數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)呈現(xiàn)
7、出一組非常不同的特性。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常是以批量方式載入與訪問(wèn)的,對(duì)其數(shù)據(jù)并不進(jìn)行一般意義上的數(shù)據(jù)更新。這樣數(shù)據(jù)倉(cāng)庫(kù)就保存了所有的歷史數(shù)據(jù),而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)過(guò)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)是極少或根本不能修改的。數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間變化的,它是不同時(shí)間的數(shù)據(jù)集合。時(shí)變性是指數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)數(shù)據(jù)單元都只是在某一時(shí)刻是準(zhǔn)確的。在任何情況下記錄都包含某種形式的時(shí)間標(biāo)志用以說(shuō)明數(shù)據(jù)在哪一時(shí)間是準(zhǔn)確的。不同環(huán)境中有不同的時(shí)間范圍,操作型環(huán)境的時(shí)間范圍一般是6090年,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的時(shí)間范圍通常是510年。由于這種時(shí)間范圍上的差異,數(shù)據(jù)倉(cāng)庫(kù)含有比任何其他環(huán)境中都多的歷史數(shù)據(jù)。4數(shù)據(jù)倉(cāng)庫(kù)的技
8、術(shù)趨勢(shì)數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更偏向干工程。由于這種工程性,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展主要包括以下3個(gè)方面:4.1數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的入口,它通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個(gè)方面。在技術(shù)發(fā)展上,數(shù)據(jù)抽取所涉及的單個(gè)技術(shù)環(huán)節(jié)都已經(jīng)相對(duì)成熟,但整體的集成度還很不夠。目前市場(chǎng)上所提供的大多是數(shù)據(jù)抽取工具,這些工具只能成為輔助的角色。未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面,它將互連、復(fù)制、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化
9、,使系統(tǒng)更加便于管理和維護(hù)。4.2數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)的存儲(chǔ)和管理是數(shù)據(jù)倉(cāng)庫(kù)真正的關(guān)鍵技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,同時(shí)也決定了其對(duì)外部數(shù)據(jù)表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù),主要從以下幾個(gè)問(wèn)題著手分析:(1)對(duì)大量數(shù)據(jù)的存儲(chǔ)和管理;(2)并行處理;(3)針對(duì)決策支持查詢的優(yōu)化;(4)支持多維分析的查詢模式。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)管理領(lǐng)域。未來(lái)的發(fā)展將使數(shù)據(jù)庫(kù)廠商明確推出數(shù)據(jù)倉(cāng)庫(kù)引擎,并作為服務(wù)器產(chǎn)品與數(shù)據(jù)庫(kù)服務(wù)器并駕齊驅(qū),面向決策支持?jǐn)U充的并行關(guān)系數(shù)據(jù)庫(kù)將是數(shù)據(jù)倉(cāng)庫(kù)的核心。最具發(fā)展?jié)摿Α?.3數(shù)據(jù)的表現(xiàn)數(shù)據(jù)的表現(xiàn)是數(shù)據(jù)倉(cāng)庫(kù)的門(mén)面。主要集中在多維分析、
10、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式,近幾年來(lái),多維分析領(lǐng)域的工具和產(chǎn)品注重提供基于web的前端聯(lián)機(jī)分析界面,而不僅僅是網(wǎng)上數(shù)據(jù)的發(fā)布。數(shù)理統(tǒng)計(jì)原本與數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有直接的聯(lián)系,但在實(shí)際應(yīng)用中需要通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)來(lái)驗(yàn)證假設(shè),以進(jìn)行決策。數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,同時(shí)與因特網(wǎng)網(wǎng)絡(luò)技術(shù)緊密結(jié)合,推出適用于內(nèi)聯(lián)網(wǎng),終端免維護(hù)的數(shù)據(jù)倉(cāng)庫(kù)訪問(wèn)前端。數(shù)據(jù)挖掘與數(shù)理統(tǒng)計(jì)相似,數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)也沒(méi)有直接的聯(lián)系。目前許多數(shù)據(jù)挖掘工具其實(shí)不過(guò)是數(shù)理統(tǒng)計(jì)的應(yīng)用,它們并不能真正尋找出數(shù)據(jù)的規(guī)律。而是驗(yàn)證盡可能多的假設(shè),最后由人來(lái)判斷其合理性。未來(lái)的發(fā)展將使數(shù)據(jù)挖掘不僅僅是驗(yàn)證人
11、們對(duì)數(shù)據(jù)特性的假設(shè),而且更要主動(dòng)地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律。隨著各種計(jì)算機(jī)技術(shù),如數(shù)據(jù)模型、數(shù)據(jù)庫(kù)技術(shù)和應(yīng)用開(kāi)發(fā)技術(shù)的不斷進(jìn)步,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)也在不斷發(fā)展,并在實(shí)際應(yīng)用中發(fā)揮了巨大的作用。目前使用數(shù)據(jù)倉(cāng)庫(kù)所產(chǎn)生的巨大效益刺激了對(duì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的需求,數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)正以迅猛勢(shì)頭向前發(fā)展:一方面。數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)需求量越來(lái)越大。每年約以400的速度擴(kuò)張:另一方面。數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品越來(lái)越成熟,生產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)工具的廠家越來(lái)越多。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及市場(chǎng)將向以下方向發(fā)展:(1)并行化和可擴(kuò)展性。在硬件層次上。采用多處理器并行結(jié)構(gòu);在數(shù)據(jù)庫(kù)層次上,數(shù)據(jù)庫(kù)廠商推出了并行產(chǎn)品,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)的需要。(2)集中化。隨著數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目越來(lái)越大,就要求對(duì)信息進(jìn)行集中管理,此外,數(shù)據(jù)的一致性也要求數(shù)據(jù)集中管理。(3)數(shù)據(jù)倉(cāng)庫(kù)與因特網(wǎng)內(nèi)聯(lián)網(wǎng)的集成。即前臺(tái)是網(wǎng)絡(luò)服務(wù)器,后臺(tái)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)的信息及統(tǒng)計(jì)分析結(jié)果以網(wǎng)絡(luò)的形式表現(xiàn)。(4)數(shù)據(jù)挖掘工具和人工智能管理的成熟與廣泛使用。這將是今后推動(dòng)決策支持演變過(guò)程的主要力量,相信會(huì)有越來(lái)越多的專家系統(tǒng)問(wèn)世。為企業(yè)的決策提供支持。(5)通用數(shù)據(jù)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)將支持多媒體、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。即向通用數(shù)據(jù)庫(kù)發(fā)展,具有面向?qū)ο蟮哪芰Α?6)專用數(shù)據(jù)倉(cāng)庫(kù)。即數(shù)據(jù)倉(cāng)庫(kù)的打包。它是指數(shù)據(jù)倉(cāng)庫(kù)將集成一些工具和應(yīng)用,打包推向用戶。5結(jié)束語(yǔ)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 理發(fā)店合作協(xié)議書(shū)合同
- 瓷磚材料供應(yīng)合同協(xié)議
- 現(xiàn)澆混凝土銷售合同協(xié)議
- 田塊承包合同協(xié)議書(shū)范本
- 監(jiān)控設(shè)備維護(hù)協(xié)議合同
- 電梯檢測(cè)技術(shù)服務(wù)合同協(xié)議
- 甘孜小區(qū)保潔合同協(xié)議
- 瑜伽普拉提合作合同協(xié)議
- 監(jiān)控安裝工程合同協(xié)議
- 電影招商引資合同協(xié)議
- 老年健康照護(hù)課件
- 西師版小學(xué)三年級(jí)下冊(cè)數(shù)學(xué)半期試題
- 過(guò)敏性皮炎的護(hù)理查房
- 2023年《思想道德與法治》期末考試復(fù)習(xí)題庫(kù)(帶答案)
- GB/T 19494.1-2023煤炭機(jī)械化采樣第1部分:采樣方法
- 彩繪曼陀羅課件
- GB/T 28417-2023碳素軸承鋼
- 華為人力資源管理手冊(cè)
- β內(nèi)酰胺類抗菌藥物皮膚試驗(yàn)指導(dǎo)原則(2021版)
- 我的家鄉(xiāng)福建南平PPT
- 第7講-化學(xué)工程的倫理問(wèn)題-201912092040097
評(píng)論
0/150
提交評(píng)論