版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
UNITfour
數(shù)據(jù)倉庫技術(shù)
1 學(xué)完本講后,你應(yīng)該能夠了解:數(shù)據(jù)倉庫中沒有聯(lián)機(jī)更新,因而數(shù)據(jù)倉庫比數(shù)據(jù)庫需要一系列更簡單的技術(shù);但數(shù)據(jù)倉庫有很多特殊的技術(shù)上的需求;數(shù)據(jù)倉庫的專用DBMS與通用DBMS的區(qū)別;多維DBMS和數(shù)據(jù)倉庫之間的互補(bǔ)關(guān)系;數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)與操作型環(huán)境中的元數(shù)據(jù)所扮演的角色不同;為了理解和解釋一段時(shí)期內(nèi)的信息,數(shù)據(jù)倉庫需要一個(gè)全新的上下文維數(shù)據(jù)倉庫的高效刷新方法:”數(shù)據(jù)復(fù)制”和”變化數(shù)據(jù)捕捉”本講主要目標(biāo)2
一.?dāng)?shù)據(jù)倉庫的技術(shù)需求 二.?dāng)?shù)據(jù)倉庫專用DBMS 三.多維DBMS和數(shù)據(jù)倉庫 四.?dāng)?shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù) 五.上下文維和上下文信息 六.建立數(shù)據(jù)倉庫 七.數(shù)據(jù)倉庫的數(shù)據(jù)刷新內(nèi)容提綱3數(shù)據(jù)倉庫的技術(shù)需求4數(shù)據(jù)倉庫的技術(shù)需求數(shù)據(jù)倉庫與數(shù)據(jù)庫技術(shù)需求不同的原因:數(shù)據(jù)倉庫中沒有聯(lián)機(jī)數(shù)據(jù)更新 比數(shù)據(jù)庫的技術(shù)需求更簡單數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大 要考慮大量和不同數(shù)據(jù)的存儲(chǔ)和查詢的技術(shù)和效率數(shù)據(jù)倉庫的數(shù)據(jù)來源于現(xiàn)有的系統(tǒng),而現(xiàn)有的各個(gè)系統(tǒng)可能使用不同的技術(shù) 不同來源數(shù)據(jù)的集成、轉(zhuǎn)換和傳送5數(shù)據(jù)倉庫的技術(shù)需求數(shù)據(jù)倉庫的技術(shù)需求管理大量數(shù)據(jù)管理各種各樣介質(zhì)上的數(shù)據(jù)方便的索引和監(jiān)視數(shù)據(jù)大量接口技術(shù)允許程序員將數(shù)據(jù)直接放在物理存儲(chǔ)設(shè)備上數(shù)據(jù)的并行存儲(chǔ)和訪問數(shù)據(jù)倉庫的元數(shù)據(jù)控制高效地裝入數(shù)據(jù)倉庫有效地使用索引以壓縮方式存儲(chǔ)數(shù)據(jù)支持復(fù)合鍵碼有效地管理變長數(shù)據(jù)有選擇地關(guān)閉鎖管理單獨(dú)索引處理從大容量存儲(chǔ)器迅速恢復(fù)6數(shù)據(jù)倉庫的技術(shù)需求管理大量數(shù)據(jù)分四個(gè)方面基本的管理技術(shù)效率存儲(chǔ)的費(fèi)用處理的費(fèi)用7數(shù)據(jù)倉庫的技術(shù)需求管理各種各樣介質(zhì)上的數(shù)據(jù) 考慮訪問速度和存儲(chǔ)費(fèi)用,一個(gè)滿載的數(shù)據(jù)倉庫應(yīng)該放在多種存儲(chǔ)介質(zhì)上:8數(shù)據(jù)倉庫的技術(shù)需求方便的索引和監(jiān)視數(shù)據(jù)成功的數(shù)據(jù)倉庫必須能方便和有效地檢索數(shù)據(jù)成功的數(shù)據(jù)倉庫的數(shù)據(jù)必須能被隨意地監(jiān)視監(jiān)視數(shù)據(jù)倉庫的數(shù)據(jù)的理由:決定是否應(yīng)數(shù)據(jù)重組決定索引是否建立得恰當(dāng)決定是否有太多數(shù)據(jù)溢出決定數(shù)據(jù)的統(tǒng)計(jì)成分決定剩余的可用空間9數(shù)據(jù)倉庫的技術(shù)需求大量接口技術(shù)能夠用各種不同的技術(shù)獲得和傳送數(shù)據(jù)接口不僅要高效,還要便于使用能夠在批模式下運(yùn)行10數(shù)據(jù)倉庫的的技術(shù)需求求允許程序員員將數(shù)據(jù)直直接放在物物理存儲(chǔ)設(shè)設(shè)備上為了對(duì)數(shù)據(jù)據(jù)進(jìn)行高效效地訪問和和更新,程程序員需要要在物理的的塊/頁的的一級(jí)上對(duì)對(duì)數(shù)據(jù)的存存放進(jìn)行特特殊的控制制11數(shù)據(jù)倉庫的的技術(shù)需求求數(shù)據(jù)的并行行存儲(chǔ)和訪訪問當(dāng)數(shù)據(jù)被并并行存儲(chǔ)和和管理時(shí),性能會(huì)提提高很多12數(shù)據(jù)倉庫的的技術(shù)需求求數(shù)據(jù)倉庫的的元數(shù)據(jù)控控制數(shù)據(jù)倉庫的的用戶應(yīng)該該能夠?qū)υ獢?shù)據(jù)進(jìn)行行準(zhǔn)確和實(shí)實(shí)時(shí)的訪問問典型的元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫表表的結(jié)構(gòu)數(shù)據(jù)倉庫表表的屬性數(shù)據(jù)倉庫的的源數(shù)據(jù)(記錄系統(tǒng)統(tǒng))從記錄系統(tǒng)統(tǒng)到數(shù)據(jù)倉倉庫的映射射數(shù)據(jù)模型的的規(guī)格說明明抽取日志訪問數(shù)據(jù)的的公用例行行程序13數(shù)據(jù)倉庫的的技術(shù)需求求數(shù)據(jù)倉庫要要有多種語語言接口數(shù)據(jù)倉庫需需要有非常常豐富的語語言接口數(shù)據(jù)倉庫接接口語言需需要能夠一次訪訪問一組數(shù)數(shù)據(jù)能夠一次訪訪問一條記記錄特別要保證證,為了滿滿足某個(gè)訪訪問要求,能夠支持持一個(gè)或多多個(gè)索引能夠插入、刪除、更新數(shù)據(jù)14數(shù)據(jù)倉庫的的技術(shù)需求求高效地裝入入數(shù)據(jù)倉庫庫在裝入數(shù)據(jù)據(jù)的同時(shí),索引也要要高效地裝裝入15數(shù)據(jù)倉庫的的技術(shù)需求求有效地使用用索引數(shù)據(jù)倉庫技技術(shù)不僅必必須能夠方方便地支持持新索引的的創(chuàng)建和裝裝入,而且且要能夠高高效地訪問問這些索引引高效訪問索索引的方法法位映象的方方法多級(jí)索引將部分或全全部索引裝裝入內(nèi)存當(dāng)被索引的的數(shù)據(jù)的次次序允許壓壓縮時(shí),對(duì)對(duì)索引項(xiàng)進(jìn)進(jìn)行壓縮創(chuàng)建選擇索索引或范圍圍索引16數(shù)據(jù)倉庫的的技術(shù)需求求以壓縮方式式存儲(chǔ)數(shù)據(jù)據(jù)數(shù)據(jù)倉庫中中的數(shù)據(jù)很很少更新,數(shù)據(jù)壓縮縮的管理很很簡單解壓縮的開開銷是CPU開銷,不是I/O資源的的開銷17數(shù)據(jù)倉庫的的技術(shù)需求求支持復(fù)合鍵鍵碼復(fù)合鍵碼在在數(shù)據(jù)倉庫庫中隨處可可見18數(shù)據(jù)倉庫的的技術(shù)需求求有效地管理理變長數(shù)據(jù)據(jù)在數(shù)據(jù)倉庫庫中,變長長數(shù)據(jù)很穩(wěn)穩(wěn)定,沒有有數(shù)據(jù)庫中中變長數(shù)據(jù)據(jù)的固有性性能問題19數(shù)據(jù)倉庫的的技術(shù)需求求有選擇地關(guān)關(guān)閉鎖管理理應(yīng)用加鎖管管理程序的的后果之一一是它消耗耗了相當(dāng)?shù)牡馁Y源,即即使數(shù)據(jù)不不被更新也也是一樣20數(shù)據(jù)倉庫的的技術(shù)需求求單獨(dú)索引處處理當(dāng)只通過查查看一下索索引就可以以滿足某些些請(qǐng)求時(shí),由于用不不著查看數(shù)數(shù)據(jù)的最初初數(shù)據(jù)源而而會(huì)更加有有效21數(shù)據(jù)倉庫的的技術(shù)需求求從大容量存存儲(chǔ)器迅速速恢復(fù)指能夠從非非直接存取取存儲(chǔ)設(shè)備備快速地恢恢復(fù)數(shù)據(jù)倉倉庫表.當(dāng)當(dāng)可以從二二級(jí)存儲(chǔ)設(shè)設(shè)備上恢復(fù)復(fù)時(shí),就可可以節(jié)約大大量開支22數(shù)據(jù)倉庫專專用DBMS23數(shù)據(jù)倉庫專專用DBMS數(shù)據(jù)倉庫專專用數(shù)據(jù)庫庫管理系統(tǒng)統(tǒng)--是特特別為數(shù)據(jù)據(jù)倉庫和決決策支持而而優(yōu)化設(shè)計(jì)計(jì)的管理系系統(tǒng).與通用DBMS的區(qū)區(qū)別專用DBMS的處理理類型為裝裝入和訪問問,而通用用DBMS必須適合合于記錄級(jí)級(jí)的數(shù)據(jù)更更新專用DBMS不需要要自由空間間,而通用用DBMS對(duì)數(shù)據(jù)在在塊級(jí)上的的管理要包包括一些附附加空間專用DBMS可以使使用更完善善的索引結(jié)結(jié)構(gòu),而通通用DBMS限制有有限數(shù)量的的索引專用DBMS物理上上優(yōu)化數(shù)據(jù)據(jù)是為了便便于訪問和和分析,而而通用DBMS優(yōu)化化數(shù)據(jù)是為為了事務(wù)的的訪問24數(shù)據(jù)倉庫專專用DBMS是否應(yīng)該改改變DBMS技術(shù)?是當(dāng)今可用的的DBMS技術(shù),當(dāng)當(dāng)數(shù)據(jù)倉庫庫首次載入入數(shù)據(jù)時(shí)并并不合適數(shù)據(jù)倉庫已已經(jīng)變得非非常之大,以至于應(yīng)應(yīng)該提出新新的技術(shù)方方法數(shù)據(jù)倉庫的的利用已經(jīng)經(jīng)提高許多多,也改變變了許多,使得現(xiàn)在在的數(shù)據(jù)倉倉庫的DBMS技術(shù)術(shù)已經(jīng)不適適用了25數(shù)據(jù)倉庫專專用DBMS是否應(yīng)該考考慮找一種種新的DBMS技術(shù)術(shù)?新的DBMS技術(shù)是是否滿足可可預(yù)知的需需求?從舊的DBMS向新新的DBMS的轉(zhuǎn)換換應(yīng)該怎樣樣去做?轉(zhuǎn)換的程序序應(yīng)該怎樣樣改變?26多維DBMS和數(shù)據(jù)倉庫27多維DBMS和數(shù)據(jù)據(jù)倉庫多維DBMS(有時(shí)時(shí)也叫”數(shù)數(shù)據(jù)集市””)多維DBMS提供一一種信息系系統(tǒng)結(jié)構(gòu),使得對(duì)數(shù)數(shù)據(jù)的訪問問非常靈活活,可以以以多種方法法對(duì)數(shù)據(jù)進(jìn)進(jìn)行分片、分割,動(dòng)態(tài)地考察察匯總數(shù)據(jù)據(jù)和細(xì)節(jié)數(shù)數(shù)據(jù)的關(guān)系系多維DBMS不僅提提供了靈活活性,還可可以對(duì)終端端用戶進(jìn)行行管理多維DBMS和數(shù)據(jù)據(jù)倉庫有互互補(bǔ)關(guān)系28多維DBMS和數(shù)據(jù)據(jù)倉庫多維DBMS數(shù)據(jù)集集市的關(guān)系系型基礎(chǔ)優(yōu)能支持大量量數(shù)據(jù)能支持?jǐn)?shù)據(jù)據(jù)的動(dòng)態(tài)連連接已被證實(shí)是是有效的技技術(shù)如果對(duì)數(shù)據(jù)據(jù)的使用模模型不清楚楚的話,關(guān)關(guān)系型結(jié)構(gòu)構(gòu)與其他任任何結(jié)構(gòu)一一樣好劣性能上不是是最好的不能單獨(dú)對(duì)對(duì)訪問處理理進(jìn)行優(yōu)化化29多維DBMS和數(shù)據(jù)據(jù)倉庫多維DBMS數(shù)據(jù)集集市的“立立方體”基基礎(chǔ)優(yōu)對(duì)于DSS處理性能能上是優(yōu)化化的能夠?qū)?shù)據(jù)據(jù)的快速訪訪問進(jìn)行優(yōu)優(yōu)化如果已知數(shù)數(shù)據(jù)訪問的的模式,則則數(shù)據(jù)的結(jié)結(jié)構(gòu)可以優(yōu)優(yōu)化能夠很輕松松地”切片片和分塊””可以用多種種方法檢測測劣幾乎不能處處理像標(biāo)準(zhǔn)準(zhǔn)的關(guān)系模模型那么多多的數(shù)據(jù)不支持通用用的更新處處理裝入的時(shí)間間很長如果對(duì)路徑徑的訪問不不被數(shù)據(jù)設(shè)設(shè)計(jì)所支持持的話,這這種結(jié)構(gòu)就就顯得不靈靈活對(duì)數(shù)據(jù)的動(dòng)動(dòng)態(tài)連接的的支持是有有問題的30數(shù)據(jù)倉庫中中的元數(shù)據(jù)31數(shù)據(jù)倉庫中中的元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫中中的元數(shù)據(jù)據(jù)包括兩大大部分:有關(guān)集成的的信息數(shù)據(jù)倉庫字字典32數(shù)據(jù)倉庫中中的元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫中中元數(shù)據(jù)特特點(diǎn)服務(wù)于DSS專業(yè)人人員,而不不僅僅是IT人員33數(shù)據(jù)倉庫中中的元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫中中元數(shù)據(jù)特特點(diǎn)涉及到從操操作型環(huán)境境到數(shù)據(jù)倉倉庫環(huán)境的的映射34數(shù)據(jù)倉庫中中的元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫中中元數(shù)據(jù)特特點(diǎn)數(shù)據(jù)會(huì)存在在一段很長長的時(shí)間35上下文維和和上下文信息息36上下文維和和上下文信信息數(shù)據(jù)倉庫中中需要上下下文維數(shù)據(jù)倉庫的的一個(gè)重要要特征是能能夠?qū)σ欢味螘r(shí)間的信信息進(jìn)行存存儲(chǔ)和管理理為了理解和和解釋一段段時(shí)間內(nèi)的的信息,需需要信息發(fā)發(fā)生的背景景三個(gè)級(jí)別的的上下文信信息簡單上下文文信息復(fù)雜上下文文信息外部上下文文信息37上下文維和和上下文信信息簡單上下文文信息與數(shù)據(jù)本身身的基本結(jié)結(jié)構(gòu)有關(guān),包括數(shù)據(jù)的結(jié)構(gòu)構(gòu)數(shù)據(jù)的編碼碼數(shù)據(jù)的命名名約定描述數(shù)據(jù)據(jù)的度量量數(shù)據(jù)的多多少數(shù)據(jù)增長長速度數(shù)據(jù)的哪哪一部分分增長數(shù)據(jù)是怎怎樣被使使用的簡單上下下文以往往是用字字典,目目錄,系系統(tǒng)監(jiān)視視器等管管理的38上下文維維和上下下文信息息復(fù)雜上下下文信息息描述的是是和簡單單上下文文相同的的數(shù)據(jù),但從不不同的側(cè)側(cè)面描述,其強(qiáng)強(qiáng)調(diào)下面面幾點(diǎn)產(chǎn)品定義義市場領(lǐng)域域定價(jià)包裝組織結(jié)構(gòu)構(gòu)分發(fā)復(fù)雜上下下文信息息非常有有用但基基本,但但非常難難以捉摸摸,它令令人難以以捉摸是是因?yàn)樗窍氘?dāng)當(dāng)然的,并存在在于背景景環(huán)境中中39上下文維維和上下下文信息息外部上下下文信息息是公司以以外的,但在理理解隨時(shí)時(shí)間變化化的信息息方面起起重要作作用的信信息,實(shí)實(shí)例包括括經(jīng)濟(jì)預(yù)測測通貨膨脹脹金融稅務(wù)經(jīng)濟(jì)增長長政治信息息競爭信息息技術(shù)進(jìn)展展40上下文維維和上下下文信息息捕獲和管管理上下下文信息息復(fù)雜上下下文信息息和外部部上下文文信息是是非結(jié)構(gòu)構(gòu)化的上下文信信息變化化很快以往管理理上下文文信息的的方法的的缺點(diǎn)信息的管管理針對(duì)對(duì)信息系系統(tǒng)的開開發(fā)者,而不是是最終用用戶對(duì)上下文文管理的的意圖是是被動(dòng)的的對(duì)上下文文管理的的意圖在在很多情情況下會(huì)會(huì)從開發(fā)發(fā)計(jì)劃中中刪除掉掉對(duì)上下文文管理的的意圖僅僅局限于于簡單上上下文41建立數(shù)據(jù)倉庫庫42建立數(shù)據(jù)倉庫庫建立數(shù)據(jù)倉庫庫的任務(wù)就是是將數(shù)據(jù)源中中的數(shù)據(jù)整理理后按照數(shù)據(jù)據(jù)倉庫的結(jié)構(gòu)構(gòu),放入數(shù)據(jù)據(jù)倉庫的物理理存儲(chǔ)介質(zhì)中中數(shù)據(jù)倉庫的建建立分為三個(gè)個(gè)子任務(wù):抽取數(shù)據(jù)(extractingdata)轉(zhuǎn)換數(shù)據(jù)(transformingdata)加載數(shù)據(jù)(transporting/loadingdata)因此,建立數(shù)數(shù)據(jù)倉庫的過過程也稱為ETT過程或或ETL過程程43建立數(shù)據(jù)倉庫庫ETT過程ExtractsourcedataTransform/cleandataIndexandsummarizeLoaddataintoWHDetectchangesRefreshdataProgramsToolsETTOperational
systemsWarehouseBrowser:http://HollywoodX+Customers:arecorofasX+Customers:Browser:http://HollywoodBrowser:http://HollywoodX+Gateways44數(shù)據(jù)倉庫的數(shù)據(jù)刷新45數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)刷新數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)定期刷新新是一項(xiàng)巨大大的開銷數(shù)據(jù)刷新的方方法直接讀取老的的傳統(tǒng)的數(shù)據(jù)據(jù)庫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《組合圖形的面積》(說課稿)-2024-2025學(xué)年五年級(jí)上冊(cè)數(shù)學(xué)人教版
- 3古詩詞三首《六月二十七日望湖樓醉書》說課稿-2024-2025學(xué)年語文六年級(jí)上冊(cè)統(tǒng)編版
- 2025年度金融風(fēng)險(xiǎn)評(píng)估服務(wù)合同9篇
- 7兩件寶 第一課時(shí) 說課稿-2024-2025學(xué)年語文一年級(jí)上冊(cè)統(tǒng)編版
- 第19課《蘇州園林》說課稿 2024-2025學(xué)年統(tǒng)編版語文八年級(jí)上冊(cè)
- 2025年度食品生產(chǎn)、銷售與許可協(xié)議3篇
- Module 1 單元備課(說課稿)-2024-2025學(xué)年外研版(一起)英語三年級(jí)上冊(cè)
- 2025年度銷售提成協(xié)議書范例:跨區(qū)域市場拓展專項(xiàng)合作3篇
- 2025年房地產(chǎn)房屋互換合同2篇
- 2025年度鋼筋訂購與交付協(xié)議3篇
- ISO28000:2022供應(yīng)鏈安全管理體系
- 化工有限公司3萬噸水合肼及配套項(xiàng)目環(huán)評(píng)可研資料環(huán)境影響
- 2023年公務(wù)員多省聯(lián)考《申論》題(廣西B卷)
- 生物醫(yī)藥大數(shù)據(jù)分析平臺(tái)建設(shè)
- 滬教版小學(xué)語文古詩(1-4)年級(jí)教材
- 外科醫(yī)生年終述職總結(jié)報(bào)告
- CT設(shè)備維保服務(wù)售后服務(wù)方案
- 重癥血液凈化血管通路的建立與應(yīng)用中國專家共識(shí)(2023版)
- 兒科課件:急性細(xì)菌性腦膜炎
- 柜類家具結(jié)構(gòu)設(shè)計(jì)課件
- 陶瓷瓷磚企業(yè)(陶瓷廠)全套安全生產(chǎn)操作規(guī)程
評(píng)論
0/150
提交評(píng)論