第一講 數(shù)據倉庫基礎_第1頁
第一講 數(shù)據倉庫基礎_第2頁
第一講 數(shù)據倉庫基礎_第3頁
第一講 數(shù)據倉庫基礎_第4頁
第一講 數(shù)據倉庫基礎_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一講

數(shù)據倉庫基礎姓名:陳令江QQ:453579383電話mail:chenlingjiang@內容1、數(shù)據倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據倉庫系統(tǒng)的體系結構5、數(shù)據倉庫的產生、發(fā)展與未來6、數(shù)據倉庫的數(shù)據存儲與處理數(shù)據倉庫4、數(shù)據倉庫的實施問題什么是數(shù)據倉庫?為什么要建數(shù)據倉庫?建數(shù)據倉庫能帶來哪些好處?1.1什么是數(shù)據倉庫數(shù)據倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據集合,用于支持管理決策和信息的全局共享?!獢?shù)據倉庫之父[WilliamH.Inmon]1.1.1數(shù)據倉庫特點(面向主題的)生產系統(tǒng)操作型數(shù)據庫數(shù)據倉庫操作型數(shù)據庫是面向特殊處理任務,各個系統(tǒng)之間各自分離數(shù)據倉庫是按照一定的主題域進行組織。一個主題通常與多個操作型信息系統(tǒng)相關銷售系統(tǒng)財務系統(tǒng)客戶1.1.2數(shù)據倉庫特點(集成的)面向特定應用集成的每一個數(shù)據庫面向特定的應用,各類應用(包括其相關的數(shù)據庫)之間相互獨立數(shù)據倉庫中的數(shù)據面向整個企業(yè)的分析處理,經營分析系統(tǒng)中的數(shù)據是已經集成了的,消除了數(shù)據的不一致性操作型數(shù)據庫數(shù)據倉庫1.1.3數(shù)據倉庫特點(相對穩(wěn)定的)實時更新,數(shù)據根據需要及時發(fā)生變化定期加載,加載后的數(shù)據極少更新,在某個時間段內保持相對穩(wěn)定操作型數(shù)據庫數(shù)據倉庫modifydeleteinsertupdateLoad/Update1.1.4數(shù)據倉庫特點(反應歷史變化的)主要關心當前數(shù)據通常包含歷史數(shù)據操作型數(shù)據庫數(shù)據倉庫1.2對數(shù)據倉庫系統(tǒng)的理解數(shù)據倉庫系統(tǒng)用于支持管理和決策,面向分析型數(shù)據處理,它不同于企業(yè)現(xiàn)有的面向交易的操作型數(shù)據庫;數(shù)據倉庫系統(tǒng)是對多個異構的數(shù)據源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據。與其他數(shù)據庫應用不同的是,數(shù)據倉庫更像一種過程,對分布在企業(yè)內部各處的業(yè)務數(shù)據的整合、加工和分析的過程。1.3數(shù)據倉庫的組成數(shù)據倉庫數(shù)據庫;數(shù)據抽取工具;

OLAP服務器;元數(shù)據(Metadata);數(shù)據展現(xiàn)工具;數(shù)據集市(DataMarts);數(shù)據倉庫管理;信息發(fā)布系統(tǒng)。1.3.1數(shù)據倉庫數(shù)據庫數(shù)據倉庫數(shù)據庫是整個數(shù)據倉庫的核心,是數(shù)據信息存放的地方,對數(shù)據提供存取和檢索支持。相對于傳統(tǒng)數(shù)據庫來說,其突出的特點是對海量數(shù)據的支持和快速的檢索技術。數(shù)據庫OracleDB2SQLServerSybaseMySQL……數(shù)據庫內部性能參數(shù)有一些差異:傳統(tǒng)數(shù)據庫:注重增、刪、改、查的綜合性能。數(shù)據倉庫:以查詢、統(tǒng)計性能為優(yōu)先重點。1.3.2數(shù)據抽取工具數(shù)據抽取工具是把數(shù)據從各種各樣的存儲環(huán)境中提取出來,進行必要的轉化、整理,再存放到數(shù)據倉庫內。對各種不同數(shù)據的存儲方式的訪問能力是數(shù)據抽取工具的關鍵,可以運用高級語言編寫的程序、操作系統(tǒng)腳本、批命令腳本或SQL腳本等方式,訪問不同的數(shù)據環(huán)境。數(shù)據轉換通常包括如下內容:刪除對決策分析沒有意義的數(shù)據。轉換到統(tǒng)一的數(shù)據名稱和定義。計算統(tǒng)計和衍生數(shù)據。填補缺失數(shù)據。統(tǒng)一不同的數(shù)據定義方式。1.3.3OLAP服務器OLAP服務器是用于存儲多“維”數(shù)據的,存儲結構類似與立方體的結構,提供給用戶快速的數(shù)據分析支持。1.3.4元數(shù)據元數(shù)據是描述數(shù)據倉庫數(shù)據的結構和建立方法的數(shù)據,全面描述了數(shù)據倉庫中有什么數(shù)據,這些數(shù)據是怎么得到,數(shù)據的來源是哪里等。簡言之:元數(shù)據就是數(shù)據的數(shù)據。元數(shù)據分為技術元數(shù)據和業(yè)務元數(shù)據。技術元數(shù)據是面向設計和管理人員的,包括數(shù)據源信息、數(shù)據結構定義、數(shù)據轉換規(guī)則等。業(yè)務元數(shù)據是面向業(yè)務使用人員的,主要是從業(yè)務的視角來描述業(yè)務主題。1.3.5數(shù)據展現(xiàn)工具數(shù)據展現(xiàn)工具為用戶訪問數(shù)據倉庫提供的手段,如:數(shù)據查詢和報表工具、應用開發(fā)工具、數(shù)據分析工具、數(shù)據挖掘工具等。數(shù)據分析工具報表展現(xiàn)工具1.3.6數(shù)據集市數(shù)據展現(xiàn)工具為用戶訪問數(shù)據倉庫提供的手段,如:數(shù)據查詢和報表工具、應用開發(fā)工具、數(shù)據分析工具、數(shù)據挖掘工具等。數(shù)據集市的劃分有很多中,如按照時間劃分(07年、08年、09年等)按照地域劃分(廣州、深圳、珠海等)按照業(yè)務劃分(生產、銷售、財務等)……1.3.7數(shù)據倉庫管理數(shù)據倉庫管理包括安全與權限的管理、數(shù)據更新的跟蹤、數(shù)據質量的檢查、元數(shù)據的管理和更新、數(shù)據倉庫使用狀態(tài)的監(jiān)測與審計、數(shù)據復制與刪除、數(shù)據分割與分發(fā)、數(shù)據備份與恢復、數(shù)據存儲管理等。數(shù)據倉庫1.3.8信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)是把數(shù)據倉庫中的數(shù)據,或其他相關的數(shù)據發(fā)送給不同的地點或用戶?;赪eb的信息發(fā)布系統(tǒng)是當前比較流行的多用戶訪問的最有效方法。數(shù)據倉庫問題什么是數(shù)據倉庫?為什么要建數(shù)據倉庫?數(shù)據集成問題數(shù)據動態(tài)集成問題歷史數(shù)據問題數(shù)據的綜合問題

建數(shù)據倉庫能帶來哪些好處?公司領導層:了解公司全貌,輔助進行戰(zhàn)略決策中間管理層:掌控部門業(yè)務情況,協(xié)助制定管理策略基層管理人員:掌握基層單位或個人績效,實施有效管理內容1、數(shù)據倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據倉庫系統(tǒng)的體系結構5、數(shù)據倉庫的產生、發(fā)展與未來6、數(shù)據倉庫的數(shù)據存儲與處理數(shù)據倉庫4、數(shù)據倉庫的實施2.1什么是OLAP

OLAP(OnlineAnalysisProcess)是針對特定問題的聯(lián)機數(shù)據訪問和分析。通過對信息(維數(shù)據)的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據進行深入觀察。對OLAP的理解OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據分析工具的集合。2.2OLAP基礎概念(一)維度(Dimension)人們觀察數(shù)據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。量度(Measure)具體的指標值,如客戶數(shù)、收入等層次(Hierarchy)人們觀察數(shù)據的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:年->季度->月份->日期)。成員(Member)維的一個取值。是數(shù)據項在某維中位置的描述。2.2OLAP基礎概念(二)多維分析多維分析是只對以“維”形式組織起來的數(shù)據(多維數(shù)據集)采取切片(slice)、切塊(dice)、鉆?。╠rilldown和drillup)和旋轉(pivot)等各種分析操作,以求剖析數(shù)據,使用戶能從不同角度、不同側面觀察數(shù)據倉庫中的數(shù)據,從而深入理解多維數(shù)據集中的信息。2.3OLTP與OLAP的比較OLTPOLAP用戶操作人員、基層管理人員決策人員、高級管理人員功能日常操作型事務處理分析決策設計目標面向應用面向主題數(shù)據特點當前的、最新的、細節(jié)的、二維的、分立的歷史的、聚集的、維多的、集成的、統(tǒng)一的存取規(guī)模通常一次讀或寫數(shù)十條記錄可能讀取百萬條以上記錄工作單元一個事務一個復雜查詢用戶數(shù)通常是成千上萬個用戶可能只有幾十個或上百的用戶數(shù)據庫大小通常在GB級(100MB~1GB)在TB級(100GB~100TB)2.4OLAP特性快速性用戶對OLAP的快速反應能力有很高的要求。系統(tǒng)應能在5秒內對用戶的大部分分析要求做出反應??煞治鲂設LAP系統(tǒng)應能處理與應用有關的任何邏輯分析和統(tǒng)計分析。多維性多維性是OLAP的關鍵屬性。系統(tǒng)必須提供對數(shù)據的多維視圖和分析,包括對層次維和多重層次維的完全支持。信息性不論數(shù)據量有多大,也不管數(shù)據存儲在何處,OLAP系統(tǒng)應能及時獲得信息,并且管理大容量信息。2.5OLAP類型ROLAP結構MOLAP結構

ROLAP(RelationOLAP):關系型OLAP,數(shù)據存儲在數(shù)據庫中,查詢方便靈活。

MOLAP(Multi-dimensionOLAP):多維OLAP,數(shù)據采用立方體的方式,獨立存儲,查詢效率高。

HOLAP(HyperOLAP):混合型OLAP,也就是ROLAP和MOLAP的聯(lián)合體。分為三種類型:ROLAP、MOLAP、HOLAPHOLAP結構2.6ROLTP與MOLAP的比較ROLTPMOLAP優(yōu)點

沒有大小限制現(xiàn)有的關系數(shù)據庫的技術可以沿用可以通過SQL實現(xiàn)詳細數(shù)據與概要數(shù)據的存儲現(xiàn)有關系型數(shù)據庫已經對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據管理、基于成本的查詢優(yōu)化、位圖索引、SQL

的OLAP擴展(cube,rollup)等大大提高ROALP的速度

性能好、響應速度快專為OLAP所設計持高性能的決策支持計算復雜的跨維計算多用戶的讀寫操作行級的計算

缺點

一般比MDD響應速度慢不支持有關預計算的讀寫操作SQL無法完成部分計算無法完成多行的計算無法完成維之間的計算

增加系統(tǒng)復雜度,增加系統(tǒng)培訓與維護費用受操作系統(tǒng)平臺中文件大小的限制,難以達到TB

級(只能10~20G)需要進行預計算,可能導致數(shù)據爆炸

無法支持維的動態(tài)變化缺乏數(shù)據模型和數(shù)據訪問的標準

內容1、數(shù)據倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據倉庫系統(tǒng)的體系結構5、數(shù)據倉庫的產生、發(fā)展與未來6、數(shù)據倉庫的數(shù)據存儲與處理數(shù)據倉庫4、數(shù)據倉庫的實施3.1數(shù)據倉庫系統(tǒng)的體系結構獨立的數(shù)據倉庫體系結構獨立的數(shù)據集市體系結構數(shù)據倉庫+數(shù)據集市體系結構實時數(shù)據倉庫體系結構3.2獨立的數(shù)據倉庫體系結構3.2獨立的數(shù)據集市體系結構3.3數(shù)據倉庫+數(shù)據集市體系結構3.4實時數(shù)據倉庫體系結構3.5某實際項目的數(shù)據倉庫體系結構3.6數(shù)據倉庫與數(shù)據集市的比較數(shù)據倉庫數(shù)據集市范圍應用獨立特定的DSS應用集中式、企業(yè)級用戶域的離散化規(guī)劃的可能是臨時組織的(無規(guī)劃)數(shù)據歷史的、詳細的、概括的一些歷史的、詳細的、概括的輕微不規(guī)范化高度不規(guī)范化主題多個主題用戶關心的某一個中心主題源多個內部和外部源很少的內部和外部源其它特征面向數(shù)據的、長期的、大的面向工程的、短期的、有小到達單一的復雜結構多、半復雜性結構內容1、數(shù)據倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據倉庫系統(tǒng)的體系結構5、數(shù)據倉庫的產生、發(fā)展與未來6、數(shù)據倉庫的數(shù)據存儲與處理數(shù)據倉庫4、數(shù)據倉庫的實施4.1數(shù)據倉庫系統(tǒng)的實施數(shù)據倉庫實施中的三個關鍵環(huán)節(jié)數(shù)據抽??;數(shù)據存儲與管理數(shù)據表現(xiàn)4.2數(shù)據倉庫實施方法論數(shù)據倉庫不是簡單的數(shù)據或產品堆砌,它是一個綜合集成解決方案和系統(tǒng)工程。在數(shù)據倉庫的實施過程中,技術決策至關重要,技術選擇或決策錯誤很可能導致項目實施失敗4.3數(shù)據倉庫實施步驟項目啟動原型應用需求分析LDM設計系統(tǒng)體系結構設計PDM設計ETL實現(xiàn)前端展現(xiàn)定制項目關閉環(huán)境構建系統(tǒng)測試系統(tǒng)應用需求變更分析設計實現(xiàn)4.4數(shù)據倉庫的構建方法——自頂向下建造企業(yè)數(shù)據倉庫建設中心數(shù)據模型一次性的完成數(shù)據的重構工作最小化數(shù)據冗余度和不一致性存儲詳細的歷史數(shù)據從企業(yè)數(shù)據倉庫中建造數(shù)據集市得到大部分的集成數(shù)據直接依賴于數(shù)據倉庫的可用性問題:建設中心數(shù)據模型的必要性和可能性?投資效益的時間?初始費用?4.5數(shù)據倉庫的構建方法——自底向上建立部門數(shù)據集市限制在一個主題區(qū)域快速投資收益區(qū)域自治–設計的可伸縮性強對相關部門的應用容易復制對每個數(shù)據集市需要數(shù)據重構存在一定的冗余及不一直性逐步擴展到企業(yè)數(shù)據倉庫(EDW)把建造EDW作為一個長期的目標問題:數(shù)據集市的數(shù)據都是可用的嗎?能生成數(shù)據模型嗎?如何解決不一致性?4.6常用數(shù)據倉庫產品比較能夠提供完整數(shù)據倉庫解決方案的廠商主要包括:IBM、Oracle、NCR、Microsoft等。另外,如果考慮到成本因素的話,也可以考慮采用開源方案,但這需要對開源產品非常的熟悉,自行完成解決方案的制定。4.6.1數(shù)據庫產品比較OracleDB2TeradataSQLServerMySQL硬件平臺兼容性高中低(專用主機)高高軟件平臺兼容性高高低(專用系統(tǒng))低(微軟平臺)高開放性高中高低高極高(開源)性能高高極高中中數(shù)據規(guī)模大大超大中中小易用性高中高低高高安全性高高高中中建設成本高高高中極低升級成本低低高低極低市場占有率高中高低低4.6.2ETL產品比較SSISDataStagePowerCenterOWBKettel平臺兼容性低高高高高開放性高高高中(Oracle平臺較高)極高(開源)性能高高中高中高易用性高中高中高使用成本中高高中低自定義函數(shù)/腳本支持中中中高高調試/監(jiān)控/斷點/日志高中高中高斷點續(xù)傳支持不支持支持不支持支持Email通知支持支持支持支持支持市場占有率低高高低中服務支持中高高中中4.6.3報表產品比較CrystalBrioSSRSReportNetBirt平臺兼容性高高中高高開放性高中高高高(開源)性能高中高高高易用性高低高中高報表類型BandBandBandBandBand圖表支持好較好好-好腳本支持好好高較好好輸出格式豐富中高豐富豐富使用成本高高中高低市場占有率高中中低中4.6.4OLAP產品比較EssbaseExpressCognosSSASMondrian平臺兼容性高高中中高OLAP類型MOLAPHOLAPMOLAPROLAP/MOLAPROLAP開放性高高中高高(開源)性能高中高中中易用性高低高高高安全性高中高中中使用成本高高高中低市場占有率高低中高中-4.6.5展前產品比較BOBrioCognosMicroStrategyPanteho平臺兼容性高高中中高功能高中高中中高開放性高中中中高(開源)性能高高高中中易用性高低高高高安全性高高高高高使用成本高高高中低市場占有率高中中低-4.6.6其它數(shù)據挖掘工具

目前市場上數(shù)據挖掘工具非常多,世界上各大BI廠商都提供了自己的數(shù)據挖掘工具,不過,從在挖掘領域的影響力和市場占有率來講,無疑是SAS和SPSS兩家獨大,產品也非常豐富,各種常用的挖掘算法和挖掘手段都能提供,主要還是看使用人員的熟練程度以及對業(yè)務的理解力。另外,開源領域也有一些挖掘工具,如WEKA,是新西蘭大學的數(shù)據挖掘產品,具體完整和先進的算法,不足在對于大數(shù)據量的處理比較慢和對非專業(yè)人員的可用性不好2個方面。

元數(shù)據管理工具

目前市場上主流的元數(shù)據管理工具包括:DAG公司的MetaCenter、CA公司的Repository以及Ascential公司的MetaStage等,這些產品的功能都不錯,對日常數(shù)據管理的絕大部分要求都可以滿足。另外,開源領域有Panteho的Metadata等,功能相對簡單,不過與Panteho平臺結合的不錯。

內容1、數(shù)據倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據倉庫系統(tǒng)的體系結構5、數(shù)據倉庫的產生、發(fā)展與未來6、數(shù)據倉庫的數(shù)據存儲與處理數(shù)據倉庫4、數(shù)據倉庫的實施5.1數(shù)據倉庫的產生聯(lián)機事務處理系統(tǒng)(業(yè)務系統(tǒng))剛上線時,查詢不到數(shù)據是因為數(shù)據太少了,而幾十年后查詢不到有關數(shù)據是因為數(shù)據太多了。針對這一問題,人們設想專門為業(yè)務數(shù)據的統(tǒng)計分析建立一個數(shù)據中心,它的數(shù)據從聯(lián)機事務處理系統(tǒng)中來、從異構的外部數(shù)據源來、或從脫機的歷史業(yè)務數(shù)據中來,這個數(shù)據中心也是一個聯(lián)機系統(tǒng),它專門為分析統(tǒng)計和決策支持應用服務,通過它可獲取決策支持和聯(lián)機分析應用所需要的一切數(shù)據。這個數(shù)據中心就叫做數(shù)據倉庫。簡單地說,數(shù)據倉庫就是一個作為決策支持和聯(lián)機分析應用系統(tǒng)數(shù)據源的結構化數(shù)據環(huán)境,數(shù)據倉庫要研究和解決的問題就是從數(shù)據庫中獲取信息的問題。報表為主分析為主預測模型為主營運導向為主實時數(shù)據倉庫、自動決策應用為主

1996年

1999年

2003年

2006年

2008年5.2數(shù)據倉庫的發(fā)展5.1數(shù)據倉庫的未來在數(shù)據抽取方面,未來的技術發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉換、復制、調度、監(jiān)控納入標準化的統(tǒng)一管理,以適應數(shù)據倉庫本身或數(shù)據源可能的變化,使系統(tǒng)更便于管理和維護。在數(shù)據管理方面,未來的發(fā)展將使數(shù)據庫廠商明確推出數(shù)據倉庫引擎,作為數(shù)據倉庫服務器產品與數(shù)據庫服務器并駕齊驅。在這一方面,帶有決策支持擴展的并行關系數(shù)據庫將最具發(fā)展?jié)摿?。在?shù)據表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產品中,并與Internet/Web技術緊密結合。按行業(yè)應用特征細化的數(shù)據倉庫用戶前端軟件將成為產品作為數(shù)據倉庫解決方案的一部分。數(shù)據倉庫實現(xiàn)過程的方法論將更加普及,將成為數(shù)據庫設計的一個明確分支,成為管理信息系統(tǒng)設計的必備。內容1、數(shù)據倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據倉庫系統(tǒng)的體系結構5、數(shù)據倉庫的產生、發(fā)展與未來6、數(shù)據倉庫的數(shù)據存儲與處理數(shù)據倉庫4、數(shù)據倉庫的實施6.1數(shù)據倉庫的三層數(shù)據結構6.2數(shù)據倉庫(EDW)內部結構早期細節(jié)數(shù)據當前細節(jié)數(shù)據輕度匯總數(shù)據高度匯總數(shù)據6.3數(shù)據倉庫的數(shù)據特征狀態(tài)數(shù)據與事件數(shù)據當前數(shù)據與周期數(shù)據數(shù)據倉庫中的元數(shù)據

6.4數(shù)據倉庫的數(shù)據ETLETL:即數(shù)據抽?。‥xtraction)、轉換(Transformation)和裝載(Loading),是數(shù)據倉庫實現(xiàn)過程中,進行數(shù)據由數(shù)據源系統(tǒng)向數(shù)據倉庫加載的重要環(huán)節(jié)。從功能上看,整個ETL包括三個部分:數(shù)據抽取,從數(shù)據源系統(tǒng)抽取數(shù)據倉庫系統(tǒng)需要的數(shù)據;數(shù)據轉換,將從數(shù)據源獲取的數(shù)據轉換成數(shù)據倉庫要求的形式,對數(shù)據進行變換;數(shù)據加載,將數(shù)據裝入數(shù)據倉庫。6.4.1數(shù)據抽?。‥xtract)抽取接口典型的數(shù)據抽取接口包括數(shù)據庫接口和文件接口。對于不同數(shù)據平臺、不同源數(shù)據形式、不同性能要求和業(yè)務量的業(yè)務系統(tǒng)以及不同數(shù)據量的源數(shù)據,將采取不同的數(shù)據抽取接口。在數(shù)據抽取時需要重點考慮數(shù)據抽取的效率,以及對現(xiàn)有業(yè)務系統(tǒng)性能及安全的影響。抽取策略數(shù)據的抽取必須能夠充分滿足數(shù)據倉庫系統(tǒng)分析及決策支持的需要,同時必須保證不能影響業(yè)務系統(tǒng)的性能,所以進行數(shù)據抽取時必須充分考慮這些因素,制定相應的策略,包括抽取方式、抽取時機、抽取周期等內容。

抽取方式:增量抽取、完全抽取等。抽取時機:盡可能避開業(yè)務系統(tǒng)的高峰時段,比如在夜間業(yè)務系統(tǒng)比較閑時。抽取周期:對不同類型的數(shù)據源,應綜合考慮業(yè)務需求和系統(tǒng)代價,制定合理的抽取周期。6.4.2數(shù)據轉換(Transformation

)主要功能數(shù)據轉換主要完成由于以下原因造成的數(shù)據不一致性問題:源數(shù)據系統(tǒng)同數(shù)據倉庫系統(tǒng)在模型上的差異性;源數(shù)據系統(tǒng)平臺不一致:數(shù)據倉庫系統(tǒng)的數(shù)據源可能包括基于不同平臺的數(shù)據庫的數(shù)據;源數(shù)據結構的不一致:有些數(shù)據源由于歷史的原因,導致同一個表在不同的時期數(shù)據結構不一致;源數(shù)據定義不規(guī)范導致錯誤數(shù)據;對數(shù)據的約束不嚴格,導致無意義數(shù)據;存在重復記錄;由于平臺系統(tǒng)的不同,可能會存在大量的轉碼工作。轉換策略根據實際情況,數(shù)據轉換工作一般會在以下幾個環(huán)節(jié)中具體實現(xiàn):在抽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論