




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第4章 數(shù)據(jù)庫與數(shù)據(jù)倉庫本章主要內(nèi)容4.1 信息系統(tǒng)的數(shù)據(jù)管理4.2 數(shù)據(jù)庫系統(tǒng)基本概念4.3 數(shù)據(jù)模型4.4 關系型數(shù)據(jù)庫4.5 數(shù)據(jù)倉庫4.6 數(shù)據(jù)挖掘信息技術信息技術是管理信息系統(tǒng)的基礎,只有把信息技術與管理結(jié)合起來,才能真正發(fā)揮管理信息系統(tǒng)的作用。信息技術是指能夠擴展人的信息器官功能,完成信息的獲取、傳遞、處理、利用等功能的一種技術。通信技術(傳遞信息)計算機技術(處理信息)通信技術(傳遞信息)感測技術(獲取信息)外部世界(信源/信宿)控制技術(利用信息)管理離不開信息的存取及對信息的處理信息的存取:要具備有效的方法對信息進行組織,以便人們能方便快捷地得到它。信息的處理:要有恰當?shù)男畔?/p>
2、處理工具組織信息的主要工具數(shù)據(jù)庫數(shù)據(jù)倉庫處理數(shù)據(jù)庫和數(shù)據(jù)倉庫的軟件工具數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)挖掘工具企業(yè)利用信息做什么?(1) 以事務處理的形式處理信息銀行儲蓄所業(yè)務處理系統(tǒng)進銷存管理系統(tǒng)財務管理系統(tǒng) 聯(lián)機事務處理(OLTP)(Online Transaction Processing)數(shù)據(jù)庫及數(shù)據(jù)庫管理系統(tǒng)企業(yè)利用信息做什么?(3) 在使用信息的過程中管理信息選擇適當?shù)募夹g去組織信息,以便知識工作者能夠邏輯地處理信息,而不必了解信息的物理組織形式確定用戶對信息進行操作的權(quán)限備份信息,確定信息的保存時間及使用的存儲技術 4.1 信息系統(tǒng)的數(shù)據(jù)管理美國學者詹姆斯 馬丁提出數(shù)據(jù)環(huán)境的概念,認為只要企業(yè)
3、的性質(zhì)和目標不變,盡管企業(yè)的數(shù)據(jù)加工處理過程是多變,但數(shù)據(jù)是穩(wěn)定的。信息系統(tǒng)是有目的地對企業(yè)生產(chǎn)經(jīng)營活動產(chǎn)生的原始數(shù)據(jù)進行收集、組織、加工處理,直至生成信息的系統(tǒng)。管理人員則利用信息控制企業(yè)各項經(jīng)營活動并作出決策。組織數(shù)據(jù)的邏輯存儲結(jié)構(gòu),將邏輯存儲結(jié)構(gòu)轉(zhuǎn)換成計算機物理存儲結(jié)構(gòu),以及根據(jù)需要準確、迅速地存取數(shù)據(jù)等,這些問題都是數(shù)據(jù)管理技術的主要研究內(nèi)容。數(shù)據(jù)管理技術的發(fā)展階段隨著計算機硬件和軟件技術的發(fā)展,以及應用的需求拉動,數(shù)據(jù)管理技術的發(fā)展經(jīng)歷了三個階段:人工管理階段 (20世紀50年代中期以前) 文件系統(tǒng)階段 (50年代后期到60年代中期) 數(shù)據(jù)庫系統(tǒng)階段 (60年代后期開始) 人工管理階
4、段產(chǎn)生的背景應用需求:科學計算硬件水平:無直接存取存儲設備(硬盤等)軟件水平:沒有操作系統(tǒng)處理方式:批處理應用程序1數(shù)據(jù)文件1應用程序2應用程序3數(shù)據(jù)文件2數(shù)據(jù)文件3用戶用戶用戶人工管理階段特點無數(shù)據(jù)管理及完全分散的方式數(shù)據(jù)的管理者:應用程序,數(shù)據(jù)不保存數(shù)據(jù)面向的對象:某一應用程序 數(shù)據(jù)的共享程度:無共享、冗余度極大數(shù)據(jù)的獨立性:不獨立,完全依賴于程序,修改數(shù)據(jù)必須修改程序。數(shù)據(jù)的結(jié)構(gòu)化:無結(jié)構(gòu)數(shù)據(jù)控制能力:程序員必須自行設計數(shù)據(jù)的組織方式。文件系統(tǒng)階段特點面向應用的數(shù)據(jù)管理功能數(shù)據(jù)的管理者:文件系統(tǒng),數(shù)據(jù)可長期保存數(shù)據(jù)面向的對象:某一應用 數(shù)據(jù)的共享程度:共享性差、冗余度大數(shù)據(jù)的結(jié)構(gòu)化:記錄
5、內(nèi)有結(jié)構(gòu),數(shù)據(jù)的結(jié)構(gòu)是靠程序定義和解釋的;整體無結(jié)構(gòu),文件間是獨立的。數(shù)據(jù)的獨立性:獨立性差,數(shù)據(jù)的邏輯結(jié)構(gòu)改變必須修改應用程序。數(shù)據(jù)控制能力:應用程序自己控制文件系統(tǒng)階段的不足數(shù)據(jù)冗余度大。文件系統(tǒng)中文件基本上對應于某個應用程序,數(shù)據(jù)仍是面向應用的,不同應用程序所需數(shù)據(jù)有部分相同時,仍需建立各自的數(shù)據(jù)文件,不能共享,數(shù)據(jù)維護困難,一致性難以保證。數(shù)據(jù)與程序獨立性仍不高。文件是為某一特定應用服務的,系統(tǒng)不易擴充。一旦數(shù)據(jù)邏輯結(jié)構(gòu)改變,就必須修改文件結(jié)構(gòu)的定義及應用程序;應用程序的變化也將影響文件的結(jié)構(gòu)。因而文件仍不能反映現(xiàn)實世界事物之間的聯(lián)系。數(shù)據(jù)庫系統(tǒng)階段的特點面向全組織的復雜數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)
6、庫描述了整個組織數(shù)據(jù)之間的聯(lián)系,數(shù)據(jù)的結(jié)構(gòu)用數(shù)據(jù)模型描述,無需程序定義和解釋。數(shù)據(jù)冗余度小。數(shù)據(jù)的獨立性:高度的物理獨立性和一定的邏輯獨立性。數(shù)據(jù)控制能力:由DBMS統(tǒng)一管理和控制數(shù)據(jù)的安全性(Security)保護數(shù)據(jù)的完整性(Integrity)檢查并發(fā)(Concurrency)控制數(shù)據(jù)庫恢復(Recovery)4.2 數(shù)據(jù)庫系統(tǒng)基本概念數(shù)據(jù)庫是信息的集合,它能按照信息的邏輯結(jié)構(gòu)對其進行組織與存取。數(shù)據(jù)庫具有較小的數(shù)據(jù)冗余,可供多個用戶共享,具有較高的數(shù)據(jù)獨立性,具有安全控制機制,能夠保證數(shù)據(jù)的安全、可靠,允許并發(fā)地使用數(shù)據(jù)庫,能有效、及時地處理數(shù)據(jù),并能保證數(shù)據(jù)的一致性和完整性。數(shù)據(jù)庫系
7、統(tǒng)結(jié)構(gòu)DBMS如Oracle、Sybase、SQL Server等。數(shù)據(jù)庫語言數(shù)據(jù)庫管理控制程序數(shù)據(jù)庫服務程序查詢工具報表工具. .應用程序應用程序數(shù)據(jù)庫管理系統(tǒng)(DBMS)應用數(shù)據(jù)庫引擎數(shù)據(jù)庫DBMS的功能數(shù)據(jù)庫定義功能定義數(shù)據(jù)庫中數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)完整性約束條件和安全性控制條件,并將所定義的內(nèi)容保存到數(shù)據(jù)字典中。數(shù)據(jù)庫管理功能管理數(shù)據(jù)庫的內(nèi)部組織,執(zhí)行用戶存取權(quán)限控制、并發(fā)控制和數(shù)據(jù)完整性檢查。數(shù)據(jù)庫訪問功能按用戶要求,執(zhí)行對數(shù)據(jù)庫數(shù)據(jù)的查詢與增、刪、改操作;數(shù)據(jù)的授權(quán)訪問等。子模式/概念模式映射A物理模型(內(nèi)模式)用戶A用戶B用戶D用戶E外模式1(子模式1)外模式2(子模式2)概念模型(模
8、式)DBMSOS子模式/概念模式映射B模式/內(nèi)模式映射用戶視圖DBA視圖系統(tǒng)程序員視圖保證了數(shù)據(jù)與程序的邏輯獨立性保證了數(shù)據(jù)與程序的物理獨立性數(shù)據(jù)視圖常見的DBMS個人數(shù)據(jù)庫dBase、FoxBASE、FoxPro、Access企業(yè)數(shù)據(jù)庫MS SQL ServerOracleSybaseDB2免費數(shù)據(jù)庫MySQLPostgresE-R模型E-R模型有三個基本元素,即實體、實體之間的聯(lián)系和屬性,它們分別用矩形框、棱型框和橢園形框表示,并且將對應的名字填入框內(nèi)以作標識,將參與聯(lián)系的實體用線段連接,并標上聯(lián)系的數(shù)量。實體之間的聯(lián)系班級班級-班長班長111:1聯(lián)系課程選修學生mnm:n 聯(lián)系班級組成學
9、生1n1:n 聯(lián)系關系模型關系模型具有較為堅實的理論基礎(關系代數(shù))。關系:有應用語義的二維表,表中的每一行描述事物或事物一部分狀態(tài)的數(shù)據(jù),表中的每一列描述事物的某個特征。屬性:二維表中的一列就是關系模式中的一個屬性。表中的每一個屬性必須是基本類型。表中的每一列的所有值必須是同類型、同語義的。屬性都有取值范圍。表中的每一列都必須有唯一的名字,列在表中的順序是無關的。一個關系的例子六條記錄四個屬性候選關鍵字主關鍵字關鍵字和外部關鍵字 97832 鄭 國 興 446-7987 岷江南路69號 67098 孫 大 明 239-7101 東方花園1932號 47952 李 平 237-2310 桃園小
10、區(qū)A幢3號 47857 張 東 升 237-6871 長江路132號 顧客標識號姓 名電 話地 址Customer 關系 47952 47812 41497 41797 47952 43711 41497 41797 97832 11112 31197 31397顧客標識號影 碟 號租賃日期歸還日期Video Rental 關系 47812 未來世界 科 幻 457 1 3.00 47811 笑傲江湖 武 俠 457 1 3.00 43711 英雄本色 槍 戰(zhàn) 381 2 3.00 23561 射雕英雄傳 武 俠 235 2 1.50 11112 星球大戰(zhàn) 科 幻 457 2 3.00 111
11、11 虎口脫險 喜 劇 457 2 3.00影碟號名 字類 型經(jīng)銷商代碼天 數(shù) 租價(元)Video 關系關 鍵 字外部關鍵字4.4 關系型數(shù)據(jù)庫表(Table)表是數(shù)據(jù)存儲的最主要、最基本的單位。數(shù)據(jù)庫可以有多張表組成,這些表之間存在一定的關系。表對應數(shù)據(jù)庫的模式,表由行(對應記錄)和列(對應屬性)組成。視圖(View)視圖是用戶看到的數(shù)據(jù),它提供了數(shù)據(jù)的邏輯獨立性。存儲過程是一段代碼塊,它封裝了復雜的數(shù)據(jù)操作命令,提供了代碼共享功能,并提高了數(shù)據(jù)操作的速度。觸發(fā)器(Trigger)觸發(fā)器主要用于實現(xiàn)復雜的商業(yè)規(guī)則或復雜的完整性約束,它是由數(shù)據(jù)的操作而自動引發(fā)執(zhí)行的代碼段。索引用于加快數(shù)據(jù)的
12、查詢速度。約束約束用于保證數(shù)據(jù)的完整性,它包括實體完整性、引用完整性和用戶定義完整性。目的是保證數(shù)據(jù)庫中存儲的數(shù)據(jù)是正確的數(shù)據(jù)。數(shù)據(jù)的完整性關系的完整性是指關系中數(shù)據(jù)值與其描述的應用對象實際狀態(tài)保證一致的約束條件。實體完整性指關系中的主關鍵字不能為空,且主關鍵字的值不能相同,保證主關鍵字能唯一地標識關系中的每個元組。引用完整性指不允許引用數(shù)據(jù)庫中不存在的外鍵數(shù)據(jù),外鍵(或叫外部關鍵字)是指一個表中的某個屬性是另一個表的主關鍵字。用戶定義完整性規(guī)定了屬性的值必須是域中的值。如性別只有男或女,年齡只在0150等。學生情況表課程表學生選課表主關鍵字關系的完整性舉例選課表中不允許出現(xiàn)“學生”表中沒有的
13、學號,同時也不允許出現(xiàn)“課程”表中沒有的課程號??梢酝ㄟ^定義外鍵來實現(xiàn),定義修課表中的學號是學生表的外鍵,選課表中的課程號是課程表的外鍵。注意是先有主關鍵字值,后有外鍵值。學號姓名專業(yè)出生日期.MG903811Peter電子商務55/10/10.MG903812John金融65/09/10.學號課程代碼修讀時間課程類型成績MG90381210199-1選修86MG90381110199-2必修90MG90381110299-1必修91課程代碼課程名稱開課系別101E-B電子商務102MIS電子商務數(shù)據(jù)庫設計的過程DBMS的數(shù)據(jù)模型加工、轉(zhuǎn)換存儲 二進制數(shù)據(jù)集合結(jié)構(gòu)計算機世界加工轉(zhuǎn)換DBMS數(shù)
14、文件據(jù) 記錄庫 相關數(shù)據(jù)項集合數(shù)據(jù)世界實體 實體集合及 實體聯(lián)系 相關屬性集合 信息世界人認識、描述客觀 事物類:事物 相關性質(zhì)集合現(xiàn)實世界E-R模型4.5 數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,并用于支持企業(yè)的分析活動和決策任務。為什么使用數(shù)據(jù)倉庫?傳統(tǒng)的數(shù)據(jù)庫對企業(yè)的決策支持作用有限企業(yè)大量的數(shù)據(jù)資源沒有得到充分的利用 “ 數(shù)據(jù)爆炸而知識貧乏 ”提高數(shù)據(jù)存儲和數(shù)據(jù)分析的效率哪些客戶是公司的金牌客戶?數(shù)據(jù)倉庫的結(jié)構(gòu)模型星形模型雪花模型名稱Sales描述整個超市中每個門市中每個POS機所記載的商品銷售情況目的用于進行超市銷
15、售狀況和促銷情況分析聯(lián)系人各個門市的銷售經(jīng)理維時間、商品、客戶、商店事實銷售事實表量度值銷售額、銷售量例:銷售主題元數(shù)據(jù)Sales數(shù)據(jù)倉庫的星形模式Sales數(shù)據(jù)倉庫的雪花形模式Sales和Shipping數(shù)據(jù)倉庫的事實星座形模式三層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)的屬性類型屬性的變換數(shù)據(jù)倉庫的應用信息處理:基于查詢和基本的統(tǒng)計分析,可以發(fā)現(xiàn)有用的信息,但通常是反映直接存放在數(shù)據(jù)庫中的信息,無法發(fā)現(xiàn)復雜的模式。分析處理:支持基本的OLAP,包括切片與切塊、下鉆(drill-down)、上卷(roll-up)和轉(zhuǎn)軸。OLAP是數(shù)據(jù)匯總/聚集工具,幫助簡化數(shù)據(jù)分析。數(shù)據(jù)挖掘:支持知識發(fā)現(xiàn),自動發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中
16、的隱含模式和有趣知識。數(shù)據(jù)挖掘涉及的分析比OLAP更最大化、更深入。OLTP與OLAPOLAPOLAP(On-Line Analysis Processing )由關系數(shù)據(jù)庫之父E.F.Codd提出。用戶決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而簡單查詢不能滿足決策者需求。也就是說,傳統(tǒng)的OLTP和SQL對大數(shù)據(jù)庫的簡單查詢不能滿足用戶分析的要求。因此提出多維數(shù)據(jù)庫和多維分析概念,即OLAP。通過提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預計算,數(shù)據(jù)倉庫非常適合OLAP。OLAP使用數(shù)據(jù)的領域知識,允許在不同的抽象層提供數(shù)據(jù),在不同的匯總級別觀察數(shù)據(jù)。OLAP服務器類型從邏輯上講,OLAP服務器為
17、用戶提供來自數(shù)據(jù)倉庫的多維數(shù)據(jù),而不必關心數(shù)據(jù)如何存放。然而,OLAP服務器的物理結(jié)構(gòu)和實現(xiàn)必須考慮數(shù)據(jù)存放的問題。關系OLAP(ROLAP)服務器:使用關系的或擴充關系的DBMS存儲并管理數(shù)據(jù)倉庫。ROLAP具有很好的可伸縮性。多維OLAP(MOLAP)服務器:通過基于數(shù)組的多維存儲引擎支持數(shù)據(jù)的多維視圖。將多維視圖直接映射到數(shù)據(jù)立方體數(shù)組結(jié)構(gòu)。使用數(shù)據(jù)立方體的優(yōu)點是能夠?qū)︻A計算的匯總數(shù)據(jù)快速索引?;旌螼LAP(HOLAP)服務器:結(jié)合了ROLAP和MOLAP技術,得益于ROLAP較大的可伸縮性和MOLAP的快速計算。Sql Server 2000支持HOLAP服務器。用于數(shù)據(jù)倉庫的多維數(shù)據(jù)
18、立方體用于數(shù)據(jù)倉庫的多維數(shù)據(jù)立方體4.6 數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)是在大型數(shù)據(jù)存儲庫中自動發(fā)現(xiàn)有用信息的過程。從數(shù)據(jù)倉庫觀點來看,數(shù)據(jù)挖掘可以看做是OLAP的高級階段。輸入數(shù)據(jù)數(shù)據(jù)預處理數(shù)據(jù)挖掘后處理信息特征選擇維歸約規(guī)范化選擇數(shù)據(jù)子集模式過濾可視化模式表示知識發(fā)現(xiàn)的過程有趣的模式滿足下列條件,則挖掘到的模式是有趣的它易于理解在某種必然程度上,對于新的或檢驗數(shù)據(jù)是有效的是潛在有用的是新穎的如果一個模式符合用戶確信的某種假設,它也是有趣的。有趣的模式代表知識。數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)挖掘的功能預測:根據(jù)其它屬性(自變量)的值,預測特定屬性(因變量、目標變量)的值。分類:用于預測離散的目標變量回歸:用于預測連續(xù)的目標變量描述:導出概括數(shù)據(jù)中潛在聯(lián)系的模式,通常是探測性的,常常需要后處理技術驗證和解釋結(jié)果。概念/類描述(特征化和區(qū)分):如金牌客戶的特征挖掘頻繁模式、關聯(lián)分析:如購物籃分析聚類分析:如客戶分類異常/離群點(outlier)檢測:如信用卡欺詐檢測演變(evolution)分析:如股票投資數(shù)據(jù)挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深信服aES產(chǎn)品技術白皮書-V1.5
- 3.3汽化和液化 說課稿2025年初中人教版物理八年級上冊
- 我奮斗我幸福心得體會
- 積極心理學理論下護理在細菌性陰道炎患者中的應用
- 《會計信息系統(tǒng)應用》課件 學習情境5 薪資管理系統(tǒng)應用
- 餐廚垃圾收運合作協(xié)議書
- 二零二五圖書倉儲與倉儲物流信息化合同樣本
- 二零二五年度辦公大樓自來水供應與智能抄表服務合同
- 健康飲食規(guī)劃實踐指南
- 三農(nóng)村資源利用優(yōu)化方案設計
- 2024年江西應用工程職業(yè)學院單招職業(yè)技能測試題庫標準卷
- 毛澤東思想和中國特色社會主義理論體系概論智慧樹知到答案章節(jié)測試2023年山東大學(威海)
- 教學資源 音樂女駙馬教案
- 幼兒園春季傳染病預防知識課件
- GB/T 11067.1-2006銀化學分析方法銀量的測定氯化銀沉淀-火焰原子吸收光譜法
- GA 857-2009貨物運輸微劑量X射線安全檢查設備通用技術要求
- 學校食堂食品安全自查自評表
- 管道防腐檢驗批質(zhì)量驗收記錄
- 出口商業(yè)發(fā)票范本
- (本科)東南亞經(jīng)濟與貿(mào)易全套教學課件完整版PPT
- 《村級財務管理培訓》PPT課件
評論
0/150
提交評論