支撐物聯(lián)網的計算機技術數據庫倉庫與數據挖掘_第1頁
支撐物聯(lián)網的計算機技術數據庫倉庫與數據挖掘_第2頁
支撐物聯(lián)網的計算機技術數據庫倉庫與數據挖掘_第3頁
支撐物聯(lián)網的計算機技術數據庫倉庫與數據挖掘_第4頁
支撐物聯(lián)網的計算機技術數據庫倉庫與數據挖掘_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機技術:物聯(lián)網的計算工具高性能計算、普適計算與云計算數據庫與數據倉庫技術人工智能技術多媒體技術虛擬現實技術嵌入式技術可穿戴計算技術物聯(lián)網的技術體系2/85數據庫與數據倉庫技術數據庫技術的發(fā)展數據庫技術產生于20世紀60年代末期,短短30年間已從第一代層次、網狀數據庫,第二代關系數據庫系統(tǒng)發(fā)展到第三代以面向對象模型為主要特征的數據庫系統(tǒng)。隨著數據庫技術不斷應用到新的領域,傳統(tǒng)數據庫技術面臨著以下新的挑戰(zhàn):

(1)信息爆炸導致數據量劇增。隨著社會信息化進程的加快,信息量急劇增長。如構成人類基因組的DNA排列圖譜,每個基因組DNA排列長達幾十億個元素,每個元素又是一個復雜的數據單元,據估計人類的基因組約5~6萬種,如何表示、訪問和處理這樣的圖譜結構數據,是數據庫面臨的難題。

(2)數據類型的多樣化和一體化要求。傳統(tǒng)的數據庫技術基本上是面向記錄的,以字符表示的格式化數據為主,這遠遠不能滿足多種多樣信息類型的需求。新的數據庫系統(tǒng)應能支持各種靜態(tài)和動態(tài)的數據,如圖形、圖像、語音、文本、視頻、動畫、音樂等。(3)當前的數據庫技術還不能處理不確定或不精確的模糊信息。目前,一般數據庫的數據,除空值外都是確定的。但是實際生活中要求數據庫能表示、處理不確定或不精確的數據。數據庫技術的發(fā)展(4)數據安全性。數據庫系統(tǒng)的發(fā)展方向是在大范圍內集成,向廣大用戶提供方便的服務。隨著移動主機(便攜式計算機)的大量涌現,因特網的擴展延伸,用戶可以隨時隨地訪問數據庫。此外,移動主機遺失、失竊等現象時有發(fā)生,這就帶來嚴重的數據庫安全和保密問題?,F有的數據庫安全措施還不能滿足這個要求。在數據庫安全模型、訪問控制、授權、審計跟蹤、數據加密、密鑰管理、并發(fā)控制等方面都還沒有形成明確的主流技術策略。(5)對數據庫理解和知識獲取的要求。目前,一方面正在被信息所淹沒,另一方面由于缺乏知識而感到饑餓。人們對數據庫的使用已不限于傳統(tǒng)的查詢,而希望把它作為知識源,從中提取一些知識,希望數據庫具有推理、類比、聯(lián)想、預測能力,甚至能從中得到意想不到的發(fā)現,希望數據庫能主動而不是被動地提供服務。數據庫與數據倉庫技術20世紀80年代中期以來,尤其是進入90年代,數數據庫出現了許多新分支。數據庫與其他相關技術相結合出現的新分支有:與面向對象技術結合出現的面向對象數據庫,與分布技術相結合出現的分布式數據庫,與并行處理技術相結合出現的并行數據庫,與多媒體技術相結合出現的多媒體數據庫,與人工智能技術相結合出現的主動數據庫、知識庫和演繹數據庫、與模糊技術相結合出現的模糊數據庫等。數據庫面向不同的應用領域出現的新分支有:面向決策支持出現的數據倉庫,面向工程設計出現的工程數據庫,面向地理信息系統(tǒng)(GIS)出現的空間數據庫,面向移動計算環(huán)境出現的移動數據庫,以及實時數據庫、統(tǒng)計數據庫等。以上這些數據庫都是將要在后面各節(jié)中分別加以介紹的。數據庫與數據倉庫技術模糊技術新技術內容關系模型面向對象模型分布技術并行技術多媒體技術人工智能應用領域圖13.1數據庫家族的新成員分布式數據庫并行數據庫多媒體數據庫主動數據庫模糊數據庫數據倉庫工程數據庫空間數據庫移動數據庫決策支持移動計算工程設計地理信息系統(tǒng)層次網狀模型數據庫與數據倉庫技術面向對象數據庫

面向對象數據庫采用面向對象數據模型,完整描述現實世界的數據結構,具有豐富的表達能力分布式數據庫

一個分布式數據庫是物理上分散在計算機網絡各結點上,但在邏輯上屬于同一系統(tǒng)的數據集合。它具有局部自治與全局共享性、數據的冗余性、數據的獨立性、系統(tǒng)的透明性等特點。分布式數據庫管理系統(tǒng)(DDBMS)支持分布式數據庫的建立、使用和維護,負責實現局部數據管理、數據通信、分布式數據管理以及數據字典管理功能。數據庫與數據倉庫技術數據庫與數據倉庫技術1、并行數據庫系統(tǒng)并行數據庫系統(tǒng)(ParallelDatabaseSystem,簡稱PDBS)是以并行計算機為基礎,以高性能和可擴展性為目標,利用多處理器結構提供比大型機系統(tǒng)高得多的性能價格比和可用性的數據庫系統(tǒng)。人們普遍認為,并行數據庫系統(tǒng)將是未來的高性能數據庫系統(tǒng)。并行數據庫的研究主要包括以下幾個方面:一是實現并行數據庫操作的并行算法的研究,它要解決如何對數據庫進行并行操作的問題;二是并行數據庫物理存儲結構的研究,它要考慮如何劃分多處理機、如何劃分或共享磁盤及內存等,以保證能實現對數據庫的并行操作;三是并行查詢優(yōu)化的研究,查詢優(yōu)化是數據庫領域的一個傳統(tǒng)課題,但并行查詢優(yōu)化更加復雜,實現起來困難得多。目前,對并行數據庫系統(tǒng)的研究已取得很大成效,出現了一些并行數據庫的原型系統(tǒng),如ARBRE、BUBBA、GAMMA、GRACE、ERADAT、XPRS等,一些運行在大規(guī)模并行處理系統(tǒng)上的大型商品化數據庫管理系統(tǒng)如Oracle、Sybase等,也增加了并行處理能力。多媒體數據庫概念:媒體是指信息表示或傳播的載體。多媒體是指多種媒體形式,如數字、字符、文本、圖形、圖像、聲音、視頻的有機集成。其中數字、字符等稱為格式化數據,文本、圖形、圖像、聲音、視頻等稱為非格式化數據,非格式化數據具有數據量大、處理復雜等特點。多媒體數據庫系統(tǒng)(MultimediaDatabaseSystem,簡稱MDBS)是結合數據庫技術和多媒體技術,能夠有效實現對格式化和非格式化的多媒體數據進行存儲、管理和操縱等功能的數據庫系統(tǒng)。多媒體數據庫多媒體數據特點:(1)數據量大。格式化的數據數據量較小,最長的字符型為254字節(jié)。多媒體數據的數據量一般很大,1分鐘的視頻和音頻數據往往需要幾十兆的數據空間,大小相當于一個小型數據庫。(2)結構復雜。傳統(tǒng)的數據以記錄為單位,一條記錄由多個字段組成,結構簡單。多媒體數據種類繁多結構復雜,大多是非格式化數據,來源于不同的媒體且具有不同的形式和格式。(3)時序性。由文字、聲音、圖象組成的復雜對象需有一定的同步機制,如畫面的配音或文字需要與畫面同步。傳統(tǒng)數據則無此要求。(4)數據傳輸的連續(xù)性。聲音、視頻等多媒體數據的傳輸必須是連續(xù)的、穩(wěn)定的,否則會影響效果和失真。多媒體數據的這些特點使得其需要有特殊的數據結構、存儲技術、查詢和處理方式,如支持大對象、基于相似性的檢索、連續(xù)介質數據的檢索等。多媒體體數據庫的特征(1)與傳統(tǒng)數據庫的差異性。雖然在理論和技術上對傳統(tǒng)數據庫有很多繼承,但在其處理數據對象、數據類型、數據結構、應用對象、處理方式都與傳統(tǒng)數據庫有較大差異,因此不能認為多媒體數據庫只是對傳統(tǒng)數據庫的一種簡單擴充或者試圖用傳統(tǒng)技術來做簡單的處理。(2)處理對象的復雜性。多媒體數據庫存儲和處理的是現實世界中的復雜對象,不僅要處理包括數字、字符等格式化數據,還要處理圖像、音頻、視頻等非格式化數據。(3)媒體間的獨立性。多媒體數據庫面臨的數據有單一媒體數據和復合媒體數據(多種單一媒體數據的結合)。多媒體數據庫從實用性的要求出發(fā),強調多媒體數據庫的用戶應可最大限度地忽略各媒體間的差異,從而實現對多媒體數據的管理和操作。媒體數據庫管理系統(tǒng)應具備的基本功能

(1)有效地表示各種媒體數據。對多媒體數據根據應用的不同采用不同的表示方法。(2)有效地處理各種媒體數據。系統(tǒng)應能正確識別和表現各種媒體數據的特征、各種媒體間的空間或時間的關聯(lián)(如正確表達空間數據的相關特性和配音、文字和視頻等復合信息的同步)(3)有效地操作各種媒體信息。系統(tǒng)應能象對格式化數據一樣對各種媒體數據進行搜索、瀏覽等操作,且對不同的媒體可提供不同的操縱,如聲音的合成、圖形的縮放等。(4)具備開放性。系統(tǒng)應能提供多媒體數據庫的API(應用程序接口)、提供不同于傳統(tǒng)數據庫的特種事務處理和版本管理功能。主動數據庫系統(tǒng)

主動數據庫(ActiveDataBase,簡稱ADB)是相對于傳統(tǒng)數據庫的被動性而言的。傳統(tǒng)的數據庫系統(tǒng)只能根據用戶或應用程序的服務請求對數據庫進行存儲、檢索等操作,而不能根據發(fā)生的事件或數據庫的狀態(tài)主動作出反應。主動數據庫系統(tǒng)(ADBMS)是指具有各種主動提供服務功能,并且以一種統(tǒng)一的機制實現各種主動服務的數據庫系統(tǒng)。主動數據庫系統(tǒng)一個主動數據庫系統(tǒng)在某一事件發(fā)生時,引發(fā)數據庫管理系統(tǒng)去檢測數據庫當前狀態(tài),若滿足指定條件,則觸發(fā)規(guī)定執(zhí)行的動作,我們稱之為ECA規(guī)則。一個主動數據庫系統(tǒng)可表示為:ADBS=DBS+EB+EM其中DBS代表傳統(tǒng)數據庫系統(tǒng),用來存儲、操作、維護和管理數據;EB代表ECA規(guī)則庫,用來存儲ECA規(guī)則,每條規(guī)則指明在何種事件發(fā)生時,根據給定條件,應主動執(zhí)行什么動作;EM代表事件監(jiān)測器,一旦檢測到某事件發(fā)生就主動觸發(fā)系統(tǒng),按照EB中指定的規(guī)則執(zhí)行相應的動作。

數據倉庫以及數據挖掘是目前數據庫領域最為活躍的一個方面,受到學術界與產業(yè)界的廣泛關注。典型應用環(huán)境如DSS,EIS,ERP。大型數據庫的數據倉庫解決方案有:

InformixMetaCubeOracleExpressSybaseQuickStart

DataMart

對各類海量數據需要自動分析、分類、匯總、發(fā)現和描述數據蘊涵的趨勢、標記異常等。數據庫與數據倉庫技術數據倉庫引入

各類管理人員需要從大量復雜的的業(yè)務數據中獲取各自權限內的決策信息,及時把握市場變化脈搏,作出正確有效的判斷與抉擇;隨著數據庫系統(tǒng)的逐日運行,數據將堆積越來越龐大;數據處理的重點需要從傳統(tǒng)業(yè)務擴展到業(yè)務數據的聯(lián)機分析處理,并得到面向各種管理主題的統(tǒng)計信息和決策支持信息;數據倉庫是基于大規(guī)模數據庫的DSS環(huán)境的核心。數據庫與數據倉庫技術數據倉庫引入數據倉庫的基本概念多維數據模型數據倉庫的系統(tǒng)結構數據倉庫的實現基于數據倉庫的數據挖掘數據庫與數據倉庫技術數據倉庫研究內容數據挖掘通常稱為數據庫中的知識發(fā)現(KDD),是自動的或方便的模式提取,這些模式代表隱藏在大型數據庫、數據倉庫或其他大量信息存儲中的知識。涉及的學科有:數據庫技術、人工智能、機器學習、神經網絡、統(tǒng)計學、模式識別、知識庫系統(tǒng)、知識獲取、信息檢索、高性能計算和數據可視化。數據庫與數據倉庫技術數據挖掘引入數據挖掘的概念數據挖掘的功能數據挖掘的分類與主要問題數據挖掘系統(tǒng)的結構挖掘大型數據庫中的關聯(lián)規(guī)則分類與預測聚類分析復雜類型的數據挖掘數據倉庫與數據挖掘的應用與發(fā)展趨勢數據庫與數據倉庫技術數據挖掘研究內容1、什么是數據倉庫2、什么是數據挖掘3、數據挖掘的功能4、數據挖掘的分類5、數據挖掘的主要問題數據倉庫與數據挖掘概述什么是數據倉庫1、數據倉庫的產生當前的數據處理與數據分為兩類:操作型處理與數據分析型或信息型處理與數據什么是數據倉庫1、數據倉庫的產生操作型處理:又稱事務處理,是指對數據庫聯(lián)機的日常操作,通常是對一個或一組記錄的查詢和修改,主要為企業(yè)的特定應用服務,所關心的是響應時間,數據的安全性和完整性。操作型環(huán)境是以單一數據庫為中心的數據環(huán)境。什么是數據倉庫1、數據倉庫的產生操作型數據(原始數據)分析型數據(導出數據)細節(jié)的綜合的,或提煉的在存取瞬間是準確的代表過去的數據可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一個單元一個時刻操作一個集合事務驅動分析驅動面向應用面向分析一次操作數據量小一次操作數據量大支持日常操作支持管理需求什么是數據倉庫1、數據倉庫的產生操作型數據和分析型數據的不同而導致的數據分離的自然擴展過程:操作型原子/數據倉庫部門/數據集市個體什么是數據倉庫2、數據倉庫的定義數據倉庫之父W.H.Inmon給出了定義:數據倉庫是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數據集合,用來支持管理人員的決策。什么是數據倉庫2、數據倉庫的定義面向主題主題:是在較高層次上將企業(yè)信息系統(tǒng)中的數據綜合、歸類并進行分析利用的抽象,即對應企業(yè)中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式就是對分析對象的數據的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數據,以及數據之間的聯(lián)系。什么是數據倉庫2、數據倉庫的定義面向主題每個主題在數據倉庫中都是由一組關系表實現的;主題的實現基于關系數據庫;在具體實現中,一個主題可以劃分成多個表,主題只是一個邏輯的概念;基于一個主題的所有表都含有一個稱為公共鍵碼的屬性作為其主碼的一部分。什么是數據倉庫2、數據倉庫的定義面向主題CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…什么是數據倉庫2、數據倉庫的定義數據倉庫的數據是集成的要統(tǒng)一源數據中所有矛盾之處,如同名異義、字長不一致等等;進行數據綜合和計算。數據綜合可以從原有數據庫抽取數據生成,但許多是在數據倉庫內部生成。什么是數據倉庫2、數據倉庫的定義數據倉庫數據是不可更新數據倉庫的數據主要供企業(yè)決策分析使用,所涉及的數據操作主要是數據查詢,一般不進行修改操作;數據庫中進行聯(lián)機處理的數據經過集成輸入到數據倉庫中,數據倉庫中的數據超過存儲期限,這些數據將從當前數據倉庫中刪去;

DWMS比DBMS簡單,但查詢要求高。什么是數據倉庫2、數據倉庫的定義數據倉庫數據隨時間不斷變化數據倉庫隨時間變化不斷增加新的內容;數據倉庫隨時間變化不斷刪除舊的內容;數據倉庫中包含有大量的綜合數據,這些數據隨時間變化不斷地進行重新綜合;數據倉庫數據的碼鍵包含時間項,標明歷史時期。什么是數據倉庫3、數據倉庫的數據組織3.1組織結構元數據高度綜合級輕度綜合級當前細節(jié)級早期細節(jié)級2002~2003年每月銷售表2002~2003年每周銷售表2002~2003年銷售情況表2002~2003年銷售明細表什么是數據倉庫3、數據倉庫的數據組織3.1組織結構數據倉庫中的不同綜合級別,稱為“粒度”。粒度越大,表示細節(jié)程度越低,綜合程度越高。

元數據(metadata):關于數據的數據。操作型環(huán)境向數據倉庫環(huán)境轉換而建立的元數據;數據倉庫中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,也為DSS元數據。什么是數據倉庫3、數據倉庫的數據組織3.2粒度與分割粒度是數據倉庫的重要概念。粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別。細化程度越高,粒度級就越??;細化程度越低粒度級就越大。一般采用多重粒度級:高細節(jié)級、低細節(jié)級。什么是數據倉庫3、數據倉庫的數據組織3.2粒度與分割分割是數據倉庫的重要概念。分割是指將數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理效率。數據分割后的數據單元稱為分片。數據分割標準依據實際情況確定,一般應包括日期項。分割使數據更易重構、索引、重組、恢復、監(jiān)控。什么是數據倉庫3、數據倉庫的數據組織3.2粒度與分割簡單分割實例,分片以時間標準來組織:健康保險生命保險事故保險2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9什么是數據倉庫3、數據倉庫的數據組織3.3數據組織形式簡單堆積文件:數據逐天積累輪轉綜合文件:按日、周、月、年組織數據集簡化直

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論