多庫系統(tǒng)與數(shù)據(jù)集成技術(shù).ppt_第1頁
多庫系統(tǒng)與數(shù)據(jù)集成技術(shù).ppt_第2頁
多庫系統(tǒng)與數(shù)據(jù)集成技術(shù).ppt_第3頁
多庫系統(tǒng)與數(shù)據(jù)集成技術(shù).ppt_第4頁
多庫系統(tǒng)與數(shù)據(jù)集成技術(shù).ppt_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多庫系統(tǒng)與數(shù)據(jù)集成技術(shù),2012年12月8日,一 數(shù)據(jù)集成技術(shù)簡(jiǎn)介,1.1 數(shù)據(jù)集成的必要性 1.2 數(shù)據(jù)集成的概念 1.3 數(shù)據(jù)集成的特征 1.4 數(shù)據(jù)集成的分類 1.5 常見數(shù)據(jù)集成方法(重點(diǎn)) 1.6 數(shù)據(jù)集成的關(guān)鍵問題 1.7 主流的數(shù)據(jù)訪問技術(shù),1.1 數(shù)據(jù)集成的必要性,歷史數(shù)據(jù)的價(jià)值 開發(fā)或引進(jìn)許多獨(dú)立運(yùn)行的應(yīng)用系統(tǒng) 存儲(chǔ)、管理、維護(hù)數(shù)據(jù) 異構(gòu)環(huán)境數(shù)據(jù)源 文件數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等,不同時(shí)期、不同公司、不同工具、不同平臺(tái)上開發(fā),運(yùn)行在不同的操作系統(tǒng)和數(shù)據(jù)庫平臺(tái)上; 系統(tǒng)彼此封閉、數(shù)據(jù)無法交換共享,形成冗余數(shù)據(jù)、垃圾數(shù)據(jù), 無法數(shù)據(jù)一致性. 企業(yè)應(yīng)用系統(tǒng)需要訪問各種異構(gòu)數(shù)據(jù)源,需要將內(nèi)

2、部數(shù)據(jù)進(jìn)行發(fā)布和交換,1.2 數(shù)據(jù)集成的概念,數(shù)據(jù)集成概念:對(duì)各種異構(gòu)數(shù)據(jù)提供統(tǒng)一的表示、存儲(chǔ)和管理, 以實(shí)現(xiàn)邏輯或物理上有機(jī)地集中 。 集成是指維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率 透明是指用戶不必考慮底層數(shù)據(jù)模型不同、位置不同等問題,能夠通過一個(gè)統(tǒng)一的查詢界面實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)上異構(gòu)數(shù)據(jù)源的靈活訪問 數(shù)據(jù)集成關(guān)鍵:以一種統(tǒng)一的數(shù)據(jù)模式描述各數(shù)據(jù)源中的數(shù)據(jù),屏蔽它們的平臺(tái)、數(shù)據(jù)結(jié)構(gòu)等異構(gòu)性,實(shí)現(xiàn)數(shù)據(jù)的無縫集成。,1.3 數(shù)據(jù)集成的特征,分布性:數(shù)據(jù)源異地分布 網(wǎng)絡(luò)傳輸?shù)男阅芎桶踩?自治性:集成系統(tǒng)不影響各局部應(yīng)用系統(tǒng),局部數(shù)據(jù)源保持獨(dú)立性 在不通知集成系統(tǒng)的前提下改變自身的結(jié)構(gòu)和數(shù)

3、據(jù) 異構(gòu)性:被集成數(shù)據(jù)源的運(yùn)行環(huán)境、數(shù)據(jù)模型和數(shù)據(jù)語義異構(gòu)性 不同的硬件設(shè)備、操作系統(tǒng)、網(wǎng)絡(luò)協(xié)議;結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)(HTML)、非結(jié)構(gòu)化數(shù)據(jù)(圖片);相同語義數(shù)據(jù)的不同表達(dá)形式,1.4 數(shù)據(jù)集成的分類,數(shù)據(jù)集成可以分為下述4個(gè)層次 基本數(shù)據(jù)集成 多級(jí)視圖集成 模式集成 多粒度數(shù)據(jù)集成,1.4.1基本數(shù)據(jù)集成,通用標(biāo)識(shí)符問題是數(shù)據(jù)集成時(shí)遇到的最難的問題之一。由于同一業(yè)務(wù)實(shí)體存在于多個(gè)系統(tǒng)源中,并且沒有明確的辦法確認(rèn)這些實(shí)體是同一實(shí)體時(shí),就會(huì)產(chǎn)生這類問題。處理該問題的辦法如下。 (1)隔離。保證實(shí)體的每次出現(xiàn)都指派一個(gè)唯一標(biāo)識(shí)符。 (2)調(diào)和。確認(rèn)哪些實(shí)體是相同的,并且將該實(shí)體的

4、各次出現(xiàn)合并起來。,1.4.1、基本數(shù)據(jù)集成,當(dāng)目標(biāo)元素有多個(gè)來源時(shí),指定某一系統(tǒng)在沖突時(shí)占主導(dǎo)地位。 數(shù)據(jù)丟失問題是最常見的問題之一,一般解決的辦法是為丟失的數(shù)據(jù)產(chǎn)生一個(gè)非常接近實(shí)際的估計(jì)值來進(jìn)行處理。,1.4.2 多級(jí)視圖集成,多級(jí)視圖機(jī)制有助于對(duì)數(shù)據(jù)源之間的關(guān)系進(jìn)行集成:底層數(shù)據(jù)表示方式為局部模型的局部格式,如關(guān)系和文件;中間數(shù)據(jù)表示為公共模式格式,如擴(kuò)展關(guān)系模型或?qū)ο竽P停桓呒?jí)數(shù)據(jù)表示為綜合模型格式。,1.4.2 多級(jí)視圖集成,視圖的集成化過程為兩級(jí)映射: (1)數(shù)據(jù)從局部數(shù)據(jù)庫中,經(jīng)過數(shù)據(jù)翻譯、轉(zhuǎn)換并集成為符合公共模型格式的中間視圖。 (2)進(jìn)行語義沖突消除、數(shù)據(jù)集成和數(shù)據(jù)導(dǎo)出處理,

5、將中間視圖集成為綜合視圖。,1.4.3 模式集成,模型合并屬于數(shù)據(jù)庫設(shè)計(jì)問題,其設(shè)計(jì)的好壞常視設(shè)計(jì)者的經(jīng)驗(yàn)而定,在實(shí)際應(yīng)用中很少有成熟的理論指導(dǎo)。 實(shí)際應(yīng)用中,數(shù)據(jù)源的模式集成和數(shù)據(jù)庫設(shè)計(jì)仍有相當(dāng)?shù)牟罹啵缒J郊蓵r(shí)出現(xiàn)的命名、單位、結(jié)構(gòu)和抽象層次等沖突問題,就無法照搬模式設(shè)計(jì)的經(jīng)驗(yàn)。 在眾多互操作系統(tǒng)中,模式集成的基本框架如屬性等價(jià)、關(guān)聯(lián)等價(jià)和類等價(jià)可最終歸于屬性等價(jià),1.4.4 多粒度數(shù)據(jù)集成,多粒度數(shù)據(jù)集成是異構(gòu)數(shù)據(jù)集成中最難處理的問題,理想的多粒度數(shù)據(jù)集成模式是自動(dòng)逐步抽象 數(shù)據(jù)綜合(或數(shù)據(jù)抽象)指由高精度數(shù)據(jù)經(jīng)過抽象形成精度較低、但是粒度較大的數(shù)據(jù)。其作用過程為從多個(gè)較高精度的局部數(shù)

6、據(jù)中,獲得較低精度的全局?jǐn)?shù)據(jù)。在這個(gè)過程中,要對(duì)各局域中的數(shù)據(jù)進(jìn)行綜合,提取其主要特征。數(shù)據(jù)綜合集成的過程實(shí)際上是特征提取和歸并的過程。,1.4.4 多粒度數(shù)據(jù)集成,數(shù)據(jù)細(xì)化指通過由一定精度的數(shù)據(jù)獲取精度較高的數(shù)據(jù),實(shí)現(xiàn)該過程的主要途徑有:時(shí)空轉(zhuǎn)換,相關(guān)分析或者由綜合中數(shù)據(jù)變動(dòng)的記錄進(jìn)行恢復(fù)。數(shù)據(jù)集成是最終實(shí)現(xiàn)數(shù)據(jù)共享和輔助決策的基礎(chǔ)。,1.5 常見數(shù)據(jù)集成方法(重點(diǎn)),1.數(shù)據(jù)轉(zhuǎn)換方法(聯(lián)邦數(shù)據(jù)庫系統(tǒng)) 松散集成, 通過轉(zhuǎn)換工具實(shí)現(xiàn)應(yīng)用系統(tǒng)之間的數(shù)據(jù)轉(zhuǎn)換和交換,較低層次的集成 2.數(shù)據(jù)聚合方法(中間件模式) 借助于中間件系統(tǒng)構(gòu)造一個(gè)虛擬的全局?jǐn)?shù)據(jù)模式, 是一種集中式管理、分布式存儲(chǔ)的較高層次

7、的集成模式 3.析取、轉(zhuǎn)換和裝載(ETL) (數(shù)據(jù)倉庫模式) 通過對(duì)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換和裝載, 建立一個(gè)數(shù)據(jù)倉庫,面向企業(yè)決策的數(shù)據(jù)集成方法,1.5.1 數(shù)據(jù)轉(zhuǎn)換方法聯(lián)邦數(shù)據(jù)庫系統(tǒng),通過轉(zhuǎn)換工具在數(shù)據(jù)庫之間進(jìn)行模式映射,復(fù)制、轉(zhuǎn)換數(shù)據(jù)庫中的數(shù)據(jù); 聯(lián)邦數(shù)據(jù)庫系統(tǒng)( FDBS)由半自治數(shù)據(jù)庫系統(tǒng)構(gòu)成,相互之間分享數(shù)據(jù),聯(lián)盟各數(shù)據(jù)源之間相互提供訪問接口,同時(shí)聯(lián)盟數(shù)據(jù)庫系統(tǒng)可以是集中數(shù)據(jù)庫系統(tǒng)或分布式數(shù)據(jù)庫系統(tǒng)及其他聯(lián)邦式系統(tǒng)。 在這種模式下又分為緊耦合和松耦合兩種情況,緊耦合提供統(tǒng)一的訪問模式,一般是靜態(tài)的,在增加數(shù)據(jù)源上比較困難;而松耦合則不提供統(tǒng)一的接口,但可以通過統(tǒng)一的語言訪問

8、數(shù)據(jù)源,其中核心的是必須解決所有數(shù)據(jù)源語義上的問題。,聯(lián)邦數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)轉(zhuǎn)換方法數(shù)據(jù)轉(zhuǎn)換工具,1. DBMS自帶的轉(zhuǎn)換、遷移工具 Oracle的Migration Workbench Microsoft SQL Server的DTS 通用性不強(qiáng),數(shù)據(jù)轉(zhuǎn)換方法數(shù)據(jù)轉(zhuǎn)換工具DTS,SQL Server 數(shù)據(jù)轉(zhuǎn)換服務(wù)DTS是一組圖形化的工具和可編程的對(duì)象集,可以從不同的源將數(shù)據(jù)抽取、轉(zhuǎn)換和合并到一個(gè)或多個(gè)目標(biāo)位置。 DTS是一組工具,用于一個(gè)或多個(gè)數(shù)據(jù)源(MicrosoftSQLServer、 MicrosoftExcel或Microsoft Access )間導(dǎo)入、導(dǎo)出和轉(zhuǎn)換各種數(shù)據(jù)。通過用于O

9、DBC的OLEDB (一種數(shù)據(jù)訪問的開放式標(biāo)準(zhǔn))提供連接和程序來支持ODBC(開放式數(shù)據(jù)庫連接)數(shù)據(jù)源 。,數(shù)據(jù)轉(zhuǎn)換方法應(yīng)用系統(tǒng)內(nèi)部集成轉(zhuǎn)換工具,2.應(yīng)用系統(tǒng)內(nèi)部集成的轉(zhuǎn)換工具 系統(tǒng)與其他應(yīng)用系統(tǒng)之間的數(shù)據(jù)接口 分為兩種規(guī)范: 企業(yè)內(nèi)部相關(guān)應(yīng)用系統(tǒng)之間的數(shù)據(jù)轉(zhuǎn)換接口,設(shè)計(jì)人員規(guī)定或達(dá)成一致的數(shù)據(jù)轉(zhuǎn)換; 遵循某種標(biāo)準(zhǔn)的轉(zhuǎn)換接口,數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)格式:EDI,EDI(Electric Data Interchange,電子數(shù)據(jù)交換)是一種利用計(jì)算機(jī)進(jìn)行商務(wù)處理的新方法,它是將貿(mào)易、運(yùn)輸、保險(xiǎn)、銀行和海關(guān)等行業(yè)的信息,用一種國(guó)際公認(rèn)的標(biāo)準(zhǔn)格式,通過計(jì)算機(jī)通信網(wǎng)絡(luò),使各有關(guān)部門、公司和企業(yè)之間進(jìn)行數(shù)據(jù)交

10、換和處理,并完成以貿(mào)易為中心的全部業(yè)務(wù)過程。 由于EDI的使用可以完全取代傳統(tǒng)的紙張文件的交換,因此也有人稱它為“無紙貿(mào)易”或“電子貿(mào)易”,數(shù)據(jù)轉(zhuǎn)換方法應(yīng)用系統(tǒng)內(nèi)部集成轉(zhuǎn)換工具EDI,數(shù)據(jù)轉(zhuǎn)換方法應(yīng)用系統(tǒng)內(nèi)部集成轉(zhuǎn)換工具EDI,EDI的優(yōu)點(diǎn) 1降低了紙張的消費(fèi)。根據(jù)聯(lián)合國(guó)組織的一次調(diào)查,進(jìn)行一次進(jìn)出口貿(mào)易,雙方約需交換近200份文件和表格,其紙張、行文、打印及差錯(cuò)可能引起的總開銷等大約為貨物價(jià)格的7。據(jù)統(tǒng)計(jì),美國(guó)通用汽車公司采用EDI后,每生產(chǎn)一輛汽車可節(jié)約成本250美元,按每年生成500萬輛計(jì)算,可以產(chǎn)生125億美元的經(jīng)濟(jì)效益。 2減少了許多重復(fù)勞動(dòng),提高了工作效率。如果沒有EDI系統(tǒng),即使

11、是高度計(jì)算機(jī)化的公司,也需要經(jīng)常將外來的資料重新輸入本公司的電腦。調(diào)查表明,從一部電腦輸出的資料有多達(dá)70的數(shù)據(jù)需要再輸入其他的電腦,既費(fèi)時(shí)又容易出錯(cuò)。 3EDI使貿(mào)易雙方能夠以更迅速有效的方式進(jìn)行貿(mào)易,大大簡(jiǎn)化了訂貨或存貨的過程,使雙方能及時(shí)地充分利用各自的人力和物力資源。美國(guó)DEC公司應(yīng)用了EDI后,使存貨期由5天縮短為3天,每筆訂單費(fèi)用從125美元降到32美元。新加坡采用EDI貿(mào)易網(wǎng)絡(luò)之后,使貿(mào)易的海關(guān)手續(xù)從原來的34天縮短到1015分鐘。 4通過EDI可以改善貿(mào)易雙方的關(guān)系,廠商可以準(zhǔn)確地估計(jì)日后商品的尋求量,貨運(yùn)代理商可以簡(jiǎn)化大量的出口文書工作,商戶可以提高存貨的效率,大大提高他們的

12、競(jìng)爭(zhēng)能力。,數(shù)據(jù)轉(zhuǎn)換方法應(yīng)用系統(tǒng)內(nèi)部集成轉(zhuǎn)換工具EDI,EDI不是用戶間的簡(jiǎn)單的數(shù)據(jù)交換系統(tǒng),EDI用戶需要按照國(guó)際通用的消息格式發(fā)送消息,接收方也需要按照國(guó)際統(tǒng)一規(guī)定的語法規(guī)則,對(duì)消息進(jìn)行處理,并引起其他相關(guān)系統(tǒng)的EDI綜合處理,整個(gè)過程都是自動(dòng)完成,不需要人工的干預(yù),減少了差錯(cuò),提高了效率。 例如:有一個(gè)工廠采用了EDI系統(tǒng),它通過計(jì)算機(jī)通信網(wǎng)絡(luò)接收到來自用戶的一筆EDI方式的訂貨單,工廠的EDI系統(tǒng)隨即檢查訂貨單是否符合要求和工廠是否接收訂貨,然后向用戶回送確認(rèn)信息。 工廠的EDI系統(tǒng)根據(jù)訂貨單的要求檢查庫存,如果需要?jiǎng)t向相關(guān)的零部件和配套設(shè)備廠商發(fā)出EDI訂貨單;向鐵路、海運(yùn)、航空等部

13、門預(yù)訂車輛、艙位和集裝箱;以EDI方式與保險(xiǎn)公司和海關(guān)聯(lián)系,申請(qǐng)保險(xiǎn)手續(xù)和辦理出口手續(xù);向用戶開EDI發(fā)票;同銀行以EDI方式結(jié)算帳目等。從訂貨、庫存檢查與零部件訂貨,辦理相關(guān)手續(xù)及簽發(fā)發(fā)貨票等全部過程都由計(jì)算機(jī)自動(dòng)完成,既快速又準(zhǔn)確。,1.5.2、數(shù)據(jù)聚合方法(中間件模式),數(shù)據(jù)聚合方法:將多個(gè)數(shù)據(jù)庫集成為一個(gè)統(tǒng)一的數(shù)據(jù)庫視圖;數(shù)據(jù)聚合體是一種虛擬的數(shù)據(jù)庫,包括多個(gè)實(shí)體的物理數(shù)據(jù)庫。 利用中間件集成異構(gòu)數(shù)據(jù)源,不需要改變?cè)紨?shù)據(jù)的存儲(chǔ)和管理方式。通過在中間層提供一個(gè)統(tǒng)一的數(shù)據(jù)邏輯視圖來隱藏底層的數(shù)據(jù)細(xì)節(jié),使得用戶可以把集成數(shù)據(jù)源看為一個(gè)統(tǒng)一的整體 中間件系統(tǒng)位于異構(gòu)數(shù)據(jù)源(數(shù)據(jù)層)和應(yīng)用程序

14、(應(yīng)用層)之間 向下協(xié)調(diào)各數(shù)據(jù)庫系統(tǒng) 向上為訪問集成數(shù)據(jù)的應(yīng)用系統(tǒng)提供統(tǒng)一的全局?jǐn)?shù)據(jù)模式和數(shù)據(jù)訪問通用接口 目前比較流行的數(shù)據(jù)集成方法,這種模型下的關(guān)鍵問題是如何構(gòu)造這個(gè)邏輯視圖并使得不同數(shù)據(jù)源之間能映射到這個(gè)中間層。,中間件模式,1.5.3、析取、轉(zhuǎn)換和裝載(ETL)方法 (數(shù)據(jù)倉庫模式),ETL方法是一種實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的集中式管理、集中式存儲(chǔ)的方法。 ETL工具從多個(gè)數(shù)據(jù)源中抽取數(shù)據(jù), 然后進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加載, 最終得到統(tǒng)一的、完備的數(shù)據(jù)倉庫 原來分散的應(yīng)用系統(tǒng)仍然獨(dú)立運(yùn)作, 原來存在的異構(gòu)數(shù)據(jù)源仍然為各自的應(yīng)用系統(tǒng)提供數(shù)據(jù)服務(wù) 不會(huì)破壞企業(yè)原有的應(yīng)用架構(gòu), 比較適合于大量數(shù)據(jù)的遷移 可以提供復(fù)雜的數(shù)據(jù)轉(zhuǎn)換功能 可以集成多種數(shù)據(jù)源和復(fù)雜的商業(yè)規(guī)則, 能容忍數(shù)據(jù)在時(shí)間上的延遲,數(shù)據(jù)倉庫模式,1.6 數(shù)據(jù)集成的關(guān)鍵問題,異構(gòu)數(shù)據(jù)源集成是數(shù)據(jù)庫領(lǐng)域的經(jīng)典和熱點(diǎn)問題 .集成范圍問題: 不是所有數(shù)據(jù)源中的數(shù)據(jù)都能集成 .數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論