元數(shù)據(jù)管理研究報(bào)告_第1頁
元數(shù)據(jù)管理研究報(bào)告_第2頁
元數(shù)據(jù)管理研究報(bào)告_第3頁
元數(shù)據(jù)管理研究報(bào)告_第4頁
元數(shù)據(jù)管理研究報(bào)告_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一.什么是元數(shù)據(jù)元數(shù)據(jù)是:?數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)?構(gòu)造化數(shù)據(jù)(Structureddataaboutdata)?用于描述數(shù)據(jù)的內(nèi)容(what)、覆蓋范圍(where,when)、質(zhì)量、管理方式、數(shù)據(jù)的所有者(who)、數(shù)據(jù)的提供方式(how)等信息,是數(shù)據(jù)與數(shù)據(jù)顧客之間的橋梁;?資源的信息(Informationaboutaresource)?編目信息(Cataloguinginformation)?管理、控制信息(Administrativeinformation)?是一組獨(dú)立的有關(guān)資源的闡明(metadataisasetofindependentassertionsaboutaresource)datathatdefinesanddescribesotherdata(ISO/IEC11179簡(jiǎn)樸地說,元數(shù)據(jù)是數(shù)據(jù)倉庫數(shù)據(jù)自身信息的數(shù)據(jù)(dataaboutdata)。針對(duì)于數(shù)據(jù)倉庫的元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的構(gòu)造和建立措施的數(shù)據(jù),可將其按用途的不一樣分為兩類:技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)。技術(shù)元數(shù)據(jù)是存儲(chǔ)有關(guān)數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它重要包括如下信息:數(shù)據(jù)倉庫構(gòu)造的描述,包括倉庫模式、視圖、維、層次構(gòu)造和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系構(gòu)造和模式;匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、匯集、匯總、預(yù)定義的查詢與匯報(bào);由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(顧客授權(quán)和存取控制)。業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也可以“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)重要包括如下信息:使用者的業(yè)務(wù)術(shù)語所體現(xiàn)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析措施以及公式和報(bào)表的信息;詳細(xì)包括如下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表達(dá)企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和互相關(guān)系。以這個(gè)企業(yè)模型為基礎(chǔ),不懂?dāng)?shù)據(jù)庫技術(shù)和SQL語句的業(yè)務(wù)人員對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)也能做到心中有數(shù)。多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要構(gòu)成部分,它告訴業(yè)務(wù)分析人員在數(shù)據(jù)集市當(dāng)中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表達(dá)某主題領(lǐng)域業(yè)務(wù)事實(shí)表和維表的多維組織形式。業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴:以上提到的業(yè)務(wù)元數(shù)據(jù)只是表達(dá)出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實(shí)際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、多維數(shù)據(jù)庫中的表、字段、維度、層次等之間的對(duì)應(yīng)關(guān)系也應(yīng)當(dāng)在元數(shù)據(jù)知識(shí)庫中有所體現(xiàn)。元數(shù)據(jù)與數(shù)據(jù)是什么關(guān)系?元數(shù)據(jù)也是數(shù)據(jù),其自身也可以作為被描述的對(duì)象,這是描述它的數(shù)據(jù)就是元數(shù)據(jù)。在信息系統(tǒng)中一般把數(shù)據(jù)當(dāng)作是獨(dú)立的信息單元,不管這里的“數(shù)據(jù)”是一本書、一種網(wǎng)頁、或者一種虛擬的URL地址。元數(shù)據(jù)可以出目前:?數(shù)據(jù)內(nèi)部;?獨(dú)立于數(shù)據(jù);?伴伴隨數(shù)據(jù);?與數(shù)據(jù)包裹在一起元數(shù)據(jù)的作用在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機(jī)制重要支持如下五類系統(tǒng)管理功能:描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的規(guī)定和執(zhí)行狀況;衡量數(shù)據(jù)質(zhì)量。與其說數(shù)據(jù)倉庫是軟件開發(fā)項(xiàng)目,還不如說是系統(tǒng)集成項(xiàng)目,由于它的重要工作是把所需的數(shù)據(jù)倉庫工具集成在一起,完畢數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,\o"OLAP"OLAP分析和數(shù)據(jù)挖掘等。它的經(jīng)典構(gòu)造由操作環(huán)境層、數(shù)據(jù)倉庫層和業(yè)務(wù)層等構(gòu)成。其中,第一層(操作環(huán)境層)是指整個(gè)企業(yè)內(nèi)有關(guān)業(yè)務(wù)的OLTP系統(tǒng)和某些外部數(shù)據(jù)源;第二層是通過把第一層的有關(guān)數(shù)據(jù)抽取到一種中心區(qū)而構(gòu)成的數(shù)據(jù)倉庫層;第三層是為了完畢對(duì)業(yè)務(wù)數(shù)據(jù)的分析而由多種工具構(gòu)成的業(yè)務(wù)層。元數(shù)據(jù)管理起到了承上啟下的作用,詳細(xì)體目前如下幾種方面:便于集成提高系統(tǒng)的靈活性保證數(shù)據(jù)的質(zhì)量協(xié)助顧客理解數(shù)據(jù)的意義二.元數(shù)據(jù)管理狀態(tài)所謂元數(shù)據(jù)管理,就是對(duì)技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)進(jìn)行管理,其目的是為了提高共享、重新獲取和理解企業(yè)信息資產(chǎn)的水平.元數(shù)據(jù)管理的重要任務(wù)有兩個(gè)方面:一是負(fù)責(zé)存儲(chǔ)和維護(hù)元數(shù)據(jù)庫中的元數(shù)據(jù);二是負(fù)責(zé)數(shù)據(jù)倉庫建模工具、數(shù)據(jù)獲取工具、前端工具等之間的消息傳遞,協(xié)調(diào)各模塊和工具之間的工作。數(shù)據(jù)倉庫元數(shù)據(jù)管理的成熟度模型及現(xiàn)實(shí)狀況元數(shù)據(jù)管理的成熟度模型第一級(jí):隨機(jī)狀態(tài)(Ad-hoc)行為特性在這一級(jí)上,對(duì)元數(shù)據(jù)的管理是隨機(jī)的。元數(shù)據(jù)由某個(gè)人或某一組人員在局部產(chǎn)生或獲取,并在局部使用。在大多數(shù)時(shí)間里,元數(shù)據(jù)是隱匿在信息中,例如存儲(chǔ)于諸如Word、Excel等形式的辦公文檔,這些文檔使用的術(shù)語僅局部的顧客能懂得其確切含義。人們通過與“負(fù)責(zé)人”直接通信或通過信息會(huì)話來獲取這些知識(shí)。在局部環(huán)境工作數(shù)月或數(shù)年后,人們使這些元數(shù)據(jù)以及對(duì)它的理解內(nèi)在化,使對(duì)這種信息有習(xí)慣性的理解。在這一階段,元數(shù)據(jù)通過組織機(jī)構(gòu)緩慢的傳播或主線不傳播,這取決于局部小組與其他小組間的通信量的大小,這些元數(shù)據(jù)也許永遠(yuǎn)“待”在該局部小組或某個(gè)人那兒。假如這樣的小組或個(gè)人調(diào)離,則這種元數(shù)據(jù)信息也許永遠(yuǎn)丟失。人元數(shù)據(jù)知識(shí)保留在人的大腦中。在這種環(huán)境中,懂得(或不懂得)與誰交談對(duì)于理解元數(shù)據(jù)成為一件十分重要的事。處理元數(shù)據(jù)要通過與“負(fù)責(zé)人”的交談才能共享。新來者需要通過他們的平常工作來學(xué)習(xí)元數(shù)據(jù)。外部人員難以理解元數(shù)據(jù),他們必須與“負(fù)責(zé)人”交談才能得到他們想要的東西。由于元數(shù)據(jù)在局部產(chǎn)生或抓取并在局部使用,因此一般也只能在局部修改,這種修改一般也不會(huì)告知企業(yè)里其他的組織。技術(shù)可以用多種不一樣的工具來生成元數(shù)據(jù)。絕大部分是面向個(gè)人電腦的應(yīng)用軟件。例如,ERWin可用于數(shù)據(jù)庫建模,Rational用于為對(duì)象建模、Excel用于生成商品列表等。這些工具都沒有設(shè)計(jì)成可以互換信息,因此,只能在當(dāng)?shù)氐奈墨I(xiàn)系統(tǒng)中保留所生成的元數(shù)據(jù)。第二級(jí):發(fā)現(xiàn)行為特性在元數(shù)據(jù)管理的這一級(jí)上,可以發(fā)目前不一樣企業(yè)之間的元數(shù)據(jù)。像第一級(jí)的狀況同樣,元數(shù)據(jù)仍然在局部產(chǎn)生和抓取,然而,它處在可發(fā)現(xiàn)實(shí)狀況態(tài),這樣的元數(shù)據(jù)在企業(yè)一級(jí)顯露,使得每一種對(duì)它有愛好的人都能隨時(shí)理解“什么已經(jīng)存在”。元數(shù)據(jù)仍然可以在局部級(jí)上維護(hù),然后更新中央知識(shí)庫,但它們?nèi)匀皇褂貌灰粯拥拿?。成果,相似的名字被用于表達(dá)意義不一樣的事情,而同一件事情則使用了幾種不一樣的名字。盡管如此,相比之下,從不一樣來源來的數(shù)據(jù)和數(shù)據(jù)的含義已經(jīng)具有了更多的透明度。對(duì)于商業(yè)顧客,假如他們需要,現(xiàn)存的技術(shù)可為他們提供有關(guān)數(shù)據(jù)的來源和怎樣對(duì)數(shù)據(jù)進(jìn)行計(jì)算的信息。人人們開始感知到共享元數(shù)據(jù)信息的重要性。業(yè)務(wù)分析員、數(shù)據(jù)擁有者和應(yīng)用開發(fā)者目前自覺地將元數(shù)據(jù)信息加載到中央知識(shí)庫中。處理元數(shù)據(jù)知識(shí)經(jīng)由中央數(shù)據(jù)庫進(jìn)行共享。憑借對(duì)中央知識(shí)庫地理解,人們可以發(fā)目前其他應(yīng)用系統(tǒng)中的數(shù)據(jù)。然而,由于使用術(shù)語的不一樣,人們互相之間需要交流,以便弄清某些元數(shù)據(jù)的含義。并且,由于元數(shù)據(jù)的更新不受任何方式的控制,使得這種更新沒有通告或貼切的分析。技術(shù)有某些元數(shù)據(jù)管理工具可用于共享來自數(shù)據(jù)源的元數(shù)據(jù),并能把來自不一樣建模工具的邏輯元數(shù)據(jù)導(dǎo)入到元數(shù)據(jù)知識(shí)庫中。AGRochade、Unicon、MetaMatrix是該類產(chǎn)品的某些例子。然而,除了以商業(yè)含義來定義數(shù)據(jù)表格的欄目名之外,這些工具沒有一種能很好地抓取元數(shù)據(jù)。第三級(jí):管理控制行為特性這一級(jí)對(duì)元數(shù)據(jù)的修改善行集中管理。局部業(yè)務(wù)單元或開發(fā)小組如不告知其他的元數(shù)據(jù)保管者和顧客,就不再能按照自己的想法對(duì)元數(shù)據(jù)進(jìn)行修改。在一種地方發(fā)起的元數(shù)據(jù)的修改將傳播給其他地方。有多種工具和措施可用于不一樣業(yè)務(wù)單元之間互換元數(shù)據(jù)。為了整合不一樣數(shù)據(jù)源中的數(shù)據(jù),仍然必須用手工進(jìn)行數(shù)據(jù)的映射,以處理不一樣數(shù)據(jù)源的數(shù)據(jù)整合。不過,這種映射在一種中央知識(shí)庫上進(jìn)行維護(hù)和管理。人數(shù)據(jù)擁有者、應(yīng)用開發(fā)人員、顧客和其他的數(shù)據(jù)保留者目前比以往任何時(shí)候更清晰元數(shù)據(jù)管理的重要性。人們遵照有關(guān)元數(shù)據(jù)管理的“監(jiān)督”處理操作規(guī)程。在對(duì)元數(shù)據(jù)進(jìn)行修改前,他們就分析這種修改將會(huì)產(chǎn)生的影響。他們認(rèn)識(shí)到元數(shù)據(jù)的共享將使組織的運(yùn)作更有效,并使他們的生活更輕松。處理建立了監(jiān)督體系構(gòu)造(誰是數(shù)據(jù)和應(yīng)用的擁有者),監(jiān)督資產(chǎn)(數(shù)據(jù)倉庫、數(shù)據(jù)集市、命名原則)和流程(何時(shí)開始更新、怎樣更新)。技術(shù)有幾種工具常常被用于元數(shù)據(jù)的監(jiān)督處理。SchemaLogic是一種新興的工具,一般被用于協(xié)助監(jiān)督處剪發(fā)現(xiàn)業(yè)務(wù)的詞匯及其分類。尚有某些軟件提供商正在互相競(jìng)爭(zhēng),以彌補(bǔ)這一空間,但還沒有一家能提供商用的產(chǎn)品。第四級(jí):優(yōu)化行為特性在對(duì)元數(shù)據(jù)實(shí)行集中存儲(chǔ)并通過監(jiān)督體制對(duì)元數(shù)據(jù)進(jìn)行管理后,企業(yè)會(huì)發(fā)現(xiàn),通過原則化和整合可以實(shí)行故意義的優(yōu)化。為了優(yōu)化各業(yè)務(wù)單元之間的多種沖突和各個(gè)副本,人們開發(fā)了一種企業(yè)數(shù)據(jù)模型和詞匯表。人們可以將這些原則模型和詞匯表用于多種新的應(yīng)用。時(shí)機(jī)成熟時(shí),可以把多種老的應(yīng)用遷移到這些模型上。人在這一級(jí),人們堅(jiān)持不懈地探索優(yōu)化的途徑。人們協(xié)同工作,通過在數(shù)據(jù)的入口點(diǎn)確認(rèn)數(shù)據(jù)的有效性來提高數(shù)據(jù)的質(zhì)量。通過確定各業(yè)務(wù)實(shí)體的權(quán)威數(shù)據(jù)源,使數(shù)據(jù)的映射到達(dá)最小化。數(shù)據(jù)開始從一種業(yè)務(wù)單元平滑地流到另一種業(yè)務(wù)單元,而不用緊張昂貴的數(shù)據(jù)集成成本。處理首先,生成企業(yè)數(shù)據(jù)模型,并在中央知識(shí)庫進(jìn)行維護(hù)。第二,對(duì)數(shù)據(jù)模型中定義的每一種實(shí)體確定權(quán)威數(shù)據(jù)源或企業(yè)應(yīng)用的主參照數(shù)據(jù),然后將業(yè)務(wù)的上下文信息和含義與這些數(shù)據(jù)源進(jìn)行關(guān)聯(lián)。在整個(gè)組織中對(duì)業(yè)務(wù)的詞匯表進(jìn)行原則化。鼓勵(lì)應(yīng)用開發(fā)小組使用這些原則化的術(shù)語,來生成、傳播和表達(dá)信息。技術(shù)目前,僅有少數(shù)幾種能協(xié)助企業(yè)實(shí)行優(yōu)化的工具。并且,每一種工具只能完畢其中一到兩個(gè)任務(wù),還沒有哪個(gè)工具能做企業(yè)優(yōu)化所需的所有事情。第五級(jí):自動(dòng)化行為特性在這一級(jí),元數(shù)據(jù)管理是自動(dòng)進(jìn)行的。當(dāng)在邏輯層次發(fā)生元數(shù)據(jù)更新時(shí),它們將被傳播到物理層次。反之,當(dāng)在物理層次發(fā)生更新時(shí),邏輯層次將被更新,以反應(yīng)這種更新。在元數(shù)據(jù)中的任何變化也將觸發(fā)業(yè)務(wù)工作流,以處理其他各個(gè)業(yè)務(wù)系統(tǒng)所需的相對(duì)應(yīng)的任何修改。由于各個(gè)應(yīng)用系統(tǒng)遵攝影似的詞匯表,它們之間的關(guān)系可以通過知識(shí)本體進(jìn)行推斷,因此,各應(yīng)用系統(tǒng)之間數(shù)據(jù)格式的映射自動(dòng)產(chǎn)生。人人們把元數(shù)據(jù)管理作為常規(guī)業(yè)務(wù)的構(gòu)成部分。就像電信網(wǎng)對(duì)業(yè)務(wù)的支持同樣,元數(shù)據(jù)成為組織運(yùn)作中一種關(guān)鍵的、普遍存在的、無形的資產(chǎn)。元數(shù)據(jù)管理變成業(yè)務(wù)處理的一種重要構(gòu)成部分,并且,整個(gè)業(yè)務(wù)運(yùn)作都要依賴于它。實(shí)際上,假如元數(shù)據(jù)管理實(shí)行得很好,人們可以無需關(guān)懷它在何處。在自動(dòng)化級(jí),元數(shù)據(jù)管理成為一種使能器,而不被視為一種障礙。處理在這一級(jí),元數(shù)據(jù)管理的處理較為理想。絕大多數(shù)處理是自動(dòng)完畢的。人們從手工和程序處理過程中解放出來。他們?cè)谠獢?shù)據(jù)鑒定上可以工作得更有效。當(dāng)業(yè)務(wù)變化時(shí),由知識(shí)工人對(duì)企業(yè)數(shù)據(jù)模型、詞匯表和知識(shí)本體進(jìn)行維護(hù)。這樣一種變化立即會(huì)在各個(gè)應(yīng)用中反應(yīng)出來。例如,假如一種新產(chǎn)品被引進(jìn),把它加到企業(yè)詞匯表和知識(shí)本體中,這一狀況將自動(dòng)地被傳播給金融系統(tǒng)、制造業(yè)系統(tǒng)和營銷系統(tǒng)。使得每個(gè)應(yīng)用系統(tǒng)無需花費(fèi)昂貴的代價(jià),去完畢對(duì)應(yīng)的修改。技術(shù)各個(gè)應(yīng)用必須使用企業(yè)數(shù)據(jù)模型、詞匯表和知識(shí)本體來獲取、傳播和表達(dá)數(shù)據(jù)。人們開發(fā)了多種代理,將數(shù)據(jù)從一種格式翻譯成另一種格式。為了實(shí)現(xiàn)這些功能,目前正在展開知識(shí)庫表達(dá)和知識(shí)集成方面的許多研究。元數(shù)據(jù)管理現(xiàn)實(shí)狀況正是由于元數(shù)據(jù)在整個(gè)數(shù)據(jù)倉庫生命周期中有著重要的地位,各個(gè)廠商的數(shù)據(jù)倉庫處理方案都提到了有關(guān)對(duì)元數(shù)據(jù)的管理。但遺憾的是對(duì)于元數(shù)據(jù)的管理,各個(gè)處理方案都沒有明確提出一種完整的管理模式;它們提供的僅僅是對(duì)特定的局部元數(shù)據(jù)的管理。元數(shù)據(jù)有關(guān)的數(shù)據(jù)倉庫工具大體可分為四類:數(shù)據(jù)抽取工具:把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的DecisionBase和ETI的Extract等。這些工具僅提供了技術(shù)元數(shù)據(jù),幾乎沒有提供對(duì)業(yè)務(wù)元數(shù)據(jù)的支持。前端展現(xiàn)工具:包括OLAP分析、報(bào)表和商業(yè)智能工具等,如MicroStrategy的DSSAgent、Cognos的PowerPlay、BusinessObjects的BO,以及Brio等。它們通過把關(guān)系表映射成與業(yè)務(wù)有關(guān)的事實(shí)表和維表來支持多維業(yè)務(wù)視圖,進(jìn)而對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維分析。這些工具都提供了業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)相對(duì)應(yīng)的語義層。建模工具:為非技術(shù)人員準(zhǔn)備的業(yè)務(wù)建模工具,這些工具可以提供更高層的與特定業(yè)務(wù)有關(guān)的語義。如CA的ERwin、Sybase的PowerDesigner以及Rational的Rose等。元數(shù)據(jù)存儲(chǔ)工具:元數(shù)據(jù)一般存儲(chǔ)在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一種“黑盒子”,外部無法懂得這些工具所用到和產(chǎn)生的元數(shù)據(jù)是怎樣存儲(chǔ)的。尚有一類被稱為元數(shù)據(jù)知識(shí)庫(MetadataRepository)的工具,它們獨(dú)立于其他工具,為元數(shù)據(jù)提供一種集中的存儲(chǔ)空間。包括微軟的Repository,CA的Repository,Ardent的MetaStage和Sybase的WCC等三.元數(shù)據(jù)管理的通用原則沒有規(guī)矩不成方圓。元數(shù)據(jù)管理之因此困難,一種很重要的原因就是缺乏統(tǒng)一的原則。在這種狀況下,各企業(yè)的元數(shù)據(jù)管理處理方案各不相似。近幾年,伴隨元數(shù)據(jù)聯(lián)盟MDC(MetaDataCoalition)的開放信息模型OIM(OpenInformationModel)和OMG組織的公共倉庫模型CWM(CommonWarehouseModel)原則的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉庫廠商提供了統(tǒng)一的原則,從而為元數(shù)據(jù)管理鋪平了道路。從元數(shù)據(jù)的發(fā)展歷史不難看出,元數(shù)據(jù)管理重要有兩種措施:對(duì)于相對(duì)簡(jiǎn)樸的環(huán)境,按照通用的元數(shù)據(jù)管理原則建立一種集中式的元數(shù)據(jù)知識(shí)庫。對(duì)于比較復(fù)雜的環(huán)境,分別建立各部分的元數(shù)據(jù)管理系統(tǒng),形成分布式元數(shù)據(jù)知識(shí)庫,然后,通過建立原則的元數(shù)據(jù)互換格式,實(shí)現(xiàn)元數(shù)據(jù)的集成管理。下面我們分別簡(jiǎn)介數(shù)據(jù)倉庫領(lǐng)域中兩個(gè)最重要的元數(shù)據(jù)原則:MDC的OIM原則和OMG的CWM原則。MDC的OIM存儲(chǔ)模型MDC成立于1995年,是一種致力于建立與廠商無關(guān)的、不依賴于詳細(xì)技術(shù)的企業(yè)元數(shù)據(jù)管理原則的非獲利技術(shù)聯(lián)盟,該聯(lián)盟有150多種會(huì)員,其中包括微軟和IBM等著名軟件廠商。1999年7月MDC接受了微軟的提議,將OIM作為元數(shù)據(jù)原則。OIM的目的是通過公共的元數(shù)據(jù)信息來支持不一樣工具和系統(tǒng)之間數(shù)據(jù)的共享和重用。它波及了信息系統(tǒng)(從設(shè)計(jì)到公布)的各個(gè)階段,通過對(duì)元數(shù)據(jù)類型的原則描述來到達(dá)工具和知識(shí)庫之間的數(shù)據(jù)共享。OIM所申明的元數(shù)據(jù)類型都采用統(tǒng)一建模語言\o"UML"UML(UniversalModelingLanguage)進(jìn)行描述,并被組織成易于使用、易于擴(kuò)展的多種\o"主題"主題范圍(SubjectAreas),這些主題范圍包括:分析與設(shè)計(jì)(AnalysisandDesign):重要用于軟件分析、設(shè)計(jì)和建模。該主題范圍又深入劃分為:UML包(Package)、UML擴(kuò)展包、通用元素(GenericElements)包、公共數(shù)據(jù)類型(CommonDataTypes)包和實(shí)體關(guān)系建模(EntityRelationshipModeling)包等。對(duì)象與組件(ObjectandComponent):波及面向?qū)ο箝_發(fā)技術(shù)的方方面面。該主題范圍只包括組件描述建模(ComponentDescriptionModeling)包。數(shù)據(jù)庫與數(shù)據(jù)倉庫(DatabaseandWarehousing):為數(shù)據(jù)庫模式管理、復(fù)用和建立數(shù)據(jù)倉庫提供元數(shù)據(jù)概念支持。該主題范圍深入劃分為:關(guān)系數(shù)據(jù)庫模式(RelationalDatabaseSchema)包、OLAP模式(OLAPSchema)包、數(shù)據(jù)轉(zhuǎn)換(DataTransformations)包、面向記錄的數(shù)據(jù)庫模式(Record-OrientedDatabaseSchema)包、XML模式(XMLSchema)包和報(bào)表定義(ReportDefinitions)包等。業(yè)務(wù)工程(BusinessEngineering):為企業(yè)運(yùn)作提供一種藍(lán)圖。該主題范圍深入劃分為:業(yè)務(wù)目的(BusinessGoal)包、組織元素(OrganizationalElements)包、業(yè)務(wù)規(guī)則(BusinessRules)包、商業(yè)流程(BusinessProcesses)包等。知識(shí)管理(KnowledgeManagement):波及企業(yè)的信息構(gòu)造。該主題范圍深入劃分為:知識(shí)描述(KnowledgeDescriptions)包和語義定義(SemanticDefinitions)包。上述主題范圍中的包都是采用UML定義的,可以說UML語言是整個(gè)OIM原則的基礎(chǔ)。雖然OIM原則并不是專門針對(duì)數(shù)據(jù)倉庫的,但數(shù)據(jù)倉庫是它的重要應(yīng)用領(lǐng)域之一。目前市場(chǎng)上基于該原則的元數(shù)據(jù)管理工具已經(jīng)比較成熟,例如微軟的Repositry和CA的Repositry均采用了OIM原則。OMG組織的CWM模型OMG是一種擁有500多會(huì)員的國際原則化組織,著名的CORBA原則即出自該組織。\o"公共倉庫元模型"公共倉庫元模型(CommonWarehouseMetamodel)的重要目的是在異構(gòu)環(huán)境下,協(xié)助不一樣的數(shù)據(jù)倉庫工具、平臺(tái)和元數(shù)據(jù)知識(shí)庫進(jìn)行元數(shù)據(jù)互換。3月,OMG頒布了CWM1.0原則。CWM模型既包括元數(shù)據(jù)存儲(chǔ),也包括元數(shù)據(jù)互換,它是基于如下三個(gè)工業(yè)原則制定的:UML:它對(duì)CWM模型進(jìn)行建模。MOF(元對(duì)象設(shè)施):它是OMG元模型和元數(shù)據(jù)的存儲(chǔ)原則,提供在異構(gòu)環(huán)境下對(duì)元數(shù)據(jù)知識(shí)庫的訪問接口。XMl(XML元數(shù)據(jù)互換):它可以使元數(shù)據(jù)以XML文獻(xiàn)流的方式進(jìn)行互換。CWM為數(shù)據(jù)倉庫和商業(yè)智能(BI)工具之間共享元數(shù)據(jù),制定了一整套有關(guān)語法和語義的規(guī)范。它重要包括如下四個(gè)方面的規(guī)范:CWM元模型(Metamodel):描述數(shù)據(jù)倉庫系統(tǒng)的模型;CWMXML:CWM元模型的XML表達(dá);CWMDTD:DW/BI共享元數(shù)據(jù)的互換格式CWMIDL:DW/BI共享元數(shù)據(jù)的應(yīng)用程序訪問接口(API)下面重點(diǎn)討論CWM元模型的構(gòu)成,它與OIM規(guī)范同樣,也是由諸多包構(gòu)成的。元模型(MetaModel)包:構(gòu)造和描述其他CWM包中的元模型類的基礎(chǔ)。它是UML的一種子集,由如下四個(gè)子包構(gòu)成:關(guān)鍵(Core)包:它的類和關(guān)聯(lián)是該模型的關(guān)鍵,其他所有的包都以它為基礎(chǔ)。行為(Behavioral)包:包括描述CWM對(duì)象行為的類與關(guān)聯(lián),并且它為描述所定義的行為提供了基礎(chǔ)。關(guān)系(Relationships)包:包括描述CWM對(duì)象之間關(guān)系的類與關(guān)聯(lián)。實(shí)例(Instance)包:包括表達(dá)CWM分類器(Classfier)的類與關(guān)聯(lián)。基礎(chǔ)包(Foundation):它包括表達(dá)CWM概念和構(gòu)造的模型元素,這些模型元素又可被其他CWM包所共享,它由如下六個(gè)子包構(gòu)成:業(yè)務(wù)信息(BusinessInformation)包:包括表達(dá)模型元素業(yè)務(wù)信息的類與關(guān)聯(lián)。數(shù)據(jù)類型(DataTypes)包:包括表達(dá)建模者可以用來創(chuàng)立所需數(shù)據(jù)類型的構(gòu)造的類與關(guān)聯(lián)。體現(xiàn)式(Expressions)包:包括表達(dá)體現(xiàn)式樹的類與關(guān)聯(lián)。關(guān)鍵字和索引(KeysandIndexes)包:包括表達(dá)鍵和索引的類與關(guān)聯(lián)。軟件公布(SoftwareDeployment)包:包括軟件怎樣在數(shù)據(jù)倉庫中公布的類與關(guān)聯(lián)。類型映射(TypeMapping)包:包括表達(dá)不一樣系統(tǒng)之間數(shù)據(jù)類型映射的類與關(guān)聯(lián)。資源包(Resource):用于描述數(shù)據(jù)資源的包,它包括如下四個(gè)子包:關(guān)系(Relational)包:包括表達(dá)關(guān)系型數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。記錄(Record)包:包括表達(dá)記錄型數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。多維(Multidimensional)包:包括表達(dá)多維數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。XMI包:包括表達(dá)XML數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。分析(Analysis)包:它由如下五個(gè)子包構(gòu)成:轉(zhuǎn)換(Transformation)包:包括表達(dá)數(shù)據(jù)抽取和轉(zhuǎn)換工具的元數(shù)據(jù)的類與關(guān)聯(lián)。OLAP包:包括表達(dá)OLAP工具的元數(shù)據(jù)的類與關(guān)聯(lián)。數(shù)據(jù)挖掘(DataMining)包:包括表達(dá)數(shù)據(jù)挖掘工具的元數(shù)據(jù)的類與關(guān)聯(lián)。信息可視化(InformationVisualization)包:包括表達(dá)信息可視化工具的元數(shù)據(jù)的類與關(guān)聯(lián)。業(yè)務(wù)術(shù)語(BusinessNomenclature)包:包括表達(dá)分類業(yè)務(wù)的元數(shù)據(jù)的類與關(guān)聯(lián)。管理(Management)包:用于描述數(shù)據(jù)倉庫管理的包,它包括如下兩個(gè)子包:倉庫過程(WarehouseProcess)包:包括表達(dá)倉庫過程的元數(shù)據(jù)的類與關(guān)聯(lián)。倉庫操作(WarehouseOperation)包:包括表達(dá)倉庫操作成果的元數(shù)據(jù)的類與關(guān)聯(lián)。在數(shù)據(jù)抽取過程中,數(shù)據(jù)從各個(gè)業(yè)務(wù)系統(tǒng)中被統(tǒng)一轉(zhuǎn)換存儲(chǔ)到中央數(shù)據(jù)倉庫中。CWM中的轉(zhuǎn)換模型定義了數(shù)據(jù)在源和目的之間移動(dòng)的過程,其中不僅包括源和目的之間的參數(shù),還包括轉(zhuǎn)換中的業(yè)務(wù)邏輯。這些業(yè)務(wù)邏輯也許包括某些商業(yè)規(guī)則、類庫甚至是顧客腳本。數(shù)據(jù)倉庫假如有一種規(guī)范的轉(zhuǎn)換模型將給工具軟件廠商和專業(yè)服務(wù)提供商帶來極大的好處,例如,按照統(tǒng)一的規(guī)范廠商可以設(shè)計(jì)一種通用的模型從原則\o"ERP"ERP包中抽取數(shù)據(jù)。工具廠商甚至可以隨軟件提供成熟的模型,集成商也可以將一種模型應(yīng)用到多種項(xiàng)目中。最終顧客同樣也能從CWM中受益,在使用商業(yè)智能分析軟件進(jìn)行多維分析的時(shí)候,顧客往往會(huì)對(duì)數(shù)據(jù)的含義和來源產(chǎn)生疑問。CWM可以提供這些信息,顧客可以清晰地看到數(shù)據(jù)來自哪個(gè)系統(tǒng),并且是怎樣構(gòu)成的。CWM與OIM之間的關(guān)系上兩節(jié)分別簡(jiǎn)介了與數(shù)據(jù)倉庫有關(guān)的兩個(gè)重要原則,CWM實(shí)際上是專門為數(shù)據(jù)倉庫元數(shù)據(jù)而制定的一套原則,而OIM并不是針對(duì)數(shù)據(jù)倉庫元數(shù)據(jù)的。OIM所關(guān)注的元數(shù)據(jù)的范圍比CWM要廣,CWM只限定于數(shù)據(jù)倉庫領(lǐng)域,而OIM模型包括有:分析與設(shè)計(jì)模型、對(duì)象與組件、數(shù)據(jù)庫與數(shù)據(jù)倉庫、商業(yè)工程、知識(shí)管理等五個(gè)領(lǐng)域。OIM與CWM在建模語言的選擇(都選擇UML當(dāng)做自己的描述語言)、數(shù)據(jù)庫模型的支持、OLAP分析模型的支持、數(shù)據(jù)轉(zhuǎn)換模型的支持方面都比較一致;不過OIM并不是基于元對(duì)象設(shè)施(MOF)的,這意味著用OIM所描述的元數(shù)據(jù)需要通過其他的接口才能訪問,而CWM所描述的元數(shù)據(jù)可以通過CORBAIDL來訪問;在數(shù)據(jù)互換方面,OIM必須通過特定的轉(zhuǎn)換形成XML文獻(xiàn)來互換元數(shù)據(jù),而CWM可以用XMI來進(jìn)行互換。盡管如此,由于OMG與MDC兩個(gè)組織的合并,CWM也會(huì)與OIM互相兼容以保護(hù)廠商已經(jīng)有的投資。需要闡明的是,MDC與OMG組織已經(jīng)合并,此后所有的工具都將遵照統(tǒng)一的CWM原則,不過支持CWM的工具才剛剛出現(xiàn),而支持OIM原則的工具已經(jīng)相對(duì)成熟。四.元數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)設(shè)計(jì)原則數(shù)據(jù)倉庫環(huán)境下的元數(shù)據(jù)管理系統(tǒng)的建設(shè)是十分困難的。不過在實(shí)際項(xiàng)目的實(shí)行過程中,這個(gè)環(huán)節(jié)又是非常重要的。目前狀況下,OMG組織的CWM原則將會(huì)成為數(shù)據(jù)倉庫元數(shù)據(jù)領(lǐng)域?qū)嶋H上的原則,在元數(shù)據(jù)管理系統(tǒng)的建立過程中應(yīng)盡量參照這個(gè)原則,這樣使系統(tǒng)的可擴(kuò)展性增強(qiáng)??墒窃谂c之有關(guān)的工具成熟之前,我們完全可以采用OIM中的元模型(因CWM對(duì)OIM是兼容的)以及支持它的元數(shù)據(jù)管理工具進(jìn)行元數(shù)據(jù)管理系統(tǒng)的建設(shè),并且元數(shù)據(jù)所包括的范圍很廣。我們?cè)诮⒃獢?shù)據(jù)管理系統(tǒng)的時(shí)候,絕對(duì)不能盲目追求大而全,要堅(jiān)持目的驅(qū)動(dòng)的原則,在實(shí)行的時(shí)候要采用增量式、漸進(jìn)式的建設(shè)原則。詳細(xì)的建設(shè)環(huán)節(jié)如下:假如是在建設(shè)數(shù)據(jù)倉庫系統(tǒng)的初期,那么首先要確定系統(tǒng)的邊界范圍,系統(tǒng)范圍確定的原則是首先保障重點(diǎn),不求大,只求精。系統(tǒng)邊界確定后來,把既有系統(tǒng)的元數(shù)據(jù)整頓出來,加入語義層的對(duì)應(yīng)。然后存到一種數(shù)據(jù)庫中,這個(gè)數(shù)據(jù)庫可以采用專用的元數(shù)據(jù)知識(shí)庫,也可以采用一般的關(guān)系型數(shù)據(jù)庫。確定元數(shù)據(jù)管理的范圍。例如,我們只想通過元數(shù)據(jù)來管理數(shù)據(jù)倉庫中數(shù)據(jù)的轉(zhuǎn)換過程,以及有關(guān)數(shù)據(jù)的抽取路線,以使數(shù)據(jù)倉庫開發(fā)和使用人員明白倉庫中數(shù)據(jù)的整個(gè)歷史過程。確定元數(shù)據(jù)管理的工具,采用一定的工具可以完畢對(duì)應(yīng)的工作。目前有關(guān)工具有微軟的Repositry,它帶有對(duì)應(yīng)的編程接口,可以借助于它來完畢元模型出入庫的功能;與之相似的尚有Platinum的OEE;此外尚有Sybase的Wcc,它可以通過MDC此前的一種老原則――MDIS來集成抽取工具與轉(zhuǎn)換工具,在一種窗口中就可以表達(dá)數(shù)據(jù)抽取與轉(zhuǎn)換,并且可以把語義層以MDIS的格式導(dǎo)出到一種前端工具當(dāng)中(例如Cognos的Improptu)。元數(shù)據(jù)存儲(chǔ)模式元數(shù)據(jù)存在的狀況是有差異的,系統(tǒng)層元數(shù)據(jù)應(yīng)隨數(shù)據(jù)庫存在,且由建立在分布式網(wǎng)絡(luò)數(shù)據(jù)庫管理系統(tǒng)統(tǒng)一管理;數(shù)據(jù)集層次元數(shù)據(jù)可以隨數(shù)據(jù)庫存在也可隨數(shù)據(jù)集存在;數(shù)據(jù)特性層次的元數(shù)據(jù)只能隨數(shù)據(jù)集存在。簡(jiǎn)樸地,元數(shù)據(jù)存貯有兩種形式:其一是以數(shù)據(jù)集為基礎(chǔ),即每一種數(shù)據(jù)集有一種對(duì)應(yīng)的元數(shù)據(jù)文檔,每一種元數(shù)據(jù)文獻(xiàn)中包括對(duì)對(duì)應(yīng)數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。另一種存在方式是以數(shù)據(jù)庫為基礎(chǔ)(即元數(shù)據(jù)庫),給一種數(shù)據(jù)庫有一種元數(shù)據(jù)文獻(xiàn),該文獻(xiàn)為一表格數(shù)據(jù),它由若干項(xiàng)構(gòu)成,每一項(xiàng)表達(dá)元數(shù)據(jù)的一種要素,其記錄為每一種數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。兩種存貯方式各有優(yōu)缺陷,對(duì)于第一種存儲(chǔ)模式,其好處是調(diào)用數(shù)據(jù)時(shí)其對(duì)應(yīng)的元數(shù)據(jù)也作為一種獨(dú)立的文獻(xiàn)被傳播,相對(duì)數(shù)據(jù)庫有較強(qiáng)的獨(dú)立性,在對(duì)元數(shù)據(jù)進(jìn)行檢索時(shí)可以運(yùn)用數(shù)據(jù)庫的功能實(shí)現(xiàn),也可以將元數(shù)據(jù)文獻(xiàn)調(diào)到其他數(shù)據(jù)庫系統(tǒng)中進(jìn)行操作;其問題是:每一數(shù)據(jù)集均有一種元數(shù)據(jù)文檔,那么在規(guī)模巨大的數(shù)據(jù)庫中則會(huì)有大量的元數(shù)據(jù)文獻(xiàn),管理上極為不便。在第二中存在模式中,由于庫中只有一種元數(shù)據(jù)文獻(xiàn),管理極為以便,添加或刪除數(shù)據(jù)集只把該文獻(xiàn)中添加或刪除對(duì)應(yīng)的記錄項(xiàng)即可;但假如想獲取某數(shù)據(jù)集的元數(shù)據(jù)時(shí),實(shí)際得到的只是關(guān)系表格數(shù)據(jù)的一種記錄,則規(guī)定數(shù)據(jù)顧客使用的系統(tǒng)中可以接受這種特定形式的數(shù)據(jù)。因此推薦使用元數(shù)據(jù)庫的方式。元數(shù)據(jù)庫是用于存儲(chǔ)元數(shù)據(jù)的地方,元數(shù)據(jù)庫最佳選用主流的關(guān)系數(shù)據(jù)庫管理系統(tǒng),支持CWM原則。一種元數(shù)據(jù)庫還包括那些用于操作和查詢?cè)獢?shù)據(jù)的機(jī)制;建立元數(shù)據(jù)庫的重要好處是提供了統(tǒng)一的關(guān)鍵數(shù)據(jù)構(gòu)造和業(yè)務(wù)規(guī)則,易于將企業(yè)內(nèi)部的多種數(shù)據(jù)集市有機(jī)的結(jié)合起來;尤其是,目前某些客戶傾向建立多種數(shù)據(jù)集市,而不是一種龐大無比的數(shù)據(jù)倉庫。可以考慮在建立數(shù)據(jù)倉庫(或數(shù)據(jù)集市)之前,先建立一種用于描述數(shù)據(jù)的、用于應(yīng)用集成的元數(shù)據(jù)庫,做好數(shù)據(jù)倉庫實(shí)行的初期支持工作,對(duì)后續(xù)開發(fā)和維護(hù)有很大的協(xié)助。在擁有不一樣廠商、不一樣功能和不一樣元數(shù)據(jù)庫的環(huán)境下,要實(shí)現(xiàn)兩種產(chǎn)品之間的元數(shù)據(jù)同步是非常富有挑戰(zhàn)性的工作。由于必須從一種產(chǎn)品中獲得足夠詳細(xì)的元數(shù)據(jù),將其映射到另一種產(chǎn)品中,再指出兩者意義或編碼的差異;一般系統(tǒng)有數(shù)百、數(shù)千個(gè)元數(shù)據(jù),必須對(duì)每個(gè)元數(shù)據(jù)反復(fù)這一過程。在整個(gè)數(shù)據(jù)倉庫環(huán)境中,元數(shù)據(jù)管理工具可以從各個(gè)數(shù)據(jù)倉庫組件中搜集元數(shù)據(jù),存儲(chǔ)到元數(shù)據(jù)庫中,然后向業(yè)務(wù)顧客傳遞和展示對(duì)的的信息。采集、集成和描述元數(shù)據(jù)可以擴(kuò)展到十分廣泛的范圍,可以在設(shè)計(jì)和建模的過程中,可以在數(shù)據(jù)轉(zhuǎn)換、清洗和過濾的過程中,也可以在數(shù)據(jù)移植的過程中;可以從數(shù)據(jù)庫/數(shù)據(jù)存儲(chǔ)軟件,和前端展示工具中得到元數(shù)據(jù)。元數(shù)據(jù)庫為整個(gè)企業(yè)的寶貴信息提供了詳細(xì)的記錄,保留數(shù)據(jù)存儲(chǔ)位置和商業(yè)含義、生成和維護(hù)數(shù)據(jù)的主體、數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用處理、與其他數(shù)據(jù)的關(guān)系以及數(shù)據(jù)的轉(zhuǎn)換過程等。元數(shù)據(jù)庫保證了數(shù)據(jù)倉庫數(shù)據(jù)的一致性和精確性,為企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理提供數(shù)據(jù)根據(jù)。此外,元數(shù)據(jù)庫還支持強(qiáng)大的查詢和報(bào)表生成工具,顧客使用報(bào)表工具可以查詢?cè)獢?shù)據(jù)庫,從元數(shù)據(jù)庫獲得重要的決策支持信息。元數(shù)據(jù)管理模式元數(shù)據(jù)管理波及到各個(gè)層次的元數(shù)據(jù),管理的內(nèi)容包括元數(shù)據(jù)的獲取、元數(shù)據(jù)的更新、使用和面向應(yīng)用項(xiàng)目的元數(shù)據(jù)使用處理等多種方面。元數(shù)據(jù)的管理波及數(shù)據(jù)庫、數(shù)據(jù)處理軟件、數(shù)據(jù)使用系統(tǒng)、面向應(yīng)用的數(shù)據(jù)分析等各個(gè)環(huán)節(jié)。下面給出了一種一般意義的以元數(shù)據(jù)信息系統(tǒng)為基礎(chǔ)的元數(shù)據(jù)管理模式:一般意義上的元數(shù)據(jù)管理是指元數(shù)據(jù)通過多種途徑形成后,對(duì)其內(nèi)容的添加、刪除、更新等波及內(nèi)容變化的操作和元數(shù)據(jù)內(nèi)容檢索、查詢、放置、組織等常規(guī)性元數(shù)據(jù)操作,從這種意義上元數(shù)據(jù)的管理可以通過兩種方式實(shí)現(xiàn),即系統(tǒng)管理模式和顧客管理模式。系統(tǒng)管理模式是面向數(shù)據(jù)庫的,由數(shù)據(jù)庫管理系統(tǒng)專業(yè)人員完畢,數(shù)據(jù)顧客只有使用權(quán),沒有元數(shù)據(jù)的操作權(quán),數(shù)據(jù)應(yīng)用項(xiàng)目中新生成的數(shù)據(jù)集的元數(shù)據(jù)也有應(yīng)用系統(tǒng)傳遞給數(shù)據(jù)庫管理員,然后由數(shù)據(jù)庫管理員統(tǒng)一管理。這種方式中,數(shù)據(jù)在處理過程中形成的動(dòng)態(tài)元數(shù)據(jù)很難及時(shí)記錄下來。另一種管理方式是顧客管理模式,它是面向應(yīng)用項(xiàng)目的,即容許某些數(shù)據(jù)顧客在數(shù)據(jù)應(yīng)用元數(shù)據(jù)的變動(dòng)信息直接反饋給元數(shù)據(jù)庫,這樣則能保證元數(shù)據(jù)的動(dòng)態(tài)更新和新生成數(shù)據(jù)集元數(shù)據(jù)的及時(shí)捕捉及寫入元數(shù)據(jù)文獻(xiàn)。但這種模式中數(shù)據(jù)顧客的權(quán)限要合適的控制,以防止數(shù)據(jù)庫的破壞。一般對(duì)元數(shù)據(jù)的管理是采用兩者結(jié)合的模式??傊⒃獢?shù)據(jù)管理系統(tǒng)一定要堅(jiān)持關(guān)注原則,又不被原則所束縛的原則,建立符合自身目的的元數(shù)據(jù)管理系統(tǒng)。英國Dublin元數(shù)據(jù)關(guān)鍵元素模版(可借鑒)該原則按照信息的類型和范圍將十五個(gè)關(guān)鍵元素分為三個(gè)子集:(1)數(shù)據(jù)資源內(nèi)容(2)數(shù)據(jù)知識(shí)產(chǎn)權(quán)(3)數(shù)據(jù)實(shí)體。每個(gè)子集所包括的元素及其定義見表5。表1子集元素定義數(shù)據(jù)資源內(nèi)容數(shù)據(jù)集名稱由數(shù)據(jù)生產(chǎn)者或分發(fā)者確定的數(shù)據(jù)集名稱主題數(shù)據(jù)集的主題,可以是闡明數(shù)據(jù)集主題或內(nèi)容的關(guān)鍵字或短語,最佳使用規(guī)定的縮寫詞或統(tǒng)一分類名稱摘要數(shù)據(jù)集內(nèi)容的簡(jiǎn)要闡明數(shù)據(jù)源生產(chǎn)數(shù)據(jù)集的原始資料闡明,包括原始資料出版日期、生產(chǎn)者、格式、標(biāo)識(shí)碼或其他闡明信息語言數(shù)據(jù)集使用的語言,該元素的內(nèi)容應(yīng)當(dāng)與“語言標(biāo)識(shí)碼”原則(RFC1766)一致,如en(英國)、de(德國)、fr(法國)等關(guān)系其他生產(chǎn)者標(biāo)識(shí)碼及其與數(shù)據(jù)生產(chǎn)者之間的關(guān)系時(shí)空覆蓋范圍數(shù)據(jù)集內(nèi)容的空間和時(shí)間覆蓋范圍??臻g覆蓋范圍可以用坐標(biāo)或地名表達(dá);時(shí)間范圍是指數(shù)據(jù)的現(xiàn)勢(shì)性,按ISO8601日期和時(shí)間格式原則,即YYYY-MM-DD數(shù)據(jù)知識(shí)產(chǎn)權(quán)數(shù)據(jù)生產(chǎn)者負(fù)責(zé)生產(chǎn)數(shù)據(jù)的重要單位或個(gè)人出版者將數(shù)據(jù)集提供顧客使用的負(fù)責(zé)單位,如出版社等其他生產(chǎn)者除數(shù)據(jù)生產(chǎn)者元素中闡明以外的其他參與生產(chǎn)者(如編輯、轉(zhuǎn)換等)版權(quán)版權(quán)闡明。與版權(quán)管理申明鏈接的標(biāo)識(shí)碼,或與提供數(shù)據(jù)集版權(quán)管理信息的服務(wù)鏈接的標(biāo)識(shí)碼數(shù)據(jù)實(shí)體日期數(shù)據(jù)集生產(chǎn)或提供使用的日期,按ISO8601日期和時(shí)間格式原則,即YYYY-MM-DD類型數(shù)據(jù)集的類型格式數(shù)據(jù)集的數(shù)據(jù)格式,用于識(shí)別顯示或操作數(shù)據(jù)集的軟件及硬件。標(biāo)識(shí)碼唯一標(biāo)識(shí)數(shù)據(jù)集的字符串或數(shù)字,對(duì)于聯(lián)網(wǎng)數(shù)據(jù)資源,包括URL和URN,或ISBNDublin元數(shù)據(jù)的每一種關(guān)鍵元素都是可選的和可以反復(fù)使用

的。并且,元數(shù)據(jù)元素的次序無關(guān)緊要,也不代表其重要性。我們可以根據(jù)它做出我們自己的元數(shù)據(jù)管理原則,實(shí)現(xiàn)自己的元數(shù)據(jù)管理應(yīng)運(yùn)實(shí)例數(shù)據(jù)集名稱:中國病毒目錄數(shù)據(jù)庫序號(hào)元數(shù)據(jù)項(xiàng)名稱元數(shù)據(jù)內(nèi)容0數(shù)據(jù)集的元數(shù)據(jù)由標(biāo)識(shí)信息、采集信息、管理信息、描述信息、訪問信息和元數(shù)據(jù)管理信息等六項(xiàng)內(nèi)容構(gòu)成。1標(biāo)識(shí)信息標(biāo)識(shí)性的信息。1.1數(shù)據(jù)集作者中國微生物菌種保藏管理委員會(huì)1.2數(shù)據(jù)集中文標(biāo)題中國放線菌目錄數(shù)據(jù)庫1.3數(shù)據(jù)集英文標(biāo)題DatabaseofChinaCatalogueofVirus1.4數(shù)據(jù)集闡明(限300字)本數(shù)據(jù)庫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論