(計(jì)算機(jī)軟件與理論專業(yè)論文)基于本體和服務(wù)發(fā)現(xiàn)的web信息集成研究.pdf_第1頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于本體和服務(wù)發(fā)現(xiàn)的web信息集成研究.pdf_第2頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于本體和服務(wù)發(fā)現(xiàn)的web信息集成研究.pdf_第3頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于本體和服務(wù)發(fā)現(xiàn)的web信息集成研究.pdf_第4頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于本體和服務(wù)發(fā)現(xiàn)的web信息集成研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)軟件與理論專業(yè)論文)基于本體和服務(wù)發(fā)現(xiàn)的web信息集成研究.pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 摘要 隨著w c b 信息的爆炸式增長(zhǎng),如何構(gòu)建w e b 信息集成系統(tǒng)來(lái)有效地組織和管理 分布于世界各地海量的w c b 數(shù)據(jù),從中有效的獲取有用信息,成為人們最關(guān)注的問(wèn) 題。本文在深入分析和討論w c b 信息集成系統(tǒng)的研究現(xiàn)狀和發(fā)展趨勢(shì)基礎(chǔ)之上,提 出了一個(gè)基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成系統(tǒng),并圍繞系統(tǒng)中的幾個(gè)主要關(guān)鍵 技術(shù),如:在領(lǐng)域本體構(gòu)建和數(shù)據(jù)源的服務(wù)封裝和服務(wù)描述以及基于服務(wù)發(fā)現(xiàn)的 查詢分解技術(shù)等方面進(jìn)行了研究,其主要內(nèi)容如下: 1 ) 改進(jìn)了傳統(tǒng)的虛擬集成方法,在m e d i a t o r 和數(shù)據(jù)源之間增加了一個(gè)w e b 服 務(wù)庫(kù)層,包含了用w e b 服務(wù)技術(shù)封裝的各數(shù)據(jù)源包裝器的服務(wù),并采用語(yǔ)義w e b 服務(wù)本體描述語(yǔ)言( o w l - s ) 對(duì)各數(shù)據(jù)源服務(wù)進(jìn)行語(yǔ)義描述,形成了中介器和數(shù)據(jù)源 的松散耦合結(jié)構(gòu),使得數(shù)據(jù)源訪問(wèn)更具透明性。 2 ) 在m e d i a t o r 實(shí)現(xiàn)上,系統(tǒng)采用了帶語(yǔ)義的動(dòng)態(tài)服務(wù)發(fā)現(xiàn)機(jī)制實(shí)現(xiàn)l a v 模式, 滿足了w e b 信息集成系統(tǒng)對(duì)數(shù)據(jù)源的動(dòng)態(tài)擴(kuò)展需求;在查詢分解方面提出了一種語(yǔ) 義匹配與選擇算法,它采用語(yǔ)義相似度的計(jì)算,實(shí)現(xiàn)服務(wù)選擇,完成查詢分解。 此外,系統(tǒng)使用基于領(lǐng)域本體構(gòu)建全局和局部視圖的策略,避免領(lǐng)域中概念的語(yǔ) 義沖突。 3 1 設(shè)計(jì)和實(shí)現(xiàn)了集成系統(tǒng)的領(lǐng)域本體、基于領(lǐng)域本體的數(shù)據(jù)源服務(wù)包裝與語(yǔ) 義描述和m e d i a t o r 模塊,包括查詢處理、服務(wù)發(fā)現(xiàn)與選擇策略等模塊。并介紹了主 要的本體結(jié)構(gòu)和查詢分解策略的實(shí)現(xiàn)情況。 關(guān)鍵詞:w e b 信息集成本體w e b 服務(wù)服務(wù)發(fā)現(xiàn)語(yǔ)義匹配 a b s t t a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ew e bi n f o r m a t i o n h o wt oc o n s t r u c tt h ew e b i n f o r m a t i o ni n t e g r a t i o ns y s t e m ( w i i s ) t oo r g a n i z ea n dm a n a g es u c hd i s t r i b u t e dw e b i n f o r m a t i o ne f f e c t i v e l y ,a n dt of i n do u tu s e f u li n f o r m a t i o ne f f i c i e n t l y ,i sb e c o m i n ga c h a l l e n g i n gb u te x c i t i n gr e s e a r c ht o p i c t h i sd i s s e r t a t i o np r e s e n t e dan e ww e bi n f o r m a t i o ni n t e g r a t e ds y s t e m ,b a s e do nt h e o v e r v i e wo fc u r r e n tr e s e a r c ha n di m p l e m e n t a t i o ni n s t a n c e sf o rw i i s t h i sd i s s e r t a t i o n f o c u s e so ns e v e r a lp r o b l e m s ,w h i c ha r e h o wt ob u i l de f f e c t i v ed o m a i no n t o l o g y ,h o wt o w r a pd a t as o u r c e :( s u c ha s :w e bs e r v i c e , s e r v i c ed e s c r i p t i o n ) w e l l ,a n dh o w t oe x p l o r e t h eh i g hp e r f o r m a n c ef o rr e s o l v i n gq u e r yd e c o m p o s i t i o nb a s e do nw e bs e r v i c e s d i s c o v e r y t h em a i nw o r ko f t h i sd i s s e r t a t i o ni sa sf o l l o w s : f i r s t ,a d das e r v i c e sl a y e rb e t w e e nm e d i a t o ra n dw r a p p e r , w h i c hi n c l u d e sa l l t h e v a r i o u sd a t as o n r o gs e r v i c e sw h i c hw r a p p e da sw e bs e r v i c e s t h es e m a n t i cw e b o n t o l o g yl a n g u a g e ( o w l - s ) i su s e dt od e s c r i b et h ed a t as o u r c es e r v i c e s ,w h i c hf o r m s t h el o o s ec o u p l i n ga r c h i t e c t u r eo ft h em e d i a t o ra n dd a t as o u r c ea n dm a k e st h ev i s i tm o r e t r a n s p a r e n t s e c o n d ,o nt h er e a l i z a t i o no ft h em e d i a t o r , t h es y s t e ma d o p t st h el a vm o d e lw i t h as e m a n t i cd y n a m i cs e r v i c ed i s c o v e r i n gm e c h a n i s m i ti se a s i e rt os u p p o r tt h ee x t e n d i n g o ft h ed y n a m i cd a t as o u r c e s ;d e c o m p o s i t i o nm a d ei n q u i r i e si nc o n n e c t i o nw i t ha s e m a n t i cm a t c h i n ga l g o r i t h m - - s e m a n t i cm a t c ha n dc h o i c ea l g o r i t h mu s i n gt h e s e m a n t i cs i m i l a r i t y ,i n q u i r i e so p t i o nt oa c h i e v ec o m p l e t ed e c o m p o s i t i o n f u r t h e r m o r e , b e c a u s eg l o b a lv i e wa n dl o c a lv i e wa r ca l lc o n s t r u c t e db a s e do nd o m a i n b a s e d o n t o l o g y ,t h ec o n f l i c to fs e m a n t i cf i e l db ea v o i d e d t h i r d ,ad o m a i n - b a s e do n t o l o g y ,o n t o l o g y - b a s e dw r a p p i n gs e r v i c ea n ds e m a n t i c d e s c r i p t i o no ft h ed a t as o u r c e sa n dm e d i a t o rm o d u l e s ,i n c l u d i n gq u e r yp r o c e s s i n g , s e r v i c ed i s c o v e r ya n ds e l e c t i o ns t r a t e g ya r ed e s i g n e da n di m p l e m e n t e d t h e nab r i e f i n t r o d u c t i o no nt h em a i ns t r u c t u r eo fo n t o l o g ya n dt h ea c h i e v e m e n to fd e c o m p o s i t i o n a l g o r i t h mi sg i v e nb yt h i sd i s s e r t a t i o n k e y w o r d s :w e b i n f o r m a t i o ni n t e g r a t i o n o n t o l o g y w e bs e r v i c e s e r v i c ed i s c o v e r ys e m a n t i cm a t c h i n g 創(chuàng)新性聲明 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究 成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不 包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果;也不包含為獲得西安電子科技大學(xué)或 其它教育機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做 的任何貢獻(xiàn)均已在論文中做了明確的說(shuō)明并表示了謝意。 申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。 本人簽名:黑蘊(yùn)縫 日期駕伴 關(guān)于論文使用授權(quán)的說(shuō)明 本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生 在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬西安電子科技大學(xué)。本人保證畢業(yè) 離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為西安電子科技大學(xué)。學(xué) 校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜?或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。( 保密的論文在 解密后遵守此規(guī)定) 本學(xué)位論文屬于保密在一年解密后適用本授權(quán)書。 本人簽名: 導(dǎo)師簽名: 日期崮軸犁疽 日期幽社犁且 第一章緒論 第一章緒論 1 1 研究背景 如今網(wǎng)絡(luò)已成為人們進(jìn)行信息傳遞和共享的一種重要工具,i n t e r n e t 上海量的 w c b 信息資源成為了全球最大的知識(shí)倉(cāng)庫(kù),網(wǎng)絡(luò)技術(shù)作為一種新的環(huán)境資源為新技 術(shù)開辟了新的領(lǐng)域w c b 信息集成。w e b 信息集成的目標(biāo)是將不相容的、不同模 式的分布式w e b 信息源的數(shù)據(jù)進(jìn)行有效的集成。用戶可通過(guò)統(tǒng)一的訪問(wèn)模式透明地 對(duì)分布式信息源進(jìn)行訪問(wèn)以完成對(duì)信息搜索,而無(wú)需了解具體的分布式信息源的 信息結(jié)構(gòu)和訪問(wèn)接口。如何構(gòu)建集成的w e b 信息系統(tǒng)來(lái)有效地組織和管理分布于世 界各地的海量數(shù)據(jù),提高信息獲得速度并合理、高效地利用這一巨大的信息資源 已經(jīng)成為信息集成研究領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。 傳統(tǒng)的信息集成數(shù)據(jù)源多集中在異構(gòu)數(shù)據(jù)庫(kù)、異構(gòu)多文檔等方面的集成,其 數(shù)據(jù)源有數(shù)據(jù)模式相對(duì)穩(wěn)定,數(shù)據(jù)源的數(shù)量變化不大的特點(diǎn)。如今,隨著信息源 分布的越來(lái)越廣泛,i n t e m e t 上的各站點(diǎn)信息已經(jīng)成為一種重要的信息源,然而, 當(dāng)前w e b 信息來(lái)源多種多樣,有來(lái)自h t m l 網(wǎng)頁(yè)、電子郵件、電子表格、文本文件 及語(yǔ)音郵件等等,與傳統(tǒng)數(shù)據(jù)源相比這些w e b 數(shù)據(jù)源具有自己獨(dú)特的特點(diǎn):首先, w e b 數(shù)據(jù)源分部廣泛,其數(shù)量成爆炸式增長(zhǎng);其次,數(shù)據(jù)源的建立、運(yùn)行與維護(hù)相 互獨(dú)立;再次,w e b 數(shù)據(jù)源中的數(shù)據(jù)屬于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),每個(gè)數(shù)據(jù)源都 有自己的數(shù)據(jù)模式,各個(gè)數(shù)據(jù)源之間缺乏一個(gè)統(tǒng)一的語(yǔ)義集;最后,w c b 數(shù)據(jù)更新 和變化都非常頻繁。 正是由于w e b 數(shù)據(jù)源所具有以上幾個(gè)特點(diǎn),而且內(nèi)容和表現(xiàn)方式也在動(dòng)態(tài)變 化,結(jié)果使褥w e b 數(shù)據(jù)處于雜亂無(wú)序的狀態(tài),數(shù)據(jù)集成性很差,給建立w c b 數(shù)據(jù)集 成系統(tǒng)帶來(lái)了很多挑戰(zhàn)性的問(wèn)題。現(xiàn)階段,w e b 信息集成引起了眾多研究者的興趣, 進(jìn)行了大量的工作并取得了一定的成果,但是該領(lǐng)域仍然處于初級(jí)階段,有很多 關(guān)鍵的地方存在很多的困難。 1 2 研究?jī)?nèi)容 我們針對(duì)w e b 信息集成所涉及的各個(gè)方面,尤其是其集成的對(duì)象w e b 信息 源服務(wù)的語(yǔ)義描述以及集成中的查詢分解技術(shù)進(jìn)行了有效的研究。構(gòu)建了一個(gè)基 于本體的w e b 信息集成框架,其主要的研究工作有以下幾點(diǎn): 1 ) o n t o l o g y ( 本體) 在w e b 信息集成中的應(yīng)用,領(lǐng)域本體的建立,以及基于領(lǐng)域 本體的w e b 信息集成系統(tǒng)的結(jié)構(gòu)。 勁數(shù)據(jù)源的w e b 服務(wù)封裝,以及基于語(yǔ)義的服務(wù)描述方法。 2基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 3 1 在相應(yīng)的中間層中,在領(lǐng)域本體指導(dǎo)下采用服務(wù)匹配和選擇策略解決查詢 分解等技術(shù)。 采用上述技術(shù)實(shí)現(xiàn)了一個(gè)w e b 信息集成的原型系統(tǒng),并通過(guò)實(shí)驗(yàn)對(duì)上述技 術(shù)進(jìn)行了驗(yàn)證。 1 3 論文結(jié)構(gòu) 全文共分為七章,各章內(nèi)容如下: 第一章簡(jiǎn)要介紹本論文的研究背景、研究目的和意義以及論文的主要工作和 論文的章節(jié)組織。 第二章首先詳細(xì)論述了w e b 信息集成的原理、內(nèi)涵、主要方法、國(guó)內(nèi)外研究現(xiàn) 狀;然后給出了集成相關(guān)的本體技術(shù),涉及本體概念、分類、特點(diǎn)以及本體在信 息集成中的應(yīng)用;最后簡(jiǎn)要說(shuō)明了另一個(gè)和集成相關(guān)的技術(shù):w e b 服務(wù)的相關(guān)內(nèi)容。 第三章提出一個(gè)基于本體和服務(wù)的w c b 信息集成系統(tǒng)框架,并詳細(xì)說(shuō)明了框架 體系結(jié)構(gòu)、結(jié)構(gòu)中的各模塊功能以及系統(tǒng)的設(shè)計(jì)特點(diǎn)最后給出了一個(gè)系統(tǒng)的查詢 處理流程。 第四章主要介紹此w e b 信息集成系統(tǒng)中一個(gè)主要的問(wèn)題領(lǐng)域本體的構(gòu)建 以及相關(guān)的內(nèi)容。包括領(lǐng)域本體構(gòu)建的元語(yǔ)、原則、構(gòu)建方法和步驟以及使用的 描述語(yǔ)言o w l 、語(yǔ)言實(shí)例和構(gòu)建工具p r o t 6 9 6 的介紹。 第五章介紹此w e b 信息集成系統(tǒng)中另一個(gè)主要的問(wèn)題查詢分解問(wèn)題。主要 內(nèi)容有:本系統(tǒng)采用的查詢分解方法的介紹,即帶語(yǔ)義的服務(wù)發(fā)現(xiàn)技術(shù),基于領(lǐng) 域本體的w e b 信息源描述方法的詳細(xì)說(shuō)明,以及如何使用領(lǐng)域本體的語(yǔ)義相似度匹 配實(shí)現(xiàn)服務(wù)發(fā)現(xiàn)和選擇等內(nèi)容。 第六章實(shí)現(xiàn)該w e b 信息集成技術(shù)的原型系統(tǒng),并通過(guò)實(shí)例對(duì)所采用的方法進(jìn)行 說(shuō)明和驗(yàn)證。 第七章總結(jié)與展望。總結(jié)所做的工作,展望未來(lái)的工作和下一步的研究。 第二章相關(guān)研究?jī)?nèi)容及現(xiàn)狀 3 第二章相關(guān)研究?jī)?nèi)容及現(xiàn)狀 2 1w e b 信息集成 2 1 1w e b 信息集成概述 w e b 信息集成就是在w e b 環(huán)境中實(shí)現(xiàn)不同( 在橫向或縱向上存在著差異) 數(shù)據(jù) 源之間的信息交互,并能夠從這些不同的數(shù)據(jù)源中有效獲取信息并加以融合,以 支持對(duì)w e b 上多個(gè)信息源的統(tǒng)一查詢的數(shù)據(jù)庫(kù)技術(shù)。w e b 信息集成為全局應(yīng)用和為 用戶提供統(tǒng)一、透明地訪問(wèn)一組己存在的自治、分布和異構(gòu)數(shù)據(jù)源的方法,集成 的數(shù)據(jù)源包括獨(dú)立站點(diǎn)數(shù)據(jù)、x m l 數(shù)據(jù)集、文本數(shù)據(jù)集等結(jié)構(gòu)化和非結(jié)構(gòu)化信息。 w e b 信息集成需要處理大量的、數(shù)目不定的源。如何在w c b 上各種各樣存在形式的 數(shù)據(jù)源中準(zhǔn)確的選擇合適的數(shù)據(jù)源并從中高效的找到查詢需要的結(jié)果是w c b 信息 集成的主要任務(wù),它已成為數(shù)據(jù)庫(kù)研究中的一個(gè)重要研究領(lǐng)域。 w e b 信息集成技術(shù)應(yīng)用領(lǐng)域非常廣泛,如電子商務(wù),網(wǎng)絡(luò)搜索,企業(yè)應(yīng)用整合 等。隨著互聯(lián)網(wǎng)的發(fā)展和各個(gè)機(jī)構(gòu)信息化的完善,許多合作密切的企業(yè)或組織的 桌面應(yīng)用也會(huì)轉(zhuǎn)變?yōu)閣 c b 整合的應(yīng)用,這也將促使對(duì)w e b 信息集成需求的增長(zhǎng)。 2 1 2w e b 信息集成方法 w e b 信息集成系統(tǒng)具有多層體系結(jié)構(gòu)( 一般包括:用戶接口層,數(shù)據(jù)源層,中 間層) ,根據(jù)中間層的實(shí)現(xiàn)方法不同,信息集成系統(tǒng)可分為物化( m a t e r i a l i z e d ) 集成 和虛擬( v i r t u a l ) 集成兩種1 1 1 。 ( 1 ) 物化集成技術(shù) 物化集成的典型代表是數(shù)據(jù)倉(cāng)庫(kù)方法。該方法將各信息源中的數(shù)據(jù)利用抽取 器全部抽取出來(lái),然后再用包裝器、合成器將抽取的數(shù)據(jù)合成為一個(gè)全局模式, 集中存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,系統(tǒng)針對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)維護(hù)和處理。該方法優(yōu)點(diǎn)是 對(duì)不同類型的數(shù)據(jù)源可以采用統(tǒng)一的管理,管理方式簡(jiǎn)單方便;缺點(diǎn)是數(shù)據(jù)倉(cāng)庫(kù) 不允許更新,只能定期重建,并且存在例如數(shù)據(jù)類型不支持、數(shù)據(jù)結(jié)構(gòu)無(wú)法映射、 轉(zhuǎn)換接口工作量大、系統(tǒng)網(wǎng)絡(luò)傳輸和處理瓶頸等問(wèn)題。只適合于數(shù)據(jù)刷新頻率不 高且集成規(guī)模不大的以決策分析和數(shù)據(jù)挖掘等為主要應(yīng)用的系統(tǒng)中。該類系統(tǒng)的 結(jié)構(gòu)見圖2 1 。 4基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 圖2 ,1 數(shù)據(jù)倉(cāng)庫(kù)方法 ( 2 ) 虛擬集成技術(shù) 在用戶需要獲得及時(shí)的查詢結(jié)果,且數(shù)據(jù)源中的數(shù)據(jù)更新頻繁的情況下,物 化集成技術(shù)將不再是好的選擇。這時(shí)候我們選擇虛擬集成方法。虛擬集成方法又 稱m e d i a t o r w r a p p e r 方法。該類系統(tǒng)的結(jié)構(gòu)見圖2 2 。 圖2 2m e d i a t o r w r a p p e r 力- 法 第二章相關(guān)研究?jī)?nèi)容及現(xiàn)狀5 一般來(lái)說(shuō),在虛擬集成方法構(gòu)建的信息集成系統(tǒng)中主要有中介器( m e d i a t o r ) 和 包裝器( w r a p p e o 兩部分,其中包裝器對(duì)特定數(shù)據(jù)源進(jìn)行封裝,將其數(shù)據(jù)模型轉(zhuǎn)換 為系統(tǒng)所采用的通用模型,作為其輸出模式,并提供一致的物理訪問(wèn)機(jī)制。中介 器不存儲(chǔ)任何數(shù)據(jù),而是采用支持虛擬視圖的方式進(jìn)行數(shù)據(jù)源操作。中介器的核 心是全局查詢處理、分解和優(yōu)化,即如何把用戶的查詢分派成各數(shù)據(jù)源自身能接 受的查詢。中介器有一個(gè)使用通用模型描述的全局模式,它通過(guò)調(diào)用包裝器或其 它中間層來(lái)集成數(shù)據(jù)源中的信息,解決數(shù)據(jù)冗余和不一致性,提供一致協(xié)調(diào)的數(shù) 據(jù)視圖和統(tǒng)一的查詢語(yǔ)言。通過(guò)在中介器和包裝器之間分割處理任務(wù),可以提高 查詢處理的并發(fā)性,減少響應(yīng)時(shí)間。包裝器既可與中間層處于同一位置,也可與 數(shù)據(jù)源處于同一位置,這取決于系統(tǒng)的性能要求、數(shù)據(jù)源的歸屬關(guān)系及其訪問(wèn)控 制權(quán)限。 虛擬集成系統(tǒng)有下列一些特點(diǎn): 1 ) 用戶的查詢提交給中間層。中間層具有一個(gè)其所集成數(shù)據(jù)源的全局視圖, 該視圖叫做中間模式( m e d i a t o rs c h e m a ) ,由一組虛擬的關(guān)系組成,其對(duì)應(yīng)于下屬數(shù) 據(jù)源中的數(shù)據(jù)信息。中間層將用戶的查詢分解成對(duì)多個(gè)數(shù)據(jù)源的查詢,并合并所 有數(shù)據(jù)源提供的結(jié)果,形成最終的查詢結(jié)果返回給用戶。另外,為了進(jìn)行查詢分 解中間層必須包含一組信息源模型,每個(gè)信息源模型描述了該信息源的內(nèi)容、屬 性、內(nèi)容完備性約束、可信度以及查詢處理能力,查詢分解的過(guò)程要以信息源的 上述一系列屬性為根本依據(jù)。 2 ) 中間層不直接與數(shù)據(jù)源進(jìn)行聯(lián)系,它直接i 0 w r a p p e r 發(fā)送查詢請(qǐng)求;w r a p p e r 執(zhí)行收到的查詢,并將結(jié)果返回給中間層。 3 ) 由于采用m e d i a t o r w r a p p e r 結(jié)構(gòu),這種信息集成系統(tǒng)不僅能夠集成結(jié)構(gòu)化 數(shù)據(jù)源如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)等,而且可以集成半結(jié)構(gòu)化數(shù)據(jù)如h t m l , x m l 和無(wú)結(jié)構(gòu)的數(shù)據(jù)如純文本文件等。 虛擬集成技術(shù)有以下優(yōu)點(diǎn): 1 ) 能夠集成不同訪問(wèn)模式的數(shù)據(jù)源。簡(jiǎn)化了不同類型數(shù)據(jù)之間的統(tǒng)一存儲(chǔ), 實(shí)現(xiàn)各種數(shù)據(jù)源的高度自治,便于擴(kuò)展集成系統(tǒng)。 2 ) 可以利用系統(tǒng)中現(xiàn)有的先進(jìn)方法進(jìn)行數(shù)據(jù)處理,優(yōu)化了系統(tǒng)的性能。 3 ) 支持用戶的實(shí)時(shí)訪問(wèn),并可以針對(duì)不同的用戶提供不同的中間模式。 目前,很多的信息集成系統(tǒng)都采用- y m e d i a t o r w r a p p e r 體系結(jié)構(gòu),國(guó)內(nèi)外研究 開發(fā)的基于m e d i a t o r w r a p p e r 的信息集成系統(tǒng)很多,例如:i b m 阿爾馬登研究中心 與s t a n f o r d 大學(xué)共同研究開發(fā)的t s i m m i s 系統(tǒng)”和i n f o m a s t e r 系統(tǒng)“1 ,a t & t 實(shí)驗(yàn)研 究所研制出的i n f o r m a t i o n m a n i f o l d ( i m ) 系統(tǒng)”1 ,南加利福尼亞大學(xué)的c r a i g k n o b l o c k 和s t e v em i n t o n 等人設(shè)計(jì)的s i m s 信息系統(tǒng)腳以及在基于s i m s 的面向互聯(lián)網(wǎng)的w e b 6基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 信息集成系統(tǒng)a d r i a n e m 。國(guó)內(nèi)的有東南大學(xué)研制的v e r s a t i l e 系統(tǒng)以及g a l a 】【v 系統(tǒng) 等。 上述兩種方法各具優(yōu)勢(shì),數(shù)據(jù)倉(cāng)庫(kù)方法將被集成數(shù)據(jù)源的數(shù)據(jù)提取到本地存 儲(chǔ),具有查詢速度快、效率高、實(shí)現(xiàn)簡(jiǎn)單等特點(diǎn),該方法對(duì)于命中的查詢效率要 比虛擬方法更高,但是不適用于動(dòng)態(tài)變化強(qiáng)烈的數(shù)據(jù)源的集成;而虛擬方法更適 應(yīng)于數(shù)據(jù)源數(shù)目多、各局部數(shù)據(jù)源的自治性很高且局部數(shù)據(jù)經(jīng)常變化的w e b 環(huán)境。 由于基于m e d i a t o r w r a p p e r 的虛擬集成技術(shù)可以集成范圍廣泛的數(shù)據(jù)源,且具 有高度模塊化和分布性,實(shí)現(xiàn)靈活、重用性、擴(kuò)展性強(qiáng)等優(yōu)點(diǎn),因此在w c b 信息集 成系統(tǒng)中通常采用虛擬集成技術(shù)。 2 1 3 國(guó)內(nèi)外研究現(xiàn)狀 w e b 信息集成是近些年才興起的一個(gè)研究領(lǐng)域,在此之前,解決異構(gòu)數(shù)據(jù)庫(kù)交 互的信息集成技術(shù)已有2 0 多年的歷史了。自1 9 9 4 年s t a n f o r d 大學(xué)提出集成和共享 i n t e m e t w e b 上分布式信息源m e d i a t o r w r a p p e r 架構(gòu)以來(lái)研究者在分布式信息集 成技術(shù)方面開展了大量研究工作,取得了許多研究成果。國(guó)際上重要的數(shù)據(jù)管理 學(xué)術(shù)會(huì)議如v l d b ,s i g m o d ,i c d e 等都會(huì)經(jīng)常有關(guān)于集成技術(shù)研究的會(huì)議;此 夕b c m m ,m a i m ,w i s e ,w i d m 等知名會(huì)議也特別關(guān)注w e b 信息和數(shù)據(jù)管理的研 究,重要的雜志有a c m 的t k d e 等。國(guó)外已有許多工作組,從事數(shù)據(jù)集成及w e b 信息集成領(lǐng)域的研究。比如u n i v e r s i t y o f w a s h i n g t o n 的a l o nh a l e v y 等人的工作組, s t a n f o r d 的j e f r e yu l i m a n 領(lǐng)導(dǎo)的實(shí)驗(yàn)室;g a s h i s h 和h v e n k y 等人提出虛擬數(shù)據(jù)庫(kù) f v i r t u a ld a t a b a s e ,簡(jiǎn)稱v d 聊技術(shù)等。他們提出了許多好的w e b 信息集成和數(shù)據(jù)集 成方法,為該領(lǐng)域的發(fā)展奠定了一定的基礎(chǔ)。在國(guó)內(nèi),目前已有相當(dāng)一部分人員 從事w e b 數(shù)據(jù)管理,尤其是w e b 信息集成方面的研究:清華大學(xué)的周立柱,復(fù)旦大 學(xué)的施伯樂(lè),中國(guó)人民大學(xué)的孟小蜂等。此外,國(guó)內(nèi)比較重要的會(huì)議:“全國(guó)數(shù) 據(jù)庫(kù)學(xué)術(shù)會(huì)議”,重要的雜志:軟件學(xué)報(bào)、計(jì)算機(jī)學(xué)報(bào)、計(jì)算機(jī)研究與發(fā)展等也 都關(guān)注著w e b 信息集成的發(fā)展。 2 2 本體技術(shù) 2 2 1 本體基本概念 本體是哲學(xué)概念,它是研究存在的本質(zhì)的哲學(xué)問(wèn)題,即研究“世界的本原”。它 所要回答的問(wèn)題是客觀世界的本質(zhì)是什么。本體具有兩個(gè)特性:靜態(tài)性和動(dòng)態(tài)性。 靜態(tài)性指它反映的是概念模型,沒有涉及動(dòng)態(tài)的行為。動(dòng)態(tài)性指它的內(nèi)容和服務(wù) 第二章相關(guān)研究?jī)?nèi)容及現(xiàn)狀 7 對(duì)象是不斷變化的,針對(duì)不同的領(lǐng)域,可以定義和構(gòu)造不同的本體。近幾年來(lái), 這個(gè)詞被應(yīng)用到計(jì)算機(jī)界,并在人工智能、計(jì)算機(jī)語(yǔ)言以及數(shù)據(jù)庫(kù)理論中扮演著 越來(lái)越重要的作用。然而,到目前為止,對(duì)于此概念,還沒有統(tǒng)一的定義和固定 的應(yīng)用領(lǐng)域。在知識(shí)工程領(lǐng)域,對(duì)本體概念的理解先后出現(xiàn)了以下的幾個(gè)代表性 定義。 1 ) n e c h e s 等人在1 9 9 1 年首先指出:“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本 術(shù)語(yǔ)和關(guān)系,以及用于組合術(shù)語(yǔ)和關(guān)系以定義詞匯外延的規(guī)則”【1 0 1 。 2 ) g r u b e r 于1 9 9 3 年指出:“本體是概念化( c o n c e p t u a l i z a t i o n ) 的一個(gè)顯式的( e x p l i c i t ) 規(guī)范說(shuō)明或表示”1 1 1 1 。 3 ) g u a f i n o 和g i a r e t t a 于1 9 9 5 年給出了如下定義,即“本體是概念化的某些方面的一 個(gè)顯式的規(guī)范說(shuō)明或表示”【“l(fā) 。 4 ) b o r s t 于1 9 9 7 年給出了一個(gè)類似的定義“本體可定義為被共享的概念化的一個(gè)形 式的規(guī)范說(shuō)明”【1 5 】。 5 ) w i l l i a m 在1 9 9 9 給出定義:本體是用于描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù) 語(yǔ)。它可以用來(lái)組織知識(shí)庫(kù)較高層次的知識(shí)抽象,也可以用來(lái)描述特定領(lǐng)域的 知測(cè)1 6 1 。 從以上定義我們可以知道,本體通過(guò)對(duì)于概念、術(shù)語(yǔ)及其相互關(guān)系的規(guī)范化 描述,勾畫出某一領(lǐng)域的基本知識(shí)體系和共享概念模型。這包含4 層含義:概念模 型( c o n c e p t u a l i z a t i o n ) ,明確( e x p l i c i 0 ,形式化( f o r m a l ) 和共享( s h a r e ) 。 1 ) 概念模型指通過(guò)抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型。概念模 型所表現(xiàn)的含義獨(dú)立于具體的環(huán)境狀態(tài)。 2 ) 明確指所使用的概念及使用這些概念的約束都有明確的定義。 3 ) 形式化指o n t o l o g y 是計(jì)算機(jī)可讀的( 即能被計(jì)算機(jī)處理) 。 4 ) 共享指o n t o l o g y q h 體現(xiàn)的是共同認(rèn)可的知識(shí),反映的是相關(guān)領(lǐng)域中公認(rèn)的概念 集,i i p o n t o l o g y 針對(duì)的是團(tuán)體而非個(gè)體的共識(shí)。 o n t o l o g y 的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定 該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯( 術(shù)語(yǔ)) 和詞 匯間相互關(guān)系的明確定義。目前,普遍認(rèn)為一個(gè)本體包括以下五種元素【1 8 】:類、 關(guān)系、函數(shù)、公理和實(shí)例。 ( 1 ) 類除了一般意義上的概念外,還可以是任務(wù)、功能、行為、策略、推理過(guò)程等。 本體中的這些類通常構(gòu)成一個(gè)分類層次。 ( 2 ) 關(guān)系表示類之間的關(guān)聯(lián),一般情況下用r :c i x c 2 x g 表示類c l ,q ,g 之 間存在n 元關(guān)系r 。 ( 3 ) 函數(shù)是一種特殊的關(guān)系,其中第n 個(gè)元素相對(duì)于前面1 1 1 個(gè)元素是唯一的。一般 情況下,函數(shù)用f :c l x c 2 x g 1 一c n 表示。 8基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 ( 4 ) 公理表示一些永真式,用于說(shuō)明函數(shù)之間或關(guān)聯(lián)之間存在的關(guān)聯(lián)或約束。 ( 5 ) 實(shí)例是指屬于某個(gè)類的個(gè)體。 2 2 2 本體分類 由于本體的分類方法比較雜。研究本體的機(jī)構(gòu)和組織也很多,目前還沒有能 夠被廣泛接受的分類標(biāo)準(zhǔn),但是根據(jù)本體不同方面的屬性( 如形式化程度、目的和 描述對(duì)象等) ,可以對(duì)本體進(jìn)行初步的分類。 根據(jù)本體的形式化程度不同,可以把本體分為高度非形式化的( h i 曲i y i n f o r m a l ) 、結(jié)構(gòu)非形式化的( s t r u c t u r e d - i n f o r m a l ) 、半形式化的( s e m i f o r m a l ) 和嚴(yán)格形 式化的( r i g o r o u s l yf o r m a l ) 。 按照描述或刻畫建模對(duì)象的詳細(xì)程度可將本體分為參考本體和共享本體,詳 細(xì)程度高的稱作參考本體( r e f e r e n c eo n t o l o g y ) ,詳細(xì)程度低的稱作共享本體( s h a r e o n t o l o g y ) 。 下面介紹一種典型的分類方式:根據(jù)本體對(duì)領(lǐng)域的依賴程度不同可以把本體 細(xì)分為頂級(jí)( t o p - l e v e l ) 、領(lǐng)域( d o m a i n ) 、任務(wù)( t a s k ) 和應(yīng)用( a p p l i c a t i o n ) 本體等4 類。其 中: 1 ) 頂級(jí)本體: 描述的是最普通的概念及概念之間的關(guān)系,如空間、時(shí)間、狀態(tài)、事件、過(guò) 程、行為、部件等等,與具體的應(yīng)用無(wú)關(guān),其他種類的本體都是該類本體的特例。 因此頂級(jí)本體定義的概念可以跨越幾個(gè)領(lǐng)域通用。 2 ) 領(lǐng)域本體: 描述的是特定領(lǐng)域( 如金融、醫(yī)藥、地理等) 中的概念及概念之間的關(guān)系。它針 對(duì)特定的應(yīng)用領(lǐng)域知識(shí)的結(jié)構(gòu)和內(nèi)容,包括各種領(lǐng)域知識(shí)的類型、術(shù)語(yǔ)和概念, 同時(shí)對(duì)領(lǐng)域知識(shí)的結(jié)構(gòu)和內(nèi)容加以約束,形成描述特定領(lǐng)域中具體知識(shí)的基礎(chǔ)。 3 ) 任務(wù)本體: 任務(wù)本體描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系。領(lǐng)域本體和 任務(wù)本體通過(guò)特殊化頂級(jí)本體來(lái)描述一般領(lǐng)域、任務(wù)或活動(dòng)中的概念。 4 ) 應(yīng)用本體: 描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。通常,應(yīng)用本體 是一種概念的混合,這些概念來(lái)自領(lǐng)域本體和頂級(jí)本體,然而,應(yīng)用本體可能包 含特定方法和特定任務(wù)的擴(kuò)展,是領(lǐng)域本體和任務(wù)本體的特殊化。 圖2 3 表示了它們之間的層次關(guān)系: 第二章相關(guān)研究?jī)?nèi)容及現(xiàn)狀 9 頂級(jí)本體 t o p - l e v e lo n t o l o g y 領(lǐng)域本體任務(wù)本體 d o m a i no n t o l o g yt a s ko n t o l o g y 應(yīng)用本體 a p p l i c a t i o no n t o l o g y 圖2 3 本體層次關(guān)系 2 2 3 本體的特點(diǎn) 本體有以下突出的特點(diǎn): ( 1 ) 本體可以在不同的建模方法、范式、語(yǔ)言和軟件工具之間進(jìn)行翻譯和映射, 以實(shí)現(xiàn)不同系統(tǒng)之間的互操作和繼承。 ( 2 ) 從功能上來(lái)講,本體和數(shù)據(jù)庫(kù)有些相似。但是本體比數(shù)據(jù)庫(kù)表達(dá)的知識(shí)豐 富得多。首先,定義本體的語(yǔ)言,在詞法和語(yǔ)義上都比數(shù)據(jù)庫(kù)所能表示的信息豐 富得多;最重要的,本體提供的是一個(gè)領(lǐng)域嚴(yán)謹(jǐn)豐富的理論,而不單單是一個(gè)存 放數(shù)據(jù)的結(jié)構(gòu)。 ( 3 ) 本體是領(lǐng)域內(nèi)重要實(shí)體、屬性、過(guò)程及其相互關(guān)系形式化描述的基礎(chǔ)。這 種形式化的描述可成為軟件系統(tǒng)中可重用和共享的組件。 “) 本體可以為知識(shí)庫(kù)的構(gòu)建提供一個(gè)基本的結(jié)構(gòu)。以描述對(duì)象的類型而言: 有簡(jiǎn)單事實(shí)及抽象概念,這些可以描述成一個(gè)本體的靜態(tài)實(shí)體部分,它們主要描 述的是事物或概念的各個(gè)組成部分以及這些組成部分之間的靜態(tài)聯(lián)系;本體也可 以描述事物或概念的運(yùn)動(dòng)和變化。應(yīng)用本體,知識(shí)庫(kù)就可以運(yùn)用這類結(jié)構(gòu)去表達(dá) 現(xiàn)實(shí)世界中浩如煙海的知識(shí)和常識(shí)。 ( 5 ) 對(duì)于知識(shí)管理系統(tǒng)來(lái)說(shuō),本體就是一個(gè)正式的詞匯表。本體可以將對(duì)象知 識(shí)的概念和相互問(wèn)的關(guān)系進(jìn)行較為精確的定義。在這樣一系列概念的支持下進(jìn)行 知識(shí)搜索、知識(shí)積累、知識(shí)共享的效率將大大提高,真正意義上的知識(shí)重用和知 識(shí)共享也能成為現(xiàn)實(shí)。 ( 6 ) 本體適合表示抽象的描述,而領(lǐng)域模型是人們對(duì)領(lǐng)域內(nèi)概念的抽象描述, 因此在領(lǐng)域邏輯建模中,本體的使用可以幫助我們清楚地理解特定領(lǐng)域的相關(guān)元 素、關(guān)系和概念,讓知識(shí)表達(dá)更加準(zhǔn)確便捷,幫助人們進(jìn)行更好的各種處理。 1 0基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 2 2 4 本體在信息集成中的應(yīng)用 當(dāng)前的計(jì)算機(jī)正在從單一的設(shè)備向進(jìn)行信息交換和事務(wù)處理的世界范圍網(wǎng)絡(luò) 轉(zhuǎn)變。如今,支持?jǐn)?shù)據(jù)、信息和知識(shí)的交換、重用和共享成了當(dāng)今計(jì)算機(jī)技術(shù)要 迫切面臨的任務(wù)。由于本體有以上六大特點(diǎn),所以,目前,o n t o l o g y 成功地運(yùn)用 于知識(shí)工程,知識(shí)表示,知識(shí)標(biāo)準(zhǔn)化,自然語(yǔ)言處理,數(shù)據(jù)庫(kù)設(shè)計(jì),信息檢索與 抽取,智能信息集成和知識(shí)管理,電子商務(wù)等領(lǐng)域。 在信息集成方面,本體常用于將某個(gè)或多個(gè)特定領(lǐng)域的概念和術(shù)語(yǔ)規(guī)范化( 比 如軟件領(lǐng)域,醫(yī)學(xué)領(lǐng)域,機(jī)械工程領(lǐng)域) ,為異構(gòu)數(shù)據(jù)源數(shù)據(jù)集成提供統(tǒng)一的概念 和術(shù)語(yǔ)標(biāo)準(zhǔn),并且本體可以為其在該領(lǐng)域或領(lǐng)域之間的實(shí)際應(yīng)用提供便利。 基于本體的信息集成系統(tǒng)由于能提供查詢和資源描述所必需的語(yǔ)義信息,并 通過(guò)領(lǐng)域本體知識(shí)庫(kù)為信息源提供必要的語(yǔ)義標(biāo)注信息,從而使系統(tǒng)對(duì)領(lǐng)域內(nèi)的 概念、概念之間的聯(lián)系及領(lǐng)域內(nèi)的基本公理知識(shí)有一個(gè)統(tǒng)一的認(rèn)識(shí),減少了因?yàn)?數(shù)據(jù)源采用不同命名造成的語(yǔ)義沖突,進(jìn)一步提高了系統(tǒng)的聯(lián)想能力和精確性, 為用戶提供更有價(jià)值的信息。 2 3 w e b 服務(wù) 2 3 1w e b n 務(wù)簡(jiǎn)介 ( 一) 定義; w e b 服務(wù)是部署在w e b 上的、分布式的、自包含的模塊化軟件組件,它為其他 應(yīng)用程序提供功能,執(zhí)行特定的任務(wù),遵守一系列的技術(shù)規(guī)范,這些規(guī)范使得w e b 服務(wù)可以在網(wǎng)絡(luò)中被描述、發(fā)布、查找和調(diào)用。本質(zhì)上說(shuō),w e b j 務(wù)是一種革命性 的分布式計(jì)算技術(shù)。它使用基于x m l 的消息處理作為基本的數(shù)據(jù)通信標(biāo)準(zhǔn),消除 了不同操作系統(tǒng)、編程語(yǔ)言、應(yīng)用架構(gòu)和不同組件模型之間存在的差異,解決了 異構(gòu)系統(tǒng)相互訪問(wèn)的問(wèn)題,使各系統(tǒng)下的功能能夠成為計(jì)算網(wǎng)絡(luò)的一部分協(xié)同運(yùn) 行。 ( 二) w e b 服務(wù)技術(shù)的優(yōu)點(diǎn): w c b 服務(wù)技術(shù)之所以成為解決當(dāng)今分布式異構(gòu)系統(tǒng)之間的集成及互操作問(wèn)題 的最佳解決方案,是由于這一技術(shù)具有一些傳統(tǒng)技術(shù)所不具備的特點(diǎn)。同時(shí)這一 技術(shù)也有其適用性。 第二章相關(guān)研究?jī)?nèi)容及現(xiàn)狀 ( 1 ) 封裝完好:w e b 服務(wù)是一種部署在w e b 上的對(duì)象,它具備對(duì)象的良好封裝 性。對(duì)于用戶而言,他能且僅能看到該對(duì)象提供的功能信息、訪問(wèn)信息和w e b 服務(wù) 提供的網(wǎng)絡(luò)編程接口。 。 ( 2 ) 松散耦合:w e b 服務(wù)技術(shù)的一個(gè)基本特點(diǎn)就是透明性,即當(dāng)一個(gè)服務(wù)的實(shí) 現(xiàn)內(nèi)容或者實(shí)現(xiàn)方式發(fā)生變化之后,調(diào)用它的用戶不會(huì)發(fā)覺其中的變化,即服務(wù) 的內(nèi)容對(duì)用戶是透明的。松散藕合特性主要由相關(guān)協(xié)議來(lái)保證,x m l s o a p 協(xié)議 正是目前最為適合的消息交換協(xié)議。 ( 3 ) 互操作性:基于接口定義語(yǔ)言和協(xié)作協(xié)議,任倆 w e b 服務(wù)都可以與其它w c b 服務(wù)進(jìn)行交互,真正實(shí)現(xiàn)了平臺(tái)和語(yǔ)言獨(dú)立性。開發(fā)者可以使用任何語(yǔ)言來(lái)編寫 w c b 服務(wù),無(wú)需更改他們的開發(fā)環(huán)境就可生產(chǎn)和使用w c b 服務(wù)。 ( 4 ) 高度的可集成能力:由于w c b 服務(wù)采取簡(jiǎn)單的、易理解的標(biāo)準(zhǔn)w e b 協(xié)議作 為組件界面描述和協(xié)同描述規(guī)范,完全屏蔽了不同軟件平臺(tái)的差異,無(wú)論是 c o r b a ,d c o m 還是e j b 都可以通過(guò)這一種標(biāo)準(zhǔn)的協(xié)議進(jìn)行互操作,實(shí)現(xiàn)了在當(dāng) 前環(huán)境下最高的可集成性。 2 3 2w e b j 臣務(wù)模型 w e b 服務(wù)模型基于三種角色( 服務(wù)提供者、服務(wù)注冊(cè)中心和服務(wù)請(qǐng)求者) 之間 的交互,見圖2 4 。交互具體涉及到發(fā)布、查找和綁定等操作。服務(wù)提供者首先提 供某種功能服務(wù)的實(shí)現(xiàn)模塊,然后定義了詳細(xì)的服務(wù)描述,最后把服務(wù)發(fā)布到服 務(wù)請(qǐng)求者或服務(wù)注冊(cè)中心。服務(wù)請(qǐng)求者使用查找操作從本地或服務(wù)注冊(cè)中心搜索 服務(wù)描述,然后使用服務(wù)描述與服務(wù)提供者進(jìn)行綁定,并調(diào)用相應(yīng)的服務(wù)實(shí)現(xiàn)。 圖2 4w e b 服務(wù)模型 服務(wù)提供者:提供服務(wù),并對(duì)服務(wù)進(jìn)行注冊(cè)以便于服務(wù)的利用。 服務(wù)請(qǐng)求者:向服務(wù)注冊(cè)中心請(qǐng)求服務(wù),并調(diào)用這些服務(wù)以完成具體的任務(wù)。 基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 服務(wù)注冊(cè)中心:這是可搜索的服務(wù)描述注冊(cè)中心,服務(wù)提供者在此發(fā)布他們 的服務(wù)描述。 在靜態(tài)綁定開發(fā)或動(dòng)態(tài)綁定執(zhí)行期間,服務(wù)請(qǐng)求者查找服務(wù)并獲得服務(wù)的綁 定信息( 在服務(wù)描述中) 。對(duì)于靜態(tài)綁定的服務(wù)請(qǐng)求者,服務(wù)注冊(cè)中心是體系結(jié)構(gòu)中 的可選角色,因?yàn)榉?wù)提供者可以把描述直接發(fā)送給服務(wù)請(qǐng)求者。同樣,服務(wù)請(qǐng) 求者可以從服務(wù)注冊(cè)中心以外的其它來(lái)源得到服務(wù)描述。 2 3 3w e b h 毆?jiǎng)?wù)在信息集成中的應(yīng)用 w e b 服務(wù)的設(shè)計(jì)初衷就是為了屏蔽異構(gòu)系統(tǒng)的差別,異構(gòu)的數(shù)據(jù)源可以使用 w c b 服務(wù)對(duì)本數(shù)據(jù)源的數(shù)據(jù)服務(wù)進(jìn)行封裝,并發(fā)布服務(wù)到注冊(cè)中心,供集成系統(tǒng)或 用戶調(diào)用。由于w e b 服務(wù)與生俱來(lái)的完好封裝性、松散耦合性以及規(guī)范的協(xié)議、高 度可集成能力等優(yōu)點(diǎn)非常適合用于信息集成領(lǐng)域。因此,基于w e b 服務(wù)的信息集成 方案已經(jīng)成為構(gòu)建w e b 信息集成系統(tǒng)較為理想的技術(shù)選擇。 2 4 本章小結(jié) 本章一開始給出了w e b 信息集成的定義,詳細(xì)的論述了w e b 信息集成的兩種方 法:物化集成方法和虛擬集成方法,說(shuō)明了虛擬集成方法更適合用于w e b 信息集成, 然后討論了w e b 信息集成的國(guó)內(nèi)外研究現(xiàn)狀。接下來(lái),我們介紹了本體的相關(guān)概念、 分類和特點(diǎn)以及本體在信息集成中的應(yīng)用。在本章最后,我們繪出了w e b 服務(wù)的相 關(guān)介紹,包括w e b 服務(wù)的概念、優(yōu)點(diǎn)、模型以及w e b 服務(wù)在信息集成中的應(yīng)用。在 下一章節(jié)我們將介紹本論文提出的基于本體和服務(wù)的信息集成框架。 第三章基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成系統(tǒng) 第三章基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成系統(tǒng) 3 1 體系結(jié)構(gòu) 由于m e d i a t o r w r a p p c r 的集成方法( 2 1 2 節(jié)已經(jīng)介紹齷! 適應(yīng)于數(shù)據(jù)源數(shù)目多、 各局部數(shù)據(jù)源的自治性很高且局部數(shù)據(jù)經(jīng)常變化的w e b 環(huán)境,因此w c b 信息集成中 主要采用此方法。 本論文提出的信息集成系統(tǒng)在傳統(tǒng)的信息集成方法:m e d i a t o r w r a p p e r 方法上 加以改進(jìn),增加了一個(gè)w e b l t 務(wù)庫(kù)層,包含了所有用w e b 服務(wù)技術(shù)1 2 1 l 封裝的各數(shù)據(jù) 源包裝器的服務(wù),采用語(yǔ)義w e b 服務(wù)本體描述語(yǔ)言( o w l - s ) 對(duì)各數(shù)據(jù)源的抽取服務(wù) 進(jìn)行語(yǔ)義描述,形成了中介器和數(shù)據(jù)源的松散耦合結(jié)構(gòu),使得數(shù)據(jù)源訪問(wèn)更具透 明性,同時(shí)也使系統(tǒng)滿足了擴(kuò)展性、維護(hù)性以及數(shù)據(jù)源數(shù)據(jù)更新的需求。在m e d i a t o r 實(shí)現(xiàn)上,系統(tǒng)采用了帶語(yǔ)義的動(dòng)態(tài)服務(wù)發(fā)現(xiàn)機(jī)制實(shí)現(xiàn)l a v 模式f 矧,使系統(tǒng)非常容 易地支持?jǐn)?shù)據(jù)源的動(dòng)態(tài)擴(kuò)展。此外,本系統(tǒng)使用基于領(lǐng)域本體構(gòu)建全局和局部視 圖的策略,避免了領(lǐng)域中概念的語(yǔ)義沖突。 系統(tǒng)包含領(lǐng)域本體、用戶查詢接口、中介器、w e b l t 務(wù)庫(kù)和包裝器,其中中介 器包含查詢處理、服務(wù)發(fā)現(xiàn)與選擇、服務(wù)調(diào)用、結(jié)果處理等功能;w c b 服務(wù)庫(kù),包 括w e b 服務(wù)注冊(cè)和服務(wù)調(diào)用等功能;包裝器包含數(shù)據(jù)源包裝器生成、w e b 服務(wù)生成 等功能模塊。體系結(jié)構(gòu)如圖3 1 所示。 3 1 1 領(lǐng)域本體 領(lǐng)域本體包含所有數(shù)據(jù)源的通用語(yǔ)義模型。該語(yǔ)義模型規(guī)定了待集成各數(shù)據(jù) 源的數(shù)據(jù)對(duì)象的模式和數(shù)據(jù)的語(yǔ)義,從用戶查詢處理、全局?jǐn)?shù)據(jù)視圖的定義、各 數(shù)據(jù)源局部數(shù)據(jù)視圖的定義、數(shù)據(jù)源描述的生成到基于領(lǐng)域知識(shí)的信息檢索與匹 配,可以說(shuō)本集成系統(tǒng)的各個(gè)環(huán)節(jié)都要以領(lǐng)域本體為指導(dǎo)。 1 4基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 圖3 1 系統(tǒng)結(jié)構(gòu)圖 3 1 2 用戶查詢接口 用戶查詢接口負(fù)責(zé)所有的用戶查詢的預(yù)處理。用戶查詢接口分析其收到的查 詢,依據(jù)領(lǐng)域本體信息分析查詢條件,對(duì)用戶的查詢信息進(jìn)行標(biāo)準(zhǔn)化和過(guò)濾,保 留應(yīng)用于查找的條件和約束信息,剔除與領(lǐng)域內(nèi)容無(wú)關(guān)的查詢條件,使形成新的 用戶查詢描述。然后把處理過(guò)的查詢描述轉(zhuǎn)換成語(yǔ)義表示的查詢條件。用戶查詢 接口還接收中介器返回的查詢結(jié)果,或直接提交用戶,或做轉(zhuǎn)換處理( 比如使用 x s l t 把結(jié)果x m l 文件轉(zhuǎn)換為其他所需格式) 后提交給用戶。 第三章基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成系統(tǒng) 3 1 3 中介器 圖3 2 中介器結(jié)構(gòu)圖 中介器是本系統(tǒng)的核心,中介器包含查詢處理、服務(wù)發(fā)現(xiàn)與選擇、服務(wù)調(diào)用、 結(jié)果處理等模塊,中介器結(jié)構(gòu)圖見圖3 2 ,其中查詢處理模塊根據(jù)領(lǐng)域本體框架信 息,分析用戶查詢接口發(fā)來(lái)的查詢條件包含的概念及其依賴關(guān)系,得到相關(guān)本體 的屬性信息;服務(wù)發(fā)現(xiàn)與選擇模塊把w e b 服務(wù)庫(kù)中的所有w e b j 艮務(wù)提供的語(yǔ)義信息 與查詢處理模塊得到的語(yǔ)義條件進(jìn)行語(yǔ)義匹配( 匹配的語(yǔ)義包括服務(wù)的輸入條件和 輸出信息的語(yǔ)義模型1 ,根據(jù)語(yǔ)義匹配算法得出匹配結(jié)果集,再?gòu)恼Z(yǔ)義匹配結(jié)果集 中按匹配度的高低進(jìn)行排序,然后使用某種選擇策略選擇合適的服務(wù);服務(wù)調(diào)用 模塊根據(jù)選取的各個(gè)服務(wù)所需的查詢輸入要求進(jìn)行查詢重寫即把用戶的查詢條件 傳遞給服務(wù)的輸入條件,并通過(guò)服務(wù)綁定進(jìn)行服務(wù)調(diào)用,完成所需信息的抽取工 作。由于一個(gè)查詢可能涉及到多個(gè)w e b 數(shù)據(jù)源,各個(gè)數(shù)據(jù)源之間的模式都不盡相同, 所以抽取的結(jié)果也可能有多種模式的x m l 3 檔,因此,中介器還需要結(jié)果處理模 塊對(duì)這些結(jié)果集數(shù)據(jù)文檔進(jìn)行處理,生成一個(gè)完整的查詢結(jié)果。 3 1 4w e b y j 艮務(wù)庫(kù) w e b 服務(wù)庫(kù)包含有所有已注冊(cè)的服務(wù)的詳細(xì)信息,它向上提供庫(kù)中已有的數(shù)據(jù) 源數(shù)據(jù)抽取服務(wù),向下封裝數(shù)據(jù)源的包裝器。一個(gè)w e b j 艮務(wù)對(duì)應(yīng)一個(gè)數(shù)據(jù)源包裝器, 負(fù)責(zé)調(diào)用包裝器抽取數(shù)據(jù)源上的某一類信息。注冊(cè)時(shí),w c b 服務(wù)使用帶語(yǔ)義的描述 1 6 基于本體和服務(wù)發(fā)現(xiàn)的w e b 信息集成研究 語(yǔ)言詳細(xì)說(shuō)明了被封裝的數(shù)據(jù)源提供信息時(shí)的必要輸入條件和其他限制信息,以 及該數(shù)據(jù)源提供數(shù)據(jù)的模式,最后提供了如何訪問(wèn)該服務(wù)的方法。 3 1 5 包裝器 包裝器是根據(jù)一定的需求規(guī)則從特定的半結(jié)構(gòu)的或無(wú)結(jié)構(gòu)的數(shù)據(jù)源抽取數(shù)據(jù) 并形成結(jié)構(gòu)化數(shù)據(jù)的模塊。它接收從中介器發(fā)來(lái)的查詢條件,進(jìn)行查詢分析,采 用特定的抽取方法【矧從數(shù)據(jù)源中按照所需結(jié)果的數(shù)據(jù)模式抽取合適的數(shù)據(jù)并返回 給中間器。在抽取過(guò)程中,還要結(jié)合領(lǐng)域本體對(duì)抽取詞匯進(jìn)行修正,避免數(shù)據(jù)命 名沖突。 為了方便數(shù)據(jù)源的動(dòng)態(tài)加入和修改,系統(tǒng)采用包裝器的w e b 服務(wù)封裝技術(shù)1 2 4 l 使系統(tǒng)具有完好封裝、規(guī)范協(xié)議、高度可集成能力等特性。每個(gè)w e b 服務(wù)向外提供 服務(wù)描述、查詢的輸入接口和輸出數(shù)據(jù)的模式并把它發(fā)布到中介器的服務(wù)注冊(cè)中 供中介器選用。 3 2 設(shè)計(jì)特點(diǎn) 系統(tǒng)采用w e b 服務(wù)技術(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論