(計(jì)算機(jī)軟件與理論專業(yè)論文)面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn).pdf_第1頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn).pdf_第2頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn).pdf_第3頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn).pdf_第4頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn).pdf_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

面向本體的專業(yè)領(lǐng)域語義詞典及其安現(xiàn)摘娶 摘要 進(jìn)出口木體是實(shí)現(xiàn)進(jìn)出口行業(yè)信息集成、信息共享、智能作業(yè)的重要手段。 本文結(jié)合進(jìn)出口領(lǐng)域的應(yīng)用特點(diǎn),探討了迸出口木體的作用、特點(diǎn)、表達(dá)結(jié)構(gòu)與 構(gòu)建方法,提出一個(gè)支持h s 編碼查詢的解決方案,分析了利用語義網(wǎng)查詢語言 s p a r q l ,實(shí)現(xiàn)基于進(jìn)出口本體的推理查詢機(jī)制和實(shí)現(xiàn)方法,介紹了系統(tǒng)的架構(gòu) 與機(jī)制。 本文使用0 w l m l l 規(guī)范來摘述進(jìn)出口本體,結(jié)合傳統(tǒng)的搜索框架,對語義 網(wǎng)查詢語言s p a r q l 進(jìn)行轉(zhuǎn)化,利用高效的空間向量模型來實(shí)現(xiàn)推琿查詢模型, 最后使用s o a 的思想通過w e bs e r v i c e s 來構(gòu)建整個(gè)系統(tǒng)。 本文對專業(yè)領(lǐng)域本體構(gòu)建技術(shù)及其應(yīng)用進(jìn)行了研究,并取得了以下豐要成 果: 1 結(jié)合進(jìn)出1 2 木體的實(shí)現(xiàn),對相關(guān)的技術(shù)與琿論進(jìn)行了系統(tǒng)的分析,其中包 括木體的定義、描述語言、分類等。這些是本文研究重點(diǎn)專業(yè)領(lǐng)域本體的定 義及查詢實(shí)現(xiàn)的基礎(chǔ)。 2 對進(jìn)出口術(shù)體牛成過程中涉及到的分詞、語義消除歧義等技術(shù)進(jìn)行定制改 善,分詞的準(zhǔn)確率達(dá)到9 2 。其時(shí)問和成本及性能比有了較大的提高。 3 以進(jìn)出口領(lǐng)域權(quán)威的( h s 編碼規(guī)范為基礎(chǔ),確定了進(jìn)出口木體的邏輯 結(jié)構(gòu)。方便進(jìn)出口領(lǐng)域相關(guān)應(yīng)用的開發(fā)。 4 在項(xiàng)目組的研究基礎(chǔ)上,實(shí)現(xiàn)基于本體的進(jìn)出口檢驗(yàn)檢疫h(yuǎn) s 編碼查詢演 ,j :系統(tǒng)。日前能夠查詢h s 編碼規(guī)范的部分章節(jié)。準(zhǔn)確率達(dá)到9 0 ,召回車達(dá)到 9 5 。 關(guān)鍵詞:語義詞典:o n t o l o g y ;小體:h s 編碼;s p a r q l :空問向量模型; w o r d n e t 面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn)a b s 仃a c t a b s t ra c t o n t o l o g yi sp l a y i n gak e yi ni n f o r m a t l o na g g r e g a t i o na n ds h a r i n g ,a n d i n t e l l i g e n tb u s i n e s si nt h ei n d u s t r yo fi m p o r t & e x p o r t i nt h i sw o r k ,a n o n t o l o g ya n di t sf u n c t i o n s ,f e a t u r e s ,r e p r e s e n t a t i o na r ep r e s e n t e dw i t h r e q u i r e m e n t so fi m p o r t e x p o r ta p p li c a t i o n s af o r m a lr e a s o n i n gs o l u t i o n a n dm e c h a n i s ma r ei l l u s t r a t e df o rt h eo n t o l o g y b a s e dr e a s o n e r as e m a n t i c q u e r yl a n g u a g e ,s p a r q l ,i se x p l o r e dt oi m p l e m e n tt h ep r o p o s e dr e a s o n e r t h i st h e s i ss t u d i e st e c h n o l o g yo fg e n e r a t i o no fo n t o l o g ya n di t s a p p l i c a t i o n sa n dm a k e sa c h i e v e m e n t sa sf o l l o w s : 1 m a k eas y s t e m a t i cs t u d yo ft h eb a s i ct h e o r i e so fo n t o l o g yi n c l u d i n g i t sd e f i n i t i o n ,d e s c r i p t i o nl a n g u a g e ,a n dc l a s s i f i c a t i o n 2 m a k ei m p r o v e m e n ti nt h ek e yt e c h n i q u e so fg e n e r a t i o no fo n t o l o g y i n c l u d i n gc h i n e s ew o r d ss e g m e n t a t i o n 3 d e f i n et h el o g i c a ls t r u c t u r eb a s e do nt h ei m p o r t e x p o r tm sc o d e s p e c i f i c a t i o n 4 d e v e l o pad e m os y s t e mb a s e do nt h ew o r ko ft h ep r o j e c tt e a mt o d e m o n s t r a t et h et h e o r yo f t h i st h e s i s k e y w o r d s :s e m a n t i cl e x i c o n ,o n t o l o g y ,h sc o d e ,w o r d n e t 。s p a r q l ,v s m i v 面向本體的專業(yè)領(lǐng)域語義訶典及其安現(xiàn) 第一章錨論 1 1 研究背景 第一章緒論 在制造業(yè)與商業(yè)活動的國際版圖上,我國處于供應(yīng)鏈的起點(diǎn)和終點(diǎn),正在成 為物流、人流和信息流集聚的中心??焖侔l(fā)展的國際貿(mào)易迫切要求信息手段來提 高物流效率和質(zhì)量,進(jìn)出口領(lǐng)域的電子商務(wù)和信息化因此成為信息高速公路的重 要應(yīng)用,對推動產(chǎn)業(yè)發(fā)展和繁榮具有巨大的經(jīng)濟(jì)和社會意義。 電子商務(wù)及電子政務(wù)推動了社會的發(fā)展。網(wǎng)絡(luò)信息數(shù)量也正以指數(shù)級速度快 速增長。2 0 0 6 年5 月1 6 日,國務(wù)院信息化辦公室發(fā)布的 2 0 0 5 年中國互聯(lián)網(wǎng)絡(luò) 信息資源數(shù)量調(diào)查報(bào)告顯示1 2 ”,全國域名數(shù)為2 ,5 9 2 :1 0 個(gè),與2 0 0 4 年同期 相比增長4 0 企業(yè)網(wǎng)站占4 5 2 ,教臺科研占5 1 ,政府網(wǎng)站占4 4 。隨著網(wǎng)站 數(shù)量的劇增,網(wǎng)絡(luò)數(shù)據(jù)量也隨之增大。這就帶來了許多的問題,如這么多的網(wǎng)站 如何共享數(shù)據(jù),如何有效地協(xié)作。特別是在政務(wù)網(wǎng)站,圍家發(fā)布的規(guī)章制度如何 方便簡單的被其他行業(yè)應(yīng)用使用? 語義網(wǎng)及木體的出現(xiàn),有效地解決了這些難題。語義網(wǎng)設(shè)計(jì)的初衷就是要建 設(shè)一個(gè)可供機(jī)器及人琿解的網(wǎng)絡(luò)。本體則是其實(shí)現(xiàn)這一目標(biāo)的基礎(chǔ)。本體可以消 除概念和用詞上的混亂,達(dá)成對事物統(tǒng)一的認(rèn)識,可以作為中間語言在各個(gè)應(yīng)用 系統(tǒng)之問起到翻譯的作用。 小體是“共享概念模型明確的形式化規(guī)范說明”【2 j 。它能夠在某一領(lǐng)域內(nèi), 支持人們和關(guān)聯(lián)系統(tǒng)之問對特定概念或術(shù)語達(dá)成統(tǒng)一的琿解和貢獻(xiàn),解決歧義, 足構(gòu)建語義網(wǎng)的關(guān)鍵。語義網(wǎng)是對w e b 的擴(kuò)展,其信息具有良好的的定義和組 織,便于機(jī)器琿解。在語義網(wǎng)的多層次表示框架中,x m l 層是基礎(chǔ)的語法層, r d f 基于三元組模型實(shí)現(xiàn)了數(shù)據(jù)層,本體層是語義層,邏輯層提供基于本體的 智能扣卿規(guī)則。w 3 c 推薦使用o w l 來描述術(shù)體,并且基于該描述實(shí)現(xiàn)查詢與 拊碑功能。 術(shù)文的應(yīng)用背景是上海市的出入境“電子檢驗(yàn)檢疫”系統(tǒng)。該系統(tǒng)涉及審批 核查、檢驗(yàn)檢疫、業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì)分析、專業(yè)知識更新管坪、統(tǒng)計(jì)查詢和政務(wù)信使 服務(wù)等關(guān)鍵業(yè)務(wù)流程。采用進(jìn)出口本體可以支持上述信息管琿的自動化和智能 化。一方面,通過進(jìn)出口本體可以直接實(shí)現(xiàn)自動檢驗(yàn)檢疫的業(yè)務(wù)分析;另一方面, 基于進(jìn)出口本體所支持的推琿,可以實(shí)現(xiàn)h s 編碼智能查詢,然后再利用h s 編 碼提高快速查驗(yàn)和核放的效率和準(zhǔn)確率。 2 i ;i 兜兒4 7 貝 面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn) 第一章緒論 1 2 本文研究的內(nèi)容 針對進(jìn)出口領(lǐng)域h s 編碼這個(gè)行業(yè)應(yīng)用,有必要構(gòu)建一個(gè)行業(yè)本體。機(jī)器學(xué) 習(xí)、自然語義珂解、數(shù)據(jù)挖掘等技術(shù)的發(fā)展為木體的自動化生成奠定了基礎(chǔ)。在 實(shí)際的應(yīng)用中,如何平衡構(gòu)建的成本和時(shí)間及性能是一個(gè)必須要苗先考慮的問 題。同時(shí),如何和國際通行的語義詞典,如w o r d n e t 有較好的兼容性,方便重 用和后續(xù)的開發(fā)也是本文研究的重點(diǎn)。 目前,大部分本體仍是手工方式構(gòu)趟7 l 【b 1 。手工構(gòu)建本體既費(fèi)時(shí)又費(fèi)力,這 極大地限制了木體的應(yīng)用。本文所提出的進(jìn)出口本體,基于作者所在課題組前期 所研發(fā)的知識庫【1 1 使用本體的描述方法對該知識庫進(jìn)行實(shí)現(xiàn),采用木體所支持 的形式化推琿方法提高該知識庫系統(tǒng)的性能。即在該進(jìn)出口本體的基礎(chǔ)上,利用 語義網(wǎng)的邏輯推琿方法和工具,提高應(yīng)用系統(tǒng)的智能和精度,如智能h s 編碼查 詢、幫助系統(tǒng)等。與已經(jīng)實(shí)現(xiàn)的知識庫系統(tǒng)一樣,本文所研究的進(jìn)出口本體豐 要參考h s 編碼規(guī)范。在進(jìn)出口領(lǐng)域,h s 編碼是通行的困際規(guī)范,具有嚴(yán)密的 邏輯性和科學(xué)性,被一百多個(gè)國家采用,是進(jìn)出口報(bào)關(guān)、報(bào)稅的商品查驗(yàn)基礎(chǔ), 是各國c i 岸執(zhí)法部門執(zhí)法和貿(mào)易統(tǒng)計(jì)的基礎(chǔ)【5 l 。以 h s 編碼規(guī)范為基礎(chǔ)構(gòu)建 行業(yè)木體,具有較強(qiáng)的權(quán)威性和廣泛的應(yīng)用基礎(chǔ)。 o w l 是w 3 c 定義的w e bo n t o l o g y 描述語言。w e b 應(yīng)用的大量出現(xiàn),使得 o w l 成為了本體豐要的描述語言。為了適應(yīng)應(yīng)用的需要,本文采用定義最寬松 o w lf u l l 作為小體的描述語言。佃現(xiàn)有的查詢推琿機(jī)制并不能完整地支持o w l 伽l 的扣卿及查詢,這也使得我們有必要去實(shí)現(xiàn)領(lǐng)域木體的查詢及推珂。 最后,作為一個(gè)實(shí)用的系統(tǒng),效率是一個(gè)必須考慮的問題。如何從算法、架 構(gòu)答多個(gè)層面去進(jìn)行合適的選擇,同樣是本文需要研究的內(nèi)容。 總之,本文通過以進(jìn)出口領(lǐng)域?yàn)槔?,對行業(yè)本體進(jìn)行定義及實(shí)現(xiàn)其推琿查 詢機(jī)制,最后實(shí)現(xiàn)一個(gè)宄整的系統(tǒng),給出一個(gè)本體行業(yè)應(yīng)用的實(shí)例。 1 3 本文結(jié)構(gòu) 本文在h s 編碼規(guī)范的基礎(chǔ)上,結(jié)合進(jìn)出口領(lǐng)域的h s 編碼需要,探討了進(jìn) 出1 2 1 木體的作用與結(jié)構(gòu),分析了利用語義網(wǎng)查詢語言s p a r q l 并探討基于進(jìn)出 口木體的推琿機(jī)制和應(yīng)用框架,提出一個(gè)支持h s 編碼的形式化推琿查詢解決方 案,介紹了系統(tǒng)的架構(gòu)與構(gòu)建方法,并且以h s 編碼查詢?yōu)閼?yīng)用背景,展示了進(jìn) 出口術(shù)體及其推琿的實(shí)現(xiàn)方法和性能改進(jìn)技巧。具體章節(jié)安排如下: 第2 兜兒4 7 貝 面向本體的專業(yè)領(lǐng)域語義p d 典及其實(shí)現(xiàn) 第一節(jié)緒論 程。 第一章緒論整體概括了研究背景及整篇文章的布局。 第二章對語義詞典及本體進(jìn)行了介紹。 第三章對進(jìn)出口領(lǐng)域的木體進(jìn)行了定義并詳細(xì)介紹了進(jìn)出口本體的構(gòu)建過 第四章詳細(xì)介紹了基于進(jìn)出口本體的推琿查詢框架。 第五章介紹了整個(gè)系統(tǒng)的部署情況及實(shí)驗(yàn)的進(jìn)展。 第六章對全文的工作進(jìn)行了回顧并分析了本文的更多應(yīng)用。 第3 貞兒4 7 負(fù) 面向本體的專業(yè)領(lǐng)域語義詞典及其實(shí)現(xiàn) 第二章語義u a 典及本體綜述 第二章語義詞典及本體綜述 本體論是一個(gè)哲學(xué)術(shù)語,從哲學(xué)角度來看,木體論關(guān)注的是“存在”,即世 界的本質(zhì)是什么,世界上存在哪些類別的實(shí)體。哲學(xué)的術(shù)體論是對世界真實(shí)存在 做出的客觀描述。 計(jì)算機(jī)科學(xué)領(lǐng)域的本體論借用了哲學(xué)的定義,主要是用來描述某一領(lǐng)域存在 的概念及其關(guān)系,它和人工智能和信息技術(shù)的發(fā)展密不可分。為了避免重復(fù)構(gòu)建 知識庫的代價(jià),使得系統(tǒng)開發(fā)者在前人的基礎(chǔ)上更加專注特定領(lǐng)域知識的構(gòu)建。 木體論在知識管理領(lǐng)域獲得了重視。其主要原因是本體客觀的描述了某一領(lǐng)域的 知g r ( 概念及其關(guān)系) ,能夠?qū)崿F(xiàn)知識的復(fù)用和共享。這也使得本體在信息檢索、 電孑商務(wù)等領(lǐng)域也日益受到重視。本體這個(gè)概念很早就提出了,佃其表現(xiàn)形式卻 經(jīng)過了多次變化才明確下來。很多文獻(xiàn)把w o r d n e t ,h o w n e t 等語義詞典也稱為本 體。 2 1 語義詞典 傳統(tǒng)的語義詞典,如英語語義詞典w o r d n “7 1 ,漢語概念詞典h o w n e t t 4 ”,中 文概念詞典c c d l 8 】大都采用手工方式進(jìn)行構(gòu)建,需要耗費(fèi)大量的人力和時(shí)間。維 護(hù)成本也很高,詞匯量也無法達(dá)到專業(yè)領(lǐng)域的使用要求。在這些語義資源的基礎(chǔ) 上,針對不同的用途,研究自動或者半自動的語義詞典技術(shù)也成為一個(gè)熱門的研 究方向。c o p e s t a k e 通過對語義詞典進(jìn)行解析牛成分層次的知識庫【2 4 1 ;r d o f f 等 人采用少量的核心詞匯對牛語料文木進(jìn)行處琿構(gòu)建某一領(lǐng)域的語義詞典【2 習(xí); r i c h a r d s o n 等人通過機(jī)讀詞典自動構(gòu)建知識j 車f 2 “。 從影響力永看,w o r d n e t 是語義詞典的典范,中國大陸的中文概念詞典c c d , 臺灣地區(qū)中央研究院研制的中共雙語知識本體詞網(wǎng)1 4 8 】均參照w o r d n e t 的體系構(gòu) 建。中文領(lǐng)域,h o w n e t 是一個(gè)優(yōu)秀的中共雙語語義詞典。研究語義詞典有必要 對w o r d n e t 、h o w n e r 有個(gè)全面的了解。 w o r d n e t 是普林斯頓大學(xué)一組心琿詞匯學(xué)家和語言學(xué)家從1 9 8 5 年開始研制 的在線詞匯參照系統(tǒng)。它是一部基于語言學(xué)原琿的詞典。 w o r d n e t 有近9 5 6 0 0 個(gè)不同的詞,這些詞組成了7 0 1 0 0 個(gè)語義。和其他標(biāo)準(zhǔn) 詞典不同,w o r d n e t 將詞匯分成名詞、動詞、形容詞、副詞、虛詞五類。在實(shí)現(xiàn) 過程中,則將虛詞忽略。與傳統(tǒng)按照詞形排列的詞典不同,w o r d n e t 是按照語義 關(guān)系組織的。該語義關(guān)系描寫了上位( h y p e m y m y ) 下位( h y p o n y m y ) 、同義 第4 貞n4 7 貝 面向本體的專業(yè)領(lǐng)域語義詞典及托變現(xiàn) 第二節(jié)語義p 4 典及本體綜述 ( s y n o n y m y ) 、反義( a n t o n y m ”、部分( m e r o n y m ) 整體( h o l o n y m ) 等詞匯語義關(guān)系。 h o w n e t 有8 1 0 6 2 個(gè)中文詞語,7 6 5 2 6 個(gè)英文詞語,組成了9 5 6 9 0 個(gè)中文義 項(xiàng)數(shù)及9 5 9 3 5 個(gè)英文義項(xiàng)數(shù),共有2 4 0 8 9 個(gè)概念。從語義方面劃分,h o w n c t 包 括了實(shí)體、事件、屬性、屬性值、萬物、時(shí)間、空間、部件8 個(gè)大類h 9 1 。 w o r d n e t 將具有同一詞性、用法相同者組成一個(gè)s y s s c t ( 義項(xiàng)集合) ,所有 的s y s s c t 組成了一個(gè)巨大的網(wǎng)狀結(jié)構(gòu),描述每個(gè)語義類的屬性及其之間的關(guān)系。 與w o r d n e t 相比,h o w n c t 有不同的構(gòu)造思想。h o w n e t 以英語和漢語所表達(dá)的 概念為描述對象,描述概念的屬性及其關(guān)系。w o r d n c t 僅考慮了同義、反義、上 位和下位等關(guān)系。h o w n e t 主要是為了構(gòu)造雙語常識知識庫。h o w n e t 除考察 w o r d n e t 使用到的關(guān)系外,還考察屬性、萬物、部件、整體等關(guān)系。 因?yàn)閔 o w n e t 考察的關(guān)系繁多,比較難建設(shè),所以也造成了詞匯量有限。這 也肩示我們在構(gòu)造語義詞典的時(shí)候,能夠考慮到具體的應(yīng)用,針對應(yīng)用需要的關(guān) 系來定義語義詞典的關(guān)系,在時(shí)間、成本、效果三者之間取得平衡。 2 2 本體的定義 在人工智能界,最早給出本體定義的是n e e h e s 等人,他們將本體( o n t o i o g y ) 定 義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基木術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成 的規(guī)定這些詞匯外延的規(guī)則的定義”?!? 7 】 1 9 9 3 年,g r u b e r 給出了本體的第一個(gè)在信息科學(xué)領(lǐng)域廣泛接受的的定義,即 “本體是概念模型的明確的規(guī)范說明” 2 8 1 后來,b o r s t 在此基礎(chǔ)上給出了木體的另 外一種定義【2 9 】:“木體是共享概念模型的形式化規(guī)花說明”。s t u d e r 等對上述兩個(gè) 定義進(jìn)行了深入的研究,認(rèn)為木體是芡享概念梭型的明確的形式化規(guī)范說明”這 包含4 層含義p 叫:模型( e o n e e p t u a h z a h o n ) 、明確( e x p h o t ) 、形式化( f o r m a l ) 和共享 ( s h a r e ) 。 “概念校型”指通過抽琢出客觀世界中一些現(xiàn)緣的棚滅概念而得到的校碰。 概念模型所表現(xiàn)的含義獨(dú)立于具體的環(huán)境狀態(tài)。 “明確”指所使用的概念及使用這些概念的約束都有明確的定義。“形式化” 指木體是計(jì)算機(jī)可讀的( 叩能被計(jì)算機(jī)處琿) 。 “共享”指本體中體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概 念集,即木體針對的是團(tuán)體而非個(gè)體的共識。木體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識, 捉供對該領(lǐng)域知識的共同琿解,確定該領(lǐng)域內(nèi)焚同認(rèn)可的詞匯,并從不同層次的形 第5 貝j l4 7 貝 面向本體的專業(yè)領(lǐng)域語義詞典及其變現(xiàn)第二章語義詞典及本體綜述 式化模式上給出這些詞匯( 術(shù)語) 和詞匯問相可關(guān)系的明確定義。 2 2 1 本體與語義詞典的關(guān)系 很多文獻(xiàn)將語義詞典w j r d n e t ,h o w n c t 也稱作本體。但本體和語義詞典有所 不同。首先,本體是一個(gè)嚴(yán)格定義的概念,適合于邏輯推琿。它在某個(gè)領(lǐng)域內(nèi)是 公認(rèn)的概念集合,用于描述特定領(lǐng)域的概念模型。語義詞典是與傳統(tǒng)按照字型、 音節(jié)排序的詞典相對應(yīng)的一個(gè)名詞。語義詞典定義比較松散,具有語義功能的詞 典都可以稱為語義詞典。它描述的范圍比本體廣。如英文語義詞典w o r d n e t 和 中英文常識知識庫h o w n c t 都是語義詞典。它們對事物的描述往往不太嚴(yán)格,也 不具有很高的權(quán)威性。本體通過概念、關(guān)系、公琿和實(shí)例等要素來嚴(yán)格刻畫領(lǐng)域 對象。在某領(lǐng)域范圍內(nèi),具有非常高的權(quán)威性。 本體和語義詞典又是不可分開的,本體可以從語義詞典中得到。作者認(rèn)為具 有嚴(yán)格關(guān)系且有領(lǐng)域權(quán)威性的,且支持推琿查詢的語義詞典就是本體。 2 3 本體的分類 g u a n n o 【4 1 通過詳細(xì)程度和領(lǐng)域依賴度兩個(gè)維度對木體進(jìn)行劃分,詳細(xì)程度 高的稱作參考木體,詳細(xì)程度低的稱為共享木體。依照領(lǐng)域依賴程度,木體可分 為通用木體、領(lǐng)域本體、仟務(wù)木體和應(yīng)用木體四類。 項(xiàng)級本體描述的是最普通的概念及概念之間的關(guān)系,如空間、時(shí)問、事件行 為等等,與具體的應(yīng)用無關(guān),其他種類的木體都是該類木體的特例。 領(lǐng)域木體描述的是特定領(lǐng)域( 法律、醫(yī)學(xué)等) 中的概念及概念之間的關(guān)系。 仃務(wù)小體描述的是特定仃務(wù)或行為中的概念及概念之間的關(guān)系。 應(yīng)j 釘本體描述的是依賴于特定領(lǐng)域和仃務(wù)的概念及概念之間的關(guān)系。 本文所研究的進(jìn)出口木體屬于領(lǐng)域小體,是實(shí)現(xiàn)進(jìn)出口行業(yè)信息集成、信息 兆享、智能作業(yè)的重要手段。 2 4 本體的描述語言 本體豐要通過四元組進(jìn)行表示。四元組表示方法的基本思想是【3 2 j :一個(gè)本 體中的四個(gè)辛要元素是概念( c o n c e p t s ) 、關(guān)系( r e l a t i o n s ) 、實(shí)例( m s t a n c e s ) 和 公琿( a x l o m s ) 。其中概念表示某個(gè)領(lǐng)域中一類實(shí)體或事物的集合。關(guān)系籀述 概念和概念的屬性的交百。實(shí)例是概念表示的具體的事物的集合公 筇6 負(fù)j l4 7 兜 面向本體的專業(yè)領(lǐng)域語義塒典及j c 文現(xiàn)第二章語義- d 典及本體綜述 琿是規(guī)則和約束的集合。 o n t o l o g y 描述語言起源于歷史上人工智能領(lǐng)域?qū)χR表示的研究,主要有 以下語言或環(huán)境為代表:c y c l 3 3 1 、o n t o h n g u a 3 ”、l o o m l 3 5 1 等。近年來,w e b 技 術(shù)為全球信息共享提供了便捷手段,以共享為特征的本體論與w e b 技術(shù)結(jié)合是必 然趨勢。在此背景下,基于w e b 標(biāo)準(zhǔn)的本體描述語言正成為木體論研究和應(yīng)用的 熱點(diǎn),如:o i l l 3 6 1 、d a m l w o i l f 3 7 】以及由w 3 c 主持制定的r d f 、r d fs c h e m a 、 o w l f 3 8 】等。 文獻(xiàn)【刪給出了各種木體描述語言的對比,如下表所示: 表1 1 各種本體語言的比較 類別語言表叢力推理復(fù)雜度備注 描述邏輯 a l c 一般較低甲期的邏輯描述 s h i q 強(qiáng)高a l c 上建立的, 強(qiáng)表達(dá)力描述邏 輯 s h o q ( d ) 強(qiáng)高針對 d a m l + o i l 推 理對s h i q 的修 改 面向w e b r d f r d f s 弱撤低包拓建直本體的 基本定義 d a m l + o i l 強(qiáng)高 其推理由s h o q 實(shí)現(xiàn) l 面向w e b w 3 co w l i i r e一般低有效的控制復(fù)雜 標(biāo)準(zhǔn) 度 o w l d l強(qiáng)高在可推理的范曝 內(nèi)提高表達(dá)力 o w l f u 很強(qiáng) 無應(yīng)控制不考慮推理的限 制,提供晟強(qiáng)的 表選力同丁 r d f 在眾多的小體描述語言中,o w l 破廠泛運(yùn)用。 o w l 是2 0 0 2 年正式成為w 3 c 手拄薦的w e bo n t o l o g y 的表示語言。o w l 采 用面向?qū)ο蟮姆绞絹砻枋鲱I(lǐng)域知識。即通過類和屬性來描述對象,并通過公琿 ( a x i o m s ) 來描述這些類和屬性的特征和關(guān)系。 o w l 包括類、屬性、類實(shí)例以及類問的關(guān)系4 種基本元素酋先,o w l 語 言的表述能力豐要體現(xiàn)在對類和特性的描述上,它通過構(gòu)造函數(shù)來構(gòu)造類和特 第7 貝j l4 7 貝 面向本體的專業(yè)領(lǐng)域語義詞典及其變現(xiàn)第二章語義- d 典及本體綜述 性。o w l 繼承了r d f s 中的r d f s :c l a s s 等一系列的構(gòu)造函數(shù),同時(shí)也新增了部 分函數(shù)。其次,為了能夠迸一步描述類和特性的特征和關(guān)系。o w l 定義了公琿, o w l 對類和特性之間的關(guān)系代數(shù)、復(fù)合關(guān)系、劃分關(guān)系、部分到整體的關(guān)系等 進(jìn)行了細(xì)致的定義。并且,對于類、特性及實(shí)例問相似性與不相似性進(jìn)行約束,更 好地支持術(shù)體問的推導(dǎo)和映射,增強(qiáng)本體信息的復(fù)用性 o w l 包括3 個(gè)子語言:o w lf u l l ,o w ld l 和o w ll z t e 。o w lf u l l 包括 所有的o w l 詞匯和r d f s 提供的原語,能夠提供最大程度的知識描述能力,但 是沒有計(jì)算上的保證。它還允許本體增加預(yù)定義詞表的含義。o w lf u l l 可以看 作是r d f 的擴(kuò)展,而o w l l i t e 和o w l d l 可以看作是受控r d f 的擴(kuò)展。o w l f u l l 由于過于復(fù)雜,且還不成熟,因此還在不斷地更新中。o w l d l 提供大部分 o w l 詞匯支持和r d f s 支持,并在語義上等同于描述邏輯,它在保證計(jì)算的完 整性和可判定性的前提下,對本體進(jìn)行描述。o w ll i t e 用于提供分類結(jié)構(gòu)和簡 單約束,是o w ld l 中相對容易實(shí)現(xiàn)部分的子集合,在形式上也沒有o w ld l 那么復(fù)雜。 這3 個(gè)子語言的關(guān)系如下:每個(gè)合法的o w ll i t e 都是一個(gè)合法的o w l d l 本體:每一個(gè)合法的o w ld l 本體都是一個(gè)合法的o w lf u l l 本體;每一個(gè) 有效的o w l l i t e 結(jié)論都是一個(gè)有效的o w l d l 結(jié)論:每一個(gè)有效的o w l d t 結(jié) 論都是一個(gè)有效的o w lf u l l 結(jié)論。反之則不成立例 下圖展示了使用o w l - l t e 語言來描述一個(gè)木體的實(shí)例。其中使用了o w l 提供的s u b c l a s s o f 關(guān)系,確定了h o r s e 及p 喀是a m m a l 的子類。 a a s s _ 1 i vd = ”a a h n o f y n a r = o “c l a s si d f j d = t h 靶 l r d i ss u b c | a s s o fc d fl e , o l f f c o = a r a m a r ? ,) ( o w jc b s s ) o “c l a s sf d ff d = 蕾叼 i d f ss u h e l a s s o ff d ff e s o w c e ;i 稿瑚1 i n a r 2 3 ( o r l :o a t a t ,p e p r o p e r t , 2 4 ( o w l :c l a s sr d f :i d - ”l i u ea n i m a l ,) 2 y ( o w l :c l a s sr d f :i d - ”e m u l e “ 2 6 2 7 ( o w l :c l a s s 2 h ( o u l :c l a s sr d f :i i ”h o r s e “ 29(rdfs:subclassofr d f :r s - r 伊“i i l l u ea n i m a l ”, 3 0 ( o w l :c l a s s y 3 1 0 1 1 i d d g c c o d e 3 3 3 6 r d f s :s u b c l a s s o fr d f :r l e s 0 4 1 忡“u l t v ea n l m a l ”, 3 7 0 ,l j - 腳:o j h 冉薪面葉字符的位置 b ,l i 嶇- i a l - e : t o rl l - n ;i w h e r e ? e l e m e n tt a b l e :n a m e ? n a m e ) 筇一步:如果是第一次查詢u r i “h t t p d e m _ op a v p t en e t d e m o o w l ”,則先 將其讀取并轉(zhuǎn)化為索引,進(jìn)行木地存儲。若該u r i 已查詢過且在失效時(shí)間之前, 則魚接從木地存儲談取。其轉(zhuǎn)化后的邏輯結(jié)構(gòu)為“u r im d 5 值、屬性、屬性值”。 系統(tǒng)對這個(gè)條目中的u r i 、屬性、屬性值進(jìn)行索引并保存。 第二步:將s p a r q l 查詢語句轉(zhuǎn)換成空間向量查詢格式,格式軾換可以通 過正則表達(dá)式或者j a v a c c 編寫轉(zhuǎn)換語法進(jìn)行轉(zhuǎn)換。 s e l e c t7 n a m e 部分轉(zhuǎn)化為釜詢詞 w h e r e 部分轉(zhuǎn)化為查詢條件, 第三步:通過存查詢語句中增加h k e 關(guān)鍵詞,擴(kuò)充s p a r q l 協(xié)議,使之能 利用空問向量模型的優(yōu)勢支持模糊查詢,根據(jù)權(quán)重關(guān)系給出擁關(guān)列表。 4 3 2 相似度定義及計(jì)算 利用已牛成進(jìn)出口木體的屬性關(guān)系,為每個(gè)屬性賦予一個(gè)權(quán)重。如“5 0 公 斤的活豬”,“5 0 公斤”和“活”兩個(gè)屬性的權(quán)重并不相同。這里使用t f i d f 公式 來衡量一個(gè)詞的權(quán)重( 1 7 i 。 2 i ;3 0 吼j l4 7 貝 面向本體的專業(yè)領(lǐng)域語義詞典及其變現(xiàn)第四亭基于進(jìn)h 口本體的推理查問框架 2 i f ( t , ,咿l 。g 而m 其中w 0 表示詞匯t e r mi 在文檔d o c u m e n t j 的權(quán)重。t q t j ,d j ) 表示i 在j 中出 現(xiàn)的頻率。a c t , ) 表示含有詞匯i 的文檔的出現(xiàn)次數(shù)。m 是所有文檔的數(shù)目。 t f i d f 方法使用詞匯的出現(xiàn)頻率來近似代表其重要程度。但這種方式存在問 題,如“公斤”這個(gè)屬性會出現(xiàn)在多個(gè)門類中,所以其出現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論