（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf

上傳人：灰*** IP屬地：寧夏上傳時(shí)間：2020-01-10 格式：PDF 頁數(shù)：56 大?。?.75MB 積分：0 舉報(bào) 版權(quán)申訴

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf_第2頁

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf_第3頁

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf_第4頁

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf_第5頁

已閱讀5頁，還剩51頁未讀，繼續(xù)免費(fèi)閱讀

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf.pdf 免費(fèi)下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

摘要隨著互聯(lián)網(wǎng)上信息量的迅猛增加，語言學(xué)工作者研究的不斷深入，如何在紛繁復(fù)雜的文獻(xiàn)材料中，快速、準(zhǔn)確地找到用戶需要的信息，文本分類起著非常重要的作用。而其中，基于語義的文本分類逐漸成為主流，語義關(guān)系的最佳載體一本體，成為了學(xué)術(shù)界關(guān)注的焦點(diǎn)。本體就是對概念和關(guān)系的描述，基于本體的文本分類就是基于知識層面和語義層次上的分類。本文在論述語言學(xué)領(lǐng)域本體庫建立并應(yīng)用于文本分類意義的基礎(chǔ)上，通過細(xì) 致分析語言學(xué)內(nèi)部詞語之間的語義關(guān)系，構(gòu)建了語言學(xué)文獻(xiàn)的領(lǐng)域本體。提出了基于本體語義關(guān)系進(jìn)行匹配的語言學(xué)文獻(xiàn)分類方法。首先，利用已有的分詞系統(tǒng)對文獻(xiàn)進(jìn)行分詞處理和關(guān)鍵詞抽取，采用經(jīng)過一定改進(jìn)的t f i d f 算法，對文獻(xiàn)關(guān)鍵詞進(jìn)行特征選擇，確定待分類文本的特征項(xiàng)。然后將這些特征項(xiàng)與領(lǐng)域本體庫中存儲的領(lǐng)域特征項(xiàng)進(jìn)行匹配，從而得到文本的類別。本文介紹了兩種分類算法，一種是基于概念語義的匹配，一種是非一致性模糊匹配。無論采取哪種算法，都可以在一定程度上彌補(bǔ)當(dāng)前分類系統(tǒng)缺乏語義聯(lián)系的不足，提高文本分類的準(zhǔn)確性。關(guān)鍵詞文本分類本體領(lǐng)域本體語言學(xué)文獻(xiàn) 匹配 a b s t r a c t a b s t r a c t w i t ht h e r a p i di n c r e a s e o fi n t e r n e ti n f o r m a t i o na n dt h el i n g u i s t s l u c u b r a t i n g ，t e x t c l a s s i f i c a t i o np l a y sa ni m p o r t a n tr o l ei nh o ww ec a ns c a na n du s et h er e q u i r e di n f o r m a t i o n c o n c e r n i n gl i n g u i s t i c sl i t e r a t u r ep r o m p t l y b u ta m o n g ，t h ed o c u m e n tc a t e g o r i z a t i o nb a s e do n s e m a n t e m e g r a d u a l l yb e c o m e s t h em a i n s t r e a m ，t h es e m a n t i cr e l a t i o n sb e s tc a r r i e r o n t o l o g y , b e c o m ea t t e n t i o nf o c u si nt h ea c a d e m i c o n t o l o g yi s ad e s c r i p t i o nb e t w e e nt h e c o n c e p t i o na n dt h er e l a t i o n t h ed o c u m e n t c a t e g o r i z a t i o nb a s e do no n t o l o g yi sb a s e du p o nt h el e v e lo fk n o w l e d g ea n ds e m a n t i cr e l a t i o n s c a t e g o r i z a t i o ni n d e e d t h i sp a p e rw h i c hi sb a s e du p o nt h ed i s c u s s i o no fl i n g u i s t i c sd o c u m e n t f e a t u r e d a t a b a s ee s t a b l i s h m e n ta n dt h ea p p l i c a t i o no nt e x tc l a s s i f i c a t i o ns t r u c t u r e st h e l i n g u i s t i c sd o c u m e n tf e a t u r e d a t a b a s eb ya n a l y s i n gt h ei n t e m a lr e l a t i o n so fl i n g u i s t i c sw o r d s s e m a n t i ce a r n e s t l y , a n dp r o p o s e sl i n g u i s t i c sd o c u m e n tc l a s s i f i c a t i o nm e t h o dw h i c hi sb a s e d u p o ns e m a n t i cr e l a t i o n sm a t c h f i r s t l y , u s et h ep a r t i c i p l es y s t e mt oc h o o s et h ek e yw o r dw i t h t h ed o c u m e n t u s et h et f i d fa l g o r i t h mi nf e a t u r ee x t r a c t i o nw i t ht h ek e yw o r d st oa n a l y s e f e a t u r ei t e m t h e nt h ef e a t u r ei t e mm a t c h e sw i t ht h ef e a t u r e - d a t a b a s e ，t h u so b t a i n st h e d o c u m e n t sc a t e g o r y t h i sp a p e rd e s i g n st w ok i n d so fc a t e g o r i z a t i o nm e t h o d s o n ei sb a s e d o nt h ec o n c e p ts e m a n t i c sm a t c ha n dt h eo t h e ri su n i f o r m i t yf u z z ym a t c h n om a t t e rw h a t a l g o r i t h mi ss e l e c t e d ，i tc a nm a k eu pi n s u f f i c i e n to fc u r r e n tc a t e g o r i z a t i o nd e f i c i e n ts e m a n t i c r e l a t i o nt os o m ee x t e n t e n h a n c et h ed o c u m e n tc l a s s i f i c a t i o na c c u r a c y k e yw o r d s ：d o c u m e n tc a t e g o r i z a t i o n ；o n t o l o g y ；d o m a i no n t o l o g y ； l i n g u i s t i c sd o c u m e n t ；m a t c h i n g l i 河北大學(xué) 學(xué)位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的學(xué)位論文，是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知，除了文中特別加以標(biāo)注和致謝的地方外，論文中不包含其他人已經(jīng)發(fā)表或撰寫的研究成果，也不包含為獲得河北大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書所使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示了致謝。作者簽名：窆延婊日期：2 卑年月l 日學(xué)位論文使用授權(quán)聲明本人完全了解河北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，即：學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閱和借閱。學(xué)?？梢怨?論文的全部或部分內(nèi)容，可以采用影印、縮印或其他復(fù)制手段保存論文。本學(xué)位論文屬于 l 、保密口，在年月日解密后適用本授權(quán)聲明。 2 、不保密口。 ( 請?jiān)谝陨舷鄳?yīng)方格內(nèi)打“妒) 作者簽名：導(dǎo)師簽名：日期：叢丑年j 月上日日期：遵年月j l 日第1 章引言 1 1 研究背景及意義第1 章引言在網(wǎng)絡(luò)逐漸普及，并進(jìn)一步成為人們主要信息查詢手段的今天，很多信息查詢不確切的問題經(jīng)常困擾我們。當(dāng)用戶進(jìn)行信息查詢時(shí)，與要求不大相關(guān)的信息會大量涌現(xiàn)，如何在紛繁復(fù)雜的信息中找到自己想要的內(nèi)容，成為信息獲取首先需要解決的問題。為了能獲得更多有價(jià)值的信息，提高對信息組織、整理的效率，必須對文本進(jìn)行自動分類。信息檢索和文本分類是兩個(gè)相輔相成的過程。只有把握好“分類”這一關(guān)鍵環(huán)節(jié)，對信息的利用才能達(dá)到更滿意的效果。文本自動分類( a u t o m a t i cd o c u m e n tc a t e g o r i z a t i o n ) 【1 】就是利用計(jì)算機(jī)對文本集( 或其他實(shí)體對象) 按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行類別劃分。自動分類技術(shù)是有效運(yùn)用信息的基礎(chǔ)，是代替繁雜的傳統(tǒng)人工分類方法的有效手段和必然趨勢。利用先進(jìn)的計(jì)算機(jī) 技術(shù)和人工智能技術(shù)進(jìn)行文本分類，不僅方便快捷，容易實(shí)現(xiàn)，節(jié)省大量的人力、物力，而且還可以進(jìn)行更深層次的信息挖掘處理，提高信息的利用效率和深度。文本自動分類對提高信息搜索的效率和質(zhì)量具有重要意義：首先，使信息的分類和運(yùn)用更加方便快捷。自動對文本進(jìn)行分類可以為使用者在網(wǎng) 絡(luò)上進(jìn)行信息檢索提供方便。i n t e r n e t 上的信息資源對于用戶來說常常是雜亂且不相關(guān) 的，用戶很難從網(wǎng)絡(luò)中直接找到所需要的信息資源。為了滿足廣大用戶在信息海洋中方便快捷地獲取有價(jià)值信息的愿望，這就需要研究有效的文本分類方法，對巨大的網(wǎng)絡(luò)信息資源進(jìn)行分類。只有這樣，才能提高用戶搜索和運(yùn)用i n t e m e t 信息資源的速度和質(zhì)量。其次，可以盡可能減少人力浪費(fèi)和人為誤差的產(chǎn)生。采用自動分類方法可以節(jié)省大量人力，而且自動分類的效率是人工分類效率的百倍甚至千倍【2 1 。由于計(jì)算機(jī)運(yùn)算速度快，因此，使用計(jì)算機(jī)自動對文本進(jìn)行分類的速度和效率是人工分類所不能及的；而且計(jì)算機(jī)的計(jì)算精度高，減少了人為錯(cuò)誤產(chǎn)生的可能性。目前，對文本分類方法的運(yùn)用和研究已經(jīng)成為重要課題，對于文本分類方法的研究已經(jīng)有很多，但其中還有不少問題值得進(jìn)一步探討。例如文本分類系統(tǒng)如何從信息資料中自動學(xué)習(xí)、獲取相關(guān)知識：如何在文本分類過程中避免機(jī)械的字串匹配，實(shí)現(xiàn)接近人腦智能性的語義分類等。針對這些問題所展開的研究，對于提高文本分類的性能，進(jìn)而 1 河北大學(xué)文學(xué)碩士學(xué)位論文改善人類信息獲取的效率，推動社會進(jìn)步，具有重要的理論意義和現(xiàn)實(shí)意義。本文立足于語言學(xué)文獻(xiàn)開展研究，主要原因有二： 1 語言學(xué)既是一門基礎(chǔ)學(xué)科，同時(shí)又涵蓋許多邊緣學(xué)科，范圍之廣是其他任何學(xué) 科所不能及的。語言學(xué)是研究人類語言以及所有人類語言背后規(guī)則的科學(xué)，按研究目的和范圍的不同可以分為普通語言學(xué)、個(gè)別語言學(xué)、歷史語言學(xué)、描寫語言學(xué)等。內(nèi)部又可以分為語音學(xué)、語義學(xué)、詞匯學(xué)、語法學(xué)、修辭學(xué)、方言學(xué)等類別。隨著科學(xué)的發(fā)展，語言學(xué)不再作為一個(gè)獨(dú)立的學(xué)科存在，而是同哲學(xué)、歷史學(xué)、人類學(xué)、心理學(xué)、邏輯學(xué)、文學(xué)等密切相關(guān)，同數(shù)學(xué)、聲學(xué)、數(shù)理邏輯、電子學(xué)等也建立了緊密的聯(lián)系。語言學(xué)知識不僅對認(rèn)識語言的本質(zhì)、特點(diǎn)和發(fā)展規(guī)律，指導(dǎo)語言教學(xué)，確定語言規(guī)范，研究翻譯理論來說是必要的，而且對了解人類社會發(fā)展和民族形成的歷史，進(jìn)行機(jī)器翻譯，治療語言障礙的疾病也是有一定幫助的。隨著語言學(xué)逐漸成為一個(gè)熱門的學(xué)科，對語言學(xué)的研究也逐漸加深。語言學(xué)與其他領(lǐng)域交叉產(chǎn)生了一些新興學(xué)科，其中包括社會語言學(xué)、心理語言學(xué)、認(rèn)知語言學(xué)、應(yīng)用語言學(xué)等多個(gè)領(lǐng)域。同時(shí)也產(chǎn)生了很多具有語義關(guān)聯(lián)的新概念，例如，用戶在查找有關(guān) “歷時(shí)語言學(xué) 的文獻(xiàn)資料時(shí)，基于關(guān)鍵詞的文本分類方法只能分析出包含這個(gè)詞語的文本資料，但是，從語言學(xué)專業(yè)角度來講，“演化語言學(xué) 和“歷時(shí)語言學(xué)”是同一個(gè) 概念的兩種不同的說法。這時(shí)，只有分清楚兩詞語在語義上的同義關(guān)系，才能在檢索出有關(guān)“歷時(shí)語言學(xué) 文章的同時(shí)，也檢索出有關(guān)“演化語言學(xué) 的文章，在很大程度上提高文本分類的查準(zhǔn)率和查全率。因此，研究語言學(xué)文獻(xiàn)的自動分類方法具有重要的理論意義和良好的應(yīng)用前景。 2 由于作者本人知識水平有限，導(dǎo)致研究工作只能局限于這個(gè)領(lǐng)域。但是，真心希望通過作者本人的微薄之力，可以對其他學(xué)科的研究提供些許幫助。 1 2 國內(nèi)外研究現(xiàn)狀及分析 1 初級階段文本分類可以追溯到上世紀(jì)五、六十年代，早期的文本分類主要是基于知識工程 ( k n o w l e d g ee n g i n e e r i n g ) ，通過手工定義一些規(guī)則對文本進(jìn)行的分類。應(yīng)用知識工程 2 第1 蘋引言方法在實(shí)際操作過程中，最大的缺點(diǎn)和不足就是需要專業(yè)人員手工編寫分類規(guī)則來表達(dá) 領(lǐng)域?qū)＜宜鶕碛械闹R，運(yùn)用這些規(guī)則將文檔分到一個(gè)給定的類別體系中【3 1 。這種方法不僅需要有領(lǐng)域?qū)＜业暮献?，而且還需要知識工程師手工編制大量的推理規(guī)則，具有很大的限制性和不確定性，最能代表這種工作方法的是路透社開發(fā)的c o n s t r u e 系統(tǒng)【4 1 。 2 進(jìn)一步發(fā)展 2 0 世紀(jì)9 0 年代以來，隨著網(wǎng)上在線文本的大量涌現(xiàn)和機(jī)器學(xué)習(xí)的興起，大規(guī)模的文本分類和信息檢索再次引起了研究者的興趣。文本分類系統(tǒng)首先通過在預(yù)先分類好的文本集上訓(xùn)練，建立一個(gè)判別規(guī)則或分類器，從而對未知類別的新樣本進(jìn)行自動歸類。它不再需要大量的領(lǐng)域?qū)＜业膮⑴c，算法也獨(dú)立于某個(gè)領(lǐng)域，不再受到領(lǐng)域知識的限制，能適用于任何領(lǐng)域的學(xué)習(xí)，使得它成為目前文本分類的主要方法f 熨。幾種最能代表國外自動分類系統(tǒng)的研究成果如表1 1 所示：表1 1 國外近年來開發(fā)的自動分類系統(tǒng) 序號時(shí)間完成機(jī)構(gòu)完成人員技術(shù)特點(diǎn) 11 9 9 4 年 a t & t 實(shí)驗(yàn)室d a v i d d l e w i s 等基于非確定性的自動分類技術(shù) w i l l i a mw c o h e n 21 9 9 6 年 a t & t 實(shí)驗(yàn)室電子郵件的自動分類 1 r 31 9 9 7 焦德國d o r t m u n d 大學(xué)計(jì)算機(jī)系 t o r s t e nj o a c h i m s 等基于向量空間模型的自動分類基于很少語料詞匯的層次自動 4 1 9 9 7 年美國s t a n f o r d 大學(xué)計(jì)算機(jī)系 d a p h n ek o l l e r 等分類 51 9 9 8 年 y i m i n gy a n g 等自動分類美國c a r n e g i em e l l o n 大學(xué)計(jì)算采用決策樹等聚類算法的在線機(jī)系 a n d r e wm c c a l l u m 運(yùn)用信息熵理論、b a y e s 理論等 6 1 9 9 9 年美國j u s tr e s e a r c h 公司等實(shí)現(xiàn)多類號的自動分類美國m a s s a c h u s e t t s 大學(xué)計(jì)算 7 1 9 9 9 年j a m i ec a l l a n 等針對文本庫的自動分類系統(tǒng) 機(jī)系為推廣電子商務(wù)研制基于文本 81 9 9 9 年美國i b m 和o r a c l e 公司內(nèi)容的電子郵件自動分類為其瀏覽器開發(fā)基于內(nèi)容屬 9 1 9 9 9 年 m i c r o s o r 公司性分類的插件國內(nèi)的自動分類研究工作始于8 0 年代，經(jīng)過2 0 多年的發(fā)展，已經(jīng)有了一些比較有代表性的輔助歸類和自動歸類系統(tǒng)。國內(nèi)比較典型的自動分類系統(tǒng)如表1 2 所示【5 1 ：河北大學(xué)文學(xué)碩士學(xué)位論文表1 2 國內(nèi)近年來開發(fā)的自動分類系統(tǒng) 完成時(shí) 序號完成機(jī)構(gòu)完成人員主要技術(shù)特點(diǎn) 間根據(jù)原有的類別主題詞表和 1 1 9 8 6 年上海交通大學(xué)計(jì)算機(jī)系朱蘭娟，王永成 b a y e s 最小損失原則確定分類主題詞與類號關(guān)系表，確定權(quán)重 2 1 9 9 5 在南京大學(xué)蘇新寧等系數(shù)，分類前控詞典，停用詞表目前，對中文文本自動分類而言，主要有三方面的因素影響其分類效果： 1 雖然國外的英文文本分類方法已經(jīng)日漸成熟，很多英文文本分類的方法可以借鑒到中文文本分類系統(tǒng)中來，但是，語言方面畢竟存在很大的差異，不能完全照抄照搬。而且隨著中文語義，詞匯等方面的不斷發(fā)展，更需要我們開發(fā)適用于當(dāng)前漢語發(fā)展的中文文本分類系統(tǒng)。國內(nèi)外對文本分類的研究大都是圍繞對詞的統(tǒng)計(jì)分析展開的，但是相對于英文來說，中文文本中詞語的正確切分是一個(gè)很大的難題，分詞的正確與否成為影響分類效果的重要因素之一； 2 另一個(gè)影響分類系統(tǒng)正確率的重要因素是詞匯差異( v o c a b u l a r yg a p ) ，許多文本分類系統(tǒng)采用抽取關(guān)鍵詞或類別詞的方法對文本進(jìn)行分類。這樣的系統(tǒng)通常都是基于一種假設(shè)：類別描述詞表與文本之間共享這些詞語，我們可以稱這種相關(guān)性匹配為基于表層的匹配( s u r f a c e b a s e dm a t c h i n g ) 【6 1 。由于幾乎不受限制的自由文本用詞和受控的類別詞表之間存在很大的差異，這種基于表層的匹配不可避免地存在著難以達(dá)到更高分類正確率的問題。 3 文本分類的知識和策略也是影響分類效果的一個(gè)重要因素1 1 。 1 3 本文組織本文在傳統(tǒng)文本分類技術(shù)的基礎(chǔ)上，運(yùn)用本體論的思想，研究語言學(xué)文獻(xiàn)的自動分類方法。主要包括三個(gè)部分的研究內(nèi)容： 1 確定語言學(xué)文獻(xiàn)自動分類的領(lǐng)域，對語言學(xué)文獻(xiàn)進(jìn)行預(yù)處理； - 4 - 第1 章引言 2 用本體論的思想建立語言學(xué)文獻(xiàn)的領(lǐng)域本體； 3 將語言學(xué)文獻(xiàn)的領(lǐng)域本體應(yīng)用到對語言學(xué)文獻(xiàn)的分類過程中，力求取得更好的分類效果。本文共分五章，文章結(jié)構(gòu)及各章主要內(nèi)容如下：第l 章：引言。介紹文本分類的研究背景和研究意義；分析國內(nèi)外文本自動分類的研究現(xiàn)狀；給出本文的研究工作；最后，介紹本文的組織結(jié)構(gòu)。第2 章：本體論的觀點(diǎn)。詳細(xì)介紹本體的淵源和定義；分析建立本體依據(jù)的原則以及本體的組成成分和本體的分類。對本體的概念做出一個(gè)全面立體的介紹。第3 章：構(gòu)建語言學(xué)文獻(xiàn)領(lǐng)域本體所使用的關(guān)鍵技術(shù)。首先，采用向量空間模型 ( v s m ) 的方法表示文本；其次，利用詞或短語之間的概念關(guān)聯(lián)，運(yùn)用經(jīng)過一定改進(jìn) 的t f i d f 算法提取文本特征；最后，介紹了詞語之間的幾種語義關(guān)系。第4 章：語言學(xué)文獻(xiàn)領(lǐng)域本體的構(gòu)建。首先確定建立領(lǐng)域本體的范疇和目的；其次，對語言學(xué)的相關(guān)概念進(jìn)行處理，確定領(lǐng)域本體的特征項(xiàng)，并采用p r o t 6 9 6 工具建構(gòu)語言學(xué)領(lǐng)域本體；并對語言學(xué)領(lǐng)域本體進(jìn)行形式化編碼；最后，語言學(xué)領(lǐng)域本體還要隨著社會的發(fā)展不斷改進(jìn)和充實(shí)。第5 章：基于本體的語言學(xué)文獻(xiàn)分類過程。首先介紹基于本體的文本分類流程；然后，對語言學(xué)文獻(xiàn)進(jìn)行預(yù)處理，得到待分類文本的特征項(xiàng)；接下來依賴語言學(xué)領(lǐng)域本體對語言學(xué)文獻(xiàn)進(jìn)行文本分類，這里使用了基于概念語義和非一致性模糊匹配兩種算法，通過評估得出結(jié)論：基于本體的文本分類結(jié)果準(zhǔn)確率高于其他分類方法。由此證實(shí)基于本體的文本分類方法切實(shí)可行。第6 章：結(jié)論和展望。對本文提出的內(nèi)容進(jìn)行總結(jié)，并提出下一步的工作和目標(biāo)。河北大學(xué)文學(xué)碩士學(xué)位論文第2 章本體介紹本章首先從理論上介紹本體的淵源、定義、組成、建構(gòu)本體所依據(jù)的原則、當(dāng)前最流行的本體的分類方法和本體的應(yīng)用。 2 1 本體的淵源本體( o n t o l o g y ) 原本是一個(gè)哲學(xué)概念。1 7 世紀(jì)初，西方哲學(xué)家提出“本體”這個(gè) 概念，用于避免“形而上學(xué)( m e t a p h y s i c s ) ”中的一些二義性問題；1 8 世紀(jì)初，本體已被哲學(xué)界廣泛采用。它指的是探究天地萬物產(chǎn)生、存在、發(fā)展變化的根本原因和根本依據(jù)的學(xué)說【7 1 。近年來，關(guān)于本體的研究、開發(fā)和應(yīng)用越來越多。2 0 世紀(jì)9 0 年代初期以來，國際計(jì)算機(jī)界舉行了多次關(guān)于本體的專題研討會。并取得一個(gè)共識，把現(xiàn)實(shí)世界中某個(gè)應(yīng)用領(lǐng)域抽象或概括成一組概念及概念間的關(guān)系，構(gòu)造出一個(gè)領(lǐng)域的本體，可以使計(jì)算機(jī)對該領(lǐng)域的信息處理更為方便，人們在運(yùn)用這些成果時(shí)也更為準(zhǔn)確和快捷。本體正逐步成為知識獲取以及自然語言處理研究的一個(gè)核心內(nèi)容。 2 2 本體的定義關(guān)于本體的定義，哲學(xué)界和計(jì)算機(jī)界有著很大的差別。在哲學(xué)界，本體是表達(dá)哲學(xué) 理論的術(shù)語，是指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說，是物質(zhì)存在的一個(gè)系統(tǒng)的解釋，這個(gè)解釋不依賴于任何特定的語言。而在計(jì)算機(jī)領(lǐng)域，本體則被解釋為一種表達(dá)形式。它將領(lǐng)域的知識概念化，并可以表達(dá)成計(jì)算機(jī)能夠理解的形式。雖然本體論( 或稱實(shí)體論) 這個(gè)概念在計(jì)算機(jī)科學(xué)中變得越來越重要，然而，到目前為止，在計(jì)算機(jī)界卻很難為本體論下一個(gè)確切的定義。斯坦福大學(xué)的g r u b e r 給出的定義得到許多同行的認(rèn)可，即本體論是對概念化的精確描述。本體論的最終目標(biāo)是精確地表示那些隱含( 或不明確的) 信息，使得它們可以為計(jì)算機(jī) 領(lǐng)域的發(fā)展服務(wù)。第2 章本體介紹 2 3 本體的組成本體研究的是客觀事物存在的本質(zhì)，一個(gè)本體就是某個(gè)領(lǐng)域或一個(gè)領(lǐng)域的某個(gè)方面的客觀存在的本質(zhì)。我們可以通過客觀存在的概念來認(rèn)識其本質(zhì)。首先，客觀事物存在于與其相關(guān)聯(lián)的其他事物之間、存在于自身的變化之間；其次，具體的事物與它們之間的關(guān)聯(lián)一起構(gòu)成具體的存在，對具體的存在進(jìn)行概括產(chǎn)生抽象的存在；最后，這些客觀事物及其之間的關(guān)聯(lián)形成事物的一個(gè)概念關(guān)系。本體的組成從形式上說，可以由概念類、關(guān)系、函數(shù)、公理和實(shí)例( 屬性) 5 種元素組成【8 】。 1 概念。這里所說的概念是廣義的概念，它通?？梢詷?gòu)成一個(gè)分類層次。概念是客觀事物在人腦中的反映，是對事物進(jìn)行概括的表征。這樣的事物可以是抽象的，也可以是具體的。例如，在語言學(xué)文獻(xiàn)中，“人稱代詞就是一個(gè)概念，而其中包含的“你” “我”“他( 它) ”則是這個(gè)概念的實(shí)例化； 2 關(guān)系。關(guān)系表示概念之間的一類關(guān)聯(lián)，反映了多個(gè)概念之間的內(nèi)在聯(lián)系，例如：同義關(guān)系是表示兩個(gè)或兩個(gè)以上概念之間等同的關(guān)系，近義關(guān)系則是表示兩個(gè)或兩個(gè)以上概念之間相近的關(guān)系； 3 函數(shù)。函數(shù)也是一種特殊的關(guān)系，可以用來定義或者計(jì)算概念與概念之間、概念與實(shí)例之間、實(shí)例自身之間的關(guān)系； 4 公理。公理用來表示一些永真式，即永遠(yuǎn)不變的關(guān)系或者概念； 5 實(shí)例。實(shí)例是指屬于某概念類的基本元素，即某概念類所指的具體實(shí)體，特定領(lǐng)域的所有實(shí)例構(gòu)成領(lǐng)域概念類在該領(lǐng)域內(nèi)的指稱域。 2 4 建立本體依據(jù)的原則從前面的章節(jié)中可以看出，這里所說的本體是人為設(shè)計(jì)的關(guān)于某個(gè)領(lǐng)域的概念模型的一種表示。g r u b e r 曾經(jīng)給出了5 條設(shè)計(jì)本體的基本原則 9 1 。 1 明確性、客觀性和完整性：本體應(yīng)該用自然語言對所定義的術(shù)語給出明確的、客觀的語義定義，即必須有效地說明所定義術(shù)語的意思。而且，當(dāng)定義可以用邏輯公理表達(dá)時(shí)，它應(yīng)該用邏輯公理表示，即形式化表達(dá)。同時(shí)，所給出的定義必須是完整的，河北大學(xué)文學(xué)碩士學(xué)位論文能夠完全表達(dá)所描述術(shù)語的含義。g r u b e r 提出，在可能的條件下，完整的定義( 即，同時(shí)由必要條件和充分條件表示的謂詞) 要比一個(gè)部分定義( 即，僅用必要條件或充分條件定義的謂詞) 要好。 2 一致性：一個(gè)本體應(yīng)該是前后一致的，也就是說，由它推斷出來的概念定義應(yīng) 該與本體中的概念定義一致。由術(shù)語得到的推論與術(shù)語本身的含義是相容的。至少，所定義的公理以及用自然語言進(jìn)行說明的文檔應(yīng)該是一致的。 3 可擴(kuò)展性：一個(gè)本體提供一個(gè)可共享的詞匯，它應(yīng)該盡可能提供概念的基礎(chǔ)，同時(shí)，它的表示應(yīng)該便于人們對這個(gè)本體概念進(jìn)行擴(kuò)展和進(jìn)化。 4 編碼誤差盡可能?。罕倔w應(yīng)該處于知識的層次，而與特定的符號及編碼無關(guān)。本體的編碼誤差應(yīng)該控制在盡可能小的范圍內(nèi)。 5 最小本體承諾：一個(gè)本體應(yīng)該在提供必須的共享知識的條件下，要求有最小的本體承諾。也就是說，它應(yīng)該對所模擬的事物產(chǎn)生盡可能少的推斷，而讓共享者自由地按照他們的需要去運(yùn)用這個(gè)本體，使之專門化、實(shí)例化。除了g m b e r 以外，許多研究者根據(jù)自己的實(shí)踐，進(jìn)一步提出了其他本體設(shè)計(jì)原則，如，j a r p i r e z 等人提出，本體設(shè)計(jì)應(yīng)該遵循以下3 條設(shè)計(jì)原則： 1 盡可能使用標(biāo)準(zhǔn)術(shù)語； 2 同層次概念之間保持最小的語義距離； 3 可以使用多種概念層次，采用多重繼承機(jī)制來增加表達(dá)能力。但是，目前還不存在公認(rèn)的本體設(shè)計(jì)原則和評價(jià)標(biāo)準(zhǔn)以及質(zhì)量保證標(biāo)準(zhǔn)，所有這些本體設(shè)計(jì)都是十分籠統(tǒng)和抽象的，因此，這些原則需要我們在實(shí)踐中根據(jù)客觀情況的不同，在不一致的原則中間進(jìn)行權(quán)衡，靈活掌握。這也正是我們進(jìn)行更加深入研究的理由之一。 2 5 本體的分類目前關(guān)于本體的研究日益廣泛，尤其是國外。不同的研究機(jī)構(gòu)都建立了各具特色的本體。針對各種不同的本體，也出現(xiàn)了不同的分類方法，主要有以下三種分類方法： 1 根據(jù)本體的應(yīng)用主題分類根據(jù)應(yīng)用主題的不同，本體可以分為以下5 類【1o 】： r 第2 章本體介紹 ( 1 ) 領(lǐng)域本體：領(lǐng)域本體在一個(gè)特定的領(lǐng)域內(nèi)可以得到廣泛的應(yīng)用，它提供的是該領(lǐng)域特定的概念定義和概念之間的關(guān)系，提供該領(lǐng)域發(fā)生的活動以及主要理論和基本原理等。對特定領(lǐng)域的本體研究和開發(fā)目前已經(jīng)涉及許多領(lǐng)域，包括企業(yè)本體、醫(yī)學(xué)概念本體、酶催化生物學(xué)本體、陶瓷材料機(jī)械屬性本體。 ( 2 ) 知識表示本體：研究重點(diǎn)是語言對知識的表達(dá)能力。典型的有斯坦福大學(xué)知識系統(tǒng)實(shí)驗(yàn)室提供的一種稱為知識交換格式( k i f , k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知識描述語言，以及可以在線將各種知識轉(zhuǎn)換為k i f 的本體服務(wù)器o n t o l i n g u a 。目前普遍認(rèn)為，所有其他的知識表示形式都可以轉(zhuǎn)換為k i f 的形式。 ( 3 ) 通用和常識本體：關(guān)注于常識知識的使用。中國科學(xué)院數(shù)學(xué)所承擔(dān)的國家自然科學(xué)基金重點(diǎn)項(xiàng)目“常識知識的實(shí)用研究”中開發(fā)的結(jié)合a g e n t 和本體的知識庫p a n g u 也屬于通用知識本體的研究范疇。 ( 4 ) 任務(wù)本體：也稱為方法本體，是本體研究的另一個(gè)分支，主要研究可共享的問題求解方法，這里的推理方法與領(lǐng)域無關(guān)，任務(wù)本體主要涉及動態(tài)知識，而不是靜態(tài) 知識。具體的研究主題包括：通用任務(wù)、與任務(wù)相關(guān)的體系結(jié)構(gòu)、任務(wù)方法結(jié)構(gòu)、推理結(jié)構(gòu)和任務(wù)結(jié)構(gòu)等。 ( 5 ) 語言學(xué)本體：是指關(guān)于語言、詞匯等的本體。典型的實(shí)例有g(shù) u m ( g e n e r a l i z e d u p p e rm o d e l ) 并i ：l 普林斯頓大學(xué)研制的w o r d n e t 。 2 根據(jù)本體表示的形式化程度分類根據(jù)表示的形式化程度不同，本體可以分為以下4 類【l l 】： ( 1 ) 完全非形式化：完全采用自然語言表示，結(jié)構(gòu)非常松散，典型的有術(shù)語列表。 ( 2 ) 結(jié)構(gòu)非形式化：采用受限的或結(jié)構(gòu)化的自然語言進(jìn)行表示，能有效提高本體的清晰度，減少二義性。如，e m e r p r i s eo n t o l o g y 的文本版本。 ( 3 ) 半形式化：采用一種人工定義的形式化語言進(jìn)行表示，目前已有許多研究機(jī) 構(gòu)開發(fā)指定了這類形式化本體表示語言，采用o n t o l i n g u a 描述的本體都屬于這一類。 ( 4 ) 完全形式化：所有術(shù)語都具有形式化的語義，并能在某種程度上證明包括一致性和完整性方面的屬性。 3 根據(jù)研究的層次分類本體的研究和開發(fā)工作是在不同的層次上進(jìn)行的。根據(jù)本體的研究層次，可分為【l 2 j ：河北大學(xué)文學(xué)碩士學(xué)位論文 ( 1 ) 頂層本體：主要研究非常通用的概念，如空間、時(shí)間、事務(wù)、對象、事件、行為等，他們完全獨(dú)立于特定的問題或領(lǐng)域。因此可以說頂層本體是在一個(gè)很大范圍內(nèi) 的知識層次。 ( 2 ) 領(lǐng)域本體：研究與一個(gè)特定領(lǐng)域相關(guān)的術(shù)語或關(guān)系。 ( 3 ) 任務(wù)本體：定義通用任務(wù)或推理活動。任務(wù)本體和領(lǐng)域本體處于同一個(gè)研究和開發(fā)層次。它們都可以應(yīng)用頂層本體中定義的詞匯來描述自己的詞匯。 ( 4 ) 應(yīng)用本體：描述特定的應(yīng)用，它既可以應(yīng)用特定的領(lǐng)域本體中的概念，又可以引用出現(xiàn)在任務(wù)本體中的概念。 2 6 本體的應(yīng)用本體構(gòu)建的目的就是應(yīng)用。這方面的研究遍布于文本分類、人工智能、信息管理、知識管理相關(guān)的各個(gè)領(lǐng)域，典型的應(yīng)用有： 1 基于語義的文本分類和信息檢索，特別是網(wǎng)絡(luò)搜索引擎和數(shù)字化圖書館。在信息檢索領(lǐng)域和數(shù)字化圖書館中，加入本體的思想，可以在檢索過程中更加準(zhǔn)確的對文本進(jìn)行定義和分類，快速找到相關(guān)的信息。例如，在信息檢索過程中，輸入檢索詞語“第一語言教學(xué)”，加入本體論的思想后，有關(guān)“母語教學(xué)”的文章也會出現(xiàn)在檢索結(jié)果中，可以在很大程度上提高網(wǎng)絡(luò)信息的利用率。 2 基于本體的數(shù)據(jù)集成、機(jī)器學(xué)習(xí)等。數(shù)據(jù)集成和機(jī)器學(xué)習(xí)需要了解某個(gè)領(lǐng)域的全部知識，本體思想的引入，可以對數(shù)據(jù)集成和機(jī)器學(xué)習(xí)提供一定的便利。 3 領(lǐng)域本體的應(yīng)用。在各個(gè)不同的領(lǐng)域建立不同的本體，這樣就可以有針對性分析事件，提高研究的效率。 4 語義w e b 服務(wù)。語義w e b 是w e b 未來的發(fā)展趨勢，本體技術(shù)提供了語義w e b 描述詞匯的精確定義，為真正實(shí)現(xiàn)w e b 信息的語義表示奠定了基礎(chǔ)。 5 在線元數(shù)據(jù)管理和自動信息發(fā)布。在線元數(shù)據(jù)管理和自動信息發(fā)布是一個(gè)實(shí)時(shí) 的信息處理過程，有了本體的參與，可以使準(zhǔn)確率得到進(jìn)一步提高。 2 7 本章小結(jié) 本章主要介紹了有關(guān)本體的理論知識，了解了本體的概念來源于哲學(xué)，隨著科學(xué)的 1 0 第2 章本體介紹發(fā)展正在被廣泛應(yīng)用于科學(xué)研究的各個(gè)領(lǐng)域；介紹了研究者對本體概念的不同理解，目前比較認(rèn)同的觀點(diǎn)是本體論是對概念化的精確描述；本體的組成包括概念類、關(guān)系、函數(shù)、公理和實(shí)例5 種元素；還分析了建立本體必須依據(jù)的原則，即明確性、客觀性、完整性、一致性、可擴(kuò)展性、編碼誤差盡可能小、最小本體承諾等，為下一章中語言學(xué)領(lǐng) 域本體的建構(gòu)奠定了理論基礎(chǔ)。另外還介紹了在三種不同的分類標(biāo)準(zhǔn)下對本體的分類情況；最后簡單地說明了本體的應(yīng)用情況，使我們對本體的概念產(chǎn)生了一個(gè)全面立體的認(rèn) 識。河北大學(xué)文學(xué)碩士學(xué)位論文第3 章構(gòu)造領(lǐng)域本體所使用的關(guān)鍵技術(shù) 基于本體的文本分類能否j i 頃, n 實(shí)現(xiàn)，主要取決于領(lǐng)域本體的構(gòu)建。而領(lǐng)域本體構(gòu) 建是否成功，又是由其中若干個(gè)關(guān)鍵技術(shù)的選擇和運(yùn)用所決定的。主要包括：文本表示、特征項(xiàng)粒度選擇、特征提取和語義推理。 3 1 文本表示計(jì)算機(jī)不能識別人類的語言，所以需要文本表示的過程，把人類的自然語言變成計(jì) 算機(jī)可以看懂的符號。目前，在信息處理過程中，文本的表示大多數(shù)采用向量空間模型 ( v e c t o rs p a c em o d e l ，v s m ) 的方式【h 】。本文采用向量空間模型的方式來表示文本：給定一個(gè)自然語言文檔d ，在選定了特征項(xiàng)以后，用d = o l ，w l ；s 2 ，w 2 ；如，) 來表示文檔d ，其中墨= ( f _ 1 ，) 為特征項(xiàng)， w 為s i 的權(quán)重，規(guī)定墨= ( f _ 1 ，) 互不相同。把向量d ( w 1 w 2 ，h ) 叫做文檔d 的向量表示或者向量空間模型，文本用向量d 來表示。接下來，要對文本進(jìn)行分詞處理。中文分詞一般采用最大匹配法 1 4 】。最大匹配法是機(jī)械分詞方法的一種，按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配，如果能夠在詞典中找到某個(gè)字符串，則匹配成功，識別出這個(gè)詞語。按照由左到右的方向匹配的方法叫做正向最大匹配法，由右到左的方向進(jìn)行匹配的方法叫做逆向最大匹配法。雙向最大匹配法( 正向最大匹配法和逆向最大匹配法的結(jié)合) 速度快、詞表開放、格式簡單容易擴(kuò)充。對分詞結(jié)果進(jìn)行詞性標(biāo)注，這個(gè)過程中還要完成對文本的去虛詞處理，建立一個(gè)有序的虛詞詞表是前提。對從分詞結(jié)果中提取到虛詞采用二分查找來判斷這個(gè)詞是否在虛詞詞表中，如果在則丟棄；如果不在則保留。第3 章構(gòu)造領(lǐng)域本體所使用的關(guān)鍵技術(shù) 3 2 特征項(xiàng)粒度選擇使用向量空間模型方法表示文本，并對文本分詞和詞性標(biāo)注以后，下面就要對文本進(jìn)行特征抽取。采用什么標(biāo)準(zhǔn)抽取特征項(xiàng)，對領(lǐng)域特征項(xiàng)的確定具有很大的影響。一般的特征項(xiàng)的抽取有三種粒度可供選擇：一個(gè)是字，一個(gè)是詞或短語，一個(gè)是概念特征。 1 字。使用字特征的特征抽取過程最簡單。那是因?yàn)樵趪覙?biāo)準(zhǔn)g b 2 3 1 2 8 0 中定義的常用漢字僅為6 7 6 3 個(gè)，由于這些常用漢字?jǐn)?shù)目比較少，所以抽取過程所需的時(shí) 間和空間的開支都不會很大，效率也比較高。但是，就字本身而言，對文本表示的功能性很差，根本無法獨(dú)立完成對文本特征的表示，更不能準(zhǔn)確的表達(dá)文本之間的語義信息，不可取。 2 詞或短語。詞是漢語中能夠準(zhǔn)確表達(dá)語義信息的最小的語言單位。與字相比，在語義表達(dá)方面的優(yōu)勢顯而易見。如果不計(jì)算專業(yè)領(lǐng)域的詞匯，通用的詞和短語有1 0 萬左右，使用詞特征就要面臨復(fù)雜的分詞問題，而同時(shí)，并不是說所有的詞語和短語都適合作為特征項(xiàng)。在詞頻統(tǒng)計(jì)時(shí)，會出現(xiàn)很多頻率很高，但是對文本特征表現(xiàn)力卻很弱的詞語或短語，就不能作為特征項(xiàng)；相反的，也會有很多出現(xiàn)頻率不高，但是卻可以一詞定類的詞或短語，比如“復(fù)元音韻母”，只要出現(xiàn)這個(gè)詞語，幾乎就可以判定文本的特征，從而確定文本的類別。由此可見，使用詞或短語的特征進(jìn)行特征抽取具有很大的不準(zhǔn)確性。 3 概念特征：詞語之間往往都存在同義關(guān)系、從屬關(guān)系、近義關(guān)系等豐富的語言現(xiàn)象。理清這些概念層次之間的關(guān)系，綜合以上詞和短語的優(yōu)點(diǎn)，就可以對文本特征進(jìn) 行很好的抽取，是一種比較科學(xué)的特征抽取方法。綜合比較以上三種特征抽取粒度的優(yōu)劣，本文采用概念特征的標(biāo)準(zhǔn)對文本特征項(xiàng)進(jìn) 行選擇。這樣既可以避免字特征文本表示功能較弱的缺點(diǎn)，又可以在一定程度上彌補(bǔ)單純靠詞或短語表示文本特征的不確定性，從而保證抽取特征項(xiàng)的準(zhǔn)確性和科學(xué)性。 3 3 特征選擇經(jīng)過分詞以后的文本，詞匯量很大，而且用v s m 表示的文本，向量空間的維數(shù)很高，不利于計(jì)算機(jī)處理；另外，每個(gè)詞語對表現(xiàn)文本主題的貢獻(xiàn)程度不二樣，有些詞出洞北大學(xué)文學(xué)碩士學(xué)位論文現(xiàn)頻率很高，但是對確定文本類別沒有太大幫助；有些詞出現(xiàn)頻率雖然不高，但是卻可以一詞定類。這就需要一個(gè)特征選擇的過程。特征選擇的基本思想是：在對文本中的關(guān)鍵詞進(jìn)行選擇之后，計(jì)算每個(gè)詞語的詞頻，并將經(jīng)過學(xué)習(xí)預(yù)設(shè)的重要度作為權(quán)值，對所有的特征按照其權(quán)值的大小排列，通過設(shè)定閾值或限定維數(shù)，可以得到文檔的特征集。由此可見，特征選擇是建立在詞頻統(tǒng)計(jì)和計(jì) 算權(quán)重的基礎(chǔ)上的。經(jīng)過詞頻統(tǒng)計(jì)和權(quán)重計(jì)算，就能生成文本類別的核心向量，這些向量中的特征詞可以認(rèn)為是能代表該類文本特征的類別領(lǐng)域詞 1 5 1 。 t f i d f 方法是文本分類過程中特征提取使用最多的方法之一。其中，t f ：t e r m f r e q u e n c y 為頻率因子，表明文檔中出現(xiàn)該特征項(xiàng)的頻度；i d f ：i n v e r s ed o c u m e n t f r e q u e n c y 為特征項(xiàng)倒排文檔頻率，表明特征項(xiàng)在文檔集合中分布情況的量化。一般的特征選擇過程中都是采用這種方法來構(gòu)造詞語權(quán)值評價(jià)函數(shù)，在系統(tǒng)中采用的是由人工分類好的訓(xùn)練語料，讓系統(tǒng)進(jìn)行分析提取。為了保證語言學(xué)文獻(xiàn)中的常用詞( 例如“形式名詞”中的“名詞詞條) 得到選擇，降低i d f 的影響，同時(shí)為了得到一個(gè)單位空間向量，還要對特征向量的各個(gè)參量進(jìn)行歸一化處理。本文采用改進(jìn)的t f i d f 算法對文獻(xiàn)進(jìn)行特征選擇。首先本文以概念特征作為特征選擇的標(biāo)準(zhǔn)，那么給定兩個(gè)詞語，計(jì)算它們之間的語義距離。這里，把語義距離定義為兩個(gè)詞對應(yīng)的屬性或概念在特征庫中的最短距離。如果兩個(gè)詞中有一個(gè)詞的屬性無法在特征庫中找到，或者兩個(gè)詞的屬性分別處于兩個(gè)不同的特征庫，就可以認(rèn)為這兩個(gè)詞之間的語義距離為d 1 6 1 。設(shè)兩個(gè)詞u 、v 之間的語義距離為p ，那么u 、礦之間的相似度可以用公式( 1 ) 來計(jì)算： s c u ，y ，= 孑一p 日一7 。；三三； c ，這里的日和三是兩個(gè)詞之間相似度可能取得的最大值和最小值。在這里，令h = 1 ，三= o 。d 是u 、y 所在的特征庫中兩個(gè)實(shí)例的語義距離可能的最大取值。即如果某個(gè) 特征庫中深度最大的兩個(gè)實(shí)例或?qū)傩缘纳疃确謩e為d l 、皿，那么這個(gè)特征庫的d = 日 + d ，。注意，根據(jù)上面所說，當(dāng)p o o 時(shí)，u 、v 的實(shí)例或?qū)傩员囟ㄊ窃谕惶卣鲙熘校?第3 章構(gòu)造領(lǐng)域本體所使用的關(guān)鍵技術(shù) 因此，關(guān)于d 的定義是合理的。以此類推，就可以得到包含實(shí)例或?qū)傩灾g具有語義關(guān) 系的特征庫。 3 4 語義推理基于本體的分類過程，必須以特征項(xiàng)之間的語義關(guān)系作為基礎(chǔ)，如何確定詞語之間的語義關(guān)系呢? 這里就涉及到一個(gè)概念：語義推理。語義推理就是通過擴(kuò)展詞語之間的語義關(guān)系來確定領(lǐng)域特征項(xiàng)，將所有隱含的信息都顯式地描述出來，以此來構(gòu)建領(lǐng)域本體庫。語義關(guān)系是建構(gòu)本體特征庫過程中，聯(lián)系概念與實(shí)例的中心環(huán)節(jié)，因此作為特征庫中的聯(lián)系各級節(jié)點(diǎn)之間的紐帶而存在。這樣的語義推理完成了對元數(shù)據(jù)概念的語義擴(kuò)展，主要包括： ( 1 ) 同義詞關(guān)系( s y n o n y m ) 擴(kuò)展：同義詞是意思相同或非常相近的兩個(gè)或多個(gè)詞語，它們之間往往可以相互替換。如“聲調(diào)”和“音調(diào) 、“復(fù)元音韻母和“復(fù)合元音韻母”等。 ( 2 ) 上下位關(guān)系( h y p e m y m y h y p o n y m y ) 擴(kuò)展：就是包含與被包含的關(guān)系。下位詞是上位詞的特例，如“聲調(diào)”和“陰平、陽平、上聲、去聲之間的關(guān)系，其中“聲調(diào)”是上位詞，“陰平、陽平、上聲、去聲”是下位詞。在分類過程中，有時(shí)通過概念毛的上下位概念也能分析出潛在的有用信息。 ( 3 ) 相似詞擴(kuò)展：相似的兩個(gè)詞之間具有兄弟關(guān)系，但不是同義詞或者上下位詞，如“陰平”、“陽平、“上聲”、“去聲四個(gè)概念相互之間的關(guān)系。 ( 4 ) 歧義概念的標(biāo)注：自然語言中存在很多一詞多義的現(xiàn)象。為了排除歧義的干擾，我們借助文檔特征進(jìn)行唯一標(biāo)注，這樣就可以達(dá)到消除歧義的效果。這些初始概念經(jīng)過語義分析，可以防止概念的冗余，避免重復(fù)的概念，并且通過領(lǐng) 域?qū)＜业拇_認(rèn)后，可以成為領(lǐng)域特征項(xiàng)，作為本體的核心概念或者實(shí)例，在本體庫建構(gòu) 過程中確定下來，在以后的不斷完善過程中還可以作為新的特征項(xiàng)，源源不斷地?cái)U(kuò)充進(jìn) 來。河北大學(xué)文學(xué)碩士學(xué)位論文 ! il 皇皇詈暑詈皇詈皇皇曼皇曼! 曼! 曼詈鼉曼曼皇苧皇墨置曼! 曼曼! 詈! 詈! ! 曼! ! ! 暑! ! ! 曼! ! ! ! 詈皇! ! ! ! 暑! ! ! ! ! 皇! ! ! 曼! ! 詈皇曼! 暑! ! ! ! 苧曼皇! 詈! ! ! 曼! ! ! ! ! ! ! ! ! 鼉詈! 皇 3 5 本章小結(jié) 本章分析了建構(gòu)領(lǐng)域本體所需的關(guān)鍵技術(shù)，在用向量空間模型對表示文本的前提下，從概念特征出發(fā)對文本進(jìn)行特征選擇。采用經(jīng)過一定改進(jìn)的t d i d f 算法，確定領(lǐng) 域特征項(xiàng)。還應(yīng)該明確概念之間的語義關(guān)系，包括上下位關(guān)系、同義關(guān)系、近義關(guān)系等。只有首先明確構(gòu)造領(lǐng)域本體所需要的關(guān)鍵技術(shù)，才能為領(lǐng)域本體構(gòu)建工作提供技術(shù)支持，有利于研究工作的開展。第4 章語言學(xué)領(lǐng)域本體的構(gòu)造第4 章語言學(xué)領(lǐng)域本體的構(gòu)造 4 1 構(gòu)造領(lǐng)域本體的必備條件 4 1 1 本體形式化描述語言的選擇本體形式化描述語言直接影響本體模型的表達(dá)能力和可擴(kuò)展能力。目前的形式化本體描述語言非常多，主要有r d f 和r d f s 、o i l 、d a m l 、o w l 、k i f 、s h o e 、x o l 、o c m l 、 o n t o l i n g u a 、c y c l 、l o o m 1 7 】。經(jīng)過比較，我們選用了o w l ( f f e bo n t o l o g yl a n g u a g e ) 。 o w l 的優(yōu)點(diǎn)是以w e b 資源為描述對象，具有良好的應(yīng)用前景。另外，o w l 是基于描述邏輯的，所謂描述邏輯( d e s c r i p t i o nl o g i c ，d l ) 是一階謂詞邏輯的可判定子集，能夠提供可判定的推理服務(wù)，并且具有語義特征【1 8 】。這就意味著基于描述邏輯的o w l 的函數(shù)和公理都有相應(yīng)的邏輯描述表示，利用o w l 構(gòu)建的本體庫除了具備良好的表現(xiàn)能力外，還具有強(qiáng)大的推理能力。這對于w e b 資源的邏輯檢測、本體集成、知識整合是非常重要的。 4 1 2 本體開發(fā)工具的選擇( p r o t 6 9 6 + o w lp l u g i n ) 目前國內(nèi)外已經(jīng)有許多成熟的本體開發(fā)平臺軟件可供選擇。經(jīng)過我們對部分常見工具的試用與比較，選擇的是其中的佼佼者p r o t e g e 3 2 1 【1 9 】( 用戶界面截圖如圖4 1 所示) 。p r o t 6 9 6 是由斯坦福大學(xué)醫(yī)學(xué)信息化研究小組開發(fā)的，一個(gè)基于j a v a 環(huán)境、開放式架構(gòu)的開源知識建模工具【2 0 】。其擴(kuò)展的o w l 插件是目前最為強(qiáng)大的o w l 本體構(gòu)建工具。 p r o t 6 酣不僅具有良好的可擴(kuò)展性和簡單靈活的用戶定制界面，還具有如下一些特性： 1 支持圖形化本體編輯模式； 2 支持?jǐn)?shù)據(jù)庫存儲模式； 3 基于o w l 數(shù)據(jù)庫的多人開發(fā)模式和支持邏輯檢測功能等。最新版本的p r o t 6 9 0 還增加了對資源多語言描述的支持。更為重要的是，p r o t 6 9 6 還擁有超過5 0 0 0 0 人的注冊用戶和郵件列表用戶，高效的技術(shù)服務(wù)支持以及豐富的技術(shù) ：j i 鑾蘭圣：墨：蘭磐鎏圣資料和本體資源。這些都極大地方便了我們本體構(gòu)建的學(xué)習(xí)和問題的解決。 mw 1 3 1 h7 * ! m # 。皓目t 悃om 凸蠶蠶西i 薔蟊一6 ”i _ f 】圈4 1p r o t 6 9 6 32 1 用戶界面截圈

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

（語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文）基于本體的語言學(xué)文獻(xiàn)分類研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔