




已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀
(語言學(xué)及應(yīng)用語言學(xué)專業(yè)論文)基于本體的語言學(xué)文獻(xiàn)分類研究.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
摘要 隨著互聯(lián)網(wǎng)上信息量的迅猛增加,語言學(xué)工作者研究的不斷深入,如何在紛繁復(fù)雜 的文獻(xiàn)材料中,快速、準(zhǔn)確地找到用戶需要的信息,文本分類起著非常重要的作用。而 其中,基于語義的文本分類逐漸成為主流,語義關(guān)系的最佳載體一本體,成為了學(xué)術(shù)界 關(guān)注的焦點(diǎn)。 本體就是對概念和關(guān)系的描述,基于本體的文本分類就是基于知識層面和語義層次 上的分類。本文在論述語言學(xué)領(lǐng)域本體庫建立并應(yīng)用于文本分類意義的基礎(chǔ)上,通過細(xì) 致分析語言學(xué)內(nèi)部詞語之間的語義關(guān)系,構(gòu)建了語言學(xué)文獻(xiàn)的領(lǐng)域本體。提出了基于本 體語義關(guān)系進(jìn)行匹配的語言學(xué)文獻(xiàn)分類方法。首先,利用已有的分詞系統(tǒng)對文獻(xiàn)進(jìn)行分 詞處理和關(guān)鍵詞抽取,采用經(jīng)過一定改進(jìn)的t f i d f 算法,對文獻(xiàn)關(guān)鍵詞進(jìn)行特征選擇, 確定待分類文本的特征項(xiàng)。然后將這些特征項(xiàng)與領(lǐng)域本體庫中存儲的領(lǐng)域特征項(xiàng)進(jìn)行匹 配,從而得到文本的類別。本文介紹了兩種分類算法,一種是基于概念語義的匹配,一 種是非一致性模糊匹配。無論采取哪種算法,都可以在一定程度上彌補(bǔ)當(dāng)前分類系統(tǒng)缺 乏語義聯(lián)系的不足,提高文本分類的準(zhǔn)確性。 關(guān)鍵詞文本分類本體領(lǐng)域本體語言學(xué)文獻(xiàn) 匹配 a b s t r a c t a b s t r a c t w i t ht h e r a p i di n c r e a s e o fi n t e r n e ti n f o r m a t i o na n dt h el i n g u i s t s l u c u b r a t i n g ,t e x t c l a s s i f i c a t i o np l a y sa ni m p o r t a n tr o l ei nh o ww ec a ns c a na n du s et h er e q u i r e di n f o r m a t i o n c o n c e r n i n gl i n g u i s t i c sl i t e r a t u r ep r o m p t l y b u ta m o n g ,t h ed o c u m e n tc a t e g o r i z a t i o nb a s e do n s e m a n t e m e g r a d u a l l yb e c o m e s t h em a i n s t r e a m ,t h es e m a n t i cr e l a t i o n sb e s tc a r r i e r o n t o l o g y , b e c o m ea t t e n t i o nf o c u si nt h ea c a d e m i c o n t o l o g yi s ad e s c r i p t i o nb e t w e e nt h e c o n c e p t i o na n dt h er e l a t i o n t h ed o c u m e n t c a t e g o r i z a t i o nb a s e do no n t o l o g yi sb a s e du p o nt h el e v e lo fk n o w l e d g ea n ds e m a n t i cr e l a t i o n s c a t e g o r i z a t i o ni n d e e d t h i sp a p e rw h i c hi sb a s e du p o nt h ed i s c u s s i o no fl i n g u i s t i c sd o c u m e n t f e a t u r e d a t a b a s ee s t a b l i s h m e n ta n dt h ea p p l i c a t i o no nt e x tc l a s s i f i c a t i o ns t r u c t u r e st h e l i n g u i s t i c sd o c u m e n tf e a t u r e d a t a b a s eb ya n a l y s i n gt h ei n t e m a lr e l a t i o n so fl i n g u i s t i c sw o r d s s e m a n t i ce a r n e s t l y , a n dp r o p o s e sl i n g u i s t i c sd o c u m e n tc l a s s i f i c a t i o nm e t h o dw h i c hi sb a s e d u p o ns e m a n t i cr e l a t i o n sm a t c h f i r s t l y , u s et h ep a r t i c i p l es y s t e mt oc h o o s et h ek e yw o r dw i t h t h ed o c u m e n t u s et h et f i d fa l g o r i t h mi nf e a t u r ee x t r a c t i o nw i t ht h ek e yw o r d st oa n a l y s e f e a t u r ei t e m t h e nt h ef e a t u r ei t e mm a t c h e sw i t ht h ef e a t u r e - d a t a b a s e ,t h u so b t a i n st h e d o c u m e n t sc a t e g o r y t h i sp a p e rd e s i g n st w ok i n d so fc a t e g o r i z a t i o nm e t h o d s o n ei sb a s e d o nt h ec o n c e p ts e m a n t i c sm a t c ha n dt h eo t h e ri su n i f o r m i t yf u z z ym a t c h n om a t t e rw h a t a l g o r i t h mi ss e l e c t e d ,i tc a nm a k eu pi n s u f f i c i e n to fc u r r e n tc a t e g o r i z a t i o nd e f i c i e n ts e m a n t i c r e l a t i o nt os o m ee x t e n t e n h a n c et h ed o c u m e n tc l a s s i f i c a t i o na c c u r a c y k e yw o r d s :d o c u m e n tc a t e g o r i z a t i o n ;o n t o l o g y ;d o m a i no n t o l o g y ; l i n g u i s t i c sd o c u m e n t ;m a t c h i n g l i 河北大學(xué) 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得 的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他 人已經(jīng)發(fā)表或撰寫的研究成果,也不包含為獲得河北大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書 所使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均己在論文中作了明確 的說明并表示了致謝。 作者簽名: 窆延婊日期:2 卑年月l 日 學(xué)位論文使用授權(quán)聲明 本人完全了解河北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國 家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。學(xué)??梢怨?論文的全部或部分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。 本學(xué)位論文屬于 l 、保密口,在年月日解密后適用本授權(quán)聲明。 2 、不保密口。 ( 請?jiān)谝陨舷鄳?yīng)方格內(nèi)打“妒) 作者簽名: 導(dǎo)師簽名: 日期:叢丑年j 月上日 日期:遵年月j l 日 第1 章引言 1 1 研究背景及意義 第1 章引言 在網(wǎng)絡(luò)逐漸普及,并進(jìn)一步成為人們主要信息查詢手段的今天,很多信息查詢不確 切的問題經(jīng)常困擾我們。當(dāng)用戶進(jìn)行信息查詢時(shí),與要求不大相關(guān)的信息會大量涌現(xiàn), 如何在紛繁復(fù)雜的信息中找到自己想要的內(nèi)容,成為信息獲取首先需要解決的問題。為 了能獲得更多有價(jià)值的信息,提高對信息組織、整理的效率,必須對文本進(jìn)行自動分類。 信息檢索和文本分類是兩個(gè)相輔相成的過程。只有把握好“分類”這一關(guān)鍵環(huán)節(jié),對信 息的利用才能達(dá)到更滿意的效果。 文本自動分類( a u t o m a t i cd o c u m e n tc a t e g o r i z a t i o n ) 【1 】就是利用計(jì)算機(jī)對文本集( 或 其他實(shí)體對象) 按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行類別劃分。自動分類技術(shù)是有效運(yùn)用信 息的基礎(chǔ),是代替繁雜的傳統(tǒng)人工分類方法的有效手段和必然趨勢。利用先進(jìn)的計(jì)算機(jī) 技術(shù)和人工智能技術(shù)進(jìn)行文本分類,不僅方便快捷,容易實(shí)現(xiàn),節(jié)省大量的人力、物力, 而且還可以進(jìn)行更深層次的信息挖掘處理,提高信息的利用效率和深度。文本自動分類 對提高信息搜索的效率和質(zhì)量具有重要意義: 首先,使信息的分類和運(yùn)用更加方便快捷。自動對文本進(jìn)行分類可以為使用者在網(wǎng) 絡(luò)上進(jìn)行信息檢索提供方便。i n t e r n e t 上的信息資源對于用戶來說常常是雜亂且不相關(guān) 的,用戶很難從網(wǎng)絡(luò)中直接找到所需要的信息資源。為了滿足廣大用戶在信息海洋中方 便快捷地獲取有價(jià)值信息的愿望,這就需要研究有效的文本分類方法,對巨大的網(wǎng)絡(luò)信 息資源進(jìn)行分類。只有這樣,才能提高用戶搜索和運(yùn)用i n t e m e t 信息資源的速度和質(zhì)量。 其次,可以盡可能減少人力浪費(fèi)和人為誤差的產(chǎn)生。采用自動分類方法可以節(jié)省大 量人力,而且自動分類的效率是人工分類效率的百倍甚至千倍【2 1 。由于計(jì)算機(jī)運(yùn)算速度 快,因此,使用計(jì)算機(jī)自動對文本進(jìn)行分類的速度和效率是人工分類所不能及的;而且 計(jì)算機(jī)的計(jì)算精度高,減少了人為錯(cuò)誤產(chǎn)生的可能性。 目前,對文本分類方法的運(yùn)用和研究已經(jīng)成為重要課題,對于文本分類方法的研究 已經(jīng)有很多,但其中還有不少問題值得進(jìn)一步探討。例如文本分類系統(tǒng)如何從信息資料 中自動學(xué)習(xí)、獲取相關(guān)知識:如何在文本分類過程中避免機(jī)械的字串匹配,實(shí)現(xiàn)接近人 腦智能性的語義分類等。針對這些問題所展開的研究,對于提高文本分類的性能,進(jìn)而 1 河北大學(xué)文學(xué)碩士學(xué)位論文 改善人類信息獲取的效率,推動社會進(jìn)步,具有重要的理論意義和現(xiàn)實(shí)意義。 本文立足于語言學(xué)文獻(xiàn)開展研究,主要原因有二: 1 語言學(xué)既是一門基礎(chǔ)學(xué)科,同時(shí)又涵蓋許多邊緣學(xué)科,范圍之廣是其他任何學(xué) 科所不能及的。 語言學(xué)是研究人類語言以及所有人類語言背后規(guī)則的科學(xué),按研究目的和范圍的不 同可以分為普通語言學(xué)、個(gè)別語言學(xué)、歷史語言學(xué)、描寫語言學(xué)等。內(nèi)部又可以分為語 音學(xué)、語義學(xué)、詞匯學(xué)、語法學(xué)、修辭學(xué)、方言學(xué)等類別。隨著科學(xué)的發(fā)展,語言學(xué)不 再作為一個(gè)獨(dú)立的學(xué)科存在,而是同哲學(xué)、歷史學(xué)、人類學(xué)、心理學(xué)、邏輯學(xué)、文學(xué)等 密切相關(guān),同數(shù)學(xué)、聲學(xué)、數(shù)理邏輯、電子學(xué)等也建立了緊密的聯(lián)系。語言學(xué)知識不僅 對認(rèn)識語言的本質(zhì)、特點(diǎn)和發(fā)展規(guī)律,指導(dǎo)語言教學(xué),確定語言規(guī)范,研究翻譯理論來 說是必要的,而且對了解人類社會發(fā)展和民族形成的歷史,進(jìn)行機(jī)器翻譯,治療語言障 礙的疾病也是有一定幫助的。 隨著語言學(xué)逐漸成為一個(gè)熱門的學(xué)科,對語言學(xué)的研究也逐漸加深。語言學(xué)與其他 領(lǐng)域交叉產(chǎn)生了一些新興學(xué)科,其中包括社會語言學(xué)、心理語言學(xué)、認(rèn)知語言學(xué)、應(yīng)用 語言學(xué)等多個(gè)領(lǐng)域。同時(shí)也產(chǎn)生了很多具有語義關(guān)聯(lián)的新概念,例如,用戶在查找有關(guān) “歷時(shí)語言學(xué) 的文獻(xiàn)資料時(shí),基于關(guān)鍵詞的文本分類方法只能分析出包含這個(gè)詞語的 文本資料,但是,從語言學(xué)專業(yè)角度來講,“演化語言學(xué) 和“歷時(shí)語言學(xué)”是同一個(gè) 概念的兩種不同的說法。這時(shí),只有分清楚兩詞語在語義上的同義關(guān)系,才能在檢索出 有關(guān)“歷時(shí)語言學(xué) 文章的同時(shí),也檢索出有關(guān)“演化語言學(xué) 的文章,在很大程度上 提高文本分類的查準(zhǔn)率和查全率。因此,研究語言學(xué)文獻(xiàn)的自動分類方法具有重要的理 論意義和良好的應(yīng)用前景。 2 由于作者本人知識水平有限,導(dǎo)致研究工作只能局限于這個(gè)領(lǐng)域。但是,真心 希望通過作者本人的微薄之力,可以對其他學(xué)科的研究提供些許幫助。 1 2 國內(nèi)外研究現(xiàn)狀及分析 1 初級階段 文本分類可以追溯到上世紀(jì)五、六十年代,早期的文本分類主要是基于知識工程 ( k n o w l e d g ee n g i n e e r i n g ) ,通過手工定義一些規(guī)則對文本進(jìn)行的分類。應(yīng)用知識工程 2 第1 蘋引言 方法在實(shí)際操作過程中,最大的缺點(diǎn)和不足就是需要專業(yè)人員手工編寫分類規(guī)則來表達(dá) 領(lǐng)域?qū)<宜鶕碛械闹R,運(yùn)用這些規(guī)則將文檔分到一個(gè)給定的類別體系中【3 1 。這種方法 不僅需要有領(lǐng)域?qū)<业暮献?,而且還需要知識工程師手工編制大量的推理規(guī)則,具有很 大的限制性和不確定性,最能代表這種工作方法的是路透社開發(fā)的c o n s t r u e 系統(tǒng)【4 1 。 2 進(jìn)一步發(fā)展 2 0 世紀(jì)9 0 年代以來,隨著網(wǎng)上在線文本的大量涌現(xiàn)和機(jī)器學(xué)習(xí)的興起,大規(guī)模的 文本分類和信息檢索再次引起了研究者的興趣。文本分類系統(tǒng)首先通過在預(yù)先分類好的 文本集上訓(xùn)練,建立一個(gè)判別規(guī)則或分類器,從而對未知類別的新樣本進(jìn)行自動歸類。 它不再需要大量的領(lǐng)域?qū)<业膮⑴c,算法也獨(dú)立于某個(gè)領(lǐng)域,不再受到領(lǐng)域知識的限制, 能適用于任何領(lǐng)域的學(xué)習(xí),使得它成為目前文本分類的主要方法f 熨。幾種最能代表國外 自動分類系統(tǒng)的研究成果如表1 1 所示: 表1 1 國外近年來開發(fā)的自動分類系統(tǒng) 序號時(shí)間 完成機(jī)構(gòu)完成人員技術(shù)特點(diǎn) 11 9 9 4 年 a t & t 實(shí)驗(yàn)室d a v i d d l e w i s 等基于非確定性的自動分類技術(shù) w i l l i a mw c o h e n 21 9 9 6 年 a t & t 實(shí)驗(yàn)室電子郵件的自動分類 1 r 31 9 9 7 焦 德國d o r t m u n d 大學(xué)計(jì)算機(jī)系 t o r s t e nj o a c h i m s 等基于向量空間模型的自動分類 基于很少語料詞匯的層次自動 4 1 9 9 7 年 美國s t a n f o r d 大學(xué)計(jì)算機(jī)系 d a p h n ek o l l e r 等 分類 51 9 9 8 年 y i m i n gy a n g 等 自動分類 美國c a r n e g i em e l l o n 大學(xué)計(jì)算 采用決策樹等聚類算法的在線 機(jī)系 a n d r e wm c c a l l u m 運(yùn)用信息熵理論、b a y e s 理論等 6 1 9 9 9 年 美國j u s tr e s e a r c h 公司 等 實(shí)現(xiàn)多類號的自動分類 美國m a s s a c h u s e t t s 大學(xué)計(jì)算 7 1 9 9 9 年j a m i ec a l l a n 等針對文本庫的自動分類系統(tǒng) 機(jī)系 為推廣電子商務(wù)研制基于文本 81 9 9 9 年 美國i b m 和o r a c l e 公司 內(nèi)容的電子郵件自動分類 為其瀏覽器開發(fā)基于內(nèi)容屬 9 1 9 9 9 年 m i c r o s o r 公司 性分類的插件 國內(nèi)的自動分類研究工作始于8 0 年代,經(jīng)過2 0 多年的發(fā)展,已經(jīng)有了一些比較有 代表性的輔助歸類和自動歸類系統(tǒng)。國內(nèi)比較典型的自動分類系統(tǒng)如表1 2 所示【5 1 : 河北大學(xué)文學(xué)碩士學(xué)位論文 表1 2 國內(nèi)近年來開發(fā)的自動分類系統(tǒng) 完成時(shí) 序號完成機(jī)構(gòu)完成人員主要技術(shù)特點(diǎn) 間 根據(jù)原有的類別主題詞表和 1 1 9 8 6 年上海交通大學(xué)計(jì)算機(jī)系朱蘭娟,王永成 b a y e s 最小損失原則確定分類 主題詞與類號關(guān)系表,確定權(quán)重 2 1 9 9 5 在南京大學(xué)蘇新寧等 系數(shù),分類前控詞典,停用詞表 目前,對中文文本自動分類而言,主要有三方面的因素影響其分類效果: 1 雖然國外的英文文本分類方法已經(jīng)日漸成熟,很多英文文本分類的方法可以借 鑒到中文文本分類系統(tǒng)中來,但是,語言方面畢竟存在很大的差異,不能完全照抄照搬。 而且隨著中文語義,詞匯等方面的不斷發(fā)展,更需要我們開發(fā)適用于當(dāng)前漢語發(fā)展的中 文文本分類系統(tǒng)。國內(nèi)外對文本分類的研究大都是圍繞對詞的統(tǒng)計(jì)分析展開的,但是相 對于英文來說,中文文本中詞語的正確切分是一個(gè)很大的難題,分詞的正確與否成為影 響分類效果的重要因素之一; 2 另一個(gè)影響分類系統(tǒng)正確率的重要因素是詞匯差異( v o c a b u l a r yg a p ) ,許多文 本分類系統(tǒng)采用抽取關(guān)鍵詞或類別詞的方法對文本進(jìn)行分類。這樣的系統(tǒng)通常都是基于 一種假設(shè):類別描述詞表與文本之間共享這些詞語,我們可以稱這種相關(guān)性匹配為基于 表層的匹配( s u r f a c e b a s e dm a t c h i n g ) 【6 1 。由于幾乎不受限制的自由文本用詞和受控的 類別詞表之間存在很大的差異,這種基于表層的匹配不可避免地存在著難以達(dá)到更高分 類正確率的問題。 3 文本分類的知識和策略也是影響分類效果的一個(gè)重要因素1 1 。 1 3 本文組織 本文在傳統(tǒng)文本分類技術(shù)的基礎(chǔ)上,運(yùn)用本體論的思想,研究語言學(xué)文獻(xiàn)的自動分 類方法。主要包括三個(gè)部分的研究內(nèi)容: 1 確定語言學(xué)文獻(xiàn)自動分類的領(lǐng)域,對語言學(xué)文獻(xiàn)進(jìn)行預(yù)處理; - 4 - 第1 章引言 2 用本體論的思想建立語言學(xué)文獻(xiàn)的領(lǐng)域本體; 3 將語言學(xué)文獻(xiàn)的領(lǐng)域本體應(yīng)用到對語言學(xué)文獻(xiàn)的分類過程中,力求取得更好的 分類效果。 本文共分五章,文章結(jié)構(gòu)及各章主要內(nèi)容如下: 第l 章:引言。介紹文本分類的研究背景和研究意義;分析國內(nèi)外文本自動分類的 研究現(xiàn)狀;給出本文的研究工作;最后,介紹本文的組織結(jié)構(gòu)。 第2 章:本體論的觀點(diǎn)。詳細(xì)介紹本體的淵源和定義;分析建立本體依據(jù)的原則以 及本體的組成成分和本體的分類。對本體的概念做出一個(gè)全面立體的介紹。 第3 章:構(gòu)建語言學(xué)文獻(xiàn)領(lǐng)域本體所使用的關(guān)鍵技術(shù)。首先,采用向量空間模型 ( v s m ) 的方法表示文本;其次,利用詞或短語之間的概念關(guān)聯(lián),運(yùn)用經(jīng)過一定改進(jìn) 的t f i d f 算法提取文本特征;最后,介紹了詞語之間的幾種語義關(guān)系。 第4 章:語言學(xué)文獻(xiàn)領(lǐng)域本體的構(gòu)建。首先確定建立領(lǐng)域本體的范疇和目的;其次, 對語言學(xué)的相關(guān)概念進(jìn)行處理,確定領(lǐng)域本體的特征項(xiàng),并采用p r o t 6 9 6 工具建構(gòu)語言 學(xué)領(lǐng)域本體;并對語言學(xué)領(lǐng)域本體進(jìn)行形式化編碼;最后,語言學(xué)領(lǐng)域本體還要隨著社 會的發(fā)展不斷改進(jìn)和充實(shí)。 第5 章:基于本體的語言學(xué)文獻(xiàn)分類過程。首先介紹基于本體的文本分類流程;然 后,對語言學(xué)文獻(xiàn)進(jìn)行預(yù)處理,得到待分類文本的特征項(xiàng);接下來依賴語言學(xué)領(lǐng)域本體 對語言學(xué)文獻(xiàn)進(jìn)行文本分類,這里使用了基于概念語義和非一致性模糊匹配兩種算法, 通過評估得出結(jié)論:基于本體的文本分類結(jié)果準(zhǔn)確率高于其他分類方法。由此證實(shí)基于 本體的文本分類方法切實(shí)可行。 第6 章:結(jié)論和展望。對本文提出的內(nèi)容進(jìn)行總結(jié),并提出下一步的工作和目標(biāo)。 河北大學(xué)文學(xué)碩士學(xué)位論文 第2 章本體介紹 本章首先從理論上介紹本體的淵源、定義、組成、建構(gòu)本體所依據(jù)的原則、當(dāng)前最 流行的本體的分類方法和本體的應(yīng)用。 2 1 本體的淵源 本體( o n t o l o g y ) 原本是一個(gè)哲學(xué)概念。1 7 世紀(jì)初,西方哲學(xué)家提出“本體”這個(gè) 概念,用于避免“形而上學(xué)( m e t a p h y s i c s ) ”中的一些二義性問題;1 8 世紀(jì)初,本體已 被哲學(xué)界廣泛采用。它指的是探究天地萬物產(chǎn)生、存在、發(fā)展變化的根本原因和根本依 據(jù)的學(xué)說【7 1 。 近年來,關(guān)于本體的研究、開發(fā)和應(yīng)用越來越多。2 0 世紀(jì)9 0 年代初期以來,國際 計(jì)算機(jī)界舉行了多次關(guān)于本體的專題研討會。并取得一個(gè)共識,把現(xiàn)實(shí)世界中某個(gè)應(yīng)用 領(lǐng)域抽象或概括成一組概念及概念間的關(guān)系,構(gòu)造出一個(gè)領(lǐng)域的本體,可以使計(jì)算機(jī)對 該領(lǐng)域的信息處理更為方便,人們在運(yùn)用這些成果時(shí)也更為準(zhǔn)確和快捷。本體正逐步成 為知識獲取以及自然語言處理研究的一個(gè)核心內(nèi)容。 2 2 本體的定義 關(guān)于本體的定義,哲學(xué)界和計(jì)算機(jī)界有著很大的差別。在哲學(xué)界,本體是表達(dá)哲學(xué) 理論的術(shù)語,是指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說,是物質(zhì)存在的一個(gè)系統(tǒng)的解釋,這 個(gè)解釋不依賴于任何特定的語言。 而在計(jì)算機(jī)領(lǐng)域,本體則被解釋為一種表達(dá)形式。它將領(lǐng)域的知識概念化,并可以 表達(dá)成計(jì)算機(jī)能夠理解的形式。雖然本體論( 或稱實(shí)體論) 這個(gè)概念在計(jì)算機(jī)科學(xué)中變 得越來越重要,然而,到目前為止,在計(jì)算機(jī)界卻很難為本體論下一個(gè)確切的定義。斯 坦福大學(xué)的g r u b e r 給出的定義得到許多同行的認(rèn)可,即本體論是對概念化的精確描述。 本體論的最終目標(biāo)是精確地表示那些隱含( 或不明確的) 信息,使得它們可以為計(jì)算機(jī) 領(lǐng)域的發(fā)展服務(wù)。 第2 章本體介紹 2 3 本體的組成 本體研究的是客觀事物存在的本質(zhì),一個(gè)本體就是某個(gè)領(lǐng)域或一個(gè)領(lǐng)域的某個(gè)方面 的客觀存在的本質(zhì)。我們可以通過客觀存在的概念來認(rèn)識其本質(zhì)。首先,客觀事物存在 于與其相關(guān)聯(lián)的其他事物之間、存在于自身的變化之間;其次,具體的事物與它們之間 的關(guān)聯(lián)一起構(gòu)成具體的存在,對具體的存在進(jìn)行概括產(chǎn)生抽象的存在;最后,這些客觀 事物及其之間的關(guān)聯(lián)形成事物的一個(gè)概念關(guān)系。 本體的組成從形式上說,可以由概念類、關(guān)系、函數(shù)、公理和實(shí)例( 屬性) 5 種元 素組成【8 】。 1 概念。這里所說的概念是廣義的概念,它通??梢詷?gòu)成一個(gè)分類層次。概念是 客觀事物在人腦中的反映,是對事物進(jìn)行概括的表征。這樣的事物可以是抽象的,也可 以是具體的。例如,在語言學(xué)文獻(xiàn)中,“人稱代詞 就是一個(gè)概念,而其中包含的“你” “我”“他( 它) ”則是這個(gè)概念的實(shí)例化; 2 關(guān)系。關(guān)系表示概念之間的一類關(guān)聯(lián),反映了多個(gè)概念之間的內(nèi)在聯(lián)系,例如: 同義關(guān)系是表示兩個(gè)或兩個(gè)以上概念之間等同的關(guān)系,近義關(guān)系則是表示兩個(gè)或兩個(gè)以 上概念之間相近的關(guān)系; 3 函數(shù)。函數(shù)也是一種特殊的關(guān)系,可以用來定義或者計(jì)算概念與概念之間、概 念與實(shí)例之間、實(shí)例自身之間的關(guān)系; 4 公理。公理用來表示一些永真式,即永遠(yuǎn)不變的關(guān)系或者概念; 5 實(shí)例。實(shí)例是指屬于某概念類的基本元素,即某概念類所指的具體實(shí)體,特定 領(lǐng)域的所有實(shí)例構(gòu)成領(lǐng)域概念類在該領(lǐng)域內(nèi)的指稱域。 2 4 建立本體依據(jù)的原則 從前面的章節(jié)中可以看出,這里所說的本體是人為設(shè)計(jì)的關(guān)于某個(gè)領(lǐng)域的概念模型 的一種表示。g r u b e r 曾經(jīng)給出了5 條設(shè)計(jì)本體的基本原則 9 1 。 1 明確性、客觀性和完整性:本體應(yīng)該用自然語言對所定義的術(shù)語給出明確的、 客觀的語義定義,即必須有效地說明所定義術(shù)語的意思。而且,當(dāng)定義可以用邏輯公理 表達(dá)時(shí),它應(yīng)該用邏輯公理表示,即形式化表達(dá)。同時(shí),所給出的定義必須是完整的, 河北大學(xué)文學(xué)碩士學(xué)位論文 能夠完全表達(dá)所描述術(shù)語的含義。g r u b e r 提出,在可能的條件下,完整的定義( 即,同 時(shí)由必要條件和充分條件表示的謂詞) 要比一個(gè)部分定義( 即,僅用必要條件或充分條 件定義的謂詞) 要好。 2 一致性:一個(gè)本體應(yīng)該是前后一致的,也就是說,由它推斷出來的概念定義應(yīng) 該與本體中的概念定義一致。由術(shù)語得到的推論與術(shù)語本身的含義是相容的。至少,所 定義的公理以及用自然語言進(jìn)行說明的文檔應(yīng)該是一致的。 3 可擴(kuò)展性:一個(gè)本體提供一個(gè)可共享的詞匯,它應(yīng)該盡可能提供概念的基礎(chǔ), 同時(shí),它的表示應(yīng)該便于人們對這個(gè)本體概念進(jìn)行擴(kuò)展和進(jìn)化。 4 編碼誤差盡可能?。罕倔w應(yīng)該處于知識的層次,而與特定的符號及編碼無關(guān)。 本體的編碼誤差應(yīng)該控制在盡可能小的范圍內(nèi)。 5 最小本體承諾:一個(gè)本體應(yīng)該在提供必須的共享知識的條件下,要求有最小的 本體承諾。也就是說,它應(yīng)該對所模擬的事物產(chǎn)生盡可能少的推斷,而讓共享者自由地 按照他們的需要去運(yùn)用這個(gè)本體,使之專門化、實(shí)例化。 除了g m b e r 以外,許多研究者根據(jù)自己的實(shí)踐,進(jìn)一步提出了其他本體設(shè)計(jì)原則, 如,j a r p i r e z 等人提出,本體設(shè)計(jì)應(yīng)該遵循以下3 條設(shè)計(jì)原則: 1 盡可能使用標(biāo)準(zhǔn)術(shù)語; 2 同層次概念之間保持最小的語義距離; 3 可以使用多種概念層次,采用多重繼承機(jī)制來增加表達(dá)能力。 但是,目前還不存在公認(rèn)的本體設(shè)計(jì)原則和評價(jià)標(biāo)準(zhǔn)以及質(zhì)量保證標(biāo)準(zhǔn),所有這些 本體設(shè)計(jì)都是十分籠統(tǒng)和抽象的,因此,這些原則需要我們在實(shí)踐中根據(jù)客觀情況的不 同,在不一致的原則中間進(jìn)行權(quán)衡,靈活掌握。這也正是我們進(jìn)行更加深入研究的理由 之一。 2 5 本體的分類 目前關(guān)于本體的研究日益廣泛,尤其是國外。不同的研究機(jī)構(gòu)都建立了各具特色的 本體。針對各種不同的本體,也出現(xiàn)了不同的分類方法,主要有以下三種分類方法: 1 根據(jù)本體的應(yīng)用主題分類 根據(jù)應(yīng)用主題的不同,本體可以分為以下5 類【1o 】: r 第2 章本體介紹 ( 1 ) 領(lǐng)域本體:領(lǐng)域本體在一個(gè)特定的領(lǐng)域內(nèi)可以得到廣泛的應(yīng)用,它提供的是 該領(lǐng)域特定的概念定義和概念之間的關(guān)系,提供該領(lǐng)域發(fā)生的活動以及主要理論和基本 原理等。對特定領(lǐng)域的本體研究和開發(fā)目前已經(jīng)涉及許多領(lǐng)域,包括企業(yè)本體、醫(yī)學(xué)概 念本體、酶催化生物學(xué)本體、陶瓷材料機(jī)械屬性本體。 ( 2 ) 知識表示本體:研究重點(diǎn)是語言對知識的表達(dá)能力。典型的有斯坦福大學(xué)知 識系統(tǒng)實(shí)驗(yàn)室提供的一種稱為知識交換格式( k i f , k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知 識描述語言,以及可以在線將各種知識轉(zhuǎn)換為k i f 的本體服務(wù)器o n t o l i n g u a 。目前普遍 認(rèn)為,所有其他的知識表示形式都可以轉(zhuǎn)換為k i f 的形式。 ( 3 ) 通用和常識本體:關(guān)注于常識知識的使用。中國科學(xué)院數(shù)學(xué)所承擔(dān)的國家自 然科學(xué)基金重點(diǎn)項(xiàng)目“常識知識的實(shí)用研究”中開發(fā)的結(jié)合a g e n t 和本體的知識庫p a n g u 也屬于通用知識本體的研究范疇。 ( 4 ) 任務(wù)本體:也稱為方法本體,是本體研究的另一個(gè)分支,主要研究可共享的 問題求解方法,這里的推理方法與領(lǐng)域無關(guān),任務(wù)本體主要涉及動態(tài)知識,而不是靜態(tài) 知識。具體的研究主題包括:通用任務(wù)、與任務(wù)相關(guān)的體系結(jié)構(gòu)、任務(wù)方法結(jié)構(gòu)、推理 結(jié)構(gòu)和任務(wù)結(jié)構(gòu)等。 ( 5 ) 語言學(xué)本體:是指關(guān)于語言、詞匯等的本體。典型的實(shí)例有g(shù) u m ( g e n e r a l i z e d u p p e rm o d e l ) 并i :l 普林斯頓大學(xué)研制的w o r d n e t 。 2 根據(jù)本體表示的形式化程度分類 根據(jù)表示的形式化程度不同,本體可以分為以下4 類【l l 】: ( 1 ) 完全非形式化:完全采用自然語言表示,結(jié)構(gòu)非常松散,典型的有術(shù)語列表。 ( 2 ) 結(jié)構(gòu)非形式化:采用受限的或結(jié)構(gòu)化的自然語言進(jìn)行表示,能有效提高本體 的清晰度,減少二義性。如,e m e r p r i s eo n t o l o g y 的文本版本。 ( 3 ) 半形式化:采用一種人工定義的形式化語言進(jìn)行表示,目前已有許多研究機(jī) 構(gòu)開發(fā)指定了這類形式化本體表示語言,采用o n t o l i n g u a 描述的本體都屬于這一類。 ( 4 ) 完全形式化:所有術(shù)語都具有形式化的語義,并能在某種程度上證明包括一 致性和完整性方面的屬性。 3 根據(jù)研究的層次分類 本體的研究和開發(fā)工作是在不同的層次上進(jìn)行的。根據(jù)本體的研究層次,可分為【l 2 j : 河北大學(xué)文學(xué)碩士學(xué)位論文 ( 1 ) 頂層本體:主要研究非常通用的概念,如空間、時(shí)間、事務(wù)、對象、事件、 行為等,他們完全獨(dú)立于特定的問題或領(lǐng)域。因此可以說頂層本體是在一個(gè)很大范圍內(nèi) 的知識層次。 ( 2 ) 領(lǐng)域本體:研究與一個(gè)特定領(lǐng)域相關(guān)的術(shù)語或關(guān)系。 ( 3 ) 任務(wù)本體:定義通用任務(wù)或推理活動。任務(wù)本體和領(lǐng)域本體處于同一個(gè)研究 和開發(fā)層次。它們都可以應(yīng)用頂層本體中定義的詞匯來描述自己的詞匯。 ( 4 ) 應(yīng)用本體:描述特定的應(yīng)用,它既可以應(yīng)用特定的領(lǐng)域本體中的概念,又可 以引用出現(xiàn)在任務(wù)本體中的概念。 2 6 本體的應(yīng)用 本體構(gòu)建的目的就是應(yīng)用。這方面的研究遍布于文本分類、人工智能、信息管理、 知識管理相關(guān)的各個(gè)領(lǐng)域,典型的應(yīng)用有: 1 基于語義的文本分類和信息檢索,特別是網(wǎng)絡(luò)搜索引擎和數(shù)字化圖書館。在信 息檢索領(lǐng)域和數(shù)字化圖書館中,加入本體的思想,可以在檢索過程中更加準(zhǔn)確的對文本 進(jìn)行定義和分類,快速找到相關(guān)的信息。例如,在信息檢索過程中,輸入檢索詞語“第 一語言教學(xué)”,加入本體論的思想后,有關(guān)“母語教學(xué)”的文章也會出現(xiàn)在檢索結(jié)果中, 可以在很大程度上提高網(wǎng)絡(luò)信息的利用率。 2 基于本體的數(shù)據(jù)集成、機(jī)器學(xué)習(xí)等。數(shù)據(jù)集成和機(jī)器學(xué)習(xí)需要了解某個(gè)領(lǐng)域的 全部知識,本體思想的引入,可以對數(shù)據(jù)集成和機(jī)器學(xué)習(xí)提供一定的便利。 3 領(lǐng)域本體的應(yīng)用。在各個(gè)不同的領(lǐng)域建立不同的本體,這樣就可以有針對性分 析事件,提高研究的效率。 4 語義w e b 服務(wù)。語義w e b 是w e b 未來的發(fā)展趨勢,本體技術(shù)提供了語義w e b 描述詞匯的精確定義,為真正實(shí)現(xiàn)w e b 信息的語義表示奠定了基礎(chǔ)。 5 在線元數(shù)據(jù)管理和自動信息發(fā)布。在線元數(shù)據(jù)管理和自動信息發(fā)布是一個(gè)實(shí)時(shí) 的信息處理過程,有了本體的參與,可以使準(zhǔn)確率得到進(jìn)一步提高。 2 7 本章小結(jié) 本章主要介紹了有關(guān)本體的理論知識,了解了本體的概念來源于哲學(xué),隨著科學(xué)的 1 0 第2 章本體介紹 發(fā)展正在被廣泛應(yīng)用于科學(xué)研究的各個(gè)領(lǐng)域;介紹了研究者對本體概念的不同理解,目 前比較認(rèn)同的觀點(diǎn)是本體論是對概念化的精確描述;本體的組成包括概念類、關(guān)系、函 數(shù)、公理和實(shí)例5 種元素;還分析了建立本體必須依據(jù)的原則,即明確性、客觀性、完 整性、一致性、可擴(kuò)展性、編碼誤差盡可能小、最小本體承諾等,為下一章中語言學(xué)領(lǐng) 域本體的建構(gòu)奠定了理論基礎(chǔ)。另外還介紹了在三種不同的分類標(biāo)準(zhǔn)下對本體的分類情 況;最后簡單地說明了本體的應(yīng)用情況,使我們對本體的概念產(chǎn)生了一個(gè)全面立體的認(rèn) 識。 河北大學(xué)文學(xué)碩士學(xué)位論文 第3 章構(gòu)造領(lǐng)域本體所使用的關(guān)鍵技術(shù) 基于本體的文本分類能否j i 頃, n 實(shí)現(xiàn),主要取決于領(lǐng)域本體的構(gòu)建。而領(lǐng)域本體構(gòu) 建是否成功,又是由其中若干個(gè)關(guān)鍵技術(shù)的選擇和運(yùn)用所決定的。主要包括:文本表示、 特征項(xiàng)粒度選擇、特征提取和語義推理。 3 1 文本表示 計(jì)算機(jī)不能識別人類的語言,所以需要文本表示的過程,把人類的自然語言變成計(jì) 算機(jī)可以看懂的符號。目前,在信息處理過程中,文本的表示大多數(shù)采用向量空間模型 ( v e c t o rs p a c em o d e l ,v s m ) 的方式【h 】。 本文采用向量空間模型的方式來表示文本:給定一個(gè)自然語言文檔d ,在選定了特 征項(xiàng)以后,用d = o l ,w l ;s 2 ,w 2 ;如,) 來表示文檔d ,其中墨= ( f _ 1 ,) 為特征項(xiàng), w 為s i 的權(quán)重,規(guī)定墨= ( f _ 1 ,) 互不相同。把向量d ( w 1 w 2 ,h ) 叫做文檔d 的 向量表示或者向量空間模型,文本用向量d 來表示。 接下來,要對文本進(jìn)行分詞處理。中文分詞一般采用最大匹配法 1 4 】。最大匹配法是 機(jī)械分詞方法的一種,按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典 中的詞條進(jìn)行匹配,如果能夠在詞典中找到某個(gè)字符串,則匹配成功,識別出這個(gè)詞語。 按照由左到右的方向匹配的方法叫做正向最大匹配法,由右到左的方向進(jìn)行匹配的方法 叫做逆向最大匹配法。雙向最大匹配法( 正向最大匹配法和逆向最大匹配法的結(jié)合) 速 度快、詞表開放、格式簡單容易擴(kuò)充。 對分詞結(jié)果進(jìn)行詞性標(biāo)注,這個(gè)過程中還要完成對文本的去虛詞處理,建立一個(gè)有 序的虛詞詞表是前提。對從分詞結(jié)果中提取到虛詞采用二分查找來判斷這個(gè)詞是否在虛 詞詞表中,如果在則丟棄;如果不在則保留。 第3 章構(gòu)造領(lǐng)域本體所使用的關(guān)鍵技術(shù) 3 2 特征項(xiàng)粒度選擇 使用向量空間模型方法表示文本,并對文本分詞和詞性標(biāo)注以后,下面就要對文本 進(jìn)行特征抽取。采用什么標(biāo)準(zhǔn)抽取特征項(xiàng),對領(lǐng)域特征項(xiàng)的確定具有很大的影響。一般 的特征項(xiàng)的抽取有三種粒度可供選擇:一個(gè)是字,一個(gè)是詞或短語,一個(gè)是概念特征。 1 字。使用字特征的特征抽取過程最簡單。那是因?yàn)樵趪覙?biāo)準(zhǔn)g b 2 3 1 2 8 0 中 定義的常用漢字僅為6 7 6 3 個(gè),由于這些常用漢字?jǐn)?shù)目比較少,所以抽取過程所需的時(shí) 間和空間的開支都不會很大,效率也比較高。但是,就字本身而言,對文本表示的功能 性很差,根本無法獨(dú)立完成對文本特征的表示,更不能準(zhǔn)確的表達(dá)文本之間的語義信息, 不可取。 2 詞或短語。詞是漢語中能夠準(zhǔn)確表達(dá)語義信息的最小的語言單位。與字相比, 在語義表達(dá)方面的優(yōu)勢顯而易見。如果不計(jì)算專業(yè)領(lǐng)域的詞匯,通用的詞和短語有1 0 萬左右,使用詞特征就要面臨復(fù)雜的分詞問題,而同時(shí),并不是說所有的詞語和短語都 適合作為特征項(xiàng)。在詞頻統(tǒng)計(jì)時(shí),會出現(xiàn)很多頻率很高,但是對文本特征表現(xiàn)力卻很弱 的詞語或短語,就不能作為特征項(xiàng);相反的,也會有很多出現(xiàn)頻率不高,但是卻可以一 詞定類的詞或短語,比如“復(fù)元音韻母”,只要出現(xiàn)這個(gè)詞語,幾乎就可以判定文本的 特征,從而確定文本的類別。由此可見,使用詞或短語的特征進(jìn)行特征抽取具有很大的 不準(zhǔn)確性。 3 概念特征:詞語之間往往都存在同義關(guān)系、從屬關(guān)系、近義關(guān)系等豐富的語言 現(xiàn)象。理清這些概念層次之間的關(guān)系,綜合以上詞和短語的優(yōu)點(diǎn),就可以對文本特征進(jìn) 行很好的抽取,是一種比較科學(xué)的特征抽取方法。 綜合比較以上三種特征抽取粒度的優(yōu)劣,本文采用概念特征的標(biāo)準(zhǔn)對文本特征項(xiàng)進(jìn) 行選擇。這樣既可以避免字特征文本表示功能較弱的缺點(diǎn),又可以在一定程度上彌補(bǔ)單 純靠詞或短語表示文本特征的不確定性,從而保證抽取特征項(xiàng)的準(zhǔn)確性和科學(xué)性。 3 3 特征選擇 經(jīng)過分詞以后的文本,詞匯量很大,而且用v s m 表示的文本,向量空間的維數(shù)很 高,不利于計(jì)算機(jī)處理;另外,每個(gè)詞語對表現(xiàn)文本主題的貢獻(xiàn)程度不二樣,有些詞出 洞北大學(xué)文學(xué)碩士學(xué)位論文 現(xiàn)頻率很高,但是對確定文本類別沒有太大幫助;有些詞出現(xiàn)頻率雖然不高,但是卻可 以一詞定類。這就需要一個(gè)特征選擇的過程。 特征選擇的基本思想是:在對文本中的關(guān)鍵詞進(jìn)行選擇之后,計(jì)算每個(gè)詞語的詞頻, 并將經(jīng)過學(xué)習(xí)預(yù)設(shè)的重要度作為權(quán)值,對所有的特征按照其權(quán)值的大小排列,通過設(shè)定 閾值或限定維數(shù),可以得到文檔的特征集。由此可見,特征選擇是建立在詞頻統(tǒng)計(jì)和計(jì) 算權(quán)重的基礎(chǔ)上的。經(jīng)過詞頻統(tǒng)計(jì)和權(quán)重計(jì)算,就能生成文本類別的核心向量,這些向 量中的特征詞可以認(rèn)為是能代表該類文本特征的類別領(lǐng)域詞 1 5 1 。 t f i d f 方法是文本分類過程中特征提取使用最多的方法之一。其中,t f :t e r m f r e q u e n c y 為頻率因子,表明文檔中出現(xiàn)該特征項(xiàng)的頻度;i d f :i n v e r s ed o c u m e n t f r e q u e n c y 為特征項(xiàng)倒排文檔頻率,表明特征項(xiàng)在文檔集合中分布情況的量化。一般的 特征選擇過程中都是采用這種方法來構(gòu)造詞語權(quán)值評價(jià)函數(shù),在系統(tǒng)中采用的是由人工 分類好的訓(xùn)練語料,讓系統(tǒng)進(jìn)行分析提取。為了保證語言學(xué)文獻(xiàn)中的常用詞( 例如“形 式名詞”中的“名詞詞條) 得到選擇,降低i d f 的影響,同時(shí)為了得到一個(gè)單位空間 向量,還要對特征向量的各個(gè)參量進(jìn)行歸一化處理。 本文采用改進(jìn)的t f i d f 算法對文獻(xiàn)進(jìn)行特征選擇。首先本文以概念特征作為特征 選擇的標(biāo)準(zhǔn),那么給定兩個(gè)詞語,計(jì)算它們之間的語義距離。這里,把語義距離定義為 兩個(gè)詞對應(yīng)的屬性或概念在特征庫中的最短距離。如果兩個(gè)詞中有一個(gè)詞的屬性無法在 特征庫中找到,或者兩個(gè)詞的屬性分別處于兩個(gè)不同的特征庫,就可以認(rèn)為這兩個(gè)詞之 間的語義距離為d 1 6 1 。 設(shè)兩個(gè)詞u 、v 之間的語義距離為p ,那么u 、礦之間的相似度可以用公式( 1 ) 來 計(jì)算: s c u ,y ,= 孑一p 日一7 。 ;三三; c , 這里的日和三是兩個(gè)詞之間相似度可能取得的最大值和最小值。在這里,令h = 1 , 三= o 。d 是u 、y 所在的特征庫中兩個(gè)實(shí)例的語義距離可能的最大取值。即如果某個(gè) 特征庫中深度最大的兩個(gè)實(shí)例或?qū)傩缘纳疃确謩e為d l 、皿,那么這個(gè)特征庫的d = 日 + d ,。注意,根據(jù)上面所說,當(dāng)p o o 時(shí),u 、v 的實(shí)例或?qū)傩员囟ㄊ窃谕惶卣鲙熘校?第3 章構(gòu)造領(lǐng)域本體所使用的關(guān)鍵技術(shù) 因此,關(guān)于d 的定義是合理的。以此類推,就可以得到包含實(shí)例或?qū)傩灾g具有語義關(guān) 系的特征庫。 3 4 語義推理 基于本體的分類過程,必須以特征項(xiàng)之間的語義關(guān)系作為基礎(chǔ),如何確定詞語之間 的語義關(guān)系呢? 這里就涉及到一個(gè)概念:語義推理。 語義推理就是通過擴(kuò)展詞語之間的語義關(guān)系來確定領(lǐng)域特征項(xiàng),將所有隱含的信息 都顯式地描述出來,以此來構(gòu)建領(lǐng)域本體庫。語義關(guān)系是建構(gòu)本體特征庫過程中,聯(lián)系 概念與實(shí)例的中心環(huán)節(jié),因此作為特征庫中的聯(lián)系各級節(jié)點(diǎn)之間的紐帶而存在。這樣的 語義推理完成了對元數(shù)據(jù)概念的語義擴(kuò)展,主要包括: ( 1 ) 同義詞關(guān)系( s y n o n y m ) 擴(kuò)展:同義詞是意思相同或非常相近的兩個(gè)或多個(gè)詞 語,它們之間往往可以相互替換。如“聲調(diào)”和“音調(diào) 、“復(fù)元音韻母 和“復(fù)合元音 韻母”等。 ( 2 ) 上下位關(guān)系( h y p e m y m y h y p o n y m y ) 擴(kuò)展:就是包含與被包含的關(guān)系。下位 詞是上位詞的特例,如“聲調(diào)”和“陰平、陽平、上聲、去聲 之間的關(guān)系,其中“聲 調(diào)”是上位詞,“陰平、陽平、上聲、去聲”是下位詞。在分類過程中,有時(shí)通過概念 毛 的上下位概念也能分析出潛在的有用信息。 ( 3 ) 相似詞擴(kuò)展:相似的兩個(gè)詞之間具有兄弟關(guān)系,但不是同義詞或者上下位詞, 如“陰平”、“陽平 、“上聲”、“去聲 四個(gè)概念相互之間的關(guān)系。 ( 4 ) 歧義概念的標(biāo)注:自然語言中存在很多一詞多義的現(xiàn)象。為了排除歧義的干擾, 我們借助文檔特征進(jìn)行唯一標(biāo)注,這樣就可以達(dá)到消除歧義的效果。 這些初始概念經(jīng)過語義分析,可以防止概念的冗余,避免重復(fù)的概念,并且通過領(lǐng) 域?qū)<业拇_認(rèn)后,可以成為領(lǐng)域特征項(xiàng),作為本體的核心概念或者實(shí)例,在本體庫建構(gòu) 過程中確定下來,在以后的不斷完善過程中還可以作為新的特征項(xiàng),源源不斷地?cái)U(kuò)充進(jìn) 來。 河北大學(xué)文學(xué)碩士學(xué)位論文 ! il 皇皇詈暑詈皇詈皇皇曼皇曼! 曼! 曼詈鼉曼曼皇苧皇墨置曼! 曼曼! 詈! 詈! ! 曼! ! ! 暑! ! ! 曼! ! ! ! 詈皇! ! ! ! 暑! ! ! ! ! 皇! ! ! 曼! ! 詈皇曼! 暑! ! ! ! 苧曼皇! 詈! ! ! 曼! ! ! ! ! ! ! ! ! 鼉詈! 皇 3 5 本章小結(jié) 本章分析了建構(gòu)領(lǐng)域本體所需的關(guān)鍵技術(shù),在用向量空間模型對表示文本的前提 下,從概念特征出發(fā)對文本進(jìn)行特征選擇。采用經(jīng)過一定改進(jìn)的t d i d f 算法,確定領(lǐng) 域特征項(xiàng)。還應(yīng)該明確概念之間的語義關(guān)系,包括上下位關(guān)系、同義關(guān)系、近義關(guān)系等。 只有首先明確構(gòu)造領(lǐng)域本體所需要的關(guān)鍵技術(shù),才能為領(lǐng)域本體構(gòu)建工作提供技術(shù)支 持,有利于研究工作的開展。 第4 章語言學(xué)領(lǐng)域本體的構(gòu)造 第4 章語言學(xué)領(lǐng)域本體的構(gòu)造 4 1 構(gòu)造領(lǐng)域本體的必備條件 4 1 1 本體形式化描述語言的選擇 本體形式化描述語言直接影響本體模型的表達(dá)能力和可擴(kuò)展能力。目前的形式化 本體描述語言非常多,主要有r d f 和r d f s 、o i l 、d a m l 、o w l 、k i f 、s h o e 、x o l 、o c m l 、 o n t o l i n g u a 、c y c l 、l o o m 1 7 】。經(jīng)過比較,我們選用了o w l ( f f e bo n t o l o g yl a n g u a g e ) 。 o w l 的優(yōu)點(diǎn)是以w e b 資源為描述對象,具有良好的應(yīng)用前景。另外,o w l 是基于描 述邏輯的,所謂描述邏輯( d e s c r i p t i o nl o g i c ,d l ) 是一階謂詞邏輯的可判定子集, 能夠提供可判定的推理服務(wù),并且具有語義特征【1 8 】。這就意味著基于描述邏輯的o w l 的函數(shù)和公理都有相應(yīng)的邏輯描述表示,利用o w l 構(gòu)建的本體庫除了具備良好的表現(xiàn)能 力外,還具有強(qiáng)大的推理能力。這對于w e b 資源的邏輯檢測、本體集成、知識整合是非 常重要的。 4 1 2 本體開發(fā)工具的選擇( p r o t 6 9 6 + o w lp l u g i n ) 目前國內(nèi)外已經(jīng)有許多成熟的本體開發(fā)平臺軟件可供選擇。經(jīng)過我們對部分常見工 具的試用與比較,選擇的是其中的佼佼者p r o t e g e 3 2 1 【1 9 】( 用戶界面截圖如圖4 1 所 示) 。p r o t 6 9 6 是由斯坦福大學(xué)醫(yī)學(xué)信息化研究小組開發(fā)的,一個(gè)基于j a v a 環(huán)境、開放 式架構(gòu)的開源知識建模工具【2 0 】。其擴(kuò)展的o w l 插件是目前最為強(qiáng)大的o w l 本體構(gòu)建工具。 p r o t 6 酣不僅具有良好的可擴(kuò)展性和簡單靈活的用戶定制界面,還具有如下一些特性: 1 支持圖形化本體編輯模式; 2 支持?jǐn)?shù)據(jù)庫存儲模式; 3 基于o w l 數(shù)據(jù)庫的多人開發(fā)模式和支持邏輯檢測功能等。 最新版本的p r o t 6 9 0 還增加了對資源多語言描述的支持。更為重要的是,p r o t 6 9 6 還擁有超過5 0 0 0 0 人的注冊用戶和郵件列表用戶,高效的技術(shù)服務(wù)支持以及豐富的技術(shù) :j i 鑾蘭圣:墨:蘭磐鎏圣 資料和本體資源。這些都極大地方便了我們本體構(gòu)建的學(xué)習(xí)和問題的解決。 mw 1 3 1 h7 * ! m # 。 皓目t 悃om 凸 蠶蠶西i 薔蟊 一6 ”i _ f 】 圈4 1p r o t 6 9 6 32 1 用戶界面截圈
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國服飾輔料市場調(diào)查研究報(bào)告
- 1.6函數(shù)的連續(xù)性基礎(chǔ)課部07課件
- 2025年中國新生兒棉褲數(shù)據(jù)監(jiān)測報(bào)告
- 2025年中國數(shù)字車用萬用表市場調(diào)查研究報(bào)告
- 2025-2030年中國乳膏行業(yè)前景趨勢展望及投資發(fā)展方向研究報(bào)告
- 肇慶市實(shí)驗(yàn)中學(xué)高中生物二:雜交育種與誘變育種導(dǎo)學(xué)案
- 肇慶市實(shí)驗(yàn)中學(xué)高中歷史三:第課現(xiàn)代世界的科學(xué)技術(shù)高效課堂教學(xué)設(shè)計(jì)
- 2025-2030年中國LNG行業(yè)發(fā)展現(xiàn)狀及前景趨勢研究報(bào)告
- 新疆莎車縣重點(diǎn)名校2025屆高中畢業(yè)班教學(xué)質(zhì)量檢查英語試題含答案
- 新疆烏魯木齊市第八十七中學(xué)2025年高中第一次統(tǒng)考英語試題含答案
- GB/T 19632-2005殯葬服務(wù)、設(shè)施、用品分類與代碼
- GB/T 16457-1996超硬磨料制品切割石材和建筑物用鋸片鋼基體尺寸
- GA/T 850-2021城市道路路內(nèi)停車位設(shè)置規(guī)范
- 《食品包裝學(xué)(第三版)》教學(xué)PPT課件整套電子講義
- 焊縫質(zhì)量檢驗(yàn)標(biāo)準(zhǔn)匯總
- 單代號網(wǎng)絡(luò)圖和雙代號網(wǎng)絡(luò)圖(習(xí)題)
- 小學(xué)班主任工作案例分析4篇(一)
- 教學(xué)改革項(xiàng)目立項(xiàng)評審指標(biāo)體系參考
- 2023年貴州省遵義市中考數(shù)學(xué)試卷及答案(word版)
- 訂單評審記錄表
- 第二章導(dǎo)體周圍的靜電場
評論
0/150
提交評論