版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、中國人民大學 碩士學位論文論文題目:(中文 領域本體建設的方法論和工具研究 (英文 A Study on Methodologies and Tools作 者:(中文名 袁 媛(英文名 Yuan Yuan所在院、系、所 :專 業(yè) 名 稱 :計算機應用技術指 導 教 師姓 名、職 稱 :學 習 期 限 :01年 9月至 04年 6月摘 要作為 NSFC 資助項目 “通用網(wǎng)上知識編輯器及示范主題語義網(wǎng) 研究”的前期工作,本文著重研究領域本體建設的方法論和輔助 工具。如今, Web 成為了網(wǎng)絡信息的主要平臺, 是人們獲取知識的主 要來源。但是,由于 Web 頁面的無結構性、超鏈接的自由無序、 以及
2、Web 內(nèi)容的海量性、多樣性和動態(tài)變化,人們從 Web 上搜索 真正想要的信息其實并不容易。從長遠看,解決上述矛盾的根本方法就是變無序數(shù)據(jù)為有序 知識, 讓計算機能夠理解 Web 信息, 同時理解使用這些信息的人。 Web 創(chuàng)始人 Tim Berners-Lee于 1998年提出了 Semantic Web(語 義 Web ,或語義網(wǎng)的構想,它是當前 Web 的擴展,其中的信息 被賦予定義良好的(well-defined 含義,使計算機可以理解, 從而和人更好的協(xié)作。為了將目前無序的 Web 改造成有序的計算機可理解的知識寶 庫,語義 Web 采用多層次的表示框架,本體位于從文檔描述到知 識推
3、理轉折的層次, 因此本體的構建是實現(xiàn)語義 Web 的關鍵環(huán)節(jié)。 本體就是用來描述某個領域(領域本體甚至更廣范圍(通 用本體內(nèi)的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在 共享的范圍內(nèi)有著明確唯一的定義,達成一種共識,這樣人和機 器之間就可以進行交流。因此本體的建設是一個很重要的問題,它是語義 Web 的語義 基礎,建立不好本體,語義 Web 也只是空談。這顯然是一個浩大的工程,但是目前還沒有成熟的方法論指導,甚至建成什么樣子 也只是初步的探索。本文認為,本體的建設應該是工程化生產(chǎn)。軟件工程使軟件 生產(chǎn)從程序員的個人勞動轉變?yōu)橛薪M織的、可控制的工程,從而 在根本上大幅度提高軟件開發(fā)的效率和質量
4、。 與一般的軟件相比, 本體更強調(diào)共享、重用,它的出現(xiàn)就是為了給不同系統(tǒng)間提供一 種統(tǒng)一的語義集成,因此它的工程性更為明顯。目前流行的各種 方法論也都不同程度的借鑒了軟件工程的思想。 但是, 本文認為, 本體建設和傳統(tǒng)的軟件開發(fā)相比,更應該強調(diào)進化性,并通過方 法論指導進化的過程;其次,如何減少領域專家參與本體建設的 程度,使建設過程更容易操作也是方法論中應該重視的問題。而 現(xiàn)有方法論并沒有很好的考慮這兩個問題。因此,本文并提出一 種基于螺旋模型的原型化方法。和現(xiàn)有方法論相比,該原型法具 有如下主要特色:突出領域的邊界模糊屬性,采用自底向上的建設過程。 由于邊界模糊是領域的天然屬性,領域本體建
5、設就很難準確 的劃定范圍。該方法論采用自底向上的本體建設方法,在得不到 領域專家大力支持的情況下,不求大而全,只求可用,先由知識 工人確定一些本體中的核心概念和關系,再通過后續(xù)的進化階段 擴展本體。突出本體的進化屬性,提出新的進化方法。在軟件工程中,螺旋模型和原型法都是重視軟件進化的。類 似的,我們也采用了螺旋模型和基于該模型的原型法,強調(diào)本體 進化過程的螺旋上升。從實踐的可操作性出發(fā),該方法論又提出 本體進化的新思路,把文本半自動標注和本體建設相結合。 知識工人手工或半自動的利用本體對普通頁面進行語義標注時,會不斷發(fā)現(xiàn)新的概念和關系。如果能把標注過程和本體建設 過程結合起來,就可以非常容易的
6、實現(xiàn)本體進化。這種進化過程 比專家定義容易操作,比機器學習準確規(guī)范。但是它需要有合適 的工具支持。突出過程的規(guī)范化, 文檔化工作貫串領域本體建設的各個 階段。軟件工程的實踐已經(jīng)證明,文檔和程序一樣重要。本體建設 的現(xiàn)有方法論中也很重視文檔,把它作為一個獨立的階段。本文 認為, 文檔不只是事后的總結, 它應該貫串建設過程, 發(fā)揮規(guī)范、 指導、總結等各方面的作用。有了方法論的指導,本體建設的過程中還會存在大量重復性 的工作,而這些費時費力的工作卻不是什么人都可以做的,就像 字典也不是誰都可以編纂的,需要更多領域專家和知識工人的參 與,因此開發(fā)出合適的輔助工具是非常必要的?,F(xiàn)有的本體建設工具有很多值
7、得借鑒的地方。但是在方法論 的研究中,我們提出了一些新的思路,特別是本體的進化過程, 需要工具的支持。 另外, 國內(nèi)研究機構還沒有發(fā)布過自己的工具, 而國外工具對中文的支持較差。 同時, 項目本身也有特殊的需求, 因此自行設計開發(fā)本體建設工具是必須的。在“通用網(wǎng)上知識編輯器及示范主題語義網(wǎng)研究”項目中, 我們的目標是建立起一個以經(jīng)濟學、法學的學科資源為例的示范 語義網(wǎng),即通過領域本體的支持,對現(xiàn)有資源加工整理,進行語 義標注。因此,我們的本體建設工具有兩個明確的任務,一是輔 助領域本體的建設,二是輔助文本標注。這兩個任務是相輔相成 的,利用建設好的本體可以對文本自動標注,自動標注的結果并 不一
8、定準確(和本體的規(guī)模有關,知識工人對自動標注的結果進行修正,修正的過程反過來影響本體,使本體不斷進化。 在整個系統(tǒng)的體系結構中, 領域本體建設工具位于中間層次, 它包括文本抽取工具,本體構建工具和文本標注工具,其下是來 自于 Web 等信息源的各種文本。文本抽取工具對格式不規(guī)范的原 始文本進行加工, 本體構建工具支持知識工人協(xié)同編輯領域本體, 文本標注工具協(xié)助他們標注資源,從而生成語義 Web 中的領域本 體和經(jīng)過標注的文本集,向上為用戶提供各種信息服務的 API 接 口。和其他的本體建設工具相比,我們設計的工具具有如下主要 特色:結合原型法, 提供一個集文本抽取工具、 本體構建工具和 文本標
9、注工具為一體的本體建設環(huán)境。支持領域本體編輯的協(xié)同工作。 通過權限控制, 每個用戶 在建設過程中可以充分表達自己的觀點, 最后由一個相對 權威的人來對這個結果進行審批。 不同用戶通過不同的視 圖瀏覽本體。輔助本體建設的進化過程。 在文本標注工具中增加本體編 輯的接口, 知識工人在標注的同時可以對已有本體進行編 輯,從而使本體得到進化。支持 OWL 語言,后臺采用數(shù)據(jù)庫存儲本體對象。支持中文的本體建設和文檔處理。在文章的最后,以經(jīng)濟學學科為應用領域,建立了一個初步 的本體,并用 OWL 文件描述,為進一步的實踐工作打下基礎。關鍵詞 :語義 Web 領域本體 方法論 工具AbstractAs th
10、e preliminary work of “Research on General Knowledge Editors on the Web and Demonstrating Subject Semantic Web” supported by NSFC, this paper focuses on the study of methodologies and tools for building domain ontologies.Nowadays, web becomes the main information resource. However it is not easy for
11、 people to get the really interested information on the web, since web pages are semi-structure or non-structure, the hyperlinks are disordered and the data are massive and dynamic.In the long term, the essential method to solve the above contradiction is to change disorderly data into orderly knowl
12、edge, to make computers understand the web information and the need of people. Tim Berners-Lee proposed the concept of Semantic Web in 1998. It is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.The Seman
13、tic Web uses a multi-level framework to achieve its goal. Ontology locates in the level from textual description to knowledge-based reasoning. So it is important to develop ontologies for the Semantic Web.An ontology is an explicit specification of a conceptualization. It defines the basic concepts
14、and relations comprising the vocabulary of a topic area. This makes these concepts and relations have explicit and exclusive definitions in certain scope. Then people can communicate with machines freely.Although building ontologies is a very important issue, there is no any mature methodology to gu
15、ide the development of ontologies at present.The development of ontologies should be an engineering process. Currently, the prevalent methodologies use the idea of software engineering for reference to some extent. However, compared with traditional software development, building ontologies emphasiz
16、es evolvement. Moreover, how to reduce the dependency on domain experts and make the procedure more operable is another key issue. But the existing methodologies didnt pay enough attention to the above issues. This paper puts forward a methodology of prototype based on spire model. It has the follow
17、ing features:Pinpoint the indefinite boundary of domain, and adopt bottom-up building procedure.Because the indefinite boundary is the natural property of domain, it is difficult to define the scope of work clearly. Without adequate supports from domain experts, knowledge workers can build core conc
18、epts and relations firstly, then extend the ontology in laterevolving phase.Pinpoint the evolvement of ontology, and propose a new approach.In the software engineering, spire model and prototype method both stress evolution. We adopt similar model and method, and emphasize the upswing of ontology ev
19、olvement. From the view of practical maneuverability, the methodology brings forward a new way to combine text semiautomatic annotating with ontologies constructing.When knowledge workers use ontologies to annotate normal web pages, they will find new concepts and relations occasionally. If combine
20、annotating with ontologies constructing, ontology evolvement will be easy. This process is easier than defining by experts, and is exacter than machine learning.Pinpoint standardization of process, and make documentation go through every stage.The practice of software engineering has proved that doc
21、uments are as important as codes. Those existing methodologies also stress documentation, and treat it as an independent phase. However, documents are not only the conclusion of procedure, but also the instructions and standards through the entire process.There is lots of repeated work in the develo
22、pment of ontologies. It needs participations of many domain experts and knowledge workers. So assistant tools are necessary.In our methodology, the evolvement of ontologies needs support from special tools. Moreover, there is no native developing tools, and overseas tools have poor support to Chines
23、e. Based on the above observations, design and implementation of our own tools is necessary.In our project, the goal is to build a demonstrating Semantic Web based on resource of economics and law. There are two objectives for our tools. First is to assist constructing domain ontologies, second is t
24、o assist annotating text. These two objectives benefit each other.Our developing tools include text extractor, ontology builder and text annotator. The text extractor processes original nonstandard text. The ontology builder supports knowledge workers to edit domain ontologies concurrently. The text
25、 annotator assists them annotate web pages. The features of the tools are listed as follows:Provide an integrated developing environment.It includes text extractor, ontology builder and text annotator.Support concurrent editing.With privileges control, each user can express his opinion freely throug
26、h the building procedure. An authority will confirm the result later. Different users browse ontologies through different views.Assist the evolvement of ontology.Edit interface is added into the text annotator. So knowledge workers can edit the existing ontologies while annotating text.Support OWL,
27、and store ontology objects in relational database.Support ontology development and document processing in Chinese.At the end of this paper, a preliminary ontology of economics is built, and decribed in OWL. This is the basis of our future implementation.Keywords :Semantic Web, Domain Ontology, Metho
28、dology, Tool目 錄第一章 引言 . 1第二章 本體研究綜述 . 4 2.1 基本概念 .4 2.2 本體研究的熱點問題 .7 2.3 本體描述語言 .9 2.3.1 基于 AI 的本體描述語言 .10 2.3.2 基于 Web 的本體描述語言 .11 2.4 本體建設的方法論 .16 2.4.1 IDEF-5方法 .16 2.4.2 骨架法 .17 2.4.3 企業(yè)建模法 .18 2.4.4 METHONTOLOGY.19 2.4.5 循環(huán)獲取法 .20 2.5 本體建設工具 .21 2.5.1 基于 AI 的本體描述語言的一類工具 .22 2.5.2 基于 Web 的本體描述語言
29、的一類工具 .25 第三章 領域本體建設的方法論研究 . 30 3.1 研究思路與分析過程 .30 3.2 基于螺旋模型的原型法 .343.3 特色 .39第四章 領域本體建設的工具研究 . 41 4.1 動機 .41 4.2 總體設計 .41 4.2.1 設計思路 .41 4.2.2 功能設計 .43 4.3 本體構建工具的設計 .48 4.3.1 模塊設計 .48 4.3.2 數(shù)據(jù)庫設計 .54 4.3.3 重要接口設計 .57 4.4 特色 .59第五章 經(jīng)濟學學科的本體建設 . 60 5.1 需求分析與計劃 .60 5.2 核心本體建立 .62第六章 結束語 . 68 6.1 創(chuàng)新和貢
30、獻 .68 6.2 下一步的工作 .68參考文獻 . 70附錄 . 75致謝 . 77第一章 引言通過利用超文本和多媒體技術, Web 成為了網(wǎng)絡信息的主要 平臺,任何人都可以方便的瀏覽、獲取或者提供信息。僅僅十余 年,互聯(lián)網(wǎng)的發(fā)展速度、網(wǎng)絡規(guī)模、技術水平、用戶數(shù)量、應用 領域及其對社會經(jīng)濟發(fā)展、信息文化的傳播和交流、對政府管理 方式等方方面面產(chǎn)生的影響,都足以令世人震驚。目前,它已經(jīng) 成為人們獲取知識的主要手段。理論上,人們可以通過 Web 搜索到幾乎所有方面的信息。但 是,由于 Web 頁面的無結構性、超鏈接的自由無序、 Web 規(guī)模的 急劇膨脹以及 Web 內(nèi)容的海量性、 多樣性和動態(tài)變
31、化, 人們從 Web 上搜索真正想要的信息其實并不容易。這種困難具體表現(xiàn)為: 1.瀏覽器和搜索引擎的智能太低, 基本上還是采用關鍵字匹 配的辦法;2.不能理解用戶的需要,只要是關鍵字一樣,查詢的結果總 是一樣的;3.不能理解概念 , 從而進行語義關聯(lián)。從數(shù)據(jù)管理和使用的角度,我們認為現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)管理的 主要矛盾在于以下方面:1.數(shù)據(jù)管理的有序性要求與網(wǎng)上信息無序性的矛盾。2.搜索引擎的查全查準要求與數(shù)據(jù)缺乏語義的矛盾。3.知識獲取的效率要求與海量數(shù)據(jù)的矛盾。從長遠看,解決上述矛盾的根本方法就是變無序數(shù)據(jù)為有序 知識, 讓計算機能夠理解 Web 信息, 同時理解使用這些信息的人。互聯(lián)網(wǎng)做不到這
32、一點的原因是,作為信息交流的平臺, Web 僅僅是面向人類的,發(fā)布信息的作者只負責為人類創(chuàng)作,發(fā)布出 來的信息也是由讀者本人分析、理解和使用。對于計算機來講, Web 上的信息只是通過超鏈接簡單關聯(lián)起來的海量堆砌的字符 串,計算機不能從它們中間發(fā)現(xiàn)任何語義關聯(lián),只能按照設計好 的超鏈接把相關信息組織發(fā)布出來,即使利用搜索引擎技術,計 算機也只是在海量信息中進行基于關鍵字(或者某種程度擴展 的字符串匹配。直接的想法就是讓計算機參與信息交流,幫助人們理解海量 信息,使得 Web 成為一個真正的知識系統(tǒng),對最終用戶實現(xiàn)所得 即所需(What you get is what you need。這就是
33、Web 創(chuàng)始人 Tim Berners-Lee于 1998年提出的 Semantic Web(語義 Web ,或 語義網(wǎng)的構想。簡言之, Semantic Web和 Web 的根本區(qū)別在于 它直接面向的對象不是人類,而是計算機,發(fā)布在語義 Web 上的 信息應該是機器可理解的,從而為人類提供更好的信息服務。 為了將目前無序的 Web 改造成有序的計算機可理解的知識寶 庫,語義 Web 采用多層次的表示框架,本體位于從文檔描述到知 識推理轉折的位置, 因此本體的構建是實現(xiàn)語義 Web 的關鍵環(huán)節(jié)。 所謂本體, 最著名并被引用得最為廣泛的定義是由 Gruber 提出的 “本體是概念模型的明確的規(guī)范
34、說明 1 ” 。 通俗的講, 本體就 是用來描述某個領域(領域本體甚至更廣范圍(通用本體內(nèi) 的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在共享的范圍 內(nèi)有著明確唯一的定義,達成一種共識,這樣人、機器之間就可 以進行交流??梢哉J為,最簡單的本體形式有字典和分類樹,稍 微復雜一些的有數(shù)據(jù)庫的關系模式(Relational Schema等。當 然,本體的提出并不是為了人和人之間的交流,它是希望軟件系統(tǒng)之間能夠對共享概念達成統(tǒng)一的理解,就好像為機器提供一種 用于交流的官方語言,從而避免雞同鴨講的情形。因此本體的建 設是一個很重要的問題,它是語義 Web 的語義基礎,建立不好本 體,語義 Web 也只是
35、空談。這顯然是一個浩大的工程,但是目前 還沒有成熟的方法論指導, 甚至建成什么樣子也只是初步的探索。 作為一個工程,本體建設的過程中必然存在很多大量重復性的工 作,而且這些費時費力的工作并不是什么人都可以做的(就像字 典也不是誰都可以編纂的,需要更多領域專家和知識工程師的 參與,因此開發(fā)出合適的輔助工具非常必要。作為 NSFC 資助項目 “通用網(wǎng)上知識編輯器及示范主題語義網(wǎng) 研究”的前期工作,本文著重研究領域本體建設的方法論和該過 程中的輔助工具。全文安排如下:第二部分著重對本體的研究現(xiàn) 狀進行綜述,在介紹該領域的基本概念之后,首先提出本體研究 中的熱點問題,接著針對幾個主要的熱點問題進行調(diào)研
36、,包括本 體描述語言、本體建設的方法論和本體建設工具;第三部分著重 研究領域本體建設的方法論,提出基于螺旋模型的原型法,指導 本體的建設過程;第四部分研究本體建設工具,從項目的實際需 求出發(fā),設計自己的領域本體建設工具,該工具最突出的特色在 于本體的協(xié)同編輯和進化過程;接下來,在原型法的指導下,本 文的第五部分選定經(jīng)濟學學科作為實踐領域,描述領域本體的建 設過程; 最后, 在結束語中總結了本文的創(chuàng)新和未來的工作建議。中國人民大學碩士學位論文 領域本體建設的方法論和工具研究 第二章 本體研究綜述 2.1 基本概念 1語義網(wǎng)(Semantic Web) 在 W3C 的網(wǎng)站上,Tim Berners
37、-Lee 等人將語義 Web 定義為 “語義 Web 是當前 Web 的擴展,其中的信息被賦予定義良好的 (well-defined)含義,使計算機和人能夠更好的協(xié)作。2”。 文獻3中生動形象的描繪了語義 Web 能夠提供給人類的服務。 從 這個定義可以看出,語義 Web 并不是要取代現(xiàn)有的 Web,而是擴 展。擴展的方式是對現(xiàn)有信息進行形式化的描述,目的是機器可 理解,以便計算機更好的提供信息服務。簡單的說,語義 Web 就 是要給 Web 加上注釋,為了讓計算機能夠理解,這種注釋必須用 一種形式化的語言進行描述,并且支持推理。為了多個系統(tǒng)之間 能夠交流,這種注釋還應該遵循統(tǒng)一明確的詞匯表。
38、 在 Tim 的構想中,語義 Web 表現(xiàn)為圖 12所示的層次結構。 自底向上來看,第一層規(guī)定了文檔中字符的編碼方式和資源的統(tǒng) 一標識, 即 UNICODE 和 URI; 第二層, XML、 命名空間和 XML Schema, 使用自定義的標簽對文檔的結構進行標注, 規(guī)范文檔的語法格式, 就可以方便的利用計算機處理文檔,在統(tǒng)一模式的定義下交換文 檔。第三層,明確文檔中標引對象之間的關系,即資源描述層 RDF+RDF Schema。RDF 定義了元素之間的關系,表現(xiàn)為元組的 4 中國人民大學碩士學位論文 領域本體建設的方法論和工具研究 集合(類似于句子的主語、謂語、賓語)。XML 加上 RDF(
39、S就相 當于建立了人工智能中的語義網(wǎng)絡(SEMENTIC NETWORK),可以進 行一定的推理。使用 XML+RDFS(S,人們可以建立各自的語義網(wǎng), 只要有一套自成體系的術語就可以了。第四層,明確標引項的精 確含義,要讓計算機相互理解對方的內(nèi)容,需要有一套共同的標 準的概念體系,這就是 Ontology(本體)。XML+RDF(S+Ontology 構成了計算機相互理解的基礎。這樣每增加一個層次,計算機在 知識處理上就多一份能力。在本體層之上進一步要做一些邏輯推 理的工作,接下來就是保證信息是可信賴的,這就構成了一個多 層次的語義網(wǎng)。 圖 1. 語義網(wǎng)的層次結構 語義網(wǎng)繪制的是一幅美好的藍
40、圖,最終得到一個可信任的 Web,每個人都可以在上面獲取知識、尋求幫助,就像詢問值得信 賴的好朋友一樣。但是,和任何一項偉大事業(yè)一樣,前途是光明 5 中國人民大學碩士學位論文 領域本體建設的方法論和工具研究 的,道路是曲折的,語義 Web 的實現(xiàn)還是一個長期的過程。 從目前的情況來看,語義網(wǎng)下面三層的研究已經(jīng)開展較長時 間,研究成果相對較多,并推出了一系列的標準,可以說打下了 比較堅實的基礎。本體層和邏輯層,正在引起更多的關注。作為 語義 Web 中從語法處理向語義處理的轉折,這兩層起著至關重要 的作用,相關研究正處在探索之中,已有很多有意義的嘗試和應 用, 卻還沒有成熟的技術和標準, 因此成
41、為相關領域的研究熱點。 頂部的兩層還沒有可靠論證,只是基于邏輯系統(tǒng)的一個構想。 2本體(Ontology) Ontology1的概念起源于哲學領域,即“對世界上客觀存在物 的系統(tǒng)地描述 4 ”。在人工智能界,最早給出本體定義的是 Neches 等人,他們將本體定義為“給出構成相關領域詞匯的基本 術語和關系,以及利用這些術語和關系構成的規(guī)定這些詞匯外延 的規(guī)則的定義5”。 后來在信息系統(tǒng)、 知識管理等領域, 越來越多的人研究本體, 并給出了許多不同的定義。其中最著名并被引用得最為廣泛的定 義是由 Gruber 提出的, “本體是概念模型的明確的規(guī)范說明1” 。 Fensel 對這個定義進行分析后
42、認為本體的概念包括四個主要方 面6: 概念化(conceptualization) :客觀世界中現(xiàn)象的抽象模型; 明確(explicit) :概念及它們之間聯(lián)系都被精確定義; 形式化(formal) :精確的數(shù)學描述; 1 早期多譯作“本體論” ,強調(diào)大寫,作為抽象名詞。后來付諸實踐,多譯作“本體” , 既代表一種概念,也代表建設好的具體本體,可以用作復數(shù)。本文采用“本體” 。 6 中國人民大學碩士學位論文 領域本體建設的方法論和工具研究 共享(share) :本體中反映的知識是其使用者共同認可的。 雖然不同研究者對本體有不同的描述,但是從內(nèi)涵上來看, 他們對本體的認識是一致的,都是把本體當作
43、某個領域內(nèi)(可以 是特定領域的,也可以是更廣的范圍)不同主體(人、代理、機 器等)之間進行交流(對話、互操作、共享等)的一種語義基礎, 即由本體提供明確定義的詞匯表,描述概念和概念之間的關系, 作為使用者之間達成的共識。因此,本體的用途包括交流、共享、 互操作、重用等等。 目前,本體已經(jīng)被廣泛應用于知識工程、自然語言處理、數(shù) 字圖書館、信息檢索和 Web 異構信息的處理、軟件復用、面向對 象技術和語義 Web 等領域31,32。 2.2 本體研究的熱點問題 1本體描述語言 值得注意的是,機器并不能像人類一樣理解蘊含在自然語言 中的語義,計算機最終把所有的信息都當作 0、1 串進行處理。而 本體
44、的目的是使信息成為機器可理解的,因此,在計算機領域討 論本體,首先就面臨著本體究竟是如何描述的,也就是概念的形 式化問題。對應的研究內(nèi)容就是本體的描述語言。 本體描述語言使得用戶為領域模型編寫清晰的、形式化的概 念描述,因此它應該滿足以下要求7: 良好定義的語法(a well-defined syntax) 良好定義的語義(a well-defined semantics) 7 中國人民大學碩士學位論文 領域本體建設的方法論和工具研究 有效的推理支持(efficient reasoning support) 充分的表達能力(sufficient expressive power) 表達的方便性
45、(convenience of expression) 2本體建設方法論 本體建設的現(xiàn)狀可以和軟件工程發(fā)展的初期類比,還處于個 人(或小團體)的手工作坊階段。從本體的概念來看,它的本質 要求包括概念化、明確、形式化、共享、重用等特征,可以說工 程性是本體建設的天然屬性。并且,由于軟件工程對軟件產(chǎn)業(yè)的 形成和發(fā)展起著決定性的推動作用,已經(jīng)有人提出了本體工程的 概念,也成為研究中的一個熱點問題。 如何才能大規(guī)模的建設本體?如何集成現(xiàn)有的不同本體?如 何維護本體及其進化過程?等等,這一系列的問題都需要方法論 作為指導,目前該領域研究還處于探索階段,沒有形成成熟的方 法論,是一個有價值的研究方向。因此
46、作者也對這個問題進行了 較為深入的研究,并在本文的第三部分著重論述研究成果。 3本體建設的輔助工具 本體建設不僅需要理論上的探討和研究,還必須實實在在的 構建出本體。從人員上來看,本體建設的工作主要是領域專家和 知識工人來做,這是一項非常費時、費力又易于出錯的工作,也 是導致目前大規(guī)模建設本體的項目比較少的直接原因。 如何能利用軟件系統(tǒng)輔助人們構建本體?這些軟件能在哪些 方面自動化或者半自動化的發(fā)揮作用?本體開發(fā)過程中如何支持 8 協(xié)同工作?不同軟件開發(fā)的本體如何集成?建設好的本體如何管 理和維護?等等也成為該領域亟待解決的問題。因此設計實現(xiàn)出 靈活實用的本體建設工具具有很強的現(xiàn)實價值。4.本
47、體的應用本體建設的目的是應用,這方面的研究遍布人工智能、信息 管理、知識管理相關的各個領域,典型的問題有:(1 基于語義的信息檢索,特別是網(wǎng)絡搜索引擎和數(shù)字化圖書 館 36,37。(2 基于本體的數(shù)據(jù)集成、機器學習等 38,39。(3 領 域 本 體 的 應 用 。 比 如 , 在 生 物 信 息 學 中 已 建 成 的 GeneOntology , 盡管只包括了 partOf 等簡單的關系 , 但是 對生物信息學界已經(jīng)有巨大的影響 40。(4 語義 Web 服務 41。(5 在線元數(shù)據(jù)管理和自動信息發(fā)布 37。2.3 本體描述語言自上個世紀 90年代以來,一些基于 AI 的本體實現(xiàn)語言陸續(xù)
48、被提出,如 KIF 、 Ontolingua 、 CycL 、 Loom , OCML , FLogic 。后 來,隨著 Web 的發(fā)展,又出現(xiàn)了一系列基于 Web 的本體語言,也 叫做本體標記語言, 如 SHOE 、 XOL 、 RDF 、 RDF-S 、 OIL 、 DAML 、 DAML +OIL 、 OWL 。2.3.1 基于 AI 的本體描述語言1. KIF14KIF (Knowledge Interchange Format 是由斯坦福大學開發(fā) 的。 它是一種在不同 KR 系統(tǒng)間交換知識的格式, 是基于一階邏輯 的語言。其特點是:有公開的語義:它不再需要專門的解釋器。在邏輯上是全面
49、的:它可以對任意的邏輯語句進行表達。 提供對元知識的表現(xiàn)。2. Ontolingua4Ontolingua 是 一 種 基 于 KIF (knowledge interchange format 的, 提供統(tǒng)一的規(guī)范格式來構建 Ontology 的語言。 其特 點是:為構造和維護 Ontology ,提供了統(tǒng)一的、計算機可讀的方 式; 由其構造的 Ontology 可以方便地轉換到各種知識表示和推理 系統(tǒng)(Prolog 、 CORBA 的 IDL 、 CLIPS 、 LOOM 、 Epikit 、 Algernon 和 KIF ,從而將 Ontology 的維護與使用它的目標系統(tǒng)分離。3. C
50、ycL4CycL 是 Cyc 系統(tǒng)的描述語言, 一種體系龐大而非常靈活的知 識描述語言。其特點是:在一階謂詞演算的基礎上擴充了等價推 理、缺省推理等功能;具備一些二階謂詞演算的能力;其語言環(huán) 境中配有功能很強的可進行推理的推理機。4. Loom4Loom 是一種基于一階謂詞邏輯的高級編程語言, 屬于描述邏 輯體系。其特點是:提供表達能力強、聲明性的規(guī)范說明語言; 提供強大的演繹推理能力;提供多種編程風格和知識庫服務。該 語言后來發(fā)展成為 PowerLoom 語言。 PowerLoom 是 KIF 的變體, 它 是 基 于 邏 輯 的 , 具 備 很 強 的 表 達 能 力 , 采 用 前 后 鏈 規(guī) 則 (backward and forward chain
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州商貿(mào)旅游職業(yè)學院《單片機應用課程設計》2023-2024學年第一學期期末試卷
- 小學2024年藝術教育發(fā)展年度報告
- 浙江電力職業(yè)技術學院《纖維化學與物理學》2023-2024學年第一學期期末試卷
- 長春大學《衛(wèi)生財務管理》2023-2024學年第一學期期末試卷
- 生產(chǎn)調(diào)度中的敏捷性管理策略
- 餐飲新員工安全訓練模板
- AI企業(yè)技術路演模板
- 水的化學屬性模板
- 生物制藥業(yè)策略講解模板
- 親子活動相冊制作模板
- 2025年度愛讀書學長主辦的讀書挑戰(zhàn)賽組織合同
- 2024年滄州經(jīng)濟開發(fā)區(qū)招聘社區(qū)工作者筆試真題
- 中外美術史試題及答案
- 2025年安徽省銅陵市公安局交警支隊招聘交通輔警14人歷年高頻重點提升(共500題)附帶答案詳解
- 公共政策分析 課件 第8章政策評估;第9章政策監(jiān)控
- 人教版八年級上學期物理期末復習(壓軸60題40大考點)
- 企業(yè)環(huán)保知識培訓課件
- 2024年度管理評審報告
- 暨南大學《微觀經(jīng)濟學》2023-2024學年第一學期期末試卷
- 醫(yī)藥銷售合規(guī)培訓
- DB51-T 5038-2018 四川省地面工程施工工藝標準
評論
0/150
提交評論