




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、學(xué)科領(lǐng)域本體的構(gòu)建與進(jìn)化以經(jīng)濟(jì)學(xué)領(lǐng)域本體為例?現(xiàn)代圖書(shū)情報(bào)技術(shù)?2007年第3期數(shù)字圖書(shū)館總第148期學(xué)科領(lǐng)域本體的構(gòu)建與進(jìn)化以經(jīng)濟(jì)學(xué)領(lǐng)域本體為例杜小勇馬文峰武文娟(中國(guó)人民大學(xué)信息學(xué)院北京100872)(中國(guó)人民大學(xué)圖書(shū)館北京100872)(教育部數(shù)據(jù)工程與知識(shí)工程重點(diǎn)實(shí)驗(yàn)室北京100872)【摘要】概述國(guó)內(nèi)外領(lǐng)域本體構(gòu)建方法及本體進(jìn)化的研究現(xiàn)狀;介紹以?中國(guó)分類主題詞表?為根底構(gòu)建"經(jīng)濟(jì)學(xué)領(lǐng)域本體"初始版本的根本過(guò)程,闡述經(jīng)濟(jì)學(xué)領(lǐng)域本體進(jìn)化的根本設(shè)想,以及具體進(jìn)化過(guò)程及方法,包括獲取進(jìn)化實(shí)驗(yàn)數(shù)據(jù)集,抽取候選關(guān)鍵詞,獲得本體新概念,建立概念關(guān)聯(lián)等.Construction
2、andEvolutionofDisciplineDomainOntologyACaseStudyforEconomicsDomainOntologyDuXiaoyong''MaWenfeng2WuWenjuan(SchoolofInformation,RenminUniversityofChina,Beng100872,China)(LibraryofRenminUniversityofChina,Beijing100872,China)(KeyLaboratoryofDataEngineeringandKnowledgeEngineering,MinistryofEducat
3、ion,Beng100872,China)【Abstract】ThispaperbrieflysurveysthestateoftheartofconstructionandevolutionofdomainOntology.ItdescribestheprocesstoconstructaprimaryveionofeconomicsOntologyfromexistingChineseclassifiedthesaurus,cludecreatingadatasetforOntologylearning,determiningthecandidatekeywords,anddiscover
4、ingtheconceptsandrelationshipofthedomainOntology.【Keywords】OntologyDomainOntologyDisciplinedomainOntologyDomainOntologyevolution1引言2學(xué)科領(lǐng)域本體構(gòu)建與進(jìn)化研究概述本體在知識(shí)組織與知識(shí)管理中的重要性已被眾多領(lǐng)看,單純從技術(shù)角度描述本體的較多,理論聯(lián)系實(shí)踐,并管理實(shí)踐,立足學(xué)科領(lǐng)域本體,并以"經(jīng)濟(jì)學(xué)領(lǐng)域本體"試驗(yàn)開(kāi)發(fā)為例,研究探討學(xué)科領(lǐng)域本體的構(gòu)建與進(jìn)化.收稿日期:200701一lO收修改稿日期:2007一O120本文系國(guó)家社會(huì)科學(xué)基金資助工程&q
5、uot;數(shù)字資源整合的理論與方法"(工程編號(hào):04BTQ003)和國(guó)家自然科學(xué)基金資助工程"本體庫(kù)管理系統(tǒng)技術(shù)研究"(工程編號(hào):60573092)的研究成果之一.利用領(lǐng)域本體組織領(lǐng)域資源的根本思路,即是在資源集合的上層構(gòu)建一個(gè)反映領(lǐng)域資源知識(shí)結(jié)構(gòu)的領(lǐng)域本體概念模型,以此為根底對(duì)資源進(jìn)行基于語(yǔ)義的標(biāo)注,提供基于語(yǔ)義的資源瀏覽與檢索.所以,怎樣構(gòu)建領(lǐng)域本體已經(jīng)成為一個(gè)新的研究熱點(diǎn)¨,在實(shí)踐中也產(chǎn)生了一些面向不同應(yīng)用需求的本體構(gòu)建方法,如IDEF一5法,骨架法,企業(yè)建模法,Methontology法,循環(huán)獲取法,七步法等.文獻(xiàn)5在介紹上述本體構(gòu)建方法的根底上,
6、闡述了一個(gè)本體原型構(gòu)建的根本過(guò)程.文獻(xiàn)6面向?qū)W科領(lǐng)學(xué)科領(lǐng)域本體的構(gòu)建過(guò)程中,初始核心本體的獲得是關(guān)?一7?現(xiàn)代圖書(shū)情報(bào)技術(shù)?2007年第3期數(shù)字圖書(shū)館總第148期鍵.目前大致有兩條獲得路徑,一是通過(guò)知識(shí)獲取技術(shù)從現(xiàn)有的學(xué)科數(shù)據(jù)庫(kù)中提取專業(yè)術(shù)語(yǔ),挖掘,發(fā)現(xiàn)學(xué)科的根本概念,再由領(lǐng)域?qū)<掖_認(rèn)并建立概念關(guān)聯(lián);二是在傳統(tǒng)的知識(shí)組織體系如分類法和主題詞表中轉(zhuǎn)換改造為初與本體的改造,融合及轉(zhuǎn)換.化也稱本體學(xué)習(xí)或本體演化,即是在初始核心領(lǐng)域本體根底上,依據(jù)一定的理論,技術(shù)和標(biāo)準(zhǔn),對(duì)本體概念結(jié)構(gòu),概念及關(guān)系不斷進(jìn)行豐富,完善,改良,更新和評(píng)估的過(guò)進(jìn)化的重點(diǎn)和難點(diǎn).近些年來(lái),這方面的研究開(kāi)始引起學(xué)界的關(guān)注,文獻(xiàn)1
7、2對(duì)其進(jìn)行了較為全面的綜述.對(duì)于概念的獲取,國(guó)外目前提出了三類方法,即基于語(yǔ)言學(xué)的方法¨,基于統(tǒng)計(jì)的方法¨,結(jié)合語(yǔ)言學(xué)和文獻(xiàn)20提出的利用Bootstrapping的機(jī)器學(xué)習(xí)技術(shù),文獻(xiàn)21提出的采用非線性函數(shù)與"成比照擬法"相結(jié)合的方法,文獻(xiàn)22提出的將統(tǒng)計(jì)方法與規(guī)那么方法相結(jié)合的專業(yè)領(lǐng)域術(shù)語(yǔ)抽取算法等.對(duì)于概念問(wèn)關(guān)系的獲取,國(guó)外研究也很多,常用的方法有:基于模板的方法,基于概念聚類的方法,基于關(guān)聯(lián)規(guī)那么的方法,基于詞典的方法及使用假設(shè)干種方法的混和方法¨.為進(jìn)一步給獲取的關(guān)系賦予相應(yīng)的語(yǔ)義標(biāo)簽,文獻(xiàn)31提出使用擴(kuò)展的關(guān)聯(lián)規(guī)那么挖掘方法為本體中
8、概念間的非分類關(guān)系賦予語(yǔ)義標(biāo)簽.目前,國(guó)內(nèi)關(guān)于領(lǐng)域本體的進(jìn)化尚無(wú)深入的研究成果,一些涉及本體進(jìn)化的研究多側(cè)重于技術(shù)層面,拘泥于是幾個(gè)算法就能解決問(wèn)題的,它是一項(xiàng)復(fù)雜的系統(tǒng)工程,需要以一定的理論為指導(dǎo),需要和學(xué)科開(kāi)展保持同步,同時(shí)必須基于科學(xué)文獻(xiàn)的標(biāo)注實(shí)踐.3經(jīng)濟(jì)學(xué)領(lǐng)域本體的構(gòu)建與進(jìn)化筆者認(rèn)為,轉(zhuǎn)換改造傳統(tǒng)分類法/主題詞表中的分類概念和主題概念,是獲得學(xué)科領(lǐng)域本體初始核心概念的科學(xué)方法.因?yàn)轭I(lǐng)域本體的根底是概念系統(tǒng),而分類法/主題詞表也是分類概念和主題概念及關(guān)系的集合,其基使用于各個(gè)學(xué)科領(lǐng)域,因此從中選擇某一領(lǐng)域,將其改造轉(zhuǎn)換為初始核心本體的根底,是一種比擬科學(xué),簡(jiǎn)便且實(shí)?8?用的學(xué)科領(lǐng)域本體構(gòu)
9、建方法.基于這一思路和認(rèn)識(shí),筆者采用了2005年出版的?中國(guó)分類主題詞表(第2版)?電子版來(lái)構(gòu)建經(jīng)濟(jì)學(xué)學(xué)科領(lǐng)域初始核心本體.?中國(guó)分類主題詞表?是在?中國(guó)圖書(shū)館分類法?第三版和?漢語(yǔ)主題詞表?第一版的根底上編制的兩者相互52992個(gè),正式主題詞l10837條,主題詞串59738條,非正式主題詞(入口詞)35690條,涵蓋哲學(xué),社會(huì)科學(xué)和自然科學(xué),工程技術(shù)等各領(lǐng)域?qū)W科和主題概念.?中國(guó)分類主題詞表?采用基于類目涵義的一體化對(duì)應(yīng)方式來(lái)反映類目和主題的關(guān)系,通過(guò)一一對(duì)應(yīng),增詞對(duì)應(yīng),上位對(duì)應(yīng),組配對(duì)應(yīng),包含對(duì)應(yīng)這5種方法,將符合條件的主題詞無(wú)遺漏地對(duì)應(yīng)在分類法類目之下,用主題法形式揭示分類法類目的內(nèi)容
10、,完成類目涵義與主題意義的兼容,因而可以說(shuō)是構(gòu)建了一個(gè)完整的知識(shí)地圖,既描述了知識(shí)的等級(jí)體系,又描述了主題概念的語(yǔ)義關(guān)聯(lián),還描述了這兩者的對(duì)應(yīng)聯(lián)系.雖然?中國(guó)分類主題詞表?中的分類/主題概念不那么標(biāo)準(zhǔn)和嚴(yán)密,語(yǔ)義關(guān)系也比擬簡(jiǎn)單,但由于它涵蓋了學(xué)科領(lǐng)域的核心概念,其中有屬分關(guān)系或相關(guān)關(guān)系參照的主題詞達(dá)77%3,反映了最根本,重要的概念邏輯關(guān)系,因此將其經(jīng)濟(jì)領(lǐng)域的概念轉(zhuǎn)化為初始本體,在此根底上再進(jìn)行試驗(yàn)與探索,是一個(gè)非常適用的初始本體構(gòu)建方法.筆者以?中國(guó)分類主題詞表?中經(jīng)濟(jì)類分類/主題概念為根底,建立了經(jīng)濟(jì)學(xué)領(lǐng)域的初始本體概念集,共獲取經(jīng)濟(jì)本體概念12627個(gè),其中分類概念l523個(gè),主題概念l
11、1104個(gè)(其中具有屬分關(guān)系的主題詞5366個(gè),具有相關(guān)關(guān)系的主題詞4351個(gè)).類概念是主干,主要反映學(xué)科概念間等級(jí)關(guān)系,主題概念是枝葉,主要反映主題概念問(wèn)的等級(jí)和相關(guān)關(guān)系及等同關(guān)系,以此構(gòu)成一個(gè)經(jīng)濟(jì)學(xué)領(lǐng)域概念網(wǎng)絡(luò)("經(jīng)濟(jì)學(xué)領(lǐng)域本體"EOV1.0).領(lǐng)域本體的進(jìn)化需要考慮以下問(wèn)題:為概念進(jìn)化的根底數(shù)據(jù),一是用戶資源查詢?nèi)罩?一是資源標(biāo)注記錄.鑒于目前沒(méi)有資源查詢的日志信息,本次實(shí)驗(yàn)主要初始本體概念中,網(wǎng)絡(luò)文獻(xiàn)對(duì)其標(biāo)引得還很少,缺乏以成為進(jìn)化的依據(jù),因此,目前只有期刊論文的標(biāo)注信息可作為本體概念進(jìn)化的依據(jù).期刊論文的前置信息(摘要,關(guān)鍵詞,中圖分類號(hào))是作者對(duì)文獻(xiàn)的概要描述
12、,是原始的標(biāo)注信息,特別是關(guān)鍵詞反映了文獻(xiàn)的主要內(nèi)容,可以作為進(jìn)化的主要依據(jù).?現(xiàn)代圖書(shū)情報(bào)技術(shù)?2007年第3期數(shù)字圖書(shū)館總第148期體進(jìn)化概念,要看其是否具有一定的標(biāo)注頻度,一個(gè)詞被標(biāo)注的概率要到達(dá)一定的要求,才能作為本體進(jìn)化概念予以考慮.完全自動(dòng)發(fā)現(xiàn)概念關(guān)聯(lián)的方法尚不可行,因此采用一些啟發(fā)式的規(guī)那么來(lái)輔助發(fā)現(xiàn)概念之間的關(guān)系顯得尤為重要.具體進(jìn)化過(guò)程及方法:(1)獲取實(shí)驗(yàn)數(shù)據(jù).本次實(shí)驗(yàn)從?中國(guó)期刊全文數(shù)據(jù)庫(kù)?中抽取20022004年共3年的文獻(xiàn)作為本體進(jìn)化的實(shí)驗(yàn)數(shù)前還不知道我國(guó)經(jīng)濟(jì)學(xué)文獻(xiàn)的半衰期的具體值,因此選擇3年時(shí)限主要是考慮到實(shí)驗(yàn)中數(shù)據(jù)處理的時(shí)間.另外,規(guī)定一個(gè)時(shí)間期限將有助于今后進(jìn)
13、一步的進(jìn)化實(shí)驗(yàn),包括某些老化本體概念剔除的可能.(2)抽取候選關(guān)鍵詞集合.在獲取的785426篇論文中,作者標(biāo)注關(guān)鍵詞的論文232456篇,沒(méi)有標(biāo)注關(guān)鍵詞的論文取關(guān)鍵詞的依據(jù).在232456篇標(biāo)注關(guān)鍵詞的論文中,共獲取關(guān)鍵詞164553個(gè),其中,經(jīng)濟(jì)初始本體中已有概念5172個(gè),通用概念1748個(gè),被?中國(guó)分類主題詞表?收錄的相關(guān)領(lǐng)域主題詞9478個(gè),剩下150425個(gè)關(guān)鍵詞.在抽取關(guān)鍵詞時(shí),對(duì)以下情況進(jìn)行了預(yù)處理.例如,對(duì)括號(hào)的處理,有些關(guān)鍵詞是一些縮寫,作者標(biāo)引的時(shí)候習(xí)慣將其含義放在括號(hào)中,或者反過(guò)來(lái)將縮寫放在括號(hào)中,以下兩種標(biāo)引都是常見(jiàn)的:CRM(客戶關(guān)系管理),客戶關(guān)系管理(CRM).
14、對(duì)于這種情況,需要進(jìn)行一些標(biāo)準(zhǔn)化處理.具體做法為:將括號(hào)內(nèi)外的詞區(qū)分開(kāi)來(lái),作為兩個(gè)獨(dú)立的關(guān)鍵詞,然后在這兩個(gè)關(guān)鍵詞之間建立起等價(jià)關(guān)系,并確定中文關(guān)鍵詞為標(biāo)準(zhǔn)詞,替換論文中的關(guān)鍵詞.有些情況下,縮寫相同,但是中文卻不一樣.例如,"ABC"這個(gè)詞,不同的作者分別應(yīng)用不同的中文,包括"作業(yè)本錢法","作業(yè)本錢核算","作業(yè)本錢計(jì)算","作業(yè)本錢","活動(dòng)本錢法"等.對(duì)此,除了要在這些單詞與ABC有一種情況是,中文相同但英文各異,這時(shí)只要簡(jiǎn)單地丟棄英文就可以了.在150425個(gè)詞中,
15、到底哪些可以作為本體新概念的候選詞集合,還需要作進(jìn)一步的限定.例如,可以關(guān)鍵詞出現(xiàn)的現(xiàn)/標(biāo)注次數(shù)應(yīng)在某個(gè)閾值以上,在出現(xiàn)某個(gè)閾值以上的關(guān)鍵詞中,還應(yīng)該考慮其出現(xiàn)的位置,這里的位置主要指題名位置.因?yàn)闃?biāo)題是標(biāo)明文章中心內(nèi)容的簡(jiǎn)短語(yǔ)句,一般能夠反位置是選取本體概念候選集合的一個(gè)重要指標(biāo).本次實(shí)驗(yàn)規(guī)定,在150425個(gè)候選關(guān)鍵詞中,"出現(xiàn)/標(biāo)注次數(shù)>=10",并且"題名出現(xiàn)>=5"的關(guān)鍵詞可以進(jìn)入本體進(jìn)化概念的候選集合.經(jīng)統(tǒng)計(jì),符合這一規(guī)定,即出標(biāo)注次數(shù)超過(guò)1O次并且在題名中出現(xiàn)5次以上的關(guān)鍵詞有4328個(gè).由于學(xué)科專業(yè)領(lǐng)域不同,不
16、同的專業(yè)領(lǐng)域其開(kāi)展速度也不均衡,因此,下一步對(duì)低于"出標(biāo)注次數(shù)>=10","題名出現(xiàn)>=5"的關(guān)鍵詞也需要經(jīng)過(guò)其他方法或者領(lǐng)域?qū)<以龠M(jìn)行甄別.對(duì)4328個(gè)候選關(guān)鍵詞又作了進(jìn)一步處理:刪除沒(méi)有實(shí)質(zhì)意義的詞.一般來(lái)講,論文關(guān)鍵詞應(yīng)是反映論文的作者由于沒(méi)有掌握關(guān)鍵詞選取方法,標(biāo)注了一些沒(méi)有實(shí)質(zhì)檢索意義的詞,如"開(kāi)展","提高","回憶","反思","前景","初探","兩難","走出去
17、"等,因而需要將這些非關(guān)鍵性詞語(yǔ)剔除.刪除屬于其他學(xué)科領(lǐng)域的詞(術(shù)語(yǔ),人名,地名等).如"文化建設(shè)","案例教學(xué)","長(zhǎng)株潭","蘇北"等.經(jīng)過(guò)專家篩選,共剔除1351個(gè)關(guān)鍵詞,能夠作為本體新概念候選集合的詞共2977個(gè).念間的關(guān)系,也就是說(shuō),怎樣建立進(jìn)化概念和初始本體概念間的關(guān)聯(lián),這是本體進(jìn)化重要而困難的一步.如前所述,需要制的出現(xiàn)位置,出現(xiàn)頻率,出現(xiàn)形式等的初步分析,提出以下幾個(gè)規(guī)那么作為發(fā)現(xiàn)/建立概念關(guān)聯(lián)的根本方法:分類概率規(guī)那么:某一關(guān)鍵詞所屬文獻(xiàn)被類分類目的次數(shù)越多,其與本體分類概念的關(guān)聯(lián)程度也
18、越高.的多個(gè)類目中,在這種情況下,可以根據(jù)該關(guān)鍵詞所屬文獻(xiàn)被類分的頻率進(jìn)行判斷,選取類分頻率高的類目與本體分類概念的類號(hào)進(jìn)行對(duì)應(yīng),即可將這一關(guān)鍵詞看作是與本體分類概念對(duì)應(yīng)的相關(guān)概念,在該進(jìn)化關(guān)鍵詞與本體分類概念之間建立關(guān)聯(lián).經(jīng)統(tǒng)計(jì),在2977個(gè)候選關(guān)鍵詞中,有2161個(gè)詞在其出現(xiàn)的全部次數(shù)中(即出現(xiàn)/標(biāo)注次數(shù)>=10并且題名出現(xiàn)>=5),有一半以上出現(xiàn)在(被類分在)同一個(gè)二級(jí)類目中.因此,從語(yǔ)義上可以判定這些詞與其分類類H/概念(或下屬分類類H/概念)之間具有關(guān)聯(lián)性.如表1所示.?詞素一致規(guī)那么:某一關(guān)鍵詞的詞素與本體概念的詞素的相似性越高,兩者的關(guān)聯(lián)程度也越高.由
19、于漢語(yǔ)的同義詞,準(zhǔn)同義詞及近義詞往往具有詞素相似性(1字,2字以至多字),所以可以通過(guò)分析關(guān)鍵詞與本體主題概念所含詞素的相似程度,選出與本體主題概念相等或相近的主題詞,建立與本體概念等同關(guān)系和近義關(guān)系的關(guān)聯(lián).本次實(shí)驗(yàn)中,由于尚無(wú)法從本體詞/候選關(guān)鍵詞中準(zhǔn)確地別離出詞素來(lái),所以僅考慮"包含"這種關(guān)系,也就是本體詞作為某個(gè)候選關(guān)鍵詞的子串,或者候選關(guān)鍵詞是某個(gè)本體詞的子串這種情況.在此根底上計(jì)算指數(shù):2min(IsI,ItI)/大于一定閾值(本次實(shí)驗(yàn)中取0,7).?9?現(xiàn)代圖書(shū)情報(bào)技術(shù)?2007年第3期數(shù)字圖書(shū)館總第148期例如,候選關(guān)鍵詞"可持續(xù)經(jīng)營(yíng)"和本
20、體概念"持續(xù)經(jīng)營(yíng)",前者包含后者.在這個(gè)例子中,公共子串的字?jǐn)?shù)即概念的字?jǐn)?shù)是4,關(guān)鍵詞種計(jì)算方法,如果本體概念和關(guān)鍵詞完全相同,那么公共子串即關(guān)鍵詞和概念的長(zhǎng)度全都相同,這樣,所得到的比例值就是1;如果本體概念和關(guān)鍵詞沒(méi)有重疊的局部,其比例值就是O.因此,這個(gè)比例值是一個(gè)大于O小于1的數(shù).如果公共子串(也即"被包含詞")占"包含詞"的比例越大,所得到的比例值就越大;如果"包含詞"很長(zhǎng),而"被包含詞"很短,那么其比例值就會(huì)比擬小,多數(shù)情況下,它們之間的關(guān)系相對(duì)就較弱了.表1候選關(guān)鍵詞所屬論文類分例
21、如全局相對(duì)父候選關(guān)鍵詞所分類別比例類比例注冊(cè)會(huì)計(jì)師行業(yè)F233會(huì)計(jì)工作組織與制度11預(yù)算執(zhí)行審計(jì)F239審計(jì)11電信運(yùn)營(yíng)企業(yè)發(fā)F626電信企業(yè)組織和經(jīng)營(yíng)管理1l生態(tài)畜牧業(yè)173263畜牧業(yè),飼養(yǎng)業(yè)11(注:1)所分類別:即指該關(guān)鍵詞出現(xiàn)的總次數(shù)中,有4o%以上都出現(xiàn)在該類;Of且關(guān)鍵詞出現(xiàn)在該類的次數(shù)占出現(xiàn)該類父類的所有子類的次數(shù)總和的70%以上.例如,"中小金融機(jī)構(gòu)"出現(xiàn)在"17832"中42次,出現(xiàn)在"1783"及所有子類中共44次(包括17831,17832,17833,17832.1.有符合條件的結(jié)果中,同時(shí)考慮級(jí)別高和全局比
22、例,相對(duì)父類的比例,選出最優(yōu)的結(jié)果.2)全局比例:即該關(guān)鍵詞出現(xiàn)在所分類目的次數(shù)與其所出現(xiàn)的總次數(shù)的比值.3)相對(duì)父類的比例:即該關(guān)鍵詞出現(xiàn)在所分類目的次數(shù),除以出現(xiàn)在該類目的父類所有子類的次數(shù)總和.)本次試驗(yàn)選擇了對(duì)應(yīng)比例值>O.7的"候選關(guān)鍵詞一本體概念"系的例如.可以看出,在表2,表3包含/被包含的候選關(guān)鍵詞和本體概念之間,可以建立等同關(guān)系,近義關(guān)系和相關(guān)關(guān)系的關(guān)聯(lián).?10?表2候選關(guān)鍵詞與本體概念詞素匹配例如A(候選關(guān)鍵詞包含本體概念)候選關(guān)鍵詞本體概念概念詞素比例分類號(hào)長(zhǎng)度值綠色貿(mào)易壁壘貿(mào)易壁壘r7424O8(注:1)概念分類號(hào):本體概念所對(duì)應(yīng)的中圖
23、法分類號(hào).2)詞素長(zhǎng)度:即子串長(zhǎng)度,指被包含詞的字?jǐn)?shù).3)比例值:即按上述方法計(jì)算的比例值.)必須說(shuō)明的是,以關(guān)鍵詞和本體概念"包含/被包含"作為詞素一致規(guī)那么的方式,不是發(fā)現(xiàn)關(guān)聯(lián)的最正確方式,它會(huì)喪失一些有意義的關(guān)聯(lián)關(guān)系,例如:(關(guān)鍵詞)附加值(本體概念)高附加值,更為適宜的關(guān)聯(lián)對(duì)應(yīng)是:(關(guān)鍵詞)附加值存在個(gè)別對(duì)應(yīng)誤差的現(xiàn)象,例如:(關(guān)鍵詞)資金流(本體概念)資能作為輔助發(fā)現(xiàn)關(guān)鍵詞和本體概念關(guān)聯(lián)的手段,其關(guān)聯(lián)的最終確定還需要由專家來(lái)完成.關(guān)聯(lián)度規(guī)那么:某一關(guān)鍵詞與某一本體概念共現(xiàn)的頻率越高,其關(guān)聯(lián)程度也越高.一些關(guān)鍵詞看起來(lái)是相對(duì)獨(dú)立的詞,可以通過(guò)數(shù)據(jù)挖掘中的頻繁項(xiàng)集發(fā)現(xiàn)
24、算法,找出該關(guān)鍵詞與本體概念的共現(xiàn)關(guān)系.例如,"減持"是在題名中出現(xiàn)頻率較高的詞(39次),經(jīng)統(tǒng)計(jì),該詞在題名中和"國(guó)有股"共現(xiàn)次數(shù)最高(42次),所以可與"17830,91證券市場(chǎng)"對(duì)應(yīng)的主題詞"國(guó)有股流通"和"國(guó)有股"建立關(guān)聯(lián).需要指出:(1)由于類分文獻(xiàn)既需要有分類依據(jù)(如?中圖法?),也需具備一定的文獻(xiàn)分類知識(shí),而論文作者受其知識(shí)和條件所限,使得一些論文類分存在不同程度的隨意性.因此,以上規(guī)那么不是絕對(duì)的,只是作為建立概念關(guān)聯(lián)的參考與輔助.例如,關(guān)鍵詞出現(xiàn)頻率高的類目與本體概念類目可能存
25、在較低的對(duì)應(yīng),而關(guān)鍵詞出現(xiàn)頻率較低的類目與本體概念類目也可能存?現(xiàn)代圖書(shū)情報(bào)技術(shù)?2007年第3期數(shù)字圖書(shū)館總第148期在較高對(duì)應(yīng).因此,為了使概念問(wèn)的關(guān)聯(lián)具有準(zhǔn)確性,需采用人機(jī)結(jié)合的方式,在按上述規(guī)那么由計(jì)算機(jī)建立初步關(guān)聯(lián)后,應(yīng)由領(lǐng)域?qū)<疫M(jìn)行最終評(píng)價(jià)和確認(rèn).(2)從進(jìn)化的角度看,我們?cè)谶\(yùn)用上述規(guī)那么的時(shí)候,盡量念可以在今后不斷完善本體進(jìn)化技術(shù)的根底上再發(fā)現(xiàn)出來(lái).(3)從使用目的看,本體的主要目的是資源的組織和檢索.一些不恰當(dāng)?shù)谋倔w概念被發(fā)現(xiàn)出來(lái),被用于資源組織,問(wèn)題也不大.從系統(tǒng)管理的角度看,只不過(guò)是增加了一些無(wú)用的索引而已,不會(huì)對(duì)檢索的正確性造成影響.經(jīng)過(guò)上述工作后,初步獲得了"
26、經(jīng)濟(jì)學(xué)領(lǐng)域本體"的新版本(EOV2.0),新版本共增加本體詞2161個(gè),新增關(guān)系2821個(gè),其中分類概念與主題詞之間的關(guān)聯(lián)關(guān)系2161條,等同,近義,相關(guān)關(guān)系的詞660條.表3候選關(guān)鍵詞與本體概念詞素匹例如B(本體概念包含候選關(guān)鍵詞)概念詞素比例候選關(guān)鍵詞本體概念長(zhǎng)度值分類號(hào)一(注:各列含義同表2.)4結(jié)語(yǔ)領(lǐng)域本體建設(shè)是一項(xiàng)復(fù)雜的系統(tǒng)工程,不是輕而易舉就能夠構(gòu)建的,需要腳踏實(shí)地進(jìn)行理論研究與應(yīng)用試驗(yàn).首先,要對(duì)領(lǐng)域本體構(gòu)建的理論,方法與技術(shù)進(jìn)行深入研究,建立公認(rèn)的核心概念和完整的領(lǐng)域本體構(gòu)建的理論體系,以及具有適用性,針對(duì)性的領(lǐng)域本體構(gòu)建技術(shù)體系.其次,面向某一應(yīng)用領(lǐng)域進(jìn)行領(lǐng)域本體系
27、統(tǒng)的構(gòu)建實(shí)驗(yàn).在此根底上,總結(jié)經(jīng)驗(yàn),尋找規(guī)律,將其提升為理性認(rèn)識(shí),再進(jìn)一步指導(dǎo)實(shí)踐,以促進(jìn)領(lǐng)域本體的實(shí)驗(yàn)研究更快,更有效地走向應(yīng)用.本文在對(duì)國(guó)內(nèi)外領(lǐng)域本體構(gòu)建方法及本體進(jìn)化的研究現(xiàn)狀進(jìn)行概述的根底上,立足經(jīng)濟(jì)學(xué)領(lǐng)域,介紹"經(jīng)濟(jì)領(lǐng)域本體是某一學(xué)科領(lǐng)域知識(shí)體系的概念集,所以,以反映學(xué)科知識(shí)概念的分類法/主題詞表為根底構(gòu)建"經(jīng)濟(jì)學(xué)自動(dòng)或半自動(dòng)方式獲取進(jìn)化概念及其與本體概念之間的關(guān)聯(lián),是"經(jīng)濟(jì)學(xué)領(lǐng)域本體"進(jìn)化的關(guān)鍵,本文提出分類概率規(guī)那么,詞素一致規(guī)那么和關(guān)聯(lián)度規(guī)那么作為發(fā)現(xiàn)/建立概念樣提高進(jìn)化概念與本體概念關(guān)聯(lián)的正確度;如何發(fā)現(xiàn)具有屬分關(guān)系的概念關(guān)聯(lián);怎樣在等
28、同,等級(jí),相關(guān)關(guān)系的根底上增加新的概念關(guān)系,以增強(qiáng)領(lǐng)域本體的語(yǔ)義表達(dá)能力;怎樣獲取領(lǐng)域本體公理,實(shí)現(xiàn)本體推理功能等等,都需要進(jìn)一步深人研究和試驗(yàn).參考文獻(xiàn):技術(shù),2004(7):17222袁媛.領(lǐng)域本體建設(shè)的方法論和工具研究:學(xué)位論文.北京:中國(guó)人民大學(xué),2004:793NoyNF,McGuinnessDL.OntologyDevelopment101:AGuidetotions/ontologydevelopment/ontology101一noy(AccessedFeb.08,2006)4CorehoO,FernandezLopezM,GomezPerezA.Methodologies,p
29、oint?Data&KnowledgeEngineering,2003,46(1):4164館學(xué),信息科學(xué),資料工作,2005(8):134139作,2005(8):74787王素芳.Ontology與敘詞表的融合初探.大學(xué)圖書(shū)館,2005(1):75788唐靜.敘詞表轉(zhuǎn)換為Ontology的研究.情報(bào)理論與實(shí)踐,2004(6):642645館,2004(3):4144,64識(shí),2OO6(12):828511馬文峰,杜小勇.領(lǐng)域本體進(jìn)化研究.圖書(shū)情報(bào)工作,2OO6(6):7174?11.?現(xiàn)代圖書(shū)情報(bào)技術(shù)?2007年第3期數(shù)字圖書(shū)館總第148期l2杜小勇,李曼,王珊.本體學(xué)習(xí)綜
30、述.軟件,2006(9):1837一l847guageTexts.Int'lJournalHumanComputerStudies,2004,60(1):1763ECAI2004WorkshoponOntologyLearning.2000. :/o12000.karlsruhe.de/(AccessedMay.30,2006)proachtoAutomaticAcquisitionofDomainRelevantTermsandTheirRelationswithBootstrapping.In:Proc.oftheLREC2002. :/sb.de/feiyu/LRECTermEx
31、traction(AccessedMay.30,2006)tologyLearningandEngineering.IEEEComputer,2002,35(11):6063tems,2003,18(1):2231tomaticExtractionofTerminology.In:Proc.oftheACL'94Workshop"TheBalancingAct:CombiningSymbolicandStatisticalAp-W94-0104.pdf(AccessedJun.3,2006)FOIS.NewYork:ACMPress,2001,270284Bootstrapping.In:Pl'oc.oftheJSCL.Beij
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣西賀州市本年度(2025)小學(xué)一年級(jí)數(shù)學(xué)部編版隨堂測(cè)試((上下)學(xué)期)試卷及答案
- 2025屆福建省龍巖市武平縣第二中學(xué)高考英語(yǔ)押題試卷含答案
- 食品理化檢驗(yàn)?zāi)M習(xí)題+答案
- 天津市第八十二中學(xué)英語(yǔ)2024-2025學(xué)年高二下學(xué)期期中英語(yǔ)試題(原卷版+解析版)
- 纖維制品的跨境電商物流解決方案考核試卷
- 自行車騎行與城市綠色經(jīng)濟(jì)發(fā)展考核試卷
- 煤炭燃料發(fā)電與余熱利用考核試卷
- 絲織品在交通領(lǐng)域的應(yīng)用考核試卷
- 聚噻吩纖維在有機(jī)光伏領(lǐng)域的應(yīng)用考核試卷
- 燃油零售風(fēng)險(xiǎn)管理與防范考核試卷
- 工業(yè)自動(dòng)化控制系統(tǒng)調(diào)試與維護(hù)題庫(kù)
- 2025屆廣東省佛山市高三語(yǔ)文二模高分范文12篇:“成長(zhǎng)最大的悲哀是失去了想象力”
- 2025年合肥高新美城物業(yè)有限公司招聘30人筆試參考題庫(kù)附帶答案詳解
- 2025內(nèi)蒙古中煤鄂爾多斯能源化工有限公司招聘98人筆試參考題庫(kù)附帶答案詳解
- 青少年體重健康管理
- 2025年中國(guó)AI醫(yī)療健康企業(yè)創(chuàng)新發(fā)展百?gòu)?qiáng)榜單報(bào)告-摩熵咨詢
- 建筑垃圾清運(yùn)投標(biāo)技術(shù)方案
- 小學(xué)科學(xué)課件《水的循環(huán)》
- SJG 81-2020 政府投資辦公建筑室內(nèi)裝修材料空氣污染控制標(biāo)準(zhǔn)
- 教師課題研究中的常見(jiàn)問(wèn)題與解決策略
- 臨床合理用血知識(shí)培訓(xùn)
評(píng)論
0/150
提交評(píng)論