


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、淺論一種醫(yī)療本體語義相似度算法的設(shè)計(jì)摘要:由于目前檢索技術(shù)效率低下,所以需要一種基于本體的檢索技術(shù)來提高效率。語義相似度計(jì)算是基于本體的檢索技術(shù)的一個(gè)關(guān)鍵問題。本文對(duì)已有語義相似度計(jì)算方法進(jìn)行總結(jié)并改進(jìn),最后對(duì)其進(jìn)行分析。關(guān)鍵詞:本體;本體檢索;語義相似度計(jì)算1 引言隨著 Internet 的日益發(fā)展和普及,本體在信息采集、信息檢索及本體集成等方面的應(yīng)用越來越廣泛。2002年12月18日Berners-Lee在國(guó)際 XML2000 的會(huì)議提出 Semantic Web(語義網(wǎng) )的構(gòu)想1 。在 Semantic Web 中,語義相似度算法是實(shí)現(xiàn)基于本體的檢索、采集等的關(guān)鍵問題。因此語義相似度算
2、法的好壞成為信息檢索效率高低的重點(diǎn),于是改良語義相似度算法是一個(gè)迫切的問題。關(guān)于語義的相關(guān)性,國(guó)內(nèi)外專家已經(jīng)做了大量的工作: Resnik 根據(jù)兩個(gè)詞的公共祖先節(jié)點(diǎn)的最大信息量來衡量?jī)蓚€(gè)詞的語義相似度。 Agirre 等在利用 WordNet 計(jì)算詞語的語義相似度時(shí),除了結(jié)點(diǎn)間的路徑長(zhǎng)度外,還考慮到概念層次樹的深度、概念層次樹的區(qū)域密度。魯松研究了如何利用詞語的相關(guān)性來計(jì)算詞語的相似度。 Li Sujian 等提出了一種詞語語義相似度的計(jì)算方法,計(jì)算過程綜合利用了知網(wǎng)和同義詞詞林。朱禮軍等引入了計(jì)算語言學(xué)中的語義距離思想來計(jì)算領(lǐng)域本體中概念間的相似度。本文總結(jié)前人的經(jīng)驗(yàn),并將概念的數(shù)據(jù)類型考慮
3、其中,這樣概念的語義相似度就更加精確。2 本體與領(lǐng)域本體本體 (Ontology) 作為一種能在語義和知識(shí)層次上描述信息的概念模型,自被提出以來就引起了國(guó)外眾多科研人員的關(guān)注,并在計(jì)算機(jī)的許多領(lǐng)域得到了廣泛的應(yīng)用,如知識(shí)工程、數(shù)字圖書館、軟件復(fù)用、信息檢索和Web 上異構(gòu)信息的處理、語義Web 等。2.1 本體的概念目前對(duì)本體的定義有很多,專家們認(rèn)為由Studer 等人在 1998 年提出的“本體是共享概念模型的明確的形式化規(guī)范說明。3 ”最為精確。它包含 4 層含義:概念化 (conceptualization)、明確 (explicit) 、形式化(formal) 和共享 (share)。
4、(1)概念化:指通過抽象得出客觀世界中一些現(xiàn)象 (Phenomenon)的概念模型。(2)明確:指所使用的概念及使用這些概念的約束都有明確的定義。(3)形式化:指本體是計(jì)算機(jī)可讀的(即能被計(jì)算機(jī)處理)。( 4)共享:本體中體現(xiàn)的是共同認(rèn)可的知識(shí),反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,它所針對(duì)的是團(tuán)體而不是個(gè)體。2.2 本體的分類Guarino5 在1997 年對(duì)本體依照領(lǐng)域依賴程度,分為頂級(jí)(top-level)、領(lǐng)域 (domain)、任務(wù) (task)和應(yīng)用 (application) Ontologies 共 4類。其中: (1)頂級(jí) Ontologies 描述的是最普通的概念及概念之間的關(guān)系
5、,與具體的應(yīng)用無關(guān),其他種類的 Ontologies 都是該類 Ontologies 的特例。(2)領(lǐng)域 Ontologies 描述的是特定領(lǐng)域中的概念及概念之間的關(guān)系。(3)任務(wù) Ontologies 描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系。( 4)應(yīng)用Ontologies 描述的是依賴于特定領(lǐng)域和任務(wù)概念及概念之間的關(guān)系。本文主要就是基于領(lǐng)域Ontology來設(shè)計(jì)與研究語義相似度計(jì)算方法。3 語義相似度計(jì)算語義相似度是判斷幾個(gè)概念之間的語義的相似程度。在信息檢索中,它反映的是用戶查詢關(guān)鍵詞的意義上的符合程度。3.1 語義相似度計(jì)算原則語義相似度的計(jì)算原則是為了本體內(nèi)部概念間相似度計(jì)
6、算更加準(zhǔn)確而提出的 2 ,其內(nèi)容如下:( 1)量化原則:相似度是一個(gè)數(shù)值,取值范圍應(yīng)該在 0,1 之間 3 ,如果兩個(gè)概念完全相同,那么他們的相似度為 1,完全不同,相似度為 0。 (2)簡(jiǎn)單性原則:計(jì)算相似度的同時(shí)應(yīng)該考慮計(jì)算復(fù)雜度 4 ,復(fù)雜度應(yīng)該盡量降低。(3)充分利用本體的特性。 (4)可調(diào)節(jié)性:可調(diào)節(jié)性是指相似度的計(jì)算結(jié)果可通過某些參數(shù)來調(diào)節(jié),詞語相似度是一個(gè)主觀性比較強(qiáng)的概念,可調(diào)節(jié)性可以滿足不同的需求,適應(yīng)不同的情況2 。(5)類型性:在計(jì)算概念相似度的時(shí)候,也應(yīng)該將概念的數(shù)據(jù)類型考慮其中,這樣能提高概念相似度的精度。(6)對(duì)稱性: Sim(C1,C2)= Sim(C2,C1),
7、對(duì)稱性有利于概念相似度之間的對(duì)比與換算。3.2 相似度計(jì)算方法本文建立了一個(gè)簡(jiǎn)單的醫(yī)療系統(tǒng)的本體,如圖1 所示。 class:表示的是類, subClassOf:表示的是本體中最主要的關(guān)系,即概念之間子類的關(guān)系,也就是繼承關(guān)系。例如: C0 是 C1,C2 的父類,而C1 與 C2 則是 C0 的子類。利于OWL 語言構(gòu)建此本體的代碼片段,如下:( 1)語義距離:是兩個(gè)概念在本體樹中的最短距離,記作Distant(A,B) 。語義距離越大,其語義相似度越低。反之越大。兩個(gè)概念的父節(jié)點(diǎn)是同一個(gè),那么Distance=1/n(n 表示與該節(jié)點(diǎn)有共同父節(jié)點(diǎn)的子節(jié)點(diǎn)的個(gè)數(shù))同一概念的語義距離為0。例如
8、:圖1 中所示的Distance(C5,C5)=0, Distance(C7,C8)=0.5。( 2)DataType(數(shù)據(jù)類型屬性 )的相似度:是兩個(gè)概念的數(shù)據(jù)類型的比較得出來的一個(gè)參數(shù)值,記作 SimDT(A,B) 。如果兩個(gè)概念的數(shù)據(jù)類型相同,則 SimDT(A,B)=1 。如果不同,則 SimDT(A,B)=0 。 中國(guó)(3)ObjectProperty(對(duì)象類型屬性 )的相似度 5 :是類與類之間的關(guān)系,記做 Simobject(A,B) 。和分別表示概念和的對(duì)象類型屬性的個(gè)數(shù)。 的對(duì)象類型屬性所對(duì)應(yīng)的概念為,的對(duì)象類型屬性所對(duì)應(yīng)的概念為,則概念的對(duì)象屬性的語義相似度為:(4)本體概
9、念的深度: 是概念在本體樹 中的層數(shù),記作Depth(A) 。( 5)調(diào)節(jié)因子:是為了滿足系統(tǒng)的特定需要而設(shè)定的特定參數(shù)。由于詞語相似度是一個(gè)主觀性比較強(qiáng)的概念,所以必須使用調(diào)節(jié)因數(shù)來具體情況具體分析。它通過對(duì)本體樹的廣度與深度的控制來調(diào)節(jié)特定的語義的相似度。本文用 k 來表示調(diào)節(jié)因數(shù)。 綜合得出語義相似度算法的公式: 式中 Sim(C1,C2)表示概念C1、C2 的語義相似度, Distance(C1,C2)表示概念 C1、C2 的語義距離, SimDT(C1,C2) 表示概 念 C1 、 C2 的數(shù)據(jù)類型 的相 似度,Simobject(C1,C2)表示概念C1、C2 的對(duì)象類型的相似度,
10、k 表示調(diào)節(jié)因子, Depth(C1)表示 C1 的的深度 (即本體樹中的層數(shù) ),分別是數(shù)據(jù)類型屬性和對(duì)象類型屬性在屬性相似度中的權(quán)值,且。3.3 實(shí)驗(yàn)結(jié)果根據(jù)本文得出的語義相似度算法,即上述公式計(jì)算出表1 所示的本體樹的語義相似度。3.4基于本體語義相似度的應(yīng)用Begin;Input:查詢表達(dá)式Q=W1,W2, ,Wn and 語義相似度的臨界值K ;result =null,i=0;while(Qi的語義相似度>=K)resulti=Qi+ 相關(guān)概念集;i+ ;Return result;End;4 結(jié)束語人與機(jī)器之間的有語義的交流近年來成為了人們研究的焦點(diǎn)與瓶頸。本體由于其共享性和明確性以人與機(jī)器的語義交流的基礎(chǔ)進(jìn)入了人們的視野。本文通過建立本體樹,利用其層次之間的關(guān)系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 病區(qū)護(hù)理質(zhì)量管理展示
- 心臟纖維瘤的健康宣教
- 2025二手房買賣合同范本完美版
- 2025版合同:信息技術(shù)系統(tǒng)開發(fā)合同條件
- 如何正確脫防護(hù)服培訓(xùn)
- 2025家居房屋裝修合同范本aa
- 社會(huì)體育場(chǎng)所的安全管理建議與對(duì)策計(jì)劃
- 品牌價(jià)值評(píng)估與提升方案
- 物流運(yùn)輸管理預(yù)案
- 公司綜合管理部安全培訓(xùn)
- 【初中歷史】遼宋夏金元時(shí)期經(jīng)濟(jì)的繁榮 課件 2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史下冊(cè)
- 2025-2030中國(guó)橄欖球行業(yè)市場(chǎng)全景調(diào)研及投資價(jià)值評(píng)估咨詢報(bào)告
- 砌體結(jié)構(gòu)檢測(cè)試題及答案
- DB32T 5061.1-2025 中小學(xué)生健康管理技術(shù)規(guī)范 第1部分:心理健康
- 2025年寧波職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫審定版
- 2025年洛陽科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫及答案(考點(diǎn)梳理)
- 二零二五年度商業(yè)地產(chǎn)租賃合同模板:詳細(xì)條款與風(fēng)險(xiǎn)防范指南3篇
- 《伯努利方程》課件
- 2025年浙江廣播電視集團(tuán)招聘筆試參考題庫含答案解析
- 初中生心理健康教育講座課件
- 品管圈PDCA案例-提高成人術(shù)后疼痛評(píng)估與護(hù)理規(guī)范率醫(yī)院品質(zhì)管理成果匯報(bào)
評(píng)論
0/150
提交評(píng)論