



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于Semantic Web的個(gè)性化網(wǎng)絡(luò)導(dǎo)航機(jī)制 1網(wǎng)絡(luò)信息資源導(dǎo)航的現(xiàn)狀 遍布全世界的主機(jī)和服務(wù)器,錯(cuò)綜相聯(lián)的超媒體資源,這是互聯(lián)網(wǎng)為我們所構(gòu)建的一個(gè)巨大而豐富的電子信息空間。它無(wú)疑是現(xiàn)代社會(huì)最重要的信息獲取手段,但是它的開(kāi)放性、分布性、無(wú)序性以及驚人的發(fā)展速度也為人們對(duì)信息資源的利用帶來(lái)了困難。正如在大海中行駛的船只需要導(dǎo)航系統(tǒng)確定方位一樣,要想在茫茫的信息海洋中有效獲取有用信息,也必須擁有便捷有效的信息導(dǎo)航技術(shù)。一般來(lái)說(shuō),www網(wǎng)絡(luò)中常用的信息導(dǎo)航方式有三種:一是利用門(mén)
2、戶(hù)網(wǎng)站的分類(lèi)索引;二是利用網(wǎng)絡(luò)搜索引擎;三是利用網(wǎng)站的相關(guān)鏈接。但是目前這三種信息導(dǎo)航方式的效果都不盡如人意。分類(lèi)索引所覆蓋的網(wǎng)絡(luò)站點(diǎn)范圍太小,更新較慢,難以適應(yīng)網(wǎng)絡(luò)的快速增長(zhǎng),而且分類(lèi)標(biāo)準(zhǔn)的不統(tǒng)一和不規(guī)范常常影響到用戶(hù)對(duì)站點(diǎn)所屬的判斷,造成導(dǎo)航失敗。搜索引擎雖然是目前主要的網(wǎng)絡(luò)信息檢索工具,但是通過(guò)簡(jiǎn)單的邏輯運(yùn)算檢索到的結(jié)果往往是數(shù)量龐大且魚(yú)目龍雜,充斥著大量的無(wú)用和重復(fù)信息。網(wǎng)站的相關(guān)鏈接是指符合當(dāng)前網(wǎng)站內(nèi)容主題的內(nèi)部和外部信息資源的超鏈接,這種導(dǎo)航方式雖然簡(jiǎn)單直接,但是信息量非常有限,而且對(duì)外部信息的鏈接常常出現(xiàn)錯(cuò)鏈和假鏈,即使是內(nèi)部信息,也常常因?yàn)榻M織和描述方式的影響,造成用戶(hù)的“資源
3、迷向”。 用戶(hù)在信息空間中的“迷航”會(huì)使他們感到厭倦而喪失獲取信息的信心,分析其原因,主要包括以下幾個(gè)方面1,2: (1)網(wǎng)絡(luò)的巨大信息量使人們必須依賴(lài)于自動(dòng)化的處理技術(shù)。但是目前因特網(wǎng)的各個(gè)網(wǎng)端的技術(shù)支持環(huán)境比較復(fù)雜,信息資源的內(nèi)容范圍、組織結(jié)構(gòu)和存儲(chǔ)方式各不相同,呈現(xiàn)出分散、無(wú)序、變幻多端的特點(diǎn),這使自動(dòng)信息處理技術(shù)的應(yīng)用困難重重。因此要提高信息導(dǎo)航的效率和質(zhì)量,必須先解決資源異構(gòu)的問(wèn)題。 (2)網(wǎng)絡(luò)信息空間中的數(shù)據(jù)大多以半結(jié)構(gòu)化和非結(jié)構(gòu)化的形式存在,對(duì)信息資源的內(nèi)容缺乏形式化的語(yǔ)義描述,而且大部分資源間的鏈接也沒(méi)有反
4、映語(yǔ)義關(guān)系,這使得機(jī)器很難對(duì)網(wǎng)絡(luò)信息空間進(jìn)行深層次的理解和處理,對(duì)信息的自動(dòng)導(dǎo)航也無(wú)法像人工操作那樣準(zhǔn)確有效。 (3)目前的網(wǎng)絡(luò)導(dǎo)航系統(tǒng)缺乏個(gè)性化的信息服務(wù)。由于知識(shí)背景的差異和一詞多義等方面的原因,不同的網(wǎng)絡(luò)用戶(hù)之間、用戶(hù)與系統(tǒng)設(shè)計(jì)者之間對(duì)于問(wèn)題和信息內(nèi)容可能會(huì)具有不同的理解與認(rèn)識(shí),當(dāng)用戶(hù)按照自己的思路查找信息時(shí),他所選擇的導(dǎo)航路徑可能是錯(cuò)誤的或者低效的。因此信息導(dǎo)航必須考慮具體用戶(hù)的特殊性,有針對(duì)性地提供導(dǎo)航服務(wù)。 (4)網(wǎng)絡(luò)導(dǎo)航系統(tǒng)的設(shè)計(jì)缺乏規(guī)范。門(mén)戶(hù)網(wǎng)站各自依據(jù)不同的標(biāo)準(zhǔn)建立自身的分類(lèi)導(dǎo)航系統(tǒng),網(wǎng)站的劃分隨意性較大,常常引起用戶(hù)的困惑。一
5、些著名的信息搜索引擎也各自采用不同的檢索規(guī)則,有些系統(tǒng)不能利用歷史信息或者不提供二次檢索,給用戶(hù)的使用帶來(lái)不便。另外,在網(wǎng)站內(nèi)部的導(dǎo)航系統(tǒng)設(shè)計(jì)上,也存在著導(dǎo)航結(jié)構(gòu)不合理,導(dǎo)航要素不完整,導(dǎo)航界面不統(tǒng)一等問(wèn)題。這些都可能造成用戶(hù)的導(dǎo)航障礙。 由此可見(jiàn),造成信息“迷航”問(wèn)題的主要原因在于缺乏信息空間的合理組織和有效的導(dǎo)航機(jī)制,這也是第二代web網(wǎng)絡(luò)技術(shù)難以克服的困難。為此,人們正在研制第二代web網(wǎng)絡(luò)Semantic Web,它以結(jié)構(gòu)化信息表示為主,為網(wǎng)絡(luò)導(dǎo)航研究開(kāi)辟了新天地。 2Semantic Web技術(shù) Tim Bern
6、ers Lee在1998年提出了Semantic Web的概念。2001年2月,W3C組織正式推出Semantic Web Activity,使網(wǎng)絡(luò)環(huán)境下的語(yǔ)義處理技術(shù)研究漸入佳境。Semantic Web研究活動(dòng)的目標(biāo)是開(kāi)發(fā)一系列可由計(jì)算機(jī)理解和處理的語(yǔ)義表示語(yǔ)言和技術(shù),通過(guò)顯式的語(yǔ)義表示和領(lǐng)域本體將網(wǎng)絡(luò)信息空間編織成為一個(gè)巨大的機(jī)器可讀的知識(shí)網(wǎng)絡(luò),以支持自動(dòng)化的信息訪(fǎng)問(wèn)和知識(shí)管理,實(shí)現(xiàn)高質(zhì)量的網(wǎng)絡(luò)信息服務(wù)。目前關(guān)于Semantic Web的研究主要集中在網(wǎng)絡(luò)信息資源及其內(nèi)容的語(yǔ)義和語(yǔ)義關(guān)系表征,基于語(yǔ)義的數(shù)據(jù)自動(dòng)分析、理解和處理,不同應(yīng)用領(lǐng)域和系統(tǒng)間的數(shù)據(jù)自動(dòng)交換、轉(zhuǎn)換和復(fù)用。Semant
7、ic Web雖然是現(xiàn)有web網(wǎng)絡(luò)的延續(xù),但在信息導(dǎo)航方面具有許多普通web沒(méi)有的優(yōu)勢(shì)。Semantic Web中的節(jié)點(diǎn)既可以代表物理頁(yè)面,也可以代表知識(shí)實(shí)體;Semantic Web中網(wǎng)頁(yè)的內(nèi)容不但可以被人理解,而且可以被機(jī)器理解;Semafitic Web中的鏈接不再是任意的,而是遵循一定的語(yǔ)義關(guān)系。通過(guò)Semantic Web技術(shù),可以改變現(xiàn)有網(wǎng)絡(luò)松散的數(shù)據(jù)結(jié)構(gòu),將信息資源結(jié)構(gòu)化并賦予含義,使網(wǎng)絡(luò)信息的整合和自動(dòng)處理都變得更加容易。 2.1本體 所謂本體(Ontology),實(shí)質(zhì)上是描述特定應(yīng)用領(lǐng)域知識(shí)的公認(rèn)的術(shù)語(yǔ)集。關(guān)于奉體的定義,比較著名
8、的觀(guān)點(diǎn)是“本體是概念模型的一個(gè)顯式的規(guī)格說(shuō)明”和“本體是共享概念的一個(gè)形式化的規(guī)格說(shuō)明”,其中,“概念模型(Conceptualization)”是指通過(guò)對(duì)某個(gè)客觀(guān)現(xiàn)象的相關(guān)概念進(jìn)行辨析和提取而獲得的關(guān)于該現(xiàn)象的抽象摸型;“顯式(Explicit)”是指對(duì)所使用的概念的類(lèi)型,以及這些概念在應(yīng)用上的約束都給予明確的說(shuō)明;“形式化(Formal)”表示本體以計(jì)算機(jī)可讀的形式存在;“共享(Share)”表示本體中反映的是共同認(rèn)可的知識(shí)”。 本體通常表達(dá)為一組對(duì)象(概念)、關(guān)系、函數(shù)、定理和實(shí)例。本體中的對(duì)象類(lèi)按照等級(jí)關(guān)系組織成基本的結(jié)構(gòu)體系。等級(jí)關(guān)系包括例化(is-a)關(guān)系、
9、類(lèi)屬(kind-of)關(guān)系和整部關(guān)系(part-of)。上層的對(duì)象類(lèi)為父類(lèi),下層的對(duì)象類(lèi)為子類(lèi)。對(duì)象類(lèi)具有各自的屬性,并可依據(jù)父子關(guān)系繼承。對(duì)屬性的取值對(duì)象、取值范圍、取值基數(shù)等都可以加以限制,還可以對(duì)屬性的交換性、對(duì)稱(chēng)性、傳遞性、唯一性等進(jìn)行定義。除了等級(jí)關(guān)系,本體中的對(duì)象類(lèi)間還可以具有其他語(yǔ)義關(guān)系,形成語(yǔ)義網(wǎng)絡(luò)形式的概念模型。本體是機(jī)器自動(dòng)推理和智能化高級(jí)信息服務(wù)的基礎(chǔ),對(duì)網(wǎng)絡(luò)而言,一個(gè)簡(jiǎn)單的本體的典型例子就是網(wǎng)絡(luò)的分類(lèi)索引(如Yahoo!的分類(lèi)目錄)。本體的應(yīng)用對(duì)于提高網(wǎng)絡(luò)導(dǎo)航的精度和效率具有重要的意義1,4)。 2.2 RDF和RDFS
10、RDF是由W3C開(kāi)發(fā)的元數(shù)據(jù)描述機(jī)制,其目的主要是為元數(shù)據(jù)在網(wǎng)絡(luò)上的編碼、交換和重用提供一個(gè)基礎(chǔ)。它允許在XML的基礎(chǔ)上以一種標(biāo)準(zhǔn)化的、互操作的方式對(duì)數(shù)據(jù)語(yǔ)義進(jìn)行定義,提供了一個(gè)描述web資源的數(shù)據(jù)模型。RDF包含描述資源的屬性和關(guān)系的聲明。資源是任何用URl(Uniform Resource Identifier)唯一標(biāo)識(shí)的實(shí)體對(duì)象。資源具有屬性,屬性則具有一定的值,該值可能是簡(jiǎn)單的字符串或數(shù)字,也可能是自身也具有屬性的其他資源。這樣,資源、資源屬性和屬性值構(gòu)成了RDF聲明中的三元關(guān)系模式,任何本體或描述性元數(shù)據(jù)都是這種三元關(guān)系模式的具體體現(xiàn)”1,7。 為了描述元數(shù)據(jù)
11、元素間的復(fù)雜語(yǔ)義關(guān)系,W3C進(jìn)一步定義了RDFS(RDF Schema)。它可以看成是一個(gè)本體定義語(yǔ)言,用來(lái)建立概念類(lèi)體系結(jié)構(gòu)、屬性層次和類(lèi)關(guān)系。 3基于Semantic Web的智能導(dǎo)航機(jī)制 Semantic Web的出現(xiàn)為網(wǎng)絡(luò)信息導(dǎo)航提供了新的研究思路,Semantic Web技術(shù)是解決無(wú)序網(wǎng)絡(luò)空間中“迷航”問(wèn)題的關(guān)鍵技術(shù)?;赟emantic Web的智能導(dǎo)航是一種以結(jié)構(gòu)化、語(yǔ)義化的概念知識(shí)網(wǎng)絡(luò)為基礎(chǔ),自動(dòng)形成個(gè)性化導(dǎo)航結(jié)構(gòu)的方法。它分為兩個(gè)方面,一是基于Semantic Web的信息組織,即利用參考本體對(duì)各信息源進(jìn)行語(yǔ)義描述和整合;二是基
12、于Semantic Web的個(gè)性化導(dǎo)航結(jié)構(gòu)模型的構(gòu)建,即在有序語(yǔ)義組織的基礎(chǔ)上,構(gòu)造用戶(hù)語(yǔ)義模型,并據(jù)此建立導(dǎo)航結(jié)構(gòu)。圖1顯示了基于Semantic Web的智能導(dǎo)航機(jī)制的概念結(jié)構(gòu)。 3.1基于Semantic Web的信息組織 基于Semantic Web的信息組織的基本思想是,將來(lái)自于多個(gè)異構(gòu)信息源中的數(shù)據(jù)整合到一個(gè)語(yǔ)義統(tǒng)一的參考本體中。參考本體是通過(guò)分析領(lǐng)域中的各個(gè)信息資源集合,提取公共概念、屬性和關(guān)系而構(gòu)建的本體,它為所有信息資源提供統(tǒng)一的概念集合和通用語(yǔ)義。 信息整合的方法是先分別將各個(gè)信息源中的數(shù)據(jù)轉(zhuǎn)換為通用的
13、數(shù)據(jù)模型,然后建立各個(gè)數(shù)據(jù)模型和參考本體之間的映射關(guān)系。網(wǎng)絡(luò)中的信息源具有各種各樣的數(shù)據(jù)格式,其中大部分是HTML頁(yè)面,有的包含表格和列表。另外還有XML文檔、RDF文檔以及關(guān)系數(shù)據(jù)庫(kù)文檔等。為了解決分布式異構(gòu)信息源的語(yǔ)法相異問(wèn)題,需要將數(shù)據(jù)轉(zhuǎn)換為公用的數(shù)據(jù)模型格式,例如RDF。對(duì)于非RDF格式的信息數(shù)據(jù),可以利用外覆包(wrapper)技術(shù)將其自動(dòng)地轉(zhuǎn)換為基于RDF的數(shù)據(jù)模型。外覆包對(duì)特定格式的數(shù)據(jù)文檔進(jìn)行解析,并采用RDF聲明對(duì)其內(nèi)容進(jìn)行標(biāo)注。下面是三種常用的外覆包: (1)HTML外覆包。由于HTML頁(yè)面屬于半結(jié)構(gòu)化的信息數(shù)據(jù),因此HTML外覆包采用的是半指導(dǎo)性的
14、標(biāo)注方法。即預(yù)先手工標(biāo)注一組HTML頁(yè)面,然后對(duì)新的HTML頁(yè)面進(jìn)行結(jié)構(gòu)分析,將新頁(yè)面與標(biāo)注頁(yè)面進(jìn)行比較,從中提取相關(guān)信息。HTML外覆包還可以處理異構(gòu)的XML文件1。 (2)XML外覆包。根據(jù)DTD和Schema所定義的XML文檔的內(nèi)容結(jié)構(gòu)和內(nèi)容元素,建立概念集與DTDSchema之間的映射關(guān)系,從而自動(dòng)地將XML文獻(xiàn)中的DTD內(nèi)容元素標(biāo)記轉(zhuǎn)換為對(duì)應(yīng)的概念集元數(shù)據(jù)標(biāo)記。 (3)關(guān)系數(shù)據(jù)庫(kù)外覆包。將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)元素和二維數(shù)據(jù)關(guān)系映射到概念集中,形成語(yǔ)義基礎(chǔ),以便從關(guān)系數(shù)據(jù)庫(kù)中自動(dòng)創(chuàng)建RDF聲明。 由于不同的信息提供者可能會(huì)使用不同的詞表來(lái)標(biāo)注數(shù)據(jù),因此在建立通用數(shù)據(jù)模型后,還必須在信息數(shù)據(jù)源和參考本體之間建立概念和關(guān)系的映射,以消除語(yǔ)義差別。根據(jù)RDF聲明,在參考本體中注冊(cè)相關(guān)內(nèi)容的來(lái)源,使參考本體成為一個(gè)知識(shí)內(nèi)容的集成文件。另外,采用基于本體的元數(shù)據(jù)發(fā)現(xiàn)和漫游技術(shù),探測(cè)相關(guān)的RDF聲明,可以自動(dòng)地添加新的信息資源。 4結(jié)束語(yǔ) 網(wǎng)絡(luò)信息的利用狀況不容樂(lè)觀(guān),迫使人們努力探索更
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 輕量級(jí)數(shù)據(jù)分析框架-洞察及研究
- 2025年制造業(yè)智能制造解決方案研究報(bào)告
- 湖南稅務(wù)高等專(zhuān)科學(xué)?!缎畔?zhuān)業(yè)英語(yǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 遼寧理工職業(yè)大學(xué)《節(jié)目主持藝術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 河北科技大學(xué)《動(dòng)物微生物學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 臺(tái)州科技職業(yè)學(xué)院《機(jī)體平衡》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海財(cái)經(jīng)大學(xué)《閩臺(tái)緣歷史文化》2023-2024學(xué)年第一學(xué)期期末試卷
- 微生物土壤修復(fù)技術(shù)-洞察及研究
- 小區(qū)居民聯(lián)誼活動(dòng)方案
- 家裝講座活動(dòng)方案
- 邊防派出所知識(shí)講座
- 消防安全隱患排查投標(biāo)方案(技術(shù)標(biāo))
- 自然資源執(zhí)法監(jiān)察工作規(guī)范培訓(xùn)課件
- 刑事案件模擬法庭劇本完整版五篇
- PSSE軟件操作說(shuō)明
- 教科版科學(xué)三年級(jí)下冊(cè)實(shí)驗(yàn)報(bào)告單
- 22S803 圓形鋼筋混凝土蓄水池
- 人力資源管理概論第三章員工招聘、篩選與錄用-董克用
- (完整版)新醫(yī)療器械分類(lèi)目錄(舊分類(lèi)對(duì)應(yīng)新分類(lèi))
- 經(jīng)濟(jì)與社會(huì):如何用決策思維洞察生活學(xué)習(xí)通課后章節(jié)答案期末考試題庫(kù)2023年
- 提高臨床標(biāo)本送檢合格率品管圈PDCA成果匯報(bào)
評(píng)論
0/150
提交評(píng)論