論圖書館構(gòu)建語義網(wǎng)的技術(shù)與體系結(jié)構(gòu)_第1頁
論圖書館構(gòu)建語義網(wǎng)的技術(shù)與體系結(jié)構(gòu)_第2頁
論圖書館構(gòu)建語義網(wǎng)的技術(shù)與體系結(jié)構(gòu)_第3頁
論圖書館構(gòu)建語義網(wǎng)的技術(shù)與體系結(jié)構(gòu)_第4頁
論圖書館構(gòu)建語義網(wǎng)的技術(shù)與體系結(jié)構(gòu)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

論圖書館構(gòu)建語義網(wǎng)的技術(shù)與體系結(jié)構(gòu)

1989年3月,該web由w3c負(fù)責(zé)人sim貝爾在巴西的歐洲粒子物理實(shí)驗(yàn)室開發(fā)。它經(jīng)歷了從web1.0到web2.0、web3.0甚至web4的發(fā)展過程。根據(jù)“2008年語義技術(shù)大會(huì)”的一份宣傳資料,Web演變的趨勢(shì)是:Web1.0是萬維網(wǎng),作用是連接信息,主要包括網(wǎng)頁搜索引擎、網(wǎng)站、數(shù)據(jù)庫、文件服務(wù)器等;Web2.0是社會(huì)網(wǎng),作用是連接人,引入了博客、社區(qū)、RSS、維基、社會(huì)化書簽、社會(huì)化網(wǎng)絡(luò)等概念;Web3.0是語義網(wǎng),作用是連接知識(shí),由本體、語義查詢、人工智能、智能代理、知識(shí)結(jié)點(diǎn)、語義知識(shí)管理等構(gòu)成;至于Web4.0,則是未來無所不在的網(wǎng),作用是連接情報(bào),但具體內(nèi)容目前還不太清楚。針對(duì)Web的發(fā)展,目前圖書館界對(duì)名為社會(huì)網(wǎng)的Web2.0論述較多,以致還產(chǎn)生了Lib2.0等概念,而對(duì)名為語義網(wǎng)的Web3.0的論述則相對(duì)較少,至于Lib3.0等概念幾乎還沒形成。根據(jù)“如果說從Web1.0到Web2.0是一種理念的轉(zhuǎn)變,那么從Web2.0到Web3.0則是技術(shù)引領(lǐng)互聯(lián)網(wǎng)”之觀點(diǎn),筆者試從國內(nèi)外語義網(wǎng)技術(shù)體系結(jié)構(gòu)的論述來看語義網(wǎng)今后可能對(duì)圖書館尤其是對(duì)數(shù)字圖書館的影響。1技術(shù)squeTechnology(技術(shù))一詞最早由希臘詞techne(藝術(shù)、手工藝器)和logos(詞、言語)組成,意味著“熟練”和“巧妙”。17世紀(jì),technology一詞開始出現(xiàn)在英文中,主要用來指藝術(shù)的應(yīng)用。20世紀(jì)之后,technology一詞不僅作為方法和工藝等的指稱,也作為程序、思想、工具和裝備的指稱。美國學(xué)者哈維·布魯克斯對(duì)technology所作的表述是:“技術(shù)就是運(yùn)用科學(xué)知識(shí)以可復(fù)制的方式來解決問題?!笨梢?可復(fù)制性是technology的一大重要特征。我國《辭?!穭t從最本質(zhì)意義上解釋了“技術(shù)”一詞的內(nèi)涵:一是泛指根據(jù)生產(chǎn)實(shí)踐經(jīng)驗(yàn)和自然科學(xué)原理而形成的各種工藝操作方法與技能;二是指除操作技能外,包括相應(yīng)的生產(chǎn)工具和其他物質(zhì)設(shè)備,以及生產(chǎn)的工藝過程或作業(yè)程序和方法。由此可見,技術(shù)一詞既包括生產(chǎn)工具及其他物質(zhì)裝備等“硬”技術(shù),也包括根據(jù)生產(chǎn)實(shí)踐經(jīng)驗(yàn)和自然科學(xué)原理而形成的各種工藝流程、加工方法、制度要求、勞動(dòng)技能及訣竅等“軟”技術(shù);技術(shù)不但包含操作方法、技能、工具、設(shè)備、程序等要素,而且具有針對(duì)需要解決的具體問題而對(duì)上述要素統(tǒng)籌謀劃的含義。Architecture(體系結(jié)構(gòu))在希臘語里意指“主要建造者”或“主制作者”。這個(gè)術(shù)語用來描述這么一種人,他能根據(jù)客戶的需求來設(shè)計(jì)和建造形式和功能都很獨(dú)特而實(shí)用的結(jié)構(gòu)。設(shè)計(jì)師的作用除了為滿足客戶的需求而建立一種概念化的、獨(dú)一無二的設(shè)計(jì)結(jié)構(gòu)外,還有引導(dǎo)客戶使其改變需求和設(shè)想的特殊責(zé)任。在韋伯詞典中,體系結(jié)構(gòu)的定義是“作為一種意識(shí)過程結(jié)果的形態(tài)或框架;一種統(tǒng)一或有條理的形式或結(jié)構(gòu);建筑的藝術(shù)或科學(xué)”。因而,體系結(jié)構(gòu)的建立通常會(huì)建立一個(gè)共有的遠(yuǎn)景,并考慮外部約束、客戶需求、內(nèi)部約束、技術(shù)約束等,通過有條理的邏輯推理來最終實(shí)現(xiàn)該結(jié)構(gòu)。此外,也有機(jī)構(gòu)將體系結(jié)構(gòu)定義為“一種方法”、“一種視圖”、“一種技術(shù)組合”或“一種規(guī)劃藍(lán)圖”。而ANSI/IEEE1471-2000則將體系結(jié)構(gòu)定義為:“一個(gè)系統(tǒng)的基礎(chǔ)組織,集合它的組件,這些組織內(nèi)部、組件內(nèi)部和組織與組件間的關(guān)系和環(huán)境,以及管理設(shè)計(jì)和改造的原則?!备叛灾?體系結(jié)構(gòu)即為結(jié)構(gòu)、模塊、組件、標(biāo)準(zhǔn)以及它們之間的關(guān)聯(lián)和組織原則,或體系結(jié)構(gòu)提供了一種將大型信息系統(tǒng)結(jié)構(gòu)化描述的術(shù)語,能夠有機(jī)地將應(yīng)用、業(yè)務(wù)和戰(zhàn)略進(jìn)行整合,一般通過視圖(View)或模型(Model)來實(shí)現(xiàn)。2語義網(wǎng)技術(shù)體系結(jié)構(gòu)為了實(shí)現(xiàn)Web信息服務(wù)的自動(dòng)化與智能化目標(biāo),語義網(wǎng)的研究者們開發(fā)了許多新技術(shù)并提出了一系列的技術(shù)標(biāo)準(zhǔn)。一直致力于語義網(wǎng)技術(shù)研究并一直關(guān)注著語義網(wǎng)技術(shù)發(fā)展的TimBerners-Lee,于2000年在綜合了語義網(wǎng)最新研究成果的基礎(chǔ)上,提出了以下一個(gè)由分層結(jié)構(gòu)組成、功能逐層遞增的7層模型(見圖1)??傮w來說,在這個(gè)技術(shù)結(jié)構(gòu)體系中,Unicode和URI是語義網(wǎng)對(duì)象編碼和標(biāo)識(shí)的基本手段,XML、名稱空間和XMLSchema是語義網(wǎng)上語法互操作的標(biāo)準(zhǔn),RDF和RDFSchema用來描述和定義語義網(wǎng)上的資源,本體用來提供一個(gè)描述公理的框架,邏輯層為證明和信任提供邏輯基礎(chǔ),證明層執(zhí)行規(guī)則并做出相應(yīng)的評(píng)估,信任層為應(yīng)用程序是否信任一個(gè)給定的證明提供檢測(cè)機(jī)制,而數(shù)字簽名則用來檢測(cè)文檔的改動(dòng)情況,是增強(qiáng)Web安全的手段。上述TimBerners-Lee的技術(shù)體系結(jié)構(gòu)后來成為人們對(duì)語義網(wǎng)的共識(shí)。但是語義網(wǎng)的理論和技術(shù)是不斷發(fā)展的,所以其技術(shù)體系結(jié)構(gòu)也不能一成不變。如在W3C網(wǎng)站上,我們看到的語義網(wǎng)技術(shù)體系結(jié)構(gòu)圖就呈以下形式(見圖2)。與前TimBerners-Lee提出的語義網(wǎng)技術(shù)體系結(jié)構(gòu)相比,該語義網(wǎng)技術(shù)體系結(jié)構(gòu)明顯具有以下4個(gè)特點(diǎn):(1)在Unicode和URI層增加了用于補(bǔ)充URI的IRI(InternationalizedResourceIdentifier,國際資源標(biāo)識(shí)符)。目前,IRI標(biāo)準(zhǔn)還處于提議階段,但由于其國際化目標(biāo)以及它能支持人們用自己的語言來定義網(wǎng)絡(luò)資源,所以無疑將會(huì)替代URI而成為語義網(wǎng)未來的標(biāo)識(shí)符標(biāo)準(zhǔn)。(2)將XML、名稱空間和XMLSchema層中的XMLSchema提出,并與XML查詢語言(Query)一同構(gòu)成能夠表達(dá)不同領(lǐng)域元數(shù)據(jù)的第3層。(3)在本體層上增設(shè)了一個(gè)規(guī)則/查詢(Rules/Query)層,因?yàn)檎Z義網(wǎng)使用標(biāo)準(zhǔn)的網(wǎng)絡(luò)本體語言來描述信息僅僅完成了本體最基本的性質(zhì)描述,而更多的本體數(shù)據(jù)性質(zhì)可能需要更強(qiáng)的本體描述能力———規(guī)則(Rule)來描述。此外,語義網(wǎng)還需要本體查詢與管理語言(Query)來對(duì)本體數(shù)據(jù)進(jìn)行詢問和基本的推理處理。(4)為了確保信息安全,在信任層中增加了加密技術(shù)(Encryption)。其實(shí),基于TimBerners-Lee的語義網(wǎng)技術(shù)體系結(jié)構(gòu),人們還可根據(jù)對(duì)其的不同理解而作不同的層次劃分。比如BernardoCuencaGrau就將TimBerners-Lee語義網(wǎng)技術(shù)體系結(jié)構(gòu)中的RDF提升到了本體層,并提出了另外一種簡化而可行的語義網(wǎng)層次結(jié)構(gòu)。而MichaelKifer等人則在分析TimBerners-Lee的7層結(jié)構(gòu)圖的基礎(chǔ)上,提出了如下一個(gè)更為可行和穩(wěn)定的層次結(jié)構(gòu),并詳細(xì)解釋了其各層之間的邏輯關(guān)系(見圖3)。3語義網(wǎng)技術(shù)體系結(jié)構(gòu)國內(nèi)張曉林認(rèn)為,為了開放描述和組織信息內(nèi)容的各個(gè)層次及其相互關(guān)系,我們需要一系列相互支持的方法、技術(shù)和系統(tǒng)。圖4就是張曉林借用上述語義網(wǎng)技術(shù)體系結(jié)構(gòu)對(duì)這個(gè)體系的一種描述。與圖1的語義網(wǎng)技術(shù)體系結(jié)構(gòu)不同,圖4共有9層內(nèi)容組成。其中,圖4由下往上的第1至第3層與圖1的第1至第3層大同小異。圖4由下往上的第4層是圖1所沒有的內(nèi)容,該層內(nèi)容表示利用XML/RDF/RDFS對(duì)各應(yīng)用領(lǐng)域的實(shí)際元數(shù)據(jù)集進(jìn)行規(guī)范描述,這些元數(shù)據(jù)集的描述對(duì)象可能是信息對(duì)象(描述結(jié)果此處用Metadata)或信息資源結(jié)合(描述結(jié)果此處稱CollectionLevelDescription)。圖4由下往上的第5層雖然與圖1由下往上的第4層內(nèi)容大致相同,但圖4由下往上的第5層內(nèi)容表示利用XML/RDF/RDFS對(duì)信息內(nèi)容或信息資源體系的知識(shí)組織體系(例如敘詞表、分類法)等進(jìn)行規(guī)范描述,從而建立起網(wǎng)絡(luò)知識(shí)組織體系(NKOS,NetworkedKnowledgeOrganizationSystems),以及對(duì)信息內(nèi)容的語義關(guān)系網(wǎng)絡(luò)及其推理規(guī)則進(jìn)行規(guī)范描述,從而建立起計(jì)算機(jī)可理解的概念集(Ontologies)。圖4由下往上的第6層是對(duì)圖1由下往上的第5層內(nèi)容的擴(kuò)展,即圖4由下往上的第6層內(nèi)容表示利用XML/RDF/RDFS對(duì)信息服務(wù)和信息系統(tǒng)運(yùn)行的管理控制機(jī)制及其推理分析規(guī)則進(jìn)行規(guī)范描述。圖4由下往上的第7和第8層是圖1所沒有的內(nèi)容。其中,圖4由下往上的第7層內(nèi)容表示利用XML/RDF/RDFS對(duì)信息系統(tǒng)(或信息交流體系)架構(gòu)進(jìn)行規(guī)范描述,形成開放描述的信息架構(gòu)(InformationArchitecture);而圖4由下往上的第8層內(nèi)容則表示利用XML/UML(UniversalModelingLanguage)對(duì)信息交流和信息服務(wù)過程進(jìn)行規(guī)范描述。圖4由下往上的第9層內(nèi)容則將圖1由下往上的第6和第7層內(nèi)容合二為一,其內(nèi)容表示以上的所有描述將通過基于XMLSignature的數(shù)字簽名方式進(jìn)行認(rèn)證,而這些簽名和認(rèn)證又將依靠可靠的法律、經(jīng)濟(jì)和社會(huì)運(yùn)作規(guī)則來形成可靠和有效的認(rèn)證與信任機(jī)制。如前所述,語義網(wǎng)的技術(shù)體系結(jié)構(gòu)人們可以根據(jù)對(duì)其的不同理解而作不同的層次劃分。如果說以上語義網(wǎng)技術(shù)體系結(jié)構(gòu)都過于龐雜的話,那么以下潘小進(jìn)等人從語義網(wǎng)的標(biāo)記語言角度來討論的語義網(wǎng)層式結(jié)構(gòu)則顯得簡單明了(見圖5)。在這個(gè)層式結(jié)構(gòu)中,(1)Unicode層將上層的數(shù)據(jù)轉(zhuǎn)換成與平臺(tái)無關(guān)的標(biāo)準(zhǔn)Unicode碼流;(2)每個(gè)概念由URI定義,URI相當(dāng)于一個(gè)名字空間,只要符合W3C的規(guī)范,任何人都能表達(dá)它們的概念,語義網(wǎng)的統(tǒng)一邏輯語言將這些概念連到Web上,指向同一個(gè)URI的概念必然是相同的,并且為整個(gè)Web所共享;(3)XML層提供對(duì)數(shù)據(jù)表示的通用語法支持,并且由于是建立在現(xiàn)有的XML標(biāo)準(zhǔn)之上,語義網(wǎng)與當(dāng)前的Web技術(shù)可以實(shí)現(xiàn)很好的溝通;(4)利用XML的語法,RDF/RDFS定義了可擴(kuò)展的面向?qū)ο蟮念愋拖到y(tǒng),提供了詞匯的定義能力,允許開發(fā)者為領(lǐng)域模型定義特定的詞匯表、屬性以及詞匯間的關(guān)系,能夠描述Web資源的元數(shù)據(jù);(5)本體是不同Web應(yīng)用之間共享信息的知識(shí)基礎(chǔ),OIL是為描述本體而建立的形式化系統(tǒng),通過擴(kuò)展RDFSchema的建模原語,可有效地實(shí)現(xiàn)OIL,并與下層很好地兼容(DAML則是美國DARPA研制的語義網(wǎng)語言,包含了使Web內(nèi)容更加被機(jī)器可理解的語言、技術(shù)和工具)。其次,在這個(gè)層式結(jié)構(gòu)中,上層將下層的語言機(jī)制作為本層的支撐語言,通過分析器,從合法有效的下層描述中抽取出本層所能理解的模型,實(shí)現(xiàn)更多的語義處理功能。因此,語義網(wǎng)是向下兼容的。當(dāng)用RDF(S)表達(dá)OIL時(shí),當(dāng)應(yīng)用只有RDF分析器時(shí),能夠部分解釋該本體內(nèi)的類結(jié)構(gòu),只要忽略形如帶oil:名字空間前綴的元素即可,但分析器能夠完全解釋該本體內(nèi)的所有實(shí)例,因?yàn)檫@只是語法相關(guān)。由于Web上的海量信息不可能在短時(shí)間內(nèi)全部建立語義標(biāo)記,而且語義的標(biāo)記方法也在不斷發(fā)展,這種向下的部分可解釋性為語義網(wǎng)的發(fā)展提供了良好的基礎(chǔ)。4語義網(wǎng)中的元數(shù)據(jù)和本體技術(shù)比較以上這些不同的語義網(wǎng)技術(shù)體系結(jié)構(gòu)可以看出,語義網(wǎng)的主要層級(jí)結(jié)構(gòu)還是基于TimBerners-Lee提出的7層結(jié)構(gòu)。而通過圖5我們則可更清晰地看出,XML、RDF和本體是語義網(wǎng)7層體系結(jié)構(gòu)中的最為關(guān)鍵的技術(shù),因?yàn)橄裾Z義網(wǎng)體系結(jié)構(gòu)中的Unicode和URI層這樣的技術(shù)是毫無爭(zhēng)議的,而對(duì)于邏輯層以上的技術(shù)研究目前還處于發(fā)展之中。這一點(diǎn)正與儲(chǔ)荷婷等人的觀點(diǎn)一致,即根據(jù)TimBerners-Lee,語義萬維網(wǎng)包括元數(shù)據(jù)層、模式層和邏輯層3層結(jié)構(gòu)。其中,元數(shù)據(jù)層提供共同的數(shù)據(jù)模型,目前W3C推薦的標(biāo)準(zhǔn)是RDF;模式層通過對(duì)類和類的層次結(jié)構(gòu)的定義實(shí)現(xiàn)對(duì)信息的抽象和概念化,目前W3C推薦OWL作為萬維網(wǎng)本體系統(tǒng)語言;邏輯層提供智能代理,依據(jù)本體系統(tǒng)進(jìn)行推理。換言之,在語義萬維網(wǎng)中,信息都用相關(guān)本體系統(tǒng)中定義的詞匯標(biāo)注成RDF格式;智能代理則通過讀取本體系統(tǒng)來“理解”被標(biāo)注的信息,依據(jù)概念在本體系統(tǒng)中的定義進(jìn)行推理,從而更好地完成有關(guān)任務(wù)。而馬張華等人則認(rèn)為,目前語義網(wǎng)的應(yīng)用系統(tǒng)主要是使用已建立的本體或元數(shù)據(jù),針對(duì)特定領(lǐng)域的網(wǎng)絡(luò)資源數(shù)據(jù)進(jìn)行語義標(biāo)注;用戶對(duì)語義網(wǎng)應(yīng)用系統(tǒng)進(jìn)行詢問,系統(tǒng)結(jié)合本體推理對(duì)有關(guān)的詢問作相應(yīng)的處理,并把結(jié)果呈現(xiàn)給用戶。由此可見,對(duì)圖書館尤其是對(duì)數(shù)字圖書館產(chǎn)生直接影響的是語義網(wǎng)中的元數(shù)據(jù)和本體技術(shù)。劉煒在今年《現(xiàn)代圖書情報(bào)技術(shù)》第3期“元數(shù)據(jù)與語義技術(shù)和社會(huì)性應(yīng)用”專輯中認(rèn)為:隨著Web2.0和語義萬維網(wǎng)(有人稱之為Web3.0)的發(fā)展,網(wǎng)絡(luò)資源的細(xì)粒度化、語義化和更廣泛的開放鏈接呈現(xiàn)出加速發(fā)展的趨勢(shì)……作為數(shù)字資源揭示和利用的一項(xiàng)重要技術(shù),元數(shù)據(jù)正向?qū)崿F(xiàn)機(jī)器自動(dòng)處理的方向發(fā)展:語義的自動(dòng)提取、映射的自動(dòng)生成、內(nèi)容的自動(dòng)發(fā)現(xiàn)、服務(wù)的自動(dòng)協(xié)同等,成為計(jì)算機(jī)科學(xué)、網(wǎng)絡(luò)信息組織和數(shù)字圖書館的研發(fā)熱點(diǎn)。在上述專輯中,劉煒舉薦翻譯的《將圖書館目錄納入語義萬維網(wǎng)》(內(nèi)容涉及題名、人名規(guī)范檔,作者是瑞典國家圖書館的MartinMalmsten)和《LCSH,SKOS和關(guān)聯(lián)數(shù)據(jù)》(內(nèi)容屬于主題規(guī)范檔,作者為美國國會(huì)圖書館的EdSummers等人)特別值得一讀。因?yàn)檫@兩篇論文展示了將傳統(tǒng)規(guī)范書目數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,并利用關(guān)聯(lián)數(shù)據(jù)(LinkedData)技術(shù)提供開放的元數(shù)據(jù)服務(wù)。由于采用了新的架構(gòu)和格式對(duì)書目數(shù)據(jù)重新組織(例如轉(zhuǎn)換成RDF格式,引入FRBR本體,以SKOS編碼等),使書目系統(tǒng)能夠提供種類繁多的新穎服務(wù)(如按照各種方式聚類,權(quán)威數(shù)據(jù)的參照引證等),使人們看到了數(shù)據(jù)開放和普遍鏈接的潛力,讓古老的圖書館數(shù)據(jù)重新煥發(fā)出新的活力。至于本體,之前圖書館界對(duì)之也不陌生。因?yàn)閺谋举|(zhì)上講,圖書館界在用的敘詞表其實(shí)就是一部語義詞典(概念的實(shí)例),在此基礎(chǔ)上再利用有關(guān)分類法(概念以及概念間的關(guān)系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論