關(guān)于網(wǎng)絡(luò)標注的主要方法概述網(wǎng)絡(luò)_第1頁
關(guān)于網(wǎng)絡(luò)標注的主要方法概述網(wǎng)絡(luò)_第2頁
關(guān)于網(wǎng)絡(luò)標注的主要方法概述網(wǎng)絡(luò)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、關(guān)于網(wǎng)絡(luò)標注的主要方法概述網(wǎng)絡(luò)     2013-07-29 01:07        導讀:計算機網(wǎng)絡(luò)論文論文,關(guān)于網(wǎng)絡(luò)標注的主要方法概述網(wǎng)絡(luò)畢業(yè)論論文樣本,在線游覽或下載,海量論文供你參考:     關(guān)鍵詞大眾標注語義標注本體 論         關(guān)鍵詞大眾標注語義標注本體 論文摘要認為標注對于檢索至關(guān)重要,網(wǎng)絡(luò)標注在網(wǎng)絡(luò)資源海量的今天更是如此。介紹網(wǎng)絡(luò)

2、中標注的方法:元數(shù)據(jù)標注、聚類標注和分類標注,并對大眾標注和語義標注進行詳細介紹。最后對這些標法方法進行比較分析及評價。 在網(wǎng)絡(luò)信息爆炸的今天,讓用戶檢索到需要的信息至關(guān)重要,因而網(wǎng)絡(luò)中標注顯得尤為重要。目前對于標注的定義大家沒有統(tǒng)一的說法,但是本質(zhì)上都是一致的。概括來說即通過對文獻進行主題分析,識別其重要特征,賦予確切的檢索標識(類號、標題詞、敘詞、關(guān)鍵詞、人名、地名等),用以反映該文獻內(nèi)容的過程。標注的質(zhì)量,對文獻的檢索效果有直接的決定性影響。標注的類型從不同的角度劃分有無數(shù)據(jù)標注,聚類標注,傳統(tǒng)網(wǎng)絡(luò)的分類,Web2.0中的大眾標注,語義標注等。 1幾種主要網(wǎng)絡(luò)標注方法導讀:1.3 語義標

3、注 語義Web被稱為Web3.0,是Web上數(shù)據(jù)的一種表示,它基于資源描述框架RDF來集成以XML為語法、統(tǒng)一資源標識符URI為命名機制的各種應(yīng)用。語義Web是         1.3語義標注 語義Web被稱為Web3.0,是Web上數(shù)據(jù)的一種表示,它基于資源描述框架RDF來集成以XML為語法、統(tǒng)一資源標識符URI為命名機制的各種應(yīng)用。語義Web是對當前Web的一種擴充,并不是一個全新的Web,其研究重點就是如何將信息表示為能夠理解和處理的形式,即帶有語義,使計算機和人能協(xié)同工作。 實現(xiàn)語義web目標的一個重要前提

4、是利用本體詞匯標注Web資源(如Web頁、服務(wù)等)。本體在TimBemes-Lee提出的語義Web的七層體系結(jié)構(gòu)中位于第四層,其目的是為捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認可的詞匯,并給出這些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義,通過概念之間的關(guān)系來描述概念的語義?;诒倔w的語義標注利用由專家定義好的本體支持內(nèi)容創(chuàng)建者在Web頁中添加語義元數(shù)據(jù),使其內(nèi)容能被人和機器所理解,與大眾標注相比較這是一種自頂向下的分類法。利用語義標注工具對現(xiàn)有的大量Web信息進行標注,將使得Web頁的內(nèi)容成為機器可識別的數(shù)據(jù),從而構(gòu)成語義Web的基礎(chǔ)。 OgeMarques等認為語義網(wǎng)

5、的成功在于能夠在Web頁面及其構(gòu)成上作語義標記,且是以低的、采用一致性結(jié)構(gòu)和本體的方式。他們著力于圖像語義標注的智能方式,并提出三層結(jié)構(gòu)。底層組織是從原圖像內(nèi)容中抽取的信息,這些信息映射中間層有語義的關(guān)鍵詞,而這些關(guān)鍵詞又聯(lián)系著頂層的結(jié)構(gòu)和本體。他利用機器學習算法作用戶自助的、半自動的圖像標注,可以加快相同領(lǐng)域本體圖像的標注,并且改善標注圖像以后的查詢和檢索。 在Web服務(wù)方面,下一代網(wǎng)絡(luò)語義標注下的軟件代理能比目前的軟件代理更快地抽取和Web內(nèi)容。Web服務(wù)中的語義標注能夠促進服務(wù)發(fā)現(xiàn),也能夠促進服務(wù)組合轉(zhuǎn)化為工作流。但目前僅有少量的服務(wù)標注被廣泛應(yīng)用,這就使得這種語義標注仍然受限。Khal

6、id Belhajjame等基于操作參數(shù)之間的聯(lián)系,在工作流中反復(fù)試驗,推斷關(guān)于操作參數(shù)的相關(guān)語義信息。雖在開放的上下文中只能推斷參數(shù)語義的約束,但這些松散的標注在工作流、標注、本體中檢測錯誤仍然有價值,在簡化手工標注的任務(wù)中也很有價值。 2比較分析 專業(yè)人員創(chuàng)建元數(shù)據(jù)最主要的問題是內(nèi)容擴展時的可擴性和可行性問題,尤其是在萬維網(wǎng)中。并且專業(yè)的編目系績工具對于沒有專門培訓和知識的人來說太復(fù)雜;作者創(chuàng)建元數(shù)據(jù)也有問題,經(jīng)常出現(xiàn)不恰當、不準確的標注,或者完全是虛假標注。 采用聚類分析方法對用關(guān)鍵詞或自由詞標引的檢索系統(tǒng)中的詞表建立詞間關(guān)系,可以形成語義網(wǎng)提高系統(tǒng)檢索效率,達到語義控制的目的。但詞條高

7、達數(shù)百萬條使得待聚類的Web文檔特征詞條一權(quán)重矩陣的維數(shù)過高,增加了聚類算法的復(fù)雜度,因此空間維數(shù)較高或詞與詞間呈現(xiàn)較強的相關(guān)性時聚類質(zhì)量和算法的性能會明顯下降。目前有許多人從事該方面的研究,其中戚涌等人提出了基于潛在語義標注(LatentSemanticIndexingLSI)的Web文檔自動分類,即對Web文檔采用最優(yōu)聚類準則進行聚類,使得獲得的特征向量具有較低的維數(shù)和更好的分類特征。 亞當·馬斯認為大眾標注將取代以往由專家控制的元數(shù)據(jù)編輯。Marieke Guy認為大眾標注指的就是關(guān)鍵詞、標簽、元數(shù)據(jù),是由使用資源的社區(qū)創(chuàng)建的自然,術(shù)語間不存在層次結(jié)構(gòu),沒有特定的父子與兄弟關(guān)系

8、,有反饋現(xiàn)象,是種類而非分類。 而在語義標注中人們將本體引入標注系統(tǒng)用于知識的組織。之所以將ontology引入網(wǎng)絡(luò)信息資源組織領(lǐng)域,是因為ontology的研究著眼于更加寬泛的空間即為人類認識活動構(gòu)建頂層概念框架;ontology更加突出知識共享的功能,更著眼于給出人類事物認識的知識(或領(lǐng)域知識)總框架,以期待將Internet上的信息資源組織成一個語義網(wǎng)、知識網(wǎng),以最大程度實現(xiàn)Internet信息資源的有效利用。 3評價 正如David welnberger所述,大眾標注法不同于傳統(tǒng)分類法,最重要的地方表現(xiàn)在傳統(tǒng)分類法是自頂向下的、有層次的,而大眾標注法是自底向上的,沒有層次的。如果說傳統(tǒng)

9、的分類法所得的是棵分類樹,那么大眾標注法只是將由用戶自創(chuàng)建的葉子堆到了一起。語義標注所依賴的本體也是一種自頂向下分類法,所以從這點來看,可以將語義標注與傳統(tǒng)分類法歸為一類,即都是使用受控詞匯的分類法。但是語義標注不僅增加了可控性,更由于本體的介入獲得了標注中使用語義的便捷性。 在大眾標注法中可以考慮在用戶添加標簽后,利用人工智能和ontology的方法對標簽進行分析定位,并向用戶顯示其所處的樹狀,甚至網(wǎng)狀的知識體系結(jié)構(gòu),方便用戶從整體上認識問題。這做到了大眾標注自底向上與ontology自頂向下的結(jié)合。 4結(jié)語 標注對開發(fā)者而言可以更好地組織信息,對用戶而言可以更好地檢索信息。傳統(tǒng)網(wǎng)絡(luò),Web2.0中的標注都需要ontol-ogy的引入,需要語義標注的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論