[計(jì)算機(jī)]搜索結(jié)果聚類論文:基于Ontology的Web文本聚類研究_第1頁
[計(jì)算機(jī)]搜索結(jié)果聚類論文:基于Ontology的Web文本聚類研究_第2頁
[計(jì)算機(jī)]搜索結(jié)果聚類論文:基于Ontology的Web文本聚類研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 搜索結(jié)果聚類論文:基于Ontology的Web文本聚類研究【中文摘要】隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和個(gè)人計(jì)算機(jī)的普及,目前全世界每四個(gè)人中就有一個(gè)人使用計(jì)算機(jī)上網(wǎng),2010年中國的網(wǎng)頁數(shù)量高達(dá)336億,其中87.8%的數(shù)據(jù)是以文本的形式存在。因此對(duì)文本信息的挖掘是從互聯(lián)網(wǎng)上獲取知識(shí)的重要途徑。聚類技術(shù)在信息檢索領(lǐng)域有著廣泛的應(yīng)用,有很多非常成熟的算法在各個(gè)方面承擔(dān)著重要角色。傳統(tǒng)的搜索引擎以列表的形式返回搜索結(jié)果,對(duì)于一個(gè)模糊的、語義不明確的、或者屬于多個(gè)主題的查詢?cè)~,不同語義、不同主題的搜索內(nèi)容可能分散在長長的列表中,用戶不得不花費(fèi)大量的精力和時(shí)間從中查找符合自己查詢意圖的目標(biāo)結(jié)果。這種情況下

2、,一方面降低了搜索結(jié)果的質(zhì)量,另一方面也使用戶的滿意度大打折扣。研究人員為解決此類問題提供了許多方法,其中對(duì)搜索引擎返回結(jié)果進(jìn)行聚類成為解決這一問題的有效途徑,并在實(shí)踐中被不斷的完善。Vivisimo ,Infonetware RealTerm Search都是非常成功的商業(yè)聚類搜索引擎。搜索結(jié)果聚類系統(tǒng)的輸入通常是由傳統(tǒng)搜索引擎響應(yīng)用戶查詢所返回的一個(gè)搜索結(jié)果集,其中每一個(gè)搜索結(jié)果由題目、文本摘要和原始頁面鏈接組成。輸出是對(duì)結(jié)果集進(jìn)行聚類后得到的一組.【英文摘要】In the first annual ORG forum, Beckstrom pointed that 25% of the

3、world uses the internet by computer today(1), a conservative estimate of 1.75 billion. According state council information office minister Chen Wangs speech: On Chinas Internet development and management, the number of Web pages in china has reached 33.6 billion by 2010 and 87.8% is in text form on

4、the Internet(2). Obviously, internets infiltrates peoples learning, work and play well every aspect of life with unimaginable speed. So te.【關(guān)鍵詞】搜索結(jié)果聚類 后綴樹 關(guān)聯(lián)度計(jì)算 本體 聚簇標(biāo)簽【英文關(guān)鍵詞】search results clustering suffix tree association calculation ontology cluster labels【目錄】基于Ontology的Web文本聚類研究 摘要 4-6 Abstract

5、 6-7 1 緒論 10-16 1.1 課題研究的背景和意義 10-11 1.2 國內(nèi)外研究現(xiàn)狀 11-14 1.3 本文的主要研究內(nèi)容 14-16 2 Web 文本聚類的背景知識(shí) 16-22 2.1 文本聚類 16-19 2.1.1 文本聚類的過程 16-17 2.1.2 文本聚類算法的分類 17-19 2.2 搜索結(jié)果聚類 19-20 2.3 搜索結(jié)果聚類引擎的結(jié)構(gòu) 20-22 2.3.1 搜索結(jié)果獲得模塊 21 2.3.2 搜索結(jié)果預(yù)處理模塊 21 2.3.3 搜索結(jié)果聚類模塊 21 2.3.4 搜索結(jié)果可視化模塊 21-22 3 中文網(wǎng)頁的搜索結(jié)果聚類 22-31 3.1 后綴樹聚類

6、22-24 3.1.1 后綴樹 22-24 3.1.2 后綴樹聚類 24 3.2 中文搜索結(jié)果后綴樹模型的構(gòu)建 24-30 3.2.1 搜索結(jié)果預(yù)處理 25-26 3.2.2 識(shí)別具有較完整語義信息的短語 26 3.2.3 文本后綴樹模型相關(guān)集合的定義 26-28 3.2.4 基類關(guān)聯(lián)度的計(jì)算 28-30 3.3 本章小結(jié) 30-31 4 基于本體的聚類標(biāo)簽提取方法 31-39 4.1 本體的應(yīng)用 31-32 4.2 基類貢獻(xiàn)度計(jì)算 32-36 4.2.1 提取高頻短語 32-34 4.2.2 基于基類中詞語的詞性進(jìn)行權(quán)重分配 34-36 4.3 基于本體的提取方法 36-37 4.4 本章內(nèi)容總結(jié) 37-39 5 實(shí)驗(yàn) 39-54 5.1 系統(tǒng)構(gòu)建 39 5.2 實(shí)驗(yàn)過程 39-50 5.2.1 后綴樹文本模型的演示 39-43 5.2.2 后綴樹文本模型的構(gòu)建 43-50 5.3 結(jié)果分析 50-54 5.3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論