




全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于Lucene的站內(nèi)搜索引擎技術(shù)的研究與應(yīng)用【摘要】 隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息資源正以驚人的速度增長。出于信息化建設(shè)的需要,大量企事業(yè)單位都建立了自己的網(wǎng)站,以便向人們提供信息服務(wù),以提高企業(yè)的知名度和服務(wù)質(zhì)量。隨著時間的推移,許多網(wǎng)站中存儲了大量的信息,但是,相當(dāng)多的網(wǎng)站沒有自己的站內(nèi)搜索引擎系統(tǒng),這就有可能造成用戶無法快速找到自己感興趣的信息。盡管一些大型的web搜索引擎也向用戶提供站內(nèi)檢索的功能。例如Google、百度、雅虎都向Web站點提供了支持站內(nèi)搜索的機(jī)制。但是由于Web搜索引擎收錄的Web頁面只占因特網(wǎng)中可收錄頁面的三分之一左右,同時Web搜索引擎通常是經(jīng)過一個固定的周期才刷新其收錄的頁面,這必然導(dǎo)致采用Web搜索引擎作為其站內(nèi)搜索引擎的站點,其搜索結(jié)果質(zhì)量差、不精確、更新慢、不能及時顯示站內(nèi)信息。因此,對于這些沒有提供站內(nèi)信息檢索系統(tǒng)的網(wǎng)站,建立自己的站內(nèi)信息檢索系統(tǒng)成為了當(dāng)務(wù)之急。在對搜索引擎系統(tǒng)、全文檢索技術(shù)和Lucene開源工具包進(jìn)行了深入研究的基礎(chǔ)上,本文設(shè)計并實現(xiàn)了一個基于Lucene的站內(nèi)搜索引擎系統(tǒng)。文中詳細(xì)介紹了站內(nèi)搜索引擎系統(tǒng)的需求分析、系統(tǒng)的整體組織架構(gòu)、系統(tǒng)實現(xiàn)的開發(fā)工具以及系統(tǒng)各個功能.更多還原【Abstract】 With the rapid development of Internet technology, information resource on the internet is increasing at an astonishing rate. For the need of information construction, a lot of enterprises and institutions have set up their own websites, in order to provide information services to the users and improve their popularity and service quality. As time goes on, many websites stored a large amount of pages. However, few websites have their own intranet search engine system. In this condition, the user.更多還原 【關(guān)鍵詞】 搜索引擎; 全文檢索; Lucene; 構(gòu)建索引; 【Key words】 search engine; full-text retrieval; Lucene; indexing; 【索購全文】Q聯(lián)系Q:138113721 Q聯(lián)系Q: 139938848付費即發(fā)目錄摘要 3-5 ABSTRACT 5-6 第一章 緒論 9-12 1.1 課題背景和意義 9-10 1.2 課題研究內(nèi)容和章節(jié)安排 10-12 第二章 搜索引擎概述 12-20 2.1 信息檢索與搜索引擎 12 2.2 搜索引擎的歷史 12-13 2.3 搜索引擎的分類 13-15 2.4 搜索引擎的組成部分 15-17 2.5 搜索引擎的評價標(biāo)準(zhǔn) 17-18 2.6 搜索引擎的發(fā)展方向 18-19 2.7 本章小結(jié) 19-20 第三章 全文檢索技術(shù)分析 20-31 3.1 全文檢索技術(shù)概述 20 3.2 全文檢索系統(tǒng)的工作原理 20-22 3.3 全文檢索關(guān)鍵技術(shù)分析 22-30 3.3.1 中文分詞技術(shù) 22-26 3.3.2 索引結(jié)構(gòu) 26-28 3.3.3 排序算法 28-30 3.4 本章小結(jié) 30-31 第四章 Lucene分析 31-38 4.1 Lucene簡介 31-32 4.2 Lucene的組織結(jié)構(gòu) 32-35 4.3 Lucene索引文件結(jié)構(gòu) 35-36 4.4 Lucene的評分機(jī)制 36-37 4.5 本章小結(jié) 37-38 第五章 站內(nèi)搜索引擎系統(tǒng)的設(shè)計與實現(xiàn) 38-59 5.1 系統(tǒng)需求與開發(fā)環(huán)境 38-39 5.2 系統(tǒng)的整體組織結(jié)構(gòu) 39-40 5.3 信息采集模塊的設(shè)計與實現(xiàn) 40-47 5.3.1 網(wǎng)絡(luò)爬蟲系統(tǒng)概述 40-41 5.3.2 網(wǎng)絡(luò)爬蟲的架構(gòu) 41-44 5.3.3 網(wǎng)絡(luò)爬蟲程序的實現(xiàn) 44-47 5.4 索引模塊的設(shè)計與實現(xiàn) 47-53 5.4.1 多類型文檔索引架構(gòu) 47-49 5.4.2 多類型文檔索引流程 49-51 5.4.3 文檔索引操作的實現(xiàn) 51-52 5.4.4 文檔解析操作的實現(xiàn) 52-53 5.5 搜索模塊的設(shè)計與實現(xiàn) 53-57 5.5.1 搜索模塊的分析與設(shè)計 53-54 5.5.2 搜索模塊的實現(xiàn) 54-56 5.5.3 高亮顯示關(guān)鍵字 56-57 5.6 信息展現(xiàn)界面的設(shè)計與實現(xiàn) 57-58 5.7 本章小結(jié) 58-59 第六章 系統(tǒng)部署與實驗 59-64 6.1 系統(tǒng)部署 59-60 6.2 實驗測試 60-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2026學(xué)年河北省衡水市冀州市三年級數(shù)學(xué)第一學(xué)期期末教學(xué)質(zhì)量檢測試題含解析
- 急性心肌梗死護(hù)理
- 水泥混凝土路面設(shè)計要點
- 簡化學(xué)習(xí)計劃以應(yīng)對市政工程考試的策略試題及答案
- 中班下學(xué)期郊游活動課程設(shè)計
- 客戶關(guān)系管理在公共關(guān)系中的重要性試題及答案
- 合作協(xié)議簽署及執(zhí)行流程規(guī)范
- 工程經(jīng)濟(jì)考試高頻試題及答案
- 智能家居行業(yè)應(yīng)用技術(shù)測試卷
- 紡織行業(yè)知識題庫
- 2024年湖北省新華書店(集團(tuán))有限公司招聘筆試參考題庫含答案解析
- 無人港口自動化吊車電控設(shè)計
- 鄒氏宗親聯(lián)誼會通訊錄美篇
- 數(shù)據(jù)清洗與預(yù)處理方案
- 馬克思主義勞動觀的中國化-新時代勞動思想
- 安措費清單完
- 平衡火罐的基本理論及臨床應(yīng)用
- 基于大數(shù)據(jù)的小學(xué)生“五育”并舉評價之研究與實踐
- 康復(fù)常見并發(fā)癥評定
- (3.1)-7.1展望未來共產(chǎn)主義新社會
- 人工智能算法分析 課件 【ch07】聯(lián)邦學(xué)習(xí)
評論
0/150
提交評論