![垂直搜索引擎原理及功能模塊設(shè)計(jì),搜索引擎論文_第1頁(yè)](http://file4.renrendoc.com/view/6eadda7d946678a424cb6fc7c02f0604/6eadda7d946678a424cb6fc7c02f06041.gif)
![垂直搜索引擎原理及功能模塊設(shè)計(jì),搜索引擎論文_第2頁(yè)](http://file4.renrendoc.com/view/6eadda7d946678a424cb6fc7c02f0604/6eadda7d946678a424cb6fc7c02f06042.gif)
![垂直搜索引擎原理及功能模塊設(shè)計(jì),搜索引擎論文_第3頁(yè)](http://file4.renrendoc.com/view/6eadda7d946678a424cb6fc7c02f0604/6eadda7d946678a424cb6fc7c02f06043.gif)
![垂直搜索引擎原理及功能模塊設(shè)計(jì),搜索引擎論文_第4頁(yè)](http://file4.renrendoc.com/view/6eadda7d946678a424cb6fc7c02f0604/6eadda7d946678a424cb6fc7c02f06044.gif)
![垂直搜索引擎原理及功能模塊設(shè)計(jì),搜索引擎論文_第5頁(yè)](http://file4.renrendoc.com/view/6eadda7d946678a424cb6fc7c02f0604/6eadda7d946678a424cb6fc7c02f06045.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
垂直搜索引擎原理及功能模塊設(shè)計(jì),搜索引擎論文摘要:分析了搜索引擎原理及分類(lèi),闡述了垂直搜索引擎原理及功能模塊設(shè)計(jì),以提高垂直搜索引擎對(duì)特定領(lǐng)域信息檢索的深度和完好度。本文關(guān)鍵詞語(yǔ):垂直搜索引擎;主題網(wǎng)絡(luò)爬蟲(chóng);大數(shù)據(jù);在信息高度發(fā)達(dá)的今天,互聯(lián)網(wǎng)上的信息量以幾何級(jí)增長(zhǎng),人們?cè)鯓訌暮A康臄?shù)據(jù)中快速準(zhǔn)確地找到自個(gè)所需要的信息成為一個(gè)難點(diǎn)。通用搜索引擎雖能覆蓋所有的資源,但其本質(zhì)是檢索詞匹配,容易忽略用戶(hù)搜索的真實(shí)意圖。為了彌補(bǔ)通用搜索引擎的缺乏,實(shí)現(xiàn)對(duì)特定主題信息的檢索,又出現(xiàn)了垂直搜索引擎,它檢出的結(jié)果更準(zhǔn)確,挖掘信息的層次更深,無(wú)效信息更少,更能適應(yīng)垂直領(lǐng)域的服務(wù)。1、搜索引擎原理及分類(lèi)1.1、搜索引擎原理搜索引擎的工作原理可分為三步,先從互聯(lián)網(wǎng)上發(fā)現(xiàn)并抓取網(wǎng)頁(yè)信息,接著對(duì)信息進(jìn)行提取并建立索引庫(kù),最后一步是在索引庫(kù)中檢索并將結(jié)果排序后返回給用戶(hù)。搜索引擎的工作流程如此圖1所示。圖1搜索引擎工作流程抓取模塊主要是由網(wǎng)絡(luò)爬蟲(chóng)組成,它根據(jù)一定的策略在互聯(lián)網(wǎng)上抓取站點(diǎn)頁(yè)面,并記錄下抓取到的每一個(gè)頁(yè)面的URL地址,將網(wǎng)頁(yè)內(nèi)容下載并保存到系統(tǒng)存儲(chǔ)庫(kù)里面。它的搜集經(jīng)過(guò)并不是在用戶(hù)提交本文關(guān)鍵詞語(yǔ)后進(jìn)行的及時(shí)搜索,而是預(yù)先將網(wǎng)頁(yè)搜集保存下來(lái)以備處理。索引模塊則是將抓取的數(shù)據(jù)進(jìn)行分詞、計(jì)算權(quán)重后排序存儲(chǔ)到索引數(shù)據(jù)庫(kù)中。檢索模塊則是在接到搜索請(qǐng)求后從索引數(shù)據(jù)庫(kù)中檢索出符合用戶(hù)檢索詞的信息,按用戶(hù)查詢(xún)相關(guān)性排序后展現(xiàn)給用戶(hù)。1.2、搜索引擎分類(lèi)搜索引擎根據(jù)工作原理可分為全文搜索引擎、目錄搜索引擎和元搜索引擎三類(lèi)[1]。全文搜索引擎是利用全文檢索技術(shù)提取各個(gè)網(wǎng)站頁(yè)面的文字內(nèi)容,對(duì)其加工后存儲(chǔ)到自個(gè)的索引數(shù)據(jù)庫(kù)中。用戶(hù)搜索時(shí),全文搜索引擎根據(jù)用戶(hù)的檢索詞在自個(gè)的數(shù)據(jù)庫(kù)中進(jìn)行匹配,將匹配一致的記錄按一定的排列順序返回給用戶(hù)。Baidu、Google就是此類(lèi)搜索引擎的代表。目錄搜索引擎是以人工方式或半自動(dòng)方式搜集網(wǎng)站信息,由人工構(gòu)成信息內(nèi)容摘要并根據(jù)頁(yè)面資源類(lèi)別的不同將其進(jìn)行分類(lèi)。用戶(hù)只需要在目錄類(lèi)別講明中查找內(nèi)容,整個(gè)搜索過(guò)成一目了然。雅虎、新浪、搜狐、網(wǎng)易搜索都屬于這一類(lèi)。元搜索引擎也稱(chēng)為多元搜索引擎、索引搜索引擎,它是一種調(diào)用其他獨(dú)立搜索引擎的引擎。它在接受用戶(hù)查詢(xún)請(qǐng)求時(shí),同時(shí)在其他多個(gè)搜索引擎上進(jìn)行搜索,并按自定義的算法整合各個(gè)搜索引擎返回的檢索信息,把優(yōu)化后的結(jié)果返回給用戶(hù)。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等[2]。2、垂直搜索引擎原理及功能模塊設(shè)計(jì)2.1、垂直搜索引擎原理垂直搜索引擎是面向特定領(lǐng)域?yàn)樘囟ㄓ脩?hù)服務(wù)的一種搜索引擎,是對(duì)專(zhuān)業(yè)領(lǐng)域信息的深層次挖掘,它將信息過(guò)濾、挑選、梳理后集成在一起,為用戶(hù)提供了面向?qū)I(yè)知識(shí)的檢索[3]。與普通搜索引擎相比,垂直搜索引擎檢索出的結(jié)果更專(zhuān)業(yè),更細(xì)致,挖掘信息的層次更深。垂直搜索引擎與全文搜索引擎工作原理類(lèi)似,區(qū)別在于抓取模塊中的爬蟲(chóng)程序與主題詞庫(kù)。垂直搜索引擎的主題爬蟲(chóng)是對(duì)通用網(wǎng)絡(luò)爬蟲(chóng)的擴(kuò)展,根據(jù)特定主題進(jìn)行網(wǎng)頁(yè)抓取,并計(jì)算主題相關(guān)度。主題爬蟲(chóng)是垂直搜索引擎的核心技術(shù)之一,它并不期望高的覆蓋率,只抓取與特定主題相關(guān)度高的頁(yè)面,為特定用戶(hù)的查詢(xún)提供數(shù)據(jù)基礎(chǔ)[4]。2.2、采集模塊設(shè)計(jì)信息采集模塊的功能主要是從互聯(lián)網(wǎng)中抓取與主題內(nèi)容相關(guān)的信息數(shù)據(jù),是整個(gè)垂直搜索引擎中最為關(guān)鍵的模塊之一,它采集到的數(shù)據(jù)將直接決定了用戶(hù)檢索信息的準(zhǔn)確度,而數(shù)據(jù)的采集主要依靠主題爬蟲(chóng)來(lái)實(shí)現(xiàn)。相對(duì)于普通網(wǎng)絡(luò)爬蟲(chóng)的構(gòu)造,主題網(wǎng)絡(luò)爬蟲(chóng)的構(gòu)造中添加了主題模塊、頁(yè)面相關(guān)度評(píng)價(jià)模塊和超鏈接評(píng)價(jià)模塊。主題網(wǎng)絡(luò)爬蟲(chóng)構(gòu)造如以下圖2所示。主題模塊是用來(lái)限定主題網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)頁(yè)的范圍,對(duì)于其他與主題無(wú)關(guān)的頁(yè)面,直接丟棄或者不爬行。頁(yè)面相關(guān)度評(píng)價(jià)模塊直接決定主題爬蟲(chóng)抓取信息的質(zhì)量和準(zhǔn)確率,是主題網(wǎng)絡(luò)爬蟲(chóng)與通用爬蟲(chóng)不同之處。相關(guān)度評(píng)價(jià)之前,要根據(jù)以前的經(jīng)歷體驗(yàn)及數(shù)據(jù)設(shè)定一個(gè)閾值,計(jì)算網(wǎng)頁(yè)相關(guān)度之后將結(jié)果與其比擬,假如計(jì)算結(jié)果小于所設(shè)定的閾值,表示此網(wǎng)頁(yè)與主題無(wú)關(guān),直接丟棄;假如計(jì)算結(jié)果大于閾值,則表示與主題相關(guān),則將其過(guò)濾后保存下來(lái)。超鏈接相關(guān)度評(píng)價(jià)模塊的功能是為主題相關(guān)頁(yè)面中的鏈接分配優(yōu)先級(jí),主題相關(guān)頁(yè)面的類(lèi)似度大小決定優(yōu)先級(jí)的先后,類(lèi)似度結(jié)果越大的網(wǎng)頁(yè)表示清楚該網(wǎng)頁(yè)的內(nèi)容與主題越接近[5]。圖2主題網(wǎng)絡(luò)爬蟲(chóng)構(gòu)造主題爬蟲(chóng)首先根據(jù)初始種子鏈接進(jìn)行網(wǎng)頁(yè)抓取,然后根據(jù)主題模塊進(jìn)行頁(yè)面相關(guān)度判定,若該頁(yè)面信息與主題相關(guān),則將該頁(yè)面內(nèi)容存儲(chǔ)到網(wǎng)頁(yè)庫(kù)中;若頁(yè)面內(nèi)容與主題無(wú)關(guān),則將其舍棄。將所有抓取網(wǎng)頁(yè)的鏈接進(jìn)行提取,進(jìn)行超鏈接相關(guān)度評(píng)價(jià)后存入U(xiǎn)RL庫(kù),以備主題爬蟲(chóng)將來(lái)對(duì)所抓取的鏈接去重。2.3、索引模塊設(shè)計(jì)索引模塊的功能是將采集的數(shù)據(jù)有序處理后,構(gòu)建倒排索引庫(kù),為將來(lái)的檢索提供數(shù)據(jù)基礎(chǔ)。索引模塊主要由數(shù)據(jù)預(yù)處理、構(gòu)建倒排索引庫(kù)以及索引庫(kù)更新三部分組成。數(shù)據(jù)預(yù)處理是對(duì)采集的數(shù)據(jù)進(jìn)行過(guò)濾和清洗,處理掉無(wú)關(guān)數(shù)據(jù)和重復(fù)數(shù)據(jù)。倒排索引庫(kù)是索引模塊的核心,而索引構(gòu)造與搜索引擎的查詢(xún)速度密切相關(guān)。采用倒排索引構(gòu)造能夠在較短時(shí)間內(nèi)定位到搜索結(jié)果的詳細(xì)位置。系統(tǒng)模塊首先從預(yù)處理好的數(shù)據(jù)中將搜索服務(wù)中檢索需要用到的字段從數(shù)據(jù)庫(kù)中提取出來(lái),接著對(duì)數(shù)據(jù)信息進(jìn)行分詞處理,計(jì)算提取的本文關(guān)鍵詞語(yǔ)的權(quán)重,然后根據(jù)得到的本文關(guān)鍵詞語(yǔ)構(gòu)建索引并對(duì)其內(nèi)容進(jìn)行排序。最后通過(guò)文檔編號(hào)差值的方式對(duì)數(shù)據(jù)壓縮,將已經(jīng)壓縮的索引入庫(kù)[6]。倒排索引工作流程如此圖3所示。圖3倒排索引工作流程網(wǎng)絡(luò)上的數(shù)據(jù)每日都在增加,主題網(wǎng)絡(luò)爬蟲(chóng)也在網(wǎng)絡(luò)上不停爬去相關(guān)頁(yè)面,索引庫(kù)的內(nèi)容也隨著增加。為了不影響搜索引擎的檢索速度,必須有一個(gè)合理的索引更新策略。筆者對(duì)索引庫(kù)的更新采用混合策略,將不同的索引更新策略混合,以構(gòu)成更高層次的效率?;旌喜呗砸话銜?huì)將單詞根據(jù)其不同性質(zhì)進(jìn)行分類(lèi),不同類(lèi)別的單詞,對(duì)其索引采取不同的索引更新策略[7]。這樣能節(jié)省系統(tǒng)開(kāi)銷(xiāo),對(duì)搜索引擎檢索速度的影響也不大。2.4、檢索模塊設(shè)計(jì)用戶(hù)檢索模塊包含兩個(gè)功能:搜索建議與搜索。搜索建議功能是用戶(hù)在檢索框內(nèi)輸入自個(gè)以為的檢索詞后,搜索引擎將該詞在索引數(shù)據(jù)庫(kù)中進(jìn)行模糊匹配,把類(lèi)似或相關(guān)度很高的詞在檢索框中進(jìn)行提示,以方便用戶(hù)比擬后選擇,以提高檢索的準(zhǔn)確性。搜索功能是垂直搜索引擎來(lái)的核心。用戶(hù)在搜索框內(nèi)輸入檢索詞后,若采用搜索建議提供的詞,則系統(tǒng)直接在索引數(shù)據(jù)庫(kù)中按建議詞進(jìn)行檢索并輸出結(jié)果;若用戶(hù)不選擇建議詞,系統(tǒng)則根據(jù)用戶(hù)的檢索詞在索引數(shù)據(jù)庫(kù)中檢索并返回結(jié)果[8]。檢索模塊工作流程如下4圖所示。圖4檢索模塊工作流程3、結(jié)束語(yǔ)隨著互聯(lián)網(wǎng)上的信息爆炸式地增長(zhǎng),人們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。無(wú)論是在工作還是生活中,人們對(duì)互聯(lián)網(wǎng)的依靠越來(lái)越深,對(duì)垂直搜索引擎的要求也越來(lái)越專(zhuān)業(yè),期望通過(guò)垂直搜索引擎檢索得到范圍更小、層次更深、粒度更細(xì)的資源。在垂直搜索領(lǐng)域里面還有很多值得提高的地方,比方隧道技術(shù),能夠過(guò)濾掉無(wú)關(guān)網(wǎng)頁(yè)連接兩個(gè)主題,主題相關(guān)度算法也需要愈加完善才能提高垂直搜索引擎檢索的完好性,這都需要在后續(xù)的工作中進(jìn)一步研究。以下為參考文獻(xiàn)[1]袁津生.搜索引擎原理與實(shí)踐[M].北京:北京郵電大學(xué)出版社,2008:6~7.[2]李鴻飛.網(wǎng)絡(luò)信息檢索工具的現(xiàn)在狀況分析與發(fā)展方向研究---以搜索引擎和網(wǎng)絡(luò)資源目錄為例[J].中國(guó)科技信息,2020,(8).[3]丁月.基于網(wǎng)絡(luò)爬蟲(chóng)的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D].貴陽(yáng):貴州大學(xué),2022.[4]張亞鳳.垂直搜索引擎中關(guān)鍵技術(shù)的研究[D].長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué),2021.[5]羅路天.垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲(chóng)算法的設(shè)計(jì)與研究[D].廣州:廣東工業(yè)大學(xué),2021.[6]張?jiān)拢贓lasticSearch的分布式搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 采購(gòu)進(jìn)貨合同范本
- 鋼材采購(gòu)合同
- 電力采購(gòu)合同
- 2025年基本公共衛(wèi)生工作計(jì)劃報(bào)告
- 代理報(bào)稅合同范本
- 租賃意向合同
- 酒店用品購(gòu)銷(xiāo)合同協(xié)議書(shū)范本
- 河南物流職業(yè)學(xué)院《經(jīng)濟(jì)數(shù)學(xué)下》2023-2024學(xué)年第二學(xué)期期末試卷
- 創(chuàng)業(yè)開(kāi)店合作協(xié)議書(shū)
- 合肥職業(yè)技術(shù)學(xué)院《復(fù)變函數(shù)與離散數(shù)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年新生兒黃疸診斷與治療研究進(jìn)展
- 廣東大灣區(qū)2024-2025學(xué)年度高一上學(xué)期期末統(tǒng)一測(cè)試英語(yǔ)試題(無(wú)答案)
- 2025年四川中煙工業(yè)限責(zé)任公司招聘110人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 課題申報(bào)書(shū):數(shù)智賦能高職院校思想政治理論課“金課”實(shí)踐路徑研究
- 公司安全生產(chǎn)事故隱患內(nèi)部報(bào)告獎(jiǎng)勵(lì)工作制度
- H3CNE認(rèn)證考試題庫(kù)官網(wǎng)2022版
- 感統(tǒng)訓(xùn)練培訓(xùn)手冊(cè)(適合3-13歲兒童)
- 公司章程范本(完整版)
- 廠房委托經(jīng)營(yíng)管理合同范本
- 《保險(xiǎn)科技》課件-第二章 大數(shù)據(jù)及其在保險(xiǎn)領(lǐng)域中的應(yīng)用
- 父母贈(zèng)與田地協(xié)議書(shū)范本
評(píng)論
0/150
提交評(píng)論