


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于搜索引擎分類(lèi)及特點(diǎn)的分析
摘要:隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)的推廣應(yīng)用,搜索引擎在網(wǎng)絡(luò)用戶(hù)的生活中起著舉足輕重的作用,本文就全文搜索引擎、目錄搜索引擎和元搜索引擎做分析比較,并對(duì)目前的搜索引擎的特點(diǎn)進(jìn)行了詳細(xì)描述。搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每1個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每1個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。在索引數(shù)據(jù)庫(kù)中搜索排序當(dāng)用戶(hù)輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。最后由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶(hù)。搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。1全文搜索引擎全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲(chóng),網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿(mǎn)足系統(tǒng)的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè),并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢(xún)和檢索;對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。爬蟲(chóng)設(shè)計(jì)是否合理將直接影響它訪(fǎng)問(wèn)Web的效率,影響搜索數(shù)據(jù)庫(kù)的質(zhì)量,另外在設(shè)計(jì)爬蟲(chóng)時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪(fǎng)問(wèn)站點(diǎn)的影響,因?yàn)榕老x(chóng)一般都運(yùn)行在速度快,帶寬高的主機(jī)上,如果它快速訪(fǎng)問(wèn)一個(gè)速度較慢的目標(biāo)站點(diǎn),可能導(dǎo)致該站點(diǎn)出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪(fǎng)問(wèn)站點(diǎn)的管理員能夠確定訪(fǎng)問(wèn)內(nèi)容,Index是一個(gè)龐大的數(shù)據(jù)庫(kù),爬蟲(chóng)提取的網(wǎng)頁(yè)將被放入到Index中建立索引,不同的搜索引擎會(huì)采取不同方式來(lái)建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。2目錄搜索引擎目錄搜索引擎的數(shù)據(jù)庫(kù)是依靠專(zhuān)職人員建立的,這些人員在訪(fǎng)問(wèn)了某個(gè)Web站點(diǎn)后撰寫(xiě)一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類(lèi)別,把站點(diǎn)URL和描述放在這個(gè)類(lèi)別中,當(dāng)用戶(hù)查詢(xún)某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶(hù)提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類(lèi)別中。目錄的結(jié)構(gòu)為樹(shù)形結(jié)構(gòu),首頁(yè)提供了最基本的入口,用戶(hù)可以逐級(jí)地向下訪(fǎng)問(wèn),直至找到自己的類(lèi)別,另外,用戶(hù)也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中搜索,因此站點(diǎn)本身的變化不會(huì)反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類(lèi)目錄在網(wǎng)絡(luò)營(yíng)銷(xiāo)中的應(yīng)用主要有下列特點(diǎn):通常只能收錄網(wǎng)站首頁(yè)(或者若干頻道),而不能將大量網(wǎng)頁(yè)都提交給分類(lèi)目錄;網(wǎng)站一旦被收錄將在一定時(shí)期內(nèi)保持穩(wěn)定;無(wú)法通過(guò)"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類(lèi)目錄中的排名;在高質(zhì)量的分類(lèi)目錄登錄,對(duì)于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價(jià)值;緊靠分類(lèi)目錄通常與其他網(wǎng)站推廣手段共同使用。3元搜索引擎我們可將元搜索引擎看成具有雙層客戶(hù)機(jī)/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶(hù)向元搜索引擎發(fā)出檢索請(qǐng)求,元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求,搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過(guò)整理再以應(yīng)答形式傳送給實(shí)際用戶(hù)。當(dāng)然,某些元搜索引擎具有略微不同的機(jī)制。元搜索引擎在接受用戶(hù)查詢(xún)請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,將結(jié)果進(jìn)行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶(hù)。它的特點(diǎn)是本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶(hù),元搜索引擎實(shí)現(xiàn)起比較簡(jiǎn)單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪(fǎng)問(wèn)少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢(xún)時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)使其在一定的領(lǐng)域和時(shí)間內(nèi)仍會(huì)被使用,機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿(mǎn)足要求,結(jié)合目錄式搜索引擎,機(jī)器人搜索引擎的優(yōu)勢(shì),以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。搜索引擎技術(shù)功能強(qiáng)大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢(xún)功能,而是把自己發(fā)展成為用戶(hù)首選的Internet入口站點(diǎn)。目前的搜索引擎主要有幾個(gè)特點(diǎn):多樣化和個(gè)性化的服務(wù)。強(qiáng)大的查詢(xún)功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)樗阉飨到y(tǒng)的表現(xiàn)與用戶(hù)的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,仍然無(wú)法實(shí)現(xiàn)。參考文獻(xiàn)[1]張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報(bào),2004,(4).[2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢(shì)[J].情報(bào)雜志,2001,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 銷(xiāo)售水果合作合同范本
- 小學(xué)生生日課件
- 道路切割拆除合同范本
- 2025至2030年中國(guó)嵌入式燃?xì)庠钸M(jìn)風(fēng)裝飾板數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)女士無(wú)縫美體羊絨褲數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 第七次人口普查長(zhǎng)表培訓(xùn)
- 2025至2030年中國(guó)不銹鋼電解拋光絲數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 二零二五年度專(zhuān)業(yè)體檢機(jī)構(gòu)與單位企業(yè)深度合作合同
- 2025年度紅木家具行業(yè)標(biāo)準(zhǔn)化制定合同
- 2025年度非物質(zhì)文化遺產(chǎn)廣告策劃與保護(hù)傳承合同
- 2023年常州工業(yè)職業(yè)技術(shù)學(xué)院高職單招(語(yǔ)文)試題庫(kù)含答案解析
- GB/T 3452.2-2007液壓氣動(dòng)用O形橡膠密封圈第2部分:外觀質(zhì)量檢驗(yàn)規(guī)范
- GB/T 30797-2014食品用洗滌劑試驗(yàn)方法總砷的測(cè)定
- GB/T 20057-2012滾動(dòng)軸承圓柱滾子軸承平擋圈和套圈無(wú)擋邊端倒角尺寸
- GB/T 19808-2005塑料管材和管件公稱(chēng)外徑大于或等于90mm的聚乙烯電熔組件的拉伸剝離試驗(yàn)
- 班組建設(shè)工作體系課件
- 第章交通調(diào)查與數(shù)據(jù)分析課件
- 中醫(yī)院情志養(yǎng)生共64張課件
- 秘書(shū)理論與實(shí)務(wù)教案
- 淺圓倉(cāng)滑模及倉(cāng)頂板施工方案
- 應(yīng)用文第一章緒論2016春
評(píng)論
0/150
提交評(píng)論