網(wǎng)絡(luò)門(mén)戶搜索引擎網(wǎng)站的技術(shù)和存在問(wèn)題及發(fā)展趨勢(shì)_第1頁(yè)
網(wǎng)絡(luò)門(mén)戶搜索引擎網(wǎng)站的技術(shù)和存在問(wèn)題及發(fā)展趨勢(shì)_第2頁(yè)
網(wǎng)絡(luò)門(mén)戶搜索引擎網(wǎng)站的技術(shù)和存在問(wèn)題及發(fā)展趨勢(shì)_第3頁(yè)
網(wǎng)絡(luò)門(mén)戶搜索引擎網(wǎng)站的技術(shù)和存在問(wèn)題及發(fā)展趨勢(shì)_第4頁(yè)
網(wǎng)絡(luò)門(mén)戶搜索引擎網(wǎng)站的技術(shù)和存在問(wèn)題及發(fā)展趨勢(shì)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)絡(luò)門(mén)戶搜索引擎網(wǎng)站的技術(shù)和存在問(wèn)題及發(fā)展趨勢(shì)網(wǎng)絡(luò)搜索引擎在網(wǎng)絡(luò)信息資源查找中起到了重要作

用,它可以幫助人們從數(shù)以億計(jì)的網(wǎng)絡(luò)信息中找自己想要

的信息。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集。發(fā)現(xiàn)信息,

對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服

務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供的導(dǎo)航服務(wù)已

經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎點(diǎn)也被美

譽(yù)為“網(wǎng)絡(luò)門(mén)戶”。搜索引擎技術(shù)因而成為計(jì)算機(jī)工

業(yè)界和學(xué)術(shù)界爭(zhēng)相研究開(kāi)發(fā)的對(duì)象搜索引擎的基本構(gòu)成和工作原理1.搜索器。搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。目前有兩種搜集信息的策略:從一個(gè)起始URL集合開(kāi)始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。索引表一般使用某種形式的倒排表(InversionList),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(InstantIndexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。3.檢索器。檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。4.用戶接口。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。(二)搜索引擎的分類1.基于目錄的搜索引擎?;谀夸浀乃阉饕鎸⑹占降男畔⒎值侥骋粋€(gè)類中,典型的基于目錄的搜索引擎有Yahoo和Magellan。目錄式搜索引擎提供由網(wǎng)頁(yè)作者呈送的因特網(wǎng)資源的鏈接集合,同時(shí)對(duì)這些資源做出評(píng)價(jià)并組織成主題目錄。它使用一定的選擇標(biāo)準(zhǔn)用于挑選所錄用的鏈接資源,不同的目錄式搜索引擎使用不同的選擇標(biāo)準(zhǔn)。它有兩種基本類型:一種是由主題專家日常建立和維護(hù)的學(xué)術(shù)性專業(yè)目錄以滿足科研人員的需要;另一方面是為普通大眾和商業(yè)服務(wù)的商業(yè)目錄。2.基于機(jī)器人的搜索引擎。基于機(jī)器人的搜索引擎從一組已知的文檔出發(fā),通過(guò)這些文檔的超文本鏈接確定新的檢索點(diǎn),然后用索引機(jī)器人周游這些新的檢索點(diǎn),標(biāo)引這些檢索點(diǎn)上的新文檔,將這些新文檔加入到索引數(shù)據(jù)庫(kù)。以后搜索引擎可以用這個(gè)索引數(shù)據(jù)庫(kù)去回答用戶的提問(wèn)。機(jī)器人搜索引擎不是靠人工發(fā)現(xiàn)和甄別信息,而是由一個(gè)被稱作“蜘蛛”的計(jì)算機(jī)程序在網(wǎng)中爬行,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在因特網(wǎng)中發(fā)現(xiàn)、加工、整理信息,并為用戶提供檢索服務(wù)。3.基于客戶的搜索引擎。基于客戶的搜索引擎用Web客戶器中的周游軟件,它們從一組已知的文檔出發(fā),檢索WWW上的文檔并傳送這些文檔,然后用文檔中的超文本鏈接找到更多的文檔,直到滿足要求。基于客戶的搜索引擎不需要第三方檢索接口,因此可改善用戶界面,因?yàn)榛诳蛻舻乃阉魇菍?shí)時(shí)的,它可以搜索到最新的資料,但搜索速度慢,網(wǎng)絡(luò)負(fù)載和服務(wù)器負(fù)載都太大。4.元搜索引擎。元搜索引擎將用戶查找要求遞交給其它搜索引擎。它的注意力放在改進(jìn)用戶界面及用不同的方法過(guò)濾它從其它搜索引擎接收到的相關(guān)文檔,包括消除重復(fù)信息,元搜索引擎設(shè)計(jì)簡(jiǎn)單,但網(wǎng)絡(luò)的負(fù)載太大,典型的元搜索引擎有METACRAWLER等。5.分布式搜索引擎。分布式搜索引擎按區(qū)域、主題或其它標(biāo)準(zhǔn)創(chuàng)建分布式索引服務(wù)器,索引服務(wù)器之間相互可以交換中間信息,且查詢可以被重新定向。如果一個(gè)檢索服務(wù)器沒(méi)有滿足查詢請(qǐng)求的信息,它可以將查詢請(qǐng)求發(fā)送到具有相應(yīng)信息的檢索服務(wù)器。(三)搜索引擎的研究重點(diǎn)1.能充分表達(dá)用戶查詢要求的查詢語(yǔ)言:現(xiàn)有的搜索引擎的查詢語(yǔ)言甚至比較成熟的商業(yè)性的情報(bào)檢索系統(tǒng)的查詢語(yǔ)言還要簡(jiǎn)單。一套能充分表達(dá)用戶要求但又不增加網(wǎng)絡(luò)負(fù)載的查詢語(yǔ)言是搜索引擎的發(fā)展趨勢(shì)。2.索引數(shù)據(jù)庫(kù)的組織和管理:搜索引擎的索引數(shù)據(jù)庫(kù)是網(wǎng)絡(luò)信息的一個(gè)軌跡,它要隨網(wǎng)絡(luò)信息的變化而變化,因此它除了數(shù)據(jù)增加以外還需要有數(shù)據(jù)的刪除和修改功能,如何對(duì)大容量的、非結(jié)構(gòu)化的信息進(jìn)行增加、刪除、改變操作也是一個(gè)研究重點(diǎn)。3.信息的自動(dòng)加工:在傳統(tǒng)的情報(bào)檢索中,數(shù)據(jù)源基本上是人工加工。如,(NSPECCOM-PENDEX)等,且有標(biāo)準(zhǔn)的用詞,查全率和查準(zhǔn)率都比較高,而搜索引擎對(duì)網(wǎng)上收集到的信息一般是采用自動(dòng)加工,因此如何對(duì)信息進(jìn)行準(zhǔn)確的分析和標(biāo)引是搜索引擎要研究的主要問(wèn)題。4.提高檢索的查準(zhǔn)率:網(wǎng)上的信息已經(jīng)相當(dāng)豐富,現(xiàn)有的搜索引擎的問(wèn)題不再是能找到多少文獻(xiàn),而是找到的文獻(xiàn)太多,且很多文獻(xiàn)不一定與用戶要求非常相關(guān),因此提高查準(zhǔn)率是搜索引擎查找效率的主要體現(xiàn)。5.Web信息的發(fā)掘:如何迅速發(fā)現(xiàn)和收集網(wǎng)上新加入的信息和被刪除的信息。(四)未來(lái)搜索引擎技術(shù)發(fā)展趨勢(shì)1.搜索的模糊化趨勢(shì)2.搜索的博客化趨勢(shì)。3.搜索的重疊化趨勢(shì)。4.搜索的個(gè)人評(píng)價(jià)趨勢(shì)。5.與S

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論