畢業(yè)設(shè)計(jì)論文搜索引擎

上傳人：上*** IP屬地：江蘇上傳時(shí)間：2015-06-07 格式：DOC 頁(yè)數(shù)：67 大?。?64.50KB 積分：7.2 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩62頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄第一章課題背景知識(shí) . (1) 第一節(jié) 搜索引擎原理 . (1) 第二節(jié) 搜索引擎分類 . (2) 第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史 . (4) 第四節(jié) 搜索引擎現(xiàn)狀 . (5) 第五節(jié) 搜索引擎展望 . (6) 第二章技術(shù)詮釋 . (10) 第一節(jié) HTTP 及 HTML . (10) 第二節(jié) 網(wǎng)絡(luò)蜘蛛 . (11) 第三節(jié) 網(wǎng)頁(yè)噪聲 . (13) 第四節(jié) 頁(yè)面分析 . (13) 第五節(jié) 中文分詞 . (16) 第六節(jié) 布爾代數(shù) . (19) 第七節(jié) CGI. (19) 第八節(jié) SOCKECT 網(wǎng)絡(luò)編程 . (20) 第三章 TOKING 海量網(wǎng)頁(yè)搜索系統(tǒng)體系結(jié)構(gòu) 及實(shí)現(xiàn) . (21) 第一節(jié) 結(jié)構(gòu)設(shè)計(jì) . (21) 第二節(jié) 數(shù)據(jù)流圖 . (22) 第三節(jié) 網(wǎng)頁(yè)抓取部分 . (31) 第四節(jié) 網(wǎng)頁(yè)預(yù)處理部分 . (35) 第五節(jié) 信息查詢服務(wù)部分 . (42) 第六節(jié) 用戶反饋 . (46) 第七節(jié) 功能拓展 . (46) 第八節(jié) 優(yōu)化用戶感受 . (50) 第四章系統(tǒng)測(cè)評(píng) . (52) 第一節(jié) 抓取速度 . (52) 第二節(jié) 分詞效率 . (52) 第三節(jié) 搜索評(píng)價(jià) . (53) 參考文獻(xiàn) . (54) 致謝 . (55) 附錄 . (56) 本科生畢業(yè)設(shè)計(jì) 1 第一章課題背景知識(shí) 70 年代中期，美國(guó)國(guó)防部高級(jí)研究計(jì)劃局 DARPA (Defense Advanced Research Projects Agency)開(kāi)始了互聯(lián)網(wǎng)技術(shù)的研究。而 WWW (World Wide Web)自 1989 年誕生以來(lái)，近二十年來(lái)發(fā)展迅猛，它已成為人類社會(huì)信息資源中的一個(gè)重要組成部分，越來(lái)越多的社會(huì)信息資源實(shí)體開(kāi)始選擇 Web 作為其載體。著名的 netcraft(via Digg)剛剛完成了最新的互聯(lián)網(wǎng)調(diào)查，結(jié)果顯示到 2006 年 3月 31 日止，互聯(lián)網(wǎng)上一共有 80655993 個(gè)網(wǎng)站。而單是在 06 年 3 月這一個(gè)月里，世界上的網(wǎng)站數(shù)量就增長(zhǎng)了 310 萬(wàn)個(gè)。而在 2003 年 8 月所得的調(diào)查結(jié)果為 4000 萬(wàn)個(gè)，這說(shuō)明了互聯(lián)網(wǎng)上的網(wǎng) 站數(shù)量在過(guò)去的 3 年里就已經(jīng)翻了一番，增長(zhǎng)速度十分驚人。著名的網(wǎng)站排名的國(guó)際網(wǎng)站在 2007 年 4 月更是收錄了全球大約有34762836735 個(gè)網(wǎng)址。由此，人們?cè)谛畔⒑Ｑ笾兴阉髯约核枰男畔⒌哪芰︼@得愈發(fā)重要，搜索引擎成了人們?cè)诰W(wǎng)上檢索信息的必要工具。第一節(jié) 搜索引擎原理搜索引擎，應(yīng)該被定位成一個(gè)計(jì)算機(jī)應(yīng)用軟件系統(tǒng)，或者一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng)。從網(wǎng)絡(luò)用戶的角度看，它根據(jù)用戶提交的類自然語(yǔ)言查詢?cè)~或者短語(yǔ) ，返回一系列很可能與該查詢相關(guān)的網(wǎng)頁(yè)信息，供用戶進(jìn)一步判斷和選取。為了有效地做到這一點(diǎn)，它大致上被分成三個(gè)子系統(tǒng)；即網(wǎng)頁(yè)搜集，網(wǎng)頁(yè)預(yù)處理和查詢服務(wù)。網(wǎng)頁(yè)搜集主要負(fù)責(zé)網(wǎng)頁(yè)的抓取，由 URL 服務(wù)器、爬行器、存儲(chǔ)器、分析器和URL 解析器組成，爬行器是該部分的核心；網(wǎng)頁(yè) 預(yù)處理主要負(fù)責(zé)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析，對(duì)文檔進(jìn)行標(biāo)引并存儲(chǔ)到數(shù)據(jù)庫(kù)里，由標(biāo)引器和分類器組成，該模塊涉及許多文件和數(shù)據(jù)，有關(guān)于桶的操作是該部分的核心；查詢服務(wù) 主要負(fù)責(zé)分析用戶輸入的檢索表達(dá)式，匹配相關(guān)文檔，把檢索結(jié)果返回給用戶，由查詢器和網(wǎng)頁(yè)級(jí)別評(píng)定器組成，其中網(wǎng)頁(yè)等級(jí)的計(jì)算是該部分的核心。搜索引擎的主要工作流程是：首先從蜘蛛開(kāi)始，蜘蛛程序每隔一定的時(shí)間自動(dòng)啟動(dòng)并讀取網(wǎng)頁(yè) URL服務(wù)器上的 URL列表，按深度優(yōu)先或廣度優(yōu)先算法，抓取各 URL所指定的網(wǎng)站，將抓取的網(wǎng)頁(yè)分配一個(gè)唯一文檔，存入文檔數(shù)據(jù)庫(kù)。并將當(dāng)前頁(yè)上的所的超連接存入到 URL服務(wù)器中。在進(jìn)行抓取的同時(shí)，切詞器和索引器將已經(jīng)抓取的網(wǎng)頁(yè)文檔進(jìn)行切詞處理，并按詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率計(jì)算權(quán)值，然后將切詞結(jié)果存入索引數(shù)據(jù)庫(kù)。整個(gè)抓取工作和索引工作完成后更新整個(gè)索引數(shù)據(jù)庫(kù)和文檔數(shù)據(jù)庫(kù)，這樣用戶就可以查詢最新的網(wǎng)頁(yè)信息。查詢器首先對(duì)用戶輸入的信息本科生畢業(yè)設(shè)計(jì) 2 進(jìn)行切詞處理，并檢索出所有包含檢索詞的記錄，通過(guò)計(jì)算網(wǎng)頁(yè)權(quán)重和級(jí)別對(duì)查詢記錄進(jìn)行排序并進(jìn)行集合運(yùn)算，最后從文檔數(shù)據(jù)庫(kù)中提取各網(wǎng)頁(yè)的摘要信息反饋給查詢用戶。 U R L 服務(wù)器爬行器存儲(chǔ)服務(wù)器資源庫(kù) 頁(yè)級(jí)別評(píng)定器 U R L 解析器標(biāo)引器查詢器分類器錨庫(kù) 詞典庫(kù) 索引庫(kù) 鏈接庫(kù) 桶桶桶桶桶桶 Web頁(yè)搜索標(biāo)引入庫(kù)用戶查詢圖 1-1-1 搜索引擎通用總體系統(tǒng)結(jié)構(gòu)圖第二節(jié) 搜索引擎分類搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（ Full Text Search Engine）、目錄索引類搜索引擎（ Search Index/Directory）和元搜索引擎（ Meta Search Engine）。一、全文搜索引擎全文搜索引擎是名副其實(shí)的搜索引擎，國(guó)外具代表性的有 Google、Fast/AllTheWeb、 AltaVista、 Inktomi、 Teoma、 WiseNut 等，國(guó)內(nèi)著名的有百度（ Baidu）。它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息（以網(wǎng)頁(yè)文字為主）而建立的數(shù)據(jù)庫(kù)中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。本科生畢業(yè)設(shè)計(jì) 3 圖 1-2-1 全球著名全文搜索引擎 LOGO 二、目錄索引目錄索引雖然有搜索功能，但在嚴(yán)格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞（ Keywords）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo 雅虎。其他著名的還有 Open Directory Project（ DMOZ）、 LookSmart、 About等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。圖 1-2-2 全球著名目錄索引 LOGO 三、元搜索引擎 (META Search Engine) 元搜索引擎在接受用戶查詢請(qǐng)求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有 InfoSpace、 Dogpile、 Vivisimo 等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來(lái)源引擎排列搜索結(jié)果，如 Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如 Vivisimo。四、其他除上述三大類引擎外，還有以下幾種非主流形式：（一）集合式搜索引擎：如 HotBot 在 2002 年底推出的引擎。該引擎類似 META搜索引擎，但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索，而是由用戶從提供的 4 個(gè)引擎當(dāng)中選擇，因此叫它 “集合式 ”搜索引擎更確切些。（二）門戶搜索引擎：如 AOL Search、 MSN Search 等雖然提供搜索服務(wù)，但自身即沒(méi) 有分類目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù)，其搜索結(jié)果完全來(lái)自其他引擎。（三）免費(fèi)鏈接列表（ Free For All Links，簡(jiǎn)稱 FFA）：這類網(wǎng)站一般只簡(jiǎn)單地滾動(dòng)排列鏈接條目，少部分有簡(jiǎn)單的分類目錄，不過(guò)規(guī)模比起 Yahoo 等目錄索引來(lái)要小得多。（四）垂直搜索引擎：有針對(duì)性的搜索引擎。一次搜索的結(jié)果可能有成千上萬(wàn)條，而在這過(guò)于龐大的信息群中，有用信息只是其中的小部分。通用搜索引擎的弊端在網(wǎng)絡(luò)信息的急劇膨脹下突顯起來(lái)，搜索越來(lái)越難以控制，用戶需求和市場(chǎng)服務(wù)間的巨大反差產(chǎn)生了強(qiáng)大的 “搜索噪音 ”，垂直搜索引擎的應(yīng)運(yùn)而生，成為搜索引擎本科生畢業(yè)設(shè)計(jì) 4 發(fā)展史上的一塊里程碑。第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對(duì)較少，信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展，普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針，這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。現(xiàn)代意義上的搜索引擎的祖先，是 1990 年由蒙特利爾大學(xué)學(xué)生 Alan Emtage 發(fā)明的 Archie。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn)，但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的，而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中，查詢起來(lái)非常不便，因此Alan Emtage 想到了開(kāi)發(fā)一個(gè)可以以文件名查找文件的系統(tǒng)，于是便有了 Archie。 Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近，它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件，然后對(duì)有關(guān)信息進(jìn)行索引，供使用者以一定的表達(dá)式查詢。由于 Archie 深受用戶歡迎，受其啟發(fā)，美國(guó)內(nèi)華達(dá) System Computing Services 大學(xué)于 1993 年開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具，不過(guò)此時(shí)的搜索工具除了索引文件外，已能檢索網(wǎng)頁(yè)。當(dāng)時(shí)， “機(jī)器人 ”一詞在編程者中十分流行。電腦 “機(jī)器人 ”（ Computer Robot）是指某個(gè)能以人類無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的 “機(jī)器人 ”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去，因此，搜索引擎的 “機(jī)器人 ”程序也被稱為 “蜘蛛 ”程序。世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的 “機(jī)器人 ”程序是 Matthew Gray開(kāi)發(fā)的World wide Web Wanderer。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來(lái)則發(fā)展為能夠檢索網(wǎng)站域名。與 Wanderer相對(duì)應(yīng)， Martin Koster 于 1993 年 10月創(chuàng)建了 ALIWEB，它是 Archie的 HTTP 版本。 ALIWEB 不使用 “機(jī)器人 ”程序，而是靠網(wǎng)站主動(dòng)提交信息來(lái)建立自己的鏈接索引，類似于現(xiàn)在我們熟知的 Yahoo。隨著互聯(lián)網(wǎng)的迅速發(fā)展，使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難，因此，在 Matthew Gray 的 Wanderer 基礎(chǔ)上，一些編程者將傳統(tǒng)的 “蜘蛛 ”程序工作原理作了些改進(jìn)。其設(shè)想是，既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接，那么從跟蹤一個(gè)網(wǎng)站的鏈接開(kāi)始，就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993 年底，一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn)，其中以 JumpStation、 The World Wide Web Worm（ Goto 的前身，也就是今天 Overture），和 Repository-Based Software Engineering (RBSE) spider最負(fù)盛名。本科生畢業(yè)設(shè)計(jì) 5 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果，因此毫無(wú)信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4 月，斯坦福（ Stanford）大學(xué)的兩名博士生， David Filo 和美籍華人楊致遠(yuǎn)（ Gerry Yang）共同創(chuàng)辦了超級(jí)目錄索引 Yahoo，并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前，互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家，其檢索的信息量也與從前不可同日而語(yǔ)。比如 Yahoo 號(hào)稱收錄的網(wǎng)頁(yè)達(dá)到 200 億。隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹，一家搜索引擎光靠自己?jiǎn)未颡?dú)斗已無(wú)法適應(yīng)目前的市場(chǎng)狀況，因此現(xiàn)在搜索引擎之間開(kāi)始出現(xiàn)了分工協(xié)作，并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。象國(guó)外的 Inktomi（已被 Yahoo 收購(gòu)），它本身并不是直接面向用戶的搜索引擎，但像包括 Overture（原 GoTo，已被 Yahoo 收購(gòu)）、LookSmart、 MSN、 HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁(yè)搜索服務(wù)。國(guó)內(nèi)的百度也屬于這一類，搜狐和新浪用的就是它的技術(shù)。因此從這個(gè)意義上說(shuō)，它們是搜索引擎的搜索引擎。第四節(jié) 搜索引擎現(xiàn)狀隨著網(wǎng) 絡(luò)信息內(nèi)容的爆炸式增長(zhǎng)和形式的不斷翻新，搜索引擎越來(lái)越不能滿足網(wǎng)絡(luò)使用者的各種信息需求。從 1996 年起，搜索引擎技術(shù)開(kāi)始注重網(wǎng)頁(yè)質(zhì)量與相關(guān)性的結(jié)合，這主要是通過(guò)三種手段：是對(duì)網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析，如 INFOSEEK 和 GOOGLE；是對(duì)用戶的點(diǎn)擊行為進(jìn)行分析，如 DIRECTHIT(被 ASK JEEVES 收購(gòu) )；是與網(wǎng)站目錄相結(jié)合。最新的趨勢(shì)則是搜索的個(gè)性化、本地化和垂直化。個(gè)性化：入門網(wǎng)站的個(gè)性化已經(jīng)比較成熟了，但是搜索引擎的個(gè)性化并沒(méi)有得到解決，不同的人使用相同的檢索詞得到的結(jié)果是相同的。也就是說(shuō)搜索引擎沒(méi)有考慮人的地域、性別、年齡等方面的差別。 DIRECTHIT 等公司一年前開(kāi)始了個(gè)性化方面的研發(fā)工作，但至今沒(méi)有推出任何產(chǎn)品。垂直化：垂直搜索引擎這種高度目標(biāo)化、專業(yè)化的搜索引擎的優(yōu)勢(shì)在于 :針對(duì)性強(qiáng)，對(duì)特定范圍的網(wǎng)絡(luò)信息的覆蓋率相對(duì)較高，具有可靠的技術(shù)和信息資源保障，有明確的檢索目標(biāo)定位，有效地彌補(bǔ)了通用綜合性搜索引擎對(duì)專門領(lǐng)域及特定主題信息覆蓋率過(guò)低的問(wèn)題。根據(jù) CNNIC 的調(diào)查結(jié)果， 2005 年，使用百度和 Google 的本科生畢業(yè)設(shè)計(jì) 6 用戶達(dá)到總量的 90%；而 2006 年這一數(shù)值下降到 87.4%，這其中就有垂直搜索的分流作用。本地化：本地化是一個(gè)比個(gè)性化更明顯的趨勢(shì)。隨著互聯(lián)網(wǎng)在全球的迅速普及，綜合性的搜索引擎已經(jīng)不能滿足很多非美國(guó)網(wǎng)民的信息需求。近來(lái)， YAHOO!、INKTOMI、 LYCOS 等公司不斷推出各國(guó)、各地區(qū)的本地搜索網(wǎng)站，搜索的本地化已經(jīng)是勢(shì)不可擋。第五節(jié) 搜索引擎展望一、技術(shù)展望各大公司都把下一代搜索引擎的查詢方式的創(chuàng) 新性，作為自己競(jìng)爭(zhēng)的籌碼，以下是對(duì)下一代搜索引擎技術(shù)的一些構(gòu)想。未來(lái)，搜索引擎技術(shù)將重點(diǎn)發(fā)展在以下幾個(gè)方面：（一）自然語(yǔ)言理解技術(shù) 自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中的一個(gè)富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是從人工智能的觀點(diǎn)看，自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型，這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語(yǔ)言。以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新一代搜索引擎，我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí) (或概念 )層面，對(duì)知識(shí)有一定的理解與處理能力，能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征，允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索，為他們提供更方便、更確切的搜索服務(wù)。（二） P2P P2P 是 peer-to-peer 的縮寫，意為對(duì)等網(wǎng)絡(luò)。其宗旨在于加強(qiáng)網(wǎng)絡(luò)上人與人的交流、在文件交換、分布計(jì)算等方面大有前途。長(zhǎng)久以來(lái)，人們習(xí)慣的互聯(lián)網(wǎng)是以服務(wù)器為中心，人們向服務(wù)器發(fā)送請(qǐng)求，然后瀏覽服務(wù)器回應(yīng)的信息。而 P2P 所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換，但數(shù)據(jù)是存儲(chǔ)在每臺(tái)電腦里，而不是存儲(chǔ)在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西，這將使互聯(lián)網(wǎng)上信息的價(jià)值得到極大的提升。（三）移動(dòng)搜索引擎隨著手機(jī)接入互聯(lián)網(wǎng)的能力越來(lái)越強(qiáng)，以及移動(dòng)業(yè)務(wù)日益傾向于內(nèi)容驅(qū)動(dòng)，搜索引擎的移動(dòng)化也成為不可避免的趨勢(shì) 。許多運(yùn)營(yíng)商已經(jīng)在其內(nèi)容網(wǎng)站上使用當(dāng)?shù)乇究粕厴I(yè)設(shè)計(jì) 7 搜索引擎來(lái)幫助消費(fèi)者找到所需信息，一些主要的搜索引擎公司如 Google、百度、愛(ài)問(wèn)等已著力于移動(dòng)搜索，其搜索引擎的移動(dòng)化版本已經(jīng)問(wèn)世并開(kāi)始運(yùn)營(yíng)。（四）垂直搜索服務(wù)及本地化垂直搜索引擎的搜索器只搜索特定的主題信息，按預(yù)先己經(jīng)定義好的專題有選擇地收集相關(guān)的網(wǎng)頁(yè)。這樣大大降低了收集信息的難度，提高了信息的質(zhì)量。由于所收集的學(xué)科領(lǐng)域小，信息量相對(duì)較少，可以采用 “專家分類標(biāo)引 ”的方法對(duì)收集到的信息進(jìn)行組織整理，進(jìn)一步提高信息的質(zhì)量，建立一個(gè)高質(zhì)量的、專業(yè)信息收集全的數(shù)據(jù)庫(kù)。每一種行業(yè) 都可以做一個(gè)垂直搜索。目前搜索領(lǐng)域才剛剛起步，尤其是垂直搜索，還有很大的空間。比如說(shuō)家電、建材、家居、醫(yī)療健康等等方面，甚至還可以在更細(xì)的領(lǐng)域做更加深的搜索。美國(guó)去年第四季度出現(xiàn)了專門給老年人服務(wù)的搜索引擎。本地搜索前景也很好，面臨的挑戰(zhàn)就是把全中國(guó)所有的店家信息收集上來(lái)需要很多投入。賽迪顧問(wèn)執(zhí)行總裁李峻預(yù)測(cè)，垂直搜索、本地搜索等未來(lái)搜索引擎市場(chǎng)仍將保持 30%左右的增長(zhǎng)速度。一些垂直搜索將會(huì)成為值得深度挖掘的方向，如旅游搜索、求職搜索等行業(yè)細(xì)分的搜索引擎，而且搜索引擎技術(shù)和渠道的創(chuàng)新核心還在于商業(yè)模式的不斷完善。（五）多媒體搜索引擎隨著寬帶技術(shù)的發(fā)展，未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。開(kāi)發(fā)出可查尋圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向。目前瑞典一家公司已經(jīng)研制推出被稱作 “第五代搜索引擎 ”的動(dòng)態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯(lián)網(wǎng)上主要的信息。二、市場(chǎng)展望 iResearch 預(yù)測(cè)到 2007 年中國(guó)搜索引擎市場(chǎng)規(guī)模將達(dá)到 56.2 億元人民幣，未來(lái)3 年的年增長(zhǎng)率平均保持在 55%以上 1。中國(guó)本土的搜索引擎：百度、中搜、搜狗、一搜等相繼推出后，都取得了不錯(cuò)的反響，特別是百度在 2005 年 8 月 5 日正式在納斯達(dá)克上市，上市首日股票瘋狂上漲：最高達(dá) 151 美元，把搜索引擎的市值推到了高潮。微軟對(duì)搜索引擎的研發(fā)也伴隨著大規(guī)模的招兵買馬，微軟亞洲研究院也成立了專門的搜索小組。李開(kāi)復(fù)先生加盟 Google 后，讓很多人預(yù)測(cè) Google 一定會(huì)吃掉中文搜索引擎這個(gè) 巨大的市場(chǎng)。而李開(kāi)復(fù)先生在閃電加盟后，在 “開(kāi)復(fù)學(xué)生網(wǎng) ”上發(fā)表了一篇題為 “Google和中國(guó) -追隨我心的選擇 ”， Google 的搜索文化對(duì)技術(shù)人員的吸引可見(jiàn)一斑，等等數(shù)字和事件表明，搜索引擎在互聯(lián)網(wǎng)上有著強(qiáng)勁的生命力和發(fā)展?jié)摿?，同時(shí)也是互聯(lián) 網(wǎng)公司豐厚利潤(rùn)的來(lái)源之一。本科生畢業(yè)設(shè)計(jì) 8 圖 1-5-1 2002-2006 年中國(guó)搜索引擎市場(chǎng)規(guī)模及增長(zhǎng) 2 2005 年 8 月，法國(guó)總統(tǒng)希拉克大張旗鼓地發(fā)布了 “Quaero”計(jì)劃，它很快被顯現(xiàn)為一種歐洲的決心推出與 Google 搜索競(jìng)爭(zhēng)的相同產(chǎn)品。這款名為 “Quaero”的搜索引擎，不僅能搜索文本，而且還能搜索圖片和視頻。 Quaero 的拉丁文語(yǔ)義是 “我搜索 ”，該項(xiàng)目獲得了 2.5 億歐元資助 (3.3 億美元 )，法德兩國(guó)主要技術(shù)公司參加了開(kāi)發(fā)。而在德國(guó)，一些德國(guó)企業(yè)將參加另外的德國(guó)版搜索引擎 “Theseus”的開(kāi)發(fā)，該引擎更加集中于文本分析。法德兩國(guó)開(kāi)發(fā)商將在合作、競(jìng)爭(zhēng)及互補(bǔ)的環(huán)境下實(shí)施歐洲新一代搜索引擎的開(kāi)發(fā)計(jì)劃。和其他許多國(guó)家一樣，在日本提起搜索引擎，人們首先想到的是谷歌，此外還有雅虎和微軟麾下的 MSN。根據(jù)今年 3 月的一項(xiàng)調(diào)查，在日本檢索服務(wù)利用率排名中居首位的是雅虎，其利用率達(dá) 64.5%，其次是谷歌和 MSN，日本開(kāi)發(fā)的 GOO 雖然名列第四，但實(shí)際利用率只有 5.5%，與前三名的差距很明顯。中國(guó)百度也已經(jīng)進(jìn)入日本市場(chǎng)，欲與群雄共逐鹿。其實(shí)日本著手開(kāi)發(fā)搜索引擎要早于美國(guó)，日本電信電話公司、日本電氣公司和東芝公司等都曾擁有過(guò) 各自獨(dú)立的搜索引擎。直到 20 世紀(jì) 90 年代后期，這些日本國(guó)產(chǎn)搜索引擎還在相互競(jìng)爭(zhēng)。但隨著美國(guó)谷歌的出現(xiàn)，互聯(lián)網(wǎng)信息檢索業(yè)界的格局在 2000 年前后發(fā)生了劇變。谷歌高精確度的檢索服務(wù)使日本眾多門戶網(wǎng)站形成了這樣的共識(shí) “搜索引擎依靠谷歌就足夠了 ”，因此日本國(guó)產(chǎn)搜索引擎全線敗退。搜索引擎是遨游網(wǎng)絡(luò)世界的必備工具，而其中的基干技術(shù)掌握在外國(guó)企業(yè)手中。一些日本業(yè)界專家認(rèn)為，長(zhǎng)此以往日本互聯(lián)網(wǎng)搜索業(yè)務(wù)未來(lái)有可能被外國(guó)企業(yè)控制。抱著同樣的危機(jī)感，日本政府把國(guó)產(chǎn)下一代搜索引擎項(xiàng)目提上了議事日程。經(jīng)濟(jì)產(chǎn)業(yè)省 2005 年 12 月設(shè)立了企業(yè)、研究機(jī)構(gòu)和政府部門共同參與的網(wǎng)絡(luò)搜索引擎研究小組，負(fù)責(zé)整理與搜索技術(shù)開(kāi)發(fā)相關(guān)的資料， 2006 年 7 月末由大學(xué)和 52 家企業(yè)參與本科生畢業(yè)設(shè)計(jì) 9 的合作項(xiàng)目 “信息大航海計(jì)劃 ”正式啟動(dòng)，準(zhǔn)備用 3 年時(shí)間開(kāi)發(fā)出下一代互聯(lián)網(wǎng)搜索引擎，挑戰(zhàn)谷歌等搜索引擎的市場(chǎng)霸主地位，并打算在 2007 年度預(yù)算中申請(qǐng) 50 億日元 (約合 4300 萬(wàn)美元 )作為研發(fā)費(fèi)用，爭(zhēng)取 5年后使下一代搜索引擎進(jìn)入實(shí)用階段。據(jù)日本媒體報(bào)道，日本下一代搜索引擎不僅能像現(xiàn)在一樣依靠關(guān)鍵詞從互聯(lián)網(wǎng)上的信息海洋中提取所需信息，運(yùn)用現(xiàn)在逐漸普及的電子標(biāo)簽，還可以及時(shí)掌握有關(guān)全球產(chǎn)品的信息，或者以從視頻資料中剪輯的錄音為基礎(chǔ)，檢索音頻資料。日本下一代搜索引擎的終端設(shè)備不僅有電腦，還可能是電視機(jī)、手機(jī) 、汽車導(dǎo)航儀等。今后只要操縱遙控器就能通過(guò)新搜索引擎找到電視節(jié)目中出現(xiàn)過(guò)的人物或某個(gè)地區(qū)的資料，查詢并購(gòu)買電視中出現(xiàn)過(guò)的某款商品等。業(yè)內(nèi)人士指出，雅虎、谷歌、 MSN 每年分別投資數(shù)億美元用于技術(shù)研發(fā)，這帶來(lái)問(wèn)題是在目前體制下怎樣才能超越上述企業(yè)的技術(shù)水準(zhǔn)。谷歌等搜索引擎霸主的戰(zhàn)略也包含將檢索對(duì)象從文本擴(kuò)展到視頻和音頻資料，此外日本及歐洲大型企業(yè)的不少資深技術(shù)人員常跳槽到谷歌和雅虎，這可能有助于谷歌等開(kāi)發(fā)下一代搜索引擎終端設(shè)備。因此像法國(guó)的 “Quaero”計(jì)劃和日本的 “信息大航海計(jì)劃 ”等等的實(shí)施能否取得預(yù)期效果現(xiàn)在很難準(zhǔn)確預(yù)料。但不可否認(rèn)的是：搜索引擎市場(chǎng)將進(jìn)入一個(gè)群雄逐鹿的瘋狂競(jìng)爭(zhēng)時(shí)代。隨著搜索經(jīng)濟(jì)的崛起，人們開(kāi)始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。作為企業(yè)，會(huì)根據(jù)搜索引擎的知名度以及日流量來(lái)選擇是否要投放廣告等。對(duì)于消費(fèi)者而言，使用互聯(lián)網(wǎng) 搜索引擎是進(jìn)入網(wǎng)絡(luò)世界的一個(gè)重要入口，這意味著巨大的商機(jī)。微軟將 2007 財(cái)政年度的研發(fā)開(kāi)支預(yù)算調(diào)高至 75 億美元，較預(yù)期高出約 13 億美元，此舉顯示出微軟與 Google、雅虎在互聯(lián)網(wǎng)搜索市場(chǎng)上一決高下的決心。搜索引擎也將不再是技術(shù)，而是經(jīng)濟(jì)。本科生畢業(yè)設(shè)計(jì) 10 第一章技術(shù)詮釋第一節(jié) HTTP 及 HTML 超文本傳輸協(xié)議（ HTTP）是應(yīng)用層協(xié)議，由于其簡(jiǎn)捷、快速的方式，適用于分布式和合作式超媒體信息系統(tǒng)。自 1990 年起， HTTP 就已經(jīng)被應(yīng)用于 WWW 全球信息服務(wù)系統(tǒng)?？蛻暨M(jìn)程建立一條同服務(wù)器進(jìn)程的 TCP 連接，然后發(fā)出請(qǐng)求并讀取服務(wù)器進(jìn)程的應(yīng)答。服務(wù)器進(jìn)程關(guān)閉連接表示本次響應(yīng)結(jié)束。服務(wù)器進(jìn)程返回的內(nèi)容包含兩個(gè)部分，一個(gè) “應(yīng)答頭 ”（ response header），一個(gè) “應(yīng)答體 ”（ response body），后者通常是一個(gè) HTML 文件，我們稱之為 “網(wǎng)頁(yè) ”。通常 HTTP 消息包括客戶機(jī)向服務(wù)器的請(qǐng)求消息和服務(wù)器向客戶機(jī)的響應(yīng)消息。這兩種類型的消息由一個(gè)起始行，一個(gè)或者多個(gè)頭域，一個(gè)只是頭域結(jié)束的空行和可選的消息體組成。 HTTP 的頭域包括通用頭，請(qǐng)求頭，響應(yīng)頭和實(shí)體頭四個(gè)部分。每個(gè)頭域由一個(gè)域名，冒號(hào)（ :）和域值三部分組成。域名是大小寫無(wú)關(guān)的，域值前可以添加任何數(shù)量的空格符，頭域可以被擴(kuò)展為多行，在每行開(kāi)始處，使用至少一個(gè)空格或制表符。 HTTP 協(xié)議采用了請(qǐng)求 /響應(yīng)模型?？蛻舳讼蚍?wù)器發(fā)送一個(gè)請(qǐng)求，請(qǐng)求頭包含請(qǐng)求的方法、 URI、協(xié)議版本、以及包含請(qǐng)求修飾符、客戶信息和內(nèi)容的類似于 MIME的消息結(jié)構(gòu)。服務(wù)器以一個(gè)狀態(tài)行作為響應(yīng)，相應(yīng)的內(nèi)容包括消息協(xié)議的版本，成功或者錯(cuò)誤編碼加上包含服務(wù)器信息、實(shí)體元信息以及可能的實(shí)體內(nèi)容。 Web 服務(wù)器的 HTTP 應(yīng)答一般由以下幾項(xiàng)構(gòu)成：一個(gè)狀態(tài)行，一個(gè)或多個(gè)應(yīng)答頭，一個(gè)空行，內(nèi)容文檔。設(shè)置 HTTP 應(yīng)答頭往往和設(shè)置狀態(tài)行中的狀態(tài)代碼結(jié)合起來(lái)。典型的請(qǐng)求消息： GET http:/class/download.microtool.de:80/somedata.exe Host:download.microtool.de Accept:*/* Pragma:no-cache Cache-Control:no-cache Referer:http:/class/download.microtool.de/ User-Agent:Mozilla/4.04en(Win95；I；Nav) Range:bytes=554554- 典型的響應(yīng)消息： HTTP/1.0200OK 本科生畢業(yè)設(shè)計(jì) 11 Date:Mon,31Dec200104:25:57GMT Server:Apache/1.3.14(Unix) Content-type:text/html Last-modified:Tue,17Apr200106:46:28GMT Etag:a030f020ac7c01:1e9f Content-length:39725426 Content-range:bytes554554-40279979/40279980 一個(gè)完整的 HTML 文檔以開(kāi)始，以結(jié)束。大部分的 HTML命令都像這樣成對(duì)出現(xiàn)。 HTML 文檔含有以開(kāi)始、以結(jié)束的首部和以開(kāi)始、以結(jié)束的主體部分。標(biāo)題通常由客戶程序顯示在窗口的頂部。第二節(jié) 網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛即 Web Spider，是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng)，那么 Spider 就是在網(wǎng)上爬來(lái)爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站某一個(gè)頁(yè)面（通常是首頁(yè)）開(kāi)始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址，然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站，那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。首先蜘蛛讀取抓取站點(diǎn)的 URL 列表，取出一個(gè)站點(diǎn) URL，將其放入未訪問(wèn)的URL 列表（ UVURL 列表）中，如果 UVURL 不為空剛從中取出一個(gè) URL 判斷是否已經(jīng)訪問(wèn)過(guò)，若沒(méi)有訪問(wèn)過(guò)則讀取此網(wǎng)頁(yè)，并進(jìn)行超鏈分析及內(nèi) 容分析，并將些頁(yè)存入文檔數(shù)據(jù)庫(kù)，并將些 URL 放入已訪問(wèn) URL 列表（ VURL 列表），直到 UVRL為空為止，此時(shí)再抓取其他站點(diǎn)，依次循環(huán)直到所有的站點(diǎn) URL 列表都抓取完為止。對(duì)于搜索引擎來(lái)說(shuō)，要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的，從目前公布的數(shù)據(jù)來(lái)看，容量最大的搜索引擎也不過(guò)是抓取了整個(gè)網(wǎng)頁(yè)數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸，無(wú)法遍歷所有的網(wǎng)頁(yè)，有許多網(wǎng)頁(yè)無(wú)法從其它網(wǎng)頁(yè)的鏈接中找到；另一個(gè)原因是存儲(chǔ)技術(shù)和處理技術(shù)的問(wèn)題，如果按照每個(gè)頁(yè)面的平均大小為 20K 計(jì)算（包含圖片）， 100 億網(wǎng)頁(yè)的容量是 1002000G 字節(jié)，即使能夠存儲(chǔ)，下載也存在問(wèn)題（按照一臺(tái)機(jī)器每秒下載 20K 計(jì)算，需要 340 臺(tái)機(jī)器不停的下載一年時(shí)間，才能把所有網(wǎng)頁(yè)下載完畢）。同時(shí)，由于數(shù)據(jù)量太大，在提供搜索時(shí)也會(huì)有效率方面的影響。因此，許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁(yè)，而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁(yè)的鏈接深度。本科生畢業(yè)設(shè)計(jì) 12 在抓取網(wǎng)頁(yè)的時(shí)候，網(wǎng)絡(luò)蜘蛛一般有兩種策略：廣度優(yōu)先和深度優(yōu)先（如下圖所示）。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)，然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè)，繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng) 頁(yè)。這是最常用的方式，因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理，提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開(kāi)始，一個(gè)鏈接一個(gè)鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè)，繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。網(wǎng)絡(luò)蜘蛛在訪問(wèn)網(wǎng)站網(wǎng)頁(yè)的時(shí)候，經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問(wèn)題，有些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才能訪問(wèn)。當(dāng)然，網(wǎng)站的所有者可以通過(guò)協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取，但對(duì)于一些出售報(bào)告的網(wǎng)站，他們希望搜索引擎能搜索到他們的報(bào)告，但又不能完全免費(fèi)的讓搜索者查看，這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過(guò)所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取，從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁(yè)的時(shí)候，同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁(yè)，不同于一般的訪問(wèn)，如果控制不好，則會(huì)引起網(wǎng)站服務(wù)器負(fù)擔(dān)過(guò)重。有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來(lái)自哪兒，做了些什么，另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁(yè)不應(yīng)該抓取，哪些網(wǎng)頁(yè)應(yīng)該更新。每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字，在抓取網(wǎng)頁(yè)的時(shí)候，都會(huì)向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁(yè)的時(shí)候會(huì)發(fā)送一個(gè)請(qǐng)求，這個(gè)請(qǐng)求中就有一個(gè)字段為 User agent，用于標(biāo)識(shí)此網(wǎng)絡(luò)蜘蛛的身份。例如 Google 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 GoogleBot，Baidu 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 BaiDuSpider， Yahoo 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 Inktomi Slurp。如果在網(wǎng)站上有訪問(wèn)日志記錄，網(wǎng)站管理員就能知道，哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過(guò)來(lái)過(guò)，什么時(shí)候過(guò)來(lái)的，以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問(wèn)題，就通過(guò)其標(biāo)識(shí)來(lái)和其所有者聯(lián)系。網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站，一般會(huì)訪問(wèn)一個(gè)特殊的文本文件 Robots.txt，這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下，如： /robots.txt 。網(wǎng)站管理員可以通過(guò) robots.txt 來(lái)定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問(wèn)，或者哪些目錄對(duì)于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問(wèn)。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到，那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問(wèn)目錄。Robots.txt 語(yǔ)法很簡(jiǎn)單，例如如果對(duì)目錄沒(méi)有任何限制，可以用以下兩行來(lái)描述： User-agent: * Disallow: 當(dāng)然， Robots.txt 只是一個(gè)協(xié)議，如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議，網(wǎng)站管理員也無(wú)法阻止網(wǎng)絡(luò)蜘蛛對(duì)于某些頁(yè)面的訪問(wèn)，但一般的網(wǎng)絡(luò)蜘蛛都會(huì)遵循這些協(xié)議，而且網(wǎng)站管理員還可以通過(guò)其它方式來(lái)拒絕網(wǎng)絡(luò)蜘蛛對(duì)某些網(wǎng)頁(yè)的抓取。本科生畢業(yè)設(shè)計(jì) 13 第三節(jié) 網(wǎng)頁(yè) 噪聲當(dāng) Web 中獲取所需信息的同時(shí)，會(huì)常?？匆?jiàn)大量和所關(guān)心內(nèi)容無(wú)關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問(wèn)卷等，稱之為 “噪聲 ”內(nèi)容。在某些情況下，可能從這些噪音內(nèi)容中得到一些意外的驚喜；但多數(shù) 時(shí)候，因這些噪聲消耗掉了很多的注意力。同時(shí)，噪聲內(nèi)容通常伴隨著相關(guān)的超鏈。因此，噪聲會(huì)導(dǎo)致相互鏈接的網(wǎng)頁(yè)常常并無(wú)內(nèi)容相關(guān)性。這樣，網(wǎng)頁(yè)內(nèi)容的混亂不僅給基于網(wǎng)頁(yè)內(nèi)容的研究工作帶來(lái)困難，也給基于網(wǎng)頁(yè)超鏈指向的研究工作帶來(lái)困難。另外，隨著 Web 各種研究與應(yīng)用的深入發(fā)展，僅僅是原始網(wǎng)頁(yè)內(nèi)容已經(jīng)不能滿足需求，還要求能夠提供便于計(jì)算機(jī)處理的元數(shù)據(jù)信息，例如關(guān)鍵詞、摘要、網(wǎng)頁(yè)內(nèi)容類別等。然而，現(xiàn)在大部分網(wǎng)頁(yè)仍然是普通 HTML 網(wǎng)頁(yè)，并不包含必要的元數(shù)據(jù)。因此，本節(jié)討論一個(gè)網(wǎng)頁(yè)表示模型建立和實(shí)現(xiàn)的方法，這一方面使我們能夠自動(dòng)從網(wǎng)頁(yè)中提取相關(guān)的元數(shù)據(jù)，另一方面也去除了和網(wǎng)頁(yè)主題內(nèi)容無(wú)關(guān)的噪音內(nèi)容，進(jìn)而在原始 Web 上搭建一個(gè)噪聲小、描述清晰、更易于處理和利用的網(wǎng)頁(yè)信息平臺(tái)。在網(wǎng)頁(yè)分類領(lǐng)域，由于噪聲內(nèi)容與主題無(wú)關(guān)，訓(xùn)練集中的噪聲內(nèi)容會(huì)導(dǎo)致各個(gè)類別的特征不夠明顯，而待分類網(wǎng)頁(yè)中的噪聲內(nèi)容則會(huì)導(dǎo)致該網(wǎng)頁(yè)類別不明確，因而影響了網(wǎng)頁(yè)自動(dòng)分類的效果。因此提出了通過(guò)去掉網(wǎng)頁(yè)中的噪聲內(nèi)容來(lái)提高網(wǎng)頁(yè)分類質(zhì)量的方法。在網(wǎng)頁(yè)信息提取領(lǐng)域，自動(dòng)識(shí)別模式的方法必須要從整個(gè)網(wǎng)頁(yè)中提取模式，而不是只針對(duì)主題內(nèi)容提取。因此，在凈化后的網(wǎng)頁(yè)上作信息提取不僅可以排除噪聲信息對(duì)信息提取的干擾，提高信息提取的準(zhǔn)確性，而且可以使得網(wǎng)頁(yè)中的結(jié)構(gòu)簡(jiǎn)單化，提高信息提取的效率。上述分析我們看到，網(wǎng)頁(yè) 噪聲對(duì)基于網(wǎng)頁(yè)的研究工作的影響是普遍而嚴(yán)重的，雖然各個(gè)領(lǐng)域采用的方法各不相同，但處理的目的都是為了去除網(wǎng)頁(yè)中的噪聲內(nèi)容，得到真正的主題內(nèi)容。第四節(jié) 頁(yè)面分析由于 WWW網(wǎng)上的信息主要是以 HTML文檔的形式存放的，因此要根據(jù) HTML文檔的特點(diǎn)，對(duì)其進(jìn)行掃描分析，以提取信息。 HTML文檔有五個(gè)定義好的組件 : 、文本本科生畢業(yè)設(shè)計(jì) 14 、注釋、簡(jiǎn)單標(biāo)簽、起始標(biāo)簽、結(jié)束標(biāo)簽文本就是在 HTML頁(yè)面上看到的詞句的內(nèi)容。除了腳本代碼， HTML文檔中的所有數(shù)據(jù)，只要不是標(biāo)簽的組成部分，都被認(rèn)為是文本。文本是格式化的，并且受包圍它的標(biāo)簽的控制。就像前面所提到的那樣，如果數(shù)據(jù)位于文本之外，將不會(huì)被看作文本。但是程序在理解 HTML頁(yè)面時(shí)，腳本代碼具有與文本相似的特性。腳本代碼包含在標(biāo)簽之間。確保搜索引擎程序不會(huì)將腳本代碼與文本數(shù)據(jù)混淆是很重要的。文本實(shí)際上就是顯示在瀏覽器中的文字，其顯示方式由包圍它的標(biāo)簽來(lái)網(wǎng)以決定。根據(jù)本課題的要求，文本無(wú)疑是我們所需要的重要的信息源之一。頁(yè)相關(guān)的主題是通過(guò)文本來(lái)表達(dá)的，所以文本信息必須被完全提取出來(lái)，便進(jìn)一步處理。注釋表示 HTML文檔中不會(huì)顯示給用戶的那部分內(nèi)容。他們通常是 HTML程序員所做的說(shuō)明，這些說(shuō)明通常是表達(dá)編程思路的，所以這類數(shù)據(jù)對(duì)本課題來(lái)說(shuō)是毫無(wú)用處。因此在解析 HTML文檔時(shí)，將注釋忽略。簡(jiǎn)單標(biāo)簽是由單個(gè)表示的 HTML標(biāo)簽。最普遍的簡(jiǎn)單標(biāo)簽是行中斷符 ()標(biāo)簽和圖像標(biāo)簽 ( )，它們都沒(méi)有相應(yīng)的結(jié)束標(biāo)簽。簡(jiǎn)單標(biāo)簽主要是用來(lái)控制顯示格式或使用圖像美化界面用的。大多數(shù) HTML標(biāo)簽都是由開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽組成的。開(kāi)始標(biāo)簽非常像簡(jiǎn)單標(biāo)簽。開(kāi)始標(biāo)簽與簡(jiǎn)單標(biāo)簽直接的唯一區(qū)別是 :開(kāi)始標(biāo)簽有一個(gè)相應(yīng)的結(jié)束標(biāo)簽，該結(jié)束標(biāo)簽出現(xiàn)在后面。開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽用來(lái)控制其所包含的 HTML代碼的功能。在所有的開(kāi)始和結(jié)束標(biāo)簽中，標(biāo)簽是最有用的。標(biāo)簽在 HTML中叫做鏈接標(biāo)簽，它決定了當(dāng)在瀏覽器中點(diǎn)擊該標(biāo)簽的文本時(shí)所要打開(kāi)的網(wǎng)頁(yè)的 URL。下面是一個(gè)例子 : Click Here 從上面的例子中我們可以看出，標(biāo)識(shí)它所鏈接的 URL是該標(biāo)簽的 href屬性決定，href的值就代表了一個(gè) URL. Href屬性值有兩種表達(dá)方式 :一種是絕對(duì)路徑，也就是說(shuō)它的值是一個(gè)完整的 URL，程序可以直接使用它；另一種相對(duì)路徑，它的表示方式只有目錄或文件名，表示相對(duì)于木網(wǎng)頁(yè)的所在目錄的位置。使用相對(duì)路徑的目的是提高網(wǎng)頁(yè)的可移植性。標(biāo)簽中的鏈接并不是唯一將用戶帶到其它頁(yè)面的基礎(chǔ)結(jié)構(gòu)標(biāo)簽。 Web站點(diǎn)還能建立圖像映像，當(dāng)用戶點(diǎn)擊它們時(shí)，也能將用戶帶到相應(yīng)的新頁(yè)面。圖像映像由客戶端和服務(wù)器圖像映像組成，但是服務(wù)器圖像映像幾乎完全被客戶端所取代。這是因?yàn)榉?wù)器端的圖像映像，需要一個(gè)服務(wù)器插件來(lái)注冊(cè)用戶本科生畢業(yè)設(shè)計(jì) 15 點(diǎn)擊的圖像區(qū)域。而這在客戶端圖像映像中是完全包含在 HTML文件中 3。客戶端圖像映像不需要服務(wù)器端的腳本表示來(lái)解釋可多處點(diǎn)擊的圖像的 hot”區(qū)。實(shí)際上，客戶端圖像映像比服務(wù)器端圖像映像更為有效，而且還允許訪問(wèn)者在Web瀏覽器的狀態(tài)區(qū)中看到映像區(qū)域真正關(guān)聯(lián)的 URL。該狀態(tài)文本還會(huì)在用戶鼠標(biāo)在圖像映像區(qū)域移動(dòng)的時(shí)候出現(xiàn)?？蛻舳擞诚駡D像將包含一個(gè)如下所示的映像。該映像將每個(gè)圖像區(qū)域鏈接到一個(gè) URL: 在該 HTML文件的后面，該映像以類似于下面的方式使用 : 通過(guò)以上分析圖像映像當(dāng)中的超級(jí)鏈接可以由圖像的簡(jiǎn)單標(biāo)簽中的 href屬性得到。除了以上兩種情況外，框架中的 src屬性也可以設(shè)置超級(jí)鏈接?？蚣軜?biāo)簽屬于開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽，下面是一個(gè)例子。在上面的例子中可以看出，該標(biāo)簽中有一個(gè)名為 src的屬性，代表了該框架中應(yīng)顯示的網(wǎng)頁(yè)鏈接，在網(wǎng)頁(yè)中搜索鏈接時(shí)，不應(yīng)遺漏此類鏈接。需要說(shuō)明的是，窗體、腳本語(yǔ)言代碼和網(wǎng)頁(yè)中嵌入式對(duì)象也可以提供鏈接功能。但是，它們主要是提供一些特殊領(lǐng)域的特殊功能的應(yīng)用。窗體主要是用來(lái)收集用戶信息，用戶信息是瀏覽網(wǎng)頁(yè)的人根據(jù)自己的實(shí)際情況填寫，例如，用戶名和密碼等。在這些用戶信息不全的情況下，返回的網(wǎng)頁(yè)通常顯示的是錯(cuò)誤的信息的頁(yè)面。這對(duì)本文所研究的垂直搜索引擎來(lái)說(shuō)是毫無(wú)意義的，因此，我們對(duì)表單不作處理。至于腳本語(yǔ)言代碼，通常是網(wǎng)頁(yè)編寫者按照自己的意愿和邏輯，用腳本

人人文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

畢業(yè)設(shè)計(jì)論文搜索引擎

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

畢業(yè)設(shè)計(jì)論文 搜索引擎

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

畢業(yè)設(shè)計(jì)論文搜索引擎