畢業(yè)設(shè)計(jì)論文 搜索引擎_第1頁(yè)
畢業(yè)設(shè)計(jì)論文 搜索引擎_第2頁(yè)
畢業(yè)設(shè)計(jì)論文 搜索引擎_第3頁(yè)
畢業(yè)設(shè)計(jì)論文 搜索引擎_第4頁(yè)
畢業(yè)設(shè)計(jì)論文 搜索引擎_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目 錄 第一章 課題背景知識(shí) . (1) 第一節(jié) 搜索引擎原理 . (1) 第二節(jié) 搜索引擎分類 . (2) 第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史 . (4) 第四節(jié) 搜索引擎現(xiàn)狀 . (5) 第五節(jié) 搜索引擎展望 . (6) 第二章 技術(shù)詮釋 . (10) 第一節(jié) HTTP 及 HTML . (10) 第二節(jié) 網(wǎng)絡(luò)蜘蛛 . (11) 第三節(jié) 網(wǎng)頁(yè)噪聲 . (13) 第四節(jié) 頁(yè)面分析 . (13) 第五節(jié) 中文分詞 . (16) 第六節(jié) 布爾 代數(shù) . (19) 第七節(jié) CGI. (19) 第八節(jié) SOCKECT 網(wǎng)絡(luò)編程 . (20) 第三章 TOKING 海量網(wǎng)頁(yè)搜索系統(tǒng)體系結(jié)構(gòu) 及實(shí)現(xiàn) . (21) 第一節(jié) 結(jié)構(gòu)設(shè)計(jì) . (21) 第二節(jié) 數(shù)據(jù)流圖 . (22) 第三節(jié) 網(wǎng)頁(yè)抓取部分 . (31) 第四節(jié) 網(wǎng)頁(yè)預(yù)處理部分 . (35) 第五節(jié) 信息查詢服務(wù)部分 . (42) 第六節(jié) 用戶反饋 . (46) 第七節(jié) 功能拓展 . (46) 第八節(jié) 優(yōu)化用戶感受 . (50) 第四章 系統(tǒng)測(cè)評(píng) . (52) 第一節(jié) 抓取速度 . (52) 第二節(jié) 分詞效率 . (52) 第三節(jié) 搜索評(píng)價(jià) . (53) 參考文獻(xiàn) . (54) 致 謝 . (55) 附 錄 . (56) 本科生畢業(yè)設(shè)計(jì) 1 第一章 課題背景知識(shí) 70 年代中期,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局 DARPA (Defense Advanced Research Projects Agency)開(kāi)始了互聯(lián)網(wǎng)技術(shù)的研究。而 WWW (World Wide Web)自 1989 年誕生以來(lái),近二十年來(lái)發(fā)展迅猛,它已成為人類社會(huì)信息資源中的一個(gè)重要組成部分,越來(lái)越多的社會(huì)信息資源實(shí)體開(kāi)始選擇 Web 作為其載體。 著名的 netcraft(via Digg)剛剛完成了最新的互聯(lián)網(wǎng)調(diào)查,結(jié)果顯示到 2006 年 3月 31 日止,互聯(lián)網(wǎng)上一共有 80655993 個(gè)網(wǎng)站。而單是在 06 年 3 月這一個(gè)月里,世界上的網(wǎng)站數(shù)量就增長(zhǎng)了 310 萬(wàn)個(gè)。而在 2003 年 8 月所得的調(diào)查結(jié)果為 4000 萬(wàn)個(gè),這說(shuō)明了互聯(lián)網(wǎng)上的網(wǎng) 站數(shù)量在過(guò)去的 3 年里就已經(jīng)翻了一番,增長(zhǎng)速度 十分 驚人。著名的網(wǎng)站排名的國(guó)際網(wǎng)站 在 2007 年 4 月更是收錄了全球大約有34762836735 個(gè)網(wǎng)址。 由此,人們?cè)谛畔⒑Q笾兴阉髯约核枰男畔⒌哪芰︼@得愈發(fā)重要,搜索引擎成了人們?cè)诰W(wǎng)上檢索信息的必要工具。 第一節(jié) 搜索引擎原理 搜索引擎, 應(yīng)該被定位成 一個(gè)計(jì)算機(jī)應(yīng)用軟件系統(tǒng),或者一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng)。從網(wǎng)絡(luò)用戶的角度看,它根據(jù)用戶提交的類自然語(yǔ)言查詢?cè)~或者短語(yǔ) ,返回一系列很可能與該查詢相關(guān)的網(wǎng)頁(yè)信息,供用戶進(jìn)一步判斷和選取。為了有效地做到這一點(diǎn),它大致上被分成三個(gè)子系統(tǒng);即網(wǎng)頁(yè)搜集,網(wǎng)頁(yè)預(yù)處理和查詢服務(wù)。 網(wǎng)頁(yè)搜集主要負(fù)責(zé)網(wǎng)頁(yè)的抓取,由 URL 服務(wù)器、爬行器、存儲(chǔ)器、分析器和URL 解析器組成 , 爬行器是該部分的核心;網(wǎng)頁(yè) 預(yù)處理 主要負(fù)責(zé)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析,對(duì)文檔進(jìn)行標(biāo)引并存儲(chǔ)到數(shù)據(jù)庫(kù)里,由標(biāo)引器和分類器組成,該模塊涉及許多文件和數(shù)據(jù),有關(guān)于桶的操作是該部分的核心; 查詢服務(wù) 主要負(fù)責(zé)分析用戶輸入的檢索表達(dá)式,匹配相關(guān)文檔,把檢索結(jié)果返回給用戶,由查詢器和網(wǎng)頁(yè)級(jí)別評(píng)定器組 成,其中網(wǎng)頁(yè)等級(jí)的計(jì)算是該部分的核心。 搜索引擎的主要工作流程是:首先從蜘蛛開(kāi)始,蜘蛛程序每隔一定的時(shí)間自動(dòng)啟動(dòng)并讀取網(wǎng)頁(yè) URL服務(wù)器上的 URL列表,按深度優(yōu)先或廣度優(yōu)先算法,抓取各 URL所指定的網(wǎng)站,將抓取的網(wǎng)頁(yè)分配一個(gè)唯一文檔,存入文檔數(shù)據(jù)庫(kù)。并將當(dāng)前頁(yè)上的所的超連接存入到 URL服務(wù)器中。在進(jìn)行抓取的同時(shí),切詞器和索引器將已經(jīng)抓取的網(wǎng)頁(yè)文檔進(jìn)行切詞處理,并按詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率計(jì)算權(quán)值,然后將切詞結(jié)果存入索引數(shù)據(jù)庫(kù)。整個(gè)抓取工作和索引工作完成后更新整個(gè)索引數(shù)據(jù)庫(kù)和文檔數(shù)據(jù)庫(kù),這樣用戶就可以查詢最新 的網(wǎng)頁(yè)信息。查詢器首先對(duì)用戶輸入的信息本科生畢業(yè)設(shè)計(jì) 2 進(jìn)行切詞處理,并檢索出所有包含檢索詞的記錄,通過(guò)計(jì)算網(wǎng)頁(yè)權(quán)重和級(jí)別對(duì)查詢記錄進(jìn)行排序并進(jìn)行集合運(yùn)算,最后從文檔數(shù)據(jù)庫(kù)中提取各網(wǎng)頁(yè)的摘要信息反饋給查詢用戶。 U R L 服務(wù)器 爬行器 存儲(chǔ)服務(wù)器 資源庫(kù) 頁(yè)級(jí)別評(píng)定器 U R L 解析器 標(biāo)引器 查詢器 分類器 錨庫(kù) 詞典庫(kù) 索引庫(kù) 鏈接庫(kù) 桶 桶 桶 桶 桶 桶 Web頁(yè)搜索標(biāo)引入庫(kù)用戶查詢圖 1-1-1 搜索引擎通用總體系統(tǒng)結(jié)構(gòu)圖 第二節(jié) 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎( Full Text Search Engine)、目錄索引類搜索引擎( Search Index/Directory)和元搜索引擎( Meta Search Engine)。 一、 全文搜索引擎 全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外具代表性的有 Google、Fast/AllTheWeb、 AltaVista、 Inktomi、 Teoma、 WiseNut 等,國(guó)內(nèi)著名的有百度( Baidu)。它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。 本科生畢業(yè)設(shè)計(jì) 3 圖 1-2-1 全球著名全文搜索引擎 LOGO 二、 目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞( Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo 雅虎。其他著名的還有 Open Directory Project( DMOZ)、 LookSmart、 About等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 圖 1-2-2 全球著名目錄索引 LOGO 三、 元搜索引擎 (META Search Engine) 元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有 InfoSpace、 Dogpile、 Vivisimo 等,中文元搜索引擎 中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎排列搜索結(jié)果,如 Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如 Vivisimo。 四、 其他 除上述三大類引擎外,還有以下幾種非主流形式: (一) 集合式搜索引擎:如 HotBot 在 2002 年底推出的引擎。該引擎類似 META搜索引擎,但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索,而是由用戶從提供的 4 個(gè)引擎當(dāng)中選擇,因此叫它 “集合式 ”搜索引擎更確切些。 (二) 門戶搜索引擎:如 AOL Search、 MSN Search 等雖然提供搜索服務(wù),但自身即沒(méi) 有分類目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他引擎。 (三) 免費(fèi)鏈接列表( Free For All Links,簡(jiǎn)稱 FFA):這類網(wǎng)站一般只簡(jiǎn)單地滾動(dòng)排列鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過(guò)規(guī)模比起 Yahoo 等目錄索引來(lái)要小得多。 (四) 垂直搜索引擎: 有針對(duì)性的搜索引擎。 一次搜索的結(jié)果可能有成千上萬(wàn)條,而在這過(guò)于龐大的信息群中,有用信息只是其中的小部分。通用搜索引擎的弊端在網(wǎng)絡(luò)信息的急劇膨脹下突顯起來(lái),搜索越來(lái)越難以控制,用戶需求和市場(chǎng)服務(wù)間的巨大反差產(chǎn)生了強(qiáng)大的 “搜索噪音 ”,垂直搜索引擎的應(yīng)運(yùn)而生, 成為搜索引擎本科生畢業(yè)設(shè)計(jì) 4 發(fā)展史上的一塊里程碑。 第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 現(xiàn)代意義上的搜索引擎的祖先,是 1990 年由蒙特利爾大學(xué)學(xué)生 Alan Emtage 發(fā)明的 Archie。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢起來(lái)非常不便,因此Alan Emtage 想到了開(kāi)發(fā)一個(gè)可以以文件名查找文件的系統(tǒng),于是便有了 Archie。 Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于 Archie 深受用戶歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá) System Computing Services 大學(xué)于 1993 年開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。 當(dāng)時(shí), “機(jī)器人 ”一詞在編程者中十分流行。電腦 “機(jī)器人 ”( Computer Robot)是指某個(gè)能以人類無(wú)法 達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的 “機(jī)器人 ”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此,搜索引擎的 “機(jī)器人 ”程序 也 被稱為 “蜘蛛 ”程序。 世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的 “機(jī)器人 ”程序是 Matthew Gray開(kāi)發(fā)的World wide Web Wanderer。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)則發(fā)展為能夠檢索網(wǎng)站域名。 與 Wanderer相對(duì)應(yīng), Martin Koster 于 1993 年 10月創(chuàng)建了 ALIWEB,它是 Archie的 HTTP 版本。 ALIWEB 不使用 “機(jī)器人 ”程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái)建立自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在 Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的 “蜘蛛 ”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開(kāi)始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993 年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是 今天 Overture),和 Repository-Based Software Engineering (RBSE) spider最負(fù)盛名。 本科生畢業(yè)設(shè)計(jì) 5 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4 月,斯坦福( Stanford)大學(xué)的兩名博士生, David Filo 和美籍華人楊致遠(yuǎn)( Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。比如 Yahoo 號(hào)稱收錄的網(wǎng)頁(yè)達(dá)到 200 億 。 隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己?jiǎn)未颡?dú)斗已無(wú)法適應(yīng)目前的市場(chǎng)狀況,因此現(xiàn)在搜索引擎之間開(kāi)始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。象國(guó)外的 Inktomi(已被 Yahoo 收購(gòu)),它本身并不是直接面向用戶的搜索引擎,但 像 包括 Overture(原 GoTo,已被 Yahoo 收購(gòu))、LookSmart、 MSN、 HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁(yè)搜索服務(wù)。國(guó)內(nèi)的百度也屬于這一類,搜狐和新浪用的就是它的技術(shù)。因此從這個(gè)意義上說(shuō),它們是搜索引擎的搜索引擎。 第四節(jié) 搜索引擎現(xiàn)狀 隨著網(wǎng) 絡(luò)信息 內(nèi)容的爆炸式增長(zhǎng)和形式的不斷翻新,搜索引擎越來(lái)越不能滿足網(wǎng)絡(luò)使用者 的各種信息需求。從 1996 年起,搜索引擎技術(shù)開(kāi)始注重網(wǎng)頁(yè)質(zhì)量與相關(guān)性的結(jié)合,這主要是通過(guò)三種手段: 是對(duì)網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析,如 INFOSEEK 和 GOOGLE; 是對(duì)用戶的點(diǎn)擊行為進(jìn)行分析,如 DIRECTHIT(被 ASK JEEVES 收購(gòu) ); 是與網(wǎng)站目錄相結(jié)合。最新的趨勢(shì)則是搜索的個(gè)性化 、 本地化 和垂直化 。 個(gè)性化:入門網(wǎng)站的個(gè)性化已經(jīng)比較成熟了,但是搜索引擎的個(gè)性化并沒(méi)有得到解決,不同的人使用相同的檢索詞得到的結(jié)果是相同的。也就是說(shuō)搜索引擎沒(méi)有考慮人的地域、性別、年齡等方面的差別。 DIRECTHIT 等公司一年 前開(kāi)始了個(gè)性化方面的研發(fā)工作,但至今沒(méi)有推出任何產(chǎn)品。 垂直化:垂直搜索引擎這種高度目標(biāo)化、專業(yè)化的搜索引擎的優(yōu)勢(shì)在于 :針對(duì)性強(qiáng),對(duì)特定范圍的網(wǎng)絡(luò)信息的覆蓋率相對(duì)較高,具有可靠的技術(shù)和信息資源保障,有明確的檢索目標(biāo)定位,有效地彌補(bǔ)了通用綜合性搜索引擎對(duì)專門領(lǐng)域及特定主題信息覆蓋率過(guò)低的問(wèn)題。根據(jù) CNNIC 的調(diào)查結(jié)果, 2005 年,使用百度和 Google 的本科生畢業(yè)設(shè)計(jì) 6 用戶達(dá)到總量的 90%;而 2006 年這一數(shù)值下降到 87.4%,這其中就有垂直搜索的分流作用。 本地化:本地化是一個(gè)比個(gè)性化更明顯的趨勢(shì)。隨著互聯(lián)網(wǎng)在全球的迅速普 及,綜合性的搜索引擎已經(jīng)不能滿足很多非美國(guó)網(wǎng)民的信息需求。近來(lái), YAHOO!、INKTOMI、 LYCOS 等公司不斷推出各國(guó)、各地區(qū)的本地搜索網(wǎng)站,搜索的本地化已經(jīng)是勢(shì)不可擋。 第五節(jié) 搜索引擎展望 一、技術(shù)展望 各大公司都把下一代搜索引擎的查詢方式的創(chuàng) 新 性,作為自己競(jìng)爭(zhēng)的籌碼,以下是對(duì)下一代搜索引擎技術(shù)的一些構(gòu)想。 未來(lái),搜索引擎 技術(shù)將重點(diǎn)發(fā)展在以下幾個(gè)方面 : (一) 自然語(yǔ)言理解技術(shù) 自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中的一個(gè)富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是從人工智能的觀點(diǎn)看,自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型, 這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語(yǔ)言。以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí) (或概念 )層面,對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。 (二) P2P P2P 是 peer-to-peer 的縮寫,意為對(duì)等網(wǎng)絡(luò)。其 宗旨在于 加強(qiáng)網(wǎng)絡(luò)上 人與 人的交流 、 在 文件交換、分布計(jì)算等方面大有前途。長(zhǎng)久以來(lái),人們習(xí)慣的互聯(lián)網(wǎng)是以服務(wù)器為中心,人們向服務(wù)器發(fā)送請(qǐng)求,然后瀏覽服務(wù)器回應(yīng)的信息。而 P2P 所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換,但數(shù)據(jù)是存儲(chǔ)在每臺(tái)電腦里,而不是存儲(chǔ)在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西,這將使互聯(lián)網(wǎng)上信息的價(jià)值得到極大的提升。 (三) 移動(dòng)搜索引擎 隨著手機(jī)接入互聯(lián)網(wǎng)的能力越來(lái)越強(qiáng),以及移動(dòng)業(yè)務(wù)日益傾向于內(nèi)容驅(qū)動(dòng),搜索引擎的移動(dòng)化也成為不可避免的趨勢(shì) 。許多運(yùn)營(yíng)商已經(jīng)在其內(nèi)容網(wǎng)站上使用當(dāng)?shù)乇究粕厴I(yè)設(shè)計(jì) 7 搜索引擎來(lái)幫助消費(fèi)者找到所需信息,一些主要的搜索引擎公司如 Google、百度、愛(ài)問(wèn)等已著力于移動(dòng)搜索,其搜索引擎的移動(dòng)化版本已經(jīng)問(wèn)世并開(kāi)始運(yùn)營(yíng)。 (四) 垂直搜索 服務(wù)及本地化 垂直搜索引擎的搜索器只搜索特定的主題信息,按預(yù)先己經(jīng)定義好的專題有選擇地收集相關(guān)的網(wǎng)頁(yè)。這樣大大降低了收集信息的難度,提高了信息的質(zhì)量。由于所收集的學(xué)科領(lǐng)域小,信息量相對(duì)較少,可以采用 “專家分類標(biāo)引 ”的方法對(duì)收集到的信息進(jìn)行組織整理,進(jìn)一步提高信息的質(zhì)量,建立一個(gè)高質(zhì)量的、專業(yè)信息收集全的數(shù)據(jù)庫(kù)。 每一 種 行 業(yè) 都可以做一個(gè)垂直搜索。目前搜索領(lǐng)域才剛剛起步,尤其是垂直搜索,還有很大的空間。比如說(shuō)家電、建材、家居、醫(yī)療健康等等方面,甚至還可以在更細(xì)的領(lǐng)域做更加深的搜索。美國(guó)去年第四季度出現(xiàn)了專門給老年人 服務(wù)的 搜索引擎。 本地搜索前景 也 很好,面臨的挑戰(zhàn)就是把全中國(guó)所有的店家信息收集上來(lái)需要很多投入。 賽迪顧問(wèn)執(zhí)行總裁李峻預(yù)測(cè),垂直搜索、本地搜索等未來(lái)搜索引擎市場(chǎng)仍將保持 30%左右的增長(zhǎng)速度。 一些垂直搜索將會(huì)成為值得深度挖掘的方向,如旅游搜索、求職搜索等行業(yè)細(xì)分的搜索引擎,而且搜索引擎技術(shù)和渠道的創(chuàng)新核心還在于商 業(yè)模式的不斷完善。 (五) 多媒體搜索引擎 隨著寬帶技術(shù)的發(fā)展,未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。開(kāi)發(fā)出可查尋圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向。目前瑞典一家公司已經(jīng)研制推出被稱作 “第五代搜索引擎 ”的動(dòng)態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯(lián)網(wǎng)上主要的信息。 二、市場(chǎng)展望 iResearch 預(yù)測(cè)到 2007 年中國(guó)搜索引擎市場(chǎng)規(guī)模將達(dá)到 56.2 億元人民幣,未來(lái)3 年的年增長(zhǎng)率平均保持在 55%以上 1。中國(guó)本土的搜索引擎:百度、中搜、搜狗、一搜等相繼推出后,都取得了不錯(cuò)的反響,特別是百 度在 2005 年 8 月 5 日正式在納斯達(dá)克上市,上市首日股票瘋狂上漲:最高達(dá) 151 美元,把搜索引擎的市值推到了高潮。微軟對(duì)搜索引擎的研發(fā)也伴隨著大規(guī)模的招兵買馬,微軟亞洲研究院也成立了專門的搜索小組。李開(kāi)復(fù)先生加盟 Google 后,讓很多人預(yù)測(cè) Google 一定 會(huì)吃掉中 文 搜索引擎這個(gè) 巨大 的市場(chǎng)。而李開(kāi)復(fù)先生在閃電加盟后,在 “開(kāi)復(fù)學(xué)生網(wǎng) ”上發(fā)表了一篇題為 “Google和中國(guó) -追隨我心的選擇 ”, Google 的搜索文化對(duì)技術(shù)人員的吸引可見(jiàn)一斑,等等數(shù)字和事件表明,搜索引擎在互聯(lián)網(wǎng)上有著強(qiáng)勁的生命力和發(fā)展?jié)摿?,同時(shí)也是互聯(lián) 網(wǎng)公司豐厚利潤(rùn)的來(lái)源之一。 本科生畢業(yè)設(shè)計(jì) 8 圖 1-5-1 2002-2006 年中國(guó)搜索引擎市場(chǎng)規(guī)模及增長(zhǎng) 2 2005 年 8 月,法國(guó)總統(tǒng)希拉克大張旗鼓地發(fā)布了 “Quaero”計(jì)劃,它很快被顯現(xiàn)為一種歐洲的決心 推出與 Google 搜索競(jìng)爭(zhēng)的相同產(chǎn)品。這款名為 “Quaero”的搜索引擎,不僅能搜索文本,而且還能搜索圖片和視頻。 Quaero 的拉丁文語(yǔ)義是 “我搜索 ”,該項(xiàng)目獲得了 2.5 億歐元資助 (3.3 億美元 ),法德兩國(guó)主要技術(shù)公司參加了開(kāi)發(fā)。而在德國(guó),一些德國(guó)企業(yè)將參加另外的德國(guó)版搜索引擎 “Theseus”的開(kāi)發(fā),該引擎 更加集中于文本分析。法德兩國(guó)開(kāi)發(fā)商將在合作、競(jìng)爭(zhēng)及互補(bǔ)的環(huán)境下實(shí)施歐洲新一代搜索引擎的開(kāi)發(fā)計(jì)劃。 和其他許多國(guó)家一樣,在日本提起搜索引擎,人們首先想到的是谷歌,此外還有雅虎和微軟麾下的 MSN。根據(jù)今年 3 月的一項(xiàng)調(diào)查,在日本檢索服務(wù)利用率排名中居首位的是雅虎,其利用率達(dá) 64.5%,其次是谷歌和 MSN,日本開(kāi)發(fā)的 GOO 雖然名列第四,但實(shí)際利用率只有 5.5%,與前三名的差距很明顯。中國(guó)百度也已經(jīng)進(jìn)入日本市場(chǎng),欲與群雄共逐鹿。 其實(shí)日本著手開(kāi)發(fā)搜索引擎要早于美國(guó),日本電信電話公司、日本電氣公司和東芝公司等都曾擁有過(guò) 各自獨(dú)立的搜索引擎。直到 20 世紀(jì) 90 年代后期,這些日本國(guó)產(chǎn)搜索引擎還在相互競(jìng)爭(zhēng)。但隨著美國(guó)谷歌的出現(xiàn),互聯(lián)網(wǎng)信息檢索業(yè)界的格局在 2000 年前后發(fā)生了劇變。谷歌高精確度的檢索服務(wù)使日本眾多門戶網(wǎng)站形成了這樣的共識(shí) “搜索引擎依靠谷歌就足夠了 ”,因此日本國(guó)產(chǎn)搜索引擎全線敗退。 搜索引擎是遨游網(wǎng)絡(luò)世界的必備工具,而其中的基干技術(shù)掌握在外國(guó)企業(yè)手中。一些日本業(yè)界專家認(rèn)為,長(zhǎng)此以往日本互聯(lián)網(wǎng)搜索業(yè)務(wù)未來(lái)有可能被外國(guó)企業(yè)控制。抱著同樣的危機(jī)感,日本政府把國(guó)產(chǎn)下一代搜索引擎項(xiàng)目提上了議事日程。經(jīng)濟(jì)產(chǎn)業(yè)省 2005 年 12 月 設(shè)立了企業(yè)、研究機(jī)構(gòu)和政府部門共同參與的網(wǎng)絡(luò)搜索引擎研究小組,負(fù)責(zé)整理與搜索技術(shù)開(kāi)發(fā)相關(guān)的資料, 2006 年 7 月末由大學(xué)和 52 家企業(yè)參與本科生畢業(yè)設(shè)計(jì) 9 的合作項(xiàng)目 “信息大航海計(jì)劃 ”正式啟動(dòng),準(zhǔn)備用 3 年時(shí)間開(kāi)發(fā)出下一代互聯(lián)網(wǎng)搜索引擎,挑戰(zhàn)谷歌等搜索引擎的市場(chǎng)霸主地位,并打算在 2007 年度預(yù)算中申請(qǐng) 50 億日元 (約合 4300 萬(wàn)美元 )作為研發(fā)費(fèi)用,爭(zhēng)取 5年后使下一代搜索引擎進(jìn)入實(shí)用階段。 據(jù)日本媒體報(bào)道,日本下一代搜索引擎不僅能像現(xiàn)在一樣依靠關(guān)鍵詞從互聯(lián)網(wǎng)上的信息海洋中提取所需信息,運(yùn)用現(xiàn)在逐漸普及的電子標(biāo)簽,還可以及時(shí)掌握有關(guān)全 球產(chǎn)品的信息,或者以從視頻資料中剪輯的錄音為基礎(chǔ),檢索音頻資料。日本下一代搜索引擎的終端設(shè)備不僅有電腦,還可能是電視機(jī)、 手機(jī) 、汽車導(dǎo)航儀等。今后只要操縱遙控器就能通過(guò)新搜索引擎找到電視節(jié)目中出現(xiàn)過(guò)的人物或某個(gè)地區(qū)的資料,查詢并購(gòu)買電視中出現(xiàn)過(guò)的某款商品等。 業(yè)內(nèi)人士指出,雅虎、谷歌、 MSN 每年分別投資數(shù)億美元用于技術(shù)研發(fā),這帶來(lái)問(wèn)題是在目前體制下怎樣才能超越上述企業(yè)的技術(shù)水 準(zhǔn)。谷歌等搜索引擎霸主的戰(zhàn)略也包含將檢索對(duì)象從文本擴(kuò)展到視頻和音頻資料,此外日本及歐洲大型企業(yè)的不少資深技術(shù)人員常跳槽到谷歌和雅虎,這可能有助于谷歌等開(kāi)發(fā)下一代搜索引擎終端設(shè)備。因此像法國(guó)的 “Quaero”計(jì)劃和日本的 “信息大航海計(jì)劃 ”等等的實(shí)施能否取得預(yù)期效果現(xiàn)在很難準(zhǔn)確預(yù)料。但不可否認(rèn)的是:搜索引擎市場(chǎng)將進(jìn)入一個(gè)群雄逐鹿的瘋狂競(jìng)爭(zhēng)時(shí)代。 隨著搜索經(jīng)濟(jì)的崛起,人們開(kāi)始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。作為企業(yè),會(huì)根據(jù)搜索引擎的知名度以及日流量來(lái)選擇是否要投放廣告等。對(duì)于消費(fèi)者而言,使用互聯(lián)網(wǎng) 搜索引擎是進(jìn)入網(wǎng)絡(luò)世界的一個(gè)重要入口,這意味著巨大的商機(jī)。微軟將 2007 財(cái)政年度的研發(fā)開(kāi)支預(yù)算調(diào)高至 75 億美元,較預(yù)期高出約 13 億美元,此舉顯示出微軟與 Google、雅虎在互聯(lián)網(wǎng)搜索市場(chǎng)上一決高下的決心。搜索引擎也將不再是技術(shù),而是經(jīng)濟(jì)。 本科生畢業(yè)設(shè)計(jì) 10 第一章 技術(shù)詮釋 第一節(jié) HTTP 及 HTML 超文本傳輸協(xié)議( HTTP)是應(yīng)用層協(xié)議,由于其簡(jiǎn)捷、快速的方式,適用于分布式和合作式超媒體信息系統(tǒng)。自 1990 年起, HTTP 就已經(jīng)被應(yīng)用于 WWW 全球信息服務(wù)系統(tǒng)??蛻暨M(jìn)程建立一條同服務(wù)器進(jìn)程的 TCP 連接,然后發(fā)出請(qǐng)求并 讀取服務(wù)器進(jìn)程的應(yīng)答。服務(wù)器進(jìn)程關(guān)閉連接表示本次響應(yīng)結(jié)束。服務(wù)器進(jìn)程返回的內(nèi)容包含兩個(gè)部分,一個(gè) “應(yīng)答頭 ”( response header),一個(gè) “應(yīng)答體 ”( response body),后者通常是一個(gè) HTML 文件,我們稱之為 “網(wǎng)頁(yè) ”。 通常 HTTP 消息包括客戶機(jī)向服務(wù)器的請(qǐng)求消息和服務(wù)器向客戶機(jī)的響應(yīng)消息。這兩種類型的消息由一個(gè)起始行,一個(gè)或者多個(gè)頭域,一個(gè)只是頭域結(jié)束的空行和可選的消息體組成。 HTTP 的頭域包括通用頭,請(qǐng)求頭,響應(yīng)頭和實(shí)體頭四個(gè)部分。每個(gè)頭域由一個(gè)域名,冒號(hào)( :)和域值三部分組成。域名是 大小寫無(wú)關(guān)的,域值前可以添加任何數(shù)量的空格符,頭域可以被擴(kuò)展為多行,在每行開(kāi)始處,使用至少一個(gè)空格或制表符。 HTTP 協(xié)議采用了請(qǐng)求 /響應(yīng)模型??蛻舳讼蚍?wù)器發(fā)送一個(gè)請(qǐng)求,請(qǐng)求頭包含請(qǐng)求的方法、 URI、協(xié)議版本、以及包含請(qǐng)求修飾符、客戶信息和內(nèi)容的類似于 MIME的消息結(jié)構(gòu)。服務(wù)器以一個(gè)狀態(tài)行作為響應(yīng),相應(yīng)的內(nèi)容包括消息協(xié)議的版本,成功或者錯(cuò)誤編碼加上包含服務(wù)器信息、實(shí)體元信息以及可能的實(shí)體內(nèi)容。 Web 服務(wù)器的 HTTP 應(yīng)答一般由以下幾項(xiàng)構(gòu)成:一個(gè)狀態(tài)行,一個(gè)或多個(gè)應(yīng)答頭,一個(gè)空行,內(nèi)容文檔。設(shè)置 HTTP 應(yīng)答 頭往往和設(shè)置狀態(tài)行中的狀態(tài)代碼結(jié)合起來(lái)。 典型的請(qǐng)求消息: GET http:/class/download.microtool.de:80/somedata.exe Host:download.microtool.de Accept:*/* Pragma:no-cache Cache-Control:no-cache Referer:http:/class/download.microtool.de/ User-Agent:Mozilla/4.04en(Win95;I;Nav) Range:bytes=554554- 典型的響應(yīng)消息 : HTTP/1.0200OK 本科生畢業(yè)設(shè)計(jì) 11 Date:Mon,31Dec200104:25:57GMT Server:Apache/1.3.14(Unix) Content-type:text/html Last-modified:Tue,17Apr200106:46:28GMT Etag:a030f020ac7c01:1e9f Content-length:39725426 Content-range:bytes554554-40279979/40279980 一個(gè)完整的 HTML 文檔以 開(kāi)始,以 結(jié)束。大部分的 HTML命令都像這樣成對(duì)出現(xiàn)。 HTML 文檔含有以 開(kāi)始、以 結(jié)束的首部和以 開(kāi)始、以 結(jié)束的主體部分。標(biāo)題通常由客戶程序顯示在窗口的頂部。 第二節(jié) 網(wǎng)絡(luò)蜘蛛 網(wǎng)絡(luò)蜘蛛即 Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么 Spider 就是在網(wǎng)上爬來(lái)爬去的蜘蛛 。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。 首先蜘蛛讀取抓取站點(diǎn)的 URL 列表,取出一個(gè)站點(diǎn) URL,將其放入未訪問(wèn)的URL 列表( UVURL 列表)中,如果 UVURL 不為空剛從中取出一個(gè) URL 判斷是否已經(jīng)訪問(wèn)過(guò),若沒(méi)有訪問(wèn)過(guò)則讀取此網(wǎng)頁(yè),并進(jìn)行超鏈分析及內(nèi) 容分析,并將些頁(yè)存入文檔數(shù)據(jù)庫(kù),并將些 URL 放入已訪問(wèn) URL 列表( VURL 列表),直到 UVRL為空為止,此時(shí)再抓取其他站點(diǎn),依次循環(huán)直到所有的站點(diǎn) URL 列表都抓取完為止。 對(duì)于搜索引擎來(lái)說(shuō),要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的,從目前公布的數(shù)據(jù)來(lái)看,容量最大的搜索引擎也不過(guò)是抓取了整個(gè)網(wǎng)頁(yè)數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無(wú)法遍歷所有的網(wǎng)頁(yè),有許多網(wǎng)頁(yè)無(wú)法從其它網(wǎng)頁(yè)的鏈接中找到;另一個(gè)原因是存儲(chǔ)技術(shù)和處理技術(shù)的問(wèn)題,如果按照每個(gè)頁(yè)面的平均大小為 20K 計(jì)算(包含圖片), 100 億網(wǎng)頁(yè)的 容量是 1002000G 字節(jié),即使能夠存儲(chǔ),下載也存在問(wèn)題(按照一臺(tái)機(jī)器每秒下載 20K 計(jì)算,需要 340 臺(tái)機(jī)器不停的下載一年時(shí)間,才能把所有網(wǎng)頁(yè)下載完畢)。同時(shí),由于數(shù)據(jù)量太大,在提供搜索時(shí)也會(huì)有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁(yè),而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁(yè)的鏈接深度。 本科生畢業(yè)設(shè)計(jì) 12 在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng) 頁(yè)。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。 網(wǎng)絡(luò)蜘蛛在訪問(wèn)網(wǎng)站網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問(wèn)題,有些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才能訪問(wèn)。當(dāng)然,網(wǎng)站的所有者可以通過(guò)協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取,但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全免費(fèi)的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用 戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過(guò)所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁(yè)的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。 網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁(yè),不同于一般的訪問(wèn),如果控制不好,則會(huì)引起網(wǎng)站服務(wù)器負(fù)擔(dān)過(guò)重。有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來(lái)自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁(yè)不應(yīng)該抓取,哪些網(wǎng)頁(yè)應(yīng)該更新。 每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁(yè)的時(shí)候,都會(huì)向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁(yè)的時(shí)候會(huì)發(fā)送一個(gè)請(qǐng)求,這個(gè)請(qǐng)求中就有一 個(gè)字段為 User agent,用于標(biāo)識(shí)此網(wǎng)絡(luò)蜘蛛的身份。例如 Google 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 GoogleBot,Baidu 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 BaiDuSpider, Yahoo 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 Inktomi Slurp。如果在網(wǎng)站上有訪問(wèn)日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過(guò)來(lái)過(guò),什么時(shí)候過(guò)來(lái)的,以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問(wèn)題,就通過(guò)其標(biāo)識(shí)來(lái)和其所有者聯(lián)系。 網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問(wèn)一個(gè)特殊的文本文件 Robots.txt,這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下,如: /robots.txt 。網(wǎng)站管理員可以通過(guò) robots.txt 來(lái)定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問(wèn),或者哪些目錄對(duì)于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問(wèn)。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問(wèn)目錄。Robots.txt 語(yǔ)法很簡(jiǎn)單,例如如果對(duì)目錄沒(méi)有任何限制,可以用以下兩行來(lái)描述: User-agent: * Disallow: 當(dāng)然, Robots.txt 只是一個(gè)協(xié)議,如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議 ,網(wǎng)站管理員也無(wú)法阻止網(wǎng)絡(luò)蜘蛛對(duì)于某些頁(yè)面的訪問(wèn),但一般的網(wǎng)絡(luò)蜘蛛都會(huì)遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過(guò)其它方式來(lái)拒絕網(wǎng)絡(luò)蜘蛛對(duì)某些網(wǎng)頁(yè)的抓取。 本科生畢業(yè)設(shè)計(jì) 13 第三節(jié) 網(wǎng)頁(yè) 噪聲 當(dāng) Web 中獲取所需信息的同時(shí), 會(huì)常??匆?jiàn)大量和所關(guān)心內(nèi)容無(wú)關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問(wèn)卷等,稱之為 “噪 聲 ”內(nèi)容。 在某些情況下 ,可能從這些噪音內(nèi)容中得到一些意外的驚喜; 但多數(shù) 時(shí)候, 因 這些 噪聲 消耗 掉了很多的 注意力。同時(shí),噪 聲 內(nèi)容通常伴隨著相關(guān)的超鏈。因此,噪 聲 會(huì)導(dǎo)致相互鏈接的網(wǎng)頁(yè)常常并無(wú)內(nèi)容相關(guān)性。這樣,網(wǎng)頁(yè)內(nèi)容的混亂不僅給基于網(wǎng)頁(yè)內(nèi)容的 研究工作帶來(lái)困難,也給基于網(wǎng)頁(yè)超鏈指向的研究工作帶來(lái)困難。另外,隨著 Web 各種研究與應(yīng)用的深入發(fā)展,僅僅是原始網(wǎng)頁(yè)內(nèi)容已經(jīng)不能滿足需求,還要求能夠提供便于計(jì)算機(jī)處理的元數(shù)據(jù)信息,例如關(guān)鍵詞、摘要、網(wǎng)頁(yè)內(nèi)容類別等。然而,現(xiàn)在大部分網(wǎng)頁(yè)仍然是普通 HTML 網(wǎng)頁(yè),并不包含必要的元數(shù)據(jù)。 因 此,本節(jié)討論一個(gè)網(wǎng)頁(yè)表示模型建立和實(shí)現(xiàn)的方法,這一方面使我們能夠自動(dòng)從網(wǎng)頁(yè)中提取相關(guān)的元數(shù)據(jù),另一方面也去除了和網(wǎng)頁(yè)主題內(nèi)容無(wú)關(guān)的噪音內(nèi)容,進(jìn)而在原始 Web 上搭建一個(gè)噪 聲小、描述清晰、更易于處理和利用的網(wǎng)頁(yè)信息平臺(tái)。 在網(wǎng)頁(yè)分類領(lǐng)域 ,由于噪 聲 內(nèi)容與主題無(wú)關(guān),訓(xùn)練集中的噪 聲 內(nèi)容會(huì)導(dǎo)致各個(gè)類別的特征不夠明顯,而待分類網(wǎng)頁(yè)中的噪 聲 內(nèi)容則會(huì)導(dǎo)致該網(wǎng)頁(yè)類別不明確,因而影響了網(wǎng)頁(yè)自動(dòng)分類的效果。因此提出了通過(guò)去掉網(wǎng)頁(yè)中的噪 聲 內(nèi)容來(lái)提高網(wǎng)頁(yè)分類質(zhì)量的方法。 在網(wǎng)頁(yè)信息提取領(lǐng)域,自動(dòng)識(shí)別模式的方法必須要從整個(gè)網(wǎng)頁(yè)中提取模式,而不是只針對(duì)主題內(nèi)容提取。因此,在凈化后的網(wǎng)頁(yè)上作信息提取不僅可以排除噪 聲信息對(duì)信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁(yè)中的結(jié)構(gòu)簡(jiǎn)單化,提高信息提取的效率。 上述分析我們看到, 網(wǎng)頁(yè) 噪 聲 對(duì)基于網(wǎng)頁(yè)的研究工作的影響是普遍 而嚴(yán)重的,雖然各個(gè)領(lǐng)域采用的方法各不相同,但處理的目的都是為了去除網(wǎng)頁(yè)中的噪 聲 內(nèi)容,得到真正的主題內(nèi)容。 第四節(jié) 頁(yè)面分析 由于 WWW網(wǎng)上的信息主要是以 HTML文檔的形式存放的,因此要根據(jù) HTML文檔的特點(diǎn),對(duì)其進(jìn)行掃描分析,以提取信息。 HTML文檔有五個(gè)定義好的組件 : 、文本 本科生畢業(yè)設(shè)計(jì) 14 、注釋 、簡(jiǎn)單標(biāo)簽 、起始標(biāo)簽 、結(jié)束標(biāo)簽 文本就是在 HTML頁(yè)面上看到的 詞句的內(nèi)容。除了腳本代碼, HTML文檔中的所有數(shù)據(jù),只要不是標(biāo)簽的組成部分,都被認(rèn)為是文本。文本是格式化的, 并且受包圍它的標(biāo)簽的控制。就像前面所提到的那樣,如果數(shù)據(jù)位于文本之外,將不會(huì)被看作文本。但是程序在理解 HTML頁(yè)面時(shí),腳本代碼具有與文本相似的特性。腳本代碼包含在標(biāo)簽 之間。確保搜索引擎程序不會(huì)將腳本代碼與文本數(shù)據(jù)混淆是很重要的。 文本實(shí)際上就是顯示在瀏覽器中的文字,其顯示方式由包圍它的標(biāo)簽來(lái)網(wǎng)以決定。根據(jù)本課題的要求,文本無(wú)疑是我們所需要的重要的信息源之一。頁(yè)相關(guān)的 主題是通過(guò)文本來(lái)表達(dá)的,所以文本信息必須被完全提取出來(lái),便進(jìn)一步處理。 注釋表示 HTML文檔中不會(huì)顯示給用戶的那部分內(nèi)容。他們通常是 HTML程序員所做的說(shuō)明,這些說(shuō)明通常是表達(dá)編程思路的,所以這類數(shù)據(jù)對(duì)本課題來(lái)說(shuō)是毫無(wú)用處。因此在解析 HTML文檔時(shí),將注釋忽略。簡(jiǎn)單標(biāo)簽是由單個(gè)表示的 HTML標(biāo)簽。最普遍的簡(jiǎn)單標(biāo)簽是行中斷符 ()標(biāo)簽和圖像標(biāo)簽 ( ),它們都沒(méi)有相應(yīng)的結(jié)束標(biāo)簽。簡(jiǎn)單標(biāo)簽主要是用來(lái)控制顯示格式或使用圖像美化界面用的。 大多數(shù) HTML標(biāo)簽都是由開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽組成的。開(kāi)始標(biāo)簽非常 像簡(jiǎn)單標(biāo)簽。開(kāi)始標(biāo)簽與簡(jiǎn)單標(biāo)簽直接的唯一區(qū)別是 :開(kāi)始標(biāo)簽有一個(gè)相應(yīng)的結(jié)束標(biāo)簽,該結(jié)束標(biāo)簽出現(xiàn)在后面。開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽用來(lái)控制其所包含的 HTML代碼的功能。 在所有的開(kāi)始和結(jié)束標(biāo)簽中,標(biāo)簽 是最有用的。標(biāo)簽 在 HTML中叫做鏈接標(biāo)簽,它決定了當(dāng)在瀏覽器中點(diǎn)擊該標(biāo)簽的文本時(shí)所要打開(kāi)的網(wǎng)頁(yè)的 URL。下面是一個(gè)例子 : Click Here 從上面的例子中我們可以看出,標(biāo)識(shí)它所鏈接的 URL是該標(biāo)簽的 href屬性決定,href的值就代表了一個(gè) URL. Href屬性值有兩種表達(dá)方式 :一種是絕對(duì)路徑,也就是說(shuō)它的值是一個(gè)完整的 URL, 程序可以直接使用它 ;另一種相對(duì)路徑,它的表示方式只有目錄或文件名,表示相對(duì)于木網(wǎng)頁(yè)的所在目錄的位置。使用相對(duì)路徑的目的是提高網(wǎng)頁(yè)的可移植性。標(biāo)簽 中的鏈接并不是唯一將用戶帶到其它頁(yè)面的基礎(chǔ)結(jié)構(gòu)標(biāo)簽。 Web站點(diǎn)還能建立圖像映像,當(dāng)用戶點(diǎn)擊它們時(shí),也能將用戶帶到相應(yīng)的新頁(yè)面。圖像映像由客戶端和服務(wù)器圖像映像組成,但是服務(wù)器圖像映像幾乎完全被客戶端所取代。這是因?yàn)榉?wù)器端的圖像 映像,需要一個(gè)服務(wù)器插件來(lái)注冊(cè)用戶本科生畢業(yè)設(shè)計(jì) 15 點(diǎn)擊的圖像區(qū)域。而這在客戶端圖像映像中是完全包含在 HTML文件中 3。 客戶端圖像映像不需要服務(wù)器端的腳本表示來(lái)解釋可多處點(diǎn)擊的圖像的 hot”區(qū)。實(shí)際上,客戶端圖像映像比服務(wù)器端圖像映像更為有效,而且還允許訪問(wèn)者在Web瀏覽器的狀態(tài)區(qū)中看到映像區(qū)域真正關(guān)聯(lián)的 URL。該狀態(tài)文本還會(huì)在用戶鼠標(biāo)在圖像映像區(qū)域移動(dòng)的時(shí)候出現(xiàn)??蛻舳擞诚駡D像將包含一個(gè)如下所示的映像。該映像將每個(gè)圖像區(qū)域鏈接到一個(gè) URL: 在該 HTML文件的后面,該映像以類似于下面的方式使用 : 通過(guò)以上分析圖像映像當(dāng)中的超級(jí)鏈接可以由圖像的 簡(jiǎn)單標(biāo)簽中的 href屬性得到。除了以上兩種情況外,框架中的 src屬性也可以設(shè)置超級(jí)鏈接??蚣軜?biāo)簽屬于開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽,下面是一個(gè)例子。 在上面的例子中可以看出,該標(biāo)簽中有一個(gè)名為 src的屬性, 代表了該框架中應(yīng)顯示的網(wǎng)頁(yè)鏈接,在網(wǎng)頁(yè)中搜索鏈接時(shí),不應(yīng)遺漏此類鏈接。需要說(shuō)明的是,窗體、腳本語(yǔ)言代碼和網(wǎng)頁(yè)中嵌入式對(duì)象也可以提供鏈接功能。但是,它們主要是提供一些特殊領(lǐng)域的特殊功能的應(yīng)用。窗體主要是用來(lái)收集用戶信息,用戶信息是瀏覽網(wǎng)頁(yè)的人根據(jù)自己的實(shí)際情況填寫,例如,用戶名和密碼等。在這些用戶信息不全的情況下,返回的網(wǎng)頁(yè)通常顯示的是錯(cuò)誤的信息的頁(yè)面。這對(duì)本文所研究的垂直搜索引擎來(lái)說(shuō)是毫無(wú)意義的,因此,我們對(duì)表單不作處理。至于腳本語(yǔ)言代碼,通常是網(wǎng)頁(yè)編寫者按照自己的意愿和邏輯,用腳本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論