




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-.z目錄1摘要2Abstract3第1章緒論41.1研究的背景與意義41.2本文的構(gòu)造4第2章搜索引擎技術(shù)簡(jiǎn)介52.1搜索引擎的分類52.1.1基于Robot的搜索引擎52.1.2目錄62.1.3Meta搜索引擎62.2搜索引擎的主要技術(shù)62.2.1搜索器72.2.2索引器72.2.3檢索器72.2.4用戶接口72.3搜索引擎技術(shù)的開展82.3.1提高信息查詢結(jié)果的精度提高檢索的有效性82.3.2基于智能代理的信息過濾和個(gè)性化效勞82.3.3采用分布式體系構(gòu)造提高系統(tǒng)規(guī)模和性能82.3.4重視穿插語(yǔ)言檢索的研究和開發(fā)9第3章Linu*操作系統(tǒng)中的網(wǎng)絡(luò)編程103.1Linu*簡(jiǎn)介103.1.1Linu*的特點(diǎn)103.1.2Linu*下常用的文本編譯器113.2網(wǎng)絡(luò)編程中的套接字〔socket〕技術(shù)11第4章網(wǎng)頁(yè)的獲取和收集144.1程序設(shè)計(jì)簡(jiǎn)介144.2網(wǎng)頁(yè)獲取的實(shí)現(xiàn)及Web相關(guān)技術(shù)144.2.1HTTP協(xié)議下的網(wǎng)頁(yè)獲取144.2.2對(duì)網(wǎng)頁(yè)HTML語(yǔ)言的分析154.2.3HTTP報(bào)文及效勞器的響應(yīng)15第5章對(duì)已獲取網(wǎng)頁(yè)的分析175.1網(wǎng)頁(yè)的級(jí)別〔pagerank〕的提出175.2網(wǎng)頁(yè)級(jí)別的計(jì)算及調(diào)整175.2.1網(wǎng)頁(yè)級(jí)別的計(jì)算公式175.2.2網(wǎng)頁(yè)級(jí)別計(jì)算中的考前須知18目錄摘要搜索引擎〔SearchEngine〕是隨著WEB信息的迅速增加,從1995年開場(chǎng)逐漸開展起來(lái)的技術(shù)。用戶要在浩瀚的信息海洋里尋找信息是十分困難的,搜索引擎正是為了解決這個(gè)問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)展理解、提取、組織和處理,并為用戶提供檢索效勞,起到了信息導(dǎo)航的目的。搜索引擎技術(shù)因而成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象。本課題主要是對(duì)網(wǎng)絡(luò)搜索引擎技術(shù)進(jìn)展簡(jiǎn)要研究,并在Linu*下實(shí)現(xiàn)網(wǎng)頁(yè)的獲取,并且在互連網(wǎng)上進(jìn)展網(wǎng)頁(yè)的收集,然后在此根底上,對(duì)獲取的網(wǎng)頁(yè)進(jìn)展分析。其間,穿插了對(duì)套接字socket、HTTP協(xié)議、HTML語(yǔ)言以及網(wǎng)頁(yè)級(jí)別〔Pagerank〕的介紹。關(guān)鍵詞搜索引擎網(wǎng)頁(yè)級(jí)別HTTP協(xié)議HTML語(yǔ)言效勞器/IIAbstractWiththerunningupofWEBinformation,Thesearchenginevtechnologydevelopedgraduallysince1995.Userwantlookforinformationisverydifficultinvastinformationocean,Thesearchengineise*actlythetechnologyappearinginordertosolvethisproblem.Searchenginecollect,findtheinformationamongInternetwithcertaintactics,Understand,draws,organizeanddealwiththeinformation,andofferserviceofsearchingfortheuser,Getuptothepurposetonavigate.Searchenginetechnologythereforebeethetargetthatputerindustrialcircleandacademiafallovereachotherstudy,Thissubjectismainlytocarryonbriefresearchtothetechnologyofthesearchengineofnetwork,AndrealizetheobtainingofthewebpageunderLinu*,andcarryonthecollectingofthewebpagesonInternet,Thenonthebasisofthis,analysethewebpagethatisobtained.Amongthem,weaveinasocket,HTTPagreement,HTMLlanguageandintroductionofthePagerank.KeywordsSearchenginePagerankHTTPHTMLServer/clientIII第1章緒論1.1研究的背景與意義隨著因特網(wǎng)的迅猛開展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題〔它可以為用戶提供信息檢索效勞〕。目前,搜索引擎技術(shù)正成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象。搜索引擎〔SearchEngine〕是隨著WEB信息的迅速增加,從1995年開場(chǎng)逐漸開展起來(lái)的技術(shù)。據(jù)發(fā)表在?科學(xué)?雜志1999年7月的文章?WEB信息的可性?估計(jì),全球目前的網(wǎng)頁(yè)超過8億,有效數(shù)據(jù)超過9T,并且仍以每4個(gè)月翻一番的速度增長(zhǎng)。用戶要在如此浩瀚的信息海洋里尋找信息,必然會(huì)"大海撈針"無(wú)功而返。搜索引擎正是為了解決這個(gè)"迷航"問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)展理解、提取、組織和處理,并為用戶提供檢索效勞,從而起到信息導(dǎo)航的目的。搜索引擎提供的導(dǎo)航效勞已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)效勞,搜索引擎站點(diǎn)也被美譽(yù)為"網(wǎng)絡(luò)門戶"。搜索引擎技術(shù)因而成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象。1993年,Internet上出現(xiàn)了最早的Web瀏覽器Mosaic,次年Netscape推出了Navigator,瀏覽器的開展促使Web得到迅速推廣,同時(shí)也推動(dòng)著搜索引擎的開展。1994年初,Internet上出現(xiàn)了包括Lycos在內(nèi)的第一批Web搜索引擎,同年還成立了!,后者成為了近年來(lái)最成功的商業(yè)目錄?,F(xiàn)在Internet上已有數(shù)千個(gè)提供搜索效勞的站點(diǎn),它們不僅要努力改良自己的效勞以便能在劇烈的競(jìng)爭(zhēng)中生存下來(lái),還要努力尋求新技術(shù)以便能適應(yīng)Internet的迅速擴(kuò)*。1.2本文的構(gòu)造本文是以我在探索實(shí)現(xiàn)中的過程為線索來(lái)組織的,插入了必要的信息介紹。大體分三局部:搜索引擎技術(shù)簡(jiǎn)介、Linu*下得網(wǎng)頁(yè)獲取及Web相關(guān)技術(shù)、網(wǎng)頁(yè)的分析。其中簡(jiǎn)單介紹了搜索引擎的分類、套接字編程、網(wǎng)頁(yè)等級(jí)〔Pagerank〕等各種相關(guān)技術(shù)的介紹。第2章搜索引擎技術(shù)簡(jiǎn)介2.1搜索引擎的分類盡管目前存在數(shù)量眾多的搜索引擎,但根據(jù)它們所基于的技術(shù)原理,可以把它們分成三大主要類型:基于Robot的搜索引擎、目錄〔Directory,也叫做Catalog〕和Meta搜索引擎?;赗obot的搜索引擎這種搜索引擎的特點(diǎn)是利用一個(gè)稱為Robot〔也叫做Spider、WebCrawler或WebWanderer〕的程序自動(dòng)Web站點(diǎn),提取站點(diǎn)上的網(wǎng)頁(yè),并根據(jù)網(wǎng)頁(yè)中的進(jìn)一步提取其它網(wǎng)頁(yè),或轉(zhuǎn)移到其它站點(diǎn)上。Robot搜集的網(wǎng)頁(yè)被參加到搜索引擎的數(shù)據(jù)庫(kù)中,供用戶查詢使用。Internet上最早出現(xiàn)的搜索引擎就是利用Robot來(lái)建立數(shù)據(jù)庫(kù),"搜索引擎"這個(gè)詞的原義也只是指這種狹義上的基于Robot的搜索引擎。基于Robot的搜索引擎由三個(gè)主要局部構(gòu)成:Robot、Inde*和搜索軟件。Robot從一個(gè)事先制定好的URLs列表出發(fā),這個(gè)列表中的URLs通常是從以往記錄中提取出來(lái)的,特別是一些熱門站點(diǎn)和"What'sNew"網(wǎng)頁(yè),從Usenet等地方檢索得到的URLs也常被用作起始URLs,此外,很多搜索引擎還承受用戶提交的URLs,這些URLs也會(huì)被安排在列表中供Robot。Robot了一個(gè)網(wǎng)頁(yè)后,會(huì)對(duì)它進(jìn)展分析,提取出新的URLs,將之參加到列表中,如此遞歸地Web。Robot作為一個(gè)程序,可以用C、Perl、Java等語(yǔ)言來(lái)編寫,可以運(yùn)行在Uni*、Solaris、Windows、NT、OS2和MAC等平臺(tái)上。Robot設(shè)計(jì)是否合理將直接影響它Web的效率,影響搜索數(shù)據(jù)庫(kù)的質(zhì)量,另外,在設(shè)計(jì)Robot時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被站點(diǎn)的影響,因?yàn)镽obot一般都運(yùn)行在速度快、帶寬高的主機(jī)上,如果它快速一個(gè)速度比擬慢的目標(biāo)站點(diǎn),就有可能會(huì)導(dǎo)致該站點(diǎn)出現(xiàn)阻塞甚至當(dāng)機(jī)。Robot還應(yīng)遵守一些協(xié)議,以便被站點(diǎn)的管理員能夠確定哪些內(nèi)容能被,哪些不能。Inde*是一個(gè)龐大的數(shù)據(jù)庫(kù),Robot提取的網(wǎng)頁(yè)將被放入到Inde*中以便建立索引,不同的搜索引擎會(huì)采取不同方式來(lái)建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或其它不可見的特殊標(biāo)記?;赗obot的搜索引擎一般要定期大多數(shù)以前搜集的網(wǎng)頁(yè),刷新Inde*,以反映出網(wǎng)頁(yè)的更新情況,去除一些死,網(wǎng)頁(yè)的局部?jī)?nèi)容和變化情況將會(huì)反映到用戶查詢的結(jié)果中,這是基于Robot的搜索引擎的一個(gè)重要特征。Inde*在建立索引時(shí),一般會(huì)給網(wǎng)頁(yè)中每個(gè)關(guān)鍵詞賦予一個(gè)等級(jí)值,表示該網(wǎng)頁(yè)與關(guān)鍵詞之間的符合程度。當(dāng)用戶查詢一個(gè)關(guān)鍵詞時(shí),搜索軟件將搜索Inde*,找出所有與關(guān)鍵詞相符合的網(wǎng)頁(yè),有時(shí)候這些網(wǎng)頁(yè)可能有成千上萬(wàn),等級(jí)值的用途就是作為一種排序的依據(jù),搜索軟件將按照等級(jí)值從高到低的順序把搜索結(jié)果送回到用戶的瀏覽器中。不同的搜索引擎在計(jì)算等級(jí)值時(shí)使用了不同的方法,但它們都以關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率為根本依據(jù),例如,關(guān)鍵詞出現(xiàn)在標(biāo)題中的網(wǎng)頁(yè)可能比只出現(xiàn)在其它地方的網(wǎng)頁(yè)更符合要求,關(guān)鍵詞出現(xiàn)在網(wǎng)頁(yè)的前面可能比只出現(xiàn)在網(wǎng)頁(yè)的后面更符合要求,同一個(gè)關(guān)鍵詞出現(xiàn)屢次的網(wǎng)頁(yè)又可能比只出現(xiàn)一兩次的網(wǎng)頁(yè)更符合要求,把這些因素綜合起來(lái)考慮便可得出一個(gè)計(jì)算等級(jí)值的公式。不過,絕大多數(shù)搜索引擎都沒有只按照上述因素來(lái)確定計(jì)算公式,它們還參加了一些特殊考慮,例如,E*cite能檢查是否有很多指向同一個(gè)網(wǎng)頁(yè),如果是的話,它就把這個(gè)網(wǎng)頁(yè)的等級(jí)值稍微提高一些,理由是這樣的網(wǎng)頁(yè)一般都具有更大的量。這類搜索引擎因?yàn)橐揽砍绦蛩鸭瘮?shù)據(jù),所以其數(shù)據(jù)庫(kù)相當(dāng)龐大,搜索的結(jié)果查全率較高,但查準(zhǔn)率較低。例如著名的搜索引擎AltaVista等。目錄目錄與基于Robot的搜索引擎所不同的是,目錄的數(shù)據(jù)庫(kù)是依靠專職編輯或志愿人員建立起來(lái)的,這些編輯人員在了*個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)的URL和描述放在這個(gè)類別中,當(dāng)用戶查詢*個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)展搜索。很多目錄也承受用戶提交的和描述,當(dāng)目錄的編輯人員認(rèn)可該及描述后,就會(huì)將之添加到適宜的類別中。目錄的用戶界面根本上都是分級(jí)構(gòu)造,首頁(yè)提供了最根本的幾個(gè)大類的入口,用戶可以一級(jí)一級(jí)地向下,直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞,不過,由于目錄只在保存的對(duì)站點(diǎn)的描述中進(jìn)展搜索,因此站點(diǎn)本身的動(dòng)態(tài)變化不會(huì)反映到搜索結(jié)果中來(lái),這也是目錄與基于Robot的搜索引擎之間的一大區(qū)別。由于目錄是依靠人工來(lái)評(píng)價(jià)一個(gè)的內(nèi)容,因此用戶從目錄搜索得到的結(jié)果往往比從基于Robot的搜索引擎得到的結(jié)果更具參考價(jià)值,!能取得成功,與此有著莫大的關(guān)系。事實(shí)上,現(xiàn)在很多搜索站點(diǎn)都同時(shí)提供有目錄和基于Robot的搜索效勞,以便盡可能地為用戶提供全面的查詢結(jié)果。Meta搜索引擎Meta搜索引擎也叫做MultipleSearchEngine,它的特點(diǎn)是本身并沒有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),當(dāng)用戶查詢一個(gè)關(guān)鍵詞時(shí),它把用戶的查詢請(qǐng)求轉(zhuǎn)換成其它搜索引擎能夠承受的命令格式,并行地?cái)?shù)個(gè)搜索引擎來(lái)查詢這個(gè)關(guān)鍵詞,并把這些搜索引擎返回的結(jié)果經(jīng)過處理后再返回給用戶。嚴(yán)格意義上來(lái)講,Meta搜索引擎只能算是一種用戶代理,而不是真正的搜索引擎。多數(shù)Meta搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中前面10~50條,并將這些條目合并在一起返回給用戶,因此最后結(jié)果的數(shù)量可能會(huì)遠(yuǎn)少于直接在一個(gè)搜索引擎上進(jìn)展查找所得到的數(shù)量,這就是為什么很多Internet用戶都喜歡使用Meta搜索引擎來(lái)查找信息的原因。Meta搜索引擎實(shí)現(xiàn)起來(lái)比擬簡(jiǎn)單,但是它也有一定的局限性,例如多數(shù)Meta搜索引擎都只能少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。2.2搜索引擎的主要技術(shù)一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)局部組成。搜索器搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以防止死連接和無(wú)效連接。目前有兩種搜集信息的策略:●從一個(gè)起始URL集合開場(chǎng),順著這些URL中的超鏈〔Hyperlink〕,以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多的站點(diǎn)〔如!〕。●將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類型多種多樣,包括HTML、*ML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以到達(dá)每天幾百萬(wàn)網(wǎng)頁(yè)。索引器索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、流行度〔LinkPopularity〕等等;內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)〔或稱短語(yǔ)索引項(xiàng)〕兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比擬容易提取,因?yàn)閱卧~之間有天然的分隔符〔空格〕;對(duì)于中文等連續(xù)書寫的語(yǔ)言,必須進(jìn)展詞語(yǔ)的切分。在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。索引表一般使用*種形式的倒排表〔InversionList〕,即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系〔pro*imity〕。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引〔InstantInde*ing〕,否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能〔如大規(guī)模峰值查詢時(shí)的響應(yīng)速度〕有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。檢索器檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)展文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)展排序,并實(shí)現(xiàn)*種用戶相關(guān)性反應(yīng)機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。用戶接口用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反應(yīng)機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。用戶輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。簡(jiǎn)單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)展限制,如邏輯運(yùn)算〔與、或、非;+、-〕、相近關(guān)系〔相鄰、NEAR〕、域名*圍〔如.edu、.〕、出現(xiàn)位置〔如標(biāo)題、內(nèi)容〕、信息時(shí)間、長(zhǎng)度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。2.3搜索引擎技術(shù)的開展搜索引擎已成為一個(gè)新的研究、開發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十分活潑,并出現(xiàn)了很多值得注意的動(dòng)向。提高信息查詢結(jié)果的精度提高檢索的有效性用戶在搜索引擎上進(jìn)展信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬(wàn)、幾百萬(wàn)篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語(yǔ)句中表達(dá)出來(lái)的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反應(yīng)機(jī)制,使用戶告訴哪些搜索引擎文檔和自己的需求相關(guān)〔及其相關(guān)的程度〕,哪些不相關(guān),通過屢次交互逐步求精。二是用正文分類〔Te*tCategorization〕技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類構(gòu)造,用戶可以只瀏覽自己感興趣的類別。三是進(jìn)展站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。基于智能代理的信息過濾和個(gè)性化效勞信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型〔如Web知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織構(gòu)造〕、用戶模型〔如用戶背景、興趣、行為、風(fēng)格〕知識(shí)進(jìn)展信息搜集、索引、過濾〔包括興趣過濾和不良信息過濾〕,并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的效勞。智能代理可以在用戶端進(jìn)展,也可以在效勞器端運(yùn)行。采用分布式體系構(gòu)造提高系統(tǒng)規(guī)模和性能搜索引擎的實(shí)現(xiàn)可以采用集中式體系構(gòu)造和分布式體系構(gòu)造,兩種方法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度〔如網(wǎng)頁(yè)數(shù)到達(dá)億級(jí)〕時(shí),必然要采用*種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個(gè)組成局部,除了用戶接口之外,都可以進(jìn)展分布:搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)展信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求;檢索器可以在不同的機(jī)器上進(jìn)展文檔的并行檢索,以提高檢索的速度和性能。重視穿插語(yǔ)言檢索的研究和開發(fā)穿插語(yǔ)言信息檢索是指用戶用母語(yǔ)提交查詢,搜索引擎在多種語(yǔ)言的數(shù)據(jù)庫(kù)中進(jìn)展信息檢索,返回能夠答復(fù)用戶問題的所有語(yǔ)言的文檔。如果再加上機(jī)器翻譯,返回結(jié)果可以用母語(yǔ)顯示。該技術(shù)目前還處于初步研究階段,主要的困難在于語(yǔ)言之間在表達(dá)方式和語(yǔ)義對(duì)應(yīng)上的不確定性。但對(duì)于經(jīng)濟(jì)全球化、互聯(lián)網(wǎng)跨越國(guó)界的今天,無(wú)疑具有很重要的意義。第3章Linu*操作系統(tǒng)中的網(wǎng)絡(luò)編程3.1Linu*簡(jiǎn)介L(zhǎng)inu*的特點(diǎn)Linu*操作系統(tǒng)是可以運(yùn)行在許多不同類型的計(jì)算機(jī)上的一種操作系統(tǒng)的“內(nèi)核〞。它是提供命令行或者程序與計(jì)算機(jī)硬件之間接口的軟件的核心局部。Linu*操作系統(tǒng)內(nèi)核管理以下事情:比方內(nèi)存、采用什么方法以及在什么時(shí)候翻開或者關(guān)閉文件、哪一個(gè)進(jìn)程或者程序以獲得計(jì)算機(jī)的中央處理單元(CPU)等等。Linu*操作系統(tǒng)的特點(diǎn):?全面的多任務(wù)和真正的32位操作系統(tǒng)。Linu*和其他UNI*一樣是真正的多任務(wù)系統(tǒng),它允許多個(gè)用戶同時(shí)在一個(gè)系統(tǒng)上運(yùn)行多道程序。Linu*還是真正的32位操作系統(tǒng),它工作在Intel80386和后來(lái)的Intel處理器的保護(hù)模式下。?*Window系統(tǒng)。*Window是UNI*平臺(tái)上的事實(shí)工業(yè)標(biāo)準(zhǔn)。*Free86則是Linu*平臺(tái)上的*Window系統(tǒng)。*Window系統(tǒng)是功能強(qiáng)大的圖形界面,支持多種應(yīng)用程序。?支持TCP/IP協(xié)議。在Linu*系統(tǒng)中,通過Ethernet可以連接到Internet或當(dāng)?shù)氐木钟蚓W(wǎng)。使用SLIP(SerialLineInternetProtocol)或PPP(PointtoPointProtocol),通過線和調(diào)制解調(diào)器也可連到Internet上。?虛擬內(nèi)存和共享庫(kù)。Linu*可以利用你的硬盤的一局部作為虛擬內(nèi)存,從而擴(kuò)展你的可用內(nèi)存數(shù)量。Linu*不使用分段,也沒有虛擬內(nèi)存的限制。Linu*同時(shí)利用共享庫(kù)技術(shù),允許那些使用標(biāo)準(zhǔn)子過程的程序在運(yùn)行時(shí)共享子過程,從而節(jié)約了大量的系統(tǒng)空間。?Linu*內(nèi)核中的代碼均為自由代碼。Linu*上的大局部程序是自由軟件。這些軟件是在自由軟件基金會(huì)的GNU方案下開發(fā)的。盡管如此,來(lái)自世界各地的黑客、程序員,甚至商業(yè)公司也參加了Linu*軟件開發(fā)的行列。?Linu*支持商業(yè)版UNI*的全部功能。事實(shí)上,Linu*系統(tǒng)上的一些功能是UNI*系統(tǒng)所不具備的。?GNU軟件的支持。Linu*支持大局部GNU方案下的自由軟件,包括GNUC和GCC編譯器、gawk、groff和其他軟件。?Linu*符合IEEEPOSI*.1標(biāo)準(zhǔn)。Linu*特別注重可移植性,這樣也支持UNI*的其他一些標(biāo)準(zhǔn)。?Linu*比其他UNI*系統(tǒng)更為廉價(jià)。如果通過Internet下載Linu*,則不用花一分錢。如果購(gòu)置Linu*發(fā)布,也很廉價(jià)。?Linu*支持多種硬件平臺(tái)。從低端的Intel386直到高端的超級(jí)并行計(jì)算機(jī)系統(tǒng),都可以運(yùn)行Linu*系統(tǒng)。?Linu*系統(tǒng)網(wǎng)絡(luò)功能強(qiáng)大。不僅僅因?yàn)長(zhǎng)inu*系統(tǒng)內(nèi)核中嚴(yán)密地集成了網(wǎng)絡(luò)功能和有大量的網(wǎng)絡(luò)應(yīng)用程序,更因?yàn)長(zhǎng)inu*系統(tǒng)在超強(qiáng)網(wǎng)絡(luò)需求下表現(xiàn)出的令人驚奇的強(qiáng)健性。另外Linu*也有一些缺乏之處:?缺乏文檔,晦澀難懂,缺少統(tǒng)一性。?沒有及時(shí)的技術(shù)支持。?安裝和升級(jí)不方便。Linu*下常用的文本編譯器Linu*下缺少成功的類似Windows下的集成軟件開發(fā)環(huán)境〔IDE〕,所以通常情況下是使用文本編譯器編輯程序的源代碼,然后在命令行進(jìn)展編譯。Linu*提供一個(gè)最根本的編譯器—vi。Vi是UNI*是竭力幾位普遍的全屏幕文本編譯器,幾乎可以說(shuō)任何一臺(tái)UNI*機(jī)器都會(huì)提供這套軟件。Linu*當(dāng)然也有,雖然vi幾乎沒有提供任何聯(lián)機(jī)幫助,但是一旦習(xí)慣了是用它,就會(huì)發(fā)現(xiàn)vi是一個(gè)極具親和力的編譯器,各種快捷鍵的組合是*些在其他編輯其中難以完成的工作在vi里變得易如反掌。只要簡(jiǎn)單的執(zhí)行vi命令就可以進(jìn)入vi的編輯環(huán)境。Vi有三種模式:〔1〕命令模式:控制光標(biāo)在屏幕上的移動(dòng),字符或光標(biāo)刪除,移動(dòng)或復(fù)制*區(qū)塊等?!?〕輸入模式:可做文字資料輸入,按<Esc>鍵可到命令模式?!?〕末行模式:存檔或離開編輯器。也可以設(shè)定編輯環(huán)境,如尋找字符串、列出行號(hào)等。當(dāng)執(zhí)行vi后,會(huì)先進(jìn)入命令模式,此時(shí)輸入的任何字符都視為指令。本課題的程序編寫就是在vi下進(jìn)展的。3.2網(wǎng)絡(luò)編程中的套接字〔socket〕技術(shù)Linu*采用的是BSD方式的socket編程,支持面向連接的和無(wú)連接的socket。通信的根底是套接字,一個(gè)套接字是同心的一端。在這一段上可以找到與其對(duì)應(yīng)的一個(gè)名字。一個(gè)正在被使用的套接字都有它的類型和與其相關(guān)的進(jìn)程。套接字有三種類型:數(shù)據(jù)流套接字、數(shù)據(jù)報(bào)套接字及原始套接字。數(shù)據(jù)流套接自定義了一種可靠的面向連接的效勞,實(shí)現(xiàn)了無(wú)過失無(wú)重復(fù)的順序數(shù)據(jù)傳輸。數(shù)據(jù)報(bào)套接字定義了一種無(wú)連接的效勞,數(shù)據(jù)流通過相互獨(dú)立的報(bào)文進(jìn)展傳輸,是無(wú)序的,并且不保證可靠,無(wú)過失。原始套接字允許對(duì)對(duì)地層協(xié)議如IP或ICMP直接,主要用于新的網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)的測(cè)試等。無(wú)連接效勞器一般都是面向事務(wù)處理的,一個(gè)請(qǐng)求、一個(gè)應(yīng)答就完成了客戶程序與效勞程序之間的相互作用。如圖3.1所示:效勞器客戶效勞請(qǐng)求效勞應(yīng)答圖3.1無(wú)連接套接字應(yīng)用程序流程圖面向連接效勞器處理的請(qǐng)求往往比擬復(fù)雜,其工作過程如下:效勞器首先啟動(dòng),通過調(diào)用socket()建立一個(gè)套接字,然后調(diào)用bind()將該套接字和本地網(wǎng)絡(luò)地址聯(lián)系在一起,在調(diào)用listen()使套接字做好偵聽的準(zhǔn)備,并規(guī)定它的請(qǐng)求隊(duì)列長(zhǎng)度,之后就調(diào)用accept()來(lái)承受連接??蛻粼诮⑻捉幼趾缶涂梢哉{(diào)用connect()和效勞器進(jìn)展連接。連接一旦建立,客戶機(jī)和效勞器之間就可以通過調(diào)用read()和write()來(lái)發(fā)送和接收數(shù)據(jù)。最后,帶數(shù)據(jù)傳送完畢后,雙方調(diào)用close()關(guān)閉套接字。如圖3.2所示:Socket()Bind()Readfrom()Socket()Bind()Sendto()Readfrom()Sendto()Close()Close()阻塞,等待客戶數(shù)據(jù)處理效勞請(qǐng)求效勞器客戶建立連接請(qǐng)求數(shù)據(jù)應(yīng)答數(shù)據(jù)圖3.2面向連接套接字應(yīng)用程序流程圖下面介紹幾個(gè)重要的系統(tǒng)調(diào)用:1.Socket()系統(tǒng)調(diào)用Socket()系統(tǒng)調(diào)用是為用戶或效勞器創(chuàng)立一個(gè)套接字,創(chuàng)立套接字的函數(shù)定義如下所示:Socket()Bind()Listen()Accept()阻塞,等待客戶數(shù)Socket()Connect()Read()Write()處理效勞請(qǐng)求Write()Read()Close()Close()*include<sys/types.h>*include<sys/socket.h>intsocket(intdomain,inttype,intprotocol);在Linu*中domain為AF_UNI*。Type可以是SOCK_STREAM,它是可靠的,雖然通信速度較慢。他也可以是SOCK_DGRAM,他的通信速度較快但不可靠。如果type為SOCK_STREAM,則protocol為IPPROTO_TCP,如果type為SOCK_DGRAM,則protocol為IPPROTO_UDP。2.Bind()系統(tǒng)調(diào)用bind()系統(tǒng)調(diào)用為沒有名字的套接字分配一個(gè)名字。綁定函數(shù)的定義如下:*include<sys/types.h>*include<sys/socket.h>intbind(intsockfd,structsockaddr*saddr,intaddrlen);其中第一個(gè)參數(shù)是一個(gè)套接字描述符,第二個(gè)參數(shù)是名字所使用的一個(gè)構(gòu)造,第三個(gè)參數(shù)是此構(gòu)造的大小。通過調(diào)用bind()函數(shù),我們?yōu)榭蛻艋蛐谄鹘壎艘粋€(gè)地址,這時(shí)可以connect()效勞器或是在效勞器上偵聽了。3.Connect()系統(tǒng)調(diào)用connect()調(diào)用在面向連接的系統(tǒng)中客戶連接效勞器時(shí)使用。Connect()調(diào)用必須被用在bind()調(diào)用之后。它的定義如下:*include<sys/types.h>*include<sys/socket.h>intconnect(intsockfd,structsocksddr*servsaddr,intaddrlen);其中除servsaddr外所有的參數(shù)都和bind調(diào)用一樣,servsaddr指向客戶所連接的效勞器的信息。當(dāng)接到請(qǐng)求后,accept調(diào)用為效勞器創(chuàng)立一個(gè)新的套接字。然后效勞器就可以fork()一個(gè)新進(jìn)程然后再去等待其他連接。4.Listen()系統(tǒng)調(diào)用listen()系統(tǒng)掉用被效勞器所使用。他的定義如下所示:*include<sys/socket.h>intlisten(ints,intbacklog);其中,s是套接字描述符,backlog是在一時(shí)間內(nèi)尚未被決定是否拒絕的連接。一般使用標(biāo)準(zhǔn)值5,如果發(fā)現(xiàn)錯(cuò)誤則返回值小于1。如果這個(gè)調(diào)用成功,就已經(jīng)可以接收連接了。第4章網(wǎng)頁(yè)的獲取和收集4.1程序設(shè)計(jì)簡(jiǎn)介在搜索引擎中,搜索器扮演著一個(gè)在網(wǎng)絡(luò)中尋找、收集資料的角色。是搜索引擎中的重要組成局部。在本程序中,是從一個(gè)起始的URL(如*個(gè)的主頁(yè))開場(chǎng),用過查找網(wǎng)頁(yè)的HTML語(yǔ)言中的超鏈〔Hyperlink〕,以先深的方式遞歸的在網(wǎng)絡(luò)中尋找并收集網(wǎng)頁(yè)信息。對(duì)于在程序中所收集的網(wǎng)頁(yè),我以它們的網(wǎng)址來(lái)建立一個(gè)Inde*(索引),而每一個(gè)新找到的網(wǎng)頁(yè)將把它的網(wǎng)址與Inde*相對(duì)照,以防止重復(fù)收集。在程序中通過調(diào)用套接字〔socket〕實(shí)現(xiàn)客戶端與效勞器的聯(lián)接,并在HTTP協(xié)議下進(jìn)展網(wǎng)頁(yè)的獲取。在4.2節(jié)中將詳細(xì)說(shuō)明相關(guān)實(shí)現(xiàn)過程。程序主要設(shè)計(jì)框圖如圖4.1發(fā)現(xiàn)指沒發(fā)現(xiàn)指沒發(fā)現(xiàn)指向page(1)有向page(m)發(fā)向page(n)發(fā)現(xiàn)……現(xiàn)鏈鏈沒有有接接發(fā)現(xiàn)指沒向page(2)有發(fā)發(fā)現(xiàn)指現(xiàn)向page(m+1)鏈繼續(xù)遞歸執(zhí)行….沒有有接發(fā)現(xiàn)指向page(3)繼續(xù)遞歸執(zhí)行….圖4.1程序構(gòu)造框圖讀取主頁(yè)的html語(yǔ)言在Inde*中記錄下page(1)地址讀page(1)的html語(yǔ)言在Inde*中查找page(2)地址寫入Inde*進(jìn)展排序讀page(2)的html語(yǔ)言在Inde*中查找page(m)的地址寫入Inde*進(jìn)展排序讀page(m)的html語(yǔ)言在Inde*中查找page(n)的地址搜索完畢4.2網(wǎng)頁(yè)獲取的實(shí)現(xiàn)及Web相關(guān)技術(shù)HTTP協(xié)議下的網(wǎng)頁(yè)獲取HTTP是一個(gè)簡(jiǎn)單的協(xié)議??蛻暨M(jìn)程建立一條同效勞器進(jìn)程的TCP連接,然后發(fā)出請(qǐng)求并讀取效勞器進(jìn)程的響應(yīng)。效勞器進(jìn)程關(guān)閉連接表示本次響應(yīng)完畢。效勞器進(jìn)程返回的文件通常含有指向其他效勞器上文件的指針(超文本)。用戶顯然可以很輕松地沿著這些從一個(gè)效勞器到下一個(gè)效勞器。客戶—效勞器構(gòu)造如圖4.2圖4.2Web客戶—效勞器構(gòu)造下面是我獲取哈工大主頁(yè)的例子:$telnet..80連接到效勞器的80號(hào)端口Trying5...由Telnet客戶輸出Connectedto..(5).由Telnet客戶輸出Escapecharacteris'^]'.由Telnet客戶輸出GET/我們只輸入了這一行<HTML><HEAD>Web效勞器輸出的HTML語(yǔ)言<TITLE>**工業(yè)大學(xué)</TITLE>......此處省略了工大主頁(yè)的HTML語(yǔ)言......</div></div></BODY></HTML>我們只輸入了GET/,效勞器便返回了該頁(yè)的HTML語(yǔ)言。這樣,從該Web效勞器的根目錄下取得了它的主頁(yè)。Telnet的客戶進(jìn)程輸出的最后一行信息表示效勞器進(jìn)程在輸出最后一行后關(guān)閉了TCP連接。對(duì)網(wǎng)頁(yè)HTML語(yǔ)言的分析一個(gè)完整的HTML文檔以<HTML>開場(chǎng),以</HTML>完畢。大局部的HTML命令都像這樣成對(duì)出現(xiàn)。HTML文檔含有以<HEAD>開場(chǎng)、以</HEAD>完畢的首部和以<BODY>開場(chǎng)、以</BODY>完畢的主體局部。標(biāo)題通常由客戶程序顯示在窗口的頂部。HTML起源于SMGL,即標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言(StandardGeneralizedMarkupLanguage)。HTML指定了文檔的數(shù)據(jù)和構(gòu)造,但是沒有指定瀏覽器怎樣對(duì)文檔進(jìn)展格式化。在本程序中主要對(duì)HTML語(yǔ)言中出現(xiàn)的標(biāo)志進(jìn)展分析,如下例:<DD><IMGALIGN=bottomSRC=〞ball_whi.gif〞ALT=〞〞>InformationResource<AHERF=“〞>Meta-Inde*</A>其中<DD>指明一*定義表的入口。該入口以一*圖片(一個(gè)白球)開場(chǎng),后面跟著文字"InformationResourceMeta-Inde*",最后一局部指明一個(gè)超文本(<A>標(biāo)志)和一個(gè)以"."開頭的超文本引用(HREF屬性)。像這樣的超文本通常在客戶程序中被加上下劃線或以不同的顏色來(lái)顯示。當(dāng)遇到上面所示的圖像(公司的標(biāo)志)時(shí),效勞器不會(huì)返回超引用的該圖像或HTML文檔??蛻舫绦蛲ǔ?huì)立即下載圖像并顯示在主頁(yè)上,但對(duì)于超文本,除非用戶點(diǎn)擊(也就是說(shuō),把鼠標(biāo)移到該上并單擊),否則客戶程序通常不加處理。當(dāng)用戶點(diǎn)擊了該,客戶程序?qū)⒎_一個(gè)到站點(diǎn)的HTTP連接,并執(zhí)行GET,得到指明的文檔。大多數(shù)瀏覽器都提供查看Web頁(yè)面HTML源文件的功能,例如,Netscape和Mosaic都提供“ViewSource〞的特性。HTTP報(bào)文及效勞器的響應(yīng)上一節(jié)的例子中,客戶程序發(fā)出的GET/命令是HTTP0.9版本的命令,大多數(shù)效勞器均支持這個(gè)版本(為了提供向后兼容性)。但目前HTTP的版本是1.0。因?yàn)?.0版本HTTP協(xié)議的客戶程序在請(qǐng)求命令行中指出版本號(hào)。如:GET/HTTP/1.0因此效勞器能得知客戶程序所采用的HTTP協(xié)議的版本。HTTP/1.0報(bào)文有兩種類型:請(qǐng)求和響應(yīng)。HTTP/1.0請(qǐng)求的格式是:request-lineheaders(0或有多個(gè))<blankline>body(只對(duì)POST請(qǐng)求有效)request-line的格式是:requestrequest-URIHTTP版本號(hào)支持以下三種請(qǐng)求:1)GET請(qǐng)求最為常見,它后面跟隨一個(gè)網(wǎng)頁(yè)的位置,效勞器承受請(qǐng)求并返回其請(qǐng)求的頁(yè)面。除了頁(yè)面位置作參數(shù)之外,請(qǐng)求還可以跟隨協(xié)議的版本如HTTP/1.0等作為參數(shù),以發(fā)送給效勞器更多的信息。2)HEAD請(qǐng)求,類似于GET請(qǐng)求,但效勞器程序只返回指定文檔的首部信息,而不包含實(shí)際的文檔內(nèi)容。該請(qǐng)求通常被用來(lái)測(cè)試超文本的正確性、可性和最近的修改。3)POST請(qǐng)求用來(lái)發(fā)送電子、新聞或發(fā)送能由交互用戶填寫的表格。這是唯一需要在請(qǐng)求中發(fā)送body的請(qǐng)求。使用POST請(qǐng)求時(shí)需要在報(bào)文首部Content-Length字段中指出body的長(zhǎng)度。對(duì)一個(gè)繁忙的Web效勞器進(jìn)展采樣,統(tǒng)計(jì)結(jié)果說(shuō)明:500,000個(gè)客戶程序的請(qǐng)求中有99.68%是GET請(qǐng)求,0.25%是HEAD請(qǐng)求,0.07%是POST請(qǐng)求。當(dāng)然,如果是在一個(gè)承受比薩餅定購(gòu)的站點(diǎn)上,POST請(qǐng)求的百分比將會(huì)更高。HTTP/1.0響應(yīng)的格式是:status-lineheaders(0個(gè)或有多個(gè))<blankline>bodystatus-line的格式是:HTTP版本號(hào)response-coderesponse-phraseHTTP/1.0的請(qǐng)求和響應(yīng)報(bào)文的首部均可包含可變數(shù)量的字段。用一個(gè)空行將所有首部字段與報(bào)文主體分隔開來(lái)。一個(gè)首部字段由字段名和隨后的冒號(hào)、一個(gè)空格和字段值組成,字段名不區(qū)分大小寫。報(bào)文頭可分為三類:一類應(yīng)用于請(qǐng)求,一類應(yīng)用于響應(yīng),還有一類描述主體。有一些報(bào)文頭(例如:Date)既可用于請(qǐng)求又可用于響應(yīng)。描述主體的報(bào)文頭可以出現(xiàn)在POST請(qǐng)求和所有響應(yīng)報(bào)文中。效勞器程序響應(yīng)的第一行叫狀態(tài)行。狀態(tài)行以HTTP版本號(hào)開場(chǎng),后面跟著3位數(shù)字表示響應(yīng)代碼,最后是易讀的響應(yīng)短語(yǔ)。圖4.3列出了3位數(shù)字的響應(yīng)代碼的含義。根據(jù)第一位可以把響應(yīng)分成5類。圖4.3HTTP3位響應(yīng)代碼第5章對(duì)已獲取網(wǎng)頁(yè)的分析5.1網(wǎng)頁(yè)的級(jí)別〔pagerank〕的提出搜索引擎的開展經(jīng)過了幾個(gè)階段,起初大家一味地追求收集網(wǎng)頁(yè)的多少。后來(lái)發(fā)現(xiàn)對(duì)同一用戶提問,搜索引擎返回的信息太多,用戶感到無(wú)所適從。1996年起,搜索引擎技術(shù)開場(chǎng)注重網(wǎng)頁(yè)質(zhì)量與相關(guān)性的結(jié)合,這主要是通過三種手段:一是對(duì)網(wǎng)上的超文本構(gòu)造進(jìn)展分析,如Infoseek和Google;二是對(duì)用戶的點(diǎn)擊行為進(jìn)展分析,如Directhit〔被AskJeeves收購(gòu)〕;三是與目錄相結(jié)合。本章將介紹著名搜索引擎Google的分析超文本的技術(shù)。帶有的網(wǎng)頁(yè)是十分重要的資源,現(xiàn)存的網(wǎng)絡(luò)搜索引擎卻不習(xí)慣用。G利用網(wǎng)頁(yè)的來(lái)計(jì)算每個(gè)網(wǎng)頁(yè)本身的一個(gè)重要度,這個(gè)重要度被稱為網(wǎng)頁(yè)級(jí)別〔pagerank〕。Google已經(jīng)創(chuàng)立了包括總數(shù)有51800萬(wàn)這樣超級(jí)的各種集合。這些集合都可以快速的計(jì)算一個(gè)網(wǎng)頁(yè)的重要度。網(wǎng)頁(yè)級(jí)別是一個(gè)較為符合人們主觀看法的客觀衡量網(wǎng)頁(yè)標(biāo)準(zhǔn)。正因?yàn)檫@種符合,“網(wǎng)頁(yè)級(jí)別〞在網(wǎng)頁(yè)關(guān)鍵字搜索中是一個(gè)排序搜索結(jié)果的好依據(jù)。作為組織管理工具,網(wǎng)頁(yè)級(jí)別利用了互聯(lián)網(wǎng)獨(dú)特的**特性及其巨大的構(gòu)造。一個(gè)網(wǎng)頁(yè)的重要性取決于它被其他網(wǎng)頁(yè)的數(shù)量,特別是一些已經(jīng)被認(rèn)定是"重要"的網(wǎng)頁(yè)的數(shù)量。每一個(gè)都是一*價(jià)值不等“選票〞,所獲選票的總價(jià)值將決定誰(shuí)是這場(chǎng)比賽的優(yōu)勝者,誰(shuí)將被安置在最重要、最顯赫的位置上。事實(shí)證明,這一技術(shù)是非常有效的,尤其是網(wǎng)絡(luò)資源的膨脹必然產(chǎn)生更多的,從而為評(píng)價(jià)文件重要性提供了更多的證據(jù)。我們根據(jù)網(wǎng)頁(yè)的得票數(shù)評(píng)定其重要性。然而,除了考慮網(wǎng)頁(yè)得票數(shù)〔即〕的純數(shù)量之外,還要分析為其投票的網(wǎng)頁(yè)?!爸匾暰W(wǎng)頁(yè)所投之票自然份量較重,有助于增強(qiáng)其他網(wǎng)頁(yè)的“重要性〞。重要的、高質(zhì)量的網(wǎng)頁(yè)可獲得較高的網(wǎng)頁(yè)級(jí)別,從而在搜索結(jié)果中可以獲得較高的排位。重要的、高質(zhì)量的網(wǎng)頁(yè)可獲得較高的網(wǎng)頁(yè)級(jí)別,從而在搜索結(jié)果中可獲較高的排位。這樣,重要性綜合指標(biāo)便為網(wǎng)頁(yè)級(jí)別,而不是根據(jù)*一個(gè)具體的查詢。當(dāng)然,這代表了該網(wǎng)頁(yè)本身的特性,是由根據(jù)網(wǎng)絡(luò)數(shù)據(jù)、采用評(píng)定構(gòu)造的綜合運(yùn)算法則進(jìn)展分析的結(jié)果。5.2網(wǎng)頁(yè)級(jí)別的計(jì)算及調(diào)整網(wǎng)頁(yè)級(jí)別的計(jì)算公式網(wǎng)頁(yè)級(jí)別不是簡(jiǎn)單的計(jì)算有多少指向該網(wǎng)頁(yè),而是一種規(guī)*化的計(jì)算的方法,網(wǎng)頁(yè)級(jí)別定義如下:我們假定網(wǎng)頁(yè)A有網(wǎng)頁(yè)T1,T2,...Tn指向它(到它),參數(shù)d是個(gè)調(diào)節(jié)變量,為0到1之間,我們通常設(shè)d為0.85,以后將對(duì)d作更詳細(xì)的說(shuō)明。而C(A)則表示網(wǎng)頁(yè)A可到其他網(wǎng)頁(yè)的數(shù)量。網(wǎng)頁(yè)A的重要度則定義如下:PR(A)=(1-d)/n+d(PR(T1)/C(T1)+PR(T2)/C(T2)+...PR(Tn)/C(Tn))…………圖5.1Page1Page2Page3PagenPagemPage3Page4Page5如圖5.1所示,圖中每個(gè)箭頭都表示一個(gè),根據(jù)公式,我們可以明顯看出網(wǎng)頁(yè)P(yáng)agem的網(wǎng)頁(yè)級(jí)別要比其他網(wǎng)頁(yè)的級(jí)別高,因?yàn)橹赶蛩淖疃啵f(shuō)明它被引用的最多,因此在排序時(shí),改網(wǎng)頁(yè)將被排在較高的位置。另外,網(wǎng)頁(yè)P(yáng)agem所到的網(wǎng)頁(yè)P(yáng)age4、Page5的級(jí)別也要比Page3高,因?yàn)镻agem的網(wǎng)頁(yè)級(jí)別比指向Page3的網(wǎng)頁(yè)P(yáng)age1高。網(wǎng)頁(yè)重要度可以用一個(gè)簡(jiǎn)單的迭代算法計(jì)算出.一個(gè)2600萬(wàn)個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)級(jí)別在一個(gè)中等規(guī)模的工作站中幾個(gè)小時(shí)就能計(jì)算出.網(wǎng)頁(yè)級(jí)別計(jì)算中的考前須知網(wǎng)頁(yè)級(jí)別可以被認(rèn)為是用戶行為的一個(gè)*例。假定有一個(gè)上網(wǎng)瀏覽網(wǎng)頁(yè)的人,正在看一個(gè)隨機(jī)的網(wǎng)頁(yè),并不停的點(diǎn)擊,從不點(diǎn)擊"后退",直到最后還是厭煩了并開場(chǎng)點(diǎn)擊隨意的另外一頁(yè)。這個(gè)網(wǎng)上沖浪者一個(gè)網(wǎng)頁(yè)的概率就是這個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)級(jí)別。而d這個(gè)參數(shù)是這個(gè)網(wǎng)上沖浪者在*一頁(yè)感到厭煩并點(diǎn)擊另外一個(gè)隨機(jī)網(wǎng)頁(yè)的概率。一個(gè)重要的變更便是僅僅增加了一個(gè)單獨(dú)網(wǎng)頁(yè)或一組網(wǎng)頁(yè)的參數(shù)d的值。這可能是由于個(gè)人因素或是為了獲取更高的積分等級(jí)而成心誤導(dǎo)系統(tǒng),但網(wǎng)頁(yè)級(jí)別的提出,可以防止這種情況。從公式上可以看出,一個(gè)網(wǎng)頁(yè)的重要度較高是因?yàn)橛性S多網(wǎng)頁(yè)到它,或者是一些到它的網(wǎng)頁(yè)其本身的網(wǎng)頁(yè)級(jí)別很高。據(jù)一個(gè)例子來(lái)說(shuō):如果?財(cái)富?雜志登載一篇關(guān)于*家公司的報(bào)道,并把主頁(yè)與之相連,這家公司的網(wǎng)頁(yè)因此也就變得更為重要了。注意,網(wǎng)頁(yè)重要度是為所有網(wǎng)頁(yè)都分配的一個(gè)概率,所以說(shuō)所有網(wǎng)頁(yè)的網(wǎng)頁(yè)重要度的總和應(yīng)該為1。直覺上說(shuō),一些具有欣賞價(jià)值的網(wǎng)頁(yè)可能是從許多不同地方引入的。也可能是從一個(gè)地方引入的,如!的主頁(yè)也是值得瀏
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 木材定金合同范本
- 會(huì)計(jì)臨時(shí)勞務(wù)合同范本
- 勞務(wù)派遣合同范本購(gòu)買
- 協(xié)議證明合同范本
- 業(yè)委會(huì)與物業(yè)委托合同范本
- 別墅規(guī)劃合同范本
- 區(qū)域保護(hù)合同范本
- 農(nóng)村房子修繕承包合同范本
- 公園門衛(wèi)服務(wù)合同范本
- 包裝費(fèi)合同范本
- 閩教版四年級(jí)下冊(cè)勞動(dòng)教案
- 汽車電氣設(shè)備構(gòu)造與維修(高職版)全套教學(xué)課件
- 中小學(xué)必背飛花令詩(shī)詞-(春、月、風(fēng)、花、山、江、人、日、動(dòng)物、顏色、數(shù)字)
- 緩刑解除矯正個(gè)人總結(jié)
- 北師大版小學(xué)數(shù)學(xué)六年級(jí)下冊(cè)全冊(cè)一課一練課課練(含答案)
- 白酒加工小作坊整治工作方案
- 發(fā)揚(yáng)體育精神展青春光彩
- 四年級(jí)數(shù)學(xué)(四則混合運(yùn)算)計(jì)算題專項(xiàng)練習(xí)與答案匯編
- 國(guó)家基本公共衛(wèi)生服務(wù)項(xiàng)目績(jī)效考核課件
- 孕產(chǎn)婦深靜脈血栓預(yù)防與護(hù)理課件
- 腳輪行走測(cè)試技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論