《電子商務(wù)應(yīng)用》實驗指導(dǎo)書-實驗3 搜索引擎及搜索引擎優(yōu)化(SEO)實驗_第1頁
《電子商務(wù)應(yīng)用》實驗指導(dǎo)書-實驗3 搜索引擎及搜索引擎優(yōu)化(SEO)實驗_第2頁
《電子商務(wù)應(yīng)用》實驗指導(dǎo)書-實驗3 搜索引擎及搜索引擎優(yōu)化(SEO)實驗_第3頁
《電子商務(wù)應(yīng)用》實驗指導(dǎo)書-實驗3 搜索引擎及搜索引擎優(yōu)化(SEO)實驗_第4頁
《電子商務(wù)應(yīng)用》實驗指導(dǎo)書-實驗3 搜索引擎及搜索引擎優(yōu)化(SEO)實驗_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、PAGE PAGE 13電子商務(wù)應(yīng)用實驗報告項目名稱 搜索引擎及搜索引擎優(yōu)化(SEO) 專業(yè)班級 軟件工程1207 學(xué) 號 姓 名 實驗成績:優(yōu)批閱教師:2015年 1月 7 日實驗3搜索引擎及SEO實驗實驗學(xué)時: 2 實驗地點: 二綜X204 實驗日期: 2014-12-26 一、實驗?zāi)康难芯坎W(xué)習(xí)幾種常見的搜索引擎算法,包括網(wǎng)絡(luò)蜘蛛爬行策略、中文分詞算法、網(wǎng)頁正文提取算法、網(wǎng)頁去重算法、PageRank和MapReduce算法,了解它們的基本實現(xiàn)原理;運(yùn)用所學(xué)SEO技術(shù)對網(wǎng)頁進(jìn)行優(yōu)化。二、實驗內(nèi)容和方法1. 研究常用的網(wǎng)絡(luò)蜘蛛爬行策略,如深度優(yōu)先策略、廣度優(yōu)先策略、網(wǎng)頁選擇策略、重訪策略和

2、并行策略等,了解其實現(xiàn)原理;2. 研究至少兩種中文分詞算法,了解其實現(xiàn)原理;3. 研究至少兩種網(wǎng)頁正文提取算法,了解其實現(xiàn)原理;4. 研究至少兩種網(wǎng)頁去重算法,了解其實現(xiàn)原理;5. 研究Google的PageRank和MapReduce算法,了解它們的實現(xiàn)原理;6. 使用所學(xué)的SEO技術(shù),對實驗二所設(shè)計的網(wǎng)站靜態(tài)首頁實施SEO,在實施過程中需采用如下技術(shù):(1) 網(wǎng)頁標(biāo)題(title)的優(yōu)化;(2) 選取合適的關(guān)鍵詞并對關(guān)鍵詞進(jìn)行優(yōu)化;(3) 元標(biāo)簽的優(yōu)化;(4) 網(wǎng)站結(jié)構(gòu)和URL的優(yōu)化;(5) 創(chuàng)建robots.txt文件,禁止蜘蛛抓取網(wǎng)站后臺頁面;(6) 網(wǎng)頁內(nèi)部鏈接的優(yōu)化;(7) Hea

3、ding標(biāo)簽的優(yōu)化;(8) 圖片優(yōu)化;(9) 網(wǎng)頁減肥技術(shù)。7. 使用C+、C#和Java等任意一種編程語言,設(shè)計并實現(xiàn)一個簡單的網(wǎng)絡(luò)蜘蛛爬行程序,要求在輸入關(guān)鍵詞、設(shè)置爬行深度和初始網(wǎng)頁URL之后能夠?qū)崿F(xiàn)網(wǎng)頁搜索,輸出包含關(guān)鍵詞的網(wǎng)頁的URL和網(wǎng)頁標(biāo)題?!咀ⅲ簩嶒?為補(bǔ)充實驗,不要求每個同學(xué)都完成,感興趣者可自行實現(xiàn)該程序,不計入實驗報告評分。】三、實驗要求1. 研究幾種常用的網(wǎng)絡(luò)蜘蛛爬行策略,填寫相應(yīng)的表格,表格必須填寫完整;2. 研究兩種中文分詞算法,填寫相應(yīng)的表格,表格必須填寫完整;3. 研究兩種網(wǎng)頁正文提取算法,填寫相應(yīng)的表格,表格必須填寫完整;4. 研究兩種網(wǎng)頁去重算法,填寫相應(yīng)的

4、表格,表格必須填寫完整;5. 研究PageRank算法和MapReduce算法,填寫相應(yīng)的表格,表格必須填寫完整;6. 提供實施SEO之后的網(wǎng)站靜態(tài)首頁界面和HTML代碼,盡量多地使用所學(xué)SEO技術(shù);7. 嚴(yán)禁大面積拷貝互聯(lián)網(wǎng)上已有文字資料,盡量用自己的理解來闡述算法原理,必要時可以通過圖形來描述算法;8. 使用任意一種編程語言實現(xiàn)一個簡單的網(wǎng)絡(luò)蜘蛛程序,需提供網(wǎng)絡(luò)蜘蛛程序完整源代碼及實際運(yùn)行結(jié)果。四、實驗步驟1. 通過使用搜索引擎并查閱相關(guān)資料,研究并整理幾種常用的網(wǎng)絡(luò)蜘蛛爬行策略相關(guān)資料,填寫相應(yīng)的表格;2. 通過使用搜索引擎并查閱相關(guān)資料,研究并整理兩種中文分詞算法的基本原理,填寫相應(yīng)的

5、表格;3. 通過使用搜索引擎并查閱相關(guān)資料,研究并整理兩種網(wǎng)頁正文提取算法的基本原理,填寫相應(yīng)的表格;4. 通過使用搜索引擎并查閱相關(guān)資料,研究并整理兩種網(wǎng)頁去重算法的基本原理,填寫相應(yīng)的表格;5. 通過使用搜索引擎并查閱相關(guān)資料,研究并整理PageRank算法和MapReduce算法的基本原理,填寫相應(yīng)的表格;6. 對實驗二所設(shè)計的網(wǎng)站靜態(tài)首頁實施SEO;7. 使用任意一種編程語言,設(shè)計并實現(xiàn)一個簡單的網(wǎng)絡(luò)蜘蛛爬行程序。五、實驗結(jié)果1. 研究幾種常用的網(wǎng)絡(luò)蜘蛛爬行策略并填寫如下表格:策略名稱基本原理參考資料深度優(yōu)先策略蜘蛛沿著發(fā)現(xiàn)的一個鏈接一直向前搜索,直到再沒有鏈接,就返回從另一條鏈接向下

6、搜索百度百科&百度文庫(鏈接太長)廣度優(yōu)先策略蜘蛛把一個頁面上所有的鏈接都搜索一遍到這些鏈接的下一個頁面,再順著第二層爬到第三層,依次往下搜索百度百科&百度文庫網(wǎng)頁選擇策略一個公共標(biāo)準(zhǔn)來區(qū)分網(wǎng)頁的重要程度,決定蜘蛛抓取哪些網(wǎng)頁,其中包含限定訪問鏈接、路徑檢索、聚焦抓取、抓取深層的網(wǎng)頁等方法網(wǎng)絡(luò)蜘蛛 百度百科重訪策略網(wǎng)頁動態(tài)性很強(qiáng),在蜘蛛上一次訪問到下一次訪問之間可能發(fā)生一些改變,要檢測到這些改變才能保證我們能得到新鮮的資源。重訪策略就是一個策略來引導(dǎo)蜘蛛對網(wǎng)頁抓取的頻率,能夠控制在最小的成本下獲取最新信息。最常用的成本函數(shù)是新鮮度和過時性,蜘蛛的目標(biāo)就是提高新鮮度,降低過時性。并行策略一個并行

7、蜘蛛是并行運(yùn)行多個進(jìn)程的爬蟲。它的目標(biāo)是最大化下載的速度,同時盡量減少并行的開銷和下載重復(fù)的頁面。為了避免下載一個頁面兩次,蜘蛛系統(tǒng)需要策略來處理蜘蛛運(yùn)行時新發(fā)現(xiàn)的URL,因為同一個URL地址,可能被不同的蜘蛛進(jìn)程抓到。注:參考資料格式如下:1 developerWorks中國:Java 設(shè)計模式. /developerworks/cn/java/design/.2 閻宏. Java與模式. 北京: 電子工業(yè)出版社, 2004.3 于滿泉, 陳鐵睿, 許洪波. 基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計. 計算機(jī)應(yīng)用, 2005, 25(4).2. 研究兩種中文分詞算法并填寫如下表格:算法名稱基本原

8、理參考資料基于詞典的分詞算法按照一定的策略將要分析的內(nèi)容與一個充分大的機(jī)器詞庫中的詞條進(jìn)行匹配,如果在詞庫中找到要匹配的字符串就匹配成功。主要方法有正向最大匹配思想MM、逆向最大匹配算法RMM、雙向最大匹配法BM、最少切分法、最佳匹配OM、設(shè)立切分標(biāo)志法等。1.正向最大匹配思想:m是詞庫中最長的字符串的字符數(shù),從左到右把要分詞的語句的前m個字作為匹配字段,在詞典中進(jìn)行查找。如果詞典中找到匹配的字符串則匹配成功,匹配的字符串作為一個詞切分出來。如果詞典中找不到,就將帶匹配的字符串最后一個字去掉,用剩下的字符串再次進(jìn)行匹配,直到匹配成功或者剩余字符串長度為0。然后再從這個詞的下一個字開始取m個字,

9、進(jìn)行查找。2.逆向最大匹配算法:匹配方法與正向最大匹配算法基本相同,不同的是是從被處理內(nèi)容的最后開始掃描取m個字,如果匹配不成功則去掉選取的字符串最前面的一個字。3.雙向最大匹配法:將正向最大匹配法與逆向最大匹配法組合。先根據(jù)標(biāo)點對文檔進(jìn)行粗切分,把文檔分解成若干個句子,然后再對這些句子用正向最大匹配法和逆向最大匹配法進(jìn)行掃描切分。如果兩種分詞方法得到的匹配結(jié)果相同,則認(rèn)為分詞正確,否則,按最小集處理。Abstractwind博客.z中文分詞算法筆記;CodeMain.中文分詞技術(shù);中文分詞 百度百科基于統(tǒng)計的分詞算法統(tǒng)計文章文中相鄰的兩個字字同時出現(xiàn),出現(xiàn)的次數(shù)越多就越可能構(gòu)成一個詞。因此字

10、與字相鄰出現(xiàn)的概率或頻率能較好的反映詞的可信度。主要統(tǒng)計模型有N元文法模型和隱馬爾科夫模型。N元文法模型:第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積隱馬爾科夫模型:每一個狀態(tài)的轉(zhuǎn)移只依賴于其之前的那一個狀態(tài)Likelet的專欄.隱馬爾科夫模型攻略;Abstractwind博客.z中文分詞算法筆記;3. 研究兩種網(wǎng)頁正文提取算法并填寫如下表格:算法名稱基本原理參考資料基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取依據(jù)是網(wǎng)頁中的正文內(nèi)容里文字信息會比較集中;方法是將HTML代碼中所有標(biāo)簽都去掉,保留空白位置信息,然后以留下來的內(nèi)容的每一行為起點,向上或者向

11、下再取k行(0k5,)合起來作為一個行塊,再把每個行塊中的空白符去掉,剩下的文字內(nèi)容的字?jǐn)?shù)就是該行塊的長度。再以行號為x軸,行塊長度為y軸,建立坐標(biāo)系。通過訓(xùn)練集可以發(fā)現(xiàn)網(wǎng)頁的正文內(nèi)容所在的行都是坐標(biāo)系中有最值并且連續(xù)的一個區(qū)域,而且會包含一個驟升點一個驟降點。所以最后就是計算出這兩個點,正文內(nèi)容就包含在其中。陳鑫. 基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取基于DOM樹的網(wǎng)頁正文提取根據(jù)網(wǎng)頁的HTML代碼建立Dom樹,然后遞歸遍歷Dom樹,比較并識別各種非正文信息,包括廣告、鏈接群和非重要節(jié)點信息;廣告信息移除:需要建立經(jīng)常更新的廣告服務(wù)器列表;鏈接群移除:計算網(wǎng)頁包含的鏈接個數(shù)同非鏈接的詞個數(shù)的比

12、例;非正文信息移除后,Dom樹中剩余的內(nèi)容就是正文信息,直接從余下的樹節(jié)點中抽取。游游.淺識網(wǎng)頁正文提取陳鑫. 基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取4. 研究兩種網(wǎng)頁去重算法并填寫如下表格:算法名稱基本原理參考資料SimHash文檔指紋算法如果兩個東西相似,就可以用一個hash函數(shù)把他們投影到相近的空間的LSH。用到near duplication detection上。1. 將文檔轉(zhuǎn)換為特征的集合,每一個特征有一個權(quán)重,如假設(shè)特征是由詞組成的,那詞的權(quán)重就是詞頻確定;2. 利用LSH函數(shù)把特征向量轉(zhuǎn)換為f位的fingerprint,如:f=64 ;3.在f維的向量V中,分別對每維向量進(jìn)行加權(quán)計

13、算。如果詞相應(yīng)的比特位的二進(jìn)制數(shù)值為1,則用它的權(quán)重乘以1,如果詞相應(yīng)的比特位為0,則用權(quán)重乘以-1;4.當(dāng)所有的詞都按照上述處理完畢后,總的合并起來。5.最后降維,如果最后向量V中第i維是正數(shù),則將f位的指紋中第i位設(shè)置為1,否則為0。刺猬的溫馴.SimHash算法;Beta2.網(wǎng)頁去重-算法篇;盧松松博客.搜索引擎網(wǎng)頁去重算法分析;百度百科.海明距離SpotSig算法對網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理,即通過劃分有語義的詞串來將文檔分成一個詞串集,有語義的詞串是spot,文檔此時就是一個spot signature集,該集合是一個多重集合。根據(jù)集合長度將所有文檔映射到劃分好的分隔中去,這個映射滿足集合相

14、似度高的文檔映射在同一分隔或相鄰分隔中,相似度低的文檔映射在不同的分隔中。進(jìn)行文檔相似度比較時,只需比較在同一分隔或相鄰分隔中的文檔,利用多重集合的 Jaccard相似度公式,將Jaccard相似度大于某個閾值的兩篇文檔視為相似文檔。eric_gcm.去重算法SpotSig算法詳解;Beta2.網(wǎng)頁去重-算法篇;5. 研究PageRank算法和MapReduce算法并填寫如下表格:算法名稱基本原理參考資料PageRank給網(wǎng)頁設(shè)定了1到10的等級來衡量網(wǎng)頁的受歡迎程度,等級越高代表網(wǎng)頁越受歡迎PageRank是通過一個網(wǎng)頁的外鏈數(shù)以及鏈它的網(wǎng)頁的受歡迎程度來計算這個網(wǎng)頁的PR值的。簡單來說就是

15、A網(wǎng)頁的PR值是所有鏈它的網(wǎng)頁自己本身的PR值除以那些網(wǎng)頁向外鏈的數(shù)量(除了數(shù)量之后也就是那個網(wǎng)頁能分給A網(wǎng)頁多少重要度了)之后的值的總和。將積分比較高的網(wǎng)頁排在前面,表明它比較重要。Guisu的CSDN博客.PageRank算法;Google PageRank百度百科MapReduce是將一個大作業(yè)拆分為多個小作業(yè)的框架(大作業(yè)和小作業(yè)應(yīng)該本質(zhì)是一樣的,只是規(guī)模不同),用戶需要做的就是決定拆成多少份,以及定義作業(yè)本身。Map是映射,對接受的鍵值對做出設(shè)定的操作行為,產(chǎn)生中間鍵值對。MapReduce框架將中間鍵值對里鍵值相同的值傳遞給ReduceReduce是簡化,接受一個鍵以及相關(guān)的一組值

16、,將這組值合并產(chǎn)生一組規(guī)模更小的值Fumin的CSDN博客.谷歌技術(shù)三寶之“MapReduce”Shekhar Gulati.怎樣向妻子解釋MapReduce6. 提供通過SEO優(yōu)化之后的網(wǎng)站首頁靜態(tài)效果圖和完整的HTML源代碼。網(wǎng)頁界面:html代碼: 今夕書屋 link rel=stylesheet type=text/css href=jinxi.css 執(zhí)手揮毫,試描江山,古道人家,篷門始開 .今夕何夕,見此良文 css文件:#top margin-top:-6px; margin-left:190px;p font-weight:bold; color:#606d6e; font-s

17、ize:12px; margin-bottom:5px#h1 font-family=微軟雅黑; font-size:19px;#daohang float:left; margin-left:-10px#zhuanti margin-left:185px;#tongzhi margin-left:-8px;#tushu margin-left:173px; margin-top:-25px;六、實驗小結(jié)這次實驗讓我學(xué)到了很多上課的時候沒有學(xué)到的東西,這些搜索引擎的搜索策略、正文提取、網(wǎng)頁去重、網(wǎng)頁排名,老師在上課的時候都會提一下,但是當(dāng)時并沒有多想,也沒有去主動了解(學(xué)習(xí)的積極性還是不夠啊),就聽名字知道是要做什么事。所以在做實驗的時候發(fā)現(xiàn)原來這些都會有這么多內(nèi)容,一個算法要考慮那么多問題,有些還挺復(fù)雜,看都看不太懂(我選擇的都是我看了之后能懂個大概的算法),還是覺得平時天天用的搜索引擎做起來真的是非常不容易的一件事,但是大家還并不知道,幕后工作人員辛苦了。還有一點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論