搜索引擎收錄頁面流程原理和方式分析

上傳人：m*** IP屬地：湖北上傳時間：2023-02-06 格式：DOCX 頁數(shù)：4 大?。?0.39KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

搜索引擎收錄頁面流程原理和方式分析

搜索引擎收錄頁面實際上就是在互聯(lián)網(wǎng)上進行數(shù)據(jù)采集，這是搜索引擎最基礎(chǔ)的工作，而搜索引擎的內(nèi)容都來自后臺的龐大的URL列表，通過這些URL，不斷的收錄，儲存及維護，而學(xué)習(xí)搜索引擎收錄的流程，收錄原理及收錄方式，有效的提高搜索引擎對網(wǎng)站的收錄的數(shù)量！1.頁面收錄流程在互聯(lián)網(wǎng)中，URL是每個頁面的入口地址，”蜘蛛程序”通過這些URL列表抓取到頁面的，“蜘蛛”不斷的從這些頁面中獲取URL資源及存儲頁面，并加入URL列表，如此不斷的循環(huán)，搜索引擎就可以從互聯(lián)網(wǎng)中獲取到足夠的頁面。URL是頁面的入口，則域名則是網(wǎng)站的入口，搜索引擎就是通過域名進入網(wǎng)站，挖掘URL資源，換而言之搜索引擎在互聯(lián)網(wǎng)中抓取頁面的首要任務(wù)就是要有龐大的域名列表，在不斷的通過域名，進入網(wǎng)站抓取網(wǎng)站中的頁面，而對于咱們而言，想搜索引擎收錄，首要條件就是加入搜索引擎的域名列表，常見加入搜索引擎的域名列表的有以下兩種方式通過與有質(zhì)量的“外鏈”，使搜索引擎在抓取“別人”的網(wǎng)站頁面時發(fā)現(xiàn)我們的網(wǎng)站，從而實現(xiàn)對網(wǎng)站的收錄，這種方法主動權(quán)在我們手上，(只要我們有足夠多的“外鏈”)且收錄速度比第一種方法快，根據(jù)外部鏈接的數(shù)量、質(zhì)量相關(guān)性，一般2-7天就會被搜索引擎收錄2.頁面收錄原理通過學(xué)習(xí)“頁面收錄流程”可以掌握加快網(wǎng)站被收錄的方法，接著來學(xué)習(xí)頁面收錄原理，從而提高搜索引擎收錄的數(shù)量！如果把一個網(wǎng)站頁面組成的頁面看做是一個有向圖，從指定的頁面出發(fā)，沿著頁面中的鏈接，按照某種特定的策略對網(wǎng)站中的頁面進行遍歷。不停地從URL列表中移出已經(jīng)訪問的URL，并存儲原始頁面，同時提取原始頁面中的URL的信息：再將URL分為域名及內(nèi)部URL兩大類，同時判斷URL是否被訪問過，將未訪問過的URL加入URL列表中。遞歸地掃描URL列表，直至耗盡所有URL資源為止。經(jīng)過這些工作，搜索引擎就可以建立龐大的域名列表、頁面URL列表并儲存足夠多的原始頁面。3.頁面收錄方式知道了“頁面收錄流程”和“頁面收錄原理”然而在搜索引擎中要獲取相對重要頁面，就涉及到了搜索引擎的頁面收錄方式，頁面收錄方式是指搜索引擎抓取頁面時所使用的策略，目的是為了能在互聯(lián)網(wǎng)中篩選出相對重要的信息，頁面收錄的方式的制定取決于搜索引擎對網(wǎng)絡(luò)結(jié)構(gòu)的理解。如果使用相同的抓取策略，搜索引擎在同樣的時間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁面資源，則會在該網(wǎng)站停留更長的時間，收錄的頁面數(shù)自然也就多了。因此，加深對搜索引擎頁面收錄方式的認識，有利于為網(wǎng)站建立友好的結(jié)構(gòu)，提高被收錄的數(shù)量。搜索引擎搜收錄頁面的方式主要要有“廣度優(yōu)先”、“深度優(yōu)先“及”用戶提交“(用戶提交暫時不講)三種，認識這三種頁面收錄方式及各自的優(yōu)缺點！廣度優(yōu)先如果把整個網(wǎng)站看做一棵樹，首頁就是根，每個頁面就是葉子。廣度優(yōu)先是一種橫向的頁面抓取方式，先從樹的較淺層開始抓取頁面，直接抓完同層次的所有頁面后才進入下一層。因此，在對網(wǎng)站進行優(yōu)化時，我們應(yīng)該把網(wǎng)站相對重要的信息展示在層次比較淺的頁面上(例如：在首頁推薦一些熱門的內(nèi)容)。反過來，通過廣度優(yōu)先的抓取方式，搜索引擎就可以首先抓取到網(wǎng)站中相對重要的頁面。首先，”蜘蛛“從網(wǎng)站的首頁出發(fā)，抓取首頁上所有連接指向的頁面，形成頁面集合A，并分析出A中所有頁面中的鏈接：在跟蹤這些鏈接抓取下一層的頁面，形成頁面集合B：就這樣遞歸地從淺層頁面中解析出鏈接，再從深層頁面，直至滿足某個設(shè)定的條件才停止抓取進程深度優(yōu)先與廣度優(yōu)先的抓取方式相反，深度優(yōu)先首先跟蹤淺層頁面中的某一連接后逐步抓取深層頁面，直至抓完最深層的頁面才返回淺層頁面再跟蹤其另一鏈接，繼續(xù)向深層頁面抓取，這是一種縱向的頁面抓取方式。使用深度優(yōu)先的抓取方式，搜索引擎可以抓取到網(wǎng)站中較為隱蔽、冷門的頁面，這樣就能滿足更多用戶的需求。首先，搜索引擎會抓取網(wǎng)站的首頁，并提取首頁中的鏈接：再沿著其中的一個連接抓取到頁面A-

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎收錄頁面流程原理和方式分析

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎收錄頁面流程原理和方式分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔