基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)

上傳人：w*** IP屬地：天津上傳時間：2022-08-04 格式：DOCX 頁數(shù)：7 大?。?80.78KB 積分：15 舉報 版權(quán)申訴

基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第2頁

基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第3頁

基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第4頁

基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第5頁

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、基于虛擬化技術(shù)對DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)模型的優(yōu)化辛潔，崔志明，趙鵬鵬，張廣銘，鮮學(xué)豐,和天旭(蘇州大學(xué)智能信息處理及應(yīng)用研究所，江蘇蘇州215006)摘要：為了提高聚焦爬蟲發(fā)現(xiàn)和搜集深層網(wǎng)絡(luò)數(shù)據(jù)源的能力，提出一種利用虛擬化技術(shù)改進DeepWeb爬蟲框架結(jié)構(gòu)的方法。通過服務(wù)器虛擬化將一臺服務(wù)器虛擬為解析下載服務(wù)器，聚焦爬行服務(wù)器和表單分類服務(wù)器，并根據(jù)各自的功能分配帶寬及服務(wù)器資源，實驗結(jié)果顯示該方法可以有效提高DeepWeb爬蟲抓取數(shù)據(jù)源的效率，避免網(wǎng)絡(luò)和硬件資源的浪費，證明了虛擬化技術(shù)的應(yīng)用可以優(yōu)化DeepWeb爬蟲的爬行能力。關(guān)鍵詞：數(shù)據(jù)源發(fā)現(xiàn)；虛擬化技術(shù)；DeepWeb；聚焦爬

2、蟲中圖分類號：TP393文獻標(biāo)識碼：ATheOptimizationofDeepWebFocusedCrawlersDataSourceDiscoveryModelBasedonVirtualizationTechnologyXINJie,CUIZhi-ming,ZHAOPeng-peng,ZHANGGuang-ming,XIANXue-feng,HETian-xu(TheInstituteofIntelligentInformationProcessingandApplication,SoochowUniversity,Suzhou215006,China)Abstract:Inordert

3、oimprovethefocusedcrawlersperformanceofDeepWebdatasourcesdiscoveryandsearch,anewmethodwasraisedtomodifythearchitectureofDeepWebfocusedcrawlers.ThreeserverswereestablishedafterServerVirtualizationnamedDownloadandResolveServer,FocusedCrawlingServerandInterfaceClassificationServerandgivenbandwidthandha

4、rdwarerecoursesaccordingtotheirfunctionalneeds.Experimentresultsindicatedthatthismethodcouldincreasethecrawlingefficiencyandavoidedrecourseswaste.Therefore,applyingvirtualizationtechnologyisviableandusefulforDeepWebfocusedcrawlersinfindingtheinterfacesofdatasources.Keywords:datasourcediscovery;virtu

5、alizationtechnology;DeepWeb;focusedcrawlers基金項目：國家自然科學(xué)基金資助項目(60970015)FoundationItems:NationalNaturalScienceFoundationofChina(60970015);能通過表單提交查詢來獲得。如何從DeepWeb中究將重點放在改進對內(nèi)部結(jié)構(gòu)如已有的爬蟲爬行1引言網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，海量數(shù)據(jù)使Web迅速的“深化”，這些由后臺數(shù)據(jù)庫動態(tài)產(chǎn)生的，對用戶隱藏不可見的數(shù)據(jù)不能被傳統(tǒng)的搜索引擎索引，只迅速有效的抽取信息，對數(shù)據(jù)源進行大規(guī)模的集成成為研究熱點，其中包括數(shù)據(jù)源發(fā)現(xiàn)，查詢接口抽取，數(shù)據(jù)源分類

6、，查詢轉(zhuǎn)換，結(jié)果合成等，而DeepWeb數(shù)據(jù)源發(fā)現(xiàn)是信息集成的第一步。大多關(guān)于DeepWeb數(shù)據(jù)源的搜索和發(fā)現(xiàn)的研策略，增加功能模塊來避免下載不必要的頁面從而提高DeepWeb入口發(fā)現(xiàn)的效率和精度等方面。但在實際應(yīng)用中，由于不可避免的大規(guī)模數(shù)據(jù)的下載及信息的交互，因此網(wǎng)絡(luò)負載量，服務(wù)器的處理能力，資源調(diào)度等外在條件很大程度上制約了爬蟲發(fā)現(xiàn)數(shù)據(jù)源入口的能力。虛擬化技術(shù)作為云計算實現(xiàn)的關(guān)鍵技術(shù)，越來越受到產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注。其優(yōu)點是可以將有限的固定的資源根據(jù)不同需求進行重新規(guī)劃以達到最大利用率。本文利用服務(wù)器虛擬化改進了DeepWeb聚焦爬蟲數(shù)據(jù)源的模型，將一臺服務(wù)器虛擬為解析下載服務(wù)器，聚焦爬

7、行服務(wù)器和表單分類服務(wù)器等3臺服務(wù)器，并依據(jù)其功能分配資源。虛擬化后的爬蟲提高了抓取DeepWeb數(shù)據(jù)源效率，合理利用現(xiàn)有資源，大幅度提高了服務(wù)器的資源利用率。并擴展分析了虛擬化技術(shù)的應(yīng)用于DeepWeb數(shù)據(jù)源發(fā)現(xiàn)，管理，聚類等其他方面的可行性。本文的結(jié)構(gòu)如下：第2節(jié)，簡述虛擬化及DeepWeb聚焦爬蟲的相關(guān)研究；第3節(jié)，改進DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)模型；第4節(jié)對該模型進行了性能測試和擴展分析；第5節(jié)，結(jié)論。2相關(guān)研究工作2.1服務(wù)器虛擬化將服務(wù)器物理資源抽象成邏輯資源，讓一臺服務(wù)器變成幾臺甚至上百臺相互隔離的虛擬服務(wù)器，或者讓幾臺服務(wù)器變成一臺服務(wù)器來用，我們不再受限于物理上的界限，

8、而是讓CPU、內(nèi)存、磁盤、I/O等硬件變成可以動態(tài)管理的“資源池”，從而提高資源的利用率，簡化系統(tǒng)管理，實現(xiàn)服務(wù)器整合，這就是服務(wù)器的虛擬化1。通過區(qū)分資源的優(yōu)先次序，可將服務(wù)器資源分配給最需要它們的工作負載，來簡化管理和提高效率。因此，借助虛擬化技術(shù)，使服務(wù)器不在局限于“一個服務(wù)器一個應(yīng)用程序”的模式，具有以下優(yōu)勢2：減少所需物理服務(wù)器的數(shù)量改進服務(wù)器的可用性和運行時間降低能耗和制冷成本降低IT運營費用減少服務(wù)器配置時間加快災(zāi)難恢復(fù)的速度2.2DeepWeb聚焦爬蟲的數(shù)據(jù)源發(fā)現(xiàn)DeepWeb擁有5倍于SurfaceWeb的數(shù)據(jù)量，其數(shù)據(jù)是動態(tài)的，要通過查詢接口在線訪問站點后端的Web數(shù)據(jù)庫得

9、到。這些查詢接口是嵌入于WebPage中以Form表單形式出現(xiàn)的，數(shù)據(jù)源發(fā)現(xiàn)要求DeepWeb爬蟲必須能跟蹤超鏈接，填寫表單，最后獲取和識別結(jié)果頁面3,如圖1所示。圖1DeepWeb爬蟲系統(tǒng)框架聚焦爬蟲是一種“面向特定主題”的爬蟲，在實施網(wǎng)頁抓取時要進行主題篩選，盡量保證只抓取與主題相關(guān)的信息。DeepWeb數(shù)據(jù)源發(fā)現(xiàn)是面向DeepWeb入口聚焦的，訪問那些可能鏈接到DeepWeb入口頁面的鏈接，避免訪問下載不必要的頁面。文獻4提出了一種針對主題相關(guān)性及鏈接重要性的DeepWeb的聚焦爬蟲，可有效的可有效的提高DeepWeb數(shù)據(jù)源發(fā)現(xiàn)效率和精度。諸多研究集中于爬蟲爬行策略的改進，但沒有從改進硬

10、件資源角度去解決這個問題，因為增加一臺服務(wù)器來提高工作效率性價比很低。通過圖1不難發(fā)現(xiàn)，在尋找表單，填寫表單的過程中存在大量的與遠程服務(wù)求進行的信息交互，解析下載也必然產(chǎn)生網(wǎng)絡(luò)延遲。同時，文獻2指出多數(shù)服務(wù)器利用率不高，對服務(wù)器資源的利用只有20%左右，因此，在有限資源的限制下，數(shù)據(jù)抓取時間長，效率低。但虛擬化的應(yīng)用可以改變這個現(xiàn)狀。3DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)改進模型3.1建立虛擬化模型進行虛擬化改進爬蟲結(jié)構(gòu)目的在于按需要分配資源，最大化資源利用率及爬蟲數(shù)據(jù)源發(fā)現(xiàn)效率。利用虛擬化技術(shù)將一臺服務(wù)器按功能虛擬為解析下載服務(wù)器，聚焦爬行服務(wù)器和表單分類服務(wù)器。必須指出的是該服務(wù)器并不是被簡單

11、分為若干部分(Memory/CPU/Drivecapacity),每臺虛擬后的服務(wù)器均可被認為是一臺易操作的具有獨立OS的服務(wù)器,提供不同的服務(wù),相互獨立,共享數(shù)據(jù)。具體虛擬化后的改進結(jié)構(gòu)見圖2。圖2虛擬化后DeepWeb聚焦爬蟲系統(tǒng)框架3.2解析下載服務(wù)器建立單獨一個服務(wù)器作為解析下載的服務(wù)器出于以下原因：當(dāng)爬蟲從Web中下載大量的數(shù)據(jù)成幾何倍數(shù)的增長,使得服務(wù)器內(nèi)從消耗相當(dāng)快,CPU利用率變的很低。同時,在這個過程中爬蟲需要兩次使用到網(wǎng)絡(luò)資源：域名解析和頁面采集,只是網(wǎng)絡(luò)延時占據(jù)絕大部分爬蟲運行時間,形成爬蟲運行效率的瓶頸4。服務(wù)器虛擬化的好處在于解析服務(wù)器可以專門進行URL的管理,緩解了

12、內(nèi)存的壓力,提高CPU利用率,并保證了各節(jié)點間的實時通信,充分利用網(wǎng)絡(luò)出口的帶寬,這非常符合DeepWeb對時新性的要求。解析下載服務(wù)器包含頁面解析器和待爬行URL隊列。頁面解析器主要負責(zé)頁面的搜集和解析工作。在抓取到某一頁面后,提取其所包含的所有URL,經(jīng)過規(guī)范化處理和去重,放入待訪問URL隊列。3.3聚焦爬行服務(wù)器借鑒文獻4的方法,虛擬的聚焦爬行服務(wù)器可根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的頁面,并判鏈接中是否還有指向表單接口的頁面。在從解析下載服務(wù)器得到待訪問URL隊列后,通過爬行模塊送入“頁面分類器”以判斷抓取的頁面P是否屬于當(dāng)前主題,如和當(dāng)前主題相關(guān),送入“鏈接分類器”來判斷鏈接UR

13、L是否有可能指向含有表單接口的頁面,并給該鏈接評分。具體實現(xiàn)方法是：“頁面分類器”對網(wǎng)頁進行去標(biāo)記、分詞操作后把頁面分入一個最相關(guān)的類別。“鏈接分類器”提取的特征主要是錨文本及鏈接上下文文本、URL地址、鏈接中的圖片地址。分類過程利用采用樸素貝葉斯分類算法,對于特征向量為x=X,x2,xT的測試樣本，它屬于第q類的概率如下所示：P(C.|X)=P(CJ/P(x)*wp(Xjc.)(1)j-1其中P(Ci|X)代表X屬于類Ci的概率表單。這個過程可以看出，服務(wù)器的大量工作集中于信息處理中，對網(wǎng)絡(luò)帶寬要求不高，但需要大量的內(nèi)存和CPU。虛擬化后的聚焦服務(wù)器可以合理利用資源池中的資源，提高計算及處理

14、能力。3.4表單分類服務(wù)器表單分類服務(wù)器的功能是通過表單抽取器抽取頁面中的表單接口，剔除那些不合要求的表單，篩選出本文要研究的表單并進行分類。本文重點提出了利用MAPREDUCE的方法對查詢表單接口分類，進一步提高爬蟲數(shù)據(jù)源發(fā)現(xiàn)的效率。MAPREDUCE分類器框架數(shù)據(jù)源查詢接口的分類問題涉及2方面的內(nèi)容：特征抽取和機器學(xué)習(xí)。特征抽取主要包括標(biāo)簽提取，表單控件提取，然后把他們按照邏輯關(guān)系重組成一個個的屬性集。機器學(xué)習(xí)的過程都是通過對已經(jīng)分好類的一組訓(xùn)練文本的學(xué)習(xí)來自動創(chuàng)建分類器，通過有指導(dǎo)的學(xué)習(xí)對測試文本進行分類6。引入MAPREDUCE算法模型的好處在于：第一，將要執(zhí)行的問題分解成Map(映射

15、)和Reduce(化簡)的方式，我們不需要考慮如何將輸入的數(shù)據(jù)分塊、分配和調(diào)度，只需要指定Map和Reduce的操作得到高效率的并行計算，提高抽取和分類的效率。第二，MAPREDUCE程序的輸入，輸出，中間數(shù)據(jù)都是以key/value的值對的形式出現(xiàn)，方便我們對查詢接口進行定義，判斷數(shù)據(jù)源接口的類別?；谠摲椒ǎ疚脑O(shè)計的MAPREDUCE分類器包括三個MR過程:特征提取MR,規(guī)則過濾MR及機器學(xué)習(xí)MR。圖3為利用MAPREDUCE方法對表單進行分類的框架圖。圖3MAPREDUCE表單接口分類算法特征抽取MapReduce(MR)Internet中大多數(shù)的查詢接口以HTML語言編寫的Form表

16、單表示，特征抽取MR的目的是將聚焦爬行服務(wù)器過濾分類得到的待處理表單隊列進行特征抽取及標(biāo)準(zhǔn)化，為進一步判定接口類別做準(zhǔn)備。首先，對查詢接口進行抽象定義。由于表單的組成比較復(fù)雜，通常包含INPUT,SELECT,TEXTAREA三類控件，其中INPUT控件的類型元素有：文本框(textbox),單選按鈕(radio)，復(fù)選框(checkbox)和下拉列表框(selectionlist)等。在表單中，每個控件都對應(yīng)一個標(biāo)簽，并有一個或多個屬性值。因此，該控件和其對應(yīng)的屬性值在邏輯上形成關(guān)聯(lián)，對應(yīng)了DeepWeb后臺數(shù)據(jù)庫的一個字段。一個查詢接口可以抽象的表示為：F=(N,A,A2.An),其中N為

17、表單的名字，Ai為查詢接口的屬性序列，A=(L.,巴，E2.Ek),，其中L.為ii12Ki屬性標(biāo)簽，E.為表單控件。以某圖書搜索表單為例進行解釋：數(shù)據(jù)接口F=(search，舛亠.宀),其中Ai=(author，textbox,radio1,radio2,radio3)。其次，進行Map操作，提取表單特征，主要提取如特定關(guān)鍵詞和控件類型，控件名稱等。另本文考慮從表單結(jié)構(gòu)獲取特征，因此對下拉框select和文本框TEXTAREA的內(nèi)容不做提取。簡單算法描述如下：最后，在reducer里對每個mapper傳過來的表單進行全局統(tǒng)計和標(biāo)準(zhǔn)化,并存儲為中間結(jié)果A。算法描述如下：reduce(key,v

18、alues)while(values.hasNext()merge(key,values);整合表單特征數(shù)據(jù)standard(key,values);/標(biāo)準(zhǔn)化特征集emit(k,v);/生成中間數(shù)據(jù)，其中k是表單名字，v是屬性序列規(guī)則過濾MapReduce(MR)規(guī)則過濾MR在自動分類過程中加入一些啟發(fā)式的規(guī)則以進一步提升DeepWeb查詢接口判定的效率和準(zhǔn)確性。每個mapper接收自第一步的特征提取MR過程生成的中間數(shù)據(jù)，reducer根據(jù)設(shè)定的啟發(fā)式規(guī)則過濾掉非研究所需的表單。借鑒文獻7,具體規(guī)則設(shè)定如下：規(guī)則1：給定一個閾值?，具有nv?的表單將被忽略不予考慮，n表示W(wǎng)eb表單中需要填寫

19、的字段個數(shù)(即字段屬性是input但非按鈕字段)，通常?三2。規(guī)則2：對于給定表單丫，如果Y含有字段元素對應(yīng)標(biāo)簽名為用戶名、密碼等的HTML類型元素，Y表單將被忽略不予考慮。規(guī)則3：對于只含有一個復(fù)選框(checkbox)或只含有一個可選列表(selectlist)的輸入限制表單應(yīng)該拋棄。規(guī)則1用于去除那些簡單的一般搜索表單，如站內(nèi)搜索表單；規(guī)則2用來去除那些需要進一步注冊，購買或要登陸的表單；規(guī)則3用于去除一些類似用戶調(diào)查、鏈接map(input_pagelist)extract(k1,v1)抽取FORM標(biāo)簽中name屬性值extract(k2,v2)/抽取action屬性值提取的詞轉(zhuǎn)向的非

20、搜索表單。盡管這三個規(guī)則非常簡單，但在實驗中它們可以非常有效的去除4性能測試與分析4.1系統(tǒng)配置服務(wù)器虛擬化DeepWe聚焦爬蟲系統(tǒng)實驗環(huán)境配置如下：一臺IBMsystemX3650M2(Xeon55302.4GHz/2*2GB/l*146GB)服務(wù)器，基于VMwareESX2.0的虛擬化平臺，蘇州大學(xué)校園網(wǎng)絡(luò)帶寬。由于DeepWeb的數(shù)據(jù)庫具有主題多樣性，本實驗對其中的3個領(lǐng)域(飛機票，圖書，工作)進行測試。所采用的數(shù)據(jù)源如表1所示。領(lǐng)域描述數(shù)據(jù)源機票機票查詢 HYPERLINK 機票機票查詢 HYPERLINK 機票機票查詢 HYPERLINK http:/www.china-asS.co

21、im http:/www.china-asS.coim圖書圖書購買hLLp:/圖書圖書購買http:/www.an.zJ工作工作查詢 HYPERLINK 工作工作查詢Illip./WWWtill11.coin表1數(shù)據(jù)對象抽取的測試數(shù)據(jù)源設(shè)置聚焦爬行停止的條件為當(dāng)某站點已發(fā)現(xiàn)的不同的查詢接口數(shù)多于5或下載的頁面數(shù)大于100時，該站點中的鏈接就不再處理了。4.2測試結(jié)果為了說明虛擬化技術(shù)在數(shù)據(jù)源發(fā)現(xiàn)方面的可行性，我們在服務(wù)器虛擬化前后從數(shù)據(jù)源發(fā)現(xiàn)的效率及服務(wù)器使用率兩方面進行對比。圖3為上述實驗環(huán)境中，服務(wù)器虛擬化前與虛擬化后分別從3個領(lǐng)域中聚焦爬蟲爬行到DeepWeb數(shù)據(jù)源查詢接口數(shù)量的對比圖。

22、從圖中可以看出，虛擬化后的聚焦爬蟲可從每個領(lǐng)域中爬取到更多的查詢接口。因此，爬蟲的數(shù)據(jù)源發(fā)現(xiàn)效率得到提升。4500400035003000250020001500虛擬化前1虛擬化后1000總爬取頁面數(shù)(a)機票45004000350030002500200015001000500虛擬化前1虛擬化后總爬取頁面數(shù)(b)圖書(c)工作圖3虛擬化前后爬蟲爬取到查詢接口數(shù)量對比圖圖4為單位時間內(nèi)，虛擬化前后服務(wù)器爬取到的總的下載頁面數(shù)的對比圖。由圖所知，由于虛擬出單獨的解析下載服務(wù)器，改進后的模型可在同樣時間內(nèi)下載到更多的頁面。結(jié)合圖3，可以得到以下結(jié)論：服務(wù)器虛擬化后的聚焦爬蟲具有更高的DeepWeb

23、數(shù)據(jù)源發(fā)現(xiàn)能力，爬行效率有所提高。此外，表2是虛擬化前后服務(wù)器硬件使用率的對比圖。從表中可以看出，服務(wù)器進行虛擬化后，其CPU，內(nèi)存，存儲器及帶寬都得到相應(yīng)的提高。也就是說，通過WMware對服務(wù)器資源的規(guī)劃利用，服務(wù)器得到更為充分的使用。表2虛擬化前后服務(wù)器使用率對比表硬件資源虛擬化前虛擬化后CPU5%-10%30%-50%內(nèi)存30%-40%70%-80%存儲器10%10%-20%帶寬5%10%-20%擴展研究實驗結(jié)果證明服務(wù)器虛擬化技術(shù)可以提高DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的能力，緩解服務(wù)器壓力，因此虛擬化技術(shù)在DeepWeb數(shù)據(jù)挖掘領(lǐng)域應(yīng)用是可行的。首先，數(shù)據(jù)源發(fā)現(xiàn)僅為DeepWeb數(shù)

24、據(jù)集成的一部分，數(shù)據(jù)源的管理，聚類分析等方面都可利用一定的虛擬化技術(shù)來提高。其次服務(wù)器虛擬化技術(shù)可以在不增加資金成本的前提下按需提供服務(wù)器，而且不需要對現(xiàn)有程序進行改動即可增加相應(yīng)的功能。如對聚焦爬蟲爬行策略進行改進只需對聚焦爬行服務(wù)器進行操作，或?qū)eepWeb數(shù)據(jù)源進行增量抓取時只需改進抓取服務(wù)器以提高效率，如同某一“即插即用”設(shè)備。最后，本實驗中的服務(wù)器虛擬化技術(shù)僅是虛擬化技術(shù)的一種應(yīng)用，其他虛擬化技術(shù)如網(wǎng)絡(luò)虛擬化，存儲虛擬化等都可以標(biāo)準(zhǔn)化的DeepWeb數(shù)據(jù)源進行操作，以提高數(shù)據(jù)共享，實時更新的效率。云計算特點：動態(tài)可擴展：5結(jié)論DeepWeb信息量大，主題專一，信息質(zhì)量高，信息結(jié)構(gòu)化

25、好等優(yōu)點，除了其自身異構(gòu)性和自治性對高效率的搜索和采集DeepWeb數(shù)據(jù)源產(chǎn)生制約外，服務(wù)器工作效率，網(wǎng)絡(luò)帶寬等外界因素也對數(shù)據(jù)源發(fā)現(xiàn)效率產(chǎn)生影響。Deepweb聚焦爬蟲可從內(nèi)部改進爬蟲數(shù)據(jù)采集的策略獲取更多數(shù)據(jù)源，而服務(wù)器虛擬化技術(shù)可實現(xiàn)對資源合理分配。利用虛擬化技術(shù)對現(xiàn)有的DeepWeb聚焦爬蟲系統(tǒng)進行改進，虛擬建立3個功能不同的配置不同服務(wù)器，通過實驗測試證明改進后的模型有效提高爬蟲數(shù)據(jù)源發(fā)現(xiàn)能力，同時服務(wù)器的使用率也得到相應(yīng)提升。最后深入分析了虛擬化技術(shù)在DeepWeb數(shù)據(jù)挖掘領(lǐng)域應(yīng)用的可能性。參考文獻：何禹,胡宇鴻,王一波.虛擬化技術(shù)在校園網(wǎng)數(shù)據(jù)中心的應(yīng)用J.電子科技大學(xué)學(xué)報,2007,36(6):1461-1464.HEY,HUYH,WANGYP.ApplicationofVirtualizationTe

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)

文檔簡介

溫馨提示

最新文檔

評論

基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔