基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第1頁
基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第2頁
基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第3頁
基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第4頁
基于虛擬化技術(shù)優(yōu)化深層網(wǎng)絡(luò)聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的方法 (修復(fù)的)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于虛擬化技術(shù)對DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)模型的優(yōu)化辛潔,崔志明,趙鵬鵬,張廣銘,鮮學(xué)豐,和天旭(蘇州大學(xué)智能信息處理及應(yīng)用研究所,江蘇蘇州215006)摘要:為了提高聚焦爬蟲發(fā)現(xiàn)和搜集深層網(wǎng)絡(luò)數(shù)據(jù)源的能力,提出一種利用虛擬化技術(shù)改進DeepWeb爬蟲框架結(jié)構(gòu)的方法。通過服務(wù)器虛擬化將一臺服務(wù)器虛擬為解析下載服務(wù)器,聚焦爬行服務(wù)器和表單分類服務(wù)器,并根據(jù)各自的功能分配帶寬及服務(wù)器資源,實驗結(jié)果顯示該方法可以有效提高DeepWeb爬蟲抓取數(shù)據(jù)源的效率,避免網(wǎng)絡(luò)和硬件資源的浪費,證明了虛擬化技術(shù)的應(yīng)用可以優(yōu)化DeepWeb爬蟲的爬行能力。關(guān)鍵詞:數(shù)據(jù)源發(fā)現(xiàn);虛擬化技術(shù);DeepWeb;聚焦爬

2、蟲中圖分類號:TP393文獻標(biāo)識碼:ATheOptimizationofDeepWebFocusedCrawlersDataSourceDiscoveryModelBasedonVirtualizationTechnologyXINJie,CUIZhi-ming,ZHAOPeng-peng,ZHANGGuang-ming,XIANXue-feng,HETian-xu(TheInstituteofIntelligentInformationProcessingandApplication,SoochowUniversity,Suzhou215006,China)Abstract:Inordert

3、oimprovethefocusedcrawlersperformanceofDeepWebdatasourcesdiscoveryandsearch,anewmethodwasraisedtomodifythearchitectureofDeepWebfocusedcrawlers.ThreeserverswereestablishedafterServerVirtualizationnamedDownloadandResolveServer,FocusedCrawlingServerandInterfaceClassificationServerandgivenbandwidthandha

4、rdwarerecoursesaccordingtotheirfunctionalneeds.Experimentresultsindicatedthatthismethodcouldincreasethecrawlingefficiencyandavoidedrecourseswaste.Therefore,applyingvirtualizationtechnologyisviableandusefulforDeepWebfocusedcrawlersinfindingtheinterfacesofdatasources.Keywords:datasourcediscovery;virtu

5、alizationtechnology;DeepWeb;focusedcrawlers基金項目:國家自然科學(xué)基金資助項目(60970015)FoundationItems:NationalNaturalScienceFoundationofChina(60970015);能通過表單提交查詢來獲得。如何從DeepWeb中究將重點放在改進對內(nèi)部結(jié)構(gòu)如已有的爬蟲爬行1引言網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,海量數(shù)據(jù)使Web迅速的“深化”,這些由后臺數(shù)據(jù)庫動態(tài)產(chǎn)生的,對用戶隱藏不可見的數(shù)據(jù)不能被傳統(tǒng)的搜索引擎索引,只迅速有效的抽取信息,對數(shù)據(jù)源進行大規(guī)模的集成成為研究熱點,其中包括數(shù)據(jù)源發(fā)現(xiàn),查詢接口抽取,數(shù)據(jù)源分類

6、,查詢轉(zhuǎn)換,結(jié)果合成等,而DeepWeb數(shù)據(jù)源發(fā)現(xiàn)是信息集成的第一步。大多關(guān)于DeepWeb數(shù)據(jù)源的搜索和發(fā)現(xiàn)的研策略,增加功能模塊來避免下載不必要的頁面從而提高DeepWeb入口發(fā)現(xiàn)的效率和精度等方面。但在實際應(yīng)用中,由于不可避免的大規(guī)模數(shù)據(jù)的下載及信息的交互,因此網(wǎng)絡(luò)負載量,服務(wù)器的處理能力,資源調(diào)度等外在條件很大程度上制約了爬蟲發(fā)現(xiàn)數(shù)據(jù)源入口的能力。虛擬化技術(shù)作為云計算實現(xiàn)的關(guān)鍵技術(shù),越來越受到產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注。其優(yōu)點是可以將有限的固定的資源根據(jù)不同需求進行重新規(guī)劃以達到最大利用率。本文利用服務(wù)器虛擬化改進了DeepWeb聚焦爬蟲數(shù)據(jù)源的模型,將一臺服務(wù)器虛擬為解析下載服務(wù)器,聚焦爬

7、行服務(wù)器和表單分類服務(wù)器等3臺服務(wù)器,并依據(jù)其功能分配資源。虛擬化后的爬蟲提高了抓取DeepWeb數(shù)據(jù)源效率,合理利用現(xiàn)有資源,大幅度提高了服務(wù)器的資源利用率。并擴展分析了虛擬化技術(shù)的應(yīng)用于DeepWeb數(shù)據(jù)源發(fā)現(xiàn),管理,聚類等其他方面的可行性。本文的結(jié)構(gòu)如下:第2節(jié),簡述虛擬化及DeepWeb聚焦爬蟲的相關(guān)研究;第3節(jié),改進DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)模型;第4節(jié)對該模型進行了性能測試和擴展分析;第5節(jié),結(jié)論。2相關(guān)研究工作2.1服務(wù)器虛擬化將服務(wù)器物理資源抽象成邏輯資源,讓一臺服務(wù)器變成幾臺甚至上百臺相互隔離的虛擬服務(wù)器,或者讓幾臺服務(wù)器變成一臺服務(wù)器來用,我們不再受限于物理上的界限,

8、而是讓CPU、內(nèi)存、磁盤、I/O等硬件變成可以動態(tài)管理的“資源池”,從而提高資源的利用率,簡化系統(tǒng)管理,實現(xiàn)服務(wù)器整合,這就是服務(wù)器的虛擬化1。通過區(qū)分資源的優(yōu)先次序,可將服務(wù)器資源分配給最需要它們的工作負載,來簡化管理和提高效率。因此,借助虛擬化技術(shù),使服務(wù)器不在局限于“一個服務(wù)器一個應(yīng)用程序”的模式,具有以下優(yōu)勢2:減少所需物理服務(wù)器的數(shù)量改進服務(wù)器的可用性和運行時間降低能耗和制冷成本降低IT運營費用減少服務(wù)器配置時間加快災(zāi)難恢復(fù)的速度2.2DeepWeb聚焦爬蟲的數(shù)據(jù)源發(fā)現(xiàn)DeepWeb擁有5倍于SurfaceWeb的數(shù)據(jù)量,其數(shù)據(jù)是動態(tài)的,要通過查詢接口在線訪問站點后端的Web數(shù)據(jù)庫得

9、到。這些查詢接口是嵌入于WebPage中以Form表單形式出現(xiàn)的,數(shù)據(jù)源發(fā)現(xiàn)要求DeepWeb爬蟲必須能跟蹤超鏈接,填寫表單,最后獲取和識別結(jié)果頁面3,如圖1所示。圖1DeepWeb爬蟲系統(tǒng)框架聚焦爬蟲是一種“面向特定主題”的爬蟲,在實施網(wǎng)頁抓取時要進行主題篩選,盡量保證只抓取與主題相關(guān)的信息。DeepWeb數(shù)據(jù)源發(fā)現(xiàn)是面向DeepWeb入口聚焦的,訪問那些可能鏈接到DeepWeb入口頁面的鏈接,避免訪問下載不必要的頁面。文獻4提出了一種針對主題相關(guān)性及鏈接重要性的DeepWeb的聚焦爬蟲,可有效的可有效的提高DeepWeb數(shù)據(jù)源發(fā)現(xiàn)效率和精度。諸多研究集中于爬蟲爬行策略的改進,但沒有從改進硬

10、件資源角度去解決這個問題,因為增加一臺服務(wù)器來提高工作效率性價比很低。通過圖1不難發(fā)現(xiàn),在尋找表單,填寫表單的過程中存在大量的與遠程服務(wù)求進行的信息交互,解析下載也必然產(chǎn)生網(wǎng)絡(luò)延遲。同時,文獻2指出多數(shù)服務(wù)器利用率不高,對服務(wù)器資源的利用只有20%左右,因此,在有限資源的限制下,數(shù)據(jù)抓取時間長,效率低。但虛擬化的應(yīng)用可以改變這個現(xiàn)狀。3DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)改進模型3.1建立虛擬化模型進行虛擬化改進爬蟲結(jié)構(gòu)目的在于按需要分配資源,最大化資源利用率及爬蟲數(shù)據(jù)源發(fā)現(xiàn)效率。利用虛擬化技術(shù)將一臺服務(wù)器按功能虛擬為解析下載服務(wù)器,聚焦爬行服務(wù)器和表單分類服務(wù)器。必須指出的是該服務(wù)器并不是被簡單

11、分為若干部分(Memory/CPU/Drivecapacity),每臺虛擬后的服務(wù)器均可被認為是一臺易操作的具有獨立OS的服務(wù)器,提供不同的服務(wù),相互獨立,共享數(shù)據(jù)。具體虛擬化后的改進結(jié)構(gòu)見圖2。圖2虛擬化后DeepWeb聚焦爬蟲系統(tǒng)框架3.2解析下載服務(wù)器建立單獨一個服務(wù)器作為解析下載的服務(wù)器出于以下原因:當(dāng)爬蟲從Web中下載大量的數(shù)據(jù)成幾何倍數(shù)的增長,使得服務(wù)器內(nèi)從消耗相當(dāng)快,CPU利用率變的很低。同時,在這個過程中爬蟲需要兩次使用到網(wǎng)絡(luò)資源:域名解析和頁面采集,只是網(wǎng)絡(luò)延時占據(jù)絕大部分爬蟲運行時間,形成爬蟲運行效率的瓶頸4。服務(wù)器虛擬化的好處在于解析服務(wù)器可以專門進行URL的管理,緩解了

12、內(nèi)存的壓力,提高CPU利用率,并保證了各節(jié)點間的實時通信,充分利用網(wǎng)絡(luò)出口的帶寬,這非常符合DeepWeb對時新性的要求。解析下載服務(wù)器包含頁面解析器和待爬行URL隊列。頁面解析器主要負責(zé)頁面的搜集和解析工作。在抓取到某一頁面后,提取其所包含的所有URL,經(jīng)過規(guī)范化處理和去重,放入待訪問URL隊列。3.3聚焦爬行服務(wù)器借鑒文獻4的方法,虛擬的聚焦爬行服務(wù)器可根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的頁面,并判鏈接中是否還有指向表單接口的頁面。在從解析下載服務(wù)器得到待訪問URL隊列后,通過爬行模塊送入“頁面分類器”以判斷抓取的頁面P是否屬于當(dāng)前主題,如和當(dāng)前主題相關(guān),送入“鏈接分類器”來判斷鏈接UR

13、L是否有可能指向含有表單接口的頁面,并給該鏈接評分。具體實現(xiàn)方法是:“頁面分類器”對網(wǎng)頁進行去標(biāo)記、分詞操作后把頁面分入一個最相關(guān)的類別。“鏈接分類器”提取的特征主要是錨文本及鏈接上下文文本、URL地址、鏈接中的圖片地址。分類過程利用采用樸素貝葉斯分類算法,對于特征向量為x=X,x2,xT的測試樣本,它屬于第q類的概率如下所示:P(C.|X)=P(CJ/P(x)*wp(Xjc.)(1)j-1其中P(Ci|X)代表X屬于類Ci的概率表單。這個過程可以看出,服務(wù)器的大量工作集中于信息處理中,對網(wǎng)絡(luò)帶寬要求不高,但需要大量的內(nèi)存和CPU。虛擬化后的聚焦服務(wù)器可以合理利用資源池中的資源,提高計算及處理

14、能力。3.4表單分類服務(wù)器表單分類服務(wù)器的功能是通過表單抽取器抽取頁面中的表單接口,剔除那些不合要求的表單,篩選出本文要研究的表單并進行分類。本文重點提出了利用MAPREDUCE的方法對查詢表單接口分類,進一步提高爬蟲數(shù)據(jù)源發(fā)現(xiàn)的效率。MAPREDUCE分類器框架數(shù)據(jù)源查詢接口的分類問題涉及2方面的內(nèi)容:特征抽取和機器學(xué)習(xí)。特征抽取主要包括標(biāo)簽提取,表單控件提取,然后把他們按照邏輯關(guān)系重組成一個個的屬性集。機器學(xué)習(xí)的過程都是通過對已經(jīng)分好類的一組訓(xùn)練文本的學(xué)習(xí)來自動創(chuàng)建分類器,通過有指導(dǎo)的學(xué)習(xí)對測試文本進行分類6。引入MAPREDUCE算法模型的好處在于:第一,將要執(zhí)行的問題分解成Map(映射

15、)和Reduce(化簡)的方式,我們不需要考慮如何將輸入的數(shù)據(jù)分塊、分配和調(diào)度,只需要指定Map和Reduce的操作得到高效率的并行計算,提高抽取和分類的效率。第二,MAPREDUCE程序的輸入,輸出,中間數(shù)據(jù)都是以key/value的值對的形式出現(xiàn),方便我們對查詢接口進行定義,判斷數(shù)據(jù)源接口的類別?;谠摲椒ǎ疚脑O(shè)計的MAPREDUCE分類器包括三個MR過程:特征提取MR,規(guī)則過濾MR及機器學(xué)習(xí)MR。圖3為利用MAPREDUCE方法對表單進行分類的框架圖。圖3MAPREDUCE表單接口分類算法特征抽取MapReduce(MR)Internet中大多數(shù)的查詢接口以HTML語言編寫的Form表

16、單表示,特征抽取MR的目的是將聚焦爬行服務(wù)器過濾分類得到的待處理表單隊列進行特征抽取及標(biāo)準(zhǔn)化,為進一步判定接口類別做準(zhǔn)備。首先,對查詢接口進行抽象定義。由于表單的組成比較復(fù)雜,通常包含INPUT,SELECT,TEXTAREA三類控件,其中INPUT控件的類型元素有:文本框(textbox),單選按鈕(radio),復(fù)選框(checkbox)和下拉列表框(selectionlist)等。在表單中,每個控件都對應(yīng)一個標(biāo)簽,并有一個或多個屬性值。因此,該控件和其對應(yīng)的屬性值在邏輯上形成關(guān)聯(lián),對應(yīng)了DeepWeb后臺數(shù)據(jù)庫的一個字段。一個查詢接口可以抽象的表示為:F=(N,A,A2.An),其中N為

17、表單的名字,Ai為查詢接口的屬性序列,A=(L.,巴,E2.Ek),,其中L.為ii12Ki屬性標(biāo)簽,E.為表單控件。以某圖書搜索表單為例進行解釋:數(shù)據(jù)接口F=(search,舛亠.宀),其中Ai=(author,textbox,radio1,radio2,radio3)。其次,進行Map操作,提取表單特征,主要提取如特定關(guān)鍵詞和控件類型,控件名稱等。另本文考慮從表單結(jié)構(gòu)獲取特征,因此對下拉框select和文本框TEXTAREA的內(nèi)容不做提取。簡單算法描述如下:最后,在reducer里對每個mapper傳過來的表單進行全局統(tǒng)計和標(biāo)準(zhǔn)化,并存儲為中間結(jié)果A。算法描述如下:reduce(key,v

18、alues)while(values.hasNext()merge(key,values);整合表單特征數(shù)據(jù)standard(key,values);/標(biāo)準(zhǔn)化特征集emit(k,v);/生成中間數(shù)據(jù),其中k是表單名字,v是屬性序列規(guī)則過濾MapReduce(MR)規(guī)則過濾MR在自動分類過程中加入一些啟發(fā)式的規(guī)則以進一步提升DeepWeb查詢接口判定的效率和準(zhǔn)確性。每個mapper接收自第一步的特征提取MR過程生成的中間數(shù)據(jù),reducer根據(jù)設(shè)定的啟發(fā)式規(guī)則過濾掉非研究所需的表單。借鑒文獻7,具體規(guī)則設(shè)定如下:規(guī)則1:給定一個閾值?,具有nv?的表單將被忽略不予考慮,n表示W(wǎng)eb表單中需要填寫

19、的字段個數(shù)(即字段屬性是input但非按鈕字段),通常?三2。規(guī)則2:對于給定表單丫,如果Y含有字段元素對應(yīng)標(biāo)簽名為用戶名、密碼等的HTML類型元素,Y表單將被忽略不予考慮。規(guī)則3:對于只含有一個復(fù)選框(checkbox)或只含有一個可選列表(selectlist)的輸入限制表單應(yīng)該拋棄。規(guī)則1用于去除那些簡單的一般搜索表單,如站內(nèi)搜索表單;規(guī)則2用來去除那些需要進一步注冊,購買或要登陸的表單;規(guī)則3用于去除一些類似用戶調(diào)查、鏈接map(input_pagelist)extract(k1,v1)抽取FORM標(biāo)簽中name屬性值extract(k2,v2)/抽取action屬性值提取的詞轉(zhuǎn)向的非

20、搜索表單。盡管這三個規(guī)則非常簡單,但在實驗中它們可以非常有效的去除4性能測試與分析4.1系統(tǒng)配置服務(wù)器虛擬化DeepWe聚焦爬蟲系統(tǒng)實驗環(huán)境配置如下:一臺IBMsystemX3650M2(Xeon55302.4GHz/2*2GB/l*146GB)服務(wù)器,基于VMwareESX2.0的虛擬化平臺,蘇州大學(xué)校園網(wǎng)絡(luò)帶寬。由于DeepWeb的數(shù)據(jù)庫具有主題多樣性,本實驗對其中的3個領(lǐng)域(飛機票,圖書,工作)進行測試。所采用的數(shù)據(jù)源如表1所示。領(lǐng)域描述數(shù)據(jù)源機票機票查詢 HYPERLINK 機票機票查詢 HYPERLINK 機票機票查詢 HYPERLINK http:/www.china-asS.co

21、im http:/www.china-asS.coim圖書圖書購買hLLp:/圖書圖書購買http:/www.an.zJ工作工作查詢 HYPERLINK 工作工作查詢Illip./WWWtill11.coin表1數(shù)據(jù)對象抽取的測試數(shù)據(jù)源設(shè)置聚焦爬行停止的條件為當(dāng)某站點已發(fā)現(xiàn)的不同的查詢接口數(shù)多于5或下載的頁面數(shù)大于100時,該站點中的鏈接就不再處理了。4.2測試結(jié)果為了說明虛擬化技術(shù)在數(shù)據(jù)源發(fā)現(xiàn)方面的可行性,我們在服務(wù)器虛擬化前后從數(shù)據(jù)源發(fā)現(xiàn)的效率及服務(wù)器使用率兩方面進行對比。圖3為上述實驗環(huán)境中,服務(wù)器虛擬化前與虛擬化后分別從3個領(lǐng)域中聚焦爬蟲爬行到DeepWeb數(shù)據(jù)源查詢接口數(shù)量的對比圖。

22、從圖中可以看出,虛擬化后的聚焦爬蟲可從每個領(lǐng)域中爬取到更多的查詢接口。因此,爬蟲的數(shù)據(jù)源發(fā)現(xiàn)效率得到提升。4500400035003000250020001500虛擬化前1虛擬化后1000總爬取頁面數(shù)(a)機票45004000350030002500200015001000500虛擬化前1虛擬化后總爬取頁面數(shù)(b)圖書(c)工作圖3虛擬化前后爬蟲爬取到查詢接口數(shù)量對比圖圖4為單位時間內(nèi),虛擬化前后服務(wù)器爬取到的總的下載頁面數(shù)的對比圖。由圖所知,由于虛擬出單獨的解析下載服務(wù)器,改進后的模型可在同樣時間內(nèi)下載到更多的頁面。結(jié)合圖3,可以得到以下結(jié)論:服務(wù)器虛擬化后的聚焦爬蟲具有更高的DeepWeb

23、數(shù)據(jù)源發(fā)現(xiàn)能力,爬行效率有所提高。此外,表2是虛擬化前后服務(wù)器硬件使用率的對比圖。從表中可以看出,服務(wù)器進行虛擬化后,其CPU,內(nèi)存,存儲器及帶寬都得到相應(yīng)的提高。也就是說,通過WMware對服務(wù)器資源的規(guī)劃利用,服務(wù)器得到更為充分的使用。表2虛擬化前后服務(wù)器使用率對比表硬件資源虛擬化前虛擬化后CPU5%-10%30%-50%內(nèi)存30%-40%70%-80%存儲器10%10%-20%帶寬5%10%-20%擴展研究實驗結(jié)果證明服務(wù)器虛擬化技術(shù)可以提高DeepWeb聚焦爬蟲數(shù)據(jù)源發(fā)現(xiàn)的能力,緩解服務(wù)器壓力,因此虛擬化技術(shù)在DeepWeb數(shù)據(jù)挖掘領(lǐng)域應(yīng)用是可行的。首先,數(shù)據(jù)源發(fā)現(xiàn)僅為DeepWeb數(shù)

24、據(jù)集成的一部分,數(shù)據(jù)源的管理,聚類分析等方面都可利用一定的虛擬化技術(shù)來提高。其次服務(wù)器虛擬化技術(shù)可以在不增加資金成本的前提下按需提供服務(wù)器,而且不需要對現(xiàn)有程序進行改動即可增加相應(yīng)的功能。如對聚焦爬蟲爬行策略進行改進只需對聚焦爬行服務(wù)器進行操作,或?qū)eepWeb數(shù)據(jù)源進行增量抓取時只需改進抓取服務(wù)器以提高效率,如同某一“即插即用”設(shè)備。最后,本實驗中的服務(wù)器虛擬化技術(shù)僅是虛擬化技術(shù)的一種應(yīng)用,其他虛擬化技術(shù)如網(wǎng)絡(luò)虛擬化,存儲虛擬化等都可以標(biāo)準(zhǔn)化的DeepWeb數(shù)據(jù)源進行操作,以提高數(shù)據(jù)共享,實時更新的效率。云計算特點:動態(tài)可擴展:5結(jié)論DeepWeb信息量大,主題專一,信息質(zhì)量高,信息結(jié)構(gòu)化

25、好等優(yōu)點,除了其自身異構(gòu)性和自治性對高效率的搜索和采集DeepWeb數(shù)據(jù)源產(chǎn)生制約外,服務(wù)器工作效率,網(wǎng)絡(luò)帶寬等外界因素也對數(shù)據(jù)源發(fā)現(xiàn)效率產(chǎn)生影響。Deepweb聚焦爬蟲可從內(nèi)部改進爬蟲數(shù)據(jù)采集的策略獲取更多數(shù)據(jù)源,而服務(wù)器虛擬化技術(shù)可實現(xiàn)對資源合理分配。利用虛擬化技術(shù)對現(xiàn)有的DeepWeb聚焦爬蟲系統(tǒng)進行改進,虛擬建立3個功能不同的配置不同服務(wù)器,通過實驗測試證明改進后的模型有效提高爬蟲數(shù)據(jù)源發(fā)現(xiàn)能力,同時服務(wù)器的使用率也得到相應(yīng)提升。最后深入分析了虛擬化技術(shù)在DeepWeb數(shù)據(jù)挖掘領(lǐng)域應(yīng)用的可能性。參考文獻:何禹,胡宇鴻,王一波.虛擬化技術(shù)在校園網(wǎng)數(shù)據(jù)中心的應(yīng)用J.電子科技大學(xué)學(xué)報,2007,36(6):1461-1464.HEY,HUYH,WANGYP.ApplicationofVirtualizationTe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論