探究基于云計(jì)算的Web結(jié)構(gòu)挖掘算法_第1頁(yè)
探究基于云計(jì)算的Web結(jié)構(gòu)挖掘算法_第2頁(yè)
探究基于云計(jì)算的Web結(jié)構(gòu)挖掘算法_第3頁(yè)
探究基于云計(jì)算的Web結(jié)構(gòu)挖掘算法_第4頁(yè)
探究基于云計(jì)算的Web結(jié)構(gòu)挖掘算法_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、探究基于云計(jì)算的web結(jié)構(gòu)挖掘算法摘要:云計(jì)算是基于互聯(lián)網(wǎng)的一種超級(jí)計(jì)算模式,能夠?yàn)閷eb屮 的所有數(shù)據(jù)信息集中在一起,為其提供各種服務(wù)。數(shù)據(jù)挖掘是獲取web網(wǎng) 頁(yè)中的有用的信息,隨著互聯(lián)網(wǎng)的快速發(fā)展,web網(wǎng)頁(yè)中的數(shù)據(jù)信息量顯 著增加,傳統(tǒng)挖掘算法已經(jīng)無(wú)法滿足用戶的實(shí)際需求,基于云計(jì)算的web 結(jié)構(gòu)挖掘算法,能夠打破傳統(tǒng)挖掘算法的桎梏,對(duì)于web網(wǎng)頁(yè)信息和知識(shí) 的發(fā)現(xiàn)提供了很大的便利。文章分析了云計(jì)算的特點(diǎn)以及服務(wù)模式,探析 了一種基于云計(jì)算的web結(jié)構(gòu)挖掘算法,即基于mapreduce的pagerank 算法,以供參考。關(guān)鍵詞:云計(jì)算;web;結(jié)構(gòu)挖掘算法中圖分類號(hào):tp311文獻(xiàn)標(biāo)識(shí)碼

2、:a文章編號(hào):1009-3044 (2015) 06-0010-02數(shù)據(jù)挖掘指的是對(duì)大量、復(fù)雜的數(shù)據(jù)信息進(jìn)行分析,然后從中獲取有 用的數(shù)據(jù)信息?,F(xiàn)如今,重要的數(shù)據(jù)信息都儲(chǔ)存在web網(wǎng)頁(yè)上,由此可見 研究web數(shù)據(jù)挖掘的重要性。但是,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,web網(wǎng) 頁(yè)上的數(shù)據(jù)信息量不斷地增加,網(wǎng)絡(luò)環(huán)境也越來(lái)越復(fù)雜,想要從web網(wǎng)頁(yè) 中挖掘出有用的信息,傳統(tǒng)的節(jié)點(diǎn)計(jì)算、儲(chǔ)存算法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求, 基于云計(jì)算的web結(jié)構(gòu)挖掘算法,能夠有效地解決傳統(tǒng)算法存在的問(wèn)題, 例如,基于mapreduce的pagerank算法,以其強(qiáng)大的網(wǎng)絡(luò)數(shù)據(jù)信息獲取 能力、計(jì)算能力、儲(chǔ)存能力,能夠更加快速、高效的挖

3、掘、計(jì)算和儲(chǔ)存web 網(wǎng)頁(yè)的信息和知識(shí)。因此,文章針對(duì)基于云計(jì)算的web結(jié)構(gòu)挖掘算法的研 究具有非常重要的現(xiàn)實(shí)意義。1云計(jì)算的特點(diǎn)以及服務(wù)模式分析1.1云計(jì)算的特點(diǎn)云計(jì)算是一種基于用戶需求,為用戶提供主動(dòng)服務(wù)的超級(jí)計(jì)算模式。云計(jì)算能夠?yàn)橛脩籼峁┕蚕淼姆?wù)模式,并口能夠支持多個(gè)用戶的不同需 求。云計(jì)算能夠滿足不同規(guī)模的計(jì)算需求,由信息和資源處理中心對(duì)需求 進(jìn)行快速的分析和調(diào)節(jié),并進(jìn)行云計(jì)算。云計(jì)算采用按量計(jì)費(fèi)的方式,用 戶不需耍対沒(méi)有消費(fèi)的服務(wù)買單,這樣既能夠降低成木,又能夠避免造成 浪費(fèi)。1.2云計(jì)算的服務(wù)模式分析云計(jì)算的服務(wù)模式主要包括以下幾個(gè)方面:1) iaas, infraslruelu

4、re as a service 基礎(chǔ)設(shè)施即服務(wù),根據(jù) 用戶權(quán)限,可以直接方位云計(jì)算提供的網(wǎng)絡(luò)寬帶、分布式儲(chǔ)存、并行運(yùn)算 等基礎(chǔ)設(shè)置,同時(shí)可以根據(jù)自己的需求,搭建負(fù)荷自己需求的平臺(tái);2) paas, platform as a service 平臺(tái)即服務(wù),云計(jì)算能夠?yàn)橛?戶提供一個(gè)平臺(tái),包括工具集與軟件開發(fā)語(yǔ)言,其能夠?yàn)橛脩艚M建一個(gè)虛 擬的操作系統(tǒng),用戶根據(jù)自己的需求在該平臺(tái)上開發(fā)以及部署相應(yīng)的平臺(tái) 與應(yīng)用;3) saas, software as a service軟件即服務(wù),用戶根據(jù)自己的需求,使用基于云計(jì)算架構(gòu)的應(yīng)用程序?yàn)樽约悍?wù),例如網(wǎng)絡(luò)儲(chǔ)存、在線 表格、在線文檔、電子郵件等。2基于ma

5、preduce的pagerank算法分析2. 1基于mapreduce的pagerank算法的實(shí)現(xiàn)2. 1. 1算法數(shù)據(jù)準(zhǔn)備按照鏈接結(jié)構(gòu)文件格式將文件轉(zhuǎn)換成針對(duì)每一個(gè)節(jié)點(diǎn)的出鏈接結(jié)構(gòu) 文件,其中預(yù)處理數(shù)據(jù)包由網(wǎng)頁(yè)上的海量數(shù)據(jù)信息組成,在map執(zhí)行的過(guò) 程中,按照map方法,生成所有起始節(jié)點(diǎn)的目標(biāo)點(diǎn)的,其中key表示起始 節(jié)點(diǎn),value表示冃標(biāo)節(jié)點(diǎn),每一個(gè)key為初始化pagerank值,然后輸出 數(shù)據(jù)到hdfso2. 1.2算法的實(shí)現(xiàn)pagerank算法輸出的每個(gè)節(jié)點(diǎn),按照map方法對(duì)輸入每一彳亍記錄的目 標(biāo)節(jié)點(diǎn)順序,按照每個(gè)key歸類mapreduce框架采集map方法對(duì)應(yīng)的value0

6、按照reduce方法,將每一個(gè)key:頁(yè)面y,對(duì)的所有項(xiàng)進(jìn)行加和,然后帶 入公式:pk+1二datpk+ (1-d)(公式1)計(jì)算,其屮,pk表示第k次迭代 后的pagerank向量,at表示矩陣的轉(zhuǎn)置矩陣,然后輸出所有頁(yè)面全新的 pagerank,即獲得所有key初始化的pagerank值,在hdfs中儲(chǔ)存所有的 計(jì)算結(jié)果,進(jìn)行下一次迭代計(jì)算。在迭代計(jì)算過(guò)程中,mapper對(duì)所有起點(diǎn) 的目標(biāo)點(diǎn)生成一個(gè)與之對(duì)應(yīng)的partial,然后把所有的partial傳送至 mapreduce 屮。2. 2基于mapreduce的pagerank算法的改進(jìn)分析2. 2.1迭代并行pagerank改進(jìn)算法分析

7、按照pagerank算法的傳統(tǒng)計(jì)算公式,推算pagerank算法的向量公式,即公式1,因此按照初始向量p0進(jìn)行向量pk的遞推,過(guò)程表現(xiàn)為:pl二 datpo+ (1-d) e (公式 2)p2= d2 (at) 2p0+d (1-d) ate+ (1-d) e (公式 3)pk二+dk (at) kpo+ dk-1 (1-d) (at) k-le+d (1-d) ate+ (ld) e (公式4)通過(guò)上述遞推過(guò)程,以跨度為2計(jì)算公式為:p2= d2(at)2p0+d(l-d) ate+ (1-d) e迭代并行pagerank改進(jìn)算法的過(guò)程表現(xiàn)為以下幾個(gè)方面:1)在計(jì)算 之前,應(yīng)該先生成和跨度相

8、關(guān)的鄰接矩陣,以22為例,采用mapreduce 計(jì)算at,根據(jù)mapreduce過(guò)程獲得(at) 2, mapreduce在迭代的過(guò)程中, 以初始pagerank向量、at以及(at) 2為輸入文件,最后生成相應(yīng)的 pagerank向量,按照上述步驟進(jìn)行反復(fù)迭代,如圖1所示。按照“移動(dòng)計(jì) 算比移動(dòng)數(shù)據(jù)更經(jīng)濟(jì)”的思想,應(yīng)該盡可能將被計(jì)算的數(shù)據(jù)儲(chǔ)存在原來(lái)的 位置,避免出現(xiàn)數(shù)據(jù)大量移動(dòng)的現(xiàn)象,這樣既能夠提高系統(tǒng)吞吐量,又不 至于造成網(wǎng)絡(luò)的堵塞。因此,hdfs中儲(chǔ)存的at以及(at) 2不會(huì)隨著迭 代的改變而改變。當(dāng)k=2時(shí),可將算法分為三個(gè)階段:1)輸入上述階段 生成的鏈接構(gòu)成文件g,并用g代替鄰

9、接矩陣的at,將首列作為目標(biāo)節(jié)點(diǎn), 第i行,第j列節(jié)點(diǎn)用ati, j表示;2)使用第一階段獲得的at,生成相 應(yīng)的鏈接結(jié)構(gòu)文件,然后獲得相應(yīng)的矩陣,通過(guò)計(jì)算獲得(at) 2; 3) k=2, 因此每次的迭代跨度都為2,采用迭代并行pagerank算法計(jì)算向量,輸入 笫一階段獲得的at,計(jì)算d (1-d) ate+ (1-d) e,輸入笫二階段獲得的 (at) 2,計(jì)算d2 (at) 2p0,獲得新的pagerank向量,并保存在i1dps中,分析矩陣分塊并行pagerank改進(jìn)算法,用矩陣如圖2所示,reduce階段 的額外性能消耗,通常來(lái)自于排序階段與混合階段,如果在排序階段屮存 在眾多ke

10、y關(guān)鍵詞,將會(huì)消耗了大量的時(shí)間,如果將塊大小設(shè)定為b,通 過(guò)mapreduce處理z后的向量塊、數(shù)量塊等將會(huì)減少為1/b。采用矩陣分 塊并行pagerank算法進(jìn)行改進(jìn)之后,一個(gè)向量塊能夠表示b條向量塊, 而且改進(jìn)之后向量塊之間并不存在外鏈接的節(jié)點(diǎn),因此不會(huì)生成相應(yīng)的記 錄,這樣能夠冇效的節(jié)省大量鄰接矩陣空間,從而降低儲(chǔ)存空間的消耗。 同時(shí),由于不需要記錄之前b條向量,記錄的總條數(shù)明顯降低,占用的內(nèi) 存量顯著降低,進(jìn)而境地i/o消耗,山此可見其優(yōu)勢(shì)。3結(jié)束語(yǔ)總而言之,web網(wǎng)頁(yè)上的信息量顯著增加,并且日增長(zhǎng)量呈指數(shù)級(jí)發(fā) 展,面對(duì)如此多的數(shù)據(jù)信息和龐大的web信息資源庫(kù),想要從屮獲得用戶 所需要

11、的信息和知識(shí),其難度可想而知。文章探析的一種基于云計(jì)算的web 結(jié)構(gòu)挖掘算法,即基于mapreduce的pagerank算法,能夠更加快速、準(zhǔn) 確地從web網(wǎng)頁(yè)中提取用戶所需要的信息和知識(shí)。同時(shí),基于云計(jì)算的web 結(jié)構(gòu)挖掘算法的研究和應(yīng)用尚處在初級(jí)階段,還需要從以下幾個(gè)方面進(jìn)行 研究:1)研究能夠在高壓力、高并發(fā)以及大容量的web環(huán)境中運(yùn)行的k-span 算法。2)加強(qiáng)對(duì)hadoop調(diào)度機(jī)制的深入研究,使iladoop算法變得更加準(zhǔn)確、高效。3) 實(shí)現(xiàn)算法從單機(jī)平臺(tái)向云計(jì)算平臺(tái)的轉(zhuǎn)移,充分利用云計(jì)算高效、 準(zhǔn)確的優(yōu)勢(shì)。雖然上述幾個(gè)方面還需要我們深入的研究,但是,基于云計(jì)算的web 結(jié)構(gòu)挖局算法,以其強(qiáng)人的計(jì)算與儲(chǔ)存能力,受到社會(huì)各界的廣泛關(guān)注。參考文獻(xiàn):1 倪靖.一種基于云計(jì)算的web結(jié)構(gòu)挖掘算法j電腦知識(shí)與技 術(shù),2011, 7 (24): 5933-5935.2 藍(lán)昊慧.云計(jì)算在web結(jié)構(gòu)挖掘算法中的運(yùn)用研究j.計(jì)算機(jī) 時(shí)代,20

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論