下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、云計算架構(gòu)下Web數(shù)據(jù)挖掘探究數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)庫和人工智能領(lǐng)域研究的熱點。文章從云計算的概 念及關(guān)鍵技術(shù)出發(fā),詳細闡述了在云計算下的Web數(shù)據(jù)挖掘的各種技術(shù)方法, 分析了 Web數(shù)據(jù)挖掘技術(shù),并對云計算基礎(chǔ)上的Web數(shù)據(jù)挖掘進行了探討。1引言Web搜索技術(shù)在一定程度上解決了用戶查找網(wǎng)絡(luò)信息的問題,但卻沒有解決 知識發(fā)現(xiàn)的問題,并沒有充分地揭示W(wǎng)eb信息資源中隱藏的知識,人們迫切需 要一種比Web數(shù)據(jù)挖掘技術(shù)更高,可以從Web上快速、有效地發(fā)現(xiàn)資源和知識 的技術(shù),基于云計算機的Web數(shù)據(jù)挖掘技術(shù)因此應(yīng)運而生。2云計算及關(guān)鍵技術(shù)云計算的定義在維基百科中,云計算被表述為一種基于互聯(lián)網(wǎng)的計算,在
2、其中共享的資源、 軟件和信息以一種按需的方式提供給計算機和設(shè)備,就如同日常生活中的電網(wǎng)一 樣。云計算一般們提供的是基于Web瀏覽器的、在線商業(yè)應(yīng)用程序的服務(wù)。云 計算的概念已經(jīng)超越了單純的軟件交付。虛擬化技術(shù)虛擬化是云計算最重要的技術(shù)基礎(chǔ),虛擬化技術(shù)實現(xiàn)物理資源的統(tǒng)一表示和 邏輯抽象。通過虛擬化技術(shù)可以提高資源利用率,可以改變根據(jù)用戶的業(yè)務(wù)需求, 快速和靈活的資源部署。虛擬化技術(shù)不僅可以擴大硬件的容量而且可以簡化軟件 的重新配置過程。CPU虛擬化技術(shù)還可以用單CPU模擬多CPU并行,允許一個 平臺同時運行多個操作系統(tǒng),同時應(yīng)用程序可以運行在空間上,并且相互獨立的、 相互影響,從而顯著提高計算機
3、的效率。如果虛擬化的未來開展將包含更多的元 素,多元化的服務(wù)器、存儲和網(wǎng)絡(luò),用戶將無法區(qū)分什么是虛擬的,什么是真實 的。虛擬化將改變口前傳統(tǒng)的IT基礎(chǔ)設(shè)施和互聯(lián)網(wǎng)的所有資源都在一起形成一 個大型計算中心,而我們卻不用關(guān)心所有這一切,而只需關(guān)心提供給自己的服務(wù) 是否正常。并行編程模型并行編程模式,通俗地說就是指并行編程的一種形式,一種方式,就像串行 編程時,你是采用過程式還是結(jié)構(gòu)化一般。并行編程模式只要指并行編程時,程 序員將程序各模塊并行執(zhí)行時.模塊間的通信方式.并行計算模型是提高海量數(shù)據(jù) 處理效率的常用方法。云計算環(huán)境下的并行計算機模型屬于而向互聯(lián)網(wǎng)數(shù)據(jù)密集 型應(yīng)用的并行編程模型,云計算下把
4、海量數(shù)據(jù)分布到多個結(jié)點上,將計算機并行 化,利用多個計算機的計算資源,加快數(shù)據(jù)處理的速度。為保證高可靠性、高可用與經(jīng)濟性,云計算通常是采用分布式存儲的方式來 對數(shù)據(jù)進行存儲,使用冗余存儲的方式來保證存儲數(shù)據(jù)的可靠性,也就是說,同 一數(shù)據(jù)的多個副本存儲、云計算系統(tǒng)由大量服務(wù)器,以及大量用戶,因此,云計 算系統(tǒng)使用分布式數(shù)據(jù)存儲模式,冗余存儲的方式來保證數(shù)據(jù)的可靠性。3 Web數(shù)據(jù)挖掘分析Web數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘就是從海量信息中提取對人們有用信息的過程,這些有用的信息是 隱含的,可能是用戶事先小知道的,有用信息的形式是多樣化的,可能是概念信 息、規(guī)那么信息,也可能是規(guī)律信息、模式信息。數(shù)據(jù)挖掘過
5、程中涉及到對數(shù)據(jù)及 數(shù)據(jù)關(guān)系的考察和建模,涉及到許多數(shù)據(jù)或數(shù)據(jù)關(guān)系的計算,將大容量數(shù)據(jù)轉(zhuǎn)化 為有用信息。Web數(shù)據(jù)挖掘是指的是從文檔結(jié)構(gòu)和使用結(jié)構(gòu)中挖掘有用信息的過程,其涉 及到的技術(shù)涵蓋多個領(lǐng)域,例如數(shù)據(jù)庫領(lǐng)域、統(tǒng)計學(xué)領(lǐng)域、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域等。 3.2 Web數(shù)據(jù)特點Web數(shù)據(jù)有著自身的特點,具體來說表達在以下幾個方而:異構(gòu)數(shù)據(jù)庫環(huán) 境:在Web中,每一個站點都可能產(chǎn)生數(shù)據(jù),都相當(dāng)于一個數(shù)據(jù)源,這些數(shù)據(jù)源 都是異構(gòu)的,其信息和組織都存在著差異性,從而構(gòu)成了異構(gòu)數(shù)據(jù)庫環(huán)境;分 布式特點:Web以互聯(lián)網(wǎng)為基礎(chǔ),其頁而能夠分布在世界各地的Web服務(wù)器之上, 這就決定了數(shù)據(jù)源的分布式特點;半結(jié)構(gòu)化:
6、Web上的數(shù)據(jù)異常復(fù)雜,沒有一個 統(tǒng)一的模型來對數(shù)據(jù)進行描述,其結(jié)構(gòu)化小完全,常常呈現(xiàn)出半結(jié)構(gòu)化數(shù)據(jù)的形 式化;動態(tài)性:Web各個站點的動態(tài)性較強,每一個站點的鏈接信息、訪問記錄 信息等信息的更新是十分快速和頻繁的;復(fù)雜性:Web包含的數(shù)據(jù)和信息形式是 多樣的、復(fù)雜的,有文本信息、圖表信息、圖像信息、超文本信息、音頻信息、 視頻信息等多種復(fù)雜的多媒體數(shù)據(jù)信息。Web數(shù)據(jù)挖掘分類內(nèi)容挖掘Web內(nèi)容挖掘就是從大量的Web頁而、頁而鏈接所指向內(nèi)容及數(shù)據(jù)庫中數(shù) 據(jù)發(fā)現(xiàn)并提取有用信息的過程。Web內(nèi)容挖掘可以分為文本挖掘和多媒體挖掘兩 種形式,這兩種內(nèi)容挖掘形式在數(shù)據(jù)信息提取特征上有著一定的差異性。而從
7、具 體的挖掘方法上來看,Web內(nèi)容挖掘主要可以分為信息抽取方法和數(shù)據(jù)庫方法, 數(shù)據(jù)庫方法能夠從數(shù)據(jù)庫中數(shù)據(jù)來搜索信息、發(fā)現(xiàn)信息,通過信息抽取方法能夠 將數(shù)據(jù)庫中的有用信息進行抽取,從而實現(xiàn)有用數(shù)據(jù)的挖掘。結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘就是從Web結(jié)構(gòu)中挖掘有用信息的過程,Web結(jié)構(gòu)主要可以 分為組織結(jié)構(gòu)、文檔結(jié)構(gòu)以及Web鏈接關(guān)系結(jié)構(gòu)等,具體來說,在分析Web結(jié) 構(gòu)的過程中,能夠?qū)摱Y(jié)構(gòu)和鏈接關(guān)系進行分析,在二者之間能夠發(fā)現(xiàn)隱含的 有用模式,同時可以實現(xiàn)對鏈接以及鏈接頁而的分類,從中發(fā)現(xiàn)并挖掘出權(quán)威頁 而,這就是Web結(jié)構(gòu)挖掘的主要過程。使用挖掘Web使用挖掘指的是對用戶訪問模式挖掘的過程,其依賴于
8、數(shù)據(jù)挖掘技術(shù), 能夠有效提升網(wǎng)絡(luò)信息服務(wù)質(zhì)量,對于改進Web服務(wù)器性能也有著重要的作用。 4云計算技術(shù)下的Web數(shù)據(jù)挖掘云計算技術(shù)下的Web數(shù)據(jù)挖掘借助于云計算的關(guān)鍵技術(shù),實現(xiàn)傳統(tǒng)Web數(shù) 據(jù)挖掘技術(shù)的優(yōu)化。云計算的并行處理和海量存儲能力解決了數(shù)據(jù)挖掘所而臨的 海量數(shù)據(jù)處理問題。數(shù)據(jù)的收集數(shù)據(jù)收集是Web使用挖掘的基礎(chǔ),Web使用挖掘的對象是日志信息,是用 戶與系統(tǒng)交互時留下的日志數(shù)據(jù),并存儲在-個數(shù)據(jù)倉庫。如果數(shù)據(jù)倉庫的問題 是數(shù)據(jù)可能會喪失。收集到的數(shù)據(jù)在云計算下對數(shù)據(jù)信息在網(wǎng)絡(luò)上進行第一次篩 選、轉(zhuǎn)換和統(tǒng)一,并最終從數(shù)據(jù)后可以轉(zhuǎn)化為一個統(tǒng)一的半結(jié)構(gòu)化的XML文件, 將其保存在一個分布式文
9、件系統(tǒng)。因此,不僅可以優(yōu)化數(shù)據(jù)收集方法,并防止存 儲數(shù)據(jù)的損失由設(shè)備故障引起的。云計算下的數(shù)據(jù)挖掘是一個很好的能保證共享 技術(shù),降低了數(shù)據(jù)挖掘應(yīng)用門檻,使大規(guī)模的數(shù)據(jù)挖掘需要得到滿足。數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理保證Web使用挖掘質(zhì)量的關(guān)鍵環(huán)節(jié)之一,它主要包括四個方 而:(1)數(shù)據(jù)凈化刪除采集數(shù)據(jù)中的無用信息;(2)用戶識別是從日志數(shù)據(jù)中識別出 有多少個用戶,確定哪些信息是同一個用戶留下的;(3)會話識別是在用戶識別的 基礎(chǔ)上,將同一個用戶訪問記錄按照不同的訪問時間段區(qū)分開來;(4)格式化是數(shù) 據(jù)預(yù)處理的最后一個步驟,在這個步驟中,將預(yù)處理完的數(shù)據(jù)轉(zhuǎn)換成符合挖掘算 法要求的格式存儲起來,供以后挖掘使用
10、。數(shù)據(jù)分析數(shù)據(jù)分析是運用挖掘算法對預(yù)處理后的數(shù)據(jù)進行分析,從中發(fā)現(xiàn)隱含的知 識。不同的挖掘口的會使用不同的挖掘算法:(1)統(tǒng)計分析是數(shù)據(jù)挖掘中最常用的 方法,它主要是通過對日志數(shù)據(jù)的統(tǒng)計;(2)關(guān)聯(lián)規(guī)那么用于挖掘用戶之間、頁而之 間及用戶和網(wǎng)上行為之間存在的潛在關(guān)系;(3)序列模式是在一組時間有序的事務(wù) 活動中,找出事務(wù)發(fā)生的先后次序;(4)分類聚類主要是根據(jù)用戶的詢問歷史或過 去所需信息的歷史來判斷用戶需要什么樣的信息等。5結(jié)束語云計算是傳統(tǒng)計算機技術(shù)和網(wǎng)絡(luò)技術(shù)開展融合的產(chǎn)物,也是引領(lǐng)未來信息產(chǎn) 業(yè)創(chuàng)新的關(guān)鍵戰(zhàn)略性技術(shù)和手段。隨著計算機網(wǎng)絡(luò)的迅猛開展,使得網(wǎng)絡(luò)上的各 種資源信息異常豐富,而數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾,也 越來越突出人們希望在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上,進行科學(xué)研究、商業(yè)決 策或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度打印機設(shè)備翻新與再利用服務(wù)合同4篇
- 二零二五年度儲油罐安全操作培訓(xùn)與指導(dǎo)合同4篇
- 二零二五年度房屋漏水修復(fù)與防水涂料供應(yīng)合同4篇
- 二零二五年度電商企業(yè)品牌形象設(shè)計與推廣合同7篇
- 二零二四年度智能農(nóng)業(yè)區(qū)域承包合同模板3篇
- 二零二五年度車輛掛名權(quán)拍賣服務(wù)合同模板4篇
- 二零二五年度誠意金退還及合同解除協(xié)議(房地產(chǎn)租賃)4篇
- 二零二五年度派遣員工勞動合同解除與再就業(yè)協(xié)議
- W-3Re合金再結(jié)晶及氫同位素滯留行為研究
- 二零二五年度水泥管行業(yè)人才培訓(xùn)與引進采購合同
- 《健康體檢知識》課件
- 2023年護理人員分層培訓(xùn)、考核計劃表
- 生產(chǎn)計劃主管述職報告
- GB/T 44769-2024能源互聯(lián)網(wǎng)數(shù)據(jù)平臺技術(shù)規(guī)范
- 2025年四川省新高考八省適應(yīng)性聯(lián)考模擬演練(二)地理試卷(含答案詳解)
- 【經(jīng)典文獻】《矛盾論》全文
- 部編版語文五年級下冊 第一單元 專項訓(xùn)練課外閱讀(含答案)
- 2024年寧夏回族自治區(qū)中考英語試題含解析
- 客人在酒店受傷免責(zé)承諾書范本
- 練字本方格模板
- 《老山界》第1第2課時示范公開課教學(xué)PPT課件【統(tǒng)編人教版七年級語文下冊】
評論
0/150
提交評論