



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于云計(jì)算的海量數(shù)據(jù)挖掘摘要在一個(gè)信息爆炸的時(shí)代,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)很好地滿足了用戶對于數(shù)據(jù)庫中可理解知識(shí)的精準(zhǔn)認(rèn)識(shí)。依靠網(wǎng)絡(luò)資源,云計(jì)算提供了一種動(dòng)態(tài)可伸縮的虛擬性資源模式,實(shí)現(xiàn)了用戶按使用率付費(fèi)。云計(jì)算在節(jié)約資源和提高信息化上具有應(yīng)用價(jià)值。MapReduce是一種云計(jì)算環(huán)境下的并行計(jì)算模型,在數(shù)據(jù)挖掘方面具有很大技術(shù)優(yōu)勢。此外,要很好地應(yīng)用基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù),我們還需關(guān)注虛擬機(jī)遷移、服務(wù)器整合、能耗管理、流量管理與分析、軟件框架和存儲(chǔ)技術(shù)與數(shù)據(jù)管理等的關(guān)鍵問題?!娟P(guān)鍵詞】云計(jì)算海量數(shù)據(jù)挖掘研究1 前言我們正處于一個(gè)信息爆炸的時(shí)代,現(xiàn)在大約每隔十八個(gè)月的時(shí)間全球的數(shù)據(jù)量就
2、會(huì)翻一倍,而且數(shù)據(jù)總量還呈現(xiàn)不斷增加的趨向。海量的數(shù)據(jù)為企業(yè)或者個(gè)人帶來了各種便利,但是也帶來了甄別、選擇有價(jià)值數(shù)據(jù)的難度。而云計(jì)算平臺(tái)正好契合了對此類高效挖掘數(shù)據(jù)的要求,它擁有高度虛擬化和高可用化的優(yōu)勢,可以對資源進(jìn)行動(dòng)態(tài)的調(diào)度和分配。因此,融合云計(jì)算技術(shù)和數(shù)據(jù)挖掘技術(shù)無疑是一套很好的解決方案。目前,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)已經(jīng)開始走向商業(yè)應(yīng)用階段,其中以谷歌實(shí)驗(yàn)室提出的MapReduce 并行計(jì)算模型最具代表性。它具有顯著的數(shù)據(jù)處理效率,可以為各類企業(yè)提供有效的數(shù)據(jù)挖掘服務(wù),能為企業(yè)提高增效節(jié)支提供助力。2 云計(jì)算2.1 云計(jì)算的定義云計(jì)算是一種依靠互聯(lián)網(wǎng)提供動(dòng)態(tài)可伸縮的虛擬性資源的模
3、式,它充分發(fā)揮了互聯(lián)網(wǎng)的資源優(yōu)勢,把互聯(lián)網(wǎng)上暫時(shí)閑置的資源加以了合理配置。它是一種全新的理念,是按照使用量付費(fèi)的新型模式。通過設(shè)立計(jì)算資源的共享池,它整合了互聯(lián)網(wǎng)上的各種計(jì)算資源,實(shí)現(xiàn)了快速、按需和廉價(jià)地提供服務(wù)。因此,對于用戶而言,完全不必知道誰是真正的服務(wù)提供者,也無需關(guān)心支持云計(jì)算的服務(wù)器等基礎(chǔ)設(shè)施是如何工作和管理的。目前,云計(jì)算主要存在三種主要的商業(yè)模式,它們是軟件即服務(wù)(SaaS,平臺(tái)即服務(wù)(Paas和基礎(chǔ)架構(gòu)即服務(wù)(IaaS。2.2 云計(jì)算的應(yīng)用價(jià)值云計(jì)算具有很大的使用價(jià)值。首先,云計(jì)算通過對互聯(lián)網(wǎng)上的服務(wù)器的集群,對各類資源進(jìn)行篩選整理并根據(jù)客戶的實(shí)際需求加以有針對性的提供,從而
4、極大地節(jié)約了資源。這對于用戶和云計(jì)算運(yùn)營商來講都能節(jié)省大量的資源,提供了很大的便利。同時(shí),相比大型計(jì)算機(jī)的單獨(dú)運(yùn)作,云計(jì)算在大數(shù)據(jù)處理,特別是深層數(shù)據(jù)挖掘和整合方面具有無與倫比的優(yōu)勢。以計(jì)算資源池為依托,云計(jì)算可以處理海量數(shù)據(jù)和超大型文件資料。2.3 云計(jì)算環(huán)境下的并行計(jì)算模型谷歌實(shí)驗(yàn)室提出的MapReduce概念是一個(gè)分布式并行編程的模型或者說是技術(shù)框架,可用于并行處理大規(guī)模的數(shù)據(jù)。它的主要技術(shù)思路是先將一個(gè)MapReduce的數(shù)據(jù)處理作業(yè)分解為若干個(gè)能夠獨(dú)立運(yùn)行的Map任務(wù),把任務(wù)分配給不同的計(jì)算機(jī)去執(zhí)行,生成各自獨(dú)立的統(tǒng)一格式的某種中間文件,然后由Reduce任務(wù)合并這些Map任務(wù),并最
5、終獲得一個(gè)輸出文件。3 基于云計(jì)算的海量數(shù)據(jù)挖掘3.1 數(shù)據(jù)挖掘簡單地說,數(shù)據(jù)挖掘就是對數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)過程。它是在海量的數(shù)據(jù)中找到新型的、有效的或是可能有用的并能被人類理解的模式的一個(gè)過程。對于企業(yè)用戶而言,他們希望獲得看似混沌的海量數(shù)據(jù)中可理解的那部分知識(shí),而且希望這類知識(shí)是非常精準(zhǔn)的,比如一些電商用戶希望了解他們服務(wù)的客戶群體的行為模式和偏好等。3.2 云計(jì)算數(shù)據(jù)挖掘服務(wù)的優(yōu)勢總體而言,基于云計(jì)算的海量數(shù)據(jù)挖掘具有四方面的優(yōu)勢。(1基于云計(jì)算的海量數(shù)據(jù)挖掘采用分布式數(shù)據(jù)挖掘的方式,效率非常高,而且是實(shí)時(shí)動(dòng)態(tài)開展的。因此,它的應(yīng)用面非常廣泛,能夠滿足不同類型、不同規(guī)模的組織形態(tài)的需求。它
6、既能為中小型用戶節(jié)約大量的資金成本,提高工作效率,又能幫助大型企業(yè)用戶緩解特定數(shù)據(jù)處理的需求對于大型計(jì)算機(jī)的技術(shù)依賴性。(2對于用戶而言,基于云計(jì)算的海量數(shù)據(jù)挖掘使用起來非常簡便。由于云計(jì)算分布式的數(shù)據(jù)處理模式,用戶不必考慮數(shù)據(jù)劃分和數(shù)據(jù)分配等繁瑣的數(shù)據(jù)挖掘處理的過程。(3基于云計(jì)算的海量數(shù)據(jù)挖掘提高了原有機(jī)器設(shè)備的利用率水平,通過服務(wù)器集成和協(xié)同工作提高了處理大數(shù)據(jù)的能力。而且,它的資源利用的可伸縮性非常靈活,并具有很高的容錯(cuò)能力。(4基于云計(jì)算的海量數(shù)據(jù)挖掘把應(yīng)用的門檻放得很低,實(shí)現(xiàn)了數(shù)據(jù)挖掘技術(shù)上的資源共享,回應(yīng)了市場的急切需求。3.3 云計(jì)算技術(shù)在海量數(shù)據(jù)挖掘過程中的關(guān)鍵問題要很好地實(shí)
7、現(xiàn)云計(jì)算技術(shù)在海量數(shù)據(jù)挖掘中的作用,還需要妥善解決虛擬機(jī)遷移、服務(wù)器整合、能耗管理、流量管理與分析、軟件框架和存儲(chǔ)技術(shù)與數(shù)據(jù)管理這六方面的關(guān)鍵問題。(1實(shí)現(xiàn)虛擬機(jī)遷移是為了回避熱點(diǎn),減輕數(shù)據(jù)負(fù)載,使數(shù)據(jù)處理處于減壓平衡的狀態(tài)。但是,由于目前的技術(shù)水平限制,系統(tǒng)的靈活性還尚顯不足,回避熱點(diǎn)有時(shí)較難做到。此外,一些服務(wù)器的數(shù)據(jù)負(fù)載能力無法與高效的遷移需要相匹配。(2通過服務(wù)器整合,讓高頻與低頻錯(cuò)位配置,能夠把能耗壓縮到最低。但是,這種理想的狀況常常會(huì)被資源利用的動(dòng)態(tài)性所打斷,從而出現(xiàn)瞬時(shí)的信息擁堵情況的發(fā)生。(3能耗成本在云計(jì)算運(yùn)營中的占比非常高,大致超過了一半的成本支出。4 結(jié)語?之,傳統(tǒng)的數(shù)據(jù)挖掘方式已經(jīng)無法滿足用戶的需求,而云計(jì)算技術(shù)對于海量數(shù)據(jù)挖掘和數(shù)據(jù)處理方面具有極大的優(yōu)勢。通過對云計(jì)算關(guān)鍵技術(shù)問題的解決,云計(jì)算在海量數(shù)據(jù)挖掘上必能有更大的作為。參考文獻(xiàn)1巴濟(jì)慈.基于云計(jì)算的海量數(shù)據(jù)挖掘處理與研究D.長春:長春理工大學(xué),2013.2賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究J.計(jì)算機(jī)技術(shù)與發(fā)展
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 布展工程合同范本
- 創(chuàng)新創(chuàng)業(yè)支持政策分析會(huì)議服務(wù)合同
- 2025年商標(biāo)權(quán)轉(zhuǎn)讓合同的生效依據(jù)
- 合同變更確認(rèn)條款
- 租房簡約合同范本
- 生化檢驗(yàn)合同范本
- 桌椅拆除合同范本
- 股權(quán)期權(quán)授予合同范本
- 政府采購服務(wù)類合同范本
- 第2單元第6課 奔向光明-亮度傳感器的應(yīng)用和條件控制-教學(xué)設(shè)計(jì)2023-2024學(xué)年清華大學(xué)版(2012)初中信息技術(shù)九年級下冊
- 2025年蘇州健雄職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 2025年南京信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 如何管理好一家公寓
- 2025年零售業(yè)員工職業(yè)發(fā)展規(guī)劃與培訓(xùn)
- 2025年八省聯(lián)考高考語文試題真題解讀及答案詳解課件
- 《復(fù)合材料電纜溝蓋板》團(tuán)體標(biāo)準(zhǔn)
- 2025年中國中車集團(tuán)招聘筆試參考題庫含答案解析
- 初中《音樂》第二單元《黃河兩岸的歌(2)》課件
- 術(shù)前準(zhǔn)備與術(shù)后護(hù)理指南
- GB/T 44963-2024儲(chǔ)糧保水技術(shù)規(guī)范
- 《電力系統(tǒng)綜合實(shí)踐》課程教學(xué)大綱
評論
0/150
提交評論