版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘技術(shù)近年來,隨著計算機對數(shù)據(jù)的生成、收集、存貯和處理能力的大大提高,數(shù)據(jù) 量與日俱增,傳統(tǒng)的數(shù)據(jù)分析工具對海量數(shù)據(jù)的處理力不從心,數(shù)據(jù)挖掘技術(shù)應(yīng)運 而生。1數(shù)據(jù)挖掘的應(yīng)用與研究發(fā)展數(shù)據(jù)挖掘是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘 有用知識的過程。數(shù)據(jù)挖掘是一門新興的邊緣學科,近年來引起了中國學術(shù)界和 產(chǎn)業(yè)界的廣泛關(guān)注。數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,90年代有了突飛猛進的發(fā)展。2001 年,Gartner Group的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五 年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù) 據(jù)挖掘列為未來五年內(nèi)投
2、資焦點的十大新興技術(shù)前兩位。美國麻省理工學院在 2001年1月份的科技評論(Technology Review)提出將在未來5年對人類產(chǎn)生 重大影響的10大新興技術(shù),其中第3項就是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)已被廣泛的應(yīng)用于各個領(lǐng)域,其中一些典型應(yīng)用如加州理工學 院噴氣推進實驗室與天文科學家合作開發(fā)的SKICAT系統(tǒng),能夠幫助天文學家發(fā)現(xiàn) 遙遠的類星體,是人工智能技術(shù)在天文學和空間科學上的第一批成功應(yīng)用之一; 生物學研究中用數(shù)據(jù)挖掘技術(shù)對DNA進行分析;利用數(shù)據(jù)挖掘技術(shù)識別顧客的 購買行為模式,對客戶進行了分析;利用數(shù)據(jù)挖掘技術(shù)識別顧客的購買行為模式, 對客戶進行了分析;對銀行或商業(yè)上經(jīng)常發(fā)生的詐騙
3、行為進行預(yù)測;舊M公司開 發(fā)的AS(Advanced Scout)系統(tǒng)針對NBA的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合等。數(shù)據(jù)挖掘技術(shù)匯集了來自機器學習、模式識別、數(shù)據(jù)庫、統(tǒng)計學以及管理信 息系統(tǒng)等學科的成果。多學科的相互交融和相互促進,使得數(shù)據(jù)挖掘這一新學科 得以蓬勃發(fā)展。1995年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學術(shù)會議,由于數(shù) 據(jù)庫中的數(shù)據(jù)被形象地比喻為礦床,數(shù)據(jù)挖掘一詞很快流傳開來。1995年以來, 國外在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方面形成了熱門研究方向,其中發(fā)表論文比較集中的 期刊如:Data Mining and Knowledge Discovery(數(shù)據(jù)挖掘和知識發(fā)現(xiàn))、Artific
4、ial Intelligence Review(人工智能評論)等。2數(shù)據(jù)挖掘技術(shù)的研究對數(shù)據(jù)挖掘的理論研究主要在以下六個方面:OLAP技術(shù)、面向?qū)傩缘臍w納 法、關(guān)聯(lián)規(guī)則、分類和預(yù)測、聚類和與數(shù)據(jù)倉庫的集成技術(shù)。2.1 OLAP 技術(shù)聯(lián)機分析處理(On-Line Analytical Processing,OLAP)是關(guān)系數(shù)據(jù)庫之父E.F.Codd博士在1993年提出的。OLAP可以在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù) 據(jù)集市上進行,使用數(shù)據(jù)立方體結(jié)構(gòu),OLAP操作可以有效地實現(xiàn)。OLAP技術(shù)主要 是應(yīng)用隱含在數(shù)據(jù)里的領(lǐng)域背景知識對數(shù)據(jù)進行操作,為用戶在不同的抽象層上 提供數(shù)據(jù)。OLAP技術(shù)一般都是
5、集成在數(shù)據(jù)倉庫中實現(xiàn)的。面向?qū)傩缘臍w納方法2.2面向?qū)傩缘臍w納方法1991年,Jiawei Han等提出了面向?qū)傩缘臍w納方法 (Attribute-Oriented,AO)10,這是一種有效的、完整的知識發(fā)現(xiàn)算法,算法的一個關(guān) 鍵就是攀升屬性所對應(yīng)的概念層次樹,把原始數(shù)據(jù)集的數(shù)據(jù)泛化到用戶感興趣的 概念層上,減少數(shù)據(jù)集的大小,從而降低知識發(fā)現(xiàn)過程的計算復(fù)雜度。2.3關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的挖掘最早是由R.Agrawal等人于1993年提出。在關(guān)聯(lián)規(guī)則算法 的研究中,生成所有的頻繁項目集是核心問題。目前國內(nèi)對關(guān)聯(lián)規(guī)則的研究主要 集中在以下3方面:1)提高原有算法的效率在解決最大頻繁項目集的生成問題上,
6、為了提高對空間和時間的利用效率, 對數(shù)據(jù)庫的掃描次數(shù)進行了縮減,由最初的兩次掃描減少為一次就可以生成最大 頻繁集,提高了算 法的效率。2)結(jié)合其它理論對關(guān)聯(lián)規(guī)則進行研究引入粗糙集概念,使關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的模式具有較高的解釋能力和精確度。 為了解決數(shù)量關(guān)聯(lián)規(guī)則提取過程中的連續(xù)屬性離散化問題采用了聚類方法;通過 引入神經(jīng)網(wǎng)絡(luò)的概念,提出用相互激活與競爭網(wǎng)絡(luò)來進行數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則的 發(fā)現(xiàn)等??梢钥闯鐾ㄟ^引入其他領(lǐng)域的先進理論,豐富了關(guān)聯(lián)規(guī)則研究的內(nèi)容,提 高了算法的有效性。3)不同形式關(guān)聯(lián)規(guī)則的研究關(guān)聯(lián)規(guī)則最早是由購物籃分析開始的,但是隨著研究的擴展和深入,關(guān)聯(lián)規(guī) 則的應(yīng)用范圍不斷擴大,因此出現(xiàn)了多種
7、形式關(guān)聯(lián)規(guī)則的研究。由最簡單的單維、 單層、布爾關(guān)聯(lián)規(guī)則逐漸向復(fù)雜形式擴展。在基本失聯(lián)規(guī)則的基礎(chǔ)上提出了布爾 型加權(quán)關(guān)聯(lián)規(guī)則和廣義模糊型加權(quán)關(guān)聯(lián)規(guī)則算法,由單層的關(guān)聯(lián)規(guī)則擴展為多層 次關(guān)聯(lián)規(guī)則的研究19,提出了基于多維標度關(guān)聯(lián)規(guī)則算法20,其他類型的關(guān)聯(lián) 規(guī)則如借助正態(tài)模糊數(shù)模型,軟化數(shù)量屬性的劃分邊界,生成語言值關(guān)聯(lián)規(guī)則21, 引入正態(tài)云模型來替代對屬性論域的劃分,提出了挖掘正態(tài)云關(guān)聯(lián)規(guī)則的方法,基 于關(guān)聯(lián)規(guī)則的不足,還提出了轉(zhuǎn)移規(guī)則及其算法。另外對于關(guān)聯(lián)規(guī)則挖掘指導(dǎo) 思想也出現(xiàn)了變化,提出了概念指導(dǎo)的關(guān)聯(lián)規(guī)則的挖掘算法和基于概念格的關(guān)聯(lián) 規(guī)則的提取算法。2.4分類和預(yù)測分類和預(yù)測是兩種數(shù)據(jù)
8、分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或 預(yù)測未來的數(shù)據(jù)趨勢。主要的分類方法有:決策樹歸納分類法、貝葉斯分類法、 后向傳播分類法等。國內(nèi)的分類方法研究主要集中在以下內(nèi)容:1)研究貝葉斯網(wǎng)絡(luò)在分類方法中的應(yīng)用利用貝葉斯網(wǎng)絡(luò)可以找出數(shù)據(jù)之間潛在的關(guān)系,并且可以將簡單貝葉斯方 法應(yīng)用于增量分類中,這樣可以增量地修正分類器參數(shù)和增量地分類測試樣本。2)結(jié)合其他理論進行算法研究通過遺傳算法,對單個分類器進行優(yōu)化并對多個分類器進行組合優(yōu)化。通 過不同的相似性度量方法,復(fù)用完全相似或者條件相似的歷史序列,提出一種多策 略的基于CBR的趨勢預(yù)測方法。分類及預(yù)測中,神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)點是其對噪聲數(shù)據(jù)具有較高的
9、承受能力, 對未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類識別的能力。但是它的主要缺點是可解釋性差,這影 響了神經(jīng)網(wǎng)絡(luò)技術(shù)的使用。相對于神經(jīng)網(wǎng)絡(luò)技術(shù),決策樹技術(shù)的優(yōu)點比較易于理 解和解釋,而它受到的典型批評是由于遞歸劃分方式導(dǎo)致數(shù)據(jù)子集變小,失去了進 一步劃分的意義。貝葉斯分類方法從理論上講具有最小的出錯率,還可以用來為 不直接使用貝葉斯定理的其他分類算法提供理論判定。其缺點主要來自于貝葉斯 分類的假定,當假定成立時,與其它分類算法相比是最精確的,然而,在實踐中,假定 不一定總是成立。2.5聚類聚類是一個活躍的研究領(lǐng)域,聚類就是將數(shù)據(jù)對象分組成為多個類或簇,在 同一個簇中的對象之間具有較高的相似度,而不同簇中的對象
10、則差別較大,聚類算 法具體可以分為:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法以及 基于模型的方法等。聚類分析可以用作獨立的數(shù)據(jù)挖掘工具,來獲得對數(shù)據(jù)分布 的了解,也可以作為其它數(shù)據(jù)挖掘算法的預(yù)處理步驟。目前聚類研究主要集中在對復(fù)雜聚類方法上,如對高維數(shù)據(jù)的可視化聚類 方法,以及基于大規(guī)模交易數(shù)據(jù)庫的二次聚類聚類算法CATD。該算法只需掃描一次數(shù)據(jù)庫,聚類過程在內(nèi)存中進行,因此能處理大規(guī)模的數(shù)據(jù)庫。聚類的各 種方法的主要區(qū)別在于實現(xiàn)算法的思想不同,聚類的各種方法各有其優(yōu)缺點,算法 的選擇取決于數(shù)據(jù)的類型、聚類的目的和應(yīng)用。一些聚類算法可能集成了多種聚 類算法的思想,此外,某些應(yīng)用可能有
11、特定的聚類標準,要求綜合使用多種聚類技 術(shù)。2.6與數(shù)據(jù)倉庫的集成技術(shù)研究比較通用的對數(shù)據(jù)倉庫的定義是W.H.Inmon在1996年提出的,他認為數(shù)據(jù)倉 庫一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過 程。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更廣闊的活動空間。數(shù)據(jù)倉庫完成了數(shù)據(jù)的收集、 集成、存儲、管理等工作,數(shù)據(jù)挖掘面對的是經(jīng)初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能 更專注于知識的發(fā)現(xiàn)。數(shù)據(jù)倉庫具有不同于數(shù)據(jù)庫的新特點,并對數(shù)據(jù)挖掘技術(shù) 提出了更高的要求,數(shù)據(jù)挖掘技術(shù)要充分發(fā)揮潛力,就必須和數(shù)據(jù)倉庫的發(fā)展結(jié)合 起來。目前數(shù)據(jù)倉庫的供應(yīng)商很多,比較著名的有IBM、Oracle、Sybase
12、、微軟等。 舊M和Oracle等公司的數(shù)據(jù)倉庫技術(shù)中含有不同的策略和算法,以IBM和Oracle 為例,IBM在其數(shù)據(jù)倉庫系統(tǒng)中集成了 IntelligentMiner能夠進行典型數(shù)據(jù)集自動 生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化呈現(xiàn),它可以自動實現(xiàn)數(shù) 據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果呈現(xiàn)這一整套數(shù)據(jù)挖掘操作。Oracle集成了 Oracle Darwin系統(tǒng),這是基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘工具,具有簡單易用的圖形化界 面,能夠提供決策樹、神經(jīng)網(wǎng)絡(luò)等多種數(shù)據(jù)挖掘方法,支持海量數(shù)據(jù)的并行處理, 分析結(jié)果可以和現(xiàn)有系統(tǒng)集成應(yīng)用。這些表明了數(shù)據(jù)挖掘技術(shù)集成應(yīng)用是十分必 要的,也是今后發(fā)展的大趨
13、勢。3云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù)云計算已成為當前的一個研究熱點Google,Amazon,IBM等主流信息技術(shù)公 司先后提出了各自的云計算體系架構(gòu)多家研究機構(gòu)也提出了各種云計算實踐平 臺如芝加哥大學和佛羅里達大學開發(fā)的用于科研教育的彈性云計算平臺nimbus cloud和florida cloud。云計算是借助高速帶寬和虛擬化技術(shù)”在分布式計算,并 行計算,網(wǎng)格計算和效用計算基礎(chǔ)上的進一步發(fā)展。目前云計算還處于研究與 應(yīng)用的初級階段尚未形成統(tǒng)一的標準和定義,分析和綜合眾多云計算定義可以 得出其基本特點,云環(huán)境具有超大規(guī)模的存儲和計算能力資源和結(jié)構(gòu)具有動態(tài) 伸縮性并且通過虛擬化技術(shù)和龐大的資源池
14、按需提供服務(wù),云計算的這些特點 使數(shù)據(jù)存儲,分析和應(yīng)用的商業(yè)化成為可能也使云計算環(huán)境下的數(shù)據(jù)挖掘成為 一個具有理論和應(yīng)用價值的研究領(lǐng)域。隨著業(yè)務(wù)量的增長和業(yè)務(wù)范圍的擴展企業(yè)數(shù)據(jù)庫中積累了海量的商業(yè)數(shù) 據(jù)傳統(tǒng)的數(shù)據(jù)挖掘模式無法滿足海量數(shù)據(jù)挖掘?qū)τ嬎隳芰Φ男枨笠蚨枰?立具有高性能計算能力的新型數(shù)據(jù)挖掘模式,同時網(wǎng)絡(luò)環(huán)境下為了適應(yīng)數(shù)據(jù)量 的增長和跨地區(qū)的業(yè)務(wù)操作企業(yè)的數(shù)據(jù)多存儲在分布式的數(shù)據(jù)倉庫或數(shù)據(jù)中心 上現(xiàn)有的大量數(shù)據(jù)管理軟件和商業(yè)決策軟件不支持網(wǎng)絡(luò)環(huán)境下的分布式挖掘技 術(shù)因而需要構(gòu)建一個能夠處理分布式數(shù)據(jù)存儲,分布式執(zhí)行數(shù)據(jù)分析任務(wù)的數(shù) 據(jù)挖掘模式,云計算為網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘提供了良好的
15、解決方案解決了傳 統(tǒng)數(shù)據(jù)挖掘方法在網(wǎng)絡(luò)數(shù)據(jù)分析中存在的問題,云計算環(huán)境下的資源以分布式的 形式存儲數(shù)據(jù)挖掘任務(wù)的執(zhí)行模式有別于傳統(tǒng)的本地單機挖掘模式符合網(wǎng)絡(luò) 環(huán)境下數(shù)據(jù)挖掘的要求,云計算超大規(guī)模的服務(wù)器集群具備超強的計算能力云 存儲具備強大的存儲能力,數(shù)據(jù)分析能力和數(shù)據(jù)管理能力其共同構(gòu)成了海量數(shù) 據(jù)挖掘開發(fā)和應(yīng)用的有利基礎(chǔ),現(xiàn)有的數(shù)據(jù)挖掘解決方案大多以系統(tǒng)為中心特 別重視算法和系統(tǒng)工程沒有從用戶的角度探討數(shù)據(jù)挖掘技術(shù)的應(yīng)用使系統(tǒng)難 于操作和使用。一些數(shù)據(jù)挖掘工具只適合專業(yè)技術(shù)人員,如果對算法不了解!則 難以得出好的模型,這也增加了企業(yè)縱向開發(fā)數(shù)據(jù)挖掘平臺的技術(shù)成本阻礙了數(shù) 據(jù)挖掘的企業(yè)應(yīng)用。云
16、計算環(huán)境從面向服務(wù)的角度為數(shù)據(jù)挖掘提供了良好的解決 方案。在云平臺中,存儲,平臺,應(yīng)用都是可共享的資源。這些資源被封裝成具 有統(tǒng)一接口的組件,以服務(wù)的形式提供給用戶和開發(fā)者。此外,作為一種商業(yè)計 算模式,云計算的軟件即服務(wù)(software as a service,軟件即服務(wù))模式將數(shù)據(jù)挖 掘程序作為服務(wù)按需出售,降低了中小企業(yè)的數(shù)據(jù)挖掘成本,為數(shù)據(jù)挖掘商業(yè)應(yīng)用 的推廣提供了良好的平臺。在傳統(tǒng)的分布式數(shù)據(jù)挖掘和網(wǎng)格數(shù)據(jù)挖掘的基礎(chǔ)上,結(jié)合現(xiàn)有的云計算相 關(guān)研究,國內(nèi)外的專家學者們對云計算環(huán)境下的數(shù)據(jù)挖掘進行了開拓性的探索, 提出了初步的設(shè)計構(gòu)想?,F(xiàn)有的研究成果主要集中在3個方面:一是云計算環(huán)境
17、 下的數(shù)據(jù)挖掘算法研究,即通過算法在云計算環(huán)境下的移植或改進,來提高算法 的性能。二是云計算環(huán)境下數(shù)據(jù)挖掘的體系架構(gòu)研究!即分析設(shè)計數(shù)據(jù)挖掘平臺 的體系結(jié)構(gòu)。三是云計算在數(shù)據(jù)挖掘應(yīng)用中的研究,亦即將云計算平臺作為數(shù)據(jù) 挖掘商業(yè)應(yīng)用的解決方案。云計算環(huán)境通過基礎(chǔ)設(shè)施即服務(wù)(IaaS),平臺即服務(wù)(PaaS)和軟件即服務(wù) (SaaS)3種服務(wù)模式,將數(shù)據(jù)存儲、計算設(shè)備、開發(fā)平臺、應(yīng)用軟件等軟硬件 資源以服務(wù)的形式提供給用戶,形成一種按需獲得的計算服務(wù)。在這種計算服務(wù) 的模式下,用戶使用云計算環(huán)境下的數(shù)據(jù)挖掘,關(guān)心的不是各種數(shù)據(jù)挖掘應(yīng)用在 云平臺中的實現(xiàn),而是根據(jù)數(shù)據(jù)挖掘任務(wù)的需求,最大限度地使用云
18、平臺中服務(wù) 于數(shù)據(jù)挖掘的各種資源。包括計算資源#存儲資源#應(yīng)用程序資源等,云計算環(huán)境 下的數(shù)據(jù)挖掘是一種網(wǎng)絡(luò)計算資源的應(yīng)用,其實質(zhì)是一種服務(wù)模式。用戶向云端 提出的數(shù)據(jù)挖掘任務(wù)就是一種云服務(wù),執(zhí)行數(shù)據(jù)挖掘運算的處理器和存儲空間均 視為服務(wù)的資源,與任務(wù)相關(guān)的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘算法等可看作是支 持數(shù)據(jù)挖掘服務(wù)的專用資源。3.1云計算數(shù)據(jù)挖掘服務(wù)的優(yōu)勢1)基于云計算的模式可以進行分布式并行數(shù)據(jù)挖掘,實現(xiàn)高效實時的挖掘。 同時可以適應(yīng)規(guī)模不同的組織,為中小企業(yè)帶來新型低成本計算環(huán)境,大企業(yè)云 計算平臺對某些特定數(shù)據(jù)的計算對大型高性能機的依賴性會得到減輕。2)基于云計算的數(shù)據(jù)挖掘開發(fā)方便,底層
19、被屏蔽掉了。對于用戶來說,無 需考慮數(shù)據(jù)的劃分、數(shù)據(jù)分配、加載到節(jié)點以及計算任務(wù)調(diào)度等。3)在并行化條件下利用原先的設(shè)備,可以在很大程度上提高大規(guī)模處理數(shù) 據(jù)能力。在增加結(jié)點方面也比較自由和方便,同時容錯性得到了提高。4)基于云計算的數(shù)據(jù)挖掘保證了挖掘技術(shù)的共享,降低了數(shù)據(jù)挖掘應(yīng)用的 門檻,使海量數(shù)據(jù)挖掘需求得到了滿足。3.2基于云計算的海量數(shù)據(jù)挖掘模型基于云計算的海量數(shù)據(jù)挖掘服務(wù)的主要目標是利用云計算的并行處 理和海量存儲能力,解決數(shù)據(jù)挖掘面臨的海量數(shù)據(jù)處理問題。圖1給出基 于云計算的海量數(shù)據(jù)挖掘模型的層次結(jié)構(gòu)圖。圖1基于云計算的海量數(shù)據(jù)挖掘模型的層次結(jié)構(gòu)圖基于云計算的海量數(shù)據(jù)挖掘模型大體上
20、可以分為三層。位于最底層的是云計算服 務(wù)層,提供分布式和并行數(shù)據(jù)處理及數(shù)據(jù)的海量存儲,云計算環(huán)境中對海量數(shù)據(jù) 的存儲既要考慮數(shù)據(jù)的高可用性,又要保證其安全性。云計算采用分布式方式對 數(shù)據(jù)進行存儲,為數(shù)據(jù)保存多份副本的冗余存儲方式保證了當數(shù)據(jù)發(fā)生 災(zāi)難時不影響用戶的正常使用。目前常見的云計算數(shù)據(jù)存儲技術(shù)有非開源的GFS 和開源的HDFS,其中GFS是由Google開發(fā)的,HDFS是由Hadoop團隊開發(fā)的。 此外,云計算使用并行工作模式,能夠在大量用戶同時提出請求時,迅速給予回 應(yīng)并提供服務(wù)。位于云計算服務(wù)層之上的是數(shù)據(jù)挖掘處理層,這一層又包括海量數(shù)據(jù)預(yù)處 理和海量數(shù)據(jù)挖掘算法并行化。海量數(shù)據(jù)預(yù)
21、處理主要是對海量不規(guī)則數(shù)據(jù)事先進 行處理。沒有好的數(shù)據(jù)就沒有好的數(shù)據(jù)挖掘結(jié)果。由于云計算環(huán)境下的 Mapreduce計算模型適用于結(jié)構(gòu)一致的海量數(shù)據(jù),因此,面對形態(tài)各異的海量數(shù) 據(jù),首先就要對它們進行預(yù)處理。數(shù)據(jù)預(yù)處理方法包括數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù) 據(jù)清洗和集成、數(shù)據(jù)規(guī)約、屬性概念分層的自動生成等。經(jīng)過預(yù)處理的數(shù)據(jù)能提 高數(shù)據(jù)挖掘結(jié)果的質(zhì)量,使挖掘過程更有效、更容易。海量數(shù)據(jù)挖掘的關(guān)鍵是數(shù)據(jù)挖掘算法的并行化由于云計算采用的是 Mapreduce等新型計算模型,需要對現(xiàn)有的數(shù)據(jù)挖掘算法和并行化策略進行一定 程度的改造,才有可能直接應(yīng)用在云計算平臺上進行海量數(shù)據(jù)挖掘任務(wù)。因此需 要在數(shù)據(jù)挖掘算法的
22、并行化策略上進行更為深入的研究,從而使云計算并行海量 數(shù)據(jù)挖掘算法的高效性得以實現(xiàn)。并行海量數(shù)據(jù)挖掘算法包括并行關(guān)聯(lián)規(guī)則算法、 并行分類算法和并行聚類算法,用于分類或預(yù)測模型、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān) 聯(lián)規(guī)則、序列模式、依賴關(guān)系或依賴模型、異常和趨勢發(fā)現(xiàn)等。基于此,針對海 量數(shù)據(jù)挖掘算法的固有的特點對已經(jīng)存在的云計算模型進行優(yōu)化升級以及適當 擴充,使其對海量數(shù)據(jù)挖掘的適用型得到最大程度的提升。最頂層是面向用戶的用戶層,該層主要接收用戶的請求,并將傳遞給下面 兩層,并將最終的數(shù)據(jù)挖掘結(jié)果展示給用戶。用戶通過友好的可視化界面管理和 監(jiān)視任務(wù)的執(zhí)行,并且可以很方便地查看任務(wù)執(zhí)行結(jié)果。用戶的數(shù)據(jù)挖掘請求
23、通過用戶輸入模塊傳遞到系統(tǒng)內(nèi)部,系統(tǒng)根據(jù)用戶提 交的一些數(shù)據(jù)挖掘參數(shù)和基本數(shù)據(jù),在算法庫中選擇合適的數(shù)據(jù)挖掘算法,然后 調(diào)用經(jīng)過預(yù)處理階段的數(shù)據(jù),分配到MapReduce平臺上進行并行數(shù)據(jù)挖掘,挖 掘出的結(jié)果通過結(jié)果展示模塊傳遞給用戶。海量數(shù)據(jù)的存儲和并行化處理都依賴 于云計算環(huán)境。3.3基于云計算的數(shù)據(jù)挖掘服務(wù)過程云計算環(huán)境下的數(shù)據(jù)挖掘從管理角度看$是一個服務(wù)過程。從技術(shù)角度看, 是一種軟件產(chǎn)品。結(jié)合軟件的生命周期,在云計算的分布式開發(fā)過程中,探討云 數(shù)據(jù)挖掘的服務(wù)過程。將基于云計算的數(shù)據(jù)挖掘服務(wù)過程定義為分析、設(shè)計、開 發(fā)、維護和衰亡4個階段,如圖2所示。圖2云數(shù)據(jù)挖掘服務(wù)的過程1)分析階
24、段:根據(jù)需求發(fā)現(xiàn)或識別服務(wù),定義相應(yīng)的服務(wù)描述,標志著 服務(wù)生命周期的開始。2)設(shè)計階段:根據(jù)服務(wù)定義和描述,生成服務(wù)的說明書,設(shè)計服務(wù)的接 口和契約,包括服務(wù)的語義和非功能性特性,以及服務(wù)提供商、服務(wù)消費者和服 務(wù)代理之間的契約。3)開發(fā)階段:實現(xiàn)服務(wù)的功能性特性,在服務(wù)定義的范圍內(nèi)進行低耦合、 高內(nèi)聚的功能集成,最終形成獨立的服務(wù)組件,并通過服務(wù)接口進行功能的溝通 與調(diào)用。4)維護階段:服務(wù)處于運行狀態(tài)時,在不影響服務(wù)設(shè)計的前提下修復(fù)開 發(fā)的缺陷,或根據(jù)服務(wù)的需求更新已有的服務(wù)版本。服務(wù)的開發(fā)與維護是同時進 行的,使服務(wù)的生命周期處于不斷成長、成熟的循環(huán)發(fā)展狀態(tài)。5)衰亡階段:當服務(wù)的功能
25、無法通過維護滿足服務(wù)需求時,必須撤銷該 服務(wù),防止使用中服務(wù)的數(shù)量出現(xiàn)急劇膨脹。3.4基于云計算的數(shù)據(jù)挖掘問題海量數(shù)據(jù)在存儲、管理、處理與挖掘這一流程中,其本身就是一項嚴峻的 任務(wù)。主要體現(xiàn)在:1)海量數(shù)據(jù)的存儲與管理應(yīng)保障其可靠性與可拓展性。管理中要保證服 務(wù)的可信問題以及安全問題;存儲的方式還應(yīng)該滿足不同用戶的需求,因此可擴 展性也是一個不可忽略的問題。2)海量數(shù)據(jù)處理!數(shù)據(jù)規(guī)模過大,復(fù)雜情況出現(xiàn)的概率有所增加;軟硬件 的標準相應(yīng)地提高;算法的優(yōu)質(zhì)性逐漸得到重視。3)海量數(shù)據(jù)挖掘!如何針對海量的數(shù)據(jù)提取數(shù)據(jù)、歸納數(shù)據(jù)、挖掘知識, 最后形成人們便于理解的供使用的知識,相應(yīng)算法的選取和優(yōu)化是極
26、具挑戰(zhàn)性的 問題。云計算的海量數(shù)據(jù)挖掘能力更加高效,然而也存在眾多問題。首先是云環(huán) 境下從海量數(shù)據(jù)中獲取用戶滿意的信息,這一核心目標直接導(dǎo)致云環(huán)境下用戶對 數(shù)據(jù)挖掘功能的需求有所變更。用戶對海量數(shù)據(jù)挖掘效用的變更主要體現(xiàn)為個性 化需求與多樣性需求的增加。其次海量數(shù)據(jù)的挖掘除了要處置其數(shù)量級,還要處 理高維的、動態(tài)的數(shù)據(jù)。因此,云環(huán)境下對海量數(shù)據(jù)進行數(shù)據(jù)挖掘從而提供云服 務(wù)也存在一些挑戰(zhàn)。1)數(shù)據(jù)挖掘過程各個環(huán)節(jié)的不確定性。數(shù)據(jù)挖掘從其本質(zhì)的目的來說, 就是為了從不確定性的數(shù)據(jù)中分析挖掘出確定的信息,克服不確定性帶來的影響。 然而海量數(shù)據(jù)挖掘在克服不確定性方面還有待加強:首先表現(xiàn)在數(shù)據(jù)挖掘任務(wù) 的描述具有不確定性,數(shù)據(jù)采集對象與數(shù)據(jù)預(yù)處理粒度的不確定性;其次表現(xiàn)在 數(shù)據(jù)挖掘方法的不確定性;最后表現(xiàn)在數(shù)據(jù)挖掘結(jié)果評價的不確定性。2)數(shù)據(jù)挖掘算法的選取!海量數(shù)據(jù)挖掘云服務(wù)過程中,數(shù)據(jù)挖掘云服務(wù)提 供商需要根據(jù)數(shù)據(jù)挖掘的任務(wù)選擇合適的算法!數(shù)據(jù)挖掘算法的設(shè)計、參數(shù)的調(diào) 節(jié)直接影響到數(shù)據(jù)挖掘任務(wù)結(jié)果的精確度和用戶的滿意程度。3)數(shù)據(jù)挖掘云服務(wù)的可信問題。數(shù)據(jù)挖掘云服務(wù)模式得以推廣到企業(yè), 充分發(fā)揮其商業(yè)價值,首要任務(wù)是解決隱私數(shù)據(jù)的保護問題。云環(huán)境下隱私安全 問題歷來都是學者與企業(yè)研究的熱點問題之一。數(shù)據(jù)挖掘云服務(wù)的提供商在其服 務(wù)的過程中,還應(yīng)該盡量使云服務(wù)的計算模式與云用戶需求相匹配
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版產(chǎn)品技術(shù)咨詢服務(wù)費合同書一
- 2024年跨境電子商務(wù)平臺運營協(xié)議3篇
- 浙江省寧波市2025年中考語文模擬押題試卷七套【附參考答案】
- 19古詩二首 夜宿山寺 說課稿-2024-2025學年語文二年級上冊統(tǒng)編版
- 2024燃氣公司城市燃氣調(diào)峰服務(wù)天然氣購銷合同3篇
- 新時代共青團愛國主義教育
- 秘書與行政助理技巧培訓(xùn)
- 2024有關(guān)聘用合同范文集錦
- 2024技術(shù)服務(wù)咨詢費的合同范本
- 福建省南平市外屯中學2020-2021學年高一語文聯(lián)考試題含解析
- 《發(fā)電廠電氣部分》考試題庫
- 建筑施工安全生產(chǎn)包保責任實施方案
- 《哪吒鬧海》電影賞析
- 《上帝擲骰子嗎:量子物理史話》導(dǎo)讀學習通超星期末考試答案章節(jié)答案2024年
- 直播電商年終總結(jié)
- PAS 2050:2011-商品和服務(wù)在生命周期內(nèi)的溫室氣體排放評價規(guī)范(英文)
- 空調(diào)供貨方案
- 幕墻作業(yè)安全技術(shù)交底
- 《建筑工程設(shè)計文件編制深度規(guī)定》(2022年版)
- 老年病科專業(yè)知識考核試卷
- 《邊緣計算與人工智能應(yīng)用開發(fā)技術(shù)》全套教學課件
評論
0/150
提交評論