大與數(shù)據(jù)挖掘技術(shù)綜述_第1頁(yè)
大與數(shù)據(jù)挖掘技術(shù)綜述_第2頁(yè)
大與數(shù)據(jù)挖掘技術(shù)綜述_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

:近年來(lái),數(shù)據(jù)量大量增長(zhǎng),像因特網(wǎng)和大型數(shù)據(jù)庫(kù)的出現(xiàn)“信息但知識(shí)匱乏”挖掘的常用技術(shù)算法以及數(shù)據(jù)挖掘未來(lái)的應(yīng)用。數(shù)據(jù)挖掘算法,應(yīng)用 Inrecentyears,withtherapidgrowthofdata,liketheemergenceofInternetandlargedatabases, hasarisenfrom―astronomicalinformationbutpoorknowledge‖.howtodigoutthedatasentbackpotentiallyusefulinformation, eahottopicofconcerntoeverybody,theresultingdataminingtechniques emorepopular,adata-processingtechnology.Thispaperprovidesasurveyfordataminingbrieflyintroducestheconceptofdatamining,classification,method,technology,algorithm,andapplicationinthefuture.Key:datamining,algorithm, 一、數(shù)據(jù)挖掘(datamining)的基本概念: 消費(fèi)者喜好和行為。從大量的數(shù)據(jù)中抽取以前位置并具有潛在可用的模式。二、數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的任務(wù)就是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式其可以發(fā)現(xiàn)的模式一般分為兩類:描述性(descriptive)模式和預(yù)測(cè)型(predictive)模式,描述型模式是對(duì)當(dāng)前數(shù)據(jù)對(duì)于時(shí)間序列型數(shù)據(jù),根據(jù)其歷史和當(dāng)前的值去預(yù)測(cè)未來(lái)的值,細(xì)分模式如下1分類模式發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的變量,將其映射如一直類別中。2聚類用于描述和發(fā)現(xiàn)數(shù)和模式的數(shù)據(jù)元組為一類,是類內(nèi)各元組相似程序最高,類間差異最大。3關(guān)聯(lián) 于發(fā)現(xiàn)給定或記錄中經(jīng)常一起發(fā)生的項(xiàng)目,由此推斷間潛在的關(guān)聯(lián),識(shí)別有可能重復(fù)發(fā)生的模式。4序列模式 三、數(shù)據(jù)挖掘的方法: 遺傳算法、神經(jīng)網(wǎng)絡(luò)、可視化和聯(lián)機(jī)分析等。1決策樹(shù):決策樹(shù)是利用信息論的知識(shí),對(duì)數(shù)據(jù)進(jìn)行分類的法,廣泛應(yīng)用于商業(yè)山個(gè),用于分離和預(yù)測(cè),QuinlanID3結(jié)果額度高,作用率高。2神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法通過(guò)模仿認(rèn)得神經(jīng)速擬合非線性數(shù)據(jù),因而被廣泛的應(yīng)用于數(shù)據(jù)挖掘中。3規(guī)則歸納:規(guī)則歸納是數(shù)據(jù)挖關(guān)的形式表示出了。4遺傳算法遺傳算法根據(jù)生物進(jìn)化理論,通過(guò)模擬自然進(jìn)化過(guò)程,分類挖掘。聯(lián)機(jī)分析處理對(duì)數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表時(shí)組要通過(guò)表的形式。通過(guò)對(duì)用戶現(xiàn)有的和歷史的數(shù)據(jù)精心分析,得出有用的結(jié)論,為做出決策提供依據(jù)。其應(yīng)用的對(duì)象主要是公司市場(chǎng)策略的制定,銀行風(fēng)險(xiǎn)的分析與預(yù)測(cè)等領(lǐng)域。5傳統(tǒng) 傳統(tǒng)導(dǎo)向系統(tǒng)是針對(duì)專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。采用的方法從簡(jiǎn)單的分析直到給予高深數(shù)學(xué)基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗(yàn)?zāi)P蜑榍疤帷?傳統(tǒng)統(tǒng) 重復(fù)進(jìn)行一系列操作。7神經(jīng)元網(wǎng)路技術(shù) 法在DM的應(yīng)用方面,當(dāng)需要復(fù)雜或不精確數(shù)據(jù)中到處概念和確定比較時(shí)刻利用神經(jīng)網(wǎng)絡(luò)技術(shù)。8數(shù)據(jù)可視化面對(duì)大量的數(shù)據(jù),利用數(shù)據(jù)可視化工具可以通過(guò)富有成效持?jǐn)?shù)據(jù)甚至提供動(dòng)畫功能,可以從多個(gè)方向,不同的層次同時(shí)對(duì)數(shù)據(jù)進(jìn)行分析。四、數(shù)據(jù)挖掘的算法1.TheApriorialgorithm Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)頻集。2.Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一個(gè)聚類算法,把n的對(duì)象根據(jù)他們的屬性分為k個(gè)分割,k<n。它與處理混合正態(tài)分布的最大期望算法且目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小。3.Supportvectormachines 英文為SupportVectorMachine,簡(jiǎn)稱SV機(jī)( SVM的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中支持向量機(jī)將向量映射到一個(gè)更的差距越大,分類器的總誤差越小。一個(gè)極好的指南是C.J.CBurges的《模式識(shí)別支持向量機(jī)指南vanderWalt和Barnard將支持向量機(jī)和其他分類器進(jìn)行了比較。4.最大期望(EM)算法 在統(tǒng)計(jì)計(jì)算中,最大期望(EM,Expectation– ization)算法是在概率ariabl領(lǐng)域。5.PageRank PageRank是算法的重要內(nèi)容。2001年9月被授予專利,Page頁(yè),而是指佩奇,即這個(gè)等級(jí)方法是以佩奇來(lái)命名的。PageRank根據(jù)的外部和內(nèi)部的數(shù)量和質(zhì)量倆衡量的價(jià)值。PageRank背后的概念是,每個(gè)到頁(yè)面的都謂的―流行度‖——衡量多少人愿意將他們的和你的掛鉤。PageRank這個(gè)概念引術(shù)中一篇 性就越高。6.AdaBoost Adaboost是一種迭代算法,其思想是針對(duì)同一個(gè)訓(xùn)練集決策分類器。7.kNN:k-nearestneighborclassification K最近鄰(k-NearestNeighbor,KNN)分類算法,是一個(gè)理論上比較成方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于 五、數(shù)據(jù)挖掘的應(yīng)用應(yīng)用:數(shù)據(jù)挖掘技術(shù)域都是信息量大,環(huán)境發(fā)展,需要知識(shí)幫助進(jìn)行掛歷和決策的領(lǐng)域。主要應(yīng)用方向:1)顧客歷史記錄,貨物進(jìn)出,消費(fèi)與服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源2)在金融數(shù)據(jù)分析中的應(yīng)用。多數(shù)銀行都提供了豐富多樣的儲(chǔ)蓄,信數(shù)據(jù)挖掘相當(dāng)有利。3)在醫(yī)學(xué)上的應(yīng)用。最近,生物醫(yī)學(xué)迅猛發(fā)展,從新藥的開(kāi)發(fā)到癌癥的治療通過(guò)大模序列式和功能的現(xiàn)進(jìn)行人類的識(shí)和研究人類基因演技領(lǐng)具有性的問(wèn)是從中出導(dǎo)致種斃鞥的特序模式。4業(yè)生產(chǎn)方面農(nóng)業(yè)產(chǎn)與氣有密切關(guān)系如果數(shù)挖掘技術(shù)用在氣預(yù)報(bào)中更準(zhǔn)確的發(fā)布?xì)庑畔檗r(nóng)生產(chǎn)提了一個(gè)妥的支持5數(shù)據(jù)挖掘產(chǎn)化隨著據(jù)挖掘技術(shù)應(yīng)用的益普及多大公已經(jīng)把種技術(shù)化開(kāi)發(fā)出過(guò)的挖工具比如AS和IM公推出了自的數(shù)挖掘工具Entrprener和In gentn。這些具的開(kāi)發(fā)呃是用更方便計(jì)的使數(shù)據(jù)挖技術(shù)外數(shù)據(jù)挖掘應(yīng)用在他領(lǐng)域如科研教育電信事等些充分明書及技術(shù)的重性日益顯有預(yù)測(cè)它會(huì)成為對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)之首。參考文獻(xiàn):[1]張保華數(shù)據(jù)挖掘現(xiàn)狀及常規(guī)分類算法科技創(chuàng)新2008NO36 [2]陽(yáng),中國(guó)數(shù)據(jù)挖掘研究進(jìn)展大學(xué)學(xué)報(bào)(自然科學(xué))o.47,No.4,201 [3]戴菲,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用copurkowdgeandchnoogyo.7,No21,y01 [4]孫瓊瓊靜博數(shù)據(jù)挖技術(shù)研究及用couernowedgeandchnooyvo5,No.23agust2009pp.631-6342 []方欣麗淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用copurknwedeandchnoogy o.7.No29Ocoer210,pp812-813 []齊曉鋒.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)管理中的應(yīng)用研究D].阜新:遼寧工程技術(shù)大學(xué),2006 []ang,eanngehodoogydeeopn:afaoncaeudyonarscaerseconandvazaon yssusngaonsMapMasters sInternational2010ISBN:9781124189284[8]Yan,NianNon-additivemeasuresofoptimization-baseddataminingandapplications. sInternational2010ISBM97811097129889]行算法研究科技學(xué)院學(xué)報(bào)2009年3期[10]吳愛(ài)華數(shù)據(jù)挖掘在客戶關(guān)系管理中的用研究電腦知識(shí)于技術(shù)2008年25期[11]李智輝數(shù)據(jù)挖掘的常用方法及其的問(wèn)題科技2010年07期[12]MarcosM.Campos,PeterJ.Stengard,BorianaL.novaData-CentricAutomatedDataMiningDec.2005ProceedingsoftheInternationalConferenceonMachineLearningandApplications[13]DavidR.MusicantAdataminingcourseforcomputerscience:primarysourcesandimplementationsMar.2006Proceedingsofthe37thSIGCSEtechnicalsymposiumonComputerscienceeducation[14]RuomingJin,GaganAgrawalAnAlgorithmforIn-CoreFrequentItemsetMiningonStreamingDataNov.2005ProceedingsoftheFifthIEEEInternationalConferenceonDataMining15]200804期[16]NingJiang,RoyVillafane,KienA.Hua,AbhijitSawant,KiranPrabhakaraADMiRe:AnAlgebraicDataMiningApproachtoSystemPerformanceysisJul.2005IEEETransactionsonKnowledgeandDataEngineering卷次:17期:7[17]

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論