![數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)法的研究現(xiàn)狀和發(fā)展趨勢(shì)綜述_第1頁(yè)](http://file4.renrendoc.com/view/1d7bf2bd5dfce550844f925693aa567e/1d7bf2bd5dfce550844f925693aa567e1.gif)
![數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)法的研究現(xiàn)狀和發(fā)展趨勢(shì)綜述_第2頁(yè)](http://file4.renrendoc.com/view/1d7bf2bd5dfce550844f925693aa567e/1d7bf2bd5dfce550844f925693aa567e2.gif)
![數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)法的研究現(xiàn)狀和發(fā)展趨勢(shì)綜述_第3頁(yè)](http://file4.renrendoc.com/view/1d7bf2bd5dfce550844f925693aa567e/1d7bf2bd5dfce550844f925693aa567e3.gif)
![數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)法的研究現(xiàn)狀和發(fā)展趨勢(shì)綜述_第4頁(yè)](http://file4.renrendoc.com/view/1d7bf2bd5dfce550844f925693aa567e/1d7bf2bd5dfce550844f925693aa567e4.gif)
![數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)法的研究現(xiàn)狀和發(fā)展趨勢(shì)綜述_第5頁(yè)](http://file4.renrendoc.com/view/1d7bf2bd5dfce550844f925693aa567e/1d7bf2bd5dfce550844f925693aa567e5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)法的研究現(xiàn)狀和發(fā)展趨勢(shì)綜述摘要:隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,數(shù)據(jù)挖掘技術(shù)越來(lái)越受到世界的關(guān)注。從數(shù)據(jù)挖掘的概念出發(fā),介紹了數(shù)據(jù)挖掘的對(duì)象、功能及其挖掘過(guò)程,結(jié)合數(shù)據(jù)挖掘的幾種常見(jiàn)挖掘算法:決策樹(shù)法、關(guān)聯(lián)規(guī)則法和神經(jīng)網(wǎng)絡(luò)法等,對(duì)其主要思想及其改進(jìn)做了相關(guān)描述;總結(jié)了國(guó)內(nèi)外數(shù)據(jù)挖掘的研究現(xiàn)狀和應(yīng)用,指出了數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹(shù)法;關(guān)聯(lián)規(guī)則法;神經(jīng)網(wǎng)絡(luò)法;研究現(xiàn)狀;發(fā)展趨勢(shì)0引言數(shù)據(jù)挖掘作為一個(gè)新興的多學(xué)科交叉應(yīng)用領(lǐng)域,正在各行各業(yè)的決策支持活動(dòng)中扮演著越來(lái)越重要的角色。隨著信息技術(shù)的迅速發(fā)展,各行各業(yè)都積累了海量異構(gòu)的數(shù)據(jù)資料。這些數(shù)據(jù)往往隱含著各種各樣有用的信息,僅僅依靠數(shù)據(jù)庫(kù)的查詢(xún)檢索機(jī)制和統(tǒng)計(jì)學(xué)方法很難獲得這些信息,迫切需要將這些數(shù)據(jù)轉(zhuǎn)化成有用的信息和知識(shí),從而達(dá)到為決策服務(wù)的目的。數(shù)據(jù)挖掘分析得到的信息和知識(shí)現(xiàn)在已經(jīng)得到了廣泛的應(yīng)用,例如商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、知識(shí)工程、信息檢索等最新技術(shù)的研究成果。本文主要介紹了數(shù)據(jù)挖掘的幾種主要算法及其改進(jìn),并對(duì)國(guó)內(nèi)外的研究現(xiàn)狀及研究熱點(diǎn)進(jìn)行了總結(jié),最后指出其發(fā)展趨勢(shì)<sup>[1]</sup>。1研究背景數(shù)據(jù)挖掘目前數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域的研究熱點(diǎn),數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)庫(kù)中隱含知識(shí)的重要步驟。數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代末,早期主要研究從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KnowlegdeDiscoveryinDatabase,KDD),數(shù)據(jù)挖掘的概念源于1995年在加拿大召開(kāi)了第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際會(huì)議<sup>[2]</sup>。數(shù)據(jù)挖掘作為一種多學(xué)科綜合的產(chǎn)物,綜合利用人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,自動(dòng)分析數(shù)據(jù)并從中得到潛在隱含的知識(shí),從而幫助決策者做出合理并正確的決策。數(shù)據(jù)挖掘?qū)ο髷?shù)據(jù)挖掘的對(duì)象可以是任何類(lèi)型的數(shù)據(jù)源,可以是關(guān)系數(shù)據(jù)庫(kù),此類(lèi)包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)、Web數(shù)據(jù),此類(lèi)包含半結(jié)構(gòu)化數(shù)據(jù)甚至是異構(gòu)型數(shù)據(jù)的數(shù)據(jù)源<sup>[2]</sup>。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的,最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢(xún)優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等<sup>[1]</sup>。數(shù)據(jù)挖掘功能目前數(shù)據(jù)挖掘的主要功能包括概念描述、關(guān)聯(lián)分析、分類(lèi)、聚類(lèi)和偏差檢測(cè)等。概念描述主要用于描述對(duì)象內(nèi)涵并且概括此對(duì)象相關(guān)特征,概念描述分為特征性描述和區(qū)別性描述,特征性描述描述對(duì)象的相同特征,區(qū)別性描述描述對(duì)象的不同特征;關(guān)聯(lián)分析主要用來(lái)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中相關(guān)的知識(shí)以及數(shù)據(jù)之間的規(guī)律,關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián);分類(lèi)和聚類(lèi)就是根據(jù)需要訓(xùn)練相應(yīng)的樣本來(lái)對(duì)數(shù)據(jù)分類(lèi)和合并;偏差分析用于對(duì)對(duì)象中異常數(shù)據(jù)的檢測(cè)。數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘主要分3個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的評(píng)價(jià)和表達(dá)。數(shù)據(jù)準(zhǔn)備主要是完成對(duì)大量數(shù)據(jù)的選擇、凈化、推測(cè)、轉(zhuǎn)換、數(shù)據(jù)的縮減,數(shù)據(jù)準(zhǔn)備階段的工作好壞將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性,在數(shù)據(jù)準(zhǔn)備階段可以消除在挖掘過(guò)程中無(wú)用的數(shù)據(jù),從而提高數(shù)據(jù)挖掘的效率和準(zhǔn)確度;數(shù)據(jù)挖掘的工作首先需要選擇相應(yīng)的挖掘?qū)嵤┧惴?,例如決策樹(shù)、分類(lèi)、聚類(lèi)、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等,然后對(duì)數(shù)據(jù)進(jìn)行分析,從而得到知識(shí)的模型;結(jié)果評(píng)價(jià)和表達(dá)主要是確定知識(shí)的模式模型是否有效以便發(fā)現(xiàn)有意義的模型<sup>[3]</sup>。2數(shù)據(jù)挖掘主要方法2.1決策樹(shù)法決策樹(shù)法是數(shù)據(jù)挖掘的分類(lèi)功能中一種比較常用的方法。決策樹(shù)法起源于概念學(xué)習(xí)系統(tǒng)CLS,然后發(fā)展到ID3方法,ID3算法是由Quinlan首先提出,該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn)。ID3算法的主要思想是:首先計(jì)算各屬性的信息增益,然后選取具有最高增益的屬性作為給定集合的測(cè)試屬性。所以造成ID3用信息增益選擇屬性時(shí)偏向選擇取值多的屬性,但是取值多的屬性不一定找到最優(yōu)解,為了克服此問(wèn)題,出現(xiàn)了改進(jìn)算法—一C4.5算法<sup>[4]</sup>。C4.5算法不但克服了ID3偏向選擇取值多的屬性這一缺點(diǎn),還實(shí)現(xiàn)了對(duì)連續(xù)屬性的離散化處理和對(duì)不完整數(shù)據(jù)的處理。雖然C4.5算法在速度和預(yù)測(cè)精度等方面占有優(yōu)勢(shì),但是由于C4.5在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,導(dǎo)致該算法在性能方面較為低效。針對(duì)C4.5算法效率不高的問(wèn)題,很多學(xué)者提出了針對(duì)改進(jìn)措施:一種有效的C4.5的改進(jìn)模型R-C4.5,該決策樹(shù)模型通過(guò)合并分類(lèi)較差的分支,減少了無(wú)意義的分支進(jìn)一步的劃分,有效避免了碎片的產(chǎn)生,在保持模型預(yù)測(cè)準(zhǔn)確率的同時(shí),有效改進(jìn)了樹(shù)的健壯性<sup>[5]</sup>。而從C4.5在連續(xù)值屬性離散化方面的局限性來(lái)看,C4.5算法在對(duì)連續(xù)值屬性進(jìn)行離散化處理時(shí),為了找到較好的劃分點(diǎn),C4.5算法需要測(cè)試所有潛在的劃分信息增益,這樣就大大降低了該算法分類(lèi)的效率?;贔ayyad和Irani對(duì)C4.5算法的改進(jìn),調(diào)整了其對(duì)連續(xù)值屬性懲罰的基礎(chǔ),指定一個(gè)閾值a,通過(guò)a值的判定與增益率的判定,決定是否繼續(xù)構(gòu)造節(jié)點(diǎn)<sup>[6]</sup>。此外,考慮到有新樣本添加到數(shù)據(jù)庫(kù)中的情況,按照C4.5算法,需要對(duì)所有的樣本進(jìn)行重新學(xué)習(xí),這樣會(huì)造成大量時(shí)間的浪費(fèi),所以在此提出一種增量學(xué)習(xí)方法,最大限度地保留決策樹(shù)中的原本分支及分類(lèi)結(jié)果,減少了計(jì)算量<sup>[7]</sup>。2.2關(guān)聯(lián)規(guī)則法關(guān)聯(lián)模式中最著名的是Apriori算法,它是由R.Agrawal等人首先提出來(lái)的<sup>[8]</sup>,其算法思想是:首先找出頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。最典型的例子就是沃爾瑪尿布和啤酒事件,在此例中,商家就是利用統(tǒng)計(jì)這兩種商品在一次購(gòu)買(mǎi)中共同出現(xiàn)的頻數(shù),將出現(xiàn)頻數(shù)多的搭配轉(zhuǎn)化為關(guān)聯(lián)規(guī)則<sup>[9]</sup>。Apriori算法的實(shí)現(xiàn)是通過(guò)對(duì)數(shù)據(jù)庫(kù)D的多次掃描來(lái)發(fā)現(xiàn)所有的頻繁項(xiàng)目集。在每一次掃描中只考慮具有同一長(zhǎng)度的所有項(xiàng)目集,在進(jìn)行第一次掃描中,Apriori算法計(jì)算D中所有單個(gè)項(xiàng)目的支持度,生成所有長(zhǎng)度為1的頻繁項(xiàng)目集;在后續(xù)的每一次掃描中,首先以K-1次掃描所生成的所有項(xiàng)目集為基礎(chǔ)產(chǎn)生新的候選項(xiàng)目集,然后掃描數(shù)據(jù)庫(kù)D,計(jì)算這些候選項(xiàng)目集的支持度,刪除其支持度低于用戶(hù)給定的最小支持度的項(xiàng)目集;最后,生成所有長(zhǎng)度為K的頻繁項(xiàng)目集。重復(fù)以上過(guò)程直到再也發(fā)現(xiàn)不了新的頻繁項(xiàng)目集為止。由此可見(jiàn),若要提高Apriori算法的效率,可以減少對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù)或者減少不必要的頻繁項(xiàng)目集的生成<sup>[10]</sup>,對(duì)Apriori算法的改進(jìn)主要方法有:①基于劃分的方法:其基本思想是:對(duì)于整個(gè)交易數(shù)據(jù)庫(kù)而言,如果一個(gè)項(xiàng)集是頻繁項(xiàng)集,那么它必然有這樣的結(jié)果,即至少在一個(gè)分割的部分內(nèi)它是頻繁的;②基于抽樣的方法:首先從數(shù)據(jù)庫(kù)中抽取一個(gè)樣本并生成該樣本的候選項(xiàng)集,當(dāng)然希望這些項(xiàng)集在全局?jǐn)?shù)據(jù)庫(kù)中是頻繁的,在接下來(lái)的一次掃描中,算法將統(tǒng)計(jì)這些項(xiàng)集確切的支持度以及負(fù)邊界的支持度。如果在負(fù)邊界中沒(méi)有一個(gè)是頻繁的,那么算法將找到所有的頻繁項(xiàng)集,否則,負(fù)邊界中的項(xiàng)集有可能是頻繁項(xiàng)集;③增量更新方法:其基本思想是使用該技術(shù)來(lái)對(duì)所發(fā)現(xiàn)的頻繁項(xiàng)集和相應(yīng)的關(guān)聯(lián)規(guī)則進(jìn)行維護(hù),以便在數(shù)據(jù)庫(kù)發(fā)生變化時(shí)避免對(duì)所有的頻繁項(xiàng)集和相應(yīng)的關(guān)聯(lián)規(guī)則重新進(jìn)行挖掘分析,即只對(duì)發(fā)生變化的那部分?jǐn)?shù)據(jù)進(jìn)行關(guān)聯(lián)分析;④概念層次的方法;⑤基于散列和壓縮技術(shù)的方法<sup>[H]</sup>。所以也有很多學(xué)者對(duì)Apriori算法進(jìn)行了改進(jìn),例如,對(duì)Apriori的改進(jìn)算法AprioriTid算法,在AprioriTid算法中僅在第一次掃描時(shí)用事務(wù)數(shù)據(jù)庫(kù)D計(jì)算候選頻繁項(xiàng)目集的支持度,其他各次掃描用上一次掃描生成的候選數(shù)據(jù)庫(kù)D?來(lái)計(jì)算候選頻繁項(xiàng)目集的支持度,減少了I/O的操作時(shí)間,提高了算法的效率<sup>[8]</sup>,此外,在對(duì)Apriori的改進(jìn)算法中,基于新的數(shù)據(jù)結(jié)構(gòu)和改進(jìn)了的產(chǎn)生候選集的連接方法,也實(shí)現(xiàn)了對(duì)事物挖掘上優(yōu)于Apriori算法的效率<sup>[12]</sup>。針對(duì)Apriori算法的固有缺陷,J.Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FPtree頻集算法。FPtree頻集算法采用分而治之的策略,第一遍掃描的過(guò)程中把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù)(FPtree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FPtree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘,當(dāng)原始數(shù)據(jù)量很大的時(shí)候,才可以結(jié)合劃分的方法,使得一個(gè)FPtree可以放入主存中,實(shí)驗(yàn)表明,F(xiàn)Pgrowth對(duì)不同長(zhǎng)度的規(guī)則較之Apriori算法有巨大的提高。2.3神經(jīng)網(wǎng)絡(luò)法神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)復(fù)雜、網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)、結(jié)果表示不容易理解等缺點(diǎn),但其對(duì)噪聲數(shù)據(jù)的高承受能力和低錯(cuò)誤率,神經(jīng)網(wǎng)絡(luò)具有較好的并行性,這些優(yōu)點(diǎn)是其他方法所不及的,而且各種網(wǎng)絡(luò)訓(xùn)練算法的陸續(xù)提出與優(yōu)化,尤其是各種網(wǎng)絡(luò)剪枝算法和規(guī)則提取算法的不斷提出與完善,使得神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘的應(yīng)用中越來(lái)越受到大家的青睞<sup>[13]</sup>。其中使用較為廣泛的有多層前饋式(multilayerfeedforward)神經(jīng)網(wǎng)絡(luò)和后向傳播(backpropagation,BP)神經(jīng)網(wǎng)絡(luò)。多層前饋式神經(jīng)網(wǎng)絡(luò)迭代學(xué)習(xí)用于元組類(lèi)標(biāo)號(hào)預(yù)測(cè)的一組權(quán)重,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)搜索一組權(quán)重,這組權(quán)重可對(duì)數(shù)據(jù)建模,使得神經(jīng)元組的網(wǎng)絡(luò)類(lèi)預(yù)測(cè)和實(shí)際類(lèi)標(biāo)號(hào)之間的均方距離最小,可用于語(yǔ)言綜合、語(yǔ)音識(shí)別、自適應(yīng)控制等<sup>[14]</sup>。現(xiàn)在已經(jīng)提出來(lái)一些神經(jīng)網(wǎng)絡(luò)方面的數(shù)據(jù)挖掘算法改進(jìn),用以彌補(bǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)、結(jié)構(gòu)表示不易理解等不足,比如,提出的基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,把模糊理論和神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)構(gòu)造、訓(xùn)練模糊神經(jīng)網(wǎng)絡(luò)<sup>[15]</sup>。3研究現(xiàn)狀隨著海量數(shù)據(jù)的增加,大數(shù)據(jù)時(shí)代的到來(lái),導(dǎo)致人們對(duì)數(shù)據(jù)的研究和利用越來(lái)越多,其中數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步和發(fā)展也給整個(gè)世界信息的發(fā)展帶來(lái)了許多成果。在科學(xué)學(xué)領(lǐng)域方面,先進(jìn)的現(xiàn)代化科學(xué)觀(guān)測(cè)儀器的使用造成每天都要產(chǎn)生巨量的數(shù)據(jù),如各種同步衛(wèi)星每小時(shí)傳回地球的遙感圖像數(shù)據(jù)就達(dá)50千兆字節(jié)。天文學(xué)上有一個(gè)很著名的應(yīng)用系統(tǒng)——SKICAT,這是第一個(gè)相當(dāng)成功的數(shù)據(jù)挖掘應(yīng)用,也是人工智能技術(shù)在天文學(xué)和空間科學(xué)上第一批成功的應(yīng)用之一。目前,科學(xué)家已利用SKICAT發(fā)現(xiàn)了16個(gè)新的極其遙遠(yuǎn)的類(lèi)星體。在市場(chǎng)營(yíng)銷(xiāo)方面,條形碼技術(shù)在商業(yè)上的普遍使用使得很多行業(yè)每天都積累了大量數(shù)據(jù),從市場(chǎng)營(yíng)銷(xiāo)來(lái)說(shuō),通過(guò)數(shù)據(jù)分析了解客戶(hù)購(gòu)物行為的一些特征,對(duì)提高競(jìng)爭(zhēng)力及促進(jìn)銷(xiāo)售是有很大幫助。在金融投資方面,目前國(guó)內(nèi)有很多進(jìn)行股票分析的軟件,并且定期有專(zhuān)家進(jìn)行股票交易預(yù)測(cè)。數(shù)據(jù)挖掘技術(shù)還可以應(yīng)用在甄別詐騙上,進(jìn)行詐騙甄別主要是通過(guò)總結(jié)正常行為和詐騙行為之間的關(guān)系,得到詐騙行為的一些特征,這樣當(dāng)某項(xiàng)業(yè)務(wù)符合這些特征時(shí),可以向決策人員提出警告。這方面比較成功的系統(tǒng)有FALCON和FAIS系統(tǒng)。在Web應(yīng)用上,世界上最強(qiáng)大的搜索引擎Google相比其他很多搜索引擎,它的搜索結(jié)果更讓人滿(mǎn)意,其中Google使用的搜索算法主要是PageRank算法,在2001年9月被授予美國(guó)專(zhuān)利,Google的PageRank是根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量?jī)珊饬烤W(wǎng)站的價(jià)值。4數(shù)據(jù)挖掘發(fā)展趨勢(shì)現(xiàn)今,數(shù)據(jù)挖掘的發(fā)展趨勢(shì)主要在以下幾個(gè)方面:數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化:語(yǔ)言的標(biāo)準(zhǔn)化對(duì)于數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)和數(shù)據(jù)挖掘技術(shù)的普遍使用是至關(guān)重要的。其可改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企業(yè)和社會(huì)中的使用。數(shù)據(jù)挖掘的可視化:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)。可以在發(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。數(shù)據(jù)的可視化起到了推動(dòng)人們主動(dòng)進(jìn)行知識(shí)發(fā)現(xiàn)的作用。分布式數(shù)據(jù)挖掘:分布式技術(shù)的到來(lái)為日益增長(zhǎng)的數(shù)據(jù)提供了有力支持,而分布式數(shù)據(jù)挖掘中將分布式技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合,也使對(duì)分離數(shù)據(jù)庫(kù)的可協(xié)作數(shù)據(jù)挖掘工作開(kāi)發(fā)了一個(gè)重要領(lǐng)域。數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成:數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的緊耦合。挖掘復(fù)雜數(shù)據(jù)類(lèi)型的新方法:挖掘復(fù)雜數(shù)據(jù)類(lèi)型是數(shù)據(jù)挖掘的重要前沿研究課題,也有人稱(chēng)復(fù)雜類(lèi)型的數(shù)據(jù)挖掘是“下一代數(shù)據(jù)挖掘”。伴隨著數(shù)據(jù)的增多,需要處理的數(shù)據(jù)類(lèi)型也變得越來(lái)越復(fù)雜,例如數(shù)據(jù)流、時(shí)間序列、時(shí)間空間、多媒體和文本數(shù)據(jù),雖然現(xiàn)在在很多復(fù)雜數(shù)據(jù)類(lèi)型的挖掘方面取得了一些進(jìn)展,但是在應(yīng)用需求和可用技術(shù)之間仍然存在較大的距離。數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全:隨著信息技術(shù)的發(fā)展,越來(lái)越多的數(shù)據(jù)涌入了網(wǎng)絡(luò),其中包括大量電子形式的個(gè)人信息,而挖掘技術(shù)的發(fā)展和科技的更新,在相反的一面上也使大量的個(gè)人信息受到了威脅,因此保護(hù)隱私的數(shù)據(jù)挖掘方法愈顯重要<sup>[16]</sup>。5結(jié)語(yǔ)Internet的迅猛發(fā)展使得網(wǎng)絡(luò)上的各種資源信息異常豐富,而數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾也越來(lái)越突出,人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,而數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)分析處理而出現(xiàn)的。數(shù)據(jù)挖掘技術(shù)的發(fā)展給科技的發(fā)展、經(jīng)濟(jì)的推動(dòng)和每個(gè)人的生活都帶來(lái)了巨大的便利,數(shù)據(jù)挖掘技術(shù)也被越來(lái)越多的行業(yè)和領(lǐng)域所采用,并取得了很好的效果。參考文獻(xiàn):[1]王惠中,彭安群.數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)J].工礦自動(dòng)化,2011(2).[2]潘有能^乂1挖掘:聚類(lèi)、分類(lèi)與信息提取[乂].杭州:浙江大學(xué)出版社,2012.[3]王桂芹,黃道.數(shù)據(jù)挖掘技術(shù)綜述[C].全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集,2007.[4]李會(huì),胡笑梅.決策樹(shù)中ID3算法與C4.5算法分析與比較J].水電能源科學(xué),200
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 親子教育項(xiàng)目居間合同樣本
- 電影院裝修服務(wù)合同范本
- 農(nóng)藥購(gòu)銷(xiāo)合同樣本
- 三農(nóng)村公共環(huán)境治理體系建設(shè)指南
- 生產(chǎn)管理實(shí)務(wù)操作流程詳解
- 網(wǎng)絡(luò)教育技術(shù)運(yùn)用與發(fā)展趨勢(shì)研究報(bào)告與指導(dǎo)書(shū)
- 鋼化玻璃采購(gòu)合同書(shū)
- 購(gòu)買(mǎi)豆腐的合同
- 2025年陽(yáng)江b2貨運(yùn)上崗證模擬考試
- 小學(xué)三年級(jí)上冊(cè)口算練習(xí)500題
- GB/T 657-2011化學(xué)試劑四水合鉬酸銨(鉬酸銨)
- FZ/T 25001-1992工業(yè)用毛氈
- 《上消化道出血診療指南》講稿
- 電商部售后客服績(jī)效考核表
- 小提琴協(xié)奏曲《梁?!纷V
- 人教版高中化學(xué)必修一第一章《物質(zhì)及其變化》教學(xué)課件
- 復(fù)工復(fù)產(chǎn)工作方案范本【復(fù)產(chǎn)復(fù)工安全工作方案】
- HyperMesh100基礎(chǔ)培訓(xùn)教程
- 現(xiàn)代機(jī)械強(qiáng)度理論及應(yīng)用課件匯總?cè)譸pt完整版課件最全教學(xué)教程整套課件全書(shū)電子教案
- 農(nóng)村信用社個(gè)人借款申請(qǐng)審批表
- 化工裝置實(shí)用操作技術(shù)指南講解
評(píng)論
0/150
提交評(píng)論