數(shù)據(jù)挖掘方法的評述

上傳人：l*** IP屬地：天津上傳時間：2022-08-03 格式：DOCX 頁數(shù)：6 大?。?1.55KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘方法的評述摘要:決策離不開知識，從數(shù)據(jù)庫中采掘知識，是解決從大信息量中獲取有用知識的有效途徑。但是在實際數(shù)據(jù)庫中，數(shù)據(jù)的復(fù)雜，邕如信息量大、噪聲等）對數(shù)據(jù)挖掘方法提出了比機(jī) 器學(xué)習(xí)更高的要求，這方而的研究正受到越來越多的關(guān)注。本文就當(dāng)前數(shù)據(jù)挖掘的兒種卞要方法，即神經(jīng)網(wǎng)絡(luò)、決策樹、粗集和云模型等方法的研究現(xiàn)狀進(jìn)行了評述，指出其存在的問題。從總體上看，這些方法都有局限性，但它們的有機(jī)組合具有互補性，多方法融合將成為數(shù)據(jù)挖掘的發(fā)展趨勢，最后指出數(shù)據(jù)挖掘方法而臨的挑戰(zhàn)。關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);決策樹;粗集;遺傳算法;云模型隨著管理信息系統(tǒng)的大量使用，商業(yè)、企業(yè)、科研機(jī)構(gòu)等部門都積累

2、了大量的數(shù)據(jù)，這些數(shù) 據(jù)記載了他們?nèi)粘；顒?，蘊涵非常有價值的信息.面對日益豐富的數(shù)據(jù)資源，高層決策者卻越來越覺得難以分辨有用信息。原因是當(dāng)前成熟的數(shù)據(jù)庫管理系統(tǒng)基本上還是一個檢索工具，只限于原始數(shù)據(jù)的檢索、統(tǒng)計等平凡過程，缺乏對數(shù)據(jù)的分析和理解能力，更談不上決策知識的自動獲取。機(jī)器（示例）學(xué)習(xí)是知識自動獲取的有效途徑，表面看來，它可以作為從數(shù)據(jù)庫中提取潛在、事先未知的有用信息的手段。但必須看到，海量數(shù)據(jù)庫中的數(shù)據(jù)不同于機(jī)器學(xué)習(xí)所用的實驗數(shù)據(jù):不僅具有超大的數(shù)據(jù)量，而且數(shù)據(jù)的動態(tài)性、噪聲、余稀疏和不完全也是傳統(tǒng)機(jī) 器學(xué)習(xí)方法難以勝任的。學(xué)習(xí)算法的效率對噪聲的處理能力等問題是實際應(yīng)用中必

3、須面對的挑戰(zhàn)，在此背景下，數(shù)據(jù)挖掘技術(shù)和方法引起了人們的注意。數(shù)據(jù)挖掘（DM, Data Mining）作為新興的研究領(lǐng)域，以機(jī)器學(xué)習(xí)、模式識別統(tǒng)計學(xué)、數(shù) 據(jù)庫和人工智能等眾多學(xué)科為基礎(chǔ)，集成于從數(shù)據(jù)庫的原始粗糙的數(shù)據(jù)中提取高級別的知識上。數(shù)據(jù)挖掘的能力大小，取決于挖掘工具的效能。由于數(shù)據(jù)挖掘時遇到的數(shù)據(jù)庫種類繁多（從關(guān)系型到面向?qū)ο笮?、空問型、時問型乃至多媒體等復(fù)雜數(shù)據(jù)庫），且各種數(shù)據(jù)挖掘方法作用范圍有限因此采用單一方法難以得到?jīng)Q策所需的各種知識。從總體上講，目前數(shù)據(jù)挖掘的能力非常有限。本文對當(dāng)前數(shù)據(jù)挖掘的主要方法進(jìn)行了回顧，分析其不足，并指出了這一領(lǐng)域可能的發(fā)展方向?；谏窠?jīng)元網(wǎng)

4、絡(luò)的方法神經(jīng)網(wǎng)絡(luò)是大量的簡單神經(jīng)元按一定規(guī)則連接構(gòu)成的網(wǎng)絡(luò)系統(tǒng)。網(wǎng)絡(luò)能夠模擬人類大腦的結(jié)構(gòu)和功能，采用某種學(xué)習(xí)算法從訓(xùn)練樣本中學(xué)習(xí)，并將獲取的知識存儲在網(wǎng)絡(luò)各單元之問的連接權(quán)中，神經(jīng)網(wǎng)絡(luò)和基于符號的傳統(tǒng)AI技術(shù)相比，具有直觀性、并行性和抗噪性。目前已出現(xiàn)了多種網(wǎng)絡(luò)模型和學(xué)習(xí)算法，主要用于分類、優(yōu)化、模式識別、預(yù)測和控制等領(lǐng)域。在數(shù)據(jù)挖掘領(lǐng)域，主要采用前向神經(jīng)網(wǎng)絡(luò)提取分類規(guī)則。從認(rèn)知的角度看，神經(jīng)網(wǎng)絡(luò)模擬人類的形象直覺思維。其最大的缺點是“黑箱”性，人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。因此有必要建立“白化”機(jī)制，用規(guī)則解釋網(wǎng)絡(luò)的權(quán)值矩陣，為決策支持和數(shù)據(jù)挖掘提供說明，使從網(wǎng)絡(luò)中提取知識

5、成為知識自動獲取的手段。通常有兩種解決方案:Q健立一個基于規(guī)則的系統(tǒng)輔助。神經(jīng)網(wǎng)絡(luò)運行的同時，將其輸入和輸出模式給基于規(guī)則的系統(tǒng)。然后用反向關(guān)聯(lián)完成網(wǎng)絡(luò)的推理過程.這種方法把網(wǎng)絡(luò)的運行過程和解釋過程用兩套系統(tǒng)實現(xiàn)，開銷大，不夠靈活;直接從訓(xùn)練好的網(wǎng)絡(luò)中提?。ǚ诸悾┮?guī)則。這是當(dāng)前數(shù)據(jù)挖掘使用得比較多的方法。從網(wǎng)絡(luò)中采掘規(guī)則，主要有下述兩種傾向：（1）網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取。它以神經(jīng)網(wǎng)絡(luò)的隱層結(jié)點和輸出層結(jié)點為研究對象，把整個網(wǎng)絡(luò)分解為許多單層了網(wǎng)的組合。這樣研究較簡單的了網(wǎng)，便于從中挖掘知識。Fu的 ICI算法3和Towell的MofM算法4是有代表性的方法。KT方法的缺點是通用性差A(yù)

6、.當(dāng)網(wǎng) 絡(luò)比較復(fù)雜時，算法的復(fù)雜性高，容易產(chǎn)生組合爆炸問題。所以，對于大規(guī)模網(wǎng)絡(luò)，此類算法在提取規(guī)則前，需要對網(wǎng)絡(luò)結(jié)構(gòu)的剪枝和刪除冗余結(jié)點等預(yù)處理工作。袁曾任，盧振中5 提出一種由預(yù)處理和規(guī)則提取兩階段組成的方法:預(yù)處理階段中包含有動態(tài)修正、聚類和刪枝部分，分別完成構(gòu)造出全聯(lián)接或者非全聯(lián)接網(wǎng)絡(luò)的初步拓?fù)浣Y(jié)構(gòu)，截掉不重要或者多余的隱含節(jié)點和聯(lián)接等工作。劉振凱等峰I對初始網(wǎng)絡(luò)可能缺少結(jié)點或包含錯誤的連接給出一種網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法，它通過動態(tài)增加隱層結(jié)點和網(wǎng)絡(luò)刪除，獲得較簡潔、易于理解的網(wǎng)絡(luò) 結(jié)構(gòu)。張朝輝等u提出用遺傳算法修剪神經(jīng)網(wǎng)絡(luò)，然后用決策樹模擬神經(jīng)網(wǎng)絡(luò)的隱結(jié)點和輸出結(jié)點的決策過程，最

7、后提取符號規(guī)則的RulExt算法。由神經(jīng)網(wǎng)絡(luò)的非線性映射關(guān)系提取規(guī)則，這種方法直接從網(wǎng)絡(luò)輸入和輸出層數(shù)據(jù)入手，不考慮網(wǎng)絡(luò)的隱層結(jié)構(gòu)，避免了基于結(jié)構(gòu)分解的規(guī)則提取算法的不足Sestitv，等人la 的相似權(quán)值法，以及文獻(xiàn)9在此基礎(chǔ)上提出的CSW算法(將網(wǎng)絡(luò)輸入擴(kuò)展到連續(xù)值取值)，是其中的兩種典型算法。當(dāng)然在數(shù)據(jù)挖掘領(lǐng)域，神經(jīng)網(wǎng)絡(luò)的規(guī)則提取還存在諸多問題，如進(jìn) 一步降低算法的復(fù)雜度，提高所提取規(guī)則的可理解性及算法的適用性，研究提取的規(guī)則集的評估標(biāo)準(zhǔn)和在訓(xùn)練中從神經(jīng)網(wǎng)絡(luò)動態(tài)提取規(guī)則以及時修正神經(jīng)網(wǎng)絡(luò)并提高神經(jīng)網(wǎng)絡(luò)性能等都是進(jìn)一步的研究方向。2基于決策樹的方法決策樹是發(fā)現(xiàn)概念描述空問的一種有效

8、方法，也是許多歸納系統(tǒng)常采用的知識表示形式。它的主要優(yōu)點是描述簡單，分類速度快，特別適合大規(guī)模的數(shù)據(jù)處理。決策樹起源于概念學(xué)習(xí)系統(tǒng)CLS( ConceptLearning System)，其思路是找出最有分辨能力的屬性，把數(shù)據(jù)庫劃分為許多了集(對應(yīng)樹的一個分枝)，構(gòu)成一個分枝過程，然后對每一了集遞歸調(diào)用分枝過程，直到所有了集包含同一類型的數(shù)據(jù)。最后得到的決策樹能對新的例了進(jìn)行分類，CLS的不足是它處理的學(xué)習(xí)問題不能太大。為此，Quinlan提出了著名的ID3 學(xué)習(xí)算法，通過選擇窗口來形成決策樹。從示例學(xué)習(xí)最優(yōu)化的角度分析，理想的決策樹分為3種:汐十了數(shù)目最少;咔了結(jié)點深度最小;什結(jié)點

9、數(shù)最少且葉了結(jié)點深度最小。尋找最優(yōu)決策樹已被證明是NP困難問題。ID3 算法借用信息論中的4.信息(信息增益)，作為單一屬性分辨能力的度量，試圖減少樹的平均深度，忽略了葉了數(shù)目的研究。其啟發(fā)式函數(shù)并不是最優(yōu)的，存在的主要問題有勻一信息的計算依賴于屬性取值的數(shù)目較多的特征，而屬性取值較多的屬性不一定最優(yōu);ID3是非遞增學(xué)習(xí)算法；ID3決策樹是單變量決策樹(在分枝結(jié)點上只考慮單個屬性)，許多復(fù)雜概念的表達(dá) 困難，屬性問的相勻_關(guān)系強(qiáng)調(diào)不夠，容易導(dǎo)致決策樹中了樹的重復(fù)或有些屬性在決策樹的某一路徑上被檢驗多次；抗噪性差，訓(xùn)練例了中正例和反例的比例較難控制。針對上述問題，出現(xiàn)許多較好的改進(jìn)算法，劉

10、小虎等l 2l在選擇一個新屬性時，并不僅僅計算該屬性引起的信息增益，而同時考慮樹的兩層結(jié)點，即選擇該屬性后繼續(xù)選擇屬性帶來的信息增益。洪家榮等在分枝屬性的選擇上仍采用基于信息增益率的方法，但在樹的擴(kuò)展過程中，采用屬性聚類的方法減少樹的分枝。Schlimmer和Fisher設(shè)計了 ID4遞增式學(xué)習(xí)算法lgal，通過修改ID3算法，在每個可能的決策樹結(jié)點創(chuàng)建一系列表，每個表由未檢測屬性值及其示例組成，當(dāng)處理新例時，每個屬性值的正例和反例遞增計量。在ID4的基礎(chǔ)上Utgoff提出了 IDS算法，它拋棄舊的檢測屬性下面的了樹，從下面選擇屬性構(gòu)造樹。鐘鳴，陳文偉等為克服訓(xùn)練例了中正反例的比

11、例對互信息的影響，提出了IBLE算法，該算法每次分枝時同時選一組重要屬性作為決策樹的結(jié)點，結(jié)果預(yù)測正確率高于ID3算法。此外，還有許多算法使用了多變量決策樹的形式。如8的也。尸C. E.等人使用順序反向刪除和順序前向選擇2種策略，選擇若干屬性的線性組合作為分枝屬性。在組合系數(shù)的確定上，分別以均方誤差最小和劃分的雜度最小為目標(biāo)，使用了遞歸最小二乘和CART方法，還有Pagallo G等人l Hl構(gòu)造屬性的Boolean組合來改善決策樹的性能，在多變量決策樹的生成中，屬性的簡單合取可能會導(dǎo)致數(shù)據(jù)的過擬合問題。苗奪謙等人l另辟奚徑，基于粗糙集理論，用相對泛化的概念構(gòu)造多變量檢驗，提出的一

12、種評價多變量檢驗的準(zhǔn)則，效果優(yōu)于ID3算法。有關(guān)ID3的改進(jìn)算法還有很多，在此不再列出。3粗集方法在數(shù)據(jù)挖掘中，從實際系統(tǒng)采集到的數(shù)據(jù)可能包含各種噪聲，存在許多不確定因素和不完全信息有待處理。傳統(tǒng)的不確定信息處理方法，如模糊集理論、證據(jù)理論和概率統(tǒng) 計理論等因需要數(shù)據(jù)的附加信息或先驗知識（難以得到），有時在處理大數(shù)據(jù)量的數(shù)據(jù)庫方面無能為力。粗集作為一種軟計算方法，可以克服傳統(tǒng)不確定處理方法的不足，并且和它們能有機(jī)結(jié)合，可望進(jìn)一步增強(qiáng)對不確定、不完全信息的處理能力。粗集理論中，知識被定義為對事物的分類能力。這種能力由上近似集、下近似集、等價關(guān)系等概念體現(xiàn)。因為粗集處理的對象是類似二維關(guān)

13、系表的信息表決策表）。目前成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng)，為粗集的數(shù)據(jù)挖掘奠定了堅實的基礎(chǔ)。粗集從決策表挖掘規(guī)則，輔助決策，其關(guān)鍵步驟是求值約簡或數(shù)據(jù)濃縮，包括屬性約簡和值約簡兩個過程，決策表約簡經(jīng)常涉及到核和差別矩陣兩個重要的概念。一般來講，決策表的相對約簡有許多，最小約簡（含有最少屬性）是人們期望的。另一方面決策表的核是唯一的，它定義為所有約簡的交集，所以核可以作為求解最小約簡的起點。差別矩陣突出屬性的分辨能力，從中可以求出決策表的核以及約簡規(guī)則。Walong S和Ziarko W已經(jīng)證明求最小約簡是一個NP- hard問題。最小約簡的求解需要借助啟發(fā)

14、式搜索解決。苗奪謙等人從信息論的角度對屬性的重要性作了定義，并在此基礎(chǔ)上提出了一種新的知識約簡算法MIBARIo 土環(huán)等也給出了一個基于差別矩陣的屬性約簡策略。但它們對最小約簡都是不完備的。此外，上述算法還只是局限于完全決策表。Marzena I2s應(yīng)用差別矩陣，推廣了等價關(guān)系（相似關(guān)系）、集合近似等概念，研究了不完全決策表（屬性的取值含有空值的情況）的規(guī)則發(fā)現(xiàn)問題，從而為粗集的實用化邁出了可喜的一步。在文獻(xiàn) 26中，Marzena I還比較了）匕種不完全系統(tǒng)的分析方法，得出下述結(jié)論:一個規(guī)則是確定的，如果此規(guī)則在原不完全系統(tǒng)的每個完全拓展中是確定的;逗刪除從不完全決策表包含空值的

15、對象后，采掘的知識可能為偽規(guī)則（對原不完全系統(tǒng)不一定成立）。粗集的數(shù)學(xué)基礎(chǔ)是集合論，難以直接處理連續(xù)的屬性。而現(xiàn)實決策表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實用化的難點之一。這個問題一直是人工智能界關(guān)注的焦點。連續(xù)屬性的離散化的根本出發(fā)點是在盡量減少決策表信息損失的前提下（保持決策表不同類對象的可分辨關(guān)系），得到簡化的和濃縮的決策表，以便用粗集理論分析，獲得決策所需要的知識。最優(yōu)離散化問題（離散的切點數(shù)最少）已被證明是NP-hard問題。利用一些啟發(fā)式算法可以得到滿意的結(jié)果?？傮w上講，現(xiàn)有離散化方法主要分為非監(jiān)督離散化和監(jiān)督離散化。前者包括等寬度（將連續(xù)值屬性

16、的值域等份）和等頻率離散化（每個離散化區(qū)問所含的對象相同）。非監(jiān)督離散化方法簡單，它忽略了對象的類別信息，只能用在屬性具有特殊分布的情況。針對上述問題，監(jiān)督離散化方法考慮了分類信息，提高了離散效果。目前比較有代表性的監(jiān)督離散化方法有以下）L種:（1） Holt。提出了一種貪婪的單規(guī)則離散器（one rule ; （ 2）統(tǒng)計檢驗方法125;（3）信息嫡方法l Zyl等。這些方法各有特點但都存在一個不足:每個屬性的離散化過程是相互獨立的，忽略了屬性之問的關(guān)聯(lián)，從而使得離散的結(jié)果中含有冗余或不合理的分割點。針對這個問題。于金龍等人 30l給出了一種連續(xù)屬性的整體離散化方法，實驗表明不

17、僅能顯著減少離散化劃分點和歸納規(guī)則數(shù)，而且提高了分類精度。連續(xù)屬性離散化目前還存在的問題是還缺乏遞增的離散化方法，即當(dāng)新的對象加入決策表時，原有的分割點可能不是最優(yōu)或滿意的。粗集理論和其它軟計算方法的結(jié)合，能夠提高數(shù)據(jù)挖掘能力。Mohua Ban司e。等 31利用粗集理論獲得初始規(guī)則集，然后構(gòu)造對應(yīng)的模糊多層神經(jīng)網(wǎng)絡(luò)(規(guī)則的置信度對應(yīng)網(wǎng) 絡(luò)的連接權(quán))，訓(xùn)練后可得到精化的知識。李永敏等132J人也提出了一種利用粗集理論進(jìn)行 BP網(wǎng)絡(luò)設(shè)計的方法，思路類似于Mo-hu。的做法。苗奪謙等133J證明知識約簡在信息和代數(shù)兩種表示下是等價的，但信息表示比較容易理解，而且在信息觀點下，粗分析比較容易實

18、現(xiàn)高效的約簡算法。粗集與其它軟計算方法的集成是數(shù)據(jù)挖掘的一種趨勢。目前基于粗集的數(shù)據(jù)挖掘在下述方面有待深化：粗集和其它軟計算方法的進(jìn)一步結(jié)合問題；粗集知識采掘的遞增算法；粗集基本運算的并行算法及硬件實現(xiàn)，將大幅度改善數(shù)據(jù)挖掘的效率。已有的粗集軟件適用范圍還很有限。決策表中的實例數(shù)量和屬性數(shù)量受限制。面對海量的數(shù)據(jù)，有必要設(shè)計高效的啟發(fā)式簡化算法或研究實時性較好的并行算法；擴(kuò)大處理屬性的類型范圍，實際數(shù)據(jù)庫的屬性類型是多樣的，既有離散屬性，也有連續(xù)屬性;既有字符屬性，也有數(shù)值屬性。粗集理論只能處理離散型屬性，因此需要設(shè) 計連續(xù)值的離散算法。文獻(xiàn)24分別使用經(jīng)驗公式和修改的差別矩陣也給出

19、了決策一致和不一致條件下的兩種連續(xù)屬性離散化方法。4其他方法4. 1云模型方法云模型用于采掘關(guān)聯(lián)規(guī)則。云是統(tǒng)一刻化語言值和數(shù)值問隨機(jī)性和模糊性的模型，能夠?qū)Χㄐ悦枋龅恼Z言值和定量表示數(shù)值問、連續(xù)量和離散量問隨時轉(zhuǎn)換，較好地解決了數(shù)據(jù)挖掘中的知識表示問題 l34- 35J。云的數(shù)字特征用三元組:征，其中期望值Ex是云的重心位置，代表相應(yīng)的模糊概念的中心值;嫡En是語言值對數(shù)值的可覆蓋度量，它的大小反映了在論域中可被模糊概念吸收的元素數(shù)，偏差D反映了云滴的離散程度，正態(tài)云是常用的云模型。陳暉，李德毅等人l3l用語言云模型表達(dá)數(shù)據(jù)挖掘的知識和不確定性處理，并擴(kuò) 展一維模型為多維云模型以模擬人

20、類靈活地劃分屬性空問，且允許相鄰語言項問有重疊的現(xiàn) 象。為了發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則，在較高的概念層上泛化了屬性值，同時允許相鄰屬性值或語言項問有重疊，這種軟劃分比較接近人的思維，使發(fā)現(xiàn)的知識具有穩(wěn)健性。文獻(xiàn)最后將基于云模型的泛化方法與Apriori算法結(jié)合起來，從關(guān)于中國地理和經(jīng)濟(jì)狀況的空問數(shù)據(jù)庫發(fā)掘關(guān)聯(lián) 規(guī)則，初步顯示了云模型在關(guān)聯(lián)規(guī)則采掘的有效性。文獻(xiàn)35基于云模型對定性和定量的轉(zhuǎn)換能力，將人用自然語言值定性表達(dá)的控制經(jīng)驗，通過語言原了和云模型轉(zhuǎn)換到語言控制規(guī)則器中，結(jié)果證明控制效果比人工神經(jīng)網(wǎng)絡(luò) 方法和模糊控制方法好。云模型還是一種新模型，其適用范圍較窄，有待進(jìn)一步的深入研究。4. 2遺傳

21、算法遺傳算法是一種仿生全局優(yōu)化方法。它模擬生命進(jìn)化機(jī)制，將較劣的初始解通過一組遺傳算了，在求解空問按一定的隨機(jī)規(guī)則迭代搜索，直到求得問題的最優(yōu)解。遺傳算法具有許多不同于傳統(tǒng)方法的優(yōu)點，以至它在復(fù)雜的問題優(yōu)化、模式識別、工程設(shè)計、控制系統(tǒng)優(yōu)化及社會科學(xué)等許多領(lǐng)域得到廣泛的應(yīng)用，并取得了較好的效果。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)，使得它涉足于數(shù)據(jù)挖掘領(lǐng)域。近年來，它在數(shù)據(jù)挖掘中的應(yīng)用也引起了人們的關(guān)注。在數(shù)據(jù)挖掘領(lǐng)域，遺傳算法的作用表現(xiàn)在以下兒個方面：(1)和神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合。如用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò)，然后從網(wǎng)絡(luò)提取規(guī)則。實踐證明這是一種有效的

22、方法。分類系統(tǒng)的設(shè)計。遺傳算法用于分類器始于80年代初。90年代后，遺傳算法用于分類系統(tǒng)的理論得到廣泛的研究和應(yīng)用。目前研究的重點是一些基本設(shè)計方法，如編碼方式、信任分配函數(shù)的設(shè)計等具體問題以及遺傳算法的改進(jìn)上。陳文偉等人l 3l研制了一種遺傳分類器系統(tǒng)GCLS，這種系統(tǒng)采用了)I練和測試同時進(jìn)行的策略，系統(tǒng))I練后能繼續(xù)學(xué)習(xí)，以適應(yīng)不斷變化的環(huán)境。采掘?qū)δX出血和腦血栓兩類疾病的分類規(guī)則，系統(tǒng)表現(xiàn)出滿意的測試正確率。張雪江等l 3Hl收集多種故障的大量實例，用遺傳退火算法解決了區(qū)分各種故障的最優(yōu)規(guī)則。遺傳算法用于數(shù)據(jù)挖掘存在問題是:算法較復(fù)雜，還有收斂于局部極小的過早收斂等難題未

23、得到徹底解決。4. 3證據(jù)理論證據(jù)理論作為一種不確定推理方法，在數(shù)據(jù)挖掘中的應(yīng)用不多見。Anand S等l 3yl 提出基于證據(jù)理論(Evidence Theory)的數(shù)據(jù)發(fā)掘一般框架EDM，具有以下兒個特點：(功余行性，這對于大數(shù)據(jù)集的知識采掘有高的效率，并且對并行的、分布的和異質(zhì)的數(shù)據(jù)庫也適用；習(xí)以充分利用用戶的先驗知識與先前發(fā)現(xiàn)的知識；侄提出了較完整的知識表示、數(shù)據(jù)表示及數(shù)據(jù)操作與知識發(fā)現(xiàn)的方法并在強(qiáng)規(guī)則的發(fā)掘及空問數(shù)據(jù)庫的發(fā)掘上對提出的方法進(jìn)行了檢驗。文獻(xiàn)40也研究了證據(jù)理論在數(shù)據(jù)發(fā)掘中的應(yīng)用。證據(jù)理論在數(shù)據(jù)挖掘中的應(yīng)用的缺點來源于證據(jù)推理中的存在問題，如需要先驗知識、證據(jù)要求是相互獨立等。若和其它方法結(jié)合使用，效果更佳。除了上述數(shù)據(jù)挖掘方法外，還有許多其它方法，如統(tǒng)計方法(特征規(guī)則和關(guān)聯(lián)規(guī)則),I 最臨近技術(shù)和可視化技術(shù)等，它們在數(shù)據(jù)挖掘中的作用也不可低估，但其使用范圍都有不同程度的局限。綜上所述，數(shù)據(jù)挖掘方法面臨的技術(shù)挑戰(zhàn)表現(xiàn)在下述兒個突出方面數(shù)據(jù)挖掘方法的效率函待提高。數(shù)據(jù)挖掘面臨的數(shù)據(jù)量是機(jī)器學(xué)習(xí)無法比擬的。對實時性要求較高的決策場合，數(shù)據(jù)挖掘方法的

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘方法的評述

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘方法的評述

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔