




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘方法的評述摘要:決策離不開知識,從數(shù)據(jù)庫中采掘知識,是解決從大信息量中獲取有用知識的有效途 徑。但是在實際數(shù)據(jù)庫中,數(shù)據(jù)的復(fù)雜,邕如信息量大、噪聲等)對數(shù)據(jù)挖掘方法提出了比機(jī) 器學(xué)習(xí)更高的要求,這方而的研究正受到越來越多的關(guān)注。本文就當(dāng)前數(shù)據(jù)挖掘的兒種卞要 方法,即神經(jīng)網(wǎng)絡(luò)、決策樹、粗集和云模型等方法的研究現(xiàn)狀進(jìn)行了評述,指出其存在的問 題。從總體上看,這些方法都有局限性,但它們的有機(jī)組合具有互補性,多方法融合將成 為數(shù)據(jù)挖掘的發(fā)展趨勢,最后指出數(shù)據(jù)挖掘方法而臨的挑戰(zhàn)。關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);決策樹;粗集;遺傳算法;云模型隨著管理信息系統(tǒng)的大量使用,商業(yè)、企業(yè)、科研機(jī)構(gòu)等部門都積累
2、了大量的數(shù)據(jù),這些數(shù) 據(jù)記載了他們?nèi)粘;顒?,蘊涵非常有價值的信息.面對日益豐富的數(shù)據(jù)資源,高層決策者卻 越來越覺得難以分辨有用信息。原因是當(dāng)前成熟的數(shù)據(jù)庫管理系統(tǒng)基本上還是一個檢索工 具,只限于原始數(shù)據(jù)的檢索、統(tǒng)計等平凡過程,缺乏對數(shù)據(jù)的分析和理解能力,更談不上決 策知識的自動獲取。機(jī)器(示例)學(xué)習(xí)是知識自動獲取的有效途徑,表面看來,它可以作為從數(shù)據(jù)庫中提取潛 在、事先未知的有用信息的手段。但必須看到,海量數(shù)據(jù)庫中的數(shù)據(jù)不同于機(jī)器學(xué)習(xí)所用的 實驗數(shù)據(jù):不僅具有超大的數(shù)據(jù)量,而且數(shù)據(jù)的動態(tài)性、噪聲、余稀疏和不完全也是傳統(tǒng)機(jī) 器學(xué)習(xí)方法難以勝任的。學(xué)習(xí)算法的效率對噪聲的處理能力等問題是實際應(yīng)用中必
3、須面對的 挑戰(zhàn),在此背景下,數(shù)據(jù)挖掘技術(shù)和方法引起了人們的注意。數(shù)據(jù)挖掘(DM, Data Mining)作為新興的研究領(lǐng)域,以機(jī)器學(xué)習(xí)、模式識別統(tǒng)計學(xué)、數(shù) 據(jù)庫和人工智能等眾多學(xué)科為基礎(chǔ),集成于從數(shù)據(jù)庫的原始粗糙的數(shù)據(jù)中提取高級別的知識 上。數(shù)據(jù)挖掘的能力大小,取決于挖掘工具的效能。由于數(shù)據(jù)挖掘時遇到的數(shù)據(jù)庫種類繁多(從關(guān)系型到面向?qū)ο笮?、空問型、時問型乃至 多媒體等復(fù)雜數(shù)據(jù)庫),且各種數(shù)據(jù)挖掘方法作用范圍有限因此采用單一方法難以得到?jīng)Q策 所需的各種知識。從總體上講,目前數(shù)據(jù)挖掘的能力非常有限。本文對當(dāng)前數(shù)據(jù)挖掘的主要方法進(jìn)行了回顧,分析其不足,并指出了這一領(lǐng)域可能的 發(fā)展方向?;谏窠?jīng)元網(wǎng)
4、絡(luò)的方法神經(jīng)網(wǎng)絡(luò)是大量的簡單神經(jīng)元按一定規(guī)則連接構(gòu)成的網(wǎng)絡(luò)系統(tǒng)。網(wǎng)絡(luò)能夠模擬人 類大腦的結(jié)構(gòu)和功能,采用某種學(xué)習(xí)算法從訓(xùn)練樣本中學(xué)習(xí),并將獲取的知識存儲在網(wǎng)絡(luò)各 單元之問的連接權(quán)中,神經(jīng)網(wǎng)絡(luò)和基于符號的傳統(tǒng)AI技術(shù)相比,具有直觀性、并行性和抗 噪性。目前已出現(xiàn)了多種網(wǎng)絡(luò)模型和學(xué)習(xí)算法,主要用于分類、優(yōu)化、模式識別、預(yù)測和控 制等領(lǐng)域。在數(shù)據(jù)挖掘領(lǐng)域,主要采用前向神經(jīng)網(wǎng)絡(luò)提取分類規(guī)則。從認(rèn)知的角度看,神經(jīng)網(wǎng)絡(luò)模擬人類的形象直覺思維。其最大的缺點是“黑箱”性,人 們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。因此有必要建立“白化”機(jī)制,用規(guī)則解釋網(wǎng)絡(luò)的權(quán)值 矩陣,為決策支持和數(shù)據(jù)挖掘提供說明,使從網(wǎng)絡(luò)中提取知識
5、成為知識自動獲取的手段。通 常有兩種解決方案:Q健立一個基于規(guī)則的系統(tǒng)輔助。神經(jīng)網(wǎng)絡(luò)運行的同時,將其輸入和輸 出模式給基于規(guī)則的系統(tǒng)。然后用反向關(guān)聯(lián)完成網(wǎng)絡(luò)的推理過程.這種方法把網(wǎng)絡(luò)的運行過 程和解釋過程用兩套系統(tǒng)實現(xiàn),開銷大,不夠靈活;直接從訓(xùn)練好的網(wǎng)絡(luò)中提?。ǚ诸悾┮?guī)則。 這是當(dāng)前數(shù)據(jù)挖掘使用得比較多的方法。從網(wǎng)絡(luò)中采掘規(guī)則,主要有下述兩種傾向:(1)網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取。它以神經(jīng)網(wǎng)絡(luò)的隱層結(jié)點和輸出層結(jié)點為研究對象,把 整個網(wǎng)絡(luò)分解為許多單層了網(wǎng)的組合。這樣研究較簡單的了網(wǎng),便于從中挖掘知識。Fu的 ICI算法3和Towell的MofM算法4是有代表性的方法。KT方法的缺點是通用性差A(yù)
6、.當(dāng)網(wǎng) 絡(luò)比較復(fù)雜時,算法的復(fù)雜性高,容易產(chǎn)生組合爆炸問題。所以,對于大規(guī)模網(wǎng)絡(luò),此類算 法在提取規(guī)則前,需要對網(wǎng)絡(luò)結(jié)構(gòu)的剪枝和刪除冗余結(jié)點等預(yù)處理工作。袁曾任,盧振中5 提出一種由預(yù)處理和規(guī)則提取兩階段組成的方法:預(yù)處理階段中包含有動態(tài)修正、聚類和刪 枝部分,分別完成構(gòu)造出全聯(lián)接或者非全聯(lián)接網(wǎng)絡(luò)的初步拓?fù)浣Y(jié)構(gòu),截掉不重要或者多余的 隱含節(jié)點和聯(lián)接等工作。劉振凱等峰I對初始網(wǎng)絡(luò)可能缺少結(jié)點或包含錯誤的連接給出一 種網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法,它通過動態(tài)增加隱層結(jié)點和網(wǎng)絡(luò)刪除,獲得較簡潔、易于理解的網(wǎng)絡(luò) 結(jié)構(gòu)。張朝輝等u提出用遺傳算法修剪神經(jīng)網(wǎng)絡(luò),然后用決策樹模擬神經(jīng)網(wǎng)絡(luò)的隱結(jié)點和 輸出結(jié)點的決策過程,最
7、后提取符號規(guī)則的RulExt算法。由神經(jīng)網(wǎng)絡(luò)的非線性映射關(guān)系提取規(guī)則,這種方法直接從網(wǎng)絡(luò)輸入和輸出層數(shù)據(jù)入 手,不考慮網(wǎng)絡(luò)的隱層結(jié)構(gòu),避免了基于結(jié)構(gòu)分解的規(guī)則提取算法的不足Sestitv,等人la 的相似權(quán)值法,以及文獻(xiàn)9在此基礎(chǔ)上提出的CSW算法(將網(wǎng)絡(luò)輸入擴(kuò)展到連續(xù)值取值), 是其中的兩種典型算法。當(dāng)然在數(shù)據(jù)挖掘領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的規(guī)則提取還存在諸多問題,如進(jìn) 一步降低算法的復(fù)雜度,提高所提取規(guī)則的可理解性及算法的適用性,研究提取的規(guī)則集的 評估標(biāo)準(zhǔn)和在訓(xùn)練中從神經(jīng)網(wǎng)絡(luò)動態(tài)提取規(guī)則以及時修正神經(jīng)網(wǎng)絡(luò)并提高神經(jīng)網(wǎng)絡(luò)性能等 都是進(jìn)一步的研究方向。2基于決策樹的方法決策樹是發(fā)現(xiàn)概念描述空問的一種有效
8、方法,也是許多歸納系統(tǒng)常采用的知識表示形 式。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。決策樹起源于概念學(xué)習(xí)系統(tǒng)CLS( ConceptLearning System),其思路是找出最有分辨能 力的屬性,把數(shù)據(jù)庫劃分為許多了集(對應(yīng)樹的一個分枝),構(gòu)成一個分枝過程,然后對每一 了集遞歸調(diào)用分枝過程,直到所有了集包含同一類型的數(shù)據(jù)。最后得到的決策樹能對新的例 了進(jìn)行分類,CLS的不足是它處理的學(xué)習(xí)問題不能太大。為此,Quinlan提出了著名的ID3 學(xué)習(xí)算法,通過選擇窗口來形成決策樹。從示例學(xué)習(xí)最優(yōu)化的角度分析,理想的決策樹分為3種:汐十了數(shù)目最少;咔了結(jié)點深 度最小;什結(jié)點
9、數(shù)最少且葉了結(jié)點深度最小。尋找最優(yōu)決策樹已被證明是NP困難問題。ID3 算法借用信息論中的4.信息(信息增益),作為單一屬性分辨能力的度量,試圖減少樹的平均 深度,忽略了葉了數(shù)目的研究。其啟發(fā)式函數(shù)并不是最優(yōu)的,存在的主要問題有勻一信息的計算依賴于屬性取值的數(shù)目較多的特征,而屬性取值較多的屬性不一定 最優(yōu);ID3是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹(在分枝結(jié)點上只考慮單個屬性),許多復(fù)雜概念的表達(dá) 困難,屬性問的相勻_關(guān)系強(qiáng)調(diào)不夠,容易導(dǎo)致決策樹中了樹的重復(fù)或有些屬性在決策樹的 某一路徑上被檢驗多次;抗噪性差,訓(xùn)練例了中正例和反例的比例較難控制。針對上述問題,出現(xiàn)許多較好的改進(jìn)算法,劉
10、小虎等l 2l在選擇一個新屬性時, 并不僅僅計算該屬性引起的信息增益,而同時考慮樹的兩層結(jié)點,即選擇該屬性后繼續(xù)選擇 屬性帶來的信息增益。洪家榮等在分枝屬性的選擇上仍采用基于信息增益率的方法,但在樹 的擴(kuò)展過程中,采用屬性聚類的方法減少樹的分枝。Schlimmer和Fisher設(shè)計了 ID4遞增式 學(xué)習(xí)算法lgal,通過修改ID3算法,在每個可能的決策樹結(jié)點創(chuàng)建一系列表,每個表由未 檢測屬性值及其示例組成,當(dāng)處理新例時,每個屬性值的正例和反例遞增計量。在ID4的 基礎(chǔ)上Utgoff提出了 IDS算法,它拋棄舊的檢測屬性下面的了樹,從下面選擇屬性構(gòu)造樹。 鐘鳴,陳文偉等為克服訓(xùn)練例了中正反例的比
11、例對互信息的影響,提出了IBLE算法,該算 法每次分枝時同時選一組重要屬性作為決策樹的結(jié)點,結(jié)果預(yù)測正確率高于ID3算法。此 外,還有許多算法使用了多變量決策樹的形式。如8的也。尸C. E.等人使用順序反向刪除和順 序前向選擇2種策略,選擇若干屬性的線性組合作為分枝屬性。在組合系數(shù)的確定上,分別 以均方誤差最小和劃分的雜度最小為目標(biāo),使用了遞歸最小二乘和CART方法,還有Pagallo G等人l Hl構(gòu)造屬性的Boolean組合來改善決策樹的性能,在多變量決策樹的生成中,屬 性的簡單合取可能會導(dǎo)致數(shù)據(jù)的過擬合問題。苗奪謙等人l另辟奚徑,基于粗糙集理論,用 相對泛化的概念構(gòu)造多變量檢驗,提出的一
12、種評價多變量檢驗的準(zhǔn)則,效果優(yōu)于ID3算法。 有關(guān)ID3的改進(jìn)算法還有很多,在此不再列出。3粗集方法在數(shù)據(jù)挖掘中,從實際系統(tǒng)采集到的數(shù)據(jù)可能包含各種噪聲,存在許多不確定因 素和不完全信息有待處理。傳統(tǒng)的不確定信息處理方法,如模糊集理論、證據(jù)理論和概率統(tǒng) 計理論等因需要數(shù)據(jù)的附加信息或先驗知識(難以得到),有時在處理大數(shù)據(jù)量的數(shù)據(jù)庫方面 無能為力。粗集作為一種軟計算方法,可以克服傳統(tǒng)不確定處理方法的不足,并且和它們能 有機(jī)結(jié)合,可望進(jìn)一步增強(qiáng)對不確定、不完全信息的處理能力。粗集理論中,知識被定義為對事物的分類能力。這種能力由上近似集、下近似集、 等價關(guān)系等概念體現(xiàn)。因為粗集處理的對象是類似二維關(guān)
13、系表的信息表決策表)。目前成熟 的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅實的 基礎(chǔ)。粗集從決策表挖掘規(guī)則,輔助決策,其關(guān)鍵步驟是求值約簡或數(shù)據(jù)濃縮,包括屬 性約簡和值約簡兩個過程,決策表約簡經(jīng)常涉及到核和差別矩陣兩個重要的概念。一般來講, 決策表的相對約簡有許多,最小約簡(含有最少屬性)是人們期望的。另一方面決策表的核是 唯一的,它定義為所有約簡的交集,所以核可以作為求解最小約簡的起點。差別矩陣突出屬 性的分辨能力,從中可以求出決策表的核以及約簡規(guī)則。Walong S和Ziarko W已經(jīng)證明求最小約簡是一個NP- hard問題。最小約簡的求解 需要借助啟發(fā)
14、式搜索解決。苗奪謙等人從信息論的角度對屬性的重要性作了定義,并在此基 礎(chǔ)上提出了一種新的知識約簡算法MIBARIo 土環(huán)等也給出了一個基于差別矩陣的屬性約簡 策略。但它們對最小約簡都是不完備的。此外,上述算法還只是局限于完全決策表。Marzena I2s應(yīng)用差別矩陣,推廣了等價關(guān)系(相似關(guān)系)、集合近似等概念,研究了不完全決策表(屬 性的取值含有空值的情況)的規(guī)則發(fā)現(xiàn)問題,從而為粗集的實用化邁出了可喜的一步。在文 獻(xiàn) 26中,Marzena I還比較了)匕種不完全系統(tǒng)的分析方法,得出下述結(jié)論:一個規(guī)則是 確定的,如果此規(guī)則在原不完全系統(tǒng)的每個完全拓展中是確定的;逗刪除從不完全決策表包 含空值的
15、對象后,采掘的知識可能為偽規(guī)則(對原不完全系統(tǒng)不一定成立)。粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實決策表中連續(xù)屬性 是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實用化的難點之一。這個問題一直是 人工智能界關(guān)注的焦點。連續(xù)屬性的離散化的根本出發(fā)點是在盡量減少決策表信息損失的前 提下(保持決策表不同類對象的可分辨關(guān)系),得到簡化的和濃縮的決策表,以便用粗集理論 分析,獲得決策所需要的知識。最優(yōu)離散化問題(離散的切點數(shù)最少)已被證明是NP-hard問 題。利用一些啟發(fā)式算法可以得到滿意的結(jié)果??傮w上講,現(xiàn)有離散化方法主要分為非監(jiān)督 離散化和監(jiān)督離散化。前者包括等寬度(將連續(xù)值屬性
16、的值域等份)和等頻率離散化(每個離散 化區(qū)問所含的對象相同)。非監(jiān)督離散化方法簡單,它忽略了對象的類別信息,只能用在屬 性具有特殊分布的情況。針對上述問題,監(jiān)督離散化方法考慮了分類信息,提高了離散效果。 目前比較有代表性的監(jiān)督離散化方法有以下)L種:(1) Holt。提出了一種貪婪的單規(guī)則離散器 (one rule ; ( 2)統(tǒng)計檢驗方法125;(3)信息嫡方法l Zyl等。這些方法各有 特點但都存在一個不足:每個屬性的離散化過程是相互獨立的,忽略了屬性之問的關(guān)聯(lián),從 而使得離散的結(jié)果中含有冗余或不合理的分割點。針對這個問題。于金龍等人 30l給出了 一種連續(xù)屬性的整體離散化方法,實驗表明不
17、僅能顯著減少離散化劃分點和歸納規(guī)則數(shù),而 且提高了分類精度。連續(xù)屬性離散化目前還存在的問題是還缺乏遞增的離散化方法,即當(dāng)新 的對象加入決策表時,原有的分割點可能不是最優(yōu)或滿意的。粗集理論和其它軟計算方法的結(jié)合,能夠提高數(shù)據(jù)挖掘能力。Mohua Ban司e。等 31利用粗集理論獲得初始規(guī)則集,然后構(gòu)造對應(yīng)的模糊多層神經(jīng)網(wǎng)絡(luò)(規(guī)則的置信度對應(yīng)網(wǎng) 絡(luò)的連接權(quán)),訓(xùn)練后可得到精化的知識。李永敏等132J人也提出了一種利用粗集理論進(jìn)行 BP網(wǎng)絡(luò)設(shè)計的方法,思路類似于Mo-hu。的做法。苗奪謙等133J證明知識約簡在信息和代 數(shù)兩種表示下是等價的,但信息表示比較容易理解,而且在信息觀點下,粗分析比較容易實
18、 現(xiàn)高效的約簡算法。粗集與其它軟計算方法的集成是數(shù)據(jù)挖掘的一種趨勢。目前基于粗集的 數(shù)據(jù)挖掘在下述方面有待深化:粗集和其它軟計算方法的進(jìn)一步結(jié)合問題;粗集知識采掘的遞增算法;粗集基本運算的并行算法及硬件實現(xiàn),將大幅度改善數(shù)據(jù)挖掘的效率。已有的 粗集軟件適用范圍還很有限。決策表中的實例數(shù)量和屬性數(shù)量受限制。面對海量的數(shù)據(jù),有 必要設(shè)計高效的啟發(fā)式簡化算法或研究實時性較好的并行算法;擴(kuò)大處理屬性的類型范圍,實際數(shù)據(jù)庫的屬性類型是多樣的,既有離散屬性, 也有連續(xù)屬性;既有字符屬性,也有數(shù)值屬性。粗集理論只能處理離散型屬性,因此需要設(shè) 計連續(xù)值的離散算法。文獻(xiàn)24分別使用經(jīng)驗公式和修改的差別矩陣也給出
19、了決策一致和不 一致條件下的兩種連續(xù)屬性離散化方法。4其他方法4. 1云模型方法云模型用于采掘關(guān)聯(lián)規(guī)則。云是統(tǒng)一刻化語言值和數(shù)值問隨機(jī)性和模糊性的模型,能夠?qū)Χㄐ悦枋龅恼Z言值 和定量表示數(shù)值問、連續(xù)量和離散量問隨時轉(zhuǎn)換,較好地解決了數(shù)據(jù)挖掘中的知識表示問題 l34- 35J。云的數(shù)字特征用三元組:征,其中期望值Ex是云的重心位置,代表相 應(yīng)的模糊概念的中心值;嫡En是語言值對數(shù)值的可覆蓋度量,它的大小反映了在論域中可被 模糊概念吸收的元素數(shù),偏差D反映了云滴的離散程度,正態(tài)云是常用的云模型。陳暉,李德毅等人l3l用語言云模型表達(dá)數(shù)據(jù)挖掘的知識和不確定性處理,并擴(kuò) 展一維模型為多維云模型以模擬人
20、類靈活地劃分屬性空問,且允許相鄰語言項問有重疊的現(xiàn) 象。為了發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則,在較高的概念層上泛化了屬性值,同時允許相鄰屬性值或語言項 問有重疊,這種軟劃分比較接近人的思維,使發(fā)現(xiàn)的知識具有穩(wěn)健性。文獻(xiàn)最后將基于云模 型的泛化方法與Apriori算法結(jié)合起來,從關(guān)于中國地理和經(jīng)濟(jì)狀況的空問數(shù)據(jù)庫發(fā)掘關(guān)聯(lián) 規(guī)則,初步顯示了云模型在關(guān)聯(lián)規(guī)則采掘的有效性。文獻(xiàn)35基于云模型對定性和定量的轉(zhuǎn)換能力,將人用自然語言值定性表達(dá)的控制 經(jīng)驗,通過語言原了和云模型轉(zhuǎn)換到語言控制規(guī)則器中,結(jié)果證明控制效果比人工神經(jīng)網(wǎng)絡(luò) 方法和模糊控制方法好。云模型還是一種新模型,其適用范圍較窄,有待進(jìn)一步的深入研究。4. 2遺傳
21、算法遺傳算法是一種仿生全局優(yōu)化方法。它模擬生命進(jìn)化機(jī)制,將較劣的初始解通過 一組遺傳算了,在求解空問按一定的隨機(jī)規(guī)則迭代搜索,直到求得問題的最優(yōu)解。遺傳算法具有許多不同于傳統(tǒng)方法的優(yōu)點,以至它在復(fù)雜的問題優(yōu)化、模式識別、 工程設(shè)計、控制系統(tǒng)優(yōu)化及社會科學(xué)等許多領(lǐng)域得到廣泛的應(yīng)用,并取得了較好的效果。遺 傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì),使得它涉足于數(shù)據(jù)挖掘領(lǐng)域。近年 來,它在數(shù)據(jù)挖掘中的應(yīng)用也引起了人們的關(guān)注。在數(shù)據(jù)挖掘領(lǐng)域,遺傳算法的作用表現(xiàn)在以下兒個方面:(1)和神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合。如用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò), 然后從網(wǎng)絡(luò)提取規(guī)則。實踐證明這是一種有效的
22、方法。分類系統(tǒng)的設(shè)計。遺傳算法用于分類器始于80年代初。90年代后,遺傳算法 用于分類系統(tǒng)的理論得到廣泛的研究和應(yīng)用。目前研究的重點是一些基本設(shè)計方法,如編碼 方式、信任分配函數(shù)的設(shè)計等具體問題以及遺傳算法的改進(jìn)上。陳文偉等人l 3l研制了一 種遺傳分類器系統(tǒng)GCLS,這種系統(tǒng)采用了)I練和測試同時進(jìn)行的策略,系統(tǒng))I練后能繼 續(xù)學(xué)習(xí),以適應(yīng)不斷變化的環(huán)境。采掘?qū)δX出血和腦血栓兩類疾病的分類規(guī)則,系統(tǒng)表現(xiàn)出 滿意的測試正確率。張雪江等l 3Hl收集多種故障的大量實例,用遺傳退火算法解決了區(qū)分 各種故障的最優(yōu)規(guī)則。遺傳算法用于數(shù)據(jù)挖掘存在問題是:算法較復(fù)雜,還有收斂于局部極小的過早收斂 等難題未
23、得到徹底解決。4. 3證據(jù)理論證據(jù)理論作為一種不確定推理方法,在數(shù)據(jù)挖掘中的應(yīng)用不多見。Anand S等l 3yl 提出基于證據(jù)理論(Evidence Theory)的數(shù)據(jù)發(fā)掘一般框架EDM,具有以下兒個特點:(功余行性,這對于大數(shù)據(jù)集的知識采掘有高的效率,并且對并行的、分布的和異 質(zhì)的數(shù)據(jù)庫也適用;習(xí)以充分利用用戶的先驗知識與先前發(fā)現(xiàn)的知識;侄提出了較完整的知識表示、數(shù)據(jù)表示及數(shù)據(jù)操作與知識發(fā)現(xiàn)的方法并在強(qiáng)規(guī)則 的發(fā)掘及空問數(shù)據(jù)庫的發(fā)掘上對提出的方法進(jìn)行了檢驗。文獻(xiàn)40也研究了證據(jù)理論在數(shù)據(jù)發(fā)掘中的應(yīng)用。證據(jù)理論在數(shù)據(jù)挖掘中的應(yīng)用的 缺點來源于證據(jù)推理中的存在問題,如需要先驗知識、證據(jù)要求是相互獨立等。若和其它方 法結(jié)合使用,效果更佳。除了上述數(shù)據(jù)挖掘方法外,還有許多其它方法,如統(tǒng)計方法(特征規(guī)則和關(guān)聯(lián)規(guī)則),I 最臨近技術(shù)和可視化技術(shù)等,它們在數(shù)據(jù)挖掘中的作用也不可低估,但其使用范圍都有不同 程度的局限。綜上所述,數(shù)據(jù)挖掘方法面臨的技術(shù)挑戰(zhàn)表現(xiàn)在下述兒個突出方面數(shù)據(jù)挖掘方法的效率函待提高。數(shù)據(jù)挖掘面臨的數(shù)據(jù)量是機(jī)器學(xué)習(xí)無法比擬的。 對實時性要求較高的決策場合,數(shù)據(jù)挖掘方法的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自愿離婚合同協(xié)議書
- 咨詢服務(wù)外包合同
- 客戶反饋處理流程表格化展示
- 2025年廣州房產(chǎn)中介合同6篇
- 2025年遼寧貨運車從業(yè)考試題
- 合同協(xié)議-汽車有限公司集體合同6篇
- 防火門承攬加工合同格式6篇
- 建材供貨合同7篇
- 保稅器材維修合同范本
- 包銷合同范本
- 江蘇農(nóng)牧科技職業(yè)學(xué)院單招《職業(yè)技能測試》參考試題庫(含答案)
- 小學(xué)勞動教育二年級下冊教學(xué)計劃
- 三年級上冊脫式計算100題及答案
- 2024春開學(xué)第一課-開學(xué)第一課 禁毒我先行 課件
- 《聽歌識曲》課件
- 金屬冶煉安全培訓(xùn)課件
- 采血護(hù)士培訓(xùn)課件
- 140m集裝箱船船體說明書
- 高等教育學(xué)課件-
- 送達(dá)地址確認(rèn)書
- 機(jī)動車檢測站管理制度
評論
0/150
提交評論