機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中應(yīng)用技術(shù)_第1頁
機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中應(yīng)用技術(shù)_第2頁
機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中應(yīng)用技術(shù)_第3頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用-電氣論文機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用陳小燕(江蘇農(nóng)林職業(yè)技術(shù)學(xué)院,江蘇句容212400 )摘要:針對數(shù)據(jù)挖掘算法中常用的機(jī)器學(xué)習(xí)型算法進(jìn)行研究。機(jī)器學(xué)習(xí) 型算法特色是運用了人工智能技術(shù),能在大量樣本集訓(xùn)練和學(xué)習(xí)后自動找出運算 需要的參數(shù)和模式。以機(jī)器學(xué)習(xí)型算法中的人工神經(jīng)網(wǎng)絡(luò)為例研究數(shù)據(jù)挖掘技 術(shù),針對學(xué)習(xí)速度慢、抗干擾能力弱以及容易陷入局部最小值等缺點和傳統(tǒng)的遺 傳算法存在算法早熟以及局部尋優(yōu)能力弱等問題,提出一種通過改進(jìn)常規(guī)遺傳算 法的染色體結(jié)構(gòu)和遺傳算子,并且通過引入自適應(yīng)交叉和變異概率來對BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化的改進(jìn)型遺傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型。最

2、后通過煤礦空壓機(jī)故障診斷系統(tǒng)這一實例來研究改進(jìn)型算法的數(shù)據(jù)挖掘技術(shù)的性能。研究結(jié)果表明,改進(jìn)后的算法建立的診斷模型相比常規(guī)神經(jīng)網(wǎng)絡(luò)的診斷模型診斷準(zhǔn)確率更 好,診斷效率更快。關(guān)鍵詞:數(shù)據(jù)挖掘;BP神經(jīng)網(wǎng)絡(luò);遺傳優(yōu)化算法;空壓機(jī)故障診斷中圖分類號:TN957.52+9?34 ; TP274文獻(xiàn)標(biāo)識碼:A文章編號:1004?373X (2015 ) 20?0011?04Application of machine leanning algorithm in data miningCHEN Xiaoya n(Jiangsu Polytechnic College of Agricultural and

3、 Forestry,Jurong212400,China)Abstract : The machine learning algorithmcommonlyused indata mining algorithm is studied in this paper. AIT(artificial ntellige neetech no logy ) is adopted in mach ine lear ning algorithm , which can automatically find out the parameters and modesrequired by operati on

4、after a large number of sample set training and learning. The artificial n eural n etwork in mach ine lear nin galgorithm is take n as an example to research the data miningtech no logy.Since the traditi onalgen eticalgorithmhas the short?comingsof prematurity and weak localoptimizing capacity , the

5、 improved genetic optimizationBP neuralnetwork model is pro?posed by improvingthe chromosome structureand genetic operator , and by introducing adaptive crossover and mutatio n probabilityto optimize n eural n etwork structure parameters and solve the problems of slow learning speed , weak anti?jamm

6、ing capability , and easily falli ng in to local minimum value. Fin ally , the performanee of the improved algorithm is studied by using the fault di?ag no sis system of air compressor. The research results show that the improved diagnostic model , compared with the conventionalneural n etwork diag

7、no sis model , has better diag no sticaccuracy and higherdiag no stic efficie ncy.Keywords : data mining ; BP neural network; genetic optimizationalgorithm ; fault diag no sis of air compressor0引言數(shù)據(jù)挖掘技術(shù)是在整個社會發(fā)展中隨著科學(xué)和技術(shù)的不斷進(jìn)步而順應(yīng)需要所生。隨著信息化技術(shù)的不斷普及,人類社會逐步進(jìn)入到信息化社會中,信 息化管理技術(shù)隨之不斷提升,成本卻同時逐步下降,數(shù)據(jù)管理技術(shù)(DataMan

8、ageme nt Tech no logy )在各企事業(yè)單位中進(jìn)一步普及,從而推動企事業(yè) 單位內(nèi)部職能部門間的溝通聯(lián)絡(luò)。 但是,隨之而來的弊病是海量數(shù)據(jù)的累積導(dǎo)致 數(shù)據(jù)分析的困難1?2。1數(shù)據(jù)挖掘數(shù)據(jù)挖掘算法中常用的有機(jī)器學(xué)習(xí)型算法和統(tǒng)計型算法兩類。前者的特 色是運用了人工智能技術(shù),能在大量樣本集訓(xùn)練和學(xué)習(xí)后自動找出運算需要的參 數(shù)和模式;后者則常用相關(guān)性分析、聚類分析、概率和判別分析等進(jìn)行運算。不 同算法當(dāng)然有著各自不同的對應(yīng)領(lǐng)域和目標(biāo),它們既能單獨使用,也能相互結(jié)合。機(jī)器學(xué)習(xí)型算法中人工神經(jīng)網(wǎng)絡(luò)方法被普遍運用,它具有極好的數(shù)據(jù)處 理能力和自組織學(xué)習(xí)能力,并且能準(zhǔn)確進(jìn)行識別,從而有助于分類問

9、題中的數(shù)據(jù) 處理。人工神經(jīng)網(wǎng)絡(luò)通過建構(gòu)模型而工作,其模型多樣,能滿足不同需求??傮w 來看,人工神經(jīng)網(wǎng)絡(luò)模型精確度高、魯棒性好,具有較強(qiáng)描述能力,在應(yīng)用時可 以無需專家支持。當(dāng)然,它也存在一些缺陷,具體表現(xiàn)在:訓(xùn)練數(shù)據(jù)所需要的時 間較長;對所獲取知識的理解上不夠智能;開放性和可伸縮性也有一定局限性。傳統(tǒng)的BP神精網(wǎng)絡(luò)存在學(xué)習(xí)速度慢、抗干擾能力弱以及容易陷入局部 最小值等缺點,而傳統(tǒng)的遺傳算法存在算法早熟以及局部尋優(yōu)能力弱等問題;所以本文提出一種通過改進(jìn)常規(guī)遺傳算法的染色體結(jié)構(gòu)和遺傳算子,并且通過引入自適應(yīng)交叉和變異概率來對 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化的改進(jìn)型遺傳優(yōu)化 BP神經(jīng)網(wǎng)絡(luò)模型3?4。2

10、改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)本文為了提高BP神經(jīng)網(wǎng)絡(luò)的性能,針對常規(guī)遺傳算法的染色體結(jié)構(gòu)和 遺傳算子進(jìn)行改進(jìn)。引入自適應(yīng)交叉、變異概率以平衡優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和初始權(quán)重。(1 )染色體結(jié)構(gòu)設(shè)計。本文將染色體基因結(jié)構(gòu)分為上下兩層結(jié)構(gòu),分 別為控制基因和參數(shù)基因兩層,從而對常規(guī)的遺傳算法優(yōu)化 BP神經(jīng)網(wǎng)絡(luò)模型進(jìn) 行改進(jìn)。處于上層的控制基因通過對 BP神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點數(shù)優(yōu)化從而實現(xiàn) 對BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。處于下層的參數(shù)基因主要對BP神經(jīng)網(wǎng)絡(luò)的連接權(quán)值和閾值進(jìn)行優(yōu)化。(2)設(shè)計適應(yīng)度函數(shù)。本文將適應(yīng)度函數(shù)表示為:f 二 « 總/皿 + b *幾,()< 心 < /(&qu

11、ot;) + ")f式中:n為訓(xùn)練樣本個數(shù);是訓(xùn)練數(shù)據(jù)的均方根誤差,處于01之間;yi和y?i分別是實際值和識別值。(3 )算子選擇。本文提出的改進(jìn)型遺 傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法使用最優(yōu)個體保留方法實現(xiàn)算子選取以常規(guī)的適應(yīng)值比 例算法選取方法引起的局部最小值等問題5 o(4)交叉、變異算子。本文提出 的改進(jìn)型遺傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法的上層控制基因采用單點交叉和基本位變異 算子,下層的參數(shù)基因使用整體算數(shù)交叉和非一致變異算子。(5)自適應(yīng)交叉、變異概率。本文通過對自適應(yīng)交叉、變異概率進(jìn)行設(shè)計以平衡優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和初始權(quán)重,具體設(shè)計過程如下,設(shè)定自適 應(yīng)交叉概率為:_-Ain)/

12、(化廠人 JZ "yt氐2、fc式中:favr , fmin及fc分別是種群的平均適應(yīng)值、最小適應(yīng)值以及交叉?zhèn)€體偏小的適應(yīng)值;k1 , k2通常在1.0上下取值。設(shè)定自適應(yīng)變異概率為:MAI你'f J mm ) * fm/IvrfT1 A(3)式中:fm是等待變異的個體適應(yīng)值;k3,k4通常在0.5上下取值5?7本文提出的改進(jìn)型遺傳優(yōu)化 BP神經(jīng)網(wǎng)絡(luò)算法的實施步驟如下:Stepl :采集并歸一化處理數(shù)據(jù)。將處理好后的數(shù)據(jù)分為訓(xùn)練樣本數(shù)據(jù) 和測試樣本數(shù)據(jù)兩大類。Step2 :對遺傳優(yōu)化算法模型的基本參數(shù),如進(jìn)化最大代數(shù)為G,種群的規(guī)模N以及隱含層節(jié)點數(shù)等進(jìn)行設(shè)定。Step3 :

13、對種群上層種群個體使用二進(jìn)制編碼,對種群下層種群個體使 用實數(shù)編碼。Step4 :對種群各個個體解碼以確定BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)。Step5 :遺傳操作種群中適應(yīng)度優(yōu)異的個體。Step6 :對種群中遺傳個體使用自適應(yīng)概率進(jìn)行交叉、變異操作,獲得 新的子群。Step7 :對上下層的子群個體解碼以對 BP神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點數(shù)、權(quán)值和閾值等結(jié)構(gòu)參數(shù)進(jìn)行更新。Step8 :如果迭代步數(shù)達(dá)到設(shè)定最大值或者最佳個體適應(yīng)度值滿足要求, 進(jìn)入下一步,否則從Step5繼續(xù)循環(huán)。Step9 :對適應(yīng)值最佳的個體進(jìn)行解碼以確定最佳的BP神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點數(shù)、閾值和連接權(quán)值等參數(shù)8。3數(shù)據(jù)挖掘應(yīng)用實例本文以煤礦空壓機(jī)

14、的故障診斷系統(tǒng)為實例, 對提出的基于改進(jìn)型 GA?BP 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘模型進(jìn)行研究。3.1煤礦空壓機(jī)故障診斷系統(tǒng)在建立空壓機(jī)故障診斷模型之前,首先要通過查閱大量的空壓機(jī)使用說 明、故障說明、專家、操作人員的現(xiàn)場使用經(jīng)驗以及集合現(xiàn)在實時監(jiān)測數(shù)據(jù)對空 壓機(jī)故障類型、故障來源等問題進(jìn)行歸納總結(jié)。以某煤礦的煤礦空壓機(jī)故障診斷系統(tǒng)為例進(jìn)行研究。通過經(jīng)驗及現(xiàn)場數(shù)據(jù)對煤礦空壓機(jī)歸納出5種工作狀態(tài),用符號丫1丫5表示,即為神經(jīng)網(wǎng)絡(luò)故障 診斷模型的輸出。丫1丫5分別表示:煤礦空壓機(jī)為無故障工作狀態(tài);煤礦空壓 機(jī)冷卻水系統(tǒng)出現(xiàn)故障的工作狀態(tài);煤礦空壓機(jī)潤滑系統(tǒng)出現(xiàn)故障的工作狀態(tài); 煤礦空壓機(jī)軸承出現(xiàn)故障的工作

15、狀態(tài);煤礦空壓機(jī)電路系統(tǒng)出現(xiàn)故障的工作狀 態(tài)0當(dāng)煤礦空壓機(jī)出現(xiàn)上述故障情況時,會有相應(yīng)的故障征兆,根據(jù)經(jīng)驗及 文獻(xiàn)可以將煤礦空壓機(jī)的故障征兆或者故障現(xiàn)象歸納為10種,用符號X1X10表示,即為神經(jīng)網(wǎng)絡(luò)故障診斷模型的輸入。X1X10分別表示:煤礦空壓機(jī)排氣 量過低、空壓機(jī)排氣壓力不足、空壓機(jī)排氣溫度超限、空壓機(jī)冷卻水溫度超限、 空壓機(jī)冷卻水壓力不足、空壓機(jī)主機(jī)轉(zhuǎn)速低限、空壓機(jī)振動超限、空壓機(jī)潤滑系統(tǒng)油溫超限、空壓機(jī)潤滑油壓力不足以及軸承溫度超限。煤礦空壓機(jī)的故障征兆或者故障現(xiàn)象與煤礦空壓機(jī)出現(xiàn)故障的工作狀態(tài)有一定的內(nèi)在聯(lián)系,但又不是一一對應(yīng)的,屬于非線性關(guān)系,在此將歸納整理 的煤礦空壓機(jī)的故障狀

16、態(tài)和故障現(xiàn)象之間的內(nèi)在聯(lián)系列于表1。通過長期的現(xiàn)場監(jiān)測得到了大量關(guān)于煤礦空壓機(jī)在正常工作及各種故障狀態(tài)下的系統(tǒng)數(shù)據(jù)。通過對數(shù)據(jù)處理選取 100組數(shù)據(jù)作為基于數(shù)據(jù)挖掘的故 障診斷系統(tǒng)的訓(xùn)練數(shù)據(jù)樣本,選取 100組數(shù)據(jù)用于基于數(shù)據(jù)挖掘的故障診斷系 統(tǒng)的性能測試數(shù)據(jù)樣本。表2列出了 10組部分用于網(wǎng)絡(luò)訓(xùn)練和測試的數(shù)據(jù)樣本。故障狀態(tài)故障現(xiàn)象00000000000010100010y;001000I111匕Ii00i1I001h1001010100表1空壓機(jī)故障狀態(tài)及故障現(xiàn)象關(guān)系本文將所有用于訓(xùn)練和測試的數(shù)據(jù)樣本進(jìn)行歸一化處理以消除不同傳感器信號數(shù)據(jù)不同量綱產(chǎn)生的影響,通過式(4)將所有數(shù)據(jù)歸一到0.0

17、50.95&二()9(S -S )/(S- S ) + ()()§(4)Imm / maznyn /之間:式中:S為歸一化處理之前的值;Smax為是歸一化處理的最大值;Smin為是歸左札轉(zhuǎn)詫!號力/MPa1 MVmin)力蝕Fa(rZmiii)動 /mm/n2濯度rc圧力/MPajt re0.8030.41強(qiáng)®1旳他0311 502.01R.2277.00.56120.70l,0.DPO,<20,6535.1140,0L28L 4MXH97.TO81.S20,71lldl3OJ22B.2136S44J0.051 477XK27.9170.920.48100.9

18、2430.2240.112L6O0.IH1 47015.91S-1.S20.67119.5150,67珈142.5136.20OjOT1 5M>.WS.90仇910.71117.220.1,0,0,060.67291145.71mi03()1 3K8.OI!7.21游.500.51102A20s0J A0717.2135.922S.4L0271 321.019.410.63115-210,0,0j,08如Q.7136.3127.210-3&1 206.0(15.9:S4JI0,J9119.720,0.0,1,090.4116.51364221.620331 3e2.oi6.720

19、.63120.91P.(ML h ,C10Q.4519.6134.6221.210.22501.02I&7194.2 iOJO109 JI建立基于本文提出的基于改進(jìn)型 GA?BP神經(jīng)網(wǎng)絡(luò)的故障診斷系統(tǒng)主要 分為兩大塊:第一塊是利用改進(jìn)GA算法對BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化,如閾值Bj ,丫、隱層節(jié)點數(shù)m以及連接權(quán)值wj1 , wij等;第二塊就是根據(jù)優(yōu)化后 的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行建模。故障診斷系統(tǒng)的輸入單元數(shù)由煤礦空壓機(jī)故障現(xiàn)象確定,通過上述分析,確定數(shù)量為10,即X1X10 ;輸出單元個數(shù)由煤礦空壓機(jī)的工作狀態(tài)確定, 通過上述分析,確定數(shù)量為5,即Y1Y5 ;隱含層為單層,單元數(shù)

20、量一般先通過經(jīng)驗試湊法確定為16。初始閾值Bj , 丫以及初始連接權(quán)值wj1 , wij在-33 范圍內(nèi)取值;神經(jīng)網(wǎng)絡(luò)的最大訓(xùn)練次數(shù)設(shè)定為3 000,精度為10-3。設(shè)定遺傳算法中種群的規(guī)模為 N = 150 ,進(jìn)化最大代數(shù)為G = 300,及其他參數(shù) b = 0.1, k1 = k2 = 1.0, k3 = k4 = 0.5。通過遺傳算法優(yōu)化的平均適應(yīng)度曲線如圖1所示,隱含層節(jié)點數(shù)優(yōu)化曲線如圖2所示,最終隱含層節(jié)點數(shù)通過189次的迭代后確定為22。3.2基于數(shù)據(jù)挖掘的空壓機(jī)故障診斷分析針對上述建立的煤礦空壓機(jī)故障診斷系統(tǒng)進(jìn)行仿真研究,為了比較本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法的優(yōu)越性能,

21、使用基于常規(guī) GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)建立同樣的煤礦空壓機(jī)故障針 對系統(tǒng),使用同樣的訓(xùn)練數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練, 使用同樣的測試數(shù)據(jù)樣本進(jìn)行 性能測試。使用采集并處理后的 100組訓(xùn)練樣本對模型進(jìn)行訓(xùn)練,得到兩種模 型的誤差逼近曲線如圖 3, 圖 4 所示,圖1平均適應(yīng)度變化圖2 隱含層節(jié)點數(shù)更新過程通過對比可以看出,使用本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法經(jīng)過569次迭代就使得誤差達(dá)到了設(shè)定范圍內(nèi),而使用常規(guī)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)算法經(jīng)過2 779次迭代才使得誤差滿足要求。因此在網(wǎng)絡(luò)的訓(xùn)練速度、收斂 速度和收斂精度方面,本文提出的改進(jìn)型 GA?BP神經(jīng)網(wǎng)絡(luò)算法更勝一籌。下面使用采集并處理后的 100組測試數(shù)據(jù)樣本對故障診斷模型的診斷 性能進(jìn)行測試。測試結(jié)果表明,常規(guī) GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)的診斷正確率為 87.5%,診斷時間為564 s,輸出值不穩(wěn)定,而本文提出的改進(jìn)型 GA?BP神經(jīng) 網(wǎng)絡(luò)的診斷正確率為98.2%,診斷時間為246 s,輸出值穩(wěn)定。010020030G400500600訓(xùn)絳次數(shù)圖4 改進(jìn)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)陰練誦X圖4改進(jìn)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差可以看出,相比于常規(guī) GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò),本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法所建立的故障診斷模型的性能更優(yōu),檢測準(zhǔn)確率以及速度 更快,誤判率極低。4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論