第7章 數(shù)據(jù)分析軟件_第1頁
第7章 數(shù)據(jù)分析軟件_第2頁
第7章 數(shù)據(jù)分析軟件_第3頁
第7章 數(shù)據(jù)分析軟件_第4頁
第7章 數(shù)據(jù)分析軟件_第5頁
已閱讀5頁,還剩81頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章數(shù)據(jù)分析中心軟件第2

頁專家軟件作用

軟件開發(fā)基礎(chǔ)數(shù)據(jù)分析基礎(chǔ)

智能變電設(shè)備在線監(jiān)測(cè)實(shí)例內(nèi)容提綱厚德弘毅博學(xué)篤行第3

頁第一部分專家軟件作用厚德弘毅博學(xué)篤行第4

掌握電氣設(shè)備的狀態(tài),及時(shí)檢測(cè)出電氣設(shè)備在運(yùn)行中有關(guān)參數(shù)及其變化趨勢(shì)是電氣測(cè)試的目標(biāo)。對(duì)電氣設(shè)備相關(guān)運(yùn)行參數(shù)的獲取有離線檢測(cè)和在線監(jiān)測(cè)兩種方法。

離線檢測(cè):通過設(shè)備以外的各類檢測(cè)儀表對(duì)設(shè)備狀況進(jìn)行必要的人工抽查;

在線監(jiān)測(cè):通過裝在設(shè)備上的各類監(jiān)測(cè)儀表對(duì)設(shè)備的各類信號(hào)進(jìn)行連續(xù)自動(dòng)監(jiān)測(cè)并上傳至終端接收端。

在信息化時(shí)代的今天,有效地將計(jì)算機(jī)系統(tǒng)應(yīng)用于電力企業(yè)生產(chǎn)的各個(gè)環(huán)節(jié)來提高生產(chǎn)效益,節(jié)約成本,同時(shí)提高生產(chǎn)管理的科學(xué)決策水平是一種必然趨勢(shì)。為此針對(duì)電網(wǎng)各個(gè)環(huán)節(jié)設(shè)計(jì)開發(fā)了多種在線監(jiān)測(cè)與離線監(jiān)測(cè)的信息一體化平臺(tái),其數(shù)據(jù)則是通過多種終端渠道匯總于電力系統(tǒng)數(shù)據(jù)庫中,通過生產(chǎn)管理系統(tǒng)對(duì)電力系統(tǒng)實(shí)現(xiàn)集約化、規(guī)范化和精細(xì)化管理。目前電力系統(tǒng)中使用的主流軟件電力環(huán)節(jié)電力系統(tǒng)發(fā)電輸電配電變電用電發(fā)電廠用電電氣監(jiān)控管理系統(tǒng)輸變電設(shè)備狀態(tài)檢修輔助決策系統(tǒng)微機(jī)五防、綜合自動(dòng)化、SCADA等系統(tǒng)配變監(jiān)測(cè)、配電監(jiān)測(cè)管理、線路故障定位等系統(tǒng)生產(chǎn)管理系統(tǒng)用電信息采集、智能電表能源管理平臺(tái)等系統(tǒng)厚德弘毅博學(xué)篤行第7

頁第二部分軟件開發(fā)基礎(chǔ)厚德弘毅博學(xué)篤行第8

頁1.面向?qū)ο蟮脑O(shè)計(jì)

面向?qū)ο笫?0年代以來軟件開發(fā)方法的主流。軟件系統(tǒng)本質(zhì)上是信息處理系統(tǒng),與傳統(tǒng)方法相反,面向?qū)ο蠓椒ò褜?duì)象作為由數(shù)據(jù)及可以施加在這些數(shù)據(jù)上的操作所構(gòu)成的統(tǒng)一體,需要發(fā)消息請(qǐng)求對(duì)象主動(dòng)執(zhí)行某些操作并處理其私有數(shù)據(jù)?;诿嫦?qū)ο笤O(shè)計(jì)的軟件則是讓軟件開發(fā)者自己先定義或選取解空間對(duì)象,然后把軟件系統(tǒng)作為一系列離散的解空間對(duì)象的集合。與傳統(tǒng)的程序設(shè)計(jì)方法比較,面向?qū)ο蟮某绦蛟O(shè)計(jì)有以下優(yōu)點(diǎn):與人習(xí)慣性的思維方法一致

面向?qū)ο蟮能浖夹g(shù)以對(duì)象為核心,按照人們習(xí)慣性的思維方法建立問題域的模型穩(wěn)定性好可重用性好較易開發(fā)大型軟件產(chǎn)品可維護(hù)性好

以對(duì)象間的聯(lián)系刻畫實(shí)體間的聯(lián)系,當(dāng)對(duì)系統(tǒng)功能需求變化時(shí),僅需要做一些局部性的修改

繼承性機(jī)制使得子類可以重用父類數(shù)據(jù)結(jié)構(gòu)和程序代碼,且可在父代碼基礎(chǔ)上修改和擴(kuò)充,而不影響原有類的使用

開發(fā)軟件時(shí)有自己的數(shù)據(jù)、,操作、功能和用途,降低了開發(fā)的技術(shù)難度,降低軟件成本的同時(shí)提高了軟件質(zhì)量

穩(wěn)定性較好,易于修改,容易理解,并且易于測(cè)試和

試2.可選編程語言

編程語言是用來定義計(jì)算機(jī)程序的形式語言,用來向計(jì)算機(jī)發(fā)出指令。一種計(jì)算機(jī)語言讓程序員能夠準(zhǔn)確地定義計(jì)算機(jī)所需要使用的數(shù)據(jù),并精確地定義在不同情況下所應(yīng)當(dāng)采取的行動(dòng)。目前通用的編程語言有兩種形式:匯編語言和高級(jí)語言。高級(jí)語言的出現(xiàn)使得計(jì)算機(jī)程序設(shè)計(jì)語言不再過分依賴某種特定的機(jī)器或環(huán)境。目前主流使用的高級(jí)語言主要有C語言、C++、VB(VisualBasic)、Java、C#5種。3.數(shù)據(jù)庫管理

數(shù)據(jù)庫管理系統(tǒng)就是實(shí)現(xiàn)把用戶意義下抽象的邏輯數(shù)據(jù)處理轉(zhuǎn)換成計(jì)算機(jī)中具體的物理數(shù)據(jù)處理的軟件。有了數(shù)據(jù)庫管理系統(tǒng),用戶就可以在抽象意義下處理數(shù)據(jù),而不必顧及數(shù)據(jù)在計(jì)算機(jī)中的布局和物理位置。一個(gè)設(shè)計(jì)合理的數(shù)據(jù)庫,可以實(shí)現(xiàn)數(shù)據(jù)共享,減少數(shù)據(jù)冗余,數(shù)據(jù)獨(dú)立性更好,對(duì)實(shí)現(xiàn)數(shù)據(jù)集中控制具有一致性、可維護(hù)性、安全性和可靠性高,數(shù)據(jù)故障易恢復(fù)等特點(diǎn)。以下將會(huì)介紹幾種主流數(shù)據(jù)管理系統(tǒng)。

目前較為主流的數(shù)據(jù)庫管理系統(tǒng)包括:SQLServer、Oracle、MySQL、Access厚德弘毅博學(xué)篤行第12

頁第三部分?jǐn)?shù)據(jù)分析基礎(chǔ)數(shù)據(jù)預(yù)處理是在對(duì)原始數(shù)據(jù)分析等主要處理以前,先對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和規(guī)約等一系列的預(yù)先處理工作。目前數(shù)據(jù)預(yù)處理的常規(guī)方法包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約,依次也為數(shù)據(jù)預(yù)處理的步驟。1.數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換維度規(guī)約數(shù)值規(guī)約數(shù)據(jù)處理分析1)數(shù)據(jù)清理

數(shù)據(jù)清理主要處理缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識(shí)別或除去異常值以及解決數(shù)據(jù)不一致的問題。數(shù)據(jù)處理缺失值的處理含噪聲數(shù)據(jù)的處理不一致數(shù)據(jù)的處理缺失值的處理若數(shù)據(jù)屬于時(shí)間局部性缺失,則可采用近階段數(shù)據(jù)的線性插值法進(jìn)行補(bǔ)缺。若時(shí)間段較長,則應(yīng)該采用該時(shí)間段的歷史數(shù)據(jù)恢復(fù)丟失數(shù)據(jù)。若屬于數(shù)據(jù)的空間缺損,則用其周圍數(shù)據(jù)點(diǎn)的信息來代替,且對(duì)相關(guān)數(shù)據(jù)作備注說明,以備查用。使用一個(gè)全局常量或?qū)傩缘钠骄堤畛淇杖敝担部墒褂没貧w的方法或使用基于推導(dǎo)的貝葉斯方法或判定樹等來對(duì)數(shù)據(jù)的部分屬性進(jìn)行修復(fù),或者直接忽略元組。含噪聲數(shù)據(jù)的處理

噪聲是被測(cè)量變量的隨機(jī)誤差或方差,噪聲數(shù)據(jù)包括孤立點(diǎn),目前最廣泛的方法是應(yīng)用數(shù)據(jù)平滑技術(shù)處理此類數(shù)據(jù)。但對(duì)于孤立點(diǎn)或異常數(shù)據(jù),不可以隨便刪除。目前處理噪聲數(shù)據(jù)的方法主要包括分箱、聚類、回歸等方法,必要時(shí)候還需借助人工設(shè)置閾值的方式輔助計(jì)算機(jī)識(shí)別孤立點(diǎn)。分箱:

分箱方法通過考察數(shù)據(jù)的“近鄰”(即周圍的值)來光滑有序數(shù)據(jù)的值。有序值分布到一些“桶”或“箱”中。由于分箱方法考察近鄰的值,因此可對(duì)數(shù)據(jù)進(jìn)行局部光滑。一般來說,寬度越大光滑效果越好。箱也可以是等寬的,每個(gè)箱值區(qū)間范圍是個(gè)常量,分箱也可以作為一種離散化技術(shù)使用。回歸:可以用一個(gè)函數(shù)(如回歸函數(shù))擬合光滑數(shù)據(jù)。線性回歸的目的是找出擬合兩個(gè)屬性(或變量)的“最佳”線,使得一個(gè)屬性可以用來預(yù)測(cè)另一個(gè)。多元線性回歸是線性回歸的擴(kuò)展,其中涉及的屬性多于兩個(gè),并且將數(shù)據(jù)擬合到一個(gè)多維曲面。聚類:通過聚類檢測(cè)離群點(diǎn),將類似的值組織成群或“簇”。直觀地落在簇集合之外的值視為離群點(diǎn)。根據(jù)要求選擇模糊聚類分析或灰色聚類分析技術(shù)檢測(cè)孤立點(diǎn)數(shù)據(jù),并進(jìn)行修正,還可結(jié)合使用灰色數(shù)學(xué)或粗糙集等數(shù)學(xué)方法進(jìn)行相應(yīng)檢測(cè)。不一致數(shù)據(jù)的處理不一致數(shù)據(jù)一般指相對(duì)于同類型屬性發(fā)生突變的,不符合實(shí)際情況的數(shù)據(jù),包括編碼使用的不一致和數(shù)據(jù)表示的不一致數(shù)據(jù)。有些不一致類型容易檢測(cè),例如:充油設(shè)備油中溶解氣體含量不應(yīng)是負(fù)值。在某些情況下,可能需要查閱外部信息源。結(jié)合數(shù)據(jù)所反映的實(shí)際問題,進(jìn)行分析、更改、刪除或忽略;也可結(jié)合模糊數(shù)學(xué)的隸屬函數(shù)尋找約束函數(shù),根據(jù)前一段歷史數(shù)據(jù)趨勢(shì)對(duì)當(dāng)前數(shù)據(jù)進(jìn)行修正。還可以使用其他補(bǔ)充材料人工更正某些數(shù)據(jù)不一致的情況。2)數(shù)據(jù)集成

數(shù)據(jù)集成主要解決模式集成和對(duì)象匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測(cè)與處理等問題。數(shù)據(jù)集成模式集成和對(duì)象匹配問題冗余問題數(shù)據(jù)值沖突檢測(cè)與處理模式集成和對(duì)象匹配問題

判斷一個(gè)數(shù)據(jù)庫中的數(shù)據(jù)集與另一個(gè)數(shù)據(jù)庫中的數(shù)據(jù)集是否是相同的屬性,例如:判斷一個(gè)數(shù)據(jù)庫中的customer與另一個(gè)數(shù)據(jù)庫中的customer是否是相同的屬性。每個(gè)屬性的元數(shù)據(jù)(即每個(gè)屬性下的屬性值)有助于避免模式集成的錯(cuò)誤,元數(shù)據(jù)還可以用來幫助變換數(shù)據(jù)。冗余問題冗余問題包括屬性冗余和屬性數(shù)據(jù)的冗余。屬性冗余指一個(gè)屬性能由另一個(gè)或另一組屬性“導(dǎo)出”,若通過因子分析或經(jīng)驗(yàn)等方法確信部分屬性的相關(guān)數(shù)據(jù)足以對(duì)信息進(jìn)行挖掘和決策,可通過用相關(guān)數(shù)學(xué)方法找出具有最大影響屬性因子的屬性數(shù)據(jù),其余屬性可刪除。屬性數(shù)據(jù)冗余,若某屬性的部分?jǐn)?shù)據(jù)足以反映該問題的信息,則其余屬性數(shù)據(jù)可刪除。若經(jīng)過分析,這部分冗余數(shù)據(jù)可能還有他用則先保留并作備注說明。屬性或未命名的不一致也可能導(dǎo)致結(jié)果數(shù)據(jù)集中的冗余。有些冗余可以被相關(guān)分析檢測(cè)到,對(duì)給定的兩個(gè)屬性,這種分析可以根據(jù)可用的數(shù)據(jù)度量一個(gè)屬性蘊(yùn)涵另一個(gè)屬性的程度。對(duì)于數(shù)值屬性,通過計(jì)算屬性和之間的相關(guān)系數(shù)估計(jì)這兩個(gè)屬性的相關(guān)度,即其中是元組個(gè)數(shù),和分別是元組中和的值,和分別是和的均值,和分別是和的標(biāo)準(zhǔn)差,而是叉積的和。注意:如果大于0,則和是正相關(guān)的,其值越大,相關(guān)性越強(qiáng)(即每個(gè)屬性蘊(yùn)含另一個(gè)的可能性越大)。因此,一個(gè)較高的值表明(或)可以作為冗余而被去掉。如果結(jié)果等于0,則和是獨(dú)立的,不存在相關(guān)。如果結(jié)果值小于0,則和是負(fù)相關(guān)的,一個(gè)值隨另一個(gè)的減小而增加。注意,相關(guān)并不意味因果關(guān)系。也就是說,如果和是相關(guān)的,這并不意味導(dǎo)致或?qū)е隆?/p>

數(shù)據(jù)值沖突檢測(cè)與處理對(duì)于現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同。這是因?yàn)閿?shù)據(jù)的表示、比例或編碼可能不同。例如,重量屬性可能在一個(gè)系統(tǒng)中以公制單位存放,而在另一個(gè)系統(tǒng)中以英制單位存放。遇到該種情況,若數(shù)據(jù)量不大可人工進(jìn)行集成,若數(shù)據(jù)量大時(shí)采用計(jì)算機(jī)編程進(jìn)行集成。3)數(shù)據(jù)變換

數(shù)據(jù)變換是采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù),消除它們?cè)跁r(shí)間、空間、屬性及精度等特征表現(xiàn)方面的差異。包括平滑處理,聚集處理,數(shù)據(jù)泛化處理、規(guī)范化、屬性構(gòu)造。1)平滑處理用于去掉數(shù)據(jù)中的噪聲,可采用分箱、聚類、回歸技術(shù)。2)數(shù)據(jù)聚集對(duì)數(shù)據(jù)進(jìn)行匯總和聚集,例如,可以聚集日監(jiān)測(cè)數(shù)據(jù),計(jì)算月和年監(jiān)測(cè)量。通常,這一步用來為多粒度數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體。3)數(shù)據(jù)泛化也稱為概念分層,用高層概念替換低層或“原始”數(shù)據(jù)。4)規(guī)范化將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如-1.0-1.0或0.0-1.0。4)數(shù)據(jù)規(guī)約

數(shù)據(jù)歸約可在不影響最終分析結(jié)果的前提下,通過數(shù)值聚集、刪除冗余屬性的辦法壓縮數(shù)據(jù),提高算法分析的質(zhì)量、降低時(shí)間復(fù)雜度。數(shù)據(jù)規(guī)約數(shù)據(jù)立方體聚集屬性子集選擇數(shù)據(jù)立方體聚集數(shù)據(jù)立方體存儲(chǔ)多維聚集信息。每個(gè)單元存放一個(gè)聚集值,對(duì)應(yīng)于多維空間的一個(gè)數(shù)據(jù)點(diǎn)。每個(gè)屬性可能存在概念分層,允許在多個(gè)抽象層進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)立方體提供對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)進(jìn)行快速訪問。數(shù)據(jù)立方體可以被看作方體的格,對(duì)每個(gè)較高層抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)的規(guī)模。屬性子集選擇用于分析的數(shù)據(jù)集可能包含數(shù)以百計(jì)的屬性,其中大部分屬性與挖掘任務(wù)不相關(guān)或冗余。屬性子集選擇的基本啟發(fā)式方法包括以下幾種:逐步向前選擇:該過程由空屬性集作為歸約集開始,確定原屬性集中最好的屬性,并將它添加到歸約集中。在其后的每一次迭代中,將剩下的原屬性集中最好的屬性添加到該集合中。逐步向后刪除:該過程由整個(gè)屬性集開始,在每一步中,刪除該步屬性集中最差的屬性。向前選擇和向后刪除相結(jié)合:可以將逐步向前選擇和向后刪除方法結(jié)合在一起,每一步選擇一個(gè)最好的屬性,并在剩余屬性中刪除一個(gè)最差的屬性。決策樹歸納:決策樹歸納用于屬性子集選擇時(shí),由給定的數(shù)據(jù)構(gòu)造決策樹。不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的,出現(xiàn)在樹中的屬性形成歸約后的屬性子集,結(jié)束標(biāo)準(zhǔn)可以不同。該過程可以使用一個(gè)度量閾值決定何時(shí)停止屬性選擇過程。5)維度規(guī)約

維度歸約是使用數(shù)據(jù)編碼或變換,得到原數(shù)據(jù)的歸約或“壓縮”表示。兩種流行、有效的有損的維歸約方法是:小波變換和主成分分析。小波變換

離散小波變換(DWT)是一種線性信號(hào)處理技術(shù),這種技術(shù)用于數(shù)據(jù)歸約時(shí),每個(gè)元組看作一個(gè)維數(shù)據(jù)向量,用來描述個(gè)數(shù)據(jù)庫屬性在元組上的個(gè)測(cè)量值。如果在小波空間進(jìn)行計(jì)算,利用數(shù)據(jù)稀疏特點(diǎn)的操作計(jì)算非???。該技術(shù)也能用于消除噪聲,但不會(huì)光滑掉數(shù)據(jù),這使得它們也能有效地用于數(shù)據(jù)清理。給定一組系數(shù),使用所用的DWT的逆,可以構(gòu)造原數(shù)據(jù)的近似。主成分分析

主成分分析(PCA),又稱Karhunen-Loeve或K-L方法,搜索k個(gè)最能代表數(shù)據(jù)的n維正交向量,其中k

n。這樣,原來的數(shù)據(jù)投影到一個(gè)小得多的空間,導(dǎo)致維度歸約,原數(shù)據(jù)可以投影到這個(gè)較小的集合中。PCA常常揭示先前未曾察覺的聯(lián)系,并因此允許解釋不尋常的結(jié)果。PCA計(jì)算開銷低,可以用于有序和無序的屬性,并且可以處理稀疏和傾斜數(shù)據(jù),多于2維的多維數(shù)據(jù)可以通過將問題歸約為2維問題來處理。主成分分析可以用作多元回歸和聚類分析的輸入。與小波變換相比,PCA能夠更好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)。數(shù)值歸約技術(shù)指的是選擇可替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。6)數(shù)值規(guī)約數(shù)值規(guī)約回歸和對(duì)數(shù)線性模型直方圖抽樣數(shù)據(jù)離散化與概念分層聚類回歸和對(duì)數(shù)線性模型

回歸和對(duì)數(shù)線性模型可以用來近似給定的數(shù)據(jù)。在(簡單)線性回歸中,對(duì)數(shù)據(jù)建模,使之?dāng)M合到一條直線。對(duì)數(shù)線性模型近似離散的多維概率分布。給定n維元組的集合,可以把每個(gè)元組看作n維空間的點(diǎn)??梢允褂脤?duì)數(shù)線性模型基于維組合的一個(gè)較小子集,估計(jì)離散化屬性集的多維空間中每個(gè)點(diǎn)的概率。這使得高維數(shù)據(jù)空間可以由較低維空間構(gòu)造。因此,對(duì)數(shù)線性模型也可用于維歸約和數(shù)據(jù)光滑。直方圖直方圖使用分箱來近似數(shù)據(jù)分布。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則稱為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。確定桶和屬性值的劃分規(guī)則,包括等寬、等頻(或等深)、V最優(yōu)、MaxDiff。V最優(yōu)和MaxDiff直方圖是最準(zhǔn)確和最實(shí)用的。對(duì)于近似稀疏和稠密數(shù)據(jù)、高傾斜和均勻的數(shù)據(jù),直方圖高度有效的。多維直方圖可以表現(xiàn)屬性間的依賴,這種直方圖能夠有效地近似多達(dá)5個(gè)屬性的數(shù)據(jù)。但有效性尚需進(jìn)一步研究。對(duì)于存放具有高頻率的離群點(diǎn),單桶是有用的。聚類

聚類技術(shù)將數(shù)據(jù)元組視為對(duì)象,將對(duì)象劃分為群或簇,使一個(gè)簇中的對(duì)象互相“相似”,而與其他簇中的對(duì)象“相異”。通常,相似性基于距離函數(shù),用對(duì)象在空間中的“接近”程度定義。簇的“質(zhì)量”可以用直徑表示,直徑是簇中任意兩個(gè)對(duì)象的最大距離。質(zhì)心距離是簇質(zhì)量的另一種度量,定義為由簇質(zhì)心(表示“平均對(duì)象”或簇空間中的平均點(diǎn))到每個(gè)簇對(duì)象的平均距離。在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇替換實(shí)際數(shù)據(jù),但該技術(shù)的有效性依賴于數(shù)據(jù)的性質(zhì)。如果數(shù)據(jù)能夠組織成不同的簇,該技術(shù)將變得更有效。抽樣

抽樣可以作為一種數(shù)據(jù)歸約技術(shù)使用,由于處理大型數(shù)據(jù)集常常需要過高的代價(jià)和過長的處理時(shí)間,因此也常采用數(shù)據(jù)選樣方法。它允許用極少的數(shù)據(jù)作為隨機(jī)樣本(子集)表示大型數(shù)據(jù)集,因而在某種情況下,使用數(shù)據(jù)選樣方法可以減小數(shù)據(jù)集規(guī)模,使得某些效果更好但代價(jià)較高的算法可以應(yīng)用到數(shù)據(jù)集上。有效的數(shù)據(jù)選樣原則是選樣后的數(shù)據(jù)集與原數(shù)據(jù)集在算法中的效果應(yīng)當(dāng)相同。這就要求選樣的數(shù)據(jù)在原數(shù)據(jù)集中應(yīng)該有代表性,即選樣數(shù)據(jù)在某些特征上應(yīng)與原數(shù)據(jù)集更接近。最常用的抽樣方法有無放回簡單隨機(jī)抽樣、有放回簡單隨機(jī)抽樣、聚類抽樣、分層抽樣。數(shù)據(jù)離散化與概念分層數(shù)據(jù)離散化技術(shù)通過將屬性值域劃分為區(qū)間,可以用來減少給定連續(xù)屬性值的個(gè)數(shù),用少數(shù)區(qū)間標(biāo)記替換連續(xù)屬性的數(shù)值,從而減少和簡化了原來的數(shù)據(jù)。對(duì)于給定的數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化。通過收集較高層的概念(如前期、中期或后期)替換較低層的概念(如使用年限的具體數(shù)值),另外可以用來歸約數(shù)據(jù)。通過這種數(shù)據(jù)泛化,盡管細(xì)節(jié)丟失了,但是泛化后的數(shù)據(jù)更有意義、更容易解釋。分箱是一種基于箱的指定個(gè)數(shù)自頂向下的分裂技術(shù)。直方圖分析像分箱一樣,其也是一種非監(jiān)督離散化技術(shù),因?yàn)樗膊皇褂妙愋畔?。熵的離散化是一種監(jiān)督的、自頂向下的分裂技術(shù)。基于檢驗(yàn)的區(qū)間合并采用自底向上的策略,遞歸地找出最佳鄰近區(qū)間,并合并形成較大的區(qū)間。

聚類分析是將屬性A的值劃分成簇或組,考慮A的分布及數(shù)據(jù)點(diǎn)的鄰近性,產(chǎn)生高質(zhì)量的離散化結(jié)果。直觀劃分離散化:3-4-5規(guī)則可以將數(shù)值數(shù)據(jù)分割成相對(duì)一致、看上去自然的區(qū)間。數(shù)據(jù)離散化與概念分層方法數(shù)據(jù)預(yù)處理方法分析

數(shù)據(jù)類型多種多樣,對(duì)應(yīng)不同類型的數(shù)據(jù)有不同的數(shù)據(jù)預(yù)處理方法,恰當(dāng)?shù)倪x擇和應(yīng)用這些方法,可以使數(shù)據(jù)預(yù)處理得以順利進(jìn)行。某些數(shù)據(jù)預(yù)處理方法在不同的階段分別使用可達(dá)到相應(yīng)階段的預(yù)處理效果。數(shù)據(jù)預(yù)處理方法中有較多的統(tǒng)計(jì)方法,現(xiàn)將數(shù)據(jù)預(yù)處理中用到的不同方法歸納如下:統(tǒng)計(jì)方法應(yīng)用場合回歸數(shù)據(jù)清理中的缺失值填寫、平滑噪聲;數(shù)據(jù)歸約中的數(shù)值規(guī)約聚類數(shù)據(jù)清理中的平滑噪聲;數(shù)據(jù)歸約中的數(shù)值規(guī)約均值填充數(shù)據(jù)清理中的缺失值填寫填充,有屬性均值和同類樣本均值相關(guān)系數(shù)數(shù)據(jù)集成中檢測(cè)冗余屬性

2檢驗(yàn)數(shù)據(jù)集成中檢測(cè)冗余屬性;數(shù)據(jù)歸約中的數(shù)值歸約規(guī)范化方法數(shù)據(jù)變換中的規(guī)范化小波變換數(shù)據(jù)歸約中的維度歸約主成分分析數(shù)據(jù)歸約中的維度歸約抽樣數(shù)據(jù)歸約中的數(shù)值歸約2.故障診斷算法

隨著智能電網(wǎng)的崛起,傳統(tǒng)的診斷方法已經(jīng)不能滿足故障診斷準(zhǔn)確性和快速性的要求,因此許多智能故障診斷方法被提出。故障診斷方法由傳統(tǒng)技術(shù)向智能化技術(shù)方向發(fā)展是該領(lǐng)域未來研究的重點(diǎn)和熱點(diǎn)。由于電氣測(cè)試涉及到的電力設(shè)備眾多,智能算法也是日新月異,以下著重介紹一些常用故障診斷方法?;趯<蚁到y(tǒng)的故障診斷算法

專家系統(tǒng)首先用自然語言對(duì)在線監(jiān)測(cè)得到的知識(shí)信息以及運(yùn)行人員的診斷經(jīng)驗(yàn)建立產(chǎn)生式規(guī)則,構(gòu)建故障診斷專家系統(tǒng)的知識(shí)庫;然后基于對(duì)這一產(chǎn)生式規(guī)則的理解,知識(shí)工程師將知識(shí)表示成機(jī)器語言并通過人機(jī)接口儲(chǔ)存到知識(shí)庫中。故障發(fā)生時(shí),將故障信息輸入到推理機(jī),推理機(jī)根據(jù)當(dāng)前輸入的故障信息,運(yùn)用知識(shí)庫中的知識(shí),按一定的策略進(jìn)行推理,將故障發(fā)生后的故障信息與規(guī)則進(jìn)行匹配,從而識(shí)別出故障元件。

專家系統(tǒng)基本結(jié)構(gòu)圖基于人工神經(jīng)網(wǎng)絡(luò)的故障診斷算法

一般神經(jīng)網(wǎng)絡(luò)包含3層:輸入層,隱藏層和輸出層。神經(jīng)網(wǎng)絡(luò)的輸入層對(duì)每個(gè)輸入信號(hào)進(jìn)行處理,以確定其強(qiáng)度(權(quán)重)。將所有輸入信號(hào)的組合(加權(quán)和)作為中間層轉(zhuǎn)移函數(shù)的輸入,轉(zhuǎn)移函數(shù)可以是階躍函數(shù)或曲線函數(shù)。通過轉(zhuǎn)移函數(shù)對(duì)輸入進(jìn)行函數(shù)轉(zhuǎn)換,將可能無限域的輸入化成指定的有限范圍內(nèi)的輸出,隨后在輸出層得到最終的結(jié)果。神經(jīng)網(wǎng)絡(luò)通過對(duì)大量數(shù)據(jù)的學(xué)習(xí),不斷調(diào)整其內(nèi)部權(quán)重、閾值等參數(shù),使得網(wǎng)絡(luò)以需要的方式工作。神經(jīng)網(wǎng)絡(luò)結(jié)圖基于模糊集理論的故障診斷方法

基于模糊理論的故障診斷算法通過建立征兆與故障原因之間的因果關(guān)系矩陣;建立故障與征兆的模糊關(guān)系方程,進(jìn)而確定診斷結(jié)果判定準(zhǔn)則,再確定隸屬度函數(shù),這樣可將各診斷要素的影響權(quán)重引入集合論中的隸屬函數(shù)中,利用融合隸屬函數(shù)和模糊關(guān)系矩陣的概念來解決故障與征兆之間的不確定關(guān)系,進(jìn)而實(shí)現(xiàn)故障的檢測(cè)與診斷。基于貝葉斯網(wǎng)絡(luò)的故障診斷方法

貝葉斯網(wǎng)絡(luò)主要由兩部分組成,其一是具有N個(gè)節(jié)點(diǎn)的有向無環(huán)圖,圖中的節(jié)點(diǎn)代表隨機(jī)變量,節(jié)點(diǎn)間的有向邊代表節(jié)點(diǎn)間的相互關(guān)聯(lián)關(guān)系。節(jié)點(diǎn)變量可以是任何問題的抽象,如設(shè)備部件狀態(tài)、測(cè)試值、觀測(cè)現(xiàn)象、意見征詢等。其二是與每個(gè)節(jié)點(diǎn)相關(guān)的條件概率表P,它表達(dá)了節(jié)點(diǎn)同其父節(jié)點(diǎn)的相關(guān)關(guān)系——條件概率,沒有任何父節(jié)點(diǎn)的節(jié)點(diǎn)條件概率為其先驗(yàn)概率。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)都可通過樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)而獲得,貝葉斯網(wǎng)絡(luò)推理就是利用其表達(dá)的條件獨(dú)立性,根據(jù)已有信息快速計(jì)算待求概率值的過程。用貝葉斯網(wǎng)絡(luò)表達(dá)設(shè)備的故障診斷問題,就是利用一些故障征兆快速計(jì)算故障原因概率信息的過程,當(dāng)然還可同時(shí)獲得其他節(jié)點(diǎn)變量的概率信息。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖基于支持向量機(jī)的故障診斷方法支持向量機(jī)方法考慮尋找一個(gè)滿足分類條件的分類平面,并使訓(xùn)練集中的點(diǎn)距離該分類平面盡可能遠(yuǎn)。支持向量機(jī)利用一定原則設(shè)計(jì)最優(yōu)分類面,在高維特征空間中設(shè)計(jì)線性最優(yōu)分類面。利用核函數(shù)方法通過采用非線性變換將n維空間中的隨機(jī)矢量x映射到高維特征空間,在高維特征空間中設(shè)計(jì)線性學(xué)習(xí)算法,從而得到輸入空間中的非線性學(xué)習(xí)算法。最優(yōu)分類面示意圖基于故障樹的故障診斷方法

故障樹方法首先把選定的系統(tǒng)故障事件作為頂端事件,然后,按照演繹分析的原則,再分析可能引起頂端事件的子系統(tǒng)故障事件,從頂事件逐級(jí)向下分析各自的直接原因事件,直至所要求的分析深度,追溯到不能再分解的元件故障為止,形成故障樹。然后,通過求取最小割集的方法找到導(dǎo)致頂端事件發(fā)生的最少路徑,推算出故障概率,進(jìn)行故障診斷。所以執(zhí)行故障樹分析,故障樹建模是最關(guān)鍵的一步。故障樹建模,就是尋找所研究系統(tǒng)故障和導(dǎo)致系統(tǒng)故障的諸因素之間的邏輯關(guān)系,并且用故障樹的邏輯符號(hào)(事件符號(hào)與邏輯門符號(hào)),抽象表示實(shí)際故障和傳遞的邏輯關(guān)系。故障樹邏輯示意圖基于優(yōu)化技術(shù)的故障診斷方法

優(yōu)化算法,一般是為了優(yōu)化某個(gè)目標(biāo)函數(shù),其基本思想是將電力系統(tǒng)故障診斷問題描述成為0-1整數(shù)規(guī)劃問題,并構(gòu)造一種解析數(shù)學(xué)模型,利用優(yōu)化技術(shù)尋找問題的最優(yōu)解。

常用的優(yōu)化算法包括:遺傳算法,模擬退火算法和群智能算法,還有較新的算法如交叉熵算法等?;诩蓪W(xué)習(xí)故障診斷方法

集成學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)中主要的熱點(diǎn)研究方向之一。弱可學(xué)習(xí)理論和強(qiáng)可學(xué)習(xí)理論的出現(xiàn)為集成學(xué)習(xí)奠定了理論基礎(chǔ)。其主要思想是為解決同一問題,采用一種個(gè)體生成方法訓(xùn)練得到一系列同質(zhì)或異質(zhì)的弱學(xué)習(xí)器(也稱為:基學(xué)習(xí)器,基分類器),并使用一定的策略把各個(gè)不同的學(xué)習(xí)結(jié)果進(jìn)行整合,從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果。集成算法結(jié)構(gòu)圖一般集成學(xué)習(xí)算法包含以下兩個(gè)步驟:1)采用一種個(gè)體生成方法產(chǎn)生多個(gè)訓(xùn)練子集,從而得到若干不同的個(gè)體學(xué)習(xí)模型(弱學(xué)習(xí)器);Bagging和Boosting作為集成學(xué)習(xí)的代表,其個(gè)體生成方法也是常用的訓(xùn)練弱分類器方法。其中Bagging算法采用重采樣技術(shù)得到不同的訓(xùn)練子集,Boosting則根據(jù)上次學(xué)習(xí)的結(jié)果調(diào)整原始訓(xùn)練集的權(quán)重分布從而獲得不同的訓(xùn)練子集。2)采用一定的結(jié)論合成方法,對(duì)個(gè)體分類器的輸出進(jìn)行集成,得到最終的強(qiáng)學(xué)習(xí)器。當(dāng)集成學(xué)習(xí)模型用于分類時(shí),集成的輸出通常由弱學(xué)習(xí)器的輸出投票產(chǎn)生。當(dāng)集成學(xué)習(xí)模型用于回歸統(tǒng)計(jì)時(shí),集成的輸出通常由各弱學(xué)習(xí)器的輸出通過簡單平均或加權(quán)平均產(chǎn)生。厚德弘毅博學(xué)篤行第53

頁第四部分智能變電設(shè)備在線監(jiān)測(cè)實(shí)例1.系統(tǒng)介紹智能變電設(shè)備在線監(jiān)測(cè)中心包括監(jiān)控系統(tǒng)與輔助決策系統(tǒng),它整合完善智能變電站內(nèi)所有監(jiān)測(cè)單元,定義標(biāo)準(zhǔn)數(shù)據(jù)輸入/輸出接口,統(tǒng)一進(jìn)行標(biāo)準(zhǔn)數(shù)據(jù)建模與展示,通過一個(gè)在線監(jiān)測(cè)平臺(tái)系統(tǒng)完成變電站內(nèi)所有運(yùn)行設(shè)備的在線監(jiān)測(cè),對(duì)設(shè)備運(yùn)行狀態(tài)進(jìn)行狀態(tài)診斷與評(píng)估,并對(duì)相關(guān)工作單元進(jìn)行必要控制,結(jié)合各類故障診斷策略完成對(duì)設(shè)備的最終診斷,預(yù)防和預(yù)測(cè)被監(jiān)測(cè)運(yùn)行設(shè)備出現(xiàn)重大故障,當(dāng)預(yù)測(cè)到重大故障時(shí)監(jiān)測(cè)中心下發(fā)控制指令,消除萌芽故障,對(duì)需要調(diào)整或檢修的部分給出參考建議,指導(dǎo)輔助檢修,最終實(shí)現(xiàn)智能變電站安全穩(wěn)定運(yùn)行。2.軟件設(shè)計(jì)總體設(shè)計(jì)軟件采用JavaWeb,基于Struts+Spring+Hibernate的主流框架整合,結(jié)合JSP和CSS開發(fā)設(shè)計(jì),數(shù)據(jù)庫使用多用戶多線程的小型開源數(shù)據(jù)庫MYSQL。B/S三層結(jié)構(gòu)圖數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫分區(qū)表軟件的數(shù)據(jù)庫設(shè)計(jì)是整個(gè)軟件開發(fā)的關(guān)鍵步驟,使用PowerDesigner作為建模工具,在保證數(shù)據(jù)完整性的基礎(chǔ)上降低數(shù)據(jù)冗余,提高數(shù)據(jù)并發(fā)性。軟件數(shù)據(jù)根據(jù)業(yè)務(wù)共分四個(gè)區(qū)域:監(jiān)測(cè)基礎(chǔ)區(qū)、數(shù)據(jù)存儲(chǔ)區(qū)、診斷結(jié)果區(qū)、數(shù)據(jù)配置區(qū)?;A(chǔ)區(qū)為數(shù)據(jù)存儲(chǔ)區(qū)各類監(jiān)測(cè)項(xiàng)目表的自由拓展提供服務(wù),診斷結(jié)果由基礎(chǔ)采集根據(jù)數(shù)據(jù)配置區(qū)的各項(xiàng)配置參數(shù)計(jì)算得出,具體的庫表分區(qū)如圖所示。數(shù)據(jù)庫建模架構(gòu)設(shè)計(jì)

軟件采用JavaWeb的SSH框架(Struts+Spring+Hibernate)作為結(jié)構(gòu)設(shè)計(jì),實(shí)現(xiàn)B/S模式(Browser/Server,瀏覽器/服務(wù)器模式)下的Web應(yīng)用程序的總體框架設(shè)計(jì),軟件的SSH框架結(jié)構(gòu)圖如圖所示。系統(tǒng)SSH框架結(jié)構(gòu)圖SSH是一個(gè)由表示層,業(yè)務(wù)邏輯層,數(shù)據(jù)持久層組成的三層體系結(jié)構(gòu)。1)表示層:系統(tǒng)的主要展示頁面都位于此層,負(fù)責(zé)提供用戶界面的交互控制。2)業(yè)務(wù)邏輯層:該層Spring的最主要職責(zé),是實(shí)現(xiàn)系統(tǒng)的多層架構(gòu)之間的松散耦合。3)數(shù)據(jù)持久層:在這一層,Web應(yīng)用程序與數(shù)據(jù)庫做數(shù)據(jù)的讀取與寫入,實(shí)現(xiàn)O/R映射,將面向?qū)ο筠D(zhuǎn)化為面向關(guān)系。油浸式變壓器故障診斷電力變壓器作為電力系統(tǒng)中的關(guān)鍵設(shè)備之一,其正常運(yùn)行與否關(guān)系著電網(wǎng)的安全可靠性。目前國內(nèi)外大多利用DGA技術(shù)對(duì)變壓器內(nèi)部故障進(jìn)行檢測(cè),此方法對(duì)于發(fā)現(xiàn)充油變壓器內(nèi)部早期潛伏性故障十分有效,是充油電氣設(shè)備進(jìn)行故障檢測(cè)的常用方法。本章在DGA技術(shù)基礎(chǔ)上,采用虹橋220kV智能變電站變壓器油色譜監(jiān)測(cè)IED采集到的油中溶解氣體數(shù)據(jù)作為故障診斷算法的原始數(shù)據(jù)。通過現(xiàn)場變壓器油色譜在線監(jiān)測(cè)裝置獲得750組樣本數(shù)據(jù)作為原始數(shù)據(jù),采用150組樣本數(shù)據(jù)作為測(cè)試集,剩下的600組數(shù)據(jù)作為訓(xùn)練集或者根據(jù)具體算法需要分成訓(xùn)練集和驗(yàn)證集,為了方便對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行說明分析,部分測(cè)試數(shù)據(jù)如表所示。樣本編號(hào)特征氣體組分含量μL/L故障類型故障編碼H2CH4C2H6C2H4C2H218.8115.020.4315.980.19正常N251.016.544.211.570.92正常N327.0926.451.872.730正常N414.653.7110.522.690.22正常N556.0477.1218.9421.050.1中低溫過熱T1657.2176.9819.0420.910.1中低溫過熱T17160.31129.9733.4297.180.77中低溫過熱T18166.6128.29672.1512.430.33中低溫過熱T1956.5442.71167.381413.317.2高溫過熱T21098.52554.97200.031636.118.35高溫過熱T211172.89334.13172.9812.5237.71高溫過熱T212242.8176.344.42173.112.4高溫過熱T21341.284.511.51.816.2低能量放電D11461.5224.611.355.6420.5低能量放電D115979.8873.0458.1511.790.14低能量放電D116538.3312.628.6814.120.35低能量放電D117138.8152.16.7762.7510.57高能量放電D218148.329.210.3124.832.97高能量放電D219256.6282.856.4382.37116.07高能量放電D220345.51112.3427.5251.4958.78高能量放電D2

部分測(cè)試數(shù)據(jù)采用AdaBoost的一種延伸算法SAMME結(jié)合CART分類和回歸樹,建立變壓器故障診斷模型,對(duì)變壓器多故障模式進(jìn)行識(shí)別。該模型以CART決策樹作為弱分類器,并采用10折交叉驗(yàn)證給出迭代次數(shù)較為確切的估計(jì),這樣可有效提高弱分類器的分類準(zhǔn)確率,進(jìn)而提高故障診斷準(zhǔn)確率。具體算法步驟如下。(1)數(shù)據(jù)預(yù)處理

通過DGA技術(shù)得到氫氣(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)這五種典型特征氣體組分的濃度作為原始屬性數(shù)據(jù)。將五種溶解氣體組分含量進(jìn)行C2H2/C2H4、CH4/H2、C2H4/C2H4三種比值運(yùn)算,使原有的5維數(shù)據(jù)降為3維,將維歸約后的3種比值作為樣本集中新的屬性。其次對(duì)變壓器故障類型進(jìn)行表示,將正常狀態(tài)、中低溫過熱、高溫過熱、低能量放電、高能量放電五類故障模式分別記為N、T1、T2、D1、D2,作為樣本集中屬性值所對(duì)應(yīng)的類標(biāo)簽。(2)單一CART算法變壓器故障診斷

CART算法采用二分遞歸分割技術(shù),總是將當(dāng)前樣本集分割為兩個(gè)子樣本集,生成二叉樹,隨后利用建好的樹對(duì)新樣本進(jìn)行分類,CART決策樹模型如圖所示。

CART分類和回歸樹模型CART算法具體步驟如下:給定樣本集M,屬性集,分支數(shù)目n和分支停止準(zhǔn)則,1)依據(jù)分支停止準(zhǔn)則判斷當(dāng)前節(jié)點(diǎn)是否滿足停止條件,若是,則返回空樹,否則執(zhí)行步驟2);2)根據(jù)訓(xùn)練樣本集M,對(duì)于屬性集中的t個(gè)屬性,計(jì)算當(dāng)使用做判斷屬性時(shí)對(duì)應(yīng)的不純度改變量,即就是Gini指數(shù)改變量;3)選出Gini指數(shù)值改變量最大的那個(gè)屬性,并將該屬性作為該分支的分裂屬性;4)根據(jù)分裂屬性,將訓(xùn)練樣本集分為個(gè)子集;5)分別對(duì)個(gè)子集執(zhí)行步驟1)~4),新的輸入為子集和屬性集,從而得到對(duì)于分支的分類器(可能為空樹);6)對(duì)已建好的決策樹進(jìn)行剪枝操作,得到一系列嵌套子樹;7)采用10折交叉驗(yàn)證進(jìn)行最優(yōu)子樹的選擇;8)采用選出的最優(yōu)決策樹對(duì)新的測(cè)試樣本進(jìn)行條件判定,輸出相應(yīng)的分類結(jié)果。采用已經(jīng)過預(yù)處理后的數(shù)據(jù)作為CART算法的輸入數(shù)據(jù)。先利用600組已降維的樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),建立未剪枝的初始CART決策樹。實(shí)驗(yàn)結(jié)果如圖所示。未剪枝的初始CART決策樹a代表C2H2/C2H4的值,b代表CH4/H2的值,c代表C2H4/C2H6的值。顯而易見,未經(jīng)剪枝的CART決策樹比較龐大繁雜,泛化性能較差,故采用10折交叉驗(yàn)證尋找最佳剪枝子樹。在數(shù)據(jù)不充足的情況下,10折交叉驗(yàn)證可以充分利用有限的學(xué)習(xí)數(shù)據(jù)。利用10折交叉驗(yàn)證尋找最佳剪枝后子樹的實(shí)驗(yàn)結(jié)果如圖所示。最佳子樹選擇藍(lán)色實(shí)線為交叉驗(yàn)證誤差,紅色虛線為訓(xùn)練數(shù)據(jù)再代入誤差。經(jīng)剪枝后的決策樹如圖所示。最佳CART決策樹利用剪枝操作后的CART決策樹對(duì)對(duì)應(yīng)于上表中的20組測(cè)試樣本進(jìn)行測(cè)試,變壓器故障診斷結(jié)果如圖所示。圖中,紅色星號(hào)標(biāo)記的折線是正確的目標(biāo)故障類型輸出,藍(lán)色圓圈標(biāo)記的折線是運(yùn)用單一CART算法對(duì)20組測(cè)試樣本的故障類型輸出??梢钥闯?,單一改進(jìn)CART算法錯(cuò)誤分類4組測(cè)試樣本數(shù)據(jù),故障診斷準(zhǔn)確率有待提高?;趩我籆ART算法變壓器故障診斷(3)SAMME-CART變壓器故障診斷SAMME-CART算法流程圖單一CART算法可以滿足SAMME算法對(duì)弱分類器分類準(zhǔn)確率的要求,經(jīng)SAMME算法的集成作用,將若干CART弱分類器集成在一起得到新的強(qiáng)分類器,在SAMME-CART算法中,以CART分類和回歸樹作為弱分類器,為了保證各個(gè)弱分類器之間的差異性,避免弱分類器過強(qiáng),對(duì)CART算法不進(jìn)行剪枝操作。SAMME集成CART算法流程圖如圖所示。建立SAMME-CART的變壓器故障診斷算法模型如圖。SAMME-CART故障診斷模型采用上述750組變壓器油中溶解氣體含量數(shù)據(jù)作為原始數(shù)據(jù),同使用單一CART算法建立變壓器故障診斷模型一樣,對(duì)原始數(shù)據(jù)進(jìn)行歸一化和維規(guī)約處理后,選取其中的600組樣本數(shù)據(jù)作為SAMME-CART算法的輸入數(shù)據(jù),即作為訓(xùn)練樣本集,同時(shí)利用10折交叉驗(yàn)證確定最優(yōu)SAMME算法的迭代次數(shù),設(shè)置迭代次數(shù)初始值,實(shí)驗(yàn)結(jié)果如圖所示。由圖可看出,初始迭代時(shí),泛化誤差估計(jì)較大,這是因?yàn)槟P蛿M合不足,對(duì)數(shù)據(jù)尚未學(xué)習(xí)完全。當(dāng)?shù)螖?shù)增加,泛化誤差呈下降趨勢(shì),對(duì)訓(xùn)練數(shù)據(jù)的擬合程度越來越高,當(dāng)?shù)螖?shù)時(shí),泛化誤差估計(jì)值達(dá)到最小,約為13.5%,隨后泛化誤差趨于平緩并有稍許上升趨勢(shì),因?yàn)槟P团既坏財(cái)M合了訓(xùn)練數(shù)據(jù)中的某些噪聲,這些噪聲降低了模型的性能,使模型不能很好的泛化到樣本數(shù)據(jù),出現(xiàn)過分?jǐn)M合現(xiàn)象。由此確定SAMME-CART模型中參數(shù)M的最優(yōu)值為70。選定最優(yōu)的參數(shù)M后,初始化樣本權(quán)重分布為。為了保證弱分類器之間的差異性,減小對(duì)強(qiáng)分類器泛化能力的影響,對(duì)CART弱分類器不進(jìn)行剪枝操作,采用SAMME-CART算法對(duì)表中的20組測(cè)試樣本進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖所示。基于SAMME-CART算法的變壓器故障診斷單一故障診斷算法與集成故障診

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論