




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 isl 20001第二十章第二十章 應(yīng)用範(fàn)例應(yīng)用範(fàn)例 20.1 概況 讀者可以學(xué)習(xí)每一個(gè)例子中資料採(cǎi)礦人員對(duì)具體問(wèn)題的典型處理辦法。例子所使用的資料集比資料採(cǎi)礦人員實(shí)際處理的資料要小得多,但這樣正好可以將讀者的注意力吸引到資料採(cǎi)礦的具體操作之上,而不是資料本身問(wèn)題。 對(duì)於複雜的資料採(cǎi)礦應(yīng)用,讀者可以參考clementine應(yīng)用範(fàn)本(cats)上的指導(dǎo)手冊(cè),可以和當(dāng)?shù)氐膕pss辦事處聯(lián)繫索取這張cd。 isl 2000220.2 狀態(tài)監(jiān)測(cè)範(fàn)例狀態(tài)監(jiān)測(cè)範(fàn)例 該例子是透過(guò)監(jiān)測(cè)一臺(tái)機(jī)器的狀態(tài)資訊來(lái)識(shí)別和預(yù)測(cè)故障狀態(tài)的問(wèn)題。資料是一些連續(xù)的時(shí)間序列。每筆記錄是該機(jī)器狀態(tài)的“快照”,包含以下內(nèi)容: 時(shí)間
2、 time ,整數(shù) 功率 power,整數(shù) 溫度 temperature,整數(shù) 電壓 pressure.,0表示正常,1表示瞬間電壓報(bào)警 正常執(zhí)行時(shí)間 uptime,上次正常運(yùn)轉(zhuǎn)至今的時(shí)間 狀態(tài) status,0表示正常, 不同的故障狀態(tài)編碼101, 202,303 結(jié)果 outcome,該序列中出現(xiàn)的故障碼,若無(wú)故障發(fā)生爲(wèi)0 isl 20003 每一筆時(shí)間序列均是一組來(lái)自機(jī)器正常執(zhí)行期間和後續(xù)故障期間的記錄組成,如下表所示 isl 2000420.2.1 審視資料審視資料 若溫度或功率的時(shí)間序列包含了可以察覺(jué)的模式,那麼我們就可以從故障條件來(lái)區(qū)分不同的機(jī)器故障,並有可能預(yù)測(cè)故障的出現(xiàn)。以溫度
3、和功率爲(wèi)觀察對(duì)象,該資料流程將時(shí)間序列按照三個(gè)不同的故障類型分類,産生了六個(gè)時(shí)序圖。圖 20-1 condplot流 isl 20005圖20-2 溫度和功率時(shí)序圖 isl 20006 顯示了故障 202 的溫度和功率時(shí)序模式有別於故障 303 和 101。在故障 202 的模式中,溫度隨時(shí)間遞增,而功率不斷震盪;其他故障模式則不然。但是故障 303 和 101 的溫度和功率時(shí)序模式則區(qū)別不大。兩者的溫度依時(shí)間不變,功率逐漸下降;但是看起來(lái)故障 303的功率隨時(shí)間下降得更快。 從圖形看來(lái),溫度和功率的變化以及波動(dòng)程度,與故障的預(yù)測(cè)和識(shí)別是息息相關(guān)的 isl 2000720.2.2 資料準(zhǔn)備資料
4、準(zhǔn)備圖20-3 流condlearn isl 20008節(jié)點(diǎn)序列說(shuō)明如下: variable file nodevariable file node:讀取資料檔案 cond1n derive pressure warningsderive pressure warnings:計(jì)算瞬間電壓報(bào)警的數(shù)目,在時(shí)間回 復(fù)到0時(shí)重置 derive derive tempinctempinc:溫度變化率,運(yùn)算式爲(wèi)diff1(temp,time) derive derive powerincpowerinc:功率變化率,運(yùn)算式爲(wèi)diff1(power,time) derive derive powerflux
5、powerflux.:功率變化反轉(zhuǎn)標(biāo)記,用t標(biāo)識(shí) derive derive powerstatepowerstate.:功率狀態(tài)標(biāo)記,分爲(wèi) stable 和 fluctuating。 powerchangepowerchange:在前五個(gè)時(shí)間段中powerinc 的均值 tempchangetempchange:在前五個(gè)時(shí)間段中tempinc 的均值 discard initial (select)discard initial (select):去掉每個(gè)時(shí)間序列中的第一條記錄 discard fieldsdiscard fields:過(guò)濾掉部分欄位元 typetype:定義 outcome
6、 的方向爲(wèi) out isl 2000920.2.3 學(xué)習(xí)學(xué)習(xí) 文件 condlearn.str 中資料流程是用來(lái)訓(xùn)練本範(fàn)例的c5.0模型和神經(jīng)網(wǎng)路模型的。神經(jīng)網(wǎng)路需要一定的時(shí)間進(jìn)行訓(xùn)練,但也可以提早的打斷訓(xùn)練並保存産生出的合理的結(jié)果。提示兩個(gè)新的模型節(jié)點(diǎn)已經(jīng)産生了:其中一個(gè)是神經(jīng)網(wǎng)路模型,一個(gè)是c5.0模型。圖 20-4 帶有産生模型節(jié)點(diǎn)的模型管理器 isl 20001020.2.4 測(cè)試測(cè)試 把生成的模型節(jié)點(diǎn)加入到流程中,插入一個(gè)type節(jié)點(diǎn)並連接到已産生的神經(jīng)網(wǎng)路模型節(jié)點(diǎn);將神經(jīng)網(wǎng)路模型節(jié)點(diǎn)連接到生成的c5.0節(jié)點(diǎn),再將c5.0節(jié)點(diǎn)連接到一個(gè)新的分析節(jié)點(diǎn)。然後編輯初始的來(lái)源節(jié)點(diǎn)並導(dǎo)入測(cè)試資
7、料檔案cond2n。 圖 20-5 測(cè)試訓(xùn)練後的網(wǎng)路 isl 20001120.3 欺詐稽查範(fàn)例欺詐稽查範(fàn)例 背景是關(guān)於農(nóng)業(yè)發(fā)展貸款的申請(qǐng),每一條記錄描述的是某一個(gè)農(nóng)場(chǎng)對(duì)某種具體貸款類型的申請(qǐng)。我們主要考慮兩種貸款類型:土地開(kāi)發(fā)貸款和退耕貸款。要解決的業(yè)務(wù)問(wèn)題是找出那些就農(nóng)場(chǎng)類型和大小說(shuō)來(lái)申請(qǐng)貸款過(guò)多的“主兒”。圖20-6 解釋fraud.str流操作的流程圖 isl 20001220.3.1 資料獲取資料獲取 使用一個(gè)變數(shù)檔節(jié)點(diǎn)來(lái)連接到資料集grantfraudn.db 。該資料包含九個(gè)欄位名: id. 唯一的識(shí)別字 name. 申請(qǐng)人名 region.地理位置(midlands/north
8、/southwest/southeast) landquality. 整型農(nóng)場(chǎng)主對(duì)地産質(zhì)量的聲明 rainfall. 整型農(nóng)場(chǎng)的年降雨量 farmincome. 實(shí)型農(nóng)場(chǎng)的年産量 maincrop. 主要作物 (maize/wheat/potatoes/rapeseed) claimtype.申請(qǐng)貸款類(decommission_land/arable_dev). claimvalue. 實(shí)型申請(qǐng)貸款數(shù)額 isl 20001320.3.2 資料探索資料探索 在這一環(huán)節(jié)上,使用探索性的圖形來(lái)分析資料是個(gè)好辦法。這有助於形成一些對(duì)建模有用的假設(shè)。 我們首先考慮資料中可能存在的欺詐類型。一種可能性是
9、一個(gè)農(nóng)場(chǎng)多次申請(qǐng)貸款援助。假設(shè)在資料集每個(gè)農(nóng)場(chǎng)有一個(gè)唯一的識(shí)別字,那麼計(jì)算出每個(gè)識(shí)別字出現(xiàn)的次數(shù)是件容易的事。將資料連接到一個(gè)分佈節(jié)點(diǎn)(distribution node)並選定名爲(wèi) name 欄位。圖20-7 顯示若干個(gè)農(nóng)場(chǎng)存在多次申請(qǐng)。 isl 200014圖20-7 撥款申請(qǐng)分佈 isl 200015 爲(wèi)了探索其他可能的欺詐形式,我們可以撇開(kāi)多次申請(qǐng)的記錄,將注意力集中到只申請(qǐng)過(guò)一次的記錄上來(lái)。可以用選擇節(jié)點(diǎn)(select node)刪除相應(yīng)的記錄。圖20-8 去除多重申請(qǐng) isl 200016 我們可以使用clementine建立一個(gè)迴歸模型,以農(nóng)場(chǎng)大小,主要作物類型,土壤質(zhì)量等爲(wèi)引數(shù)
10、來(lái)估計(jì)一個(gè)農(nóng)場(chǎng)的收入是多少。在建模以前,需要在導(dǎo)出節(jié)點(diǎn)derived node中使用clem語(yǔ)言來(lái)生成一個(gè)新的欄位。我們用如下的運(yùn)算式來(lái)估計(jì)估計(jì)農(nóng)場(chǎng)收入:圖20-9 估計(jì)農(nóng)場(chǎng)收入 isl 200017 爲(wèi)了發(fā)現(xiàn)那些偏離估計(jì)值的農(nóng)場(chǎng), 我們需要生成一個(gè) diff 欄位,代表估計(jì)值與實(shí)際值偏離的百分?jǐn)?shù)。圖 20-10 比較收入偏差 isl 200018 由diff的直方圖可以幫助我們發(fā)現(xiàn)偏離的特徵。將直方圖按照 claimtype 進(jìn)行層疊,進(jìn)一步看看申報(bào)的類型對(duì)偏離有影響。 圖20-11 偏差百分比的直方圖 看來(lái)所有較大的偏差都發(fā)生在 arable_dev類型的申請(qǐng)時(shí),因此,我們只選擇 arab
11、le_dev類貸款申請(qǐng)作爲(wèi)研究對(duì)象。將一個(gè)選擇節(jié)點(diǎn)select node加到導(dǎo)出節(jié)點(diǎn) diff 的後面,使用clem運(yùn)算式claimtype = arable_dev進(jìn)行篩選。 isl 20001920.3.3 訓(xùn)練神經(jīng)網(wǎng)路訓(xùn)練神經(jīng)網(wǎng)路 經(jīng)過(guò)探索性資料分析,我們發(fā)現(xiàn)將真實(shí)值和通過(guò)一系列因變數(shù)得到的期望值進(jìn)行比較似乎是有用的。神經(jīng)網(wǎng)路可以用來(lái)處理此類問(wèn)題。神經(jīng)網(wǎng)路使用資料中的變數(shù),對(duì)目標(biāo)變數(shù)或回應(yīng)進(jìn)行預(yù)測(cè)。使用預(yù)測(cè)的結(jié)果,我們可以探索偏離正常值的記錄或記錄組。 在建模之前,我們首先將一個(gè)類型節(jié)點(diǎn)type node 加到目前的流程中。因爲(wèi)需要用資料中的變數(shù)來(lái)預(yù)測(cè)所申請(qǐng)的貸款金額,所以將claimv
12、alue的方向設(shè)置爲(wèi)out。 isl 200020圖20-12 爲(wèi)神經(jīng)網(wǎng)路模型定義輸入和輸出變數(shù) isl 200021 附加上一個(gè)神經(jīng)網(wǎng)路節(jié)點(diǎn)並執(zhí)行之。待此神經(jīng)網(wǎng)路經(jīng)過(guò)訓(xùn)練後,將産生的模型加到流程中並給出預(yù)測(cè)值與實(shí)際申請(qǐng)值的對(duì)照?qǐng)D。圖20-13 比較預(yù)測(cè)和真實(shí)聲明值 isl 200022 導(dǎo)出一個(gè)名爲(wèi)claimdiff 欄位,類似於前面導(dǎo)出的“income differences”欄位。此導(dǎo)出節(jié)點(diǎn)使用如下的clem運(yùn)算式:(abs(claimvalue - $n-claimvalue) / claimvalue) * 100 增加一個(gè)分隔帶到直方圖中,右擊帶區(qū)生成一個(gè)選擇節(jié)點(diǎn),進(jìn)一步察看那些claimdiff 值較大的資料,比如對(duì) claimdiff 50% 的申請(qǐng)進(jìn)行深入地調(diào)查。 isl 20002320.4 總結(jié) 本例建
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- C++旅行服務(wù)應(yīng)用開(kāi)發(fā)試題及答案
- 基礎(chǔ)財(cái)務(wù)成本管理試題及答案要點(diǎn)
- 2025年計(jì)算機(jī)二級(jí)MySQL數(shù)據(jù)庫(kù)實(shí)踐試題及答案
- 互動(dòng)式學(xué)習(xí)2025年計(jì)算機(jī)二級(jí)MySQL試題及答案
- 邏輯考試中的復(fù)習(xí)與心態(tài)調(diào)整策略試題及答案
- 財(cái)務(wù)成本管理中邏輯推理題的重要性與試題及答案
- 財(cái)務(wù)成本管理學(xué)優(yōu)先領(lǐng)域與試題及答案
- 2025年P(guān)ython考試常見(jiàn)試題及答案
- 2025年考試資源試題及答案共享
- 2025年C++考試綜合材料試題及答案
- 函數(shù)的零點(diǎn)與方程的解(說(shuō)課稿)
- 分子篩上課ppt版課件 6 應(yīng)用
- 深基坑專項(xiàng)施工方案(鋼板樁支護(hù))
- 20ZJ401 樓梯欄桿標(biāo)準(zhǔn)圖集
- 人教PEP版四年級(jí)英語(yǔ)下冊(cè)Unit 6 Shopping知識(shí)點(diǎn)歸納
- SB/T 10279-2017熏煮香腸
- GB/T 26754-2011工業(yè)疊氮化鈉
- 鋼筋加工場(chǎng)驗(yàn)收記錄表
- 送任干部大會(huì)主持詞(5篇)
- 做管裝愛(ài)裝的好戰(zhàn)士(高級(jí)課件)
- 超星爾雅學(xué)習(xí)通《工程倫理》章節(jié)測(cè)試答案
評(píng)論
0/150
提交評(píng)論