




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
應(yīng)用SAS/EM進(jìn)行數(shù)據(jù)挖掘2003-04-16賽仕軟件研究所(上海)有限公司應(yīng)用SAS/EM進(jìn)行數(shù)據(jù)挖掘2003-04-16議程數(shù)據(jù)挖掘概述SAS數(shù)據(jù)挖掘項(xiàng)目方法論及工具SAS/EM簡(jiǎn)介Workshop議程數(shù)據(jù)挖掘概述2企業(yè)決策支持信息系統(tǒng)OLTP數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)計(jì)分析數(shù)據(jù)挖掘決策支持企業(yè)知識(shí)DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)OLAP查詢(xún)報(bào)表企業(yè)決策支持信息系統(tǒng)OLTP數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)計(jì)分析決策支持企業(yè)知識(shí)3什么是數(shù)據(jù)挖掘?定義:
從海量的數(shù)據(jù)庫(kù)中選擇、探索、識(shí)別出有效的、新穎的、具有潛在效用的乃至最終可理解的模式以獲取商業(yè)利益的非平凡的過(guò)程
-Fayyad,Piatetsky-Shapiro特征:處理海量的數(shù)據(jù);揭示企業(yè)運(yùn)作中的內(nèi)在規(guī)律;為企業(yè)運(yùn)作提供直接決策分析,并為企業(yè)帶來(lái)巨大經(jīng)濟(jì)效益。什么是數(shù)據(jù)挖掘?定義:4待分析數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)處理后數(shù)據(jù)模式變換后數(shù)據(jù)
知識(shí)Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.數(shù)據(jù)抽取數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)變換解釋評(píng)價(jià)數(shù)據(jù)挖掘全過(guò)程待分析數(shù)據(jù)處理后模式變換后知識(shí)Source:”FromD5數(shù)據(jù)挖掘涉及領(lǐng)域神經(jīng)計(jì)算數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘統(tǒng)計(jì)學(xué)模式識(shí)別機(jī)器學(xué)習(xí)人工智能數(shù)據(jù)挖掘涉及領(lǐng)域神經(jīng)計(jì)算數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘統(tǒng)計(jì)學(xué)模式機(jī)器6數(shù)據(jù)挖掘算法(按有無(wú)目標(biāo)變量)有監(jiān)督算法無(wú)監(jiān)督算法(有目標(biāo)變量)
(無(wú)目標(biāo)變量)傳統(tǒng)回歸 無(wú)神經(jīng)網(wǎng)絡(luò)決策樹(shù)
邏輯/概率回歸決策樹(shù) 聚類(lèi)神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)判別分析基于記憶的推理決策樹(shù) 主成分分析 聚類(lèi)
關(guān)聯(lián)/序列分析 連接分析 因子分析預(yù)測(cè)分類(lèi)探索關(guān)聯(lián)數(shù)據(jù)挖掘算法(按有無(wú)目標(biāo)變量)有監(jiān)督算法7①
預(yù)測(cè)
用過(guò)去的數(shù)據(jù)預(yù)測(cè)
未來(lái)發(fā)生什么
預(yù)測(cè)未來(lái)發(fā)生的可能性歷史數(shù)據(jù)預(yù)測(cè)算法
-神經(jīng)元網(wǎng)絡(luò)
-決策樹(shù)-回歸②描述
用過(guò)去的數(shù)據(jù)
描述
現(xiàn)在發(fā)生了什么描述現(xiàn)在已經(jīng)發(fā)生的規(guī)律歷史數(shù)據(jù)描述算法
-聚類(lèi)-關(guān)聯(lián)數(shù)據(jù)挖掘算法(按分析目的)①預(yù)測(cè)預(yù)測(cè)未來(lái)歷史數(shù)據(jù)預(yù)測(cè)算法②描述描述現(xiàn)在歷史數(shù)據(jù)描8回歸算法:線(xiàn)性回歸、邏輯回歸、概率回歸統(tǒng)計(jì)方法:主成分分析、因子分析、判別分析等關(guān)聯(lián)算法:關(guān)聯(lián)模式、序列模式、連接分析等聚類(lèi)算法:Cluster、SOM/Kohonen神經(jīng)元網(wǎng)絡(luò):MLP、RBF決策樹(shù):CHAID、CART、C4.5、C5.0數(shù)據(jù)挖掘算法回歸算法:線(xiàn)性回歸、邏輯回歸、概率回歸數(shù)據(jù)挖掘算法9x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次項(xiàng)使用簡(jiǎn)單線(xiàn)性①
預(yù)測(cè)型–回歸
希望預(yù)測(cè)“綠點(diǎn)”在哪些情況下發(fā)生以及發(fā)生的概率數(shù)據(jù)挖掘常用算法x20.00.20.40.60.81.0x10.00.20.10Time
<13yesno70%9663%ratio
<.39time<10ratio<8410359%①
預(yù)測(cè)型–決策樹(shù)
希望預(yù)測(cè)“綠點(diǎn)”在哪些情況下發(fā)生以及發(fā)生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315數(shù)據(jù)挖掘常用算法Time<13yesno796ratio<.3911timemethod#oforderratio#ofordereditems
Y1=f1(x).Y2=f2(x).Y3=f3(x).Y=f1(x)+f2(x)+f3(x)數(shù)據(jù)挖掘常用算法①
預(yù)測(cè)型–神經(jīng)元網(wǎng)絡(luò)
希望預(yù)測(cè)“綠點(diǎn)”在哪些情況下發(fā)生以及發(fā)生的概率timeY1=f1(x).Y2=f2(x).Y3=12CombinationADACC
AB&CDSupport2/52/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②
描述型–關(guān)聯(lián)
了解客戶(hù)購(gòu)買(mǎi)哪些產(chǎn)品組合數(shù)據(jù)挖掘常用算法CombinationSupportConfidenceAB13
cluster4cluster3cluster1cluster2cluster5②
描述型–聚類(lèi)
把具有相似行為的客戶(hù)分到一群QuotedamountTotalamountQuotedPriceAveragePrice數(shù)據(jù)挖掘常用算法cluster4cluster3cluster1clust14議程數(shù)據(jù)挖掘概述SAS數(shù)據(jù)挖掘項(xiàng)目方法論及工具EM簡(jiǎn)介Workshop議程數(shù)據(jù)挖掘概述15SAS數(shù)據(jù)挖掘項(xiàng)目方法論
反復(fù)挖掘數(shù)據(jù)(SEMMA)定義業(yè)務(wù)問(wèn)題考察業(yè)務(wù)情況提出業(yè)務(wù)問(wèn)題考察數(shù)據(jù)可用性制定業(yè)務(wù)計(jì)劃選擇數(shù)據(jù)挖掘方法探索(E)調(diào)整(M)建模(M)評(píng)估(A)抽樣(S)系統(tǒng)環(huán)境評(píng)估評(píng)估系統(tǒng)環(huán)境評(píng)估企業(yè)準(zhǔn)備情況評(píng)估IT環(huán)境選擇軟硬件環(huán)境規(guī)劃實(shí)施體系結(jié)構(gòu)數(shù)據(jù)準(zhǔn)備創(chuàng)建數(shù)據(jù)挖掘環(huán)境檢查和校驗(yàn)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)模型實(shí)施設(shè)計(jì)模型集成的體系結(jié)構(gòu)生成管理和業(yè)務(wù)報(bào)告清理數(shù)據(jù)使其可用把模型應(yīng)用于生產(chǎn)回顧與評(píng)價(jià)回顧模型對(duì)企業(yè)生產(chǎn)的效果回顧投資回報(bào)回顧模型的性能SAS數(shù)據(jù)挖掘項(xiàng)目方法論反復(fù)挖掘數(shù)據(jù)(SEMMA)定義16企業(yè)化經(jīng)典統(tǒng)計(jì)數(shù)據(jù)分析工具統(tǒng)計(jì)分析:STAT,LAB,INSIGHT計(jì)量經(jīng)濟(jì)學(xué)與時(shí)間序列分析:ETS運(yùn)籌優(yōu)化:OR質(zhì)量控制與質(zhì)量提高:QC矩陣編程語(yǔ)言:IML圖形與分析工具:GRAPHThinClient:EnterpriseGuide數(shù)據(jù)挖掘工具:SAS/EnterpriseMiner傻瓜兼專(zhuān)家型國(guó)際標(biāo)準(zhǔn)的全方位的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具企業(yè)化經(jīng)典統(tǒng)計(jì)數(shù)據(jù)分析工具國(guó)際標(biāo)準(zhǔn)的全方位的17EM基本介紹EM特色EM界面SEMMA方法論節(jié)點(diǎn)簡(jiǎn)介節(jié)點(diǎn)通用概貌EM基本介紹EM特色18SAS/EM特色支持廣泛的平臺(tái)包括各種UNIX,MVS,OS/390,Linux可訪(fǎng)問(wèn)的數(shù)據(jù)源多達(dá)50多種,和數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)很好的集成Client/Server結(jié)構(gòu)。SEMMA方法論引導(dǎo),將數(shù)據(jù)挖掘功能模塊組成處理流程圖,可視化,圖形化,拖拽式操作界面,適用于業(yè)務(wù)和技術(shù)人員豐富的可視化數(shù)據(jù)探索節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行細(xì)致分析提供多種數(shù)據(jù)預(yù)處理和變換工具,包括變量自動(dòng)選擇等功能提供豐富的數(shù)據(jù)挖掘模型和靈活的算法:決策樹(shù),神經(jīng)元網(wǎng)絡(luò),回歸,基于記憶的推理,兩階段模型,K均值聚類(lèi),自組織映射及其他統(tǒng)計(jì)方法,以及模型組裝技術(shù)(Ensemble)提供模型評(píng)估模塊和多種評(píng)估準(zhǔn)則提供完整的數(shù)據(jù)挖掘模型代碼輸出和打分(Scoring)功能報(bào)告工具可以將整個(gè)數(shù)據(jù)挖掘流程和結(jié)果生成HTML格式的詳細(xì)的報(bào)告,與其它業(yè)務(wù)專(zhuān)家和數(shù)據(jù)挖掘?qū)<夜蚕?。SAS/EM特色支持廣泛的平臺(tái)包括各種UNIX,MVS,OS19SAS/EM界面SAS/EM界面20數(shù)據(jù)取樣SAMPLE選數(shù)據(jù)樣本?數(shù)據(jù)探索EXPLORE可視化數(shù)據(jù)探索聚類(lèi)分析和分類(lèi)數(shù)據(jù)調(diào)整MODIFY數(shù)據(jù)重組和細(xì)分添加和變換變量模式化MODEL決策樹(shù)模型數(shù)理統(tǒng)計(jì)分析人工神經(jīng)網(wǎng)絡(luò)時(shí)間序列分析評(píng)價(jià)ASSESS新數(shù)據(jù)預(yù)測(cè)結(jié)論綜合和評(píng)價(jià)SAS數(shù)據(jù)挖掘過(guò)程方法論-SEMMA數(shù)據(jù)取樣選數(shù)據(jù)樣本?數(shù)據(jù)探索可視化聚類(lèi)分析數(shù)據(jù)調(diào)整數(shù)據(jù)重組21節(jié)點(diǎn)簡(jiǎn)介:Sampling類(lèi)節(jié)點(diǎn)InputData確定數(shù)據(jù)源。Sampling提供多種抽樣方法,如簡(jiǎn)單隨機(jī)抽樣、分層抽樣、分類(lèi)抽樣等。DataPartition將數(shù)據(jù)劃分為訓(xùn)練(Train)、檢驗(yàn)(Validation)、測(cè)試(Test)數(shù)據(jù),以避免模型過(guò)擬合。節(jié)點(diǎn)簡(jiǎn)介:Sampling類(lèi)節(jié)點(diǎn)InputData22節(jié)點(diǎn)簡(jiǎn)介:Explore類(lèi)節(jié)點(diǎn)DistributionExplorer提供數(shù)據(jù)的多維分布圖,以了解變量的趨勢(shì)和特色Multiplot提供所有變量的分布圖及對(duì)KOV的關(guān)系圖SAS/INSIGHT提供交互式直觀統(tǒng)計(jì)分析VariableSelection提供選擇對(duì)KOV重要的KIVs的功能Association提供關(guān)聯(lián)分析和序列分析LinkAnalysis提供連接關(guān)系分析節(jié)點(diǎn)簡(jiǎn)介:Explore類(lèi)節(jié)點(diǎn)DistributionE23節(jié)點(diǎn)簡(jiǎn)介:Modify類(lèi)節(jié)點(diǎn)DataSetAttributes設(shè)置或改變數(shù)據(jù)集與變量的屬性FilterOutliers 提供處理數(shù)據(jù)集中異常點(diǎn)、稀缺值的功能TransformVariables提供變量變換的功能DataReplacement數(shù)據(jù)集中數(shù)據(jù)的替換和校正,主要用于處理缺失數(shù)據(jù)Cluster提供多種方法的聚類(lèi)分析(K-mean)SOM/Kohonen自組織特征映射網(wǎng)絡(luò)據(jù)進(jìn)行分類(lèi)節(jié)點(diǎn)簡(jiǎn)介:Modify類(lèi)節(jié)點(diǎn)DataSetAttrib24節(jié)點(diǎn)簡(jiǎn)介:Model類(lèi)節(jié)點(diǎn)Regression提供多元回歸、邏輯/概率回歸及自動(dòng)選擇變量變量的功能DecisionTree決策樹(shù),支持CHAID,CART,ID3/C4.5等算法NeuralNetwork提供MLP、RBF等網(wǎng)絡(luò)結(jié)構(gòu),及多種調(diào)整方法UserDefinedModel為SAS程序編制的模型提供統(tǒng)一的模型評(píng)價(jià)界面Ensemble提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel兩階段模型MemoryBasedReasoning節(jié)點(diǎn)簡(jiǎn)介:Model類(lèi)節(jié)點(diǎn)Regression25節(jié)點(diǎn)簡(jiǎn)介:Assess類(lèi)節(jié)點(diǎn)Assessment 對(duì)不同模型提供圖形化比較:“哪一個(gè)模型最好?”Reporter 自動(dòng)生成HTML格式報(bào)告節(jié)點(diǎn)簡(jiǎn)介:Assess類(lèi)節(jié)點(diǎn)Assessment 26節(jié)點(diǎn)簡(jiǎn)介:Scoring類(lèi)節(jié)點(diǎn)Score 可輸出SAS/BASE方式的預(yù)測(cè)代碼可用于對(duì)新的數(shù)據(jù)集進(jìn)行預(yù)測(cè)C*Score 可輸出Ccode的預(yù)測(cè)代碼節(jié)點(diǎn)簡(jiǎn)介:Scoring類(lèi)節(jié)點(diǎn)Score 27節(jié)點(diǎn)簡(jiǎn)介:Utilities類(lèi)節(jié)點(diǎn)SASCode提供SAS程序接口。GroupProcessing提供分組處理的功能Subdiagram建立模型流程子表,方便管理ControlPoint控制流程執(zhí)行,方便管理DataMiningDatabase(DMDB)建立DMDB(MetaData)節(jié)點(diǎn)簡(jiǎn)介:Utilities類(lèi)節(jié)點(diǎn)SASCode28節(jié)點(diǎn)通用概貌In/OutDataProperties(選擇,瀏覽)Data/Variables/Log/Output/Notes等Tab修改節(jié)點(diǎn)后的自動(dòng)保存節(jié)點(diǎn)的下拉菜單節(jié)點(diǎn)通用概貌In/Out29SAS/EM處理示例模型應(yīng)用建模源數(shù)據(jù)預(yù)處理SAS/EM處理示例模型應(yīng)用建模源數(shù)據(jù)預(yù)處理30議程數(shù)據(jù)挖掘概述SAS數(shù)據(jù)挖掘項(xiàng)目方法論及工具EM簡(jiǎn)介Workshop議程數(shù)據(jù)挖掘概述31Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測(cè)模型模型的評(píng)估模型實(shí)施Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題32信用風(fēng)險(xiǎn)的業(yè)務(wù)問(wèn)題客戶(hù)從商業(yè)機(jī)構(gòu)獲得資金、產(chǎn)品或服務(wù),承諾在未來(lái)某天或某段時(shí)間內(nèi)償還他所使用的資金、產(chǎn)品或服務(wù),并支付一定的費(fèi)用一個(gè)“壞賬”客戶(hù)帶來(lái)的損失相當(dāng)于數(shù)百個(gè)“好”客戶(hù)給您帶來(lái)的收益信用管理者要求提供對(duì)風(fēng)險(xiǎn)進(jìn)行定量的度量,以及根據(jù)其風(fēng)險(xiǎn)大小決定采取何種最佳措施以減低將來(lái)的損失信用風(fēng)險(xiǎn)的業(yè)務(wù)問(wèn)題客戶(hù)從商業(yè)機(jī)構(gòu)獲得資金、產(chǎn)品或服務(wù),承諾在33定義我們關(guān)注的高信用風(fēng)險(xiǎn)申請(qǐng)信用時(shí)關(guān)注的風(fēng)險(xiǎn)Profitable?將來(lái)拖欠的可能性很大……客戶(hù)使用過(guò)程中關(guān)注的風(fēng)險(xiǎn)信用卡欺詐客戶(hù)拖欠償還我提供的信用?多久才是高風(fēng)險(xiǎn)?……催收欠費(fèi)過(guò)程中關(guān)注的風(fēng)險(xiǎn)無(wú)法收回?定義我們關(guān)注的高信用風(fēng)險(xiǎn)申請(qǐng)信用時(shí)關(guān)注的風(fēng)險(xiǎn)34信用周期-Applying客戶(hù)申請(qǐng)表內(nèi)部信息Strategy接受
信用額度利息
其他條件拒絕信用署數(shù)據(jù)其他外部信息政策/內(nèi)部規(guī)則申請(qǐng)打分引擎(AppScoringEngine)信控人員信用周期-Applying客戶(hù)申請(qǐng)表內(nèi)部信息Strate35信用周期-Behaviour行為打分引擎(BehScoringEngine)新的Strategy:Inc/DecLimitX-selling消費(fèi)存現(xiàn)/取現(xiàn)……移管(Transfer)拖欠(Delinquent)客戶(hù)消費(fèi)情況6/157/157/318/109/17消費(fèi)期對(duì)帳單到期日最后期限信用周期-Behaviour行為打分引擎(BehSco36信用周期-Collection收集打分引擎(ColScoringEngine)Strategy被移管的客戶(hù)9/17賣(mài)給債務(wù)代理公司W(wǎng)rite-off部分償還全部?jī)斶€Recovery損失!催帳單
電話(huà)
……信用周期-Collection收集打分引擎Strate37Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測(cè)模型模型的評(píng)估模型實(shí)施Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題38定義所需數(shù)據(jù)確定業(yè)務(wù)問(wèn)題,找出您想預(yù)測(cè)的事物歷史數(shù)據(jù)必須包含您想預(yù)測(cè)的事物(目標(biāo)變量)其它的變量包括客戶(hù)的屬性,交易數(shù)據(jù)。使用最新的數(shù)據(jù)。定義所需數(shù)據(jù)確定業(yè)務(wù)問(wèn)題,找出您想預(yù)測(cè)的事物39信用風(fēng)險(xiǎn)分析數(shù)據(jù)集市......................................................①哪些客戶(hù)?......②哪些屬性?...目標(biāo)變量信用風(fēng)險(xiǎn)分析數(shù)據(jù)集市....................40①哪些客戶(hù)?currentPerformancewindowobservationwindow①哪些客戶(hù)?currentPerformancewind41Target
DefinitionExclusionBadIndeterminateGoodTarget
DefinitionExclusion42②哪些屬性?
背景數(shù)據(jù)
年齡
性別
地區(qū)信用信息開(kāi)戶(hù)日期、余額消費(fèi)金額、償還金額卡數(shù)量、卡用途信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans拖欠信息在過(guò)去9個(gè)月中拖欠超過(guò)30天的次數(shù)拖欠超過(guò)60天的次數(shù)最后付款日期
其他相關(guān)信息是否本銀行的客戶(hù)多長(zhǎng)時(shí)間上一次貸款日期②哪些屬性?背景數(shù)據(jù)信用信息信用署信息拖欠信息其他相關(guān)信43使用業(yè)務(wù)知識(shí)派生變量新的變量前3月內(nèi)余額大于0的次數(shù)前3月內(nèi)透支超過(guò)10天的次數(shù)最后一次消費(fèi)距今的天數(shù)……比率前1/2/3月平均余額/n個(gè)月平均余額前1/2/3月消費(fèi)額/n個(gè)月消費(fèi)額……差分,移動(dòng)平均,趨勢(shì),……觀察使用量的動(dòng)態(tài)狀況其它???使用業(yè)務(wù)知識(shí)派生變量新的變量44使用RFM方法派生變量MoneyT-1月余額T-2月余額T-3月余額過(guò)去三個(gè)月/六個(gè)月內(nèi)最大,最小,平均余額……Recency最后一次余額>0元距今天數(shù)余額連續(xù)2次<=0的時(shí)間距今天數(shù)余額連續(xù)3次<=0的時(shí)間距今天數(shù)……Frequency余額<=0元的次數(shù)余額連續(xù)2次<=0的次數(shù)余額連續(xù)3次<=0的次數(shù)……使用RFM方法派生變量Money45Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測(cè)模型模型的評(píng)估模型實(shí)施Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題46數(shù)據(jù)挖掘與采樣是否需要進(jìn)行采樣?數(shù)據(jù)在采樣前需要進(jìn)行什么處理?數(shù)據(jù)挖掘中所用到的一般采樣類(lèi)型。如何決定樣本大小?數(shù)據(jù)挖掘中采樣的指導(dǎo)策略。對(duì)于某些特定的目的,如驗(yàn)證和測(cè)試,是否應(yīng)該采用多重采樣?數(shù)據(jù)挖掘與采樣是否需要進(jìn)行采樣?47針對(duì)小概率事件的過(guò)采樣GoodBad針對(duì)小概率事件的過(guò)采樣GoodBad48數(shù)據(jù)分割校驗(yàn)測(cè)試訓(xùn)練數(shù)據(jù)分割校驗(yàn)測(cè)試訓(xùn)練49Exploration階段通過(guò)探索去理解您的數(shù)據(jù)顯現(xiàn)您的數(shù)據(jù)InsightDistributionExplorerMultiplot使用VariableSelection工具發(fā)現(xiàn)最有影響的變量-降維Exploration階段通過(guò)探索去理解您的數(shù)據(jù)50DistributionExplorer節(jié)點(diǎn)交叉報(bào)表簡(jiǎn)單的匯總分析DistributionExplorer節(jié)點(diǎn)交叉報(bào)表51Multiplot節(jié)點(diǎn)為每個(gè)變量自動(dòng)生成直方圖。同時(shí)標(biāo)明每個(gè)變量對(duì)目標(biāo)的影響。Multiplot節(jié)點(diǎn)為每個(gè)變量自動(dòng)生成直方圖。52Modify階段根據(jù)所用的模型進(jìn)行數(shù)據(jù)調(diào)整優(yōu)化您的數(shù)據(jù)極值,異常值缺失值變量轉(zhuǎn)換建立新的變量改變分布的形狀定義最優(yōu)的輸入域處理共線(xiàn)性Modify階段根據(jù)所用的模型進(jìn)行數(shù)據(jù)調(diào)整53Replacement節(jié)點(diǎn)包括基于決策樹(shù)邏輯的缺失值處理。為修正變量建立指示器Replacement節(jié)點(diǎn)包括基于決策樹(shù)邏輯的缺失值處理。54TransformVariables節(jié)點(diǎn)提供各種變量轉(zhuǎn)換,包括為了優(yōu)化二元目標(biāo)變量預(yù)測(cè)而對(duì)變量進(jìn)行自動(dòng)分裝。TransformVariables節(jié)點(diǎn)提供各種變量轉(zhuǎn)換55VariableSelection節(jié)點(diǎn)根據(jù)目標(biāo)變量快速確定輸入變量(“modelscreening”)。描述它們擬合線(xiàn)型模型的框架(regression/ANOVA)。單變量R-平方及相關(guān)檢驗(yàn)。建立新的變量組(AOV16)與降低分類(lèi)變量的類(lèi)型。VariableSelection節(jié)點(diǎn)根據(jù)目標(biāo)變量快速確56Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測(cè)模型模型的評(píng)估模型實(shí)施Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題57建立預(yù)測(cè)模型回歸,神經(jīng)網(wǎng)絡(luò)和決策樹(shù)等。Good/Bad作為分析目標(biāo)。結(jié)果:
Bad的可能性(全部方法)
變量的重要性分析(回歸,決策樹(shù))
規(guī)則分析(決策樹(shù))建立預(yù)測(cè)模型回歸,神經(jīng)網(wǎng)絡(luò)和決策樹(shù)等。58EM回歸節(jié)點(diǎn)EM回歸節(jié)點(diǎn)59EM神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)提供基本選項(xiàng)給普通用戶(hù)“智能”設(shè)定其它的復(fù)雜參數(shù)EM神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)提供基本選項(xiàng)給普通用戶(hù)60EM決策樹(shù)節(jié)點(diǎn)EM決策樹(shù)節(jié)點(diǎn)61Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測(cè)模型模型的評(píng)估模型實(shí)施Workshop(信用風(fēng)險(xiǎn)建模)業(yè)務(wù)問(wèn)題62Assessment階段L
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河南推拿職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案
- 2025年度新型法院執(zhí)行和解協(xié)議書(shū)編制指南
- 2025年度農(nóng)村房屋拆遷與鄉(xiāng)村振興項(xiàng)目合作協(xié)議
- 2025年度養(yǎng)老服務(wù)機(jī)構(gòu)單位解除勞動(dòng)合同及養(yǎng)老服務(wù)協(xié)議
- 2025年度合資企業(yè)股權(quán)分配與合作協(xié)議
- 2025年度工地施工期間施工進(jìn)度與費(fèi)用控制協(xié)議
- 液態(tài)粘合劑槽罐車(chē)運(yùn)輸范本
- 智能家居別墅設(shè)計(jì)合同樣本
- 2025年度人工智能智能家居產(chǎn)品合作合同解除協(xié)議書(shū)
- 2025年度個(gè)人消費(fèi)債權(quán)轉(zhuǎn)讓及分期還款協(xié)議
- 八年級(jí)上冊(cè)英語(yǔ)完形填空、閱讀理解綜合訓(xùn)練100題-含參考答案
- UL489標(biāo)準(zhǔn)中文版-2019斷路器UL標(biāo)準(zhǔn)中文版
- 中藥藥劑學(xué)講義(英語(yǔ)).doc
- 【課件】Unit1ReadingforWriting課件高中英語(yǔ)人教版(2019)必修第二冊(cè)
- Q∕GDW 10799.6-2018 國(guó)家電網(wǎng)有限公司電力安全工作規(guī)程 第6部分:光伏電站部分
- 滴灌工程設(shè)計(jì)示例
- 配套模塊an9238用戶(hù)手冊(cè)rev
- 醫(yī)院室外管網(wǎng)景觀綠化施工組織設(shè)計(jì)
- 霍尼韋爾DDC編程軟件(CARE)簡(jiǎn)介
- 德龍自卸車(chē)合格證掃描件(原圖)
- 劉友生善人講病
評(píng)論
0/150
提交評(píng)論