




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
金融行業(yè)數(shù)據(jù)挖掘技術(shù)一、 一、簡(jiǎn)介“金融行業(yè)數(shù)據(jù)挖掘技術(shù)應(yīng)用論壇”由中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院(CCID)和其旗下賽迪集團(tuán)戰(zhàn)略數(shù)據(jù)資源管理中心主辦,北京賽迪數(shù)據(jù)有限公司負(fù)責(zé)具體承辦,2002年11月25日在北京新世紀(jì)飯店召開(kāi)。二、 二、 會(huì)議紀(jì)要1.會(huì)議內(nèi)容1)數(shù)據(jù)挖掘技術(shù)與金融分析內(nèi)容■數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)與技術(shù)■數(shù)據(jù)挖掘技術(shù)■評(píng)分系統(tǒng)在金融決策中的應(yīng)用■ ■數(shù)據(jù)挖掘用于評(píng)分系統(tǒng)主要觀點(diǎn):(1) 數(shù)據(jù)倉(cāng)庫(kù)是適合知識(shí)發(fā)現(xiàn)的過(guò)程的結(jié)構(gòu)。數(shù)據(jù)倉(cāng)庫(kù)的處理過(guò)程是從“數(shù)據(jù)清理/整合——>數(shù)據(jù)倉(cāng)庫(kù)——>數(shù)據(jù)選擇——>數(shù)據(jù)挖掘——>模式評(píng)價(jià)——>知識(shí)”不斷循環(huán)的過(guò)程(注:類似Fayyad96年提出的數(shù)據(jù)挖掘過(guò)程模型。(2) 將數(shù)據(jù)倉(cāng)庫(kù)和挖掘的結(jié)構(gòu)劃分為四個(gè)層次:第一層是數(shù)據(jù)層,第二層是多維數(shù)據(jù)庫(kù)層MDDB,第三層是OLAP和OLAM,第四層是用戶界面(注:類似HanJiawei的OLAM體系結(jié)構(gòu))(3) 數(shù)據(jù)挖掘過(guò)程包括:數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘,數(shù)據(jù)解釋。(4) 數(shù)據(jù)挖掘的方法:聯(lián)想,劃分,聚類,預(yù)測(cè),順序模式,相似時(shí)間序列。(5) 數(shù)據(jù)挖掘的科學(xué)方法數(shù)學(xué)工具:統(tǒng)計(jì)學(xué),決策樹,神經(jīng)網(wǎng)絡(luò),模糊邏輯,線性規(guī)劃。(6) 個(gè)人信用評(píng)分系統(tǒng)是將個(gè)人信用的歷史(六個(gè)月以上)經(jīng)過(guò)45至65個(gè)因素的刻劃后表述的決策模型。通常個(gè)人信用評(píng)分為350至850之間。每人從850分起,有壞帳記錄,即扣去不同比例的分?jǐn)?shù)。經(jīng)過(guò)評(píng)分模型的分析,最后得到?jīng)Q策評(píng)分。(850為最好)(7) 評(píng)分因素:過(guò)去的付帳歷史、信用欠帳量、信用卡使用時(shí)間、新信用卡的申請(qǐng)、信用卡的類、信用卡交易情況、現(xiàn)金提取情況(8) 應(yīng)用前景:銀行各類信貸風(fēng)險(xiǎn)分析,企業(yè)和個(gè)人信用風(fēng)險(xiǎn)分析2) 2)如何利用數(shù)據(jù)挖掘工具協(xié)助進(jìn)行市場(chǎng)營(yíng)銷內(nèi)容■數(shù)據(jù)挖掘的定義■IBM數(shù)據(jù)挖掘的解決方案■ 在金融行業(yè)的應(yīng)用主要觀點(diǎn):(1) (1) 強(qiáng)調(diào)了數(shù)據(jù)挖掘過(guò)程,首先必須明確需要解決的商業(yè)問(wèn)題。(2) (2) IBM有從數(shù)據(jù)庫(kù)到最上層的挖掘工具的一整套商業(yè)智能解決方案。(3) (3) 在銀行應(yīng)用的層次:信用評(píng)分,購(gòu)物籃分析,區(qū)隔分析,交叉營(yíng)銷/向上營(yíng)銷,客戶流失,客戶價(jià)值。(4) (4) 講解了LiftChart圖的含義3) 3)數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用趨勢(shì)分析內(nèi)容■數(shù)據(jù)管理技術(shù)的挑戰(zhàn)■結(jié)構(gòu)化數(shù)據(jù)挖掘應(yīng)用■非結(jié)構(gòu)化數(shù)據(jù)挖掘應(yīng)用■金融行業(yè)數(shù)據(jù)挖掘應(yīng)用趨勢(shì)主要觀點(diǎn):(1) (1) 八十年代初,銀行自動(dòng)化建設(shè),九十年代初銀行網(wǎng)絡(luò)化建設(shè)階段,九五末期,數(shù)據(jù)大集中。(2) (2) 2002年上半年金融行業(yè)IT應(yīng)用特點(diǎn):數(shù)據(jù)大集中平穩(wěn)進(jìn)行,“銀聯(lián)”改善信用卡環(huán)境,電視會(huì)議擴(kuò)大應(yīng)用,個(gè)人理財(cái)系統(tǒng)成為新焦點(diǎn),農(nóng)信社信息化市場(chǎng)升溫,無(wú)線局域網(wǎng)開(kāi)始應(yīng)用。(3) (3) 結(jié)構(gòu)化挖掘原理:從現(xiàn)有業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù)(業(yè)務(wù)數(shù)據(jù)、客戶數(shù)據(jù)),建立深層次的分析體系(數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、業(yè)務(wù)分析模型),以信息驅(qū)動(dòng)業(yè)務(wù)的管理、新一代電子商務(wù)企業(yè)(市場(chǎng)觸覺(jué)敏感、以客戶為中心、以信息驅(qū)動(dòng))。(4) (4) 一個(gè)比喻:數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘好比一個(gè)大的廚師燒菜,開(kāi)始需要選擇(5)(6(5)(6)(5)結(jié)構(gòu)化數(shù)據(jù)挖掘內(nèi)容:(6) 非結(jié)構(gòu)化數(shù)據(jù)挖掘的意義:企業(yè)戰(zhàn)略規(guī)劃的制定和戰(zhàn)術(shù)方案的實(shí)施離不開(kāi)對(duì)于海量非結(jié)構(gòu)化數(shù)據(jù)的挖掘和現(xiàn)有知識(shí)的管理?。?) (7)非結(jié)構(gòu)化數(shù)據(jù)挖掘在企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的應(yīng)用,企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)將成為下一個(gè)數(shù)據(jù)挖掘應(yīng)用的熱點(diǎn)。(8) 金融行業(yè)數(shù)據(jù)挖掘應(yīng)用趨勢(shì),在數(shù)據(jù)集中的平臺(tái)上,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),部署企業(yè)的商業(yè)智能、客戶關(guān)系管理、市場(chǎng)銷售分析、競(jìng)爭(zhēng)對(duì)手分析、市場(chǎng)需求動(dòng)向等。4)用友金融行業(yè)財(cái)務(wù)管理解決方案黃偉先生一上來(lái)演示了一個(gè)FLASH游戲,在多張不同花色的牌中,讓觀眾記住一張牌,說(shuō)明他能夠知道所有人記住的是什么牌。然后,他抽去一張牌,再打開(kāi)其他的牌,觀眾所記住的牌已經(jīng)都不在了。原因很簡(jiǎn)單,他換去了所有牌的花色,造成一種錯(cuò)覺(jué)。黃偉先生用這個(gè)游戲說(shuō)明,錯(cuò)覺(jué)往往帶來(lái)錯(cuò)誤的決策,引申開(kāi)來(lái),數(shù)據(jù)挖掘需要有正確的數(shù)據(jù),才能進(jìn)行深入的挖掘。介紹了用友集中式的財(cái)務(wù)管理解決方案,說(shuō)明必須先收集這些重要的財(cái)務(wù)數(shù)據(jù),才能進(jìn)行更深入的挖掘。5)CA數(shù)據(jù)管理技術(shù)行業(yè)應(yīng)用解決方案講解了CA公司的情況,以及CA的商業(yè)智能解決方案,特出了CA自己研制的一種預(yù)測(cè)技術(shù)。6)透過(guò)數(shù)據(jù)挖掘改善客戶服務(wù)中心的管理講解了一些數(shù)據(jù)挖掘概念性的東西,并舉出了那個(gè)經(jīng)典的“啤酒-尿布”的案例。7)7)金融信用決策的技術(shù)突破——數(shù)據(jù)挖掘的應(yīng)用■ 引言■ 信用周期一般介紹■ 信用決策的簡(jiǎn)化流程■ 信用決策技術(shù)解析■ 信用決策技術(shù)的幾個(gè)例子■ 信用決策技術(shù)帶來(lái)的利益■ 中國(guó)運(yùn)用信用技術(shù)的可行方案主要觀點(diǎn):(1) (1) 抵押貸款有很多缺點(diǎn),信用貸款都能彌補(bǔ),所以信用貸款是好的,是趨勢(shì)。(2) (2) 信用周期(CreditLifeCycle):(3) (3)信用決策簡(jiǎn)化流程(4) 傳統(tǒng)的決策制定中心是主觀制定決策(JUDGEMENT),主觀決策存在一些不足,數(shù)據(jù)挖掘給決策技術(shù)帶來(lái)了突破。數(shù)據(jù)挖掘是從廣義的角度講的,包括統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等等。(5) 預(yù)測(cè)解析(PredictiveAnalytics):信用評(píng)分技術(shù)(CreditScoring)0■ 內(nèi)在理解分析(ExploratoryAnalysis/KDD):模塊識(shí)別和相關(guān)性分析?!?決策建模(DecisionModeling):通過(guò)圖論方法建立模型,對(duì)于給定的一個(gè)或多個(gè)決策建立數(shù)學(xué)關(guān)系。■策略優(yōu)化(StrategyOptimization):在給定的一些限制條件下,尋找改進(jìn)利潤(rùn)的最優(yōu)策略解。■ ■ 策略精調(diào)(StrategyRefinement):精調(diào)最優(yōu)策略解,使其穩(wěn)定可靠,易理解、易執(zhí)行。(6) (6)預(yù)測(cè)解析:針對(duì)不同的信用周期階段和不同的商業(yè)目標(biāo),建立模型■招商:依據(jù)風(fēng)險(xiǎn)的招商模型,申請(qǐng)模型,價(jià)值模型和響應(yīng)模型。■立戶:風(fēng)險(xiǎn)(壞帳,破產(chǎn)等),離走和利潤(rùn)定量等?!鲇脩艄芾恚悍謾n系統(tǒng),風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng),壞帳、破產(chǎn)預(yù)警系統(tǒng),債量預(yù)測(cè)模型,利潤(rùn)預(yù)測(cè)模型,欺詐預(yù)測(cè)模型等?!鍪諑ぃ呵捌谑諑?,后期收帳等?!隹傮w:損失預(yù)測(cè),營(yíng)利預(yù)測(cè),最優(yōu)組合建立,階梯變壞率預(yù)測(cè),等等。(7) (7) 內(nèi)在理解分析■一般理解分析:變量的相互關(guān)系。工具 因子分析、主成分分析、聚類分析、關(guān)聯(lián)規(guī)則等?!鎏厥饫斫夥治觯簩?duì)給定目標(biāo),尋找貢獻(xiàn)或影響的變量。工具一ISHER顯著性檢驗(yàn)、參數(shù)估計(jì)、線性/非線性/LOGISTIC回歸、神經(jīng)網(wǎng)絡(luò)、決策樹等。(8) (8)決策建模:對(duì)于1個(gè)或幾個(gè)決策建立圖論模型。從而建立起他們之間的數(shù)學(xué)關(guān)系。如下圖所示:假設(shè),P、④、p分別記作利率、信用量、債務(wù),則R(收入)=F(X1,…,Xn,p,e,p)L(損失)=F’(X1,…,Xn,p,。,p)c(費(fèi)用)=f’’(X1,…,Xn,p,。,「)最大利潤(rùn)=R(收入)5小)-L(損失)me,’)-C(費(fèi)用)皿譙,?。?9) (9) 優(yōu)化決策和決策精調(diào):(10) (10) 信用評(píng)數(shù)技術(shù):例子——對(duì)偶模型(11)(11)信用決策技術(shù)利益:減少壞帳;增加利潤(rùn);效率提升,開(kāi)銷縮??;策略的公平性和一貫性得以保障。(12) (12) 中國(guó)的可行方案■ 逐步建立完整的數(shù)據(jù)庫(kù)■ 人員培訓(xùn)(預(yù)測(cè)建模技術(shù),決策建模技術(shù),策略設(shè)計(jì)技術(shù))■ 逐步建立決策系統(tǒng)這篇演講是非常有價(jià)值的,所以我將其詳細(xì)的整理出來(lái)。無(wú)論對(duì)于研究數(shù)據(jù)挖掘或金融模型的學(xué)者/學(xué)生,還是從事實(shí)際項(xiàng)目設(shè)計(jì)的工程人員,都有非常高的參考價(jià)值。三、 三、結(jié)語(yǔ)在短短的三個(gè)半小時(shí)內(nèi),能夠組織這樣一個(gè)規(guī)模大、內(nèi)容豐富、偏重應(yīng)用的論壇,賽迪是功不可沒(méi)的。一些可以探討的概念和思路:1.數(shù)據(jù)挖掘的定義在提到數(shù)據(jù)挖掘的時(shí)候,一些書或者文獻(xiàn)都要強(qiáng)調(diào)它與統(tǒng)計(jì)和OLAP的區(qū)別。我覺(jué)得應(yīng)該從更廣義的概念上來(lái)理解數(shù)據(jù)挖掘,它是一門跨越多個(gè)學(xué)科的技術(shù),只要能夠從數(shù)據(jù)發(fā)現(xiàn)有意義的模式,都可以稱為數(shù)據(jù)挖掘。2.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系很多人一講數(shù)據(jù)挖掘,首先必須講數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的模式。大量的數(shù)據(jù)并不一定是來(lái)源于數(shù)據(jù)倉(cāng)庫(kù)。因?yàn)椋@樣會(huì)造成一種誤解,進(jìn)行數(shù)據(jù)挖掘項(xiàng)目,一定要先建立數(shù)據(jù)倉(cāng)庫(kù)。另一方面,數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu),其實(shí)并適合進(jìn)行數(shù)據(jù)挖掘分析,因?yàn)槲覀兌伎吹?,大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)采用星型或雪花型數(shù)據(jù)模型,這些數(shù)據(jù)倉(cāng)庫(kù)其實(shí)是為OLAP建立的,更適合進(jìn)行OLAP的多維分析,而要從事數(shù)據(jù)挖掘項(xiàng)目還需要將數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)挖掘算法能夠識(shí)別的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘所做的,應(yīng)該從數(shù)據(jù)整合和清洗的角度來(lái)理解。也就是說(shuō),數(shù)據(jù)倉(cāng)庫(kù)將不同操作源的數(shù)據(jù)存放到一個(gè)集中的環(huán)境中,并且進(jìn)行適當(dāng)?shù)那逑春娃D(zhuǎn)換。這點(diǎn)上面李峻博士所舉的廚房的例子是一個(gè)貼切的比喻。數(shù)據(jù)挖掘所需要的數(shù)據(jù),能夠直接從數(shù)據(jù)倉(cāng)庫(kù)獲得,但是獲得后還是需要進(jìn)行轉(zhuǎn)換,如果沒(méi)有數(shù)據(jù)倉(cāng)庫(kù),就需要直接從操作型數(shù)據(jù)源中獲取,并且要進(jìn)行ECTL(抽取、清洗、轉(zhuǎn)換、裝載)的操作。因此,沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)也是能夠進(jìn)行數(shù)據(jù)挖掘項(xiàng)目,數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)不是為數(shù)據(jù)挖掘設(shè)計(jì)的,它更適合OLAP操作。3. 國(guó)內(nèi)的數(shù)據(jù)挖掘項(xiàng)目現(xiàn)狀國(guó)內(nèi)的金融行業(yè)真正從事數(shù)據(jù)挖掘項(xiàng)目的不多,這從論壇的國(guó)內(nèi)報(bào)告能夠看出。報(bào)告的內(nèi)容主要還是“看——想一一說(shuō)”的步驟。也就是說(shuō),看一些資料/文獻(xiàn)/書,再?gòu)哪壳暗那闆r中展開(kāi)聯(lián)想,最后將這些整理的想法形成方案,并報(bào)告(說(shuō))出來(lái)。我們非常希望,在以后的應(yīng)用論壇上,能夠象林博士舉國(guó)外的信用決策的例子一樣,來(lái)講國(guó)內(nèi)的數(shù)據(jù)挖掘案例。從而作到“看——想一一做一一說(shuō)”。4. 金融行業(yè)如何從事數(shù)據(jù)挖掘項(xiàng)目林博士的“中國(guó)信用決策的可行方案,,是比較貼切的,除了信用決策,對(duì)于其他已經(jīng)積累了很多業(yè)務(wù)數(shù)據(jù)的系統(tǒng),都可以參考。利用數(shù)據(jù)挖掘技術(shù),構(gòu)建決策系統(tǒng),使得決策來(lái)源于數(shù)據(jù),而不僅僅是主觀判斷(JUDGEMENT)。金融行業(yè)的數(shù)據(jù)挖掘研究,需要多方面的人員的共同參與,包括領(lǐng)域?qū)<?、?shù)據(jù)管理員、數(shù)據(jù)分析人員、業(yè)務(wù)分析人員、數(shù)據(jù)挖掘?qū)<遥纬梢粋€(gè)團(tuán)隊(duì),從某一個(gè)實(shí)際的問(wèn)題出發(fā),摸索適合自己企業(yè)的一套研究和開(kāi)發(fā)方法,逐
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025二建《水利》速通寶典
- 2025年中國(guó)慢走絲線割機(jī)市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)工業(yè)型存儲(chǔ)式條碼掃描器市場(chǎng)調(diào)查研究報(bào)告
- (一模)2025年常德市高三年級(jí)模擬考試生物試卷(含答案解析)
- 2025年藥學(xué)執(zhí)業(yè)資格考試必考題庫(kù)及答案(共300題)
- 2025年滌綸短纖項(xiàng)目合作計(jì)劃書
- 2024年美容師考試技能提升試題及答案
- 《北京市地下水超采綜合治理實(shí)施方案(2023-2025)》
- 2024年寵物營(yíng)養(yǎng)師考試新趨勢(shì)試題及答案
- 2024年汽車維修工車身修復(fù)技能試題及答案
- 石英玻璃、耐高溫石英玻璃、耐高壓石英玻璃
- 春天就是我童聲合唱簡(jiǎn)譜
- 每日30字練字格電子版
- 雷鋒叔叔你在哪里教學(xué)反思
- 鋼拱橋?qū)m?xiàng)吊裝方案終稿
- 24式太極拳教案(1~4課)
- 哈薩克斯坦鐵路車站代碼
- 產(chǎn)業(yè)經(jīng)濟(jì)學(xué)的課后復(fù)習(xí)答案
- 中國(guó)綠色經(jīng)濟(jì)發(fā)展之路(PPT-37張)課件
- 客房控制系統(tǒng)——RCU系統(tǒng)培訓(xùn)PPT通用通用課件
- 履帶式液壓挖掘機(jī)挖掘機(jī)構(gòu)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論