尿布與啤酒與數(shù)據(jù)挖掘技術(shù)_第1頁
尿布與啤酒與數(shù)據(jù)挖掘技術(shù)_第2頁
尿布與啤酒與數(shù)據(jù)挖掘技術(shù)_第3頁
尿布與啤酒與數(shù)據(jù)挖掘技術(shù)_第4頁
尿布與啤酒與數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

尿布與啤酒與數(shù)據(jù)挖掘技術(shù)

2007年01月13日00:52:25來源:中國傳媒科技

原標(biāo)題:數(shù)據(jù)挖掘技術(shù)

〃數(shù)據(jù)”的含義很廣,不僅指321、897這樣一些數(shù)字,還指〃abc〃、〃

李明〃、“96/10/11〃等符號(hào)、字符、日期形式的數(shù)據(jù)。我們討論的數(shù)據(jù)是指存

放在計(jì)算機(jī)系統(tǒng)中的任何東西,如:”數(shù)字〃、〃字符〃、〃聲音〃、〃圖像〃、〃照

片〃、……等等,甚至處理數(shù)據(jù)的計(jì)算機(jī)程序本身也作為計(jì)算機(jī)的〃數(shù)據(jù)〃。隨

著國民經(jīng)濟(jì)與社會(huì)信息化的進(jìn)展,人們在計(jì)算機(jī)系統(tǒng)中存放的數(shù)據(jù)量越來越

大。我們發(fā)現(xiàn)這些數(shù)據(jù)是人們工作、生活與其他行為的記錄,是企業(yè)與社會(huì)進(jìn)

展的記錄,也是人與自然界本身的描述。這就是說在計(jì)算機(jī)系統(tǒng)中形成了龐大

的〃數(shù)據(jù)資源〃。因此,發(fā)現(xiàn)這些數(shù)據(jù)所含的規(guī)律也就是發(fā)現(xiàn)我們工作、生活與

社會(huì)進(jìn)展中的規(guī)律,發(fā)現(xiàn)人與自然界的規(guī)律,就相當(dāng)于在數(shù)據(jù)資源中發(fā)現(xiàn)金礦。

這就是數(shù)據(jù)資源的開發(fā)利用,是非常有價(jià)值的工作。而數(shù)據(jù)挖掘是目前最先進(jìn)

的數(shù)據(jù)資源開發(fā)利用技術(shù)。

1、什么是數(shù)據(jù)挖掘

我們先來看一個(gè)數(shù)據(jù)挖掘的故事,〃尿布與啤酒〃的故事是關(guān)于數(shù)據(jù)

挖掘最經(jīng)典與流傳最廣的故事。

總部位于美國阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪(Wal

Mart)擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)。為了能夠準(zhǔn)確熟悉顧客在其門店的購

買習(xí)慣,沃爾瑪利對其顧客的購物行為進(jìn)行購物籃分析,想明白顧客經(jīng)常一起

購買的商品有什么。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的全面原始交易數(shù)據(jù)。

在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用NCR數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進(jìn)行

分析與挖掘。一個(gè)意外的發(fā)現(xiàn)是:〃跟尿布一起購買最多的商品竟是啤酒!〃

這是數(shù)據(jù)挖掘技術(shù)對歷史數(shù)據(jù)進(jìn)行分析的結(jié)果,反映數(shù)據(jù)內(nèi)在的規(guī)

律。那么這個(gè)結(jié)果符合現(xiàn)實(shí)情況嗎?是否是一個(gè)有用的知識(shí)?是否有利用價(jià)

值?

因此,沃爾瑪派出市場調(diào)查人員與分析師對這一數(shù)據(jù)挖掘結(jié)果進(jìn)行

調(diào)查分析。通過大量實(shí)際調(diào)查與分析,揭示了一個(gè)隱藏在〃尿布與啤酒〃背后的

美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰

兒尿布,而他們中有30%?40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的

原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買

尿布后又隨手帶回了他們喜歡的啤酒。

既然尿布與啤酒一起被購買的機(jī)會(huì)很多,因此沃爾瑪就在其一個(gè)個(gè)

門店將尿布與啤酒并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長。

按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)

對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)

律的。

那么數(shù)據(jù)挖掘是什么樣的技術(shù)呢?

數(shù)據(jù)挖掘是從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),要緊有數(shù)據(jù)準(zhǔn)備、規(guī)

律尋找與規(guī)律表示三個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從各類數(shù)據(jù)源中選取與集成用于數(shù)據(jù)

挖掘的數(shù)據(jù);規(guī)律尋找是用某種方法將數(shù)據(jù)中的規(guī)律找出來;規(guī)律表示是用盡

可能符合用戶習(xí)慣的方式(如可視化)將找出的規(guī)律表示出來。

但在具體實(shí)施數(shù)據(jù)挖掘應(yīng)用時(shí),還要有一個(gè)步驟就是結(jié)果評價(jià)。這

是由于數(shù)據(jù)算法尋找出來的是數(shù)據(jù)的規(guī)律,其中有些是人們感興趣的有用的,

還有一些可能是不感興趣的沒有用的。這就要對尋找出的規(guī)律進(jìn)行評估。比如:

〃跟尿布一起購買最多的商品是啤酒〃這樣一條規(guī)律是否有用呢?這就需要市

場調(diào)查與評估工程師根據(jù)實(shí)際情況做出評估推斷。這是一個(gè)人工步驟,還難以

自動(dòng)化。

數(shù)據(jù)挖掘在自身進(jìn)展的過程中,汲取了數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫與人工智

能中的大量技術(shù)。

數(shù)據(jù)挖掘分為描述性與預(yù)測性兩類。描述性數(shù)據(jù)挖掘提供數(shù)據(jù)的通常規(guī)律;

預(yù)測性數(shù)據(jù)挖掘產(chǎn)生關(guān)于數(shù)據(jù)的預(yù)測。數(shù)據(jù)挖掘的要緊內(nèi)容有:

關(guān)聯(lián)分析:尋找數(shù)據(jù)項(xiàng)之間感興趣的關(guān)聯(lián)關(guān)系。比如:我們能夠通

過對交易數(shù)據(jù)的分析可能得出〃86%買‘啤酒’的人同時(shí)也買‘尿布'〃這樣一條〃

啤酒〃與〃尿布〃之間的關(guān)聯(lián)規(guī)則。

演變分析?:描述時(shí)間序列數(shù)據(jù)隨時(shí)間變化的數(shù)據(jù)的規(guī)律或者趨勢,

并對其建模。包含時(shí)間序列趨勢分析、周期模式匹配等。比如:通過對交易數(shù)

據(jù)的演變分析,可能會(huì)得到〃89%情況股票X上漲一周左右后,股票Y會(huì)上漲〃

這樣一條序列知識(shí)。

聚類分析?:根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則

將數(shù)據(jù)對象聚類或者分組,所形成的每個(gè)簇(聚類)能夠看作一個(gè)數(shù)據(jù)對象類,

用顯式或者隱式的方法描述它們。也就是我們常說的物以類聚人以群分。

分類分析:找出描述并區(qū)分?jǐn)?shù)據(jù)類的模型(能夠是顯式或者隱式),

以便能夠使用模型預(yù)測給定數(shù)據(jù)所屬的數(shù)據(jù)類。比如:信用卡公司能夠?qū)⒊挚?/p>

人的信譽(yù)度分類為:良好、普通與較差三類。分類分析通過對這些數(shù)據(jù)類的分

析給出一個(gè)信譽(yù)等級的顯式模型:〃信譽(yù)良好的持卡人是年收入在30000元到

50000元之間,年齡在30至45歲之間,居住面積達(dá)90M2左右的人〃。這樣關(guān)

于一個(gè)新的持卡人,就能夠根據(jù)他的特征預(yù)測其信譽(yù)度。

特殊分析:一個(gè)數(shù)據(jù)集中往往包含一些特別的數(shù)據(jù),其行為與模式

與通常的數(shù)據(jù)不一致,這些數(shù)據(jù)稱之〃特殊對〃特殊〃數(shù)據(jù)的分析稱之〃特殊

分析〃。它在欺詐甄別、網(wǎng)絡(luò)入侵檢測等領(lǐng)域有著廣泛的應(yīng)用。

2、數(shù)據(jù)挖掘與數(shù)理統(tǒng)計(jì)差異

數(shù)理統(tǒng)計(jì)與數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。同時(shí),

有許多數(shù)據(jù)挖掘工作還用了數(shù)理統(tǒng)計(jì)的算法或者模型,還有,一些市場上所謂

的數(shù)據(jù)挖掘工具軟件卻是統(tǒng)計(jì)軟件或者是從統(tǒng)計(jì)軟件演變過來的。正由于如

此,二者就成了最混淆的概念。我們認(rèn)為二者在做法上是有很大不一致的。

〃手工〃與〃計(jì)算機(jī)”

由于統(tǒng)計(jì)學(xué)基礎(chǔ)的建立在計(jì)算機(jī)的發(fā)明之前,因此許多統(tǒng)計(jì)學(xué)方法

是能夠手工實(shí)現(xiàn)的。關(guān)于很多統(tǒng)計(jì)學(xué)家來說,幾百個(gè)數(shù)據(jù)或者幾十個(gè)變量就已

經(jīng)是很大的了。但這個(gè)〃大"關(guān)于現(xiàn)在計(jì)算機(jī)中GB級的交易記錄或者幾千萬個(gè)

客戶信息來說相差太遠(yuǎn)了。很明顯,面對這么多的數(shù)據(jù),設(shè)計(jì)”原則上能夠用

手工實(shí)現(xiàn)〃的統(tǒng)計(jì)方法與設(shè)計(jì)〃原則上有計(jì)算機(jī)數(shù)據(jù)倉庫支持〃的數(shù)據(jù)挖掘方法

是有很大不一致的,很多統(tǒng)計(jì)模型與算法在處理大數(shù)據(jù)量時(shí)可能就會(huì)失去意

義。這意味這計(jì)算機(jī)關(guān)于數(shù)據(jù)的分析與處理是關(guān)鍵的,而手工直接處理數(shù)據(jù)將

變得不可行。

〃用樣本推斷總體規(guī)律〃與〃直接找出總體的規(guī)律〃

用樣本推斷總體規(guī)律是統(tǒng)計(jì)學(xué)的核心方法之一,而數(shù)據(jù)挖掘由于使

用了計(jì)算機(jī)技術(shù)更關(guān)注對總體規(guī)律的分析。當(dāng)然,數(shù)據(jù)挖掘也常常關(guān)注樣本。

比如我們的數(shù)據(jù)庫中有某廠歷年生產(chǎn)的1000萬臺(tái)電視機(jī)與對應(yīng)1000

萬個(gè)客戶的全部信息。在這種情形下,用樣本構(gòu)造某種模型或者某個(gè)估計(jì)值來

推斷1000萬臺(tái)電視機(jī)的使用情況就沒有價(jià)值了,我們能夠通過數(shù)據(jù)挖掘直接

找出總體的規(guī)律。

但在一些預(yù)測性分析中,數(shù)據(jù)挖掘也常常使用樣本。比如:對一個(gè)

新產(chǎn)品的廣告宣傳活動(dòng)進(jìn)行響應(yīng)率分析。對1000萬人做該廣告,實(shí)際應(yīng)該有

10萬人響應(yīng)。但通過一個(gè)樣本分析發(fā)現(xiàn):其中有三類人群對該廣告的響應(yīng)率較

高。因此,就有針對性地對高響應(yīng)率的100萬人做了該廣告,結(jié)果獲得了8萬

人的響應(yīng)。

〃普遍規(guī)律〃與〃特定規(guī)律〃

統(tǒng)計(jì)學(xué)研究問題的結(jié)果常常會(huì)得到一個(gè)統(tǒng)計(jì)模型,而這個(gè)模型是普

遍適用的,而數(shù)據(jù)挖掘得到的是某個(gè)數(shù)據(jù)集的規(guī)律,常常不具有普遍意義。比

如:〃擲硬幣出現(xiàn)正反面的概率都是50%。但在某個(gè)賭場,一年中每天擲出硬幣,

其正面出現(xiàn)的次數(shù)在68293%之間,統(tǒng)計(jì)學(xué)中〃正反面出現(xiàn)的概率是50%〃的推

斷在這樣一個(gè)總體中就沒有價(jià)值了。

"模型〃與"實(shí)驗(yàn)”

由于數(shù)學(xué)背景,統(tǒng)計(jì)學(xué)追求精確,建立一個(gè)模型并證明之,而不是

象數(shù)據(jù)挖掘那樣注重實(shí)驗(yàn)。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是

說明假如精確的方法不能產(chǎn)生結(jié)果的話就會(huì)被放棄。比如:證券公司的一個(gè)業(yè)

務(wù)回歸模型可能會(huì)把保證金作為一個(gè)獨(dú)立的變量,由于通常認(rèn)為大的保證金會(huì)

導(dǎo)致大的業(yè)務(wù),因此花費(fèi)高成本開設(shè)了大戶室。但事實(shí)上通過對一年來的交易

情況進(jìn)行數(shù)據(jù)挖掘卻發(fā)現(xiàn):交易頻度與贏利情況才是最重要的。

說明:盡管有上述的差異,很多時(shí)候我們?nèi)匀荒軌蜻@樣說:〃將很多

數(shù)理統(tǒng)計(jì)算法或者模型寫成計(jì)算機(jī)程序并能夠用于大規(guī)模數(shù)據(jù)分析就變成了

數(shù)據(jù)挖掘技術(shù)?!?/p>

3、數(shù)據(jù)挖掘技術(shù)研究

首先出現(xiàn)的術(shù)語是知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,

KDD)而不是數(shù)據(jù)挖掘。后來的有關(guān)學(xué)術(shù)會(huì)議也大都以KDD為名,個(gè)別使用〃數(shù)

據(jù)挖掘與知識(shí)發(fā)現(xiàn)〃,但在數(shù)據(jù)庫領(lǐng)域與工業(yè)界一直使用〃數(shù)據(jù)挖掘〃。在這一

節(jié),我們分別介紹數(shù)據(jù)挖掘研究、數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)挖掘應(yīng)用的進(jìn)展?fàn)顩r,

同時(shí)在數(shù)據(jù)挖掘研究介紹中同時(shí)使用數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)術(shù)語。

知識(shí)發(fā)現(xiàn)(KDD)一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智

能學(xué)術(shù)會(huì)議上。隨著KDD在學(xué)術(shù)界與工業(yè)界的影響越來越大,國際KDD組委

會(huì)于1995年把專題討論會(huì)更名為國際會(huì)議,在加拿大蒙特利爾市召開了第一

屆KDD國際學(xué)術(shù)會(huì)議,以后每年召開一次。迄今為止,由美國人工智能協(xié)會(huì)

主辦的KDD國際研討會(huì)已經(jīng)召開了7次(見表),規(guī)模由原先的專題討論會(huì)

進(jìn)展到國際學(xué)術(shù)大會(huì),人數(shù)由二三十人到七八百人,論文收錄比例從2X1到

6X1,研究重點(diǎn)也逐步從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,同時(shí)注重多種發(fā)現(xiàn)策略與技

術(shù)的集成,與多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會(huì)議也把數(shù)據(jù)挖掘

與知識(shí)發(fā)現(xiàn)列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。

表:歷屆數(shù)據(jù)挖掘討論會(huì)議(備注:從95年更名為國際會(huì)議)

時(shí)間會(huì)議名稱會(huì)議地址收錄論文比例數(shù)參加會(huì)議人數(shù)

1989.8WorkshoponKDD-1989Detroit,Michigan,USA2:130

1991.7WorkshoponKDD-1991Anaheim,California,USA3.5:146

1993.7WorkshoponKDD-1993Washington,USA3:140

1994.7WorkshoponKDD-1994Seattle,Washington,USA

1995.8KDD-1995Montreal,Canada4.5:1340

1996.8KDD-1996Portland,Oregon,USA5:1450

1997.8KDD-1997California,USA6:1600

1998.8KDD-1998NewYork,USA247:68773

1999.8KDD-1999SanDiego,CA,USA280:27600+

2000.8KDD-2000Boston,MA,USA錄用50800+

2001.8KDD-2001SanFrancisco,CA,USA237:3113%900+

2002.7KDD-2002Edmonton,Alberta,Canada307:4414%

2003.8KDD-2003Washington,DC,USA298:4615%

2004.8KDD-2004Seattle,WA,USA384:5414%600-900

2005.8KDD-2005Chicago,Illinois,USA538:10119%600-900

2006.8KDD-2006Philadelphia,PA,USA531:12023%

2007.8KDD-2007SanJose,CA,USA

4、數(shù)據(jù)挖掘系統(tǒng)與產(chǎn)品

要緊的實(shí)驗(yàn)系統(tǒng)有:加拿大SimonFraser大學(xué)”智能數(shù)據(jù)庫系統(tǒng)研

究室〃在97年研制并開發(fā)了數(shù)據(jù)挖掘系統(tǒng)DBMiner;新加坡國立大學(xué)計(jì)算機(jī)

學(xué)院的CBA與IAS;澳大利亞國立大學(xué)研制并開發(fā)了數(shù)據(jù)挖掘系統(tǒng)原型

Dmtools;英國Ulster大學(xué)對數(shù)據(jù)挖掘的應(yīng)用做了許多研究,先后研制過

MIMIC^CERENA>NetModel等系統(tǒng);德國Dortmund大學(xué)在研的項(xiàng)目MiningMart;

美國卡內(nèi)基梅隆大學(xué)自動(dòng)學(xué)習(xí)與發(fā)現(xiàn)中心正在研制數(shù)據(jù)挖掘技術(shù)在制造業(yè)與

多媒體數(shù)據(jù)庫的應(yīng)用。哥倫比亞大學(xué)正在研究入侵檢測系統(tǒng)IDS等等。

要緊的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有:SPSS公司的Clementine、SAS公司的

EnterpriseMiner>IBM公司的IntelligentMiner>SGI公司的Mineset、

Sybase公司的WarehouseStudio、RuleQuestResearch公司的See5、還有

CoverStory>EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest

等。

數(shù)據(jù)挖掘系統(tǒng)大致經(jīng)歷了三個(gè)階段,它們是單算法挖掘工具、數(shù)據(jù)

挖掘算法工具集與數(shù)據(jù)挖掘解決方案。

單算法挖掘工具

在數(shù)據(jù)挖掘技術(shù)進(jìn)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算

法,就形成一個(gè)軟件。這類系統(tǒng)要求用戶對具體的算法與數(shù)據(jù)挖掘技術(shù)有相

當(dāng)?shù)氖煜ぃ€要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作,如C4.5決策樹。

隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,因此數(shù)

據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫與數(shù)據(jù)倉庫結(jié)合是自然的進(jìn)展?,F(xiàn)實(shí)領(lǐng)域的問題是多種

多樣的,一種或者少數(shù)數(shù)據(jù)挖掘算法難以解決,同時(shí),挖掘的數(shù)據(jù)通常不符

合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)

值的模型。1995年左右軟件開發(fā)商開始提供稱之為〃工具集〃的第二代數(shù)據(jù)挖

掘系統(tǒng)[ShapiroOO]。要緊由于在應(yīng)用中發(fā)現(xiàn)用戶需要多種類型的數(shù)據(jù)挖掘

算法,而且大部分精力都花費(fèi)在數(shù)據(jù)清理與預(yù)處理階段。典型的系統(tǒng)有IBM

IntelligentMiner>SPSS的Clementine>SAS的EnterpriseMiner、SGI

的MineSet、OracleDarwin等。此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法

(通常有關(guān)聯(lián)規(guī)則、分類與聚類等),同時(shí)也包含數(shù)據(jù)的轉(zhuǎn)換與可視化。由

于此類工具并非面向特定的應(yīng)用,能夠稱之為橫向的數(shù)據(jù)挖掘工具

(HorizontalDataMingTools)。

數(shù)據(jù)挖掘解決方案

5、數(shù)據(jù)挖掘技術(shù)的應(yīng)用前景

2002年麻省理工學(xué)院的《科技評論》雜志提出未來5年對人類產(chǎn)生

重大影響的10大新興技術(shù),〃數(shù)據(jù)挖掘〃位居第三。

數(shù)據(jù)挖掘應(yīng)用領(lǐng)域非常廣闊先期將在數(shù)據(jù)積存比較充分的領(lǐng)域銀

行、證券、電信等領(lǐng)域到應(yīng)用,以后將在各行各業(yè)各領(lǐng)域中獲得應(yīng)用。只要

數(shù)據(jù)積存充分,就需要數(shù)據(jù)挖掘技術(shù)。

數(shù)據(jù)挖掘技術(shù)將被社會(huì)長期使用隨著信息化工作的深入進(jìn)展,計(jì)算

機(jī)中積存的數(shù)據(jù)只會(huì)越來越多,人們會(huì)越來越重視對這些信息的挖掘利用,

因此對數(shù)據(jù)挖掘技術(shù)的需求也會(huì)越來越大。當(dāng)然,數(shù)據(jù)挖掘技術(shù)本身會(huì)不斷

進(jìn)展進(jìn)步,該技術(shù)將被長期使用。

數(shù)據(jù)挖掘技術(shù)相對門檻較高掌握這門技術(shù)需要有數(shù)理統(tǒng)計(jì)學(xué)、數(shù)據(jù)

庫、人工智能等基礎(chǔ),碩士研究生才可能有這樣的基礎(chǔ),再通過努力學(xué)習(xí)才

可能較好地掌握這門技術(shù),因此目前國內(nèi)數(shù)據(jù)挖掘人才奇缺,從而造成了較

高的技術(shù)門檻。

下圖是數(shù)據(jù)挖掘技術(shù)應(yīng)用開發(fā)的幾個(gè)層次。

我們僅僅以銀行為例來介紹一下數(shù)據(jù)挖掘技術(shù)的應(yīng)用。近年來,在

金融信息化的框架下,銀行業(yè)的信息基礎(chǔ)建設(shè)不斷完善,網(wǎng)絡(luò)平臺(tái)建設(shè)逐步

邁向成熟。依托網(wǎng)絡(luò)平臺(tái),國有商業(yè)銀行加快了實(shí)現(xiàn)數(shù)據(jù)大集中建設(shè)的步伐。

如工商銀行已經(jīng)將該行系統(tǒng)內(nèi)的所有的交易與管理集中在北京與上海兩個(gè)大

中心進(jìn)行。

而接下來金融信息化面臨的任務(wù)就是:在數(shù)據(jù)大集中的基礎(chǔ)上,利

用數(shù)據(jù)挖掘技術(shù)建立起有效的數(shù)據(jù)集成、管理、利用機(jī)制,即建立商業(yè)銀行

數(shù)據(jù)挖掘軟件系統(tǒng),充分挖掘數(shù)據(jù)價(jià)值,為銀行科學(xué)化管理決策與進(jìn)展新的

業(yè)務(wù)服務(wù)。2002年以來,商業(yè)銀行對數(shù)據(jù)挖掘技術(shù)需求的快速升溫,各商業(yè)

銀行相繼將數(shù)據(jù)挖掘應(yīng)用列入近年實(shí)施計(jì)劃,充分說明了這一大趨勢。如交

通銀行已經(jīng)在全行推廣應(yīng)用使用數(shù)據(jù)挖掘技術(shù)的客戶分析系統(tǒng),并擬在其他

業(yè)務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)。

風(fēng)險(xiǎn)管理:識(shí)別、防范與操縱銀行卡申辦與使用過程中的各類風(fēng)險(xiǎn),

其業(yè)務(wù)流程包含客戶檔案的錄入與審核、資信評估與信用操縱、基礎(chǔ)數(shù)據(jù)分

析、為客戶提供分類服務(wù)、透支管理操縱、訴訟、預(yù)警等多個(gè)環(huán)節(jié)。

信用評分:信用評分為貸方提供了準(zhǔn)確的,客觀的風(fēng)險(xiǎn)評估工具,它幫助

許多貸款人來決定這樣的一些問題?!偃缥医o這個(gè)人一項(xiàng)貸款或者者是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論