數(shù)據(jù)挖掘概述課件_第1頁
數(shù)據(jù)挖掘概述課件_第2頁
數(shù)據(jù)挖掘概述課件_第3頁
數(shù)據(jù)挖掘概述課件_第4頁
數(shù)據(jù)挖掘概述課件_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、經(jīng)濟(jì)數(shù)據(jù)挖掘與分析第1章 數(shù)據(jù)挖掘概述1王耀東上海財(cái)經(jīng)大學(xué)第1頁,共93頁。第1章 數(shù)據(jù)挖掘概述21.1 數(shù)據(jù)挖掘定義1.2 數(shù)據(jù)挖掘的重要性及意義1.3 數(shù)據(jù)挖掘功能1.4 數(shù)據(jù)挖掘步驟和標(biāo)準(zhǔn)1.5 數(shù)據(jù)挖掘常用方法1.5.1 數(shù)據(jù)挖掘的對(duì)象1.5.2 數(shù)據(jù)挖掘的常用方法第2頁,共93頁。1.1 數(shù)據(jù)挖掘定義31.1.1 數(shù)據(jù)挖掘的技術(shù)定義1.1.2 數(shù)據(jù)挖掘的商業(yè)定義第3頁,共93頁。1.2 數(shù)據(jù)挖掘的重要性及意義4第4頁,共93頁。1.3 數(shù)據(jù)挖掘功能5第5頁,共93頁。1.4 數(shù)據(jù)挖掘步驟和標(biāo)準(zhǔn)61.4.1 數(shù)據(jù)挖掘步驟1.4.2 數(shù)據(jù)挖掘需要的人員第6頁,共93頁。1.5 數(shù)據(jù)挖掘常

2、用方法71.5.1 數(shù)據(jù)挖掘的對(duì)象1.5.2 數(shù)據(jù)挖掘的常用方法第7頁,共93頁。第1章 數(shù)據(jù)挖掘概述8 1.1 數(shù)據(jù)挖掘定義1.1.1 數(shù)據(jù)挖掘的技術(shù)定義1.1.2 數(shù)據(jù)挖掘的商業(yè)定義1.2 數(shù)據(jù)挖掘的重要性及意義1.3 數(shù)據(jù)挖掘功能第8頁,共93頁。91.4 數(shù)據(jù)挖掘步驟和標(biāo)準(zhǔn) 1.4.1 數(shù)據(jù)挖掘步驟 1.4.2 數(shù)據(jù)挖掘需要的人員1.5 數(shù)據(jù)挖掘常用方法 1.5.1 數(shù)據(jù)挖掘的對(duì)象 1.5.2 數(shù)據(jù)挖掘的常用方法第9頁,共93頁。1.1 前言10 Data Mining的漢語名稱有:數(shù)據(jù)挖掘、數(shù)據(jù)淘金和數(shù)據(jù)采礦,還沒有一個(gè)一致公認(rèn)的譯法,一般還是喜歡用英文Data Mining這個(gè)詞,

3、今后我們常用DM這樣的簡寫來表示,因?yàn)楹茈y找到一個(gè)確切的漢語詞匯與之對(duì)應(yīng)。 第10頁,共93頁。數(shù)據(jù)挖掘11 直觀上說,數(shù)據(jù)挖掘就是要采掘出隱藏在原始數(shù)據(jù)中對(duì)決策有用的信息,為管理和研究服務(wù)。 難怪很多人稱之為數(shù)據(jù)淘金。 第11頁,共93頁。12 數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀(jì)90年代以來,它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒有一個(gè)完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義。第12頁,共93頁。商業(yè)周刊中文版1997年第7期發(fā)表的在原始數(shù)據(jù)中尋找關(guān)系一文 13 關(guān)于數(shù)據(jù)搜索技術(shù)、數(shù)據(jù)倉庫技術(shù),但講的內(nèi)容確是數(shù)據(jù)挖掘在銀行、保險(xiǎn)、電信及超市等方面的具體應(yīng)用問題,并給出了由于進(jìn)

4、行了數(shù)據(jù)挖掘而獲得了巨大回報(bào)的具體案例,如MCI通訊公司,Wal-Mart百貨公司等。 這說明一開始數(shù)據(jù)挖掘就是作為一個(gè)新興的現(xiàn)代技術(shù)出現(xiàn)的。 第13頁,共93頁。數(shù)據(jù)挖掘14 信息技術(shù)的發(fā)展,企業(yè)、政府機(jī)構(gòu)可以很方便地收集到大量的資料。 海量數(shù)據(jù)中確實(shí)隱含著各種各樣的信息,這些信息往往人們憑直覺與經(jīng)驗(yàn)是難于發(fā)現(xiàn)的,而電腦的特點(diǎn)是不怕多、不怕煩,總是可以耐心地仔細(xì)處理,數(shù)據(jù)越多,對(duì)研究目標(biāo)越了解,也就越容易發(fā)現(xiàn)有用的規(guī)律。 數(shù)據(jù)挖掘正是在這種情況下,從一些個(gè)案的處理,克服了許多困難,利用了并行算法、人工智能、統(tǒng)計(jì)分析的技術(shù),綜合成一種新的、能快速處理大量、海量數(shù)據(jù)的技術(shù) 。 第14頁,共93頁

5、。數(shù)據(jù)挖掘15 信息技術(shù)的發(fā)展,企業(yè)、政府機(jī)構(gòu)可以很方便地收集到大量的資料。 海量數(shù)據(jù)中確實(shí)隱含著各種各樣的信息,這些信息往往人們憑直覺與經(jīng)驗(yàn)是難于發(fā)現(xiàn)的,而用電腦的就容易發(fā)現(xiàn)有用的規(guī)律。 數(shù)據(jù)挖掘正是在這種情況下,從一些個(gè)案的處理,克服了許多困難,利用了并行算法、人工智能、統(tǒng)計(jì)分析的技術(shù),綜合成一種新的、能快速處理大量、海量數(shù)據(jù)的技術(shù) 。第15頁,共93頁。1.2 什么是數(shù)據(jù)挖掘16 數(shù)據(jù)挖掘是目前IT行業(yè)發(fā)展最快的產(chǎn)業(yè),并且許多不同領(lǐng)域的專家,如統(tǒng)計(jì)學(xué)家,金融學(xué)家等,對(duì)數(shù)據(jù)挖掘也產(chǎn)生了極大的興趣。 計(jì)算機(jī)技術(shù),統(tǒng)計(jì)分析方法、各類算法及行業(yè)知識(shí)的結(jié)合推動(dòng)了數(shù)據(jù)挖掘技術(shù)的快速發(fā)展。 第16頁,

6、共93頁。Hand et al (2000)的定義 17 Data Mining is the process of seeking interesting of valuable in formation in large databases (數(shù)據(jù)挖掘是在龐大的數(shù)據(jù)庫中找出有意義或有價(jià)值信息的方法) Hand et al (2000), eds. Proc. of the 8th ACM SIGKDD International Workshop on Data Mining and Knowledge Discovery. Dallas: ACM Press. 第17頁,共93頁。Bha

7、vani (1999)的定義18 Data Mining is the process of posing various queries and extractions useful information,patterns,and trends often previously unknown from large quantities of data possibly stored in databases 數(shù)據(jù)挖掘是從儲(chǔ)存在數(shù)據(jù)庫的大量數(shù)據(jù)資料中,設(shè)置盤問,提取以前未知的信息、模式和趨勢的方法。第18頁,共93頁。Bhavani(1999)的定義19 The process of di

8、scovering meaningful new correlation,patterns,and trends by sifting through large amount of stored data,using pattern recognition technologies and statistical and mathematical techniques 數(shù)據(jù)挖掘是從大量儲(chǔ)存的數(shù)據(jù)中,利用模式識(shí)別、統(tǒng)計(jì)和數(shù)學(xué)的技術(shù)、篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢的方法。第19頁,共93頁。Kovalerchuk & Evgenii Vityaev的定義20 These technique

9、s are now applied to discover hidden trends and patterns in financial databases 這些技術(shù)現(xiàn)在用于發(fā)現(xiàn)潛藏在金融數(shù)據(jù)庫中的趨勢與模式 第20頁,共93頁。Berry and Linoff (1997)21分析報(bào)告給你的是后見之明(hindsight);統(tǒng)計(jì)分析給你的是先機(jī)(foresight);數(shù)據(jù)挖掘給你識(shí)見(insight)。 第21頁,共93頁。數(shù)據(jù)挖掘所要處理的問題22 在龐大的數(shù)據(jù)庫中尋找出有價(jià)值的隱藏事件,加以分析,并將這些有意義的信息歸納成結(jié)構(gòu)模式,作為企業(yè)在進(jìn)行決策時(shí)之參考。 數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫的

10、再分析,包括模式的建構(gòu)或是資料特征的判定,其主要目的就是要從數(shù)據(jù)庫中發(fā)現(xiàn)先前關(guān)心卻未曾獲悉的有價(jià)值信息(Hand,1998)。 事實(shí)上,數(shù)據(jù)挖掘并不只是一種技術(shù)或是一套軟件,而是數(shù)種專業(yè)技術(shù)的綜合應(yīng)用。 第22頁,共93頁。數(shù)據(jù)挖掘找尋隱藏在資料中的信息23趨勢(Trend)特征(Pattern)關(guān)系(Relationship)的過程,第23頁,共93頁。從資料中發(fā)掘信息或知識(shí)(有人稱為Knowledge Discovery in Databases,KDD)24“資料考古學(xué)”(Data Archaeology)“資料模式分析”(Data Pattern Analysis)“功能相依分析”(F

11、unctional Dependency Analysis),第24頁,共93頁。數(shù)據(jù)挖掘25 目前已被許多研究人員視為結(jié)合數(shù)據(jù)庫系統(tǒng)與機(jī)器學(xué)習(xí)技術(shù)的重要領(lǐng)域,許多產(chǎn)業(yè)界人士也認(rèn)為此領(lǐng)域是一項(xiàng)能增加企業(yè)潛能的重要途徑。 這一領(lǐng)域蓬勃發(fā)展的原因是因?yàn)楝F(xiàn)代的企業(yè)已搜集了大量資料,包括市場、客戶、供貨商、競爭對(duì)手以及未來趨勢等重要信息,但是數(shù)據(jù)的超載與無結(jié)構(gòu)化,使得企業(yè)決策單位無法有效利用現(xiàn)存的資料,甚至?xí)箾Q策行為產(chǎn)生混亂與誤用。 如果能通過數(shù)據(jù)挖掘技術(shù),從巨量的數(shù)據(jù)庫中,采掘出不同的信息與知識(shí)出來,作為決策支持之用,就一定能成為企業(yè)競爭的優(yōu)勢。 第25頁,共93頁。數(shù)據(jù)挖掘的軟件工具26 有些銷

12、售得還相當(dāng)火爆,但是,對(duì)于這種數(shù)據(jù)挖掘的產(chǎn)品應(yīng)該有一個(gè)正確的認(rèn)識(shí),就是它不是一個(gè)無所不能的魔法。 它不是在那邊監(jiān)視你的資料的狀況,然后告訴你說你的數(shù)據(jù)庫里發(fā)生了某種特別的現(xiàn)象。 也不是說有了數(shù)據(jù)挖掘的工具,就連不了解業(yè)務(wù)、不了解資料所代表的意義、或是不了解統(tǒng)計(jì)原理的人也可以做數(shù)據(jù)挖掘。 數(shù)據(jù)挖掘所采掘出來的信息,也不是你可以不經(jīng)確認(rèn),就可以照單全收應(yīng)用到業(yè)務(wù)上的。 事實(shí)上,數(shù)據(jù)挖掘工具是用來幫助業(yè)務(wù)分析策畫人員從資料中發(fā)掘出各種假設(shè)(Hypothesis),但是它并不幫你確認(rèn)(Verify)這些假設(shè),也不幫你判斷這些假設(shè)對(duì)你是否真有價(jià)值。 第26頁,共93頁。數(shù)據(jù)挖掘使用的分析方法27預(yù)測模型

13、(回歸、時(shí)間序列)數(shù)據(jù)庫分割(Database Segmentation)連接分析(Link Analysis)偏差偵測(Deviation Detection)第27頁,共93頁。28 美國政府從第二次世界大戰(zhàn)以前,就在人口普查以及軍事方面使用過。 近幾年來,隨著信息科技超乎想象的發(fā)展,新工具的出現(xiàn)。 第28頁,共93頁。新工具29關(guān)系式數(shù)據(jù)庫對(duì)象導(dǎo)向數(shù)據(jù)庫柔性計(jì)算理論(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)人工智能的應(yīng)用(如知識(shí)工程、專家系統(tǒng))網(wǎng)絡(luò)通訊技術(shù)的發(fā)展 第29頁,共93頁。30 使從資料堆中采掘?qū)毑?/p>

14、,常常能超越歸納的關(guān)系,使數(shù)據(jù)挖掘成為企業(yè)智能的一部份。第30頁,共93頁。31 數(shù)據(jù)挖掘和統(tǒng)計(jì)分析是有不同的。其實(shí)數(shù)據(jù)挖掘技術(shù)中的CART、CHAD或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,數(shù)據(jù)挖掘有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。 第31頁,共93頁。數(shù)據(jù)挖掘有下列幾項(xiàng)特性32 目標(biāo)是海量數(shù)據(jù)的處理,不是一般意義上的統(tǒng)計(jì)分析; 分析的任務(wù)是找出特征、規(guī)律、聯(lián)系,而不是驗(yàn)證; 必須多種技術(shù)結(jié)合,而不只是統(tǒng)計(jì)分析。 第32頁,共93頁。1.3 數(shù)據(jù)挖掘綜合的技術(shù)領(lǐng)域33Database systems,Data Warehouses,OLAPParalle

15、l ProcessingMachine learningVisualizationStatistical and data analysis methodsMathematical programmingHigh performance computingDecision support 第33頁,共93頁。34第34頁,共93頁。 統(tǒng)計(jì)分析研究35 除了將許多的統(tǒng)計(jì)及數(shù)據(jù)分析方法用于數(shù)據(jù)挖掘以外 還將統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法結(jié)合在一起,為數(shù)據(jù)挖掘發(fā)展更復(fù)雜的統(tǒng)計(jì)分析工具(現(xiàn)在,許多的統(tǒng)計(jì)分析軟件都有市場化的數(shù)據(jù)挖掘工具產(chǎn)品)。 機(jī)器學(xué)習(xí)的概念是讓機(jī)器從已觀測到的模式中學(xué)習(xí)各種各樣的規(guī)則,然后再

16、用這些規(guī)則來解決問題。 數(shù)據(jù)挖掘通常面臨的是海量的數(shù)據(jù),所以,進(jìn)行數(shù)據(jù)挖掘工作時(shí),必須將數(shù)據(jù)庫管理與機(jī)器學(xué)習(xí)技術(shù)結(jié)合起來應(yīng)用。 第35頁,共93頁。計(jì)算機(jī)可視化技術(shù)36 利用計(jì)算機(jī)可視化技術(shù),可以進(jìn)行交互式數(shù)據(jù)挖掘工作。 第36頁,共93頁。決策支持系統(tǒng)37 決策支持系統(tǒng)是一系列工具和過程,用來幫助管理者進(jìn)行決策并指導(dǎo)他們進(jìn)行管理。 第37頁,共93頁。數(shù)學(xué)規(guī)劃和高性能計(jì)算方法38 利用數(shù)學(xué)規(guī)劃和高性能計(jì)算方法發(fā)展的技術(shù)能使得數(shù)據(jù)挖掘算法順利實(shí)現(xiàn)。當(dāng)然,有了高性能的硬件會(huì)更好。 第38頁,共93頁。數(shù)據(jù)挖掘的發(fā)展39 數(shù)據(jù)挖掘正在不斷發(fā)展,別的技術(shù)也不時(shí)地對(duì)數(shù)據(jù)挖掘產(chǎn)生影響。第39頁,共93頁

17、。新技術(shù)40協(xié)作代理分布式目標(biāo)管理技術(shù)等。第40頁,共93頁。1.4 數(shù)據(jù)挖掘的功能41 分類(classification) 估計(jì)與預(yù)測(Estimation and Prediction) 聚類(Clustering) 關(guān)聯(lián)(Association)和序列發(fā)現(xiàn) (Sequence Discovery) 描述(Description),第41頁,共93頁。數(shù)據(jù)挖掘的功能42 這些功能大都可以用成熟的計(jì)量及統(tǒng)計(jì)分析方法來實(shí)現(xiàn) ,第42頁,共93頁。1分類(Classification)43 所謂分類,就是按照分析對(duì)象的屬性,建立類組(class)。它根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。

18、(計(jì)算的結(jié)果最后會(huì)是幾個(gè)少數(shù)離散值,然后按不同值分類,例如將一組資料分為“可能會(huì)響應(yīng)”或是“可能不會(huì)響應(yīng)”兩類)。第43頁,共93頁。分類44 分類常常被用來處理郵寄對(duì)象篩選的問題。我們會(huì)用一些已經(jīng)分好類的資料來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。 這些我們用來尋找特征的已分類資料可能是來自我們的現(xiàn)有的歷史性資料,或是將一個(gè)完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測試第44頁,共93頁。分類例子45 譬如利用一個(gè)大的郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)分類模型(Classification Model),以后再利用這個(gè)模型來對(duì)數(shù)據(jù)庫的其它資料或是新的資料作預(yù)測。

19、例如,將信用申請(qǐng)者的風(fēng)險(xiǎn)屬性,區(qū)分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者及低度風(fēng)險(xiǎn)申請(qǐng)者。使用的技術(shù)有決策樹(decision tree),記憶基礎(chǔ)推理(memory-based reasoning)等。 第45頁,共93頁。2聚類(clustering) 46面對(duì)海量的資料首要的任務(wù)是將它合理地歸類。如果已知要求,于是對(duì)資料可以設(shè)問,按回答的不同給予分類,這就是上面所說的分類。如果事先沒有任何要求,象全國各地環(huán)境監(jiān)測的資料,就只能按資料反映的情況,比較接近的劃歸一類,這種歸類的方法稱之為聚類(clustering)。第46頁,共93頁。聚類47 聚類分析的算法往往按距離的遠(yuǎn)近來歸類,也可以按相似程

20、度的大小來歸類。只有合理地聚類后,每一類內(nèi)就可以找出有關(guān)的特征,否則是難于發(fā)現(xiàn)真正有用的信息。第47頁,共93頁。聚類48 很自然,不同類型的問題可以給出不同的聚類原則,從而找到不同的特征。例如世界上的居民可以按民族歸類,可以按膚色歸類,可以按國家歸類,也可以按宗教信仰歸類,這些不同的聚類原則自然會(huì)找出不同的特征。第48頁,共93頁。3估計(jì)與預(yù)測(Estimation and Prediction) 49 估計(jì)(estimation)是根據(jù)已有的長期累積的資料來推測某一屬性未知的真值。 例如按照信用卡申請(qǐng)者的教育程度、行為和性別來推估其信用卡的消費(fèi)量。 使用的技巧包括統(tǒng)計(jì)方法中的相關(guān)分析、回歸

21、分析及人工神經(jīng)網(wǎng)絡(luò)方法。第49頁,共93頁。估計(jì)與預(yù)測50 預(yù)測(prediction)是根據(jù)對(duì)象屬性之過去觀察值來估計(jì)該屬性未來之值。 例如,由顧客過去的刷卡消費(fèi)量來預(yù)測其未來刷卡消費(fèi)量。使用的技巧包括回歸分析、時(shí)間序列分析及人工神經(jīng)網(wǎng)絡(luò)方法等。 第50頁,共93頁?;貧w51 回歸是使用一系列的現(xiàn)有數(shù)值來預(yù)測一個(gè)定量指標(biāo)的可能值。若將范圍擴(kuò)大亦可利用邏輯斯蒂回歸(Logistic Regression)來預(yù)測定性變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如人工神經(jīng)網(wǎng)絡(luò)或決策樹理論等工具,預(yù)測的模式已不受傳統(tǒng)線性的局限,在預(yù)測的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。 第51頁,共93頁。時(shí)間序

22、列預(yù)測52 時(shí)間序列預(yù)測是用指標(biāo)本身現(xiàn)有的歷史數(shù)值來預(yù)測未來的數(shù)值。 Time-Series Forecasting的特點(diǎn)在于它所分析的數(shù)值都與時(shí)間有關(guān),可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的階段性(例如每個(gè)禮拜五個(gè)或六個(gè)工作天)、季節(jié)性、節(jié)日、以及其它的一些特別因素如過去與未來的關(guān)連性有多少等等。 第52頁,共93頁。4關(guān)聯(lián)(Association)和序列發(fā)現(xiàn)(Sequence Discovery)53 關(guān)聯(lián)是要找出在某一事件或是資料中會(huì)同時(shí)出現(xiàn)的東西。關(guān)聯(lián)(Association)主要是要找出下面這樣的信息:如果A是某一事件的一部份,則B也出現(xiàn)在該事件中的機(jī)率有X。第53頁,共93頁。關(guān)聯(lián)

23、和序列發(fā)現(xiàn)54例如:如果一個(gè)顧客買了低脂乳酪,那么這個(gè)顧客同時(shí)也買低脂牛奶的機(jī)率是85。確定那些相關(guān)對(duì)象應(yīng)該放在一起。例如超市中相關(guān)之盥洗用品(牙刷、牙膏和牙線),放在同一間貨架上。在客戶行銷系統(tǒng)上,此種功能可以用來確認(rèn)交叉銷售(cross-selling)的機(jī)會(huì),以設(shè)計(jì)出吸引人的產(chǎn)品群組。 第54頁,共93頁。序列發(fā)現(xiàn)(Sequence Discovery)與關(guān)聯(lián)(Association)關(guān)系55 序列發(fā)現(xiàn)(Sequence Discovery)與關(guān)聯(lián)(Association)關(guān)系很密切,所不同的是序列發(fā)現(xiàn)(Sequence Discovery)中相關(guān)的對(duì)象是以時(shí)間區(qū)分開來例如:如果做了X手

24、術(shù),則Y病菌在手術(shù)后感染的機(jī)率是45。例如:如果A股票在某一天上漲12,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是68)。 第55頁,共93頁。5 描述(Description)56 描述的功能是對(duì)復(fù)雜的數(shù)據(jù)庫提供簡要的描述。最簡單的例子就是變量的均值和方差。 這個(gè)功能的主要目的是為了在使用別的功能時(shí)對(duì)數(shù)據(jù)先有較好的了解。 在建立任何模型之前先做數(shù)據(jù)描述的工作是十分重要的,因?yàn)檫@會(huì)告訴我們?cè)鯓尤ソ?。?6頁,共93頁。描述57 許多的商業(yè)數(shù)據(jù)挖掘軟件包也提供有用的畫圖軟件來幫你對(duì)數(shù)據(jù)作可視化處理。 另外,經(jīng)理們經(jīng)常使用更加復(fù)雜的采掘工具(比如market basket anal

25、ysis,tree-based models)來更好地理解數(shù)據(jù)和開發(fā)模型。第57頁,共93頁。實(shí)現(xiàn)數(shù)據(jù)挖掘的方法一些統(tǒng)計(jì)分析方法58回歸分析時(shí)間序列判別分析因子分析聚類分析第58頁,共93頁。實(shí)現(xiàn)數(shù)據(jù)挖掘的方法59粗集(rough set)模糊邏輯(fuzzy logic)人工神經(jīng)網(wǎng)絡(luò)(Neural Network)決策樹理論(Decision Trees)規(guī)則歸納法(Rules Induction)為基礎(chǔ)的方法等第59頁,共93頁。表1.4.1 數(shù)據(jù)挖掘功能及常用的工具舉例功 能采掘工具舉例應(yīng)用舉例ClassificationNeural networks, logistic regress

26、ion, tree-based models, decision tree, memory-based reasoningMailing decisions,target marketing,credit decisionsClusteringNeural networks, multivariate statistics,SegmentationEstimation andPredictionLinear and nonlinear regression, neural networks, hazard models, collaborative filteringCustomer scor

27、ning,sales forecasting, customer service, various marketing decision models,AssociationMarket basket analysis, set theory, link analysisPromotion design,shelf space allocation,DescriptionTraditional statistics,market basket analysis,tree-basedmodelsExploratory data analysis60第60頁,共93頁。1.5 數(shù)據(jù)挖掘的應(yīng)用國際上

28、數(shù)據(jù)挖掘應(yīng)用的行業(yè)包括61金融業(yè)電信業(yè)網(wǎng)絡(luò)相關(guān)行業(yè)零售商制造業(yè)醫(yī)療保健制藥業(yè)第61頁,共93頁。數(shù)據(jù)挖掘行業(yè)應(yīng)用分類 62 綜合General 銀行業(yè)保險(xiǎn)與保健行業(yè)電信行業(yè)零售行銷行業(yè)Manufacturing and Utilities(制造業(yè)和公用事業(yè))第62頁,共93頁。 綜合General 63 客戶分類(Customer Segmentation) RetentionAcquisition Database marketing Lifetime value of a customer Cross selling 第63頁,共93頁。 銀行業(yè)64 Banking Credit scor

29、ing Credit Card Fraud Detection Portfolio Analysis Cash Planning 第64頁,共93頁。保險(xiǎn)與保健行業(yè)65 Insurance & Health Care Claim Analysis Fraudulent Behavior第65頁,共93頁。電信行業(yè)66 Telecommunications Call Behaviour Analysis Churn Management Fraud Detection 第66頁,共93頁。零售行銷行業(yè)67 Retail/Marketing Market Basket Analysis Categ

30、ory Management Credit Scoring 第67頁,共93頁。Manufacturing and Utilities(制造業(yè)和公用事業(yè))68 Process Management Demand Patterns Capacity Planning Inventory Planning 第68頁,共93頁。表1.5.1 數(shù)據(jù)挖掘應(yīng)用領(lǐng)域分類表Applications of 數(shù)據(jù)挖掘Customer-focusedOperations-focusedCustomer-focusedLife-time ValueMarket-Basket AnalysisProfiling & S

31、egmentationRetentionTarget MarketAcquisitionKnowledge PortalCross- SellingCampaign ManagementE- CommerceProfitability AnalysisPricingFraud DetectionRisk AssessmentPortfolio ManagementEmployee TurnoverCash ManagementProduction EfficiencyNetwork PerformanceNetwork PerformanceManufacturing ProcessesCom

32、binatorial ChemistryGenetic ResearchEpidemiology69第69頁,共93頁。數(shù)據(jù)挖掘應(yīng)用目前國外企業(yè)界把數(shù)據(jù)挖掘應(yīng)用在許多領(lǐng)域70行銷財(cái)務(wù)銀行制造廠通訊第70頁,共93頁。數(shù)據(jù)挖掘應(yīng)用71 在產(chǎn)學(xué)合作下,發(fā)展出許多實(shí)用的系統(tǒng),例如MDT、Cover story and Spotlight、Nich Work visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。第71頁,共93頁。應(yīng)用在行銷領(lǐng)域的例子72 經(jīng)由記錄客戶的消費(fèi)記錄與采購路線,超級(jí)市場可以設(shè)計(jì)出更吸引顧客購買的環(huán)境。根據(jù)數(shù)據(jù)挖掘出來的信息,現(xiàn)

33、在超級(jí)市場的廚房用品,是按照女性的視線高度來擺放。 根據(jù)研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。 第72頁,共93頁。73 在商業(yè)上,有許多特征是很難理解的,但若了解到這些信息,就會(huì)增加企業(yè)的競爭能力。 第73頁,共93頁。一般行銷部門較典型的問題74 除了已經(jīng)購買的產(chǎn)品外,我的客戶還可能購買哪些產(chǎn)品?我的最有價(jià)值客戶中,他們的共通特征為何?當(dāng)我的客戶有可能轉(zhuǎn)向其它競爭同業(yè)時(shí),哪些變量能測量出這樣的信息?第74頁,共93頁。國外企業(yè)界實(shí)際發(fā)展數(shù)據(jù)挖掘時(shí),效能并不能預(yù)期,因?yàn)?/p>

34、有許多因素影響著75不充足的教育訓(xùn)練不適當(dāng)?shù)闹С止ぞ哔Y料的無效性過于豐富的模式(patterns)易變與具有時(shí)間性資料空間導(dǎo)向資料(spatially oriented data)復(fù)雜的資料結(jié)構(gòu)資料的可度量性(scalability)等。 第75頁,共93頁。復(fù)雜性76這說明資料與知識(shí)的發(fā)掘是一項(xiàng)信息技術(shù)程度很高的工作,面對(duì)易變的環(huán)境,沒有現(xiàn)成的模型馬上可用,也不要期望按一定的計(jì)算程序即能成功。第76頁,共93頁。潛在的因素77 我們要認(rèn)識(shí)到一些潛在的因素資料取舍實(shí)體關(guān)系性數(shù)量多寡復(fù)雜性數(shù)據(jù)質(zhì)量變遷專家意見第77頁,共93頁。數(shù)據(jù)挖掘應(yīng)用廣泛78 數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有

35、具分析價(jià)值的數(shù)據(jù)倉庫或數(shù)據(jù)庫,就可利用挖掘工具進(jìn)行有目的的分析。 第78頁,共93頁。數(shù)據(jù)挖掘應(yīng)用廣泛國外一般較常見的應(yīng)用案例79零售業(yè)直銷界制造業(yè)財(cái)務(wù)金融保險(xiǎn)通訊業(yè)以及醫(yī)療服務(wù) 第79頁,共93頁。數(shù)據(jù)挖掘的三個(gè)應(yīng)用方式80Customer ProfilingTargeted MarketingMarket-Basket Analysis。 第80頁,共93頁。Customer Profiling81即如何獲得新顧客?我們希望找出客戶的一些共同的特征,希望能藉此預(yù)測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對(duì)象。數(shù)據(jù)挖掘可以從現(xiàn)有客戶資料中找出他們的特征,再利用這些特征到潛在客戶

36、數(shù)據(jù)庫里去篩選出可能成為我們客戶的名單,作為行銷人員推銷的對(duì)象。行銷人員就可以針對(duì)這些名單寄發(fā)廣告資料,既可以降低成本,又提高了行銷的成功率。 第81頁,共93頁。Market-Basket Analysis82主要是用來幫助零售業(yè)者了解客戶的消費(fèi)行為,即如何增加顧客的消費(fèi)額?譬如哪些產(chǎn)品客戶會(huì)一起購買,或是客戶在買了某一樣產(chǎn)品之后,在多長時(shí)間之內(nèi)可能購買另一產(chǎn)品等等,利用關(guān)聯(lián)性產(chǎn)品銷售(cross-selling)和連貫性銷售(Continuity-Selling)方法,來提高客戶的終生價(jià)值(Live Time Value)。利用數(shù)據(jù)挖掘,零售業(yè)者可以更有效的決定進(jìn)貨量、庫存量,以及在店里要

37、如何擺設(shè)貨品,同時(shí)也可以用來評(píng)估店里促銷活動(dòng)的成效。 第82頁,共93頁。客戶關(guān)系管理83客戶關(guān)系管理是數(shù)據(jù)挖掘的另一個(gè)常見的應(yīng)用方式,即如何留住他們?我們可以由一些原本是我們的客戶,后來卻轉(zhuǎn)向成為我們競爭對(duì)手的客戶,分析他們的特征,再根據(jù)這些特征到現(xiàn)有客戶資料中找出有可能轉(zhuǎn)向的客戶,然后公司必須設(shè)計(jì)一些方法將他們留住,因?yàn)楫吘拐乙粋€(gè)新客戶的成本要比留住一個(gè)原有客戶的成本要高出許多。 第83頁,共93頁。銷售資料中挖掘顧客的消費(fèi)習(xí)性84 在銷售資料中挖掘顧客的消費(fèi)習(xí)性,很容易由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合,還可找出流失顧客的特征,確定推出新產(chǎn)品的時(shí)機(jī)點(diǎn),還可結(jié)合基本資料,并依品牌價(jià)值等級(jí)的高低來區(qū)分顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)數(shù)據(jù)挖掘的需求多運(yùn)用在質(zhì)量管理方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,來提高作業(yè)流程的效率。 第84頁,共93頁。數(shù)據(jù)挖掘應(yīng)用85近來國外的電話公司、信用卡公司、保險(xiǎn)公司、股票交易商、以及政府單位對(duì)于詐欺行為的偵查(Fraud Detection)比較關(guān)注,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非??捎^。數(shù)據(jù)挖掘可以從一些信用不良的客戶資料中找出相似特征并預(yù)測可能的詐欺交易,從而達(dá)到減少損失的目的。第85頁,共93頁。數(shù)據(jù)挖掘應(yīng)用86財(cái)務(wù)金融業(yè)可以利用數(shù)據(jù)挖掘來分析市場動(dòng)向,并預(yù)測個(gè)別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論