數(shù)據(jù)挖掘與決策支持(1)_第1頁
數(shù)據(jù)挖掘與決策支持(1)_第2頁
數(shù)據(jù)挖掘與決策支持(1)_第3頁
數(shù)據(jù)挖掘與決策支持(1)_第4頁
數(shù)據(jù)挖掘與決策支持(1)_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘與決策支持?jǐn)?shù)據(jù)挖掘與決策支持課程目標(biāo)1. 數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展2. 數(shù)據(jù)挖掘與企業(yè)決策支持的關(guān)系3. 數(shù)據(jù)挖掘的一些基本工具與算法4. 數(shù)據(jù)挖掘流程5. 數(shù)據(jù)挖掘軟件1.數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展數(shù)據(jù)?數(shù)據(jù)挖掘技術(shù)的由來從技術(shù)的角度來看:數(shù)據(jù)挖掘被稱為繼網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn);從生產(chǎn)的角度來看:由于人工費(fèi)用提升,產(chǎn)品和服務(wù)成本降低,管理和服務(wù)過程的信息化是必然的。從數(shù)據(jù)的管理和利用來看:單純的存取功能不再適應(yīng),待管理的數(shù)據(jù)量正在以指數(shù)增長。 紐約時(shí)報(bào)由60年代的1020版擴(kuò)張至現(xiàn)在的100200版,最高曾達(dá)1572版;北京青年報(bào)也已是1648版; 國家圖書館有1000萬冊圖書,一個(gè)公司就可

2、能擁有這些數(shù)據(jù); 統(tǒng)計(jì)流程控制通過成千上萬個(gè)傳感器不斷讀取和記錄數(shù)據(jù); 電話系統(tǒng),網(wǎng)絡(luò)系統(tǒng)一個(gè)月的記錄可能需要1012條記錄超過1000gigabyte 。 數(shù)據(jù)的突出特點(diǎn)產(chǎn)生的問題信息過量;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理。進(jìn)化階段商業(yè)商業(yè)問題問題支持支持技術(shù)技術(shù)產(chǎn)品產(chǎn)品廠家廠家產(chǎn)品產(chǎn)品特點(diǎn)特點(diǎn)數(shù)據(jù)搜集(60年代)“ 過 去 十年 中 企 業(yè)的 總 收 入是多少?”計(jì) 算 機(jī) 、磁 帶 和 磁盤IBM,CDC提 供 歷 史性 的 、 靜態(tài) 的 數(shù) 據(jù)信息數(shù)據(jù)訪問(80年代)“廣州分公司去年三月的銷售額是多少?”關(guān) 系 數(shù) 據(jù)庫RDBMS,結(jié) 構(gòu) 化 查詢語言S

3、QL)ODBCOracle、Sybase、Informix、I B M 、Microsoft在 記 錄 級提 供 歷 史性 的 、 動態(tài) 數(shù) 據(jù) 信息數(shù)據(jù)倉庫;決策支持(90年代)“去年三月深圳的銷售是多少?廣州據(jù)此可得出 什 么 結(jié)論?”聯(lián) 機(jī) 分 析處理OLAP多 維 數(shù) 據(jù)庫 、 數(shù) 據(jù)倉庫P i l o t 、Comshare、A r b o r 、Cognos、Microstrategy在 各 種 層次 上 提 供回 溯 的 、動 態(tài) 的 數(shù)據(jù)信息數(shù)據(jù)挖掘正在流行“下個(gè)月廣州的銷售會怎么樣?為什么?”高級算法、多 處 理 器計(jì) 算 機(jī) 、海 量 數(shù) 據(jù)庫P i l o t 、Lock

4、heed、IBM、SGI、其 他 初 創(chuàng)公司預(yù)測模式數(shù)據(jù)挖掘的演變過程機(jī)器學(xué)習(xí)類神經(jīng)網(wǎng)絡(luò)知識發(fā)現(xiàn)數(shù)據(jù)挖掘60年代年代70年代年代80年代年代90年代年代數(shù)據(jù)可以產(chǎn)生商業(yè)價(jià)值可以想象在老年雜志上登載怎樣的廣告?如何防止信用卡盜用?地質(zhì)采礦嬰兒紙尿布和啤酒的故事數(shù)據(jù)挖掘的定義. Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.Fayyad. Dataminingistheprocessofextractingpr

5、eviouslyunknown,comprehensible,andactionableinformationformlargedatabasesandusingittomakecrucialbusinessdecisions.Zekulin遠(yuǎn)古至今即存在數(shù)據(jù)挖掘月暈知風(fēng)晚上起霧第二天晴天看到媽媽拿鞭子逃跑這些在我們的傳統(tǒng)用法稱之為:經(jīng)驗(yàn)法則-數(shù)據(jù)挖掘的功能 分類:DecisionTree,NeuralNetworketc.推估:Regression&NeuralNetworketc.預(yù)測:DecisionTree,NeuralNetworketc.關(guān)聯(lián)分組:GRI,Aprioriet

6、c.聚類:K-means&KohonenNetwork需要數(shù)據(jù)挖掘的5條理由 Largenumberofrecords(cases)(108-1012bytes) Highdimensionaldata(variables)(10-104attributes) Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed. Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthe

7、futuremaybemissing. Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).數(shù)據(jù)挖掘的重要性 Technology Review雜志2002年公布改變未來的十項(xiàng)新興趨勢:1.機(jī)器與人腦的接口 2.塑料晶體管 3.數(shù)據(jù)挖掘數(shù)據(jù)挖掘( (Data mining)Data mining) 4.數(shù)字權(quán)利管理 5.生物測量學(xué)(Biometrics) 6.語音識別處理 7.微光學(xué)技術(shù)(Microphotonics) 8.破解程序代碼(Untangling code) 9.機(jī)器人設(shè)計(jì) 10.微應(yīng)用流體學(xué)

8、(Microfluidics) 數(shù)據(jù)挖掘與數(shù)據(jù)查詢表面知識(ShallowKnowledge):可以利用數(shù)據(jù)庫查詢語言找到 所有使用信用卡購買烤箱的某大型商場的客戶列表。多維的知識(Multidimensionalknowledge):多表的連接操作 跨國電信公司的客戶呼叫模式分析:話費(fèi)清單,客戶帳戶數(shù)據(jù)等。隱藏的知識(Hiddenknowledge) 將不良風(fēng)險(xiǎn)的人和能按時(shí)還貸的人區(qū)分開來。地下知識(Deepknowledge)電信公司的長話業(yè)務(wù)數(shù)據(jù)分布數(shù)據(jù)挖掘與專家系統(tǒng)數(shù)據(jù)挖掘并不總是有效,特別沒有優(yōu)質(zhì)的數(shù)據(jù)來源,數(shù)據(jù)挖掘可以被由一個(gè)或多個(gè)模仿專家解決問題的程序部分代替。專家系統(tǒng)數(shù)據(jù)數(shù)據(jù)挖

9、掘工具知識,規(guī)則2.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)數(shù)據(jù)挖掘挖掘客戶分析析基分因其他其他保險(xiǎn)客戶保險(xiǎn)客戶證券客戶證券客戶銀行客戶銀行客戶電信客戶電信客戶零售客戶零售客戶信用卡信用卡儲蓄卡儲蓄卡存折存折按揭按揭借貸借貸人類基因植物基因動物基因特殊群體基因基因序列基因序列基因表達(dá)譜基因表達(dá)譜基因功能基因功能基因制藥基因制藥 .科學(xué)研究天文學(xué):SKICAT基因工程:GRAIL,GeneID,Geneparser人類基因植物基因動物基因特殊群體基因基因序列基因序列基因表達(dá)譜基因表達(dá)譜基因功能基因功能基因制藥基因制藥 .商業(yè)領(lǐng)域的數(shù)據(jù)挖掘作為研發(fā)工具:制藥業(yè) predicttheeffectivenessofsurg

10、icalprocedure medicaltest medication改進(jìn)生產(chǎn)過程:6市場營銷.客戶關(guān)系管理.金融投資欺詐甄別Established LoyalsShare of customersShare of profits3%8%Developing Loyals IDeveloping Loyals IIBorrowing PotentialsCardbillMultiple account holding is commonLong relationship timeHigh transaction activitiesHigh phone banking usageShare

11、of customersShare of profits9%44%Highest asset balance across segments25% of segment has high bank assets Liabilities lowShare of customersShare of profits12%13%Highest level of multiple deposit account holdingAverage account balance very highMean age is 45Share of customersShare of profits10%12%All

12、 hold credit cardsMost have loans in small amountsDeposit balance low客戶細(xì)分Web挖掘文檔的自動分類幫助尋找用戶感興趣的新聞設(shè)計(jì)電子新聞和垃圾郵件過濾系統(tǒng)市場營銷數(shù)據(jù)挖掘與決策支持業(yè)務(wù)數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)交易數(shù)據(jù)交易數(shù)據(jù)外部數(shù)據(jù)外部數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫倉庫決策支持系統(tǒng)決策支持系統(tǒng)MarketingPhoneCentersalesIVR(MDBMS)數(shù)據(jù)分析顧客分析顧客分析行銷管理行銷管理挑選客戶名冊挑選客戶名冊產(chǎn)品分析產(chǎn)品分析應(yīng)用系統(tǒng)應(yīng)用系統(tǒng)客服行銷客服行銷3.數(shù)據(jù)挖掘的流程(6步法)如何定義有興趣的模式從人口數(shù)據(jù)庫中很容易得到如下的知

13、識或規(guī)則:如果“某人的家庭角色是丈夫”=“此人的性別是男性”;Datamining=“garbagein,garbageout”?數(shù)據(jù)挖掘流程與美食制作蘆筍百合蘆筍百合六步之一:商業(yè)理解商業(yè)目標(biāo)問題范圍可能的解決方案以及各自的優(yōu)缺點(diǎn)花費(fèi)時(shí)間:花費(fèi)時(shí)間:20%30%20%30%重要性重要性: :企業(yè)問題匯總 問題 說明 目標(biāo)/困難 BQ1 如何有效降低客戶流失率 ? 原有客戶于優(yōu)惠期滿或合約到期后不再續(xù)約。 希望月流失率由 3%降低至 1.5% 。 BQ2 如何提升客戶服務(wù)品質(zhì) ? 1. 客戶滿意度調(diào)查反映本公司服務(wù)品質(zhì)有待提升 2. 業(yè)務(wù)及客服人員無法有效掌握客戶信息 1. 希望將客戶分級,以

14、使提供個(gè)別化及差異性服務(wù)。 2. 建議建立電話客服中心(Call Center) 。 3. 建議導(dǎo)入客戶關(guān)系管理系統(tǒng)(CRM) 。 電信行業(yè)幾個(gè)重要的營銷問題:個(gè)別消費(fèi)者通話模式高利潤的服務(wù)六步之二:數(shù)據(jù)理解數(shù)據(jù)概念描述(格式等);收集數(shù)據(jù);數(shù)據(jù)探索性研究;花費(fèi)時(shí)間:花費(fèi)時(shí)間:20%30%20%30%重要性重要性: :通話明細(xì)數(shù)據(jù)可以從以下幾個(gè)渠道獲得:通話明細(xì)數(shù)據(jù)可以從以下幾個(gè)渠道獲得: 直接交換機(jī)記錄直接交換機(jī)記錄( (direct switch recording) direct switch recording) 計(jì)費(fèi)系統(tǒng)的輸入數(shù)據(jù)計(jì)費(fèi)系統(tǒng)的輸入數(shù)據(jù)( (inputs into the

15、 billing inputs into the billing system)system)。 數(shù)據(jù)倉儲提供的基礎(chǔ)數(shù)據(jù)數(shù)據(jù)倉儲提供的基礎(chǔ)數(shù)據(jù)( (Data warehouse feeds)Data warehouse feeds)。 其他有關(guān)客戶的數(shù)據(jù)其他有關(guān)客戶的數(shù)據(jù)六步之三:數(shù)據(jù)準(zhǔn)備花費(fèi)時(shí)間:花費(fèi)時(shí)間:50%70%50%70%重要性重要性: :數(shù)據(jù)清理;數(shù)據(jù)轉(zhuǎn)換;數(shù)據(jù)整合;格式化數(shù)據(jù)六步之四:建立模型與模式數(shù)據(jù)的描述與匯總細(xì)分分類預(yù)測關(guān)聯(lián)更深層次的問題是:哪些客戶對價(jià)格比價(jià)敏感有監(jiān)督的數(shù)據(jù)挖掘(學(xué)習(xí)) 用歸納形成概念模型,使用模型幫助區(qū)分結(jié)構(gòu)相似的對象。這類學(xué)習(xí)稱為基于歸納的有指導(dǎo)的概念

16、學(xué)習(xí)(supervised learning)有監(jiān)督的數(shù)據(jù)挖掘模型例根據(jù)歷史行銷記錄,推測誰最有可能對我們下一次推薦產(chǎn)品做出響應(yīng)。根據(jù)經(jīng)驗(yàn),最合適的醫(yī)療處方是什么?下一個(gè)最有可能被淘汰的機(jī)器是哪一種型號?在未來的六個(gè)月里,哪些客戶最有可能離開?根據(jù)歷史欺詐,哪些交易行為最有可能發(fā)生欺詐? 某人申請信用卡或某項(xiàng)保險(xiǎn)的資格是否可以獲批?PatientIDSoreThroatFeverSwollenGlandsCongestionHeadeacheDiagnosis1 1YesYesYesYesYesStrep Throat2 2NoNoNoYesYesAllergy3 3YesYesNoYesNo

17、Cold4 4YesNoYesNoNoStrep Throat5 5NoYesNoYesNoCold6 6NoNoNoYesNoAllergy7 7NoNoYesNoNoStrep Throat8 8YesNoNoYesYesAllergy9 9NoYesNoYesYesCold1010YesYesNoYesYesCold1111NoNoYesYesYes?1212YesYesNoNoYes?1313NoNoNoNoYes?Diagonosis=咽炎咽炎NoYesYesNo淋巴腫淋巴腫發(fā)燒發(fā)燒感冒感冒敏感癥敏感癥無監(jiān)督的數(shù)據(jù)挖掘無監(jiān)督的數(shù)據(jù)挖掘是在數(shù)據(jù)中尋找新的模式。這些模式使我們更深入地了解

18、數(shù)據(jù),了解數(shù)據(jù)本身就有可能生成有用的信息。 無監(jiān)督數(shù)據(jù)挖掘和有監(jiān)督的數(shù)據(jù)挖掘在數(shù)據(jù)挖掘中是同等的重要。無監(jiān)督的數(shù)據(jù)挖掘經(jīng)常用于數(shù)據(jù)探索階段。比如,數(shù)據(jù)中有什么?它描述了怎樣的信息?數(shù)據(jù)中是否存在不尋常的模式?數(shù)據(jù)對客戶細(xì)分有怎樣的建議? v 哪些產(chǎn)品應(yīng)根據(jù)指定目錄放在一起?哪些產(chǎn)品應(yīng)根據(jù)指定目錄放在一起?v 找到對書籍和音樂方面,有相同品位的讀者和聽眾。找到對書籍和音樂方面,有相同品位的讀者和聽眾。v 為市場行銷人員找到真正的客戶群體。為市場行銷人員找到真正的客戶群體。IncomeRangeMagazinePromo WatchPromoLifeInsPromoCreditCardIns.Se

19、xAgeCCCCCCRIIIIIII40-50,000YesNoNoNoMale4530-40,000YesYesYesNoFemale4040-50,000NoNoNoNoMale4230-40,000YesYesYesYesMale4350-60,000YesNoYesNoFemale3820-30,000NoNoNoNoFemale5530-40,000YesNoYesYesMale3520-30,000NoYesNoNoMale2730-40,000YesNoNoNoMale4330-40,000YesYesYesNoFemale4140-50,000NoYesYesNoFemale4

20、320-30,000NoYesYesNoMale2950-60,000YesYesYesNoFemale3940-50,000NoYesNoNoMale5520-30,000NoNoYesYesFemale1935.00=Age=43.00andLifeInsPromo=Yes:ruleaccuracy100.00%:rulecoverage100.00%35.00=Age=43.00andMagazinePromo=Yes:ruleaccuracy85.71%:rulecoverage85.71%六步之五:模型評價(jià)累計(jì)增益圖ROC曲線錯(cuò)誤不對稱六步之六:結(jié)果發(fā)布發(fā)布結(jié)果計(jì)劃監(jiān)測和維護(hù)模型計(jì)劃

21、報(bào)表發(fā)布4. 一個(gè)目錄直銷的例子一個(gè)目錄直銷的例子目錄直銷業(yè)常見的幾個(gè)目標(biāo)增加顧客響應(yīng)度;增加總收入;降低郵寄費(fèi)用;增加利潤;激發(fā)潛在顧客的活力;較高的訂單金額和較低的退貨率;案例背景SAM是一家從事禮品、花卉以及提供園藝工具的目錄服務(wù)公司。這家企業(yè)在美國有10年以上的成功經(jīng)營歷史,積攢了35610個(gè)客戶,SAM發(fā)現(xiàn)最近目錄響應(yīng)率在不斷下降,公司希望能找到影響客戶響應(yīng)的關(guān)鍵因素,同時(shí)希望擴(kuò)展其客戶群體。RFM分析R:RecencyF:FrequencyM:Monetary第一步:定義變量:R:Lstpurch:自最后一次購買以來的月數(shù)F:Nunpurch:最近36個(gè)月內(nèi)購買的次數(shù)M:Totpu

22、rch:最近36個(gè)月內(nèi)消費(fèi)總量第二步:客戶行為模式分布 Recency of PurchaseesRecency of PurchaseesLstpurchFREQUENCYPERCENTCUMULATIVEFREQUENCYCUMULATIVEPERCENT0-1 Months509014.3509014.32-3 Months557015.61066029.94-7 Months1382536.92378566.85-12 Months1182533.235610100.0Num ber of PurchaseesNum ber of PurchaseesNumpurchFREQUENCY

23、PERCENTCUMULATIVEFREQUENCYCUMULATIVEPERCENT0-1128080.359674128080.3596742492-4168940.474417297020.8340915475-1052130.146391349150.9804830111-206950.019517356101Total PurchaseesTotal PurchaseesLSTPURCHFREQUENCYPERCENTCUMULATIVEFREQUENCYCUMULATIVEPERCENT100$1481541.61481541.6$100-$2001013528.52495070.

24、1$200-$300471513.22966583.3$300-$40024506.93211590.2$400-$50011553.23327093.4$500+23406.635610100.060%60%以上的客戶很長時(shí)以上的客戶很長時(shí)間沒有購買產(chǎn)品間沒有購買產(chǎn)品很大比例的客戶過去一年很大比例的客戶過去一年里購買次數(shù)在里購買次數(shù)在2 2到到4 4之間之間大約大約85%85%的客戶少于的客戶少于5 5次次80%80%的年度總消費(fèi)金額的年度總消費(fèi)金額在在$100$100以下,幾乎以下,幾乎85%85%的客戶低于的客戶低于$300$300。SAM客戶的購買習(xí)慣分析第三步:將響應(yīng)率與這些因素進(jìn)行

25、比較:比較的方法: 一一比較 交叉列聯(lián)Rencency NumberResponserateQuantileQ171220.20549145Q2142440.128629898Q3213660.094630722Q4284880.054376125Q5356100.032443696FrenquencyNumberResponserateQuantileQ171220.180834586Q2142440.130975596Q3213660.078374263Q4284880.072224689Q5356100.053281237Monetaryy NumberResponserateQuant

26、ileQ171220.138025267Q2142440.139637301Q3213660.076866634Q4284880.075387631Q5356100.085726857最近購買行為是一個(gè)影響響最近購買行為是一個(gè)影響響應(yīng)率最為出色的變量!應(yīng)率最為出色的變量!第四步:滲透分析要點(diǎn):外部數(shù)據(jù)(人口數(shù)據(jù)):年齡居住時(shí)間等客戶百分比市場百分比X 100滲透指數(shù)=年齡滲透指數(shù)309935-3914240-4412445-499050-548955-647665+930.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%40.00%3035-3940-4

27、445-4950-5455-6465+ 合計(jì)客戶百分比市場百分比最后一步:制訂決策:目標(biāo)市場定位于年齡在35-44歲的客戶。Any Problem?5.數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSeq

28、uence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標(biāo)市場 價(jià)格彈性分析 客戶細(xì)分 市場細(xì)分 傾向性分析 客戶保留 目標(biāo)市場 欺詐檢測關(guān)聯(lián)分析關(guān)聯(lián)分析 AssociationAssociation 市場組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售1)決策樹模型實(shí)例用實(shí)例用“屬性屬性- -值值”對表示的;對表示的;目標(biāo)函數(shù)有離散的輸出值:分類問題;目標(biāo)函數(shù)有離散的輸出值:分類問題;有完整的規(guī)則表達(dá)式,解釋性強(qiáng);有完整的規(guī)則表達(dá)式,解釋性強(qiáng);訓(xùn)練數(shù)據(jù)可以允許有錯(cuò)誤或缺失存在;訓(xùn)練數(shù)據(jù)可以允許有錯(cuò)誤或缺失存在;例

29、:垃圾郵件的識別問題YYYYYYYYYNNNNNNNNNNNNYYYYYNN¥%#*等字符出現(xiàn)的頻數(shù)等字符出現(xiàn)的頻數(shù)?!+&等字等字符出符出現(xiàn)的現(xiàn)的頻數(shù)頻數(shù)2)關(guān)聯(lián)規(guī)則(Association RuleAssociation Rule)同一個(gè)交易中,一個(gè)同一個(gè)交易中,一個(gè)item item 出出現(xiàn)現(xiàn)也會引起也會引起另一個(gè)另一個(gè)item item 的出的出現(xiàn)現(xiàn)Association rule Association rule 例子例子 若顧客購買面包,則他很可能也會購買牛奶若顧客購買面包,則他很可能也會購買牛奶 Association rule: Association rule: 面包

30、面包 = = 牛奶牛奶 P(P(牛奶牛奶| |面包面包) ) 的概率值高的概率值高關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的的可信度可信度( (Confidence)Confidence)可信度為可信度為: : 在在A A出出現(xiàn)的現(xiàn)的條件條件下出下出現(xiàn)現(xiàn)B B的的概率概率可信度可信度= = P P( (B B| |A A) =) =P P( (A A, ,B B)/)/P P( (A A) ) 例如:例如:數(shù)據(jù)庫中的交易紀(jì)錄數(shù)據(jù)庫中的交易紀(jì)錄 t1: (,t1: (,面包面包,牛奶牛奶,),) t2: (,t2: (,面包面包,.),.) t3: (,t3: (,面包面包,牛奶牛奶,),) t4: ()t4: ()P

31、(牛奶|面包) = P(面包 ,牛奶)P(面包) N(面包 ,牛奶)N(面包)=關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的的支持度支持度 ( (Support)Support)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 A A = = B B支持度支持度為為: : A A 與與 B B 同時(shí)出同時(shí)出現(xiàn)的現(xiàn)的概率概率P P( (A A, ,B B) )例子例子: : 數(shù)據(jù)庫中的交易紀(jì)錄如下數(shù)據(jù)庫中的交易紀(jì)錄如下: :t1: (,t1: (,面包面包,牛奶牛奶,),)t2: (,t2: (,面包面包,.),.)t3: (,t3: (,面包面包,牛奶牛奶,),)t4: ()t4: ()請問請問:面包面包 = = 牛奶牛奶的的支持度為多少支持度為多少

32、? ?3)序列模式顧客通常在購買某類商品后,經(jīng)過一段時(shí)間,會再購買另一類商品例如: 買過“棉被、枕頭、床單”之后,經(jīng)過一段時(shí)間 ,通常會再購買“紙尿褲、奶粉”序列模式例 顧客代號交易時(shí)間購買物品代號 1 1 90/7/25 90/7/3030 60,90 2 2 2 90/7/10 90/7/15 90/7/2010, 20 3040, 60, 70 3 90/7/2530, 50, 70 4 4 4 90/7/25 90/7/30 90/8/25203060, 70 5 90/7/1290例如:先買20再買30再買60,702030 60,704).聚類5).類神經(jīng)網(wǎng)絡(luò)好處好處 對問題的假定

33、、要求較少。對問題的假定、要求較少。 可以實(shí)現(xiàn)特征空間較為復(fù)可以實(shí)現(xiàn)特征空間較為復(fù)雜的劃分雜的劃分缺點(diǎn)缺點(diǎn) 訓(xùn)練速度慢訓(xùn)練速度慢 需要更多的訓(xùn)練數(shù)據(jù)需要更多的訓(xùn)練數(shù)據(jù) 無法對結(jié)果進(jìn)行透徹的理無法對結(jié)果進(jìn)行透徹的理解解6.數(shù)據(jù)挖掘軟件發(fā)展現(xiàn)狀第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷 第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)言模型的使用和在操作型環(huán)境的第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)言模型的使用和在操作型環(huán)境的部署部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有第二代系統(tǒng)提供數(shù)據(jù)管

34、理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如比如 IBM Intelligent Score ServiceIBM Intelligent Score Service。第四代數(shù)

35、據(jù)挖第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo)掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo) 第二代數(shù)據(jù)挖掘軟件特點(diǎn)特點(diǎn)與數(shù)據(jù)庫管理系統(tǒng)(與數(shù)據(jù)庫管理系統(tǒng)(DBMSDBMS)集成集成 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性有高的可擴(kuò)展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過支持?jǐn)?shù)據(jù)挖掘模式(通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schemadata mining schema)和數(shù)據(jù)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如典型的系統(tǒng)如DBMinerDBMiner

36、,能通過能通過DMQLDMQL挖掘語言進(jìn)行挖掘挖掘語言進(jìn)行挖掘操作操作缺陷缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展經(jīng)歷了三個(gè)階段數(shù)據(jù)挖掘軟件發(fā)展經(jīng)歷了三個(gè)階段獨(dú)立的數(shù)據(jù)挖掘軟件獨(dú)立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案縱向的數(shù)據(jù)挖掘解決方案Gregory Piatetsky-Shapiro的觀點(diǎn)的觀點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前)特點(diǎn)特點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件對應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)獨(dú)立的數(shù)據(jù)挖掘軟件對應(yīng)第一代系統(tǒng),出現(xiàn)在

37、數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術(shù)這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如比如C4.5C4.5決策樹決策樹,平行坐標(biāo)可視化(平行坐標(biāo)可視化(parallel-parallel-coordinate visualizationcoordinate visualization)。)。(95年開始)發(fā)展原因發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識到

38、數(shù)據(jù)隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1 1)數(shù)據(jù))數(shù)據(jù)庫和數(shù)據(jù)倉庫;庫和數(shù)據(jù)倉庫;2 2)多種類型的數(shù)據(jù)挖掘算法;)多種類型的數(shù)據(jù)挖掘算法;3 3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)庫技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展。據(jù)倉庫結(jié)合是自然的發(fā)展。 現(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)現(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法

39、難以解決挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型的模型 通用數(shù)據(jù)挖掘工具集(95年開始)特點(diǎn)特點(diǎn)提供多種數(shù)據(jù)挖掘算法提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化包括數(shù)據(jù)的轉(zhuǎn)換和可視化 典型的橫向工具有典型的橫向工具有 IBM Intelligent MinerIBM Intelligent Miner SPSSSPSS的的ClementineClementine SASSAS的的Enterprise MinerEnterprise Mine

40、r SGISGI的的MineSetMineSet Oracle DarwinOracle Darwin等等 第二代數(shù)據(jù)挖掘軟件DBMiner第二代軟件SASEnterpriseMiner第三代軟件 SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口發(fā)展原因發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模能熟練使用,如果對算法不了解,難以得出好的模型型 從從19991999年開始,大量的數(shù)據(jù)挖掘工具研制者

41、開始年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Vertical SolutionSolution),),即針對特定的應(yīng)用提供完整的數(shù)據(jù)即針對特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案挖掘方案 對于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)對于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中中行業(yè)數(shù)據(jù)挖掘解決方案(99年開始)行業(yè)數(shù)據(jù)挖掘解決方案(99年開始)KD1(主要用于零售業(yè))主要用于零售業(yè))Options&Choice(主要用于保險(xiǎn)業(yè)主要用于保險(xiǎn)業(yè))HNC(欺詐行為偵測)欺詐行為偵測)Unica Model 1(主要用于市場營銷主要用于市場營銷)行業(yè)數(shù)據(jù)挖掘解決方案(99年開始)在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測功能在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測功能在欺詐檢測系統(tǒng)中嵌入欺詐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論