第一章+緒論-淺談數(shù)據(jù)挖掘課件_第1頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第2頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第3頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第4頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘劉云霞sxyunxiafishingDataMiningdredgingsnooping2024/12/2311.第一章+緒論-淺談數(shù)據(jù)挖掘第一章緒論一、關(guān)于數(shù)據(jù)挖掘的經(jīng)典故事和案例二、數(shù)據(jù)挖掘入門三、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系四、數(shù)據(jù)挖掘軟件2024/12/2321.第一章+緒論-淺談數(shù)據(jù)挖掘一、關(guān)于數(shù)據(jù)挖掘的經(jīng)典故事和案例1、正在影響中國(guó)管理的10大技術(shù)2、從數(shù)字中能夠得到什么?3、一個(gè)網(wǎng)絡(luò)流傳的笑話4、啤酒與尿布5、網(wǎng)上書店關(guān)聯(lián)銷售的案例6、數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用2024/12/2331.第一章+緒論-淺談數(shù)據(jù)挖掘1、正在影響中國(guó)管理的10大技術(shù)No.5數(shù)據(jù)挖掘2024/12/2341.第一章+緒論-淺談數(shù)據(jù)挖掘2、從數(shù)字中能夠得到什么?WhatarethesenumberstryingtoTellme???99:8179,7954,舅舅:不要吃酒,吃酒誤事,76269,8406,9405,吃了二兩酒,不是動(dòng)怒,就是動(dòng)武,7918934,1.91817。吃酒要被酒殺死,一點(diǎn)酒也不要吃。2024/12/2351.第一章+緒論-淺談數(shù)據(jù)挖掘WhatAreTheseNumbersTryingtoTellUs?7÷22≦x≦340÷6二四六八00001×1=110002=100×100×1007/8不三不四接二連三陸續(xù)不斷無獨(dú)有偶掛萬漏一一成不變千方百計(jì)七上八下2024/12/2361.第一章+緒論-淺談數(shù)據(jù)挖掘3、一個(gè)網(wǎng)絡(luò)流傳的笑話(轉(zhuǎn)述)客服:“東東披薩店您好!請(qǐng)問有什么需要我為您服務(wù)?”顧客:“你好,我想要……”客服:“先生,請(qǐng)把您的AIC會(huì)員卡號(hào)碼告我?!鳖櫩?“喔!請(qǐng)等等,?!?/p>

2024/12/2371.第一章+緒論-淺談數(shù)據(jù)挖掘

(1.客戶數(shù)據(jù)庫(kù))顧客:“我家,為什么你知道我所有的電話號(hào)碼?”客服:“陳先生,因?yàn)槲覀冇羞B線“AIC

CRM系統(tǒng)”?!笨头?“陳先生您好,您是住在泉州街一號(hào)二樓,您家的電話是,您的公司電話是23113731,您的移動(dòng)電話是939956956。請(qǐng)問您現(xiàn)在是用哪一個(gè)電話呢?”Add-in-Cards親密合作伙伴CustomerRelationshipManagement客戶關(guān)系管理2024/12/2381.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“我想要一個(gè)海鮮披薩……”客服:“陳先生,

海鮮披薩不適合您。”顧客:“為什么?”

客服:“根據(jù)您的醫(yī)療紀(jì)錄,您有高血壓和膽固醇偏高。”(2.醫(yī)療數(shù)據(jù)庫(kù))

Why?2024/12/2391.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“那……你們有什么可以推薦的?”客服:“您可以試試我們的低脂健康披薩?!鳖櫩?“你怎么知道我會(huì)喜歡吃這種的?”客服:“喔!

您上星期一在中央圖書館借了一本《低脂健康食譜》?!?3.圖書借閱數(shù)據(jù)庫(kù))2024/12/23101.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“哎呀!好……,我要一個(gè)家庭號(hào)特大披薩,要多少錢?”客服:“嗯,這個(gè)足夠您一家十口吃,六百九十九元?!鳖櫩?“可以刷卡嗎?”客服:“陳先生,對(duì)不起,請(qǐng)您付現(xiàn),因?yàn)槟男庞每ㄒ呀?jīng)刷爆了,您現(xiàn)在還欠銀行十萬四千八百零七元,而且還不包括房貸利息?!?4.金融數(shù)據(jù)庫(kù)-信用卡)2024/12/23111.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“喔!那我先去附近的提款機(jī)領(lǐng)錢?!笨头?“陳先生,根據(jù)您的記錄,您已經(jīng)超過今日提款機(jī)提款限額。”(5.金融數(shù)據(jù)庫(kù)-現(xiàn)金卡)2024/12/23121.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“算了!你們直接把披薩送來吧,我這里有現(xiàn)金。你們多久會(huì)送到?”客服:“大約三十分鐘,如果您不想等,可以自己騎車來?!鳖櫩?“什么?!”客服:“根據(jù)“AIC

CRM系統(tǒng)”記錄,您有一輛摩托車,

車號(hào)是GY-7878?!?1.客戶數(shù)據(jù)庫(kù))!?。?024/12/23131.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:客服:“陳先生,請(qǐng)您說話小心一點(diǎn)。您在2000年四月一日用臟話侮辱警察,被判了十日拘役?!鳖櫩?“……”(6.刑事刑案數(shù)據(jù)庫(kù))“……#@$%^&$%^&※!”2024/12/23141.第一章+緒論-淺談數(shù)據(jù)挖掘客服:“請(qǐng)問還需要什么嗎?”顧客:“沒有了,是不是有送三罐可樂?”客服:“是的!不過根據(jù)“AIC

CRM系統(tǒng)”您有糖尿病……”2024/12/23151.第一章+緒論-淺談數(shù)據(jù)挖掘CRMRoadMAP客戶數(shù)據(jù)倉(cāng)庫(kù)查詢/報(bào)表在線實(shí)時(shí)分析數(shù)據(jù)挖掘(DataMining)營(yíng)銷自動(dòng)化接觸通路電子郵件/簡(jiǎn)訊客服中心網(wǎng)絡(luò)銀行郵件/傳真業(yè)務(wù)代表銷售自動(dòng)化服務(wù)自動(dòng)化作業(yè)型資料儲(chǔ)存庫(kù)(ODS)整合性客戶數(shù)據(jù)庫(kù)分析性資料超市分析模塊(AnalyticalModels)/BusinessDomainReadySolutions前臺(tái)后臺(tái)2024/12/23161.第一章+緒論-淺談數(shù)據(jù)挖掘4、啤酒與尿布在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。原因何在?2024/12/23171.第一章+緒論-淺談數(shù)據(jù)挖掘原來,美國(guó)的婦女們經(jīng)常會(huì)囑咐她們的丈夫下班以后要為孩子買尿布。而丈夫在買完尿布之后又要順手買回自己愛喝的啤酒,因此啤酒和尿布在一起購(gòu)買的機(jī)會(huì)還是很多的。是什么讓沃爾瑪發(fā)現(xiàn)了尿布和啤酒之間的關(guān)系呢?正是商家通過對(duì)超市一年多原始交易數(shù)字進(jìn)行詳細(xì)的分析,通過數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)了這樣的組合。2024/12/23181.第一章+緒論-淺談數(shù)據(jù)挖掘5、網(wǎng)上書店關(guān)聯(lián)銷售的案例現(xiàn)在網(wǎng)上書店為了能夠吸引更多讀者購(gòu)買圖書,常常會(huì)運(yùn)用一種叫做關(guān)聯(lián)銷售分析的方法。這種方法是給客戶提供其他的相關(guān)書籍,也就是在客戶購(gòu)買了一種書籍之后,推薦給客戶應(yīng)該感興趣的其他相關(guān)書籍。例如:購(gòu)買了《月光寶盒(2VCD)》的顧客,對(duì)什么樣的VCD還比較感興趣,購(gòu)買的比較多呢?。2024/12/23191.第一章+緒論-淺談數(shù)據(jù)挖掘解決上述問題的步驟:首先,確定數(shù)據(jù)源,也就是銷售記錄。這里要用到兩張表,一張表是該書店的會(huì)員,用會(huì)員ID號(hào)來代替;另一張表是會(huì)員買了什么書。然后,應(yīng)用DataMining技術(shù),建立數(shù)據(jù)挖掘模型。2024/12/23201.第一章+緒論-淺談數(shù)據(jù)挖掘?qū)ι鲜鰡栴}進(jìn)行挖掘的結(jié)果:BookName$SUPPORT$PROBABILITY$ADJUSTEDPROBABILITY大圣娶親(2VCD)13170.87030.8085大內(nèi)密探零零發(fā)(2VCD)1710.03690.7070九品芝麻官(2VCD)1460.03610.7209千王之王2000(2VCD)1560.03120.6990百變金剛(2VCD)1500.03120.7031唐伯虎點(diǎn)秋香(2VCD)1060.02630.721197家有喜事(2VCD)1040.02130.7017武狀元蘇乞兒(2VCD)890.02130.7177情圣(2VCD)500.01070.7058龍的傳人(2VCD)340.00900.7280支持度sup(.):表示在購(gòu)物籃分析中同時(shí)包含關(guān)聯(lián)規(guī)則左右兩邊物品的交易次數(shù)百分比,即支持這個(gè)規(guī)則的交易的次數(shù)百分比。置信度confidence(.):是指在所有的購(gòu)買了左邊商品的交易中,同時(shí)又購(gòu)買了右邊商品的交易概率。結(jié)果:購(gòu)買《月光寶盒(2VCD)》之后,又購(gòu)買《大圣娶親(2VCD)》的次數(shù)是1317。2024/12/23211.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:銀行:反欺詐行為、關(guān)聯(lián)銷售、市場(chǎng)競(jìng)爭(zhēng)分析。客戶分類、客戶價(jià)值分析與預(yù)測(cè)、客戶偏好分析、客戶信用分析以及欺詐檢測(cè)等。電信:流失預(yù)警、客戶分群、關(guān)聯(lián)銷售。網(wǎng)上銷售點(diǎn):購(gòu)物車交叉銷售、網(wǎng)上商品布局。6、數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用2024/12/23221.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在信用卡欺詐交易中的應(yīng)用應(yīng)用之一是通過評(píng)價(jià)交易數(shù)目、交易金額、賬戶信息如姓名變化和地址變遷、換卡申請(qǐng)等非金融信息的組合來實(shí)現(xiàn)。這些因素結(jié)合起來,描述出持卡人最近交易的大概輪廓,從而評(píng)估出是否與持卡人的交易習(xí)慣相符。一旦發(fā)現(xiàn)交易異常的明顯痕跡,發(fā)卡行需要聯(lián)系持卡人,以確定其信用卡賬戶最近是否正常,是否被以任何方式遭受損害。例如,如果一個(gè)持卡人日常生活里,每月交易筆數(shù)在3~6筆,這就是其交易模式之一。如果有一天發(fā)現(xiàn)當(dāng)日其信用卡賬戶有15筆交易,例外報(bào)告將要求發(fā)卡行聯(lián)系持卡人進(jìn)行確認(rèn)。2024/12/23231.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在大型零售企業(yè)中的應(yīng)用1、優(yōu)化商品組合布局,正確安排商品進(jìn)貨與庫(kù)存從眾多的商品中發(fā)現(xiàn)創(chuàng)造價(jià)值最大的商品。然后,據(jù)此調(diào)整商品的結(jié)構(gòu),安排商品的庫(kù)存和定貨。商品布局管理即商品擺放位置對(duì)銷售起著至關(guān)重要的作用??紤]購(gòu)買者在商店里所穿行的路線、購(gòu)買時(shí)間和地點(diǎn)、貨架的使用效率、暢銷商品的類別、不同商品一起購(gòu)買的概率,進(jìn)行挖掘。英國(guó)safeway公司,研究發(fā)現(xiàn)某一種乳酪產(chǎn)品雖然銷售額排名第209,可是消費(fèi)額最高的客戶中有25%都常常買這種乳酪,這些客戶可是Safeway最不想得罪的客戶。如果使用傳統(tǒng)的分析方法的話,這種產(chǎn)品很快就會(huì)不賣了,可是事實(shí)上這種產(chǎn)品是相當(dāng)重要的。Safeway也發(fā)現(xiàn)在28種品牌的橘子汁中,有8中特別受到歡迎。因此,該公司重新安排貨架的擺設(shè),使橘子汁的銷量能夠增加到最大2024/12/23241.第一章+緒論-淺談數(shù)據(jù)挖掘例如,一個(gè)超市營(yíng)銷的例子,經(jīng)由記錄客戶的消費(fèi)記錄與采購(gòu)路線,超級(jí)市場(chǎng)的廚房用品是按照女性的視線高度來擺放的。根據(jù)研究得出:美國(guó)婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130-135公分之間。在商業(yè)上,有很多特征是很難理解的,但若了解到這些信息就會(huì)增加企業(yè)的競(jìng)爭(zhēng)能力。

2024/12/23251.第一章+緒論-淺談數(shù)據(jù)挖掘2、利用數(shù)據(jù)挖掘技術(shù)幫助企業(yè)準(zhǔn)確制定營(yíng)銷策略,主要表現(xiàn)在:(1)通過對(duì)市場(chǎng)同類產(chǎn)品和銷售情況、顧客情況的資料收集和分類分析,明確細(xì)分市場(chǎng),確定本企業(yè)差別化的產(chǎn)品和服務(wù)定位、目標(biāo)顧客和市場(chǎng)營(yíng)銷策略。(業(yè)績(jī)分析)(2)正確安排商品進(jìn)貨與庫(kù)存,降低庫(kù)存成本。即對(duì)各個(gè)商品、各色貨物進(jìn)行增減,確保正確的庫(kù)存;協(xié)助企業(yè)確定最佳經(jīng)濟(jì)批量、最佳定貨時(shí)機(jī),從而節(jié)約進(jìn)貨和庫(kù)存管理費(fèi)用;2024/12/23261.第一章+緒論-淺談數(shù)據(jù)挖掘(3)將顧客按照一定的標(biāo)準(zhǔn)進(jìn)行分類,通過對(duì)企業(yè)銷售數(shù)據(jù)的序列分析發(fā)現(xiàn)顧客基于時(shí)間的購(gòu)買模式,預(yù)測(cè)顧客需求,及時(shí)調(diào)整產(chǎn)品的結(jié)構(gòu)和內(nèi)容,提高不同顧客群的滿意度,最大限度的留住顧客。(4)通過建立顧客會(huì)員制度,記錄同一顧客在不同時(shí)期購(gòu)買的商品序列,通過統(tǒng)計(jì)分析和序列模式挖掘顧客購(gòu)買趨勢(shì)或忠誠(chéng)度的變化。以顧客為導(dǎo)向2024/12/23271.第一章+緒論-淺談數(shù)據(jù)挖掘例如,Safeway在了解客戶每次采購(gòu)時(shí)會(huì)購(gòu)買哪些產(chǎn)品以后,就可以利用數(shù)據(jù)挖掘中的監(jiān)測(cè)功能,監(jiān)測(cè)出長(zhǎng)期的經(jīng)常購(gòu)買行為。再將這些資料與主數(shù)據(jù)庫(kù)的人口統(tǒng)計(jì)資料結(jié)合在一起,Safeway的營(yíng)銷部門就可以根據(jù)每個(gè)家庭的特性,也就是哪些季節(jié)會(huì)購(gòu)買哪些產(chǎn)品的趨勢(shì),發(fā)出郵件。2024/12/23281.第一章+緒論-淺談數(shù)據(jù)挖掘例如,擁有汽車的新婚夫妻很可能購(gòu)買兒童專用汽車椅,這個(gè)現(xiàn)象很容易被理解,并不需要應(yīng)用到數(shù)據(jù)挖掘中。但如考慮到另一個(gè)問題,這些夫妻會(huì)購(gòu)買何種顏色的兒童專用汽車椅?這時(shí)可以運(yùn)用數(shù)據(jù)挖掘技術(shù)以便在新婚夫妻購(gòu)買汽車的時(shí)候銷售給他們合適的兒童專用汽車椅。(7)交叉銷售2024/12/23291.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在房地產(chǎn)行業(yè)中的應(yīng)用關(guān)聯(lián)規(guī)則A1:地理位置無關(guān)型客戶=≥重視物業(yè)管理

支持率=9.7%;可信度=30.3%;興趣度=2.4;關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理=≥地理位置無關(guān)型客戶支持率=9.7%;可信度=76.9%;興趣度=2.4;對(duì)比發(fā)現(xiàn):“重視物業(yè)管理的人不關(guān)心地理位置”的可能性(76.9%)高于“不關(guān)心地理位置的人重視物業(yè)管理”的可能性(30.3%)。說明關(guān)聯(lián)規(guī)則B1是一條更有意義的關(guān)聯(lián)規(guī)則。2024/12/23301.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在公司財(cái)務(wù)分析中的應(yīng)用2024/12/23311.第一章+緒論-淺談數(shù)據(jù)挖掘用比率分析法消除規(guī)模影響2024/12/23321.第一章+緒論-淺談數(shù)據(jù)挖掘首先,將企業(yè)按財(cái)務(wù)狀況分成5類;其次,利用關(guān)聯(lián)分析,找到影響企業(yè)財(cái)務(wù)狀況的因素。對(duì)公司的財(cái)務(wù)狀況有明顯影響的因素有資產(chǎn)負(fù)債率、速動(dòng)比率、總資產(chǎn)周轉(zhuǎn)率、銷售毛利率、凈資產(chǎn)收益率等。2024/12/23331.第一章+緒論-淺談數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘入門什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的?什么是數(shù)據(jù)挖掘?在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的功能幾種較為流行的數(shù)據(jù)挖掘技術(shù)2024/12/23341.第一章+緒論-淺談數(shù)據(jù)挖掘1、什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的?數(shù)據(jù)爆炸性的增長(zhǎng):從兆字節(jié)terabytes到千兆字節(jié)petabytes。多種海量數(shù)據(jù)源商業(yè):網(wǎng)絡(luò),電子商務(wù),交易,股票,…科學(xué):遙感數(shù)據(jù),生物信息學(xué),科學(xué)模擬,…社會(huì)各個(gè)角落:新聞,數(shù)字影像,視頻,…“我們被信息淹沒卻信息貧乏!”

“需要是發(fā)明之母”———數(shù)據(jù)挖掘—海量數(shù)據(jù)庫(kù)的自動(dòng)化分析。根據(jù)文章中出現(xiàn)的詞的相似性,可以把八篇文章分為兩個(gè)自然簇。第一個(gè)簇由前四篇文章組成,對(duì)應(yīng)于經(jīng)濟(jì)新聞,而第二個(gè)簇包含后四篇文章,對(duì)應(yīng)于衛(wèi)生保健新聞。2024/12/23351.第一章+緒論-淺談數(shù)據(jù)挖掘2、什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。2024/12/23361.第一章+緒論-淺談數(shù)據(jù)挖掘Datamining:用詞不當(dāng)?從數(shù)據(jù)中挖掘知識(shí)相近的術(shù)語數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)、知識(shí)提取、數(shù)據(jù)/模式識(shí)別、

數(shù)據(jù)考古、數(shù)據(jù)捕撈、知識(shí)獲取、商業(yè)智能等。KnowledgeDiscoveryinDatabases2024/12/23371.第一章+緒論-淺談數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)(KDD)過程數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的核心步驟DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation2024/12/23381.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)挖掘和商務(wù)智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBADecisionMakingDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationStatisticalSummary,Querying,andReportingDataPreprocessing/Integration,DataWarehousesDataSourcesPaper,Files,Webdocuments,Scientificexperiments,DatabaseSystems數(shù)據(jù)庫(kù)管理員OLAP商務(wù)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。一般由數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成。2024/12/23391.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)挖掘:多種學(xué)科的交叉DataMiningDatabaseTechnologyStatisticsMachineLearningPatternRecognitionAlgorithmOtherDisciplinesVisualization2024/12/23401.第一章+緒論-淺談數(shù)據(jù)挖掘3、對(duì)何種數(shù)據(jù)進(jìn)行挖掘?關(guān)系數(shù)據(jù)庫(kù)(Relationaldatabase)、數(shù)據(jù)倉(cāng)庫(kù)(datawarehouse)、事務(wù)數(shù)據(jù)庫(kù)(transactionaldatabase)高級(jí)數(shù)據(jù)庫(kù)和面向特殊應(yīng)用的數(shù)據(jù)庫(kù)數(shù)據(jù)流和遙感數(shù)據(jù)時(shí)間序列數(shù)據(jù)、時(shí)間數(shù)據(jù)、序列數(shù)據(jù)(生物序列數(shù)據(jù))結(jié)構(gòu)數(shù)據(jù)、圖、網(wǎng)絡(luò)和多維鏈數(shù)據(jù)

對(duì)象-關(guān)系數(shù)據(jù)庫(kù)(Object-relationaldatabases)異種數(shù)據(jù)庫(kù)和遺產(chǎn)數(shù)據(jù)庫(kù)空間數(shù)據(jù)和時(shí)空數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)、文本數(shù)據(jù)、WWW關(guān)系數(shù)據(jù)庫(kù)是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。事務(wù)數(shù)據(jù)庫(kù)由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ),存放在一個(gè)一致的模式下,并通過數(shù)據(jù)清理、變換、集成等來構(gòu)造。2024/12/23411.第一章+緒論-淺談數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。2024/12/23421.第一章+緒論-淺談數(shù)據(jù)挖掘事務(wù)數(shù)據(jù)庫(kù)ID事務(wù)數(shù)據(jù)庫(kù)由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。2024/12/23431.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)以面向主題的原則,以個(gè)人信用卡消費(fèi)趨勢(shì)為主題的星形模式數(shù)據(jù)倉(cāng)庫(kù)。事實(shí)表維表數(shù)據(jù)倉(cāng)庫(kù)是從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ),存放在一個(gè)一致的模式下,并通過數(shù)據(jù)清理、變換、集成等來構(gòu)造。2024/12/23441.第一章+緒論-淺談數(shù)據(jù)挖掘4、DataMining處理流程

DATAMINING

運(yùn)行時(shí)間定義企業(yè)問題定義分析資料數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘布署與應(yīng)用數(shù)據(jù)源DATAMINING處理流程2024/12/23451.第一章+緒論-淺談數(shù)據(jù)挖掘5、OLAP與數(shù)據(jù)挖掘聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)是使使用者從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、易理解并真實(shí)反映企業(yè)特性的信息進(jìn)行存取,以滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求的一種軟件技術(shù)。OLAP除了能夠告訴你數(shù)據(jù)庫(kù)中都有什么,還能夠更進(jìn)一步告訴你下一步會(huì)怎么樣以及如果采取這樣的措施又會(huì)怎么樣。其分析過程在本質(zhì)上是一個(gè)基于用戶建立的一系列假設(shè)驅(qū)動(dòng),通過OLAP來證實(shí)或者推翻這些假設(shè)的演繹推理過程。實(shí)質(zhì)上是通過把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維(dimension),使用戶能對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。旋轉(zhuǎn)、切片(塊)、鉆取鉆取:是改變維的層次,變換分析的粒度。它包括向下鉆?。―rill-down)和向上鉆取(Drill-up)/上卷(Roll-up)。Drill-up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊:是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè)或以上,則是切塊。旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。2024/12/23461.第一章+緒論-淺談數(shù)據(jù)挖掘比如:一個(gè)OLAP分析師可能認(rèn)為,在某一區(qū)域開辦信用卡的用戶會(huì)更主動(dòng)地進(jìn)行消費(fèi)。對(duì)于這個(gè)假定,他可能去觀察在那些富裕地區(qū)申辦信用卡的用戶的信用卡賬戶屬性。如果結(jié)果還不夠明顯,他也許要將年齡因素考慮進(jìn)去。一直這樣下去,直到他認(rèn)為他找到了能夠決定是否主動(dòng)進(jìn)行信用卡消費(fèi)的各種變量,然后再根據(jù)這些變量,策劃他的銀行產(chǎn)品的營(yíng)銷方式,最大程度上將營(yíng)銷資源放在最可能接受他們產(chǎn)品的客戶對(duì)象上。2024/12/23471.第一章+緒論-淺談數(shù)據(jù)挖掘比如,在銀行間盛行的CRM的應(yīng)用中,數(shù)據(jù)倉(cāng)庫(kù)以面向“客戶”為主題進(jìn)行數(shù)據(jù)篩選、存儲(chǔ);OLAP負(fù)責(zé)分析客戶的基本信息、儲(chǔ)蓄賬戶信息、歷史余額信息、銀行交易日志等,以動(dòng)態(tài)分析報(bào)表、直方圖、折線圖、餅圖等形式展現(xiàn)給管理者,讓他們從多方面了解和掌握客戶的動(dòng)態(tài),從而發(fā)現(xiàn)客戶的交易習(xí)性、客戶流失形式,更好地針對(duì)不同類型的客戶,在不同時(shí)期進(jìn)行適應(yīng)性產(chǎn)品的營(yíng)銷活動(dòng)。數(shù)據(jù)挖掘則可以通過歷史數(shù)據(jù)建立模型,在擬合歷史的基礎(chǔ)上,分析未來趨勢(shì),判斷哪些因素的改變將很可能意味著客戶的最終流失,進(jìn)而避免其發(fā)生。OLAP與數(shù)據(jù)挖掘的區(qū)別2024/12/23481.第一章+緒論-淺談數(shù)據(jù)挖掘6、數(shù)據(jù)挖掘的功能關(guān)聯(lián)分析分類和預(yù)測(cè)聚類異常值探測(cè)序列模式挖掘2024/12/23491.第一章+緒論-淺談數(shù)據(jù)挖掘關(guān)聯(lián)分析是用于挖掘、發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間存在的、重要的、有趣的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。在不知道關(guān)聯(lián)函數(shù)或關(guān)聯(lián)函數(shù)不確定的情況下,為了反映所發(fā)現(xiàn)規(guī)則的有用性和確定性,關(guān)聯(lián)分析生成的規(guī)則都要滿足最小支持度閥值和最小置信度閥值。關(guān)聯(lián)分析2024/12/23501.第一章+緒論-淺談數(shù)據(jù)挖掘關(guān)聯(lián)分析的應(yīng)用:比如人壽保險(xiǎn)。保險(xiǎn)公司在接受保險(xiǎn)前,往往需要記錄投保人詳盡的信息,有時(shí)還要到醫(yī)院做身體檢查。保單上記錄有投保人的年齡、性別、健康狀況、工作單位、工作地址、工資水平等。通過分析這些數(shù)據(jù),可以得到類似以下這樣的關(guān)聯(lián)規(guī)則:年齡在40歲以上,工作在A區(qū)的投保人當(dāng)中,有45%的人曾經(jīng)向保險(xiǎn)公司索賠過。在這條規(guī)則中,“年齡在40歲以上”∩“工作在A區(qū)”→“向保險(xiǎn)公司索賠過”

可以看出來,A區(qū)可能污染比較嚴(yán)重,環(huán)境比較差,導(dǎo)致工作在該區(qū)的人健康狀況不好,索賠率也相對(duì)比較高。2024/12/23511.第一章+緒論-淺談數(shù)據(jù)挖掘分類和預(yù)測(cè)分類是對(duì)一個(gè)類別進(jìn)行描述及概括相關(guān)特征,并提取出描述重要數(shù)據(jù)類的模型。數(shù)據(jù)挖掘中的分類方法很多,主要有決策樹和決策規(guī)則、貝葉斯信念網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)以及遺傳算法等。預(yù)測(cè)是通過建立連續(xù)值函數(shù)模型達(dá)到預(yù)測(cè)未來的數(shù)據(jù)趨勢(shì)。預(yù)測(cè)的方法主要有回歸分析、時(shí)間序列分析等。各種分類模型也可以預(yù)測(cè),但主要是預(yù)測(cè)分類標(biāo)號(hào)。2024/12/23521.第一章+緒論-淺談數(shù)據(jù)挖掘聚類聚類是在要?jiǎng)澐值念愇粗那闆r下,將數(shù)據(jù)庫(kù)中的記錄劃分為多個(gè)類或簇,使得同類內(nèi)的對(duì)象之間具有較高的相似度,不同類間的差異較大。它是概念描述和偏差分析的先決條件。數(shù)據(jù)挖掘中的聚類方法有劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法等。2024/12/23531.第一章+緒論-淺談數(shù)據(jù)挖掘異常值探測(cè)異常值指的是數(shù)據(jù)庫(kù)中不符合數(shù)據(jù)一般模型的數(shù)據(jù)對(duì)象。從數(shù)據(jù)庫(kù)中探測(cè)異常值很有意義,因?yàn)樗鼈儽旧砜赡茈[藏著重要的信息,比正常的數(shù)據(jù)更有用,忽略或刪除它們都會(huì)導(dǎo)致信息的丟失。例如,發(fā)現(xiàn)金融和保險(xiǎn)領(lǐng)域的欺詐行為、稅款的脫逃、通信費(fèi)用的惡意欠費(fèi)、網(wǎng)絡(luò)中的黑客入侵、追尋極低或極高收入者的消費(fèi)行為以及對(duì)多種治療方式不尋常反映的發(fā)現(xiàn)等。2024/12/23541.第一章+緒論-淺談數(shù)據(jù)挖掘序列模式挖掘序列模式挖掘是指挖掘相對(duì)時(shí)間或其他序列出現(xiàn)頻率高的規(guī)律或趨勢(shì),并建模。這里的序列一般指時(shí)間序列數(shù)據(jù)庫(kù)和序列數(shù)據(jù)庫(kù)(Web日志分析和DNA分析)。在許多行業(yè)產(chǎn)生的數(shù)據(jù)庫(kù)都是時(shí)間序列數(shù)據(jù)庫(kù),例如,商業(yè)交易、電信部門、天氣數(shù)據(jù)等等,因此,序列模式的挖掘是非常有意義的。2024/12/23551.第一章+緒論-淺談數(shù)據(jù)挖掘序列分析和關(guān)聯(lián)規(guī)則的相似之處在于,它們所用的樣本數(shù)據(jù)中,每一個(gè)樣本都包含了一個(gè)項(xiàng)集或狀態(tài)集合。其不同之處在于序列分析研究的是項(xiàng)集(或狀態(tài))間的轉(zhuǎn)換,而關(guān)聯(lián)規(guī)則模型研究的是項(xiàng)集之間的相關(guān)性。在序列分析模型中,先購(gòu)買計(jì)算機(jī)再購(gòu)買音箱,和先購(gòu)買音箱再購(gòu)買計(jì)算機(jī)是兩種不同的序列。而在關(guān)聯(lián)規(guī)則中這兩種行為都表達(dá)了一個(gè)同樣的項(xiàng)集{計(jì)算機(jī),音箱}。2024/12/23561.第一章+緒論-淺談數(shù)據(jù)挖掘決策樹聚類時(shí)間序列關(guān)聯(lián)規(guī)則貝葉斯分類類神經(jīng)網(wǎng)絡(luò)羅吉斯回歸線性回歸文本數(shù)據(jù)挖掘7、幾種數(shù)據(jù)挖掘技術(shù)2024/12/23571.第一章+緒論-淺談數(shù)據(jù)挖掘

DecisionTree決策樹決策樹是用二叉樹形圖來表示處理邏輯的一種工具,是對(duì)數(shù)據(jù)進(jìn)行分類的方法。決策樹的目標(biāo)是針對(duì)類別因變量加以預(yù)測(cè)或解釋反應(yīng)結(jié)果。主要有兩個(gè)步驟:首先,通過一批已知的樣本數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。決策樹的建立過程可以看成是數(shù)據(jù)規(guī)則的生成過程,因此,決策樹實(shí)現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。2024/12/23581.第一章+緒論-淺談數(shù)據(jù)挖掘決策樹的應(yīng)用舉例客戶信貸分類2024/12/23591.第一章+緒論-淺談數(shù)據(jù)挖掘輸出結(jié)果:關(guān)于“buys_computer”的決策樹2024/12/23601.第一章+緒論-淺談數(shù)據(jù)挖掘

聚類(Cluster)聚類目的在將相似的事物歸類??梢詫⒆兞糠诸?,但更多的應(yīng)用是透過顧客特性做分類,通過將顧客特性進(jìn)一步分割成若干類別而達(dá)到市場(chǎng)區(qū)隔之目的??梢詭椭髽I(yè)了解顧客的特征,將顧客分成新顧客、忠誠(chéng)顧客、流失顧客、無規(guī)律購(gòu)買顧客、新吸引的顧客等,便于企業(yè)針對(duì)不同群體的特征,設(shè)計(jì)出不同的營(yíng)銷策略,更大程度地滿足消費(fèi)者個(gè)性化需求。2024/12/23611.第一章+緒論-淺談數(shù)據(jù)挖掘HierarchicalClustering層次聚類法該方法是利用距離矩陣作為分類標(biāo)準(zhǔn),將n個(gè)樣品各作為一類;計(jì)算n個(gè)樣品兩兩之間的距離,構(gòu)成距離矩陣;合并距離最近的兩類為一新類;計(jì)算新類與當(dāng)前各類的距離;再合并、計(jì)算,直至只有一類為止。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)2024/12/23621.第一章+緒論-淺談數(shù)據(jù)挖掘K-MeansClusteringK-均值聚類方法Example:012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign2024/12/23631.第一章+緒論-淺談數(shù)據(jù)挖掘常用聚類算法的比較2024/12/23641.第一章+緒論-淺談數(shù)據(jù)挖掘

關(guān)聯(lián)規(guī)則(Association)關(guān)聯(lián)規(guī)則是分析發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同變量或個(gè)體(例如商品間的關(guān)系及年齡與購(gòu)買行為……)之間的關(guān)系程度(概率大小),并用這些規(guī)則找出顧客購(gòu)買行為模式。例如:購(gòu)買了桌面計(jì)算機(jī)對(duì)購(gòu)買其他計(jì)算機(jī)外設(shè)商品(打印機(jī)、喇叭、硬盤..)的相關(guān)影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架擺設(shè)、庫(kù)存安排以及根據(jù)購(gòu)買行為模式對(duì)客戶進(jìn)行分類。2024/12/23651.第一章+緒論-淺談數(shù)據(jù)挖掘啤酒與尿布的關(guān)聯(lián)分析FindalltherulesX

Y

withminimumsupportandconfidencesupport,s,probabilitythatatransactioncontainsXYconfidence,c,

conditionalprobabilitythatatransactionhavingXalsocontainsYLetminsup=50%,minconf=50%Freq.Pat.:Beer:3,Nuts:3,Diaper:4,Eggs:3,{Beer,Diaper}:3Associationrules:(manymore!)Beer

Diaper(60%,100%)Diaper

Beer(60%,75%)2024/12/23661.第一章+緒論-淺談數(shù)據(jù)挖掘

NeuralNetwork類神經(jīng)網(wǎng)絡(luò),類似人類神經(jīng)元結(jié)構(gòu)。神經(jīng)元的主要功能是接受刺激和傳遞信息。神經(jīng)元通過傳入神經(jīng)接受來自體內(nèi)外環(huán)境變化的刺激信息,并對(duì)這些信息加以分析、綜合和儲(chǔ)存,再經(jīng)過傳出神經(jīng)把指令傳到所支配的器官和組織,產(chǎn)生調(diào)節(jié)和控制效應(yīng)。2024/12/23671.第一章+緒論-淺談數(shù)據(jù)挖掘2024/12/23681.第一章+緒論-淺談數(shù)據(jù)挖掘單純貝葉斯分類主要是根據(jù)貝葉斯定理(BayesianTheorem),來預(yù)測(cè)分類的結(jié)果。貝葉斯定理:P(X)、P(H)和P(X|H)可以由給定的數(shù)據(jù)計(jì)算,是先驗(yàn)概率。貝葉斯定理提供了一種由P(X)、P(H)和P(X|H)計(jì)算后驗(yàn)概率P(H|X)的方法。貝葉斯定理是:

Na?veBayes分類2024/12/23691.第一章+緒論-淺談數(shù)據(jù)挖掘?qū)嵗恨k信用卡意愿分析項(xiàng)目性別年齡學(xué)生身分收入辦卡1男>45否高會(huì)2女31~45否高會(huì)3女20~30是低會(huì)4男<20是低不會(huì)5女20~30是中不會(huì)6女20~30否中會(huì)7女31~45否高會(huì)8男31~45是中不會(huì)9男31~45否中會(huì)10女<20是低會(huì)2024/12/23701.第一章+緒論-淺談數(shù)據(jù)挖掘解:首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對(duì)于不同分類結(jié)果的條件概率:P(辦卡)=7/10

P(不辦卡)=3/10P(女性|辦卡)=5/7

P(女性|不辦卡)=1/3P(年齡=31~45|辦卡)=3/7

P(年齡=31~45|不辦卡)=1/3P(學(xué)生=否|辦卡)=5/7

P(學(xué)生=否|不辦卡)=0/3P(收入=中|辦卡)=2/7

P(收入=中|不辦卡)=2/3判斷:X=(女性,年齡介于31~45之間,不具學(xué)生身份,收入中等)會(huì)不會(huì)辦理信用卡。2024/12/23711.第一章+緒論-淺談數(shù)據(jù)挖掘

其次,再應(yīng)用樸素貝氏分類器進(jìn)行類別預(yù)測(cè):計(jì)算P(辦卡)P(女性|辦卡)P(年齡31~45|辦卡)P(不是學(xué)生|辦卡)P(收入中|辦卡)=15/343≈0.044P(不辦卡)P(女性|不辦卡)P(年齡31~45|不辦卡)P(不是學(xué)生|不辦卡)P(收入中等|不辦卡)=00.044>02024/12/23721.第一章+緒論-淺談數(shù)據(jù)挖掘訓(xùn)練樣本中對(duì)于(女性,年齡介于31~45之間,不具學(xué)生身份,收入中等)的個(gè)人,按照樸素貝葉斯分類會(huì)將其分到辦信用卡一類中。辦卡的概率是(0.044)/(0.044+0)=1(正規(guī)化分類的結(jié)果P(會(huì))/(P(會(huì))+P(不會(huì)))2024/12/23731.第一章+緒論-淺談數(shù)據(jù)挖掘

羅吉斯回歸(LogisticRegression)假設(shè)有個(gè)科學(xué)家想要了解某種毒物對(duì)于老鼠死亡率的分析,他做了三次實(shí)驗(yàn),分別使用不同的毒物用量,去計(jì)算每一百只老鼠的死亡概率,然后他得到以下的結(jié)果:使用10毫克毒物,死亡率為15%使用20毫克毒物,死亡率35%使用30毫克毒物,死亡率55%從這些數(shù)值看起來,毒物的用量與死亡率呈現(xiàn)顯著的正比關(guān)系,而且我們可以計(jì)算出一條非常完美準(zhǔn)確的回歸線:Y=2X-5(Y為死亡率,X為毒物用量)。2024/12/23741.第一章+緒論-淺談數(shù)據(jù)挖掘但是,這個(gè)方程式包含有一個(gè)重大錯(cuò)誤。假設(shè)我們使用100毫克毒物,根據(jù)方程式計(jì)算,這些老鼠的死亡率為195%,也就是說每一百只老鼠會(huì)死195只,而如果我們完全不放任何毒物時(shí),死亡率為-5%,也就是每一百只老鼠會(huì)死負(fù)五只。很顯然,這個(gè)線性回歸模型沒有考慮到幾個(gè)重要的限制,即當(dāng)我們使用毒物量降低時(shí),死亡率應(yīng)該是近于零(不會(huì)是負(fù)值),而當(dāng)毒物量增加時(shí),死亡率應(yīng)該是接近于100%。當(dāng)需要把概率限制在0~1時(shí),就可以考慮使用LOGISTIC回歸。2024/12/23751.第一章+緒論-淺談數(shù)據(jù)挖掘Logistic回歸模型的構(gòu)造現(xiàn)y為發(fā)病或未發(fā)病,生存與死亡等定性分類變量,不能直接用回歸模型進(jìn)行分析。能否用發(fā)病的概率P來直接代替y呢?即不行。但可以因此,定義logit(P)=ln[P/(1-P)]為L(zhǎng)ogistic變換,則Logistic回歸模型為:2024/12/23761.第一章+緒論-淺談數(shù)據(jù)挖掘經(jīng)數(shù)學(xué)變換可得:2024/12/23771.第一章+緒論-淺談數(shù)據(jù)挖掘Logistic回歸模型是一種概率模型,它是以疾病,死亡等結(jié)果發(fā)生的概率為因變量,影響疾病發(fā)生的因素為自變量建立回歸模型。它特別適用于因變量為二項(xiàng),多項(xiàng)分類的資料。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論