數(shù)據(jù)挖掘概念與技術(shù)第一章_第1頁
數(shù)據(jù)挖掘概念與技術(shù)第一章_第2頁
數(shù)據(jù)挖掘概念與技術(shù)第一章_第3頁
數(shù)據(jù)挖掘概念與技術(shù)第一章_第4頁
數(shù)據(jù)挖掘概念與技術(shù)第一章_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘概念與技術(shù)第一章第一頁,共三十五頁,編輯于2023年,星期六第二頁,共三十五頁,編輯于2023年,星期六2023/5/312第三頁,共三十五頁,編輯于2023年,星期六2023/5/313第1章引言英文幻燈片制作:JiaweiHan中文幻燈片編譯:范明第四頁,共三十五頁,編輯于2023年,星期六第一章引論動機(jī):為什么要數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進(jìn)行?數(shù)據(jù)挖掘功能所有的模式都是有趣的嗎?數(shù)據(jù)挖掘系統(tǒng)分類數(shù)據(jù)挖掘的主要問題第五頁,共三十五頁,編輯于2023年,星期六2023/5/315動機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問題自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫,和其它信息存儲中我們正被數(shù)據(jù)淹沒,但卻缺乏知識解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理(OLAP)從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(規(guī)則,規(guī)律性,模式,限制等)第六頁,共三十五頁,編輯于2023年,星期六2023/5/316數(shù)據(jù)處理技術(shù)的演進(jìn)1960s:數(shù)據(jù)收集,數(shù)據(jù)庫創(chuàng)建,IMS和網(wǎng)狀DBMS1970s:關(guān)系數(shù)據(jù)庫模型,關(guān)系DBMS實現(xiàn)1980s:RDBMS,先進(jìn)的數(shù)據(jù)模型(擴(kuò)充關(guān)系的,OO,演繹的,等.)和面向應(yīng)用的DBMS(空間的,科學(xué)的,工程的,等.)1990s—2000s:數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫,和Web數(shù)據(jù)庫第七頁,共三十五頁,編輯于2023年,星期六2023/5/317什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(數(shù)據(jù)庫中知識發(fā)現(xiàn)):從大型數(shù)據(jù)庫中提取有趣的(非平凡的,

蘊涵的,先前未知的

并且是潛在有用的)

信息或模式其它叫法和“insidestories”:數(shù)據(jù)挖掘:用詞不當(dāng)?數(shù)據(jù)庫中知識發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識提取(knowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務(wù)智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.

專家系統(tǒng)或小型機(jī)器學(xué)習(xí)(ML)/統(tǒng)計程序第八頁,共三十五頁,編輯于2023年,星期六2023/5/318為什么要數(shù)據(jù)挖掘?—可能的應(yīng)用數(shù)據(jù)庫分析和決策支持市場分析和管理針對銷售(targetmarketing),顧客關(guān)系管理,購物籃分析,交叉銷售(crossselling),市場分割(marketsegmentation)風(fēng)險分析與管理預(yù)測,顧客關(guān)系,改進(jìn)保險,質(zhì)量控制,競爭能力分析欺騙檢測與管理其它應(yīng)用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘.DNA數(shù)據(jù)分析第九頁,共三十五頁,編輯于2023年,星期六2023/5/319市場分析與管理(1)用于分析的數(shù)據(jù)源在哪?信用卡交易,會員卡,打折優(yōu)惠卷,顧客投訴電話,(公共)生活時尚研究針對銷售(Targetmarketing)找出顧客群,他們具有相同特征:興趣,收入水平,消費習(xí)慣,等.確定顧客隨時間變化的購買模式個人帳號到聯(lián)合帳號的轉(zhuǎn)變:結(jié)婚,等.交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關(guān)聯(lián)/相關(guān)基于關(guān)聯(lián)信息的預(yù)測第十頁,共三十五頁,編輯于2023年,星期六2023/5/3110市場分析與管理(2)顧客分類(Customerprofiling)數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買什么產(chǎn)品(聚類或分類)識別顧客需求對不同的顧客識別最好的產(chǎn)品使用預(yù)測發(fā)現(xiàn)什么因素影響新顧客提供匯總信息各種多維匯總報告統(tǒng)計的匯總信息(數(shù)據(jù)的中心趨勢和方差)第十一頁,共三十五頁,編輯于2023年,星期六2023/5/3111法人分析和風(fēng)險管理財經(jīng)規(guī)劃和資產(chǎn)評估現(xiàn)金流分析和預(yù)測臨時提出的資產(chǎn)評估交叉組合(cross-sectional)和時間序列分析(金融比率(financial-ratio),趨勢分析,等.)資源規(guī)劃:資源與開銷的匯總與比較競爭:管理競爭者和市場指導(dǎo)對顧客分類和基于類的定價在高度競爭的市場調(diào)整價格策略第十二頁,共三十五頁,編輯于2023年,星期六2023/5/3112欺騙檢測和管理(1)應(yīng)用廣泛用于健康照料,零售,信用卡服務(wù),電訊(電話卡欺騙),等.方法使用歷史數(shù)據(jù)建立欺騙行為模型,使用數(shù)據(jù)挖掘幫助識別類似的實例例汽車保險:檢測這樣的人,他/她假造事故騙取保險賠償洗錢:檢測可疑的金錢交易(USTreasury'sFinancialCrimesEnforcementNetwork)醫(yī)療保險:檢測職業(yè)病患者,醫(yī)生和介紹人圈第十三頁,共三十五頁,編輯于2023年,星期六2023/5/3113欺騙檢測和管理(2)檢測不適當(dāng)?shù)尼t(yī)療處置澳大利亞健康保險會(AustralianHealthInsuranceCommission)發(fā)現(xiàn)許多全面的檢查是請求做的,而不是實際需要的(每年節(jié)省100萬澳元).檢測電話欺騙電話呼叫模式:通話距離,通話時間,每天或每周通話次數(shù).分析偏離期望的模式.英國電訊(BritishTelecom)識別頻繁內(nèi)部通話的呼叫者的離散群,特別是移動電話,超過數(shù)百萬美元的欺騙.零售分析家估計,38%的零售業(yè)萎縮是由于不忠誠的雇員造成的.第十四頁,共三十五頁,編輯于2023年,星期六2023/5/3114其它應(yīng)用運動IBMAdvancedScout分析NBA的統(tǒng)計數(shù)據(jù)(阻擋投籃,助攻,和犯規(guī))獲得了對紐約小牛隊(NewYorkKnicks)和邁艾米熱隊(MiamiHeat)的競爭優(yōu)勢天文借助于數(shù)據(jù)挖掘的幫助,JPL和PalomarObservatory發(fā)現(xiàn)了22顆類星體(quasars)InternetWebSurf-AidIBMSurf-Aid將數(shù)據(jù)挖掘算法用于有關(guān)交易的頁面的Web訪問日志,以發(fā)現(xiàn)顧客喜愛的頁面,分析Web銷售的效果,改進(jìn)Web站點的組織,等.第十五頁,共三十五頁,編輯于2023年,星期六2023/5/3115數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘:KDD的核心.數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫知識任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估第十六頁,共三十五頁,編輯于2023年,星期六2023/5/3116KDD過程的步驟學(xué)習(xí)應(yīng)用領(lǐng)域:相關(guān)的先驗知識和應(yīng)用的目標(biāo)創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預(yù)處理:(可能占全部工作的60%!)數(shù)據(jù)歸約與變換:發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示.選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關(guān)聯(lián),聚類.第十七頁,共三十五頁,編輯于2023年,星期六2023/5/3117KDD過程的步驟(續(xù))選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評估和知識表示可視化,變換,刪除冗余模式,等.發(fā)現(xiàn)知識的使用第十八頁,共三十五頁,編輯于2023年,星期六2023/5/3118數(shù)據(jù)挖掘和商務(wù)智能

提高支持商務(wù)決策的潛能最終用戶商務(wù)分析人員

數(shù)據(jù)分析人員DBA

制定決策數(shù)據(jù)表示可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)探查OLAP,MDA統(tǒng)計分析,查詢和報告數(shù)據(jù)倉庫/數(shù)據(jù)集市數(shù)據(jù)源文字記錄,文件,信息提供者,數(shù)據(jù)庫系統(tǒng),OLTP系統(tǒng)第十九頁,共三十五頁,編輯于2023年,星期六2023/5/3119典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫第二十頁,共三十五頁,編輯于2023年,星期六2023/5/3120數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進(jìn)行?關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)(交易)數(shù)據(jù)庫先進(jìn)的數(shù)據(jù)庫和信息存儲面向?qū)ο蠛蛯ο?關(guān)系數(shù)據(jù)庫空間和時間數(shù)據(jù)時間序列數(shù)據(jù)和流數(shù)據(jù)文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫WWW第二十一頁,共三十五頁,編輯于2023年,星期六2023/5/3121數(shù)據(jù)挖掘功能(1)概念描述:特征和區(qū)分概化,匯總,和比較數(shù)據(jù)特征,例如,干燥和潮濕的地區(qū)關(guān)聯(lián)

(相關(guān)和因果關(guān)系)多維和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”) [support=2%,confidence=60%]contains(T,“computer”)

contains(T,“software”) [support=1%,confidence=75%]第二十二頁,共三十五頁,編輯于2023年,星期六2023/5/3122數(shù)據(jù)挖掘功能(2)分類和預(yù)測找出描述和識別類或概念的模型(函數(shù)),用于將來的預(yù)測例如根據(jù)氣候?qū)曳诸?或根據(jù)單位里程的耗油量對汽車分類表示:判定樹(decision-tree),分類規(guī)則,神經(jīng)網(wǎng)絡(luò)預(yù)測:預(yù)測某些未知或遺漏的數(shù)值值聚類分析類標(biāo)號(Classlabel)未知:對數(shù)據(jù)分組,形成新的類.例如,對房屋分類,找出分布模式聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性第二十三頁,共三十五頁,編輯于2023年,星期六2023/5/3123數(shù)據(jù)挖掘功能(3)孤立點(Outlier)分析孤立點:一個數(shù)據(jù)對象,它與數(shù)據(jù)的一般行為不一致孤立點可以被視為例外,但對于欺騙檢測和罕見事件分析,它是相當(dāng)有用的趨勢和演變分析趨勢和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計的分析第二十四頁,共三十五頁,編輯于2023年,星期六2023/5/3124挖掘出的所有模式都是有趣的嗎?一個數(shù)據(jù)挖掘系統(tǒng)/查詢可以挖掘出數(shù)以千計的模式,并非所有的模式都是有趣的建議的方法:以人為中心,基于查詢的,聚焦的挖掘興趣度度量:一個模式是有趣的如果它是易于被人理解的,在某種程度上在新的或測試數(shù)據(jù)上是有效的,潛在有用的,新穎的,或驗證了用戶希望證實的某種假設(shè)客觀與主觀的興趣度度量:客觀:

基于模式的統(tǒng)計和結(jié)構(gòu),例如,支持度,置信度,等.主觀:

基于用戶對數(shù)據(jù)的確信,例如,出乎意料,新穎性,可行動性(actionability),等.第二十五頁,共三十五頁,編輯于2023年,星期六2023/5/3125能夠只發(fā)現(xiàn)有趣的模式嗎?發(fā)現(xiàn)所有有趣的模式:完全性數(shù)據(jù)挖掘系統(tǒng)能夠發(fā)現(xiàn)所有有趣的模式嗎?關(guān)聯(lián)vs.分類vs.聚類僅搜索有趣的模式:優(yōu)化數(shù)據(jù)挖掘系統(tǒng)能夠僅發(fā)現(xiàn)有趣的模式嗎?方法首先找出所有模式,然后過濾掉不是有趣的那些.僅產(chǎn)生有趣的模式—挖掘查詢優(yōu)化第二十六頁,共三十五頁,編輯于2023年,星期六2023/5/3126數(shù)據(jù)挖掘:多學(xué)科交叉

數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化第二十七頁,共三十五頁,編輯于2023年,星期六2023/5/3127數(shù)據(jù)挖掘分類一般功能描述式數(shù)據(jù)挖掘預(yù)測式數(shù)據(jù)挖掘不同的角度,不同的分類待挖掘的數(shù)據(jù)庫類型待發(fā)現(xiàn)的知識類型所用的技術(shù)類型所適合的應(yīng)用類型第二十八頁,共三十五頁,編輯于2023年,星期六2023/5/3128數(shù)據(jù)挖掘分類的多維視圖待挖掘的數(shù)據(jù)庫關(guān)系的,事務(wù)的,面向?qū)ο蟮?對象-關(guān)系的,主動的,空間的,時間序列的,文本的,多媒體的,異種的,遺產(chǎn)的,WWW,等.所挖掘的知識特征,區(qū)分,關(guān)聯(lián),分類,聚類,趨勢,偏離和孤立點分析,等.多/集成的功能,和多層次上的挖掘所用技術(shù)面向數(shù)據(jù)庫的,數(shù)據(jù)倉庫(OLAP),機(jī)器學(xué)習(xí),統(tǒng)計學(xué),可視化,神經(jīng)網(wǎng)絡(luò),等.適合的應(yīng)用零售,電訊,銀行,欺騙分析,DNA挖掘,股票市場分析,Web挖掘,Web日志分析,等第二十九頁,共三十五頁,編輯于2023年,星期六2023/5/3129OLAP挖掘:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成數(shù)據(jù)挖掘系統(tǒng),DBMS,數(shù)據(jù)倉庫系統(tǒng)的耦合不耦合,松耦合,半緊密耦合,緊密耦合聯(lián)機(jī)分析挖掘挖掘與OLAP技術(shù)的集成交互挖掘多層知識通過下鉆,上卷,轉(zhuǎn)軸,切片,切塊等操作,在不同的抽象層挖掘知識和模式的必要性.多種挖掘功能的集成特征分類,先聚類在關(guān)聯(lián)第三十頁,共三十五頁,編輯于2023年,星期六2023/5/3130OLAM的結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAM引擎OLAP引擎用戶GUIAPI數(shù)據(jù)立方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第3層OLAP/OLAM第2層MDDB第1層數(shù)據(jù)存儲第4層用戶界面過濾和集成過濾Databases挖掘查詢挖掘結(jié)果第三十一頁,共三十五頁,編輯于2023年,星期六2023/5/3131數(shù)據(jù)挖掘的主要問題(1)挖掘方法和用戶交互在數(shù)據(jù)庫中挖掘不同類型的知識在多個抽象層的交互式知識挖掘結(jié)合背景知識數(shù)據(jù)挖掘語言和啟發(fā)式數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表示和可視化處理噪音和不完全數(shù)據(jù)模式評估:興趣度問題性能和可伸縮性(scalability)數(shù)據(jù)挖掘算法的性能和可伸縮性并行,分布和增量的挖掘方法第三十二頁,共三十五頁,編輯于2023年,星期六2023/5/3132數(shù)據(jù)挖掘的主要問題(2)數(shù)據(jù)類型的多樣性問題處理關(guān)系的和復(fù)雜類型的數(shù)據(jù)從異種數(shù)據(jù)庫和全球信息系統(tǒng)(WWW)挖掘信息應(yīng)用和社會效果問題發(fā)現(xiàn)知識的應(yīng)用特定領(lǐng)域的數(shù)據(jù)挖掘工具智能查詢回答過程控制和決策制定發(fā)現(xiàn)知識與已有知識的集成:知識融合問題數(shù)據(jù)安全,完整和私有的保護(hù)第三十三頁,共三十五頁,編輯于2023年,星期六2023/5/3133小結(jié)數(shù)據(jù)挖掘:從大量數(shù)據(jù)中發(fā)現(xiàn)有趣的模式數(shù)據(jù)庫技術(shù)的自然進(jìn)化,具有巨大需求和廣泛應(yīng)用KDD過程包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,變換,數(shù)據(jù)挖掘,模式評估,和知識表示挖掘可以在各種數(shù)據(jù)存儲上進(jìn)行數(shù)據(jù)挖掘功能:特征,區(qū)分,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論