數(shù)據(jù)挖掘概念與技術_第1頁
數(shù)據(jù)挖掘概念與技術_第2頁
數(shù)據(jù)挖掘概念與技術_第3頁
數(shù)據(jù)挖掘概念與技術_第4頁
數(shù)據(jù)挖掘概念與技術_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘:概念與技術JiaweiHanandMichelineKamber著MonrganKaufmannPublishersInc.范明孟小峰等譯機械工業(yè)出版社1/12/2023151CTO下載-數(shù)據(jù)挖掘概念與技術1/12/2023251CTO下載-數(shù)據(jù)挖掘概念與技術1/12/2023351CTO下載-數(shù)據(jù)挖掘概念與技術第1章引言英文幻燈片制作:JiaweiHan中文幻燈片編譯:范明1/12/2023451CTO下載-數(shù)據(jù)挖掘概念與技術第一章引論動機:為什么要數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進行?數(shù)據(jù)挖掘功能所有的模式都是有趣的嗎?數(shù)據(jù)挖掘系統(tǒng)分類數(shù)據(jù)挖掘的主要問題1/12/2023551CTO下載-數(shù)據(jù)挖掘概念與技術動機:需要是發(fā)明之母數(shù)據(jù)爆炸問題自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術導致大量數(shù)據(jù)存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫,和其它信息存儲中我們正被數(shù)據(jù)淹沒,但卻缺乏知識解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與聯(lián)機分析處理(OLAP)從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(規(guī)則,規(guī)律性,模式,限制等)1/12/2023651CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)處理技術的演進1960s:數(shù)據(jù)收集,數(shù)據(jù)庫創(chuàng)建,IMS和網(wǎng)狀DBMS1970s:關系數(shù)據(jù)庫模型,關系DBMS實現(xiàn)1980s:RDBMS,先進的數(shù)據(jù)模型(擴充關系的,OO,演繹的,等.)和面向應用的DBMS(空間的,科學的,工程的,等.)1990s—2000s:數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫,和Web數(shù)據(jù)庫1/12/2023751CTO下載-數(shù)據(jù)挖掘概念與技術什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(數(shù)據(jù)庫中知識發(fā)現(xiàn)):從大型數(shù)據(jù)庫中提取有趣的(非平凡的,

蘊涵的,先前未知的

并且是潛在有用的)

信息或模式其它叫法和“insidestories”:數(shù)據(jù)挖掘:用詞不當?數(shù)據(jù)庫中知識發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識提取(knowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.專家系統(tǒng)或小型機器學習(ML)/統(tǒng)計程序1/12/2023851CTO下載-數(shù)據(jù)挖掘概念與技術為什么要數(shù)據(jù)挖掘?—可能的應用數(shù)據(jù)庫分析和決策支持市場分析和管理針對銷售(targetmarketing),顧客關系管理,購物籃分析,交叉銷售(crossselling),市場分割(marketsegmentation)風險分析與管理預測,顧客關系,改進保險,質量控制,競爭能力分析欺騙檢測與管理其它應用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘.DNA數(shù)據(jù)分析1/12/2023951CTO下載-數(shù)據(jù)挖掘概念與技術市場分析與管理(1)用于分析的數(shù)據(jù)源在哪?信用卡交易,會員卡,打折優(yōu)惠卷,顧客投訴電話,(公共)生活時尚研究針對銷售(Targetmarketing)找出顧客群,他們具有相同特征:興趣,收入水平,消費習慣,等.確定顧客隨時間變化的購買模式個人帳號到聯(lián)合帳號的轉變:結婚,等.交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關聯(lián)/相關基于關聯(lián)信息的預測1/12/20231051CTO下載-數(shù)據(jù)挖掘概念與技術市場分析與管理(2)顧客分類(Customerprofiling)數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買什么產(chǎn)品(聚類或分類)識別顧客需求對不同的顧客識別最好的產(chǎn)品使用預測發(fā)現(xiàn)什么因素影響新顧客提供匯總信息各種多維匯總報告統(tǒng)計的匯總信息(數(shù)據(jù)的中心趨勢和方差)1/12/20231151CTO下載-數(shù)據(jù)挖掘概念與技術法人分析和風險管理財經(jīng)規(guī)劃和資產(chǎn)評估現(xiàn)金流分析和預測臨時提出的資產(chǎn)評估交叉組合(cross-sectional)和時間序列分析(金融比率(financial-ratio),趨勢分析,等.)資源規(guī)劃:資源與開銷的匯總與比較競爭:管理競爭者和市場指導對顧客分類和基于類的定價在高度競爭的市場調整價格策略1/12/20231251CTO下載-數(shù)據(jù)挖掘概念與技術欺騙檢測和管理(1)應用廣泛用于健康照料,零售,信用卡服務,電訊(電話卡欺騙),等.方法使用歷史數(shù)據(jù)建立欺騙行為模型,使用數(shù)據(jù)挖掘幫助識別類似的實例例汽車保險:檢測這樣的人,他/她假造事故騙取保險賠償洗錢:檢測可疑的金錢交易(USTreasury'sFinancialCrimesEnforcementNetwork)醫(yī)療保險:檢測職業(yè)病患者,醫(yī)生和介紹人圈1/12/20231351CTO下載-數(shù)據(jù)挖掘概念與技術欺騙檢測和管理(2)檢測不適當?shù)尼t(yī)療處置澳大利亞健康保險會(AustralianHealthInsuranceCommission)發(fā)現(xiàn)許多全面的檢查是請求做的,而不是實際需要的(每年節(jié)省100萬澳元).檢測電話欺騙電話呼叫模式:通話距離,通話時間,每天或每周通話次數(shù).分析偏離期望的模式.英國電訊(BritishTelecom)識別頻繁內部通話的呼叫者的離散群,特別是移動電話,超過數(shù)百萬美元的欺騙.零售分析家估計,38%的零售業(yè)萎縮是由于不忠誠的雇員造成的.1/12/20231451CTO下載-數(shù)據(jù)挖掘概念與技術其它應用運動IBMAdvancedScout分析NBA的統(tǒng)計數(shù)據(jù)(阻擋投籃,助攻,和犯規(guī))獲得了對紐約小牛隊(NewYorkKnicks)和邁艾米熱隊(MiamiHeat)的競爭優(yōu)勢天文借助于數(shù)據(jù)挖掘的幫助,JPL和PalomarObservatory發(fā)現(xiàn)了22顆類星體(quasars)InternetWebSurf-AidIBMSurf-Aid將數(shù)據(jù)挖掘算法用于有關交易的頁面的Web訪問日志,以發(fā)現(xiàn)顧客喜愛的頁面,分析Web銷售的效果,改進Web站點的組織,等.1/12/20231551CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘:KDD的核心.數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫知識任務相關數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估1/12/20231651CTO下載-數(shù)據(jù)挖掘概念與技術KDD過程的步驟學習應用領域:相關的先驗知識和應用的目標創(chuàng)建目標數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預處理:(可能占全部工作的60%!)數(shù)據(jù)歸約與變換:發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示.選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關聯(lián),聚類.1/12/20231751CTO下載-數(shù)據(jù)挖掘概念與技術KDD過程的步驟(續(xù))選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評估和知識表示可視化,變換,刪除冗余模式,等.發(fā)現(xiàn)知識的使用1/12/20231851CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘和商務智能

提高支持商務決策的潛能最終用戶商務分析人員數(shù)據(jù)分析人員DBA

制定決策數(shù)據(jù)表示可視化技術數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)探查OLAP,MDA統(tǒng)計分析,查詢和報告數(shù)據(jù)倉庫/數(shù)據(jù)集市數(shù)據(jù)源文字記錄,文件,信息提供者,數(shù)據(jù)庫系統(tǒng),OLTP系統(tǒng)1/12/20231951CTO下載-數(shù)據(jù)挖掘概念與技術典型的數(shù)據(jù)挖掘系統(tǒng)結構數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫1/12/20232051CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進行?關系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(交易)數(shù)據(jù)庫先進的數(shù)據(jù)庫和信息存儲面向對象和對象-關系數(shù)據(jù)庫空間和時間數(shù)據(jù)時間序列數(shù)據(jù)和流數(shù)據(jù)文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫WWW1/12/20232151CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘功能(1)概念描述:特征和區(qū)分概化,匯總,和比較數(shù)據(jù)特征,例如,干燥和潮濕的地區(qū)關聯(lián)(相關和因果關系)多維和單維關聯(lián)age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”) [support=2%,confidence=60%]contains(T,“computer”)

contains(T,“software”) [support=1%,confidence=75%]1/12/20232251CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘功能(2)分類和預測找出描述和識別類或概念的模型(函數(shù)),用于將來的預測例如根據(jù)氣候對國家分類,或根據(jù)單位里程的耗油量對汽車分類表示:判定樹(decision-tree),分類規(guī)則,神經(jīng)網(wǎng)絡預測:預測某些未知或遺漏的數(shù)值值聚類分析類標號(Classlabel)未知:對數(shù)據(jù)分組,形成新的類.例如,對房屋分類,找出分布模式聚類原則:最大化類內的相似性,最小化類間的相似性1/12/20232351CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘功能(3)孤立點(Outlier)分析孤立點:一個數(shù)據(jù)對象,它與數(shù)據(jù)的一般行為不一致孤立點可以被視為例外,但對于欺騙檢測和罕見事件分析,它是相當有用的趨勢和演變分析趨勢和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計的分析1/12/20232451CTO下載-數(shù)據(jù)挖掘概念與技術挖掘出的所有模式都是有趣的嗎?一個數(shù)據(jù)挖掘系統(tǒng)/查詢可以挖掘出數(shù)以千計的模式,并非所有的模式都是有趣的建議的方法:以人為中心,基于查詢的,聚焦的挖掘興趣度度量:一個模式是有趣的如果它是易于被人理解的,在某種程度上在新的或測試數(shù)據(jù)上是有效的,潛在有用的,新穎的,或驗證了用戶希望證實的某種假設客觀與主觀的興趣度度量:客觀:基于模式的統(tǒng)計和結構,例如,支持度,置信度,等.主觀:基于用戶對數(shù)據(jù)的確信,例如,出乎意料,新穎性,可行動性(actionability),等.1/12/20232551CTO下載-數(shù)據(jù)挖掘概念與技術能夠只發(fā)現(xiàn)有趣的模式嗎?發(fā)現(xiàn)所有有趣的模式:完全性數(shù)據(jù)挖掘系統(tǒng)能夠發(fā)現(xiàn)所有有趣的模式嗎?關聯(lián)vs.分類vs.聚類僅搜索有趣的模式:優(yōu)化數(shù)據(jù)挖掘系統(tǒng)能夠僅發(fā)現(xiàn)有趣的模式嗎?方法首先找出所有模式,然后過濾掉不是有趣的那些.僅產(chǎn)生有趣的模式—挖掘查詢優(yōu)化1/12/20232651CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘:多學科交叉

數(shù)據(jù)挖掘數(shù)據(jù)庫技術統(tǒng)計學其它學科信息科學機器學習可視化1/12/20232751CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘分類一般功能描述式數(shù)據(jù)挖掘預測式數(shù)據(jù)挖掘不同的角度,不同的分類待挖掘的數(shù)據(jù)庫類型待發(fā)現(xiàn)的知識類型所用的技術類型所適合的應用類型1/12/20232851CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘分類的多維視圖待挖掘的數(shù)據(jù)庫關系的,事務的,面向對象的,對象-關系的,主動的,空間的,時間序列的,文本的,多媒體的,異種的,遺產(chǎn)的,WWW,等.所挖掘的知識特征,區(qū)分,關聯(lián),分類,聚類,趨勢,偏離和孤立點分析,等.多/集成的功能,和多層次上的挖掘所用技術面向數(shù)據(jù)庫的,數(shù)據(jù)倉庫(OLAP),機器學習,統(tǒng)計學,可視化,神經(jīng)網(wǎng)絡,等.適合的應用零售,電訊,銀行,欺騙分析,DNA挖掘,股票市場分析,Web挖掘,Web日志分析,等1/12/20232951CTO下載-數(shù)據(jù)挖掘概念與技術OLAP挖掘:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成數(shù)據(jù)挖掘系統(tǒng),DBMS,數(shù)據(jù)倉庫系統(tǒng)的耦合不耦合,松耦合,半緊密耦合,緊密耦合聯(lián)機分析挖掘挖掘與OLAP技術的集成交互挖掘多層知識通過下鉆,上卷,轉軸,切片,切塊等操作,在不同的抽象層挖掘知識和模式的必要性.多種挖掘功能的集成特征分類,先聚類在關聯(lián)1/12/20233051CTO下載-數(shù)據(jù)挖掘概念與技術OLAM的結構數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAM引擎OLAP引擎用戶GUIAPI數(shù)據(jù)立方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第3層OLAP/OLAM第2層MDDB第1層數(shù)據(jù)存儲第4層用戶界面過濾和集成過濾Databases挖掘查詢挖掘結果1/12/20233151CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘的主要問題(1)挖掘方法和用戶交互在數(shù)據(jù)庫中挖掘不同類型的知識在多個抽象層的交互式知識挖掘結合背景知識數(shù)據(jù)挖掘語言和啟發(fā)式數(shù)據(jù)挖掘數(shù)據(jù)挖掘結果的表示和可視化處理噪音和不完全數(shù)據(jù)模式評估:興趣度問題性能和可伸縮性(scalability)數(shù)據(jù)挖掘算法的性能和可伸縮性并行,分布和增量的挖掘方法1/12/20233251CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘的主要問題(2)數(shù)據(jù)類型的多樣性問題處理關系的和復雜類型的數(shù)據(jù)從異種數(shù)據(jù)庫和全球信息系統(tǒng)(WWW)挖掘信息應用和社會效果問題發(fā)現(xiàn)知識的應用特定領域的數(shù)據(jù)挖掘工具智能查詢回答過程控制和決策制定發(fā)現(xiàn)知識與已有知識的集成:知識融合問題數(shù)據(jù)安全,完整和私有的保護1/12/20233351CTO下載-數(shù)據(jù)挖掘概念與技術小結數(shù)據(jù)挖掘:從大量數(shù)據(jù)中發(fā)現(xiàn)有趣的模式數(shù)據(jù)庫技術的自然進化,具有巨大需求和廣泛應用KDD過程包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,變換,數(shù)據(jù)挖掘,模式評估,和知識表示挖掘可以在各種數(shù)據(jù)存儲上進行數(shù)據(jù)挖掘功能:特征,區(qū)分,關聯(lián),分類,聚類,孤立點和趨勢分析,等.數(shù)據(jù)挖掘系統(tǒng)的分類數(shù)據(jù)挖掘的主要問題1/12/20233451CTO下載-數(shù)據(jù)挖掘概念與技術數(shù)據(jù)挖掘界簡史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,etc.1/12/20233551CTO下載-數(shù)據(jù)挖掘概念與技術參考文獻源DataminingandKDD(SIGKDDmemberCDROM):Conferenceproceedings:KDD,andothers,suchasPKDD,PAKDD,etc.Journal:DataMiningandKnowledgeDiscoveryDatabasefield(SIGMODmemberCDROM):Conferenceproceedings:ACM-SIGMOD,ACM-PODS,VLDB,ICDE,EDBT,DASFAAJournals:ACM-TODS,J.ACM,IEEE-TKDE,JIIS,etc.AIandMachineLearning:Conferenceproceedings:Machinelearning,AAAI,IJCAI,etc.Journals:MachineLearning,ArtificialIntelligence,etc.Statistics:Conferenceproceedings:JointStat.Meeting,etc.Journals:Annalsofstatistics,etc.Visualization:Conferenceproceedings:CHI,etc.Journals:IEEETrans.visualizationandcompute

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論