




已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘:概念與技術(shù),JiaweiHanandMichelineKamber著MonrganKaufmannPublishersInc.范明孟小峰等譯機(jī)械工業(yè)出版社,22.05.2020,.,2,22.05.2020,.,3,第1章引言,英文幻燈片制作:JiaweiHan中文幻燈片編譯:范明,22.05.2020,.,5,第一章引論,動機(jī):為什么要數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進(jìn)行?數(shù)據(jù)挖掘功能所有的模式都是有趣的嗎?數(shù)據(jù)挖掘系統(tǒng)分類數(shù)據(jù)挖掘的主要問題,22.05.2020,.,6,動機(jī):需要是發(fā)明之母,數(shù)據(jù)爆炸問題自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫,和其它信息存儲中我們正被數(shù)據(jù)淹沒,但卻缺乏知識解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理(OLAP)從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(規(guī)則,規(guī)律性,模式,限制等),22.05.2020,.,7,數(shù)據(jù)處理技術(shù)的演進(jìn),1960s:數(shù)據(jù)收集,數(shù)據(jù)庫創(chuàng)建,IMS和網(wǎng)狀DBMS1970s:關(guān)系數(shù)據(jù)庫模型,關(guān)系DBMS實現(xiàn)1980s:RDBMS,先進(jìn)的數(shù)據(jù)模型(擴(kuò)充關(guān)系的,OO,演繹的,等.)和面向應(yīng)用的DBMS(空間的,科學(xué)的,工程的,等.)1990s2000s:數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫,和Web數(shù)據(jù)庫,22.05.2020,.,8,什么是數(shù)據(jù)挖掘?,數(shù)據(jù)挖掘(數(shù)據(jù)庫中知識發(fā)現(xiàn)):從大型數(shù)據(jù)庫中提取有趣的(非平凡的,蘊涵的,先前未知的并且是潛在有用的)信息或模式其它叫法和“insidestories”:數(shù)據(jù)挖掘:用詞不當(dāng)?數(shù)據(jù)庫中知識發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識提取(knowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務(wù)智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.專家系統(tǒng)或小型機(jī)器學(xué)習(xí)(ML)/統(tǒng)計程序,22.05.2020,.,9,為什么要數(shù)據(jù)挖掘?可能的應(yīng)用,數(shù)據(jù)庫分析和決策支持市場分析和管理針對銷售(targetmarketing),顧客關(guān)系管理,購物籃分析,交叉銷售(crossselling),市場分割(marketsegmentation)風(fēng)險分析與管理預(yù)測,顧客關(guān)系,改進(jìn)保險,質(zhì)量控制,競爭能力分析欺騙檢測與管理其它應(yīng)用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘.DNA數(shù)據(jù)分析,22.05.2020,.,10,市場分析與管理(1),用于分析的數(shù)據(jù)源在哪?信用卡交易,會員卡,打折優(yōu)惠卷,顧客投訴電話,(公共)生活時尚研究針對銷售(Targetmarketing)找出顧客群,他們具有相同特征:興趣,收入水平,消費習(xí)慣,等.確定顧客隨時間變化的購買模式個人帳號到聯(lián)合帳號的轉(zhuǎn)變:結(jié)婚,等.交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關(guān)聯(lián)/相關(guān)基于關(guān)聯(lián)信息的預(yù)測,22.05.2020,.,11,市場分析與管理(2),顧客分類(Customerprofiling)數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買什么產(chǎn)品(聚類或分類)識別顧客需求對不同的顧客識別最好的產(chǎn)品使用預(yù)測發(fā)現(xiàn)什么因素影響新顧客提供匯總信息各種多維匯總報告統(tǒng)計的匯總信息(數(shù)據(jù)的中心趨勢和方差),22.05.2020,.,12,法人分析和風(fēng)險管理,財經(jīng)規(guī)劃和資產(chǎn)評估現(xiàn)金流分析和預(yù)測臨時提出的資產(chǎn)評估交叉組合(cross-sectional)和時間序列分析(金融比率(financial-ratio),趨勢分析,等.)資源規(guī)劃:資源與開銷的匯總與比較競爭:管理競爭者和市場指導(dǎo)對顧客分類和基于類的定價在高度競爭的市場調(diào)整價格策略,22.05.2020,.,13,欺騙檢測和管理(1),應(yīng)用廣泛用于健康照料,零售,信用卡服務(wù),電訊(電話卡欺騙),等.方法使用歷史數(shù)據(jù)建立欺騙行為模型,使用數(shù)據(jù)挖掘幫助識別類似的實例例汽車保險:檢測這樣的人,他/她假造事故騙取保險賠償洗錢:檢測可疑的金錢交易(USTreasurysFinancialCrimesEnforcementNetwork)醫(yī)療保險:檢測職業(yè)病患者,醫(yī)生和介紹人圈,22.05.2020,.,14,欺騙檢測和管理(2),檢測不適當(dāng)?shù)尼t(yī)療處置澳大利亞健康保險會(AustralianHealthInsuranceCommission)發(fā)現(xiàn)許多全面的檢查是請求做的,而不是實際需要的(每年節(jié)省100萬澳元).檢測電話欺騙電話呼叫模式:通話距離,通話時間,每天或每周通話次數(shù).分析偏離期望的模式.英國電訊(BritishTelecom)識別頻繁內(nèi)部通話的呼叫者的離散群,特別是移動電話,超過數(shù)百萬美元的欺騙.零售分析家估計,38%的零售業(yè)萎縮是由于不忠誠的雇員造成的.,22.05.2020,.,15,其它應(yīng)用,運動IBMAdvancedScout分析NBA的統(tǒng)計數(shù)據(jù)(阻擋投籃,助攻,和犯規(guī))獲得了對紐約小牛隊(NewYorkKnicks)和邁艾米熱隊(MiamiHeat)的競爭優(yōu)勢天文借助于數(shù)據(jù)挖掘的幫助,JPL和PalomarObservatory發(fā)現(xiàn)了22顆類星體(quasars)InternetWebSurf-AidIBMSurf-Aid將數(shù)據(jù)挖掘算法用于有關(guān)交易的頁面的Web訪問日志,以發(fā)現(xiàn)顧客喜愛的頁面,分析Web銷售的效果,改進(jìn)Web站點的組織,等.,22.05.2020,.,16,數(shù)據(jù)挖掘過程,數(shù)據(jù)挖掘:KDD的核心.,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)庫,數(shù)據(jù)倉庫,知識,任務(wù)相關(guān)數(shù)據(jù),選擇,數(shù)據(jù)挖掘,模式評估,22.05.2020,.,17,KDD過程的步驟,學(xué)習(xí)應(yīng)用領(lǐng)域:相關(guān)的先驗知識和應(yīng)用的目標(biāo)創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預(yù)處理:(可能占全部工作的60%!)數(shù)據(jù)歸約與變換:發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示.選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關(guān)聯(lián),聚類.,22.05.2020,.,18,KDD過程的步驟(續(xù)),選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評估和知識表示可視化,變換,刪除冗余模式,等.發(fā)現(xiàn)知識的使用,22.05.2020,.,19,數(shù)據(jù)挖掘和商務(wù)智能,提高支持商務(wù)決策的潛能,最終用戶,商務(wù)分析人員,數(shù)據(jù)分析人員,DBA,制定決策,數(shù)據(jù)表示,可視化技術(shù),數(shù)據(jù)挖掘,信息發(fā)現(xiàn),數(shù)據(jù)探查,OLAP,MDA,統(tǒng)計分析,查詢和報告,數(shù)據(jù)倉庫/數(shù)據(jù)集市,數(shù)據(jù)源,文字記錄,文件,信息提供者,數(shù)據(jù)庫系統(tǒng),OLTP系統(tǒng),22.05.2020,.,20,典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),數(shù)據(jù)倉庫,數(shù)據(jù)清理數(shù)據(jù)集成,過濾,數(shù)據(jù)庫,數(shù)據(jù)庫或數(shù)據(jù)倉庫,數(shù)據(jù)挖掘引擎,模式評估,圖形用戶界面,知識庫,22.05.2020,.,21,數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進(jìn)行?,關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)(交易)數(shù)據(jù)庫先進(jìn)的數(shù)據(jù)庫和信息存儲面向?qū)ο蠛蛯ο?關(guān)系數(shù)據(jù)庫空間和時間數(shù)據(jù)時間序列數(shù)據(jù)和流數(shù)據(jù)文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫WWW,22.05.2020,.,22,數(shù)據(jù)挖掘功能(1),概念描述:特征和區(qū)分概化,匯總,和比較數(shù)據(jù)特征,例如,干燥和潮濕的地區(qū)關(guān)聯(lián)(相關(guān)和因果關(guān)系)多維和單維關(guān)聯(lián)age(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%contains(T,“computer”)contains(T,“software”)support=1%,confidence=75%,22.05.2020,.,23,數(shù)據(jù)挖掘功能(2),分類和預(yù)測找出描述和識別類或概念的模型(函數(shù)),用于將來的預(yù)測例如根據(jù)氣候?qū)曳诸?或根據(jù)單位里程的耗油量對汽車分類表示:判定樹(decision-tree),分類規(guī)則,神經(jīng)網(wǎng)絡(luò)預(yù)測:預(yù)測某些未知或遺漏的數(shù)值值聚類分析類標(biāo)號(Classlabel)未知:對數(shù)據(jù)分組,形成新的類.例如,對房屋分類,找出分布模式聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性,22.05.2020,.,24,數(shù)據(jù)挖掘功能(3),孤立點(Outlier)分析孤立點:一個數(shù)據(jù)對象,它與數(shù)據(jù)的一般行為不一致孤立點可以被視為例外,但對于欺騙檢測和罕見事件分析,它是相當(dāng)有用的趨勢和演變分析趨勢和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計的分析,22.05.2020,.,25,挖掘出的所有模式都是有趣的嗎?,一個數(shù)據(jù)挖掘系統(tǒng)/查詢可以挖掘出數(shù)以千計的模式,并非所有的模式都是有趣的建議的方法:以人為中心,基于查詢的,聚焦的挖掘興趣度度量:一個模式是有趣的如果它是易于被人理解的,在某種程度上在新的或測試數(shù)據(jù)上是有效的,潛在有用的,新穎的,或驗證了用戶希望證實的某種假設(shè)客觀與主觀的興趣度度量:客觀:基于模式的統(tǒng)計和結(jié)構(gòu),例如,支持度,置信度,等.主觀:基于用戶對數(shù)據(jù)的確信,例如,出乎意料,新穎性,可行動性(actionability),等.,22.05.2020,.,26,能夠只發(fā)現(xiàn)有趣的模式嗎?,發(fā)現(xiàn)所有有趣的模式:完全性數(shù)據(jù)挖掘系統(tǒng)能夠發(fā)現(xiàn)所有有趣的模式嗎?關(guān)聯(lián)vs.分類vs.聚類僅搜索有趣的模式:優(yōu)化數(shù)據(jù)挖掘系統(tǒng)能夠僅發(fā)現(xiàn)有趣的模式嗎?方法首先找出所有模式,然后過濾掉不是有趣的那些.僅產(chǎn)生有趣的模式挖掘查詢優(yōu)化,22.05.2020,.,27,數(shù)據(jù)挖掘:多學(xué)科交叉,數(shù)據(jù)挖掘,數(shù)據(jù)庫技術(shù),統(tǒng)計學(xué),其它學(xué)科,信息科學(xué),機(jī)器學(xué)習(xí),可視化,22.05.2020,.,28,數(shù)據(jù)挖掘分類,一般功能描述式數(shù)據(jù)挖掘預(yù)測式數(shù)據(jù)挖掘不同的角度,不同的分類待挖掘的數(shù)據(jù)庫類型待發(fā)現(xiàn)的知識類型所用的技術(shù)類型所適合的應(yīng)用類型,22.05.2020,.,29,數(shù)據(jù)挖掘分類的多維視圖,待挖掘的數(shù)據(jù)庫關(guān)系的,事務(wù)的,面向?qū)ο蟮?對象-關(guān)系的,主動的,空間的,時間序列的,文本的,多媒體的,異種的,遺產(chǎn)的,WWW,等.所挖掘的知識特征,區(qū)分,關(guān)聯(lián),分類,聚類,趨勢,偏離和孤立點分析,等.多/集成的功能,和多層次上的挖掘所用技術(shù)面向數(shù)據(jù)庫的,數(shù)據(jù)倉庫(OLAP),機(jī)器學(xué)習(xí),統(tǒng)計學(xué),可視化,神經(jīng)網(wǎng)絡(luò),等.適合的應(yīng)用零售,電訊,銀行,欺騙分析,DNA挖掘,股票市場分析,Web挖掘,Web日志分析,等,22.05.2020,.,30,OLAP挖掘:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成,數(shù)據(jù)挖掘系統(tǒng),DBMS,數(shù)據(jù)倉庫系統(tǒng)的耦合不耦合,松耦合,半緊密耦合,緊密耦合聯(lián)機(jī)分析挖掘挖掘與OLAP技術(shù)的集成交互挖掘多層知識通過下鉆,上卷,轉(zhuǎn)軸,切片,切塊等操作,在不同的抽象層挖掘知識和模式的必要性.多種挖掘功能的集成特征分類,先聚類在關(guān)聯(lián),22.05.2020,.,31,OLAM的結(jié)構(gòu),數(shù)據(jù)倉庫,元數(shù)據(jù),MDDB,OLAM引擎,OLAP引擎,用戶GUIAPI,數(shù)據(jù)立方體API,數(shù)據(jù)庫API,數(shù)據(jù)清理,數(shù)據(jù)集成,第3層OLAP/OLAM,第2層MDDB,第1層數(shù)據(jù)存儲,第4層用戶界面,過濾和集成,過濾,Databases,挖掘查詢,挖掘結(jié)果,22.05.2020,.,32,數(shù)據(jù)挖掘的主要問題(1),挖掘方法和用戶交互在數(shù)據(jù)庫中挖掘不同類型的知識在多個抽象層的交互式知識挖掘結(jié)合背景知識數(shù)據(jù)挖掘語言和啟發(fā)式數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表示和可視化處理噪音和不完全數(shù)據(jù)模式評估:興趣度問題性能和可伸縮性(scalability)數(shù)據(jù)挖掘算法的性能和可伸縮性并行,分布和增量的挖掘方法,22.05.2020,.,33,數(shù)據(jù)挖掘的主要問題(2),數(shù)據(jù)類型的多樣性問題處理關(guān)系的和復(fù)雜類型的數(shù)據(jù)從異種數(shù)據(jù)庫和全球信息系統(tǒng)(WWW)挖掘信息應(yīng)用和社會效果問題發(fā)現(xiàn)知識的應(yīng)用特定領(lǐng)域的數(shù)據(jù)挖掘工具智能查詢回答過程控制和決策制定發(fā)現(xiàn)知識與已有知識的集成:知識融合問題數(shù)據(jù)安全,完整和私有的保護(hù),22.05.2020,.,34,小結(jié),數(shù)據(jù)挖掘:從大量數(shù)據(jù)中發(fā)現(xiàn)有趣的模式數(shù)據(jù)庫技術(shù)的自然進(jìn)化,具有巨大需求和廣泛應(yīng)用KDD過程包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,變換,數(shù)據(jù)挖掘,模式評估,和知識表示挖掘可以在各種數(shù)據(jù)存儲上進(jìn)行數(shù)據(jù)挖掘功能:特征,區(qū)分,關(guān)聯(lián),分類,聚類,孤立點和趨勢分析,等.數(shù)據(jù)挖掘系統(tǒng)的分類數(shù)據(jù)挖掘的主要問題,22.05.2020,.,35,數(shù)據(jù)挖掘界簡史,1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,etc.,22.05.2020,.,36,參考文獻(xiàn)源,DataminingandKDD(SIGKDDmemberCDROM):Conferenceproceedings:KDD,andothers,suchasPKDD,PAKDD,etc.Journal:DataMiningandKnowledgeDiscoveryDatabasefield(SIGMODmemberCDROM):Conferenceproceedings:ACM-SIGMOD,ACM-PODS,VLDB,ICDE,EDBT,DASFAAJournals:ACM-TODS,J.ACM,IEEE-TKDE,JIIS,etc.AIandMachineLearning:Conferenceproceedings:Machinelearning,AAAI,IJCAI,etc.Journals:MachineLearning,ArtificialIntelligence,etc.Statistics:Conferenceproceedings:JointStat.Meeting,etc.Journals:Annalsofstatistics,etc.Visualization:Conferenceproceedings:CHI,etc.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省2025屆數(shù)學(xué)七下期末學(xué)業(yè)質(zhì)量監(jiān)測試題含解析
- 企業(yè)戰(zhàn)略影響下的可持續(xù)發(fā)展路徑試題及答案
- 續(xù)方管理中的難點與對策計劃
- 重慶十一中2025屆數(shù)學(xué)八下期末達(dá)標(biāo)檢測模擬試題含解析
- 學(xué)期工作總結(jié)與展望計劃
- 江蘇省蘇州市立達(dá)中學(xué)2025屆數(shù)學(xué)七下期末學(xué)業(yè)質(zhì)量監(jiān)測試題含解析
- 急診醫(yī)學(xué)志愿者的參與計劃
- 新年實現(xiàn)財務(wù)管理的工作安排計劃
- 緊貼時事的計算機(jī)二級VB試題及答案
- 水務(wù)管理數(shù)字化轉(zhuǎn)型分析計劃
- 階梯型獨立基礎(chǔ)(承臺)配筋率驗算
- 醫(yī)院醫(yī)生電子處方箋模板-可直接改數(shù)據(jù)打印使用
- 織金新型能源化工基地污水處理廠及配套管網(wǎng)工程-茶店污水處理廠環(huán)評報告
- 陜西省2023年中考英語真題(附答案)
- 中醫(yī)內(nèi)科學(xué)-咳嗽課件
- 夏商周考古-鄭州大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 左右與東南西北
- 緊固件名稱中英文對照表
- 失眠之中醫(yī)問診單
- 銀行個人業(yè)務(wù)柜面操作風(fēng)險點防控手冊(印刷版)模版
- 幼兒園開辟小菜園的教育價值及實施策略探究 論文
評論
0/150
提交評論