數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1簡(jiǎn)介課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1簡(jiǎn)介課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1簡(jiǎn)介課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1簡(jiǎn)介課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1簡(jiǎn)介課件_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

DataWarehouseandDataMining數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

DataWarehouseandD數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘2動(dòng)機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問(wèn)題自動(dòng)的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其它信息存儲(chǔ)器中我們正被數(shù)據(jù)淹沒(méi),但卻缺乏知識(shí)解決辦法:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理(OLAP)從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取有趣的知識(shí)(規(guī)則,規(guī)律性,模式,限制等)3動(dòng)機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問(wèn)題3什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn))從大型數(shù)據(jù)庫(kù)中提取有趣的(非平凡的、蘊(yùn)涵的、先前未知的且是潛在有用的)

信息或模式其它名稱數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識(shí)提?。╧nowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務(wù)智能(businessintelligence)等4什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn))4數(shù)據(jù)挖掘可能的應(yīng)用數(shù)據(jù)庫(kù)分析和決策支持市場(chǎng)分析和管理:針對(duì)銷售(targetmarketing),顧客關(guān)系管理,購(gòu)物籃分析,交叉銷售(crossselling),市場(chǎng)分割(marketsegmentation)風(fēng)險(xiǎn)分析與管理:預(yù)測(cè),顧客關(guān)系,改進(jìn)保險(xiǎn),質(zhì)量控制,競(jìng)爭(zhēng)能力分析欺騙檢測(cè)與管理5數(shù)據(jù)挖掘可能的應(yīng)用數(shù)據(jù)庫(kù)分析和決策支持5數(shù)據(jù)挖掘可能的應(yīng)用其它應(yīng)用文本挖掘(新聞組、email、文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘DNA數(shù)據(jù)分析6數(shù)據(jù)挖掘可能的應(yīng)用其它應(yīng)用6數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向7數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘7數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)知識(shí)任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估8數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)挖掘與任務(wù)相關(guān)的數(shù)據(jù)知識(shí)種類領(lǐng)域知識(shí)興趣度量和閾值表示9數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)挖掘與任務(wù)相關(guān)的KDD的步驟學(xué)習(xí)應(yīng)用領(lǐng)域相關(guān)的先驗(yàn)知識(shí)和應(yīng)用的目標(biāo)創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預(yù)處理(可能占全部工作的60%!)數(shù)據(jù)歸約與變換發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關(guān)聯(lián),聚類10KDD的步驟學(xué)習(xí)應(yīng)用領(lǐng)域10KDD的步驟選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評(píng)估和知識(shí)表示可視化,變換,刪除冗余模式,等發(fā)現(xiàn)知識(shí)的使用11KDD的步驟選擇挖掘算法11典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)知識(shí)庫(kù)圖形用戶界面模式評(píng)估數(shù)據(jù)挖掘引擎數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)過(guò)濾數(shù)據(jù)清洗和集成12典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)知識(shí)庫(kù)圖形用戶界面模式評(píng)估數(shù)據(jù)挖掘引擎數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向13數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘13數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行平面文件關(guān)系數(shù)據(jù)庫(kù)包括面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫(kù)事務(wù)(交易)數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)和遺產(chǎn)數(shù)據(jù)庫(kù)14數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行平面文件14數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源清洗、裝載、轉(zhuǎn)換、集成數(shù)據(jù)倉(cāng)庫(kù)查詢及分析工具客戶15數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源清洗、裝載、數(shù)據(jù)倉(cāng)庫(kù)查數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源數(shù)據(jù)挖掘文件數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)網(wǎng)頁(yè)……16數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘文件數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)查詢/報(bào)表分析數(shù)據(jù)挖掘輸出OLAPserverOLAPserver監(jiān)控管理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市元數(shù)據(jù)存儲(chǔ)清洗裝載轉(zhuǎn)換集成操作型數(shù)據(jù)庫(kù)外部數(shù)據(jù)源Toptier:前端工具M(jìn)iddletier:OLAPserverBottomtier:數(shù)據(jù)倉(cāng)庫(kù)server數(shù)據(jù)17數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)查詢/報(bào)表分析數(shù)據(jù)挖掘輸出O數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行多媒體數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)18數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行多媒體數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)18數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行時(shí)間序列數(shù)據(jù)庫(kù)19數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行時(shí)間序列數(shù)據(jù)庫(kù)19數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行文本數(shù)據(jù)庫(kù)20數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行文本數(shù)據(jù)庫(kù)20數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向21數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘21數(shù)據(jù)挖掘的功能概念描述:特征和區(qū)分概化,匯總,比較數(shù)據(jù)特征,如干燥和潮濕的地區(qū)關(guān)聯(lián)(相關(guān)和因果關(guān)系)多維和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)

contains(T,“software”)[support=1%,confidence=75%]22數(shù)據(jù)挖掘的功能概念描述:特征和區(qū)分22數(shù)據(jù)挖掘的功能分類和預(yù)測(cè)找出描述和識(shí)別類或概念的模型(函數(shù)),用于將來(lái)的預(yù)測(cè)例如根據(jù)氣候?qū)?guó)家分類,或根據(jù)單位里程的耗油量對(duì)汽車分類表示:決策樹(shù)(decision-tree),分類規(guī)則,神經(jīng)元網(wǎng)絡(luò)預(yù)測(cè):預(yù)測(cè)某些未知或遺漏的數(shù)值23數(shù)據(jù)挖掘的功能分類和預(yù)測(cè)23數(shù)據(jù)挖掘的功能聚類分析類標(biāo)號(hào)(Classlabel)未知:對(duì)數(shù)據(jù)分組,形成新的類。例如,對(duì)房屋分類,找出分布模式聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性24數(shù)據(jù)挖掘的功能聚類分析24數(shù)據(jù)挖掘的功能孤立點(diǎn)(Outlier)分析孤立點(diǎn):一個(gè)數(shù)據(jù)對(duì)象,與數(shù)據(jù)的一般行為不一致孤立點(diǎn)可以被視為例外,但對(duì)于欺騙檢測(cè)和罕見(jiàn)事件分析,它是相當(dāng)有用的趨勢(shì)和演變分析趨勢(shì)和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計(jì)的分析25數(shù)據(jù)挖掘的功能孤立點(diǎn)(Outlier)分析25數(shù)據(jù)挖掘:多學(xué)科交叉數(shù)據(jù)庫(kù)機(jī)器學(xué)習(xí)統(tǒng)計(jì)分析可視化其它高性能計(jì)算信息檢索DataMining26數(shù)據(jù)挖掘:多學(xué)科交叉數(shù)據(jù)庫(kù)機(jī)器學(xué)習(xí)統(tǒng)計(jì)分析可視化其數(shù)據(jù)挖掘的分類一般功能描述式數(shù)據(jù)挖掘預(yù)測(cè)式數(shù)據(jù)挖掘不同的角度、不同的分類待挖掘的數(shù)據(jù)庫(kù)類型待發(fā)現(xiàn)的知識(shí)類型所用的技術(shù)類型所適合的應(yīng)用類型27數(shù)據(jù)挖掘的分類一般功能27數(shù)據(jù)挖掘從不同角度的分類28數(shù)據(jù)挖掘從不同角度的分類28數(shù)據(jù)挖掘從不同角度的分類所用技術(shù)面向數(shù)據(jù)庫(kù)的、數(shù)據(jù)倉(cāng)庫(kù)(OLAP)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化、神經(jīng)網(wǎng)絡(luò)等適合的應(yīng)用零售、電訊、銀行、欺騙分析、DNA挖掘、股票市場(chǎng)分析、Web挖掘、Web日志分析等29數(shù)據(jù)挖掘從不同角度的分類所用技術(shù)29數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向30數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘30Web挖掘WebMiningWebUsageMiningAgentBasedApproachDatabaseApproach智能查詢信息過(guò)濾/分類個(gè)性化Web多層次數(shù)據(jù)庫(kù)Web查詢系統(tǒng)預(yù)處理事務(wù)標(biāo)識(shí)模式發(fā)現(xiàn)模式分析WebStructureMiningWebContentMining31Web挖掘WebMiningWebUsageMininWeb使用挖掘WebUsageMining是在Web數(shù)據(jù)存儲(chǔ)地中應(yīng)用數(shù)據(jù)挖掘技術(shù)抽取使用模式的方法數(shù)據(jù)預(yù)處理用戶使用頁(yè)面關(guān)聯(lián)、用戶分類、用戶聚類、…應(yīng)用個(gè)性化站點(diǎn)改進(jìn)……32Web使用挖掘WebUsageMining是在Web數(shù)文本挖掘文本挖掘=數(shù)據(jù)挖掘(應(yīng)用于文本存儲(chǔ)地)+基本語(yǔ)言學(xué)文本預(yù)處理(無(wú)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化)詞法/語(yǔ)義分析特征生成BagofWords特征選擇頻度、TFIDF、共現(xiàn)等數(shù)據(jù)挖掘文本分類、聚類等分析結(jié)果文本文本預(yù)處理文本轉(zhuǎn)換特征選擇數(shù)據(jù)挖掘解釋33文本挖掘文本挖掘=數(shù)據(jù)挖掘(應(yīng)用于文本存儲(chǔ)地)+基本語(yǔ)言學(xué)文觀點(diǎn)、情感挖掘觀點(diǎn)挖掘(OpinionMining)是一種從論壇、討論組、新聞組、博客等用戶產(chǎn)生的內(nèi)容中挖掘其表達(dá)觀點(diǎn)的技術(shù)。文本挖掘與觀點(diǎn)挖掘(事實(shí)與觀點(diǎn))文本挖掘關(guān)注事實(shí),觀點(diǎn)挖掘關(guān)注用戶對(duì)事實(shí)所持的觀點(diǎn);事實(shí)是客觀的,觀點(diǎn)是主觀的;事實(shí)只有一個(gè),觀點(diǎn)卻各不相同。應(yīng)用商務(wù)、網(wǎng)絡(luò)輿情、……34觀點(diǎn)、情感挖掘觀點(diǎn)挖掘(OpinionMining)是一種數(shù)據(jù)流挖掘性質(zhì)連續(xù)性:數(shù)據(jù)流是連續(xù)到達(dá)的無(wú)序性:系統(tǒng)無(wú)法控制數(shù)據(jù)到達(dá)的順序無(wú)界性:數(shù)據(jù)流原則上是無(wú)限大的實(shí)時(shí)性:要求算法能夠?qū)崟r(shí)地反映模式變化35數(shù)據(jù)流挖掘性質(zhì)35數(shù)據(jù)流挖掘性質(zhì)傳統(tǒng)的數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文本文件……36數(shù)據(jù)流挖掘性質(zhì)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文本文件……36數(shù)據(jù)流挖掘性質(zhì)傳統(tǒng)的數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文本文件……37數(shù)據(jù)流挖掘性質(zhì)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文本文件……37數(shù)據(jù)流挖掘性質(zhì)傳統(tǒng)的數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文本文件……38數(shù)據(jù)流挖掘性質(zhì)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)文本文件……38數(shù)據(jù)流挖掘性質(zhì)數(shù)據(jù)流挖掘?39數(shù)據(jù)流挖掘性質(zhì)?39RFID事件流挖掘RadioFrequencyIdentification(RFID)TagReaderRFID數(shù)據(jù)倉(cāng)庫(kù)、RFID事件流分析與挖掘、復(fù)雜事件檢測(cè)40RFID事件流挖掘RadioFrequencyIdent圖像分析與挖掘Web圖像醫(yī)學(xué)圖像41圖像分析與挖掘Web圖像醫(yī)學(xué)圖像41社會(huì)網(wǎng)絡(luò)分析aaaaaaabbbbbbcccccccccccdcddddddddddeeeffffffg節(jié)點(diǎn)派系凝聚子群n邊及權(quán)重42社會(huì)網(wǎng)絡(luò)分析aaaaaaabbbbbbccccccccccc不確定性數(shù)據(jù)挖掘數(shù)據(jù)的不確定性原始數(shù)據(jù)不準(zhǔn)確;使用粗粒度數(shù)據(jù)集合;滿足特殊應(yīng)用目的;處理缺失值;數(shù)據(jù)集成。不確定性數(shù)據(jù)管理的框架不確定性數(shù)據(jù)模型定義預(yù)處理與集成存儲(chǔ)與索引查詢、分析、挖掘結(jié)果43不確定性數(shù)據(jù)挖掘數(shù)據(jù)的不確定性不確定性數(shù)據(jù)模型定義預(yù)處理與集作業(yè)簡(jiǎn)述數(shù)據(jù)挖掘的一些主要方法,并根據(jù)你的見(jiàn)解,談?wù)剶?shù)據(jù)挖掘技術(shù)可能的應(yīng)用(舉例)44作業(yè)簡(jiǎn)述數(shù)據(jù)挖掘的一些主要方法,并根據(jù)你的見(jiàn)解,談?wù)剶?shù)據(jù)挖掘感謝大家光臨!感謝大家光臨!數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

DataWarehouseandDataMining數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

DataWarehouseandD數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向47數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘2動(dòng)機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問(wèn)題自動(dòng)的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其它信息存儲(chǔ)器中我們正被數(shù)據(jù)淹沒(méi),但卻缺乏知識(shí)解決辦法:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理(OLAP)從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取有趣的知識(shí)(規(guī)則,規(guī)律性,模式,限制等)48動(dòng)機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問(wèn)題3什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn))從大型數(shù)據(jù)庫(kù)中提取有趣的(非平凡的、蘊(yùn)涵的、先前未知的且是潛在有用的)

信息或模式其它名稱數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識(shí)提取(knowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務(wù)智能(businessintelligence)等49什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn))4數(shù)據(jù)挖掘可能的應(yīng)用數(shù)據(jù)庫(kù)分析和決策支持市場(chǎng)分析和管理:針對(duì)銷售(targetmarketing),顧客關(guān)系管理,購(gòu)物籃分析,交叉銷售(crossselling),市場(chǎng)分割(marketsegmentation)風(fēng)險(xiǎn)分析與管理:預(yù)測(cè),顧客關(guān)系,改進(jìn)保險(xiǎn),質(zhì)量控制,競(jìng)爭(zhēng)能力分析欺騙檢測(cè)與管理50數(shù)據(jù)挖掘可能的應(yīng)用數(shù)據(jù)庫(kù)分析和決策支持5數(shù)據(jù)挖掘可能的應(yīng)用其它應(yīng)用文本挖掘(新聞組、email、文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘DNA數(shù)據(jù)分析51數(shù)據(jù)挖掘可能的應(yīng)用其它應(yīng)用6數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向52數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘7數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)知識(shí)任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估53數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)挖掘與任務(wù)相關(guān)的數(shù)據(jù)知識(shí)種類領(lǐng)域知識(shí)興趣度量和閾值表示54數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)挖掘與任務(wù)相關(guān)的KDD的步驟學(xué)習(xí)應(yīng)用領(lǐng)域相關(guān)的先驗(yàn)知識(shí)和應(yīng)用的目標(biāo)創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預(yù)處理(可能占全部工作的60%!)數(shù)據(jù)歸約與變換發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關(guān)聯(lián),聚類55KDD的步驟學(xué)習(xí)應(yīng)用領(lǐng)域10KDD的步驟選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評(píng)估和知識(shí)表示可視化,變換,刪除冗余模式,等發(fā)現(xiàn)知識(shí)的使用56KDD的步驟選擇挖掘算法11典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)知識(shí)庫(kù)圖形用戶界面模式評(píng)估數(shù)據(jù)挖掘引擎數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)過(guò)濾數(shù)據(jù)清洗和集成57典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)知識(shí)庫(kù)圖形用戶界面模式評(píng)估數(shù)據(jù)挖掘引擎數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向58數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘13數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行平面文件關(guān)系數(shù)據(jù)庫(kù)包括面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫(kù)事務(wù)(交易)數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)和遺產(chǎn)數(shù)據(jù)庫(kù)59數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行平面文件14數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源清洗、裝載、轉(zhuǎn)換、集成數(shù)據(jù)倉(cāng)庫(kù)查詢及分析工具客戶60數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源清洗、裝載、數(shù)據(jù)倉(cāng)庫(kù)查數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源數(shù)據(jù)挖掘文件數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)網(wǎng)頁(yè)……61數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘文件數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)查詢/報(bào)表分析數(shù)據(jù)挖掘輸出OLAPserverOLAPserver監(jiān)控管理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市元數(shù)據(jù)存儲(chǔ)清洗裝載轉(zhuǎn)換集成操作型數(shù)據(jù)庫(kù)外部數(shù)據(jù)源Toptier:前端工具M(jìn)iddletier:OLAPserverBottomtier:數(shù)據(jù)倉(cāng)庫(kù)server數(shù)據(jù)62數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)查詢/報(bào)表分析數(shù)據(jù)挖掘輸出O數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行多媒體數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)63數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行多媒體數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)18數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行時(shí)間序列數(shù)據(jù)庫(kù)64數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行時(shí)間序列數(shù)據(jù)庫(kù)19數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行文本數(shù)據(jù)庫(kù)65數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行文本數(shù)據(jù)庫(kù)20數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向66數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘21數(shù)據(jù)挖掘的功能概念描述:特征和區(qū)分概化,匯總,比較數(shù)據(jù)特征,如干燥和潮濕的地區(qū)關(guān)聯(lián)(相關(guān)和因果關(guān)系)多維和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)

contains(T,“software”)[support=1%,confidence=75%]67數(shù)據(jù)挖掘的功能概念描述:特征和區(qū)分22數(shù)據(jù)挖掘的功能分類和預(yù)測(cè)找出描述和識(shí)別類或概念的模型(函數(shù)),用于將來(lái)的預(yù)測(cè)例如根據(jù)氣候?qū)?guó)家分類,或根據(jù)單位里程的耗油量對(duì)汽車分類表示:決策樹(shù)(decision-tree),分類規(guī)則,神經(jīng)元網(wǎng)絡(luò)預(yù)測(cè):預(yù)測(cè)某些未知或遺漏的數(shù)值68數(shù)據(jù)挖掘的功能分類和預(yù)測(cè)23數(shù)據(jù)挖掘的功能聚類分析類標(biāo)號(hào)(Classlabel)未知:對(duì)數(shù)據(jù)分組,形成新的類。例如,對(duì)房屋分類,找出分布模式聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性69數(shù)據(jù)挖掘的功能聚類分析24數(shù)據(jù)挖掘的功能孤立點(diǎn)(Outlier)分析孤立點(diǎn):一個(gè)數(shù)據(jù)對(duì)象,與數(shù)據(jù)的一般行為不一致孤立點(diǎn)可以被視為例外,但對(duì)于欺騙檢測(cè)和罕見(jiàn)事件分析,它是相當(dāng)有用的趨勢(shì)和演變分析趨勢(shì)和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計(jì)的分析70數(shù)據(jù)挖掘的功能孤立點(diǎn)(Outlier)分析25數(shù)據(jù)挖掘:多學(xué)科交叉數(shù)據(jù)庫(kù)機(jī)器學(xué)習(xí)統(tǒng)計(jì)分析可視化其它高性能計(jì)算信息檢索DataMining71數(shù)據(jù)挖掘:多學(xué)科交叉數(shù)據(jù)庫(kù)機(jī)器學(xué)習(xí)統(tǒng)計(jì)分析可視化其數(shù)據(jù)挖掘的分類一般功能描述式數(shù)據(jù)挖掘預(yù)測(cè)式數(shù)據(jù)挖掘不同的角度、不同的分類待挖掘的數(shù)據(jù)庫(kù)類型待發(fā)現(xiàn)的知識(shí)類型所用的技術(shù)類型所適合的應(yīng)用類型72數(shù)據(jù)挖掘的分類一般功能27數(shù)據(jù)挖掘從不同角度的分類73數(shù)據(jù)挖掘從不同角度的分類28數(shù)據(jù)挖掘從不同角度的分類所用技術(shù)面向數(shù)據(jù)庫(kù)的、數(shù)據(jù)倉(cāng)庫(kù)(OLAP)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化、神經(jīng)網(wǎng)絡(luò)等適合的應(yīng)用零售、電訊、銀行、欺騙分析、DNA挖掘、股票市場(chǎng)分析、Web挖掘、Web日志分析等74數(shù)據(jù)挖掘從不同角度的分類所用技術(shù)29數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向75數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘30Web挖掘WebMiningWebUsageMiningAgentBasedApproachDatabaseApproach智能查詢信息過(guò)濾/分類個(gè)性化Web多層次數(shù)據(jù)庫(kù)Web查詢系統(tǒng)預(yù)處理事務(wù)標(biāo)識(shí)模式發(fā)現(xiàn)模式分析WebStructureMiningWebContentMining76Web挖掘WebMiningWebUsageMininWeb使用挖掘WebUsageMining是在Web數(shù)據(jù)存儲(chǔ)地中應(yīng)用數(shù)據(jù)挖掘技術(shù)抽取使用模式的方法數(shù)據(jù)預(yù)處理用戶使用頁(yè)面關(guān)聯(lián)、用戶分類、用戶聚類、…應(yīng)用個(gè)性化站點(diǎn)改進(jìn)……77Web使用挖掘WebUsageMining是在Web數(shù)文本挖掘文本挖掘=數(shù)據(jù)挖掘(應(yīng)用于文本存儲(chǔ)地)+基本語(yǔ)言學(xué)文本預(yù)處理(無(wú)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化)詞法/語(yǔ)義分析特征生成BagofWords特征選擇頻度、TFIDF、共現(xiàn)等數(shù)據(jù)挖掘文本分類、聚類等分析結(jié)果文本文本預(yù)處理文本轉(zhuǎn)換特征選擇數(shù)據(jù)挖掘解釋78文本挖掘文本挖掘=數(shù)據(jù)挖掘(應(yīng)用于文本存儲(chǔ)地)+基本語(yǔ)言學(xué)文觀點(diǎn)、情感挖掘觀點(diǎn)挖掘(OpinionMining)是一種從論壇、討論組、新聞組、博客等用戶產(chǎn)生的內(nèi)容中挖掘其表達(dá)觀點(diǎn)的技術(shù)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論