![第一章數(shù)據(jù)挖掘概念與技術(shù).ppt_第1頁](http://file4.renrendoc.com/view/c4d98dfcf5516b1e69ca488f8047494e/c4d98dfcf5516b1e69ca488f8047494e1.gif)
![第一章數(shù)據(jù)挖掘概念與技術(shù).ppt_第2頁](http://file4.renrendoc.com/view/c4d98dfcf5516b1e69ca488f8047494e/c4d98dfcf5516b1e69ca488f8047494e2.gif)
![第一章數(shù)據(jù)挖掘概念與技術(shù).ppt_第3頁](http://file4.renrendoc.com/view/c4d98dfcf5516b1e69ca488f8047494e/c4d98dfcf5516b1e69ca488f8047494e3.gif)
![第一章數(shù)據(jù)挖掘概念與技術(shù).ppt_第4頁](http://file4.renrendoc.com/view/c4d98dfcf5516b1e69ca488f8047494e/c4d98dfcf5516b1e69ca488f8047494e4.gif)
![第一章數(shù)據(jù)挖掘概念與技術(shù).ppt_第5頁](http://file4.renrendoc.com/view/c4d98dfcf5516b1e69ca488f8047494e/c4d98dfcf5516b1e69ca488f8047494e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1數(shù)據(jù)挖掘: 概念與技術(shù)2第一章 引 言1.1 數(shù)據(jù)挖掘的激發(fā)及其重要性 3 隨著全球信息化的發(fā)展,自動(dòng)數(shù)據(jù)采集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致海量數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中,從海量數(shù)據(jù)中提取可信的、新穎的、有效的并能被人們理解的知識(shí)是非常重要的,所以數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)的極大關(guān)注。它涉及的領(lǐng)域非常廣(企業(yè)管理、產(chǎn)品控制、市場分析、工程設(shè)計(jì)和科學(xué)研究等)。1.數(shù)據(jù)挖掘研究的促發(fā)因素42. 數(shù)據(jù)庫技術(shù)的演化數(shù)據(jù)產(chǎn)生和搜集 數(shù)據(jù)組織和管理:(包括數(shù)據(jù)存儲(chǔ)和檢索,數(shù)據(jù)庫事務(wù)處理)數(shù)據(jù)分析和理解:(涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘) 53. 數(shù)據(jù)墳?zāi)?數(shù)據(jù)富裕,知識(shí)貧乏大量數(shù)據(jù)背后隱藏著重要的知識(shí)需要有效的數(shù)據(jù)挖掘工具支持
2、 61.2 什么是數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程。 78知識(shí)發(fā)現(xiàn)過程的步驟為:數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)數(shù)據(jù)選擇(從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù))數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作)9數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù) 據(jù)模式)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別表示 知識(shí)的真正有趣的模式)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向 用戶提供挖掘的知識(shí)) 10數(shù)據(jù)挖掘廣義理解對(duì)儲(chǔ)存在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他各種信息源的海量數(shù)據(jù)信息中隱含的有趣信息的發(fā)現(xiàn)
3、過程數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程的一個(gè)步驟11數(shù)據(jù)挖掘系統(tǒng)的主要成分?jǐn)?shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器知識(shí)庫數(shù)據(jù)挖掘引擎模式評(píng)估模塊圖形用戶界面121.3 在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘 1. 多種數(shù)據(jù)庫和DM的關(guān)系 多種數(shù)據(jù)庫是DM能夠處理的對(duì)象。正因?yàn)橛兄@么龐大而實(shí)際有用的數(shù)據(jù)作為數(shù)據(jù)挖掘的物質(zhì)基礎(chǔ),所以研究數(shù)據(jù)挖掘才有了現(xiàn)實(shí)的意義。 132. 關(guān)系數(shù)據(jù)庫DBMS-相互關(guān)聯(lián)的數(shù)據(jù)集合和一套用于管理和訪問數(shù)據(jù)的軟件程序,建立數(shù)據(jù)庫結(jié)構(gòu)定義、數(shù)據(jù)存儲(chǔ)、并發(fā)、共享、分布式訪問、保證信息存儲(chǔ)一致性和安全性的機(jī)制。數(shù)據(jù)庫(Database)由一系列表(Table)組成Table是一個(gè)行列二維表
4、結(jié)構(gòu)14數(shù)據(jù)挖掘在關(guān)系數(shù)據(jù)庫中的作用用SQL可以做什么? 上個(gè)季度賣出了什么商品給我列出上月每個(gè)部門的總銷售量哪個(gè)銷售員賣出的商品最多Data Mining又能做什么?預(yù)測新顧客的信譽(yù)風(fēng)險(xiǎn)檢查商品銷售變差的原因關(guān)系數(shù)據(jù)庫是數(shù)據(jù)挖掘研究的主要數(shù)據(jù)形式153. 數(shù)據(jù)倉庫 從多個(gè)數(shù)據(jù)源搜集數(shù)據(jù),存儲(chǔ)于一個(gè)統(tǒng)一的數(shù)據(jù)模式下,通常駐留在單一站點(diǎn)。特點(diǎn): 面向主題的,集成的,時(shí)變的,非易失的; 構(gòu)建步驟如下:數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)集成數(shù)據(jù)載入定期更新1617數(shù)據(jù)倉庫和數(shù)據(jù)集市數(shù)據(jù)倉庫(data warehouse) 面向企業(yè),用于企業(yè)決策。 數(shù)據(jù)集市(data mart) 面向部門,只關(guān)心某一主題。18數(shù)據(jù)
5、倉庫OLAP分析不同抽象層次的多維分析,可以切片、切塊旋轉(zhuǎn)等等 ,進(jìn)行不同程度的匯總OLTP與OLAP的關(guān)系級(jí)比較 OLTP面對(duì)操作人員和低層管理人員,OLAP面對(duì)的決策人員和高層管理人員。 19204事務(wù)數(shù)據(jù)庫 存儲(chǔ)事務(wù)信息的數(shù)據(jù)庫,由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。 215對(duì)象關(guān)系數(shù)據(jù)庫結(jié)合了對(duì)象數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫的特點(diǎn)提供了能處理復(fù)雜對(duì)象的豐富的數(shù)據(jù)類型和查詢語言與關(guān)系數(shù)據(jù)庫對(duì)比,不同之處是能處理復(fù)雜數(shù)據(jù)類型、類分層和對(duì)象繼承 226空間數(shù)據(jù)庫存儲(chǔ)與空間相關(guān)的信息,包括地圖、VLSI芯片、藥物、衛(wèi)星圖象等 用途:森林和生態(tài)環(huán)境計(jì)劃提供公共設(shè)施(電話、電纜、管道、污水排放)信息 d
6、ata mining作用回答某一區(qū)域的居民分布情況分析氣候、交通等因素對(duì)城市居民遷移的作用237時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫兩者都存儲(chǔ)與時(shí)間有關(guān)的數(shù)據(jù)時(shí)間數(shù)據(jù)庫包含一個(gè)時(shí)間相關(guān)的屬性時(shí)間序列數(shù)據(jù)庫存儲(chǔ)隨時(shí)間而變化的信息(例如:股票交易) data mining作用發(fā)現(xiàn)對(duì)象演化特征和變化趨勢銀行根據(jù)顧客流量調(diào)度銀行操作股票投資決策248文本數(shù)據(jù)庫通常是長句和段落,如作者信息、錯(cuò)誤報(bào)告等大部分高度非結(jié)構(gòu)化(某些WWW網(wǎng)頁)某些半結(jié)構(gòu)化(email信息、html/xml網(wǎng)頁) data mining作用對(duì)象和類的特征描述關(guān)鍵詞和內(nèi)容關(guān)聯(lián)性分析文本對(duì)象的聚類259多媒體數(shù)據(jù)庫存儲(chǔ)圖象、聲音、視頻數(shù)據(jù)用于
7、基于內(nèi)容的圖象檢索、語音郵件系統(tǒng)、視頻點(diǎn)播系統(tǒng),WWW和語音識(shí)別系統(tǒng)等要解決實(shí)時(shí)播放問題,圖象、聲音的連續(xù)性問題2610異構(gòu)數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫隨著信息技術(shù)發(fā)展中所保留下來的一系列數(shù)據(jù)庫是十分有用的這些數(shù)據(jù)庫可能是關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫、平面文件等data mining必須處理各種數(shù)據(jù)庫間的轉(zhuǎn)換問題 2711萬維網(wǎng)WWWWWW和各種搜索引擎共同組合成一個(gè)廣大的信息網(wǎng) Web mining數(shù)據(jù)挖掘新的重要應(yīng)用Web content miningWeb structure miningWeb usage mining 前景樂觀,但困難較多基于關(guān)鍵字的搜索系統(tǒng)非結(jié)構(gòu)化、缺乏
8、統(tǒng)一的模式281.4 數(shù)據(jù)挖掘功能可以挖掘什么類型的模式 1.數(shù)據(jù)挖掘任務(wù):描述和預(yù)測描述性挖掘任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性預(yù)測性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷292. 數(shù)據(jù)挖掘功能 用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。其模式類型介紹如下:概念/類描述:特征化和區(qū)分 用匯總的,簡潔的,精確的方式描述每個(gè)類和概念,稱這種描述為類/概念描述,通過三種方式得到: 1)數(shù)據(jù)特征化 2)數(shù)據(jù)區(qū)分 3)數(shù)據(jù)特征化和比較30(2)關(guān)聯(lián)分析 發(fā)現(xiàn)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。 關(guān)聯(lián)規(guī)則:X=Y,即“A1.AM=B1.BM”的規(guī)則,關(guān)聯(lián)規(guī)則的含義為:滿足X中條件的數(shù)據(jù)庫元組多半也
9、滿足Y中條件,其包括多維關(guān)聯(lián)規(guī)則和單維關(guān)聯(lián)規(guī)則。 31(3)分類和預(yù)測 分類是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型或函數(shù),以便能用模型預(yù)測類標(biāo)記未知的對(duì)象類,而預(yù)測,是被預(yù)測的值是數(shù)值數(shù)據(jù)。 32(4)聚類分析 它考慮的是數(shù)據(jù)對(duì)象,將數(shù)據(jù)對(duì)象根據(jù)一定的規(guī)則,比如最大化類內(nèi)的相似性,最小化類間的相似性等等,進(jìn)行分組或聚類。 33(5)孤立點(diǎn)分析 有些對(duì)象與數(shù)據(jù)的一般行為或模式不一致,稱這些數(shù)據(jù)對(duì)象是孤立點(diǎn)。34(6)演變分析 描述行為隨時(shí)間變化的數(shù)據(jù)對(duì)象的規(guī)律或趨勢,并對(duì)其建模,比如,股票的演變規(guī)律。 351.5 所有模式都有趣嗎主要從三個(gè)問題來討論:1)什么模式是有趣的?2)數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?3)數(shù)據(jù)挖掘能僅產(chǎn)生有趣的模式嗎?一個(gè)模式是有趣的,要滿足下面四個(gè)條件:1)它易于被人理解; 2)在某種程度上,對(duì)于新的或測試數(shù)據(jù)是有效的;3)它是潛在有用的; 4)是新穎的。 36客觀度量支持度置信度主觀度量意外(與用戶的理念矛盾)提供用戶可用的策略信息 37期望數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生所有有趣的模式是不現(xiàn)實(shí)的和低效的,這要根據(jù)用戶感興趣度量來對(duì)搜索聚焦,并確保算法的安全性。這個(gè)問題涉及了數(shù)據(jù)挖掘的優(yōu)化問題,希望只產(chǎn)生有趣的模式,但這個(gè)目標(biāo)具有一定的挑戰(zhàn)性。381.6 數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人借款協(xié)議合同書
- 個(gè)人定期存款質(zhì)押合同書范本
- 標(biāo)準(zhǔn)服務(wù)合同
- 個(gè)人土地合作開發(fā)合同范本參考
- 個(gè)人商鋪抵押借款合同樣本
- 個(gè)人隱私保護(hù)合同細(xì)則
- 不動(dòng)產(chǎn)贈(zèng)與合同官方模板
- 二手車買賣合同簡易合同書
- P2P平臺(tái)個(gè)人借款合同細(xì)則
- 中外科研合作開發(fā)合同
- 自動(dòng)化儀表工程施工及質(zhì)量驗(yàn)收規(guī)范
- NB-T 10609-2021 水電工程攔漂排設(shè)計(jì)規(guī)范
- 2023年全國4月高等教育自學(xué)考試管理學(xué)原理00054試題及答案新編
- 邵陽市職工勞動(dòng)能力鑒定表
- 稀土配合物和量子點(diǎn)共摻雜構(gòu)筑發(fā)光軟材料及其熒光性能研究
- JJG 921-2021環(huán)境振動(dòng)分析儀
- 中藥炮制學(xué)-第五、六章
- 中國風(fēng)軍令狀誓師大會(huì)PPT模板
- 小兒高熱驚厥精品課件
- 2022年電拖實(shí)驗(yàn)報(bào)告伍宏淳
- 豐田汽車戰(zhàn)略規(guī)劃與戰(zhàn)略管理體系研究(2021)
評(píng)論
0/150
提交評(píng)論