




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第1頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘要解決的問(wèn)題數(shù)據(jù)挖掘的起源數(shù)據(jù)挖掘任務(wù)2第2頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月商務(wù)領(lǐng)域
借助POS機(jī)、手機(jī)、電腦、日志、顧客服務(wù)記錄、顧客信息。商業(yè)公司可以獲取大量的數(shù)據(jù)。在這些數(shù)據(jù)上,我們可以做什么?
一些問(wèn)題:誰(shuí)是最有價(jià)值的顧客?什么產(chǎn)品可以交叉銷售或提升銷售?公司明年的收入前景如何?3第3頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月醫(yī)學(xué)、科學(xué)與工程
醫(yī)學(xué)、科學(xué)與工程界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對(duì)新發(fā)現(xiàn)至關(guān)重要。
例一:為了更深入地理解地球的氣候系統(tǒng),NASA
已部署了一系列的地球軌道衛(wèi)星,不停的收集地表,海洋和大氣的全球觀測(cè)數(shù)據(jù) 一些問(wèn)題:干旱和颶風(fēng)的頻度和強(qiáng)度與全球變暖有什么聯(lián)系?海洋表面的溫度對(duì)地表降水量和溫度有什么影響?如何準(zhǔn)確的預(yù)測(cè)一個(gè)度曲的生長(zhǎng)季節(jié)的開(kāi)始和結(jié)束?4第4頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月醫(yī)學(xué)、科學(xué)與工程
例二:分子生物學(xué)研究者希望利用當(dāng)前收集的大量基因組數(shù)據(jù),更好的理解基因的結(jié)構(gòu)和功能。數(shù)據(jù)的噪音和高維性需要新的數(shù)據(jù)分析方法。
數(shù)據(jù)挖掘也可以用來(lái)處理生物學(xué)的其他難題,如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),多序列校準(zhǔn),生物化學(xué)路徑建模和種系發(fā)生學(xué)。5第5頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月1、什么是數(shù)據(jù)挖掘?6第6頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月到底什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)庫(kù)中,自動(dòng)地發(fā)現(xiàn)有用的信息的過(guò)程。1、發(fā)現(xiàn)先前未知的有用模式2、預(yù)測(cè)未來(lái)的觀測(cè)結(jié)果1、數(shù)據(jù)庫(kù)中查找個(gè)別記錄2、搜索引擎查找特定頁(yè)面7第7頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月那么,什么又是知識(shí)發(fā)現(xiàn)呢?數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)不可缺少的一部分,而知識(shí)發(fā)現(xiàn)是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過(guò)程。輸入數(shù)據(jù)數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘后處理信息特征選擇維歸約規(guī)范化選擇數(shù)據(jù)子集模式過(guò)濾可視化模式表示8第8頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月2、數(shù)據(jù)挖掘要解決的問(wèn)題9第9頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月
面臨新的數(shù)據(jù)集帶來(lái)的問(wèn)題時(shí),傳統(tǒng)的數(shù)據(jù)分析技術(shù)常常遇到實(shí)際的困難??缮炜s需要有能力處理海量數(shù)據(jù)問(wèn)題高維性
需要很好的處理維災(zāi)難問(wèn)題異種數(shù)據(jù)和復(fù)雜數(shù)據(jù) 需要考慮數(shù)據(jù)對(duì)象的復(fù)雜性和多樣性數(shù)據(jù)的所有權(quán)與分布需要考慮數(shù)據(jù)安全性、加快計(jì)算速度、匯總計(jì)算結(jié)果非傳統(tǒng)的分析非單一假設(shè)-檢驗(yàn)?zāi)J絍S10第10頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月3、數(shù)據(jù)挖掘的起源11第11頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月人工智能、機(jī)器學(xué)習(xí)、和模式識(shí)別
數(shù)據(jù)挖掘的方法來(lái)自機(jī)器學(xué)習(xí)或AI,模式識(shí)別,統(tǒng)計(jì)學(xué)與數(shù)據(jù)庫(kù)系統(tǒng)統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)技術(shù)、并行計(jì)算、分布式計(jì)算12第12頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月3、數(shù)據(jù)挖掘的任務(wù)13第13頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月大類區(qū)分?jǐn)?shù)據(jù)挖掘任務(wù)預(yù)測(cè)任務(wù)
根據(jù)其他屬性的值,預(yù)測(cè)特定屬性的值 被預(yù)測(cè)變量通常被稱為目標(biāo)變量描述任務(wù)
導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式
包括相關(guān)、趨勢(shì)、聚類、軌跡、異常14第14頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月數(shù)據(jù)聚類分析關(guān)聯(lián)分析預(yù)測(cè)建模異常檢測(cè)15第15頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月預(yù)測(cè)建模預(yù)測(cè)建模的任務(wù)可以分為兩類:分類回歸目標(biāo)變量離散連續(xù)舉例是否買書(shū)股票價(jià)格共同點(diǎn)訓(xùn)練模型,減小誤差預(yù)測(cè)建模的任務(wù)舉例:確定顧客對(duì)產(chǎn)品促銷活動(dòng)的反應(yīng)預(yù)測(cè)地球生態(tài)系統(tǒng)的擾動(dòng)根據(jù)檢查結(jié)果判斷病人是否患有疾病16第16頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月。預(yù)測(cè)建模例子: 預(yù)測(cè)鳶尾花(IRIS)的類型,Setosa,Veriscolour,Virginica。該數(shù)據(jù)集包含4個(gè)屬性和1個(gè)目標(biāo)變量。屬性為萼片寬度,萼片長(zhǎng)度,花瓣長(zhǎng)度,花瓣寬度,目標(biāo)變量為花的種類。我們可以根據(jù)區(qū)間寬度把花瓣寬度和長(zhǎng)度分為低中高三類。然后可推出如下規(guī)則:花瓣寬度和花瓣長(zhǎng)度為低蘊(yùn)涵Setosa花瓣寬度和花瓣長(zhǎng)度為中蘊(yùn)涵Versicolour花瓣寬度和花瓣長(zhǎng)度為高蘊(yùn)涵Virginica17第17頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月關(guān)聯(lián)分析
用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。關(guān)聯(lián)分析的任務(wù)舉例:找出具有相關(guān)功能的基因組識(shí)別用戶一起訪問(wèn)的Web頁(yè)面理解地球氣候系統(tǒng)不同元素之間的聯(lián)系所發(fā)現(xiàn)的模式通常用蘊(yùn)含規(guī)則或特征子集的形式表示搜索空間通常是指數(shù)規(guī)模的,因此關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取有趣的結(jié)果18第18頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月關(guān)聯(lián)分析
例子:下面是一雜貨店收銀臺(tái)收集的銷售數(shù)據(jù)事務(wù)ID商品12345678910{面包,黃油,尿布,牛奶}{咖啡,糖,小甜餅,鮭魚(yú)}{面包,黃油,咖啡,尿布,牛奶,雞蛋}{面包,黃油,鮭魚(yú),雞}{雞蛋,面包,黃油}{鮭魚(yú),尿布,牛奶}{面包,茶,糖,雞蛋}{咖啡,糖,雞,雞蛋}{面包,尿布,牛奶,鹽}{茶,雞蛋,小甜餅,尿布,牛奶}顧客經(jīng)常一起購(gòu)買的商品是什么?19第19頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月關(guān)聯(lián)分析事務(wù)ID商品12345678910{面包,黃油,尿布,牛奶}{咖啡,糖,小甜餅,鮭魚(yú)}{面包,黃油,咖啡,尿布,牛奶,雞蛋}{面包,黃油,鮭魚(yú),雞}{雞蛋,面包,黃油}{鮭魚(yú),尿布,牛奶}{面包,茶,糖,雞蛋}{咖啡,糖,雞,雞蛋}{面包,尿布,牛奶,鹽}{茶,雞蛋,小甜餅,尿布,牛奶}
例子:下面是一雜貨店收銀臺(tái)收集的銷售數(shù)據(jù)顧客經(jīng)常一起購(gòu)買的商品是什么?20第20頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月聚類分析
旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群。
使得與屬于不同簇的觀測(cè)值相比,屬于同一簇的觀測(cè)值相互之間盡可能相似。聚類分析的任務(wù)舉例:對(duì)相關(guān)顧客進(jìn)行分組找出顯著影響地球氣候的海洋區(qū)域壓縮數(shù)據(jù)21第21頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月聚類分析
例子:下表中的新聞文章可以根據(jù)他們各自的主題分組。每篇文章表示為詞-頻率對(duì)的組合(w:c)。w是詞,c是該詞在文章中出現(xiàn)的次數(shù)。這8篇文章如何劃分簇?22第22頁(yè),課件共23頁(yè),創(chuàng)作于2023年2月異常檢測(cè)
任務(wù)是識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 年度財(cái)務(wù)報(bào)表及審計(jì)結(jié)果
- 河南省駐馬店市部分學(xué)校2024-2025學(xué)年高三下學(xué)期3月月考地理試題(含答案)
- 基于區(qū)塊鏈技術(shù)的農(nóng)業(yè)溯源體系構(gòu)建方案
- 服裝設(shè)計(jì)與制造業(yè)務(wù)外包合作協(xié)議
- 個(gè)性化培訓(xùn)計(jì)劃實(shí)施效果分析表
- 網(wǎng)絡(luò)優(yōu)化服務(wù)升級(jí)合作協(xié)議
- 汽車采購(gòu)銷售合同書(shū)及保修條款
- 智能醫(yī)療項(xiàng)目合作協(xié)議
- 企業(yè)危機(jī)管理機(jī)制構(gòu)建與運(yùn)行
- 交通行業(yè)交通事故處理保障預(yù)案
- GA/T 1788.4-2021公安視頻圖像信息系統(tǒng)安全技術(shù)要求第4部分:安全管理平臺(tái)
- FEKO教程-教學(xué)講解課件
- 鋼板型材機(jī)械性能試驗(yàn)報(bào)告
- 2023年蘇州市吳中產(chǎn)業(yè)投資集團(tuán)有限公司招聘筆試模擬試題及答案解析
- 船舶制造基地可行性研究報(bào)告
- 腫瘤生物靶向治療護(hù)理課件
- 紅樓夢(mèng)人物關(guān)系圖譜可A4打印版
- 石化公司建設(shè)項(xiàng)目竣工文件整理歸檔規(guī)范
- A4線纜標(biāo)簽數(shù)據(jù)模板
- 加油站電器火災(zāi)應(yīng)急預(yù)案演練記錄
- 沖壓件,汽車表面零件缺陷及原因分析
評(píng)論
0/150
提交評(píng)論