




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘系統(tǒng)研究報告報告人:朱建秋 2001年10月08日提綱數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘文化數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)的發(fā)展趨勢實驗室研究方向數(shù)據(jù)挖掘概述本文觀點來自Robert Grossman 關(guān)于作者:the President of Magnify, Inc. (Chicago, Ill.) and the Director of the National Center for Data Mining at the University of Illinois at Chicago. He has been a leader in the development of high-p
2、erformance and wide area data mining systems for over 10 years. 數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu) 數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)言模型 數(shù)據(jù)挖掘文化舉例說明假設(shè)移動電話用戶根據(jù)其轉(zhuǎn)換到其他通信公司的風(fēng)險,被分成低、中、高三組一個數(shù)據(jù)挖掘系統(tǒng)可能抽取出一條規(guī)則,比如:“一天至少接到兩個電話的用戶有低的更換率”。繼續(xù)這個例子,一個預(yù)言模型可能給每個用戶分配兩個分?jǐn)?shù):一個分?jǐn)?shù)在0和1之間,表示用戶可能更換通信公司的概率,另一個暗示該用戶在下一年可能會給公司帶來的利潤。 數(shù)據(jù)挖掘過程步驟步驟
3、名稱 描述 1數(shù)據(jù)倉庫Data Warehouse數(shù)據(jù)倉庫管理用于決策支持的數(shù)據(jù)。在該步驟內(nèi),數(shù)據(jù)從操作型系統(tǒng)以及第三方的數(shù)據(jù)源聚集、清洗、以及轉(zhuǎn)換到數(shù)據(jù)倉庫中,供決策分析使用。 2數(shù)據(jù)挖掘Data Mining在這個步驟中,數(shù)據(jù)從數(shù)據(jù)倉庫抽取出來,用來產(chǎn)生預(yù)言模型或者規(guī)則集。該步驟可以自動化。 3預(yù)言模型Predictive Modeling在該步驟內(nèi),為了產(chǎn)生一個優(yōu)化的模型,一個或多個預(yù)言模型被選擇或者聯(lián)合。這些預(yù)言模型可能從數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生,也可能從統(tǒng)計模型中產(chǎn)生,或者通過第三方購買 。4預(yù)言記分Predictive Scoring在這個步驟中,選擇的預(yù)言模型對操作型數(shù)據(jù)或者交易數(shù)據(jù)進(jìn)行
4、記分(score) 。 數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應(yīng)用支持一個或者多個算法 獨立的系統(tǒng)單個機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域的計算機(jī)群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成 多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng) 支持一
5、個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設(shè)計用來挖掘向量數(shù)據(jù)(vector-valued data),這些數(shù)據(jù)模型在挖掘時候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。 數(shù)據(jù)挖掘系統(tǒng)接口第二代數(shù)據(jù)挖掘系統(tǒng)提供數(shù)據(jù)倉庫和數(shù)據(jù)挖掘系統(tǒng)之間的有效的接口
6、第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘之間的接口,可以作為如何標(biāo)記合適的數(shù)據(jù)挖掘原語的一個研究問題。數(shù)據(jù)挖掘原語能夠在數(shù)據(jù)倉庫或者數(shù)據(jù)庫內(nèi)部執(zhí)行以改善數(shù)據(jù)挖掘系統(tǒng)的性能。 PMML是數(shù)據(jù)挖掘系統(tǒng)與預(yù)言模型系統(tǒng)之間的一個標(biāo)準(zhǔn)接口。 數(shù)據(jù)挖掘系統(tǒng)實施策略如果使用多個預(yù)言模型,或者預(yù)言模型需要經(jīng)常修改,那么應(yīng)該選擇正在出現(xiàn)的第三代數(shù)據(jù)挖掘系統(tǒng),以支持這些功能,當(dāng)然第三代系統(tǒng)也能與數(shù)據(jù)庫或者數(shù)據(jù)倉庫集成。第三代數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)的一個重要的優(yōu)點是由數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生的預(yù)言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模塊相聯(lián)合提供決策支持的功能。 目前在公司的日常營運中,移動計算越發(fā)顯得重要,第四代數(shù)據(jù)挖掘系統(tǒng)能夠在這兒起關(guān)鍵的作用。將數(shù)據(jù)挖掘和移動計算相結(jié)合是當(dāng)前的一個研究領(lǐng)域。 第一代數(shù)據(jù)挖掘系統(tǒng)仍然未發(fā)展完全,第二代、第三代數(shù)據(jù)挖掘系統(tǒng)已經(jīng)出現(xiàn)。目前
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)合同涉稅政策
- 電商行業(yè)買賣合同
- 辦公樓裝飾施工方案
- 長期供貨合同的協(xié)議書
- 員工考勤記錄表格系列
- 設(shè)備采購預(yù)算表格化統(tǒng)計分析報告
- 合同執(zhí)行進(jìn)展一覽表
- 宿州拆煙囪施工方案
- 兒童廁所改造施工方案
- 別墅背景墻大理石施工方案
- 《素描》課件-第一章 素描入門
- DL5168-2023年110KV-750KV架空輸電線路施工質(zhì)量檢驗及評定規(guī)程
- 工資條(標(biāo)準(zhǔn)模版)
- 皮膚科常用護(hù)理技術(shù)操作規(guī)程
- 第四講 搜索引擎檢索
- 四川省中小流域暴雨洪水計算表格(尾礦庫洪水計算)
- 新視野大學(xué)英語(第三版)讀寫教程Book4-Unit7-Section-B-A-worldwide-food-crisis課件
- 毛筆字練習(xí)基本筆畫及毛筆字基本筆畫入門
- 《廣東省建筑與裝飾工程綜合定額2023》
- Overture 4.0 中文版使用手冊(V1.0)-IT計算機(jī)-專業(yè)資料
- 帶括號的方程計算題100道
評論
0/150
提交評論