![數(shù)據(jù)挖掘原理與算法02資料_第1頁(yè)](http://file4.renrendoc.com/view/de8b82f46903e62092ccbc744bf53a61/de8b82f46903e62092ccbc744bf53a611.gif)
![數(shù)據(jù)挖掘原理與算法02資料_第2頁(yè)](http://file4.renrendoc.com/view/de8b82f46903e62092ccbc744bf53a61/de8b82f46903e62092ccbc744bf53a612.gif)
![數(shù)據(jù)挖掘原理與算法02資料_第3頁(yè)](http://file4.renrendoc.com/view/de8b82f46903e62092ccbc744bf53a61/de8b82f46903e62092ccbc744bf53a613.gif)
![數(shù)據(jù)挖掘原理與算法02資料_第4頁(yè)](http://file4.renrendoc.com/view/de8b82f46903e62092ccbc744bf53a61/de8b82f46903e62092ccbc744bf53a614.gif)
![數(shù)據(jù)挖掘原理與算法02資料_第5頁(yè)](http://file4.renrendoc.com/view/de8b82f46903e62092ccbc744bf53a61/de8b82f46903e62092ccbc744bf53a615.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第二章 知識(shí)發(fā)現(xiàn)過程(guchng)與應(yīng)用結(jié)構(gòu) 內(nèi)容提要知識(shí)發(fā)現(xiàn)的基本過程 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過程模型知識(shí)發(fā)現(xiàn)軟件或工具(gngj)的發(fā)展知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理2022/7/271共三十三頁(yè)如何學(xué)習(xí)本章(bn zhn)內(nèi)容在上一章我們指出,數(shù)據(jù)挖掘有廣義和狹義兩種理解。為了避免混淆,本章寧愿使用知識(shí)發(fā)現(xiàn)而把數(shù)據(jù)挖掘限制在上面所描述的狹義概念上。雖然不同企業(yè)會(huì)有不同的業(yè)務(wù)邏輯,解決問題的具體方法有所差異,但是它們進(jìn)行知識(shí)發(fā)現(xiàn)的目的和基本思路是一致的。因此,本章首先對(duì)知識(shí)發(fā)現(xiàn)的基本過程進(jìn)行分析,旨在使讀者從總體上掌握知識(shí)發(fā)現(xiàn)的基本步驟和技術(shù)。然后對(duì)目前比較流行的KDD過程處理模型進(jìn)行剖析,使
2、讀者了解KDD系統(tǒng)(xtng)的應(yīng)用體系結(jié)構(gòu)。通過對(duì)KDD系統(tǒng)的基本技術(shù)環(huán)境和主要部件功能分析,使讀者對(duì)KDD系統(tǒng)的體系結(jié)構(gòu)有一個(gè)更深入的了解。在此基礎(chǔ)上對(duì)KDD軟件和工具進(jìn)行歸納、舉例和分析,幫助讀者在實(shí)際應(yīng)用中學(xué)會(huì)選擇和使用相應(yīng)的軟件和工具。本章也對(duì)KDD系統(tǒng)項(xiàng)目的過程化管理、交互式數(shù)據(jù)挖掘過程以及通用的KDD原型系統(tǒng)進(jìn)行討論,使讀者從軟件項(xiàng)目管理角度來更好地理解KDD過程。最后對(duì)數(shù)據(jù)挖掘語(yǔ)言的類型和特點(diǎn)進(jìn)行介紹。2022/7/272共三十三頁(yè)知識(shí)發(fā)現(xiàn)(fxin)是一個(gè)系統(tǒng)化的工作從源數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)是一個(gè)系統(tǒng)化的工作(gngzu)。首先必須對(duì)可以利用的源數(shù)據(jù)進(jìn)行分析,確定合適的挖掘目標(biāo)
3、。然后才能著手系統(tǒng)的設(shè)計(jì)和開發(fā)。完成從大型源數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值知識(shí)的過程可以簡(jiǎn)單地概括為:首先從數(shù)據(jù)源中抽取感興趣的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,調(diào)用相應(yīng)的算法生成所需的知識(shí);最后對(duì)生成的知識(shí)模式進(jìn)行評(píng)估,并把有價(jià)值的知識(shí)集成到企業(yè)的智能系統(tǒng)中。一般地說,KDD是一個(gè)多步驟的處理過程,一般分為問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及模式評(píng)估等基本階段。 2022/7/273共三十三頁(yè)1.問題定義階段(jidun)的功能 KDD是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此發(fā)現(xiàn)何種知識(shí)就成為整個(gè)過程中第一個(gè)也是最重要的一個(gè)階段。在問題定義過程中,數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<?/p>
4、以及最終用戶緊密協(xié)作一方面了解(lioji)相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求,確定挖掘的目標(biāo)等要求;另一方面通過對(duì)各種學(xué)習(xí)算法的對(duì)比進(jìn)而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準(zhǔn)備都是在此基礎(chǔ)上進(jìn)行的。2022/7/274共三十三頁(yè)2.數(shù)據(jù)(shj)抽取階段的功能數(shù)據(jù)抽取的目的(md)是選取相應(yīng)的源數(shù)據(jù)庫(kù),并根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。源數(shù)據(jù)庫(kù)的選取以及從中抽取數(shù)據(jù)的原則和具體規(guī)則必須依據(jù)系統(tǒng)的任務(wù)來確定。2022/7/275共三十三頁(yè)3.數(shù)據(jù)預(yù)處理階段(jidun)的功能數(shù)據(jù)預(yù)處理主要對(duì)前一階段抽取的數(shù)據(jù)進(jìn)行再加工(ji gng),檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性。包
5、括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。2022/7/276共三十三頁(yè)數(shù)據(jù)(shj)抽取與集成數(shù)據(jù)抽取與集成是知識(shí)發(fā)現(xiàn)的關(guān)鍵性工作。早期的數(shù)據(jù)抽取是依靠手工編程來實(shí)現(xiàn)的,現(xiàn)在可以通過高效的抽取工具來實(shí)現(xiàn)。即使是使用抽取工具,數(shù)據(jù)抽取和和裝載仍然是一件很艱苦的工作。源數(shù)據(jù)庫(kù)的選取以及從中抽取數(shù)據(jù)的原則和具體規(guī)則必須依據(jù)系統(tǒng)的任務(wù)來界定。主要(zhyo)任務(wù)是設(shè)計(jì)存儲(chǔ)新數(shù)據(jù)的結(jié)構(gòu)和準(zhǔn)確定義它與源數(shù)據(jù)的轉(zhuǎn)換和裝載機(jī)制,以便正確地從每個(gè)數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結(jié)構(gòu)和轉(zhuǎn)換信息應(yīng)該作為元數(shù)據(jù)(Metadata)被存儲(chǔ)起來。來自不同源的數(shù)據(jù)可能有模式定義上的差異,也可能存在因數(shù)據(jù)
6、冗余而無(wú)法確定有效數(shù)據(jù)的情形。此外,還要考慮數(shù)據(jù)庫(kù)系統(tǒng)本身可能存在不兼容的情況 2022/7/277共三十三頁(yè)數(shù)據(jù)(shj)清洗與預(yù)處理 在開始一個(gè)知識(shí)發(fā)現(xiàn)項(xiàng)目之前必須清晰地定義挖掘目標(biāo)。雖然挖掘的最后結(jié)果是不可預(yù)測(cè)的,但是要解決或探索的問題應(yīng)該是可預(yù)見的。盲目性地挖掘是沒有任何意義的。如果所集成的數(shù)據(jù)不正確,數(shù)據(jù)挖掘算法輸出的結(jié)果也必然不正確,這樣形成的決策支持是不可靠的。因此,要提高挖掘結(jié)果的準(zhǔn)確率,數(shù)據(jù)預(yù)處理是不可忽視的一步。對(duì)數(shù)據(jù)進(jìn)行(jnxng)預(yù)處理,一般需要對(duì)源數(shù)據(jù)進(jìn)行(jnxng)再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行(jnxng)平滑,對(duì)丟失的數(shù)據(jù)進(jìn)行(
7、jnxng)填補(bǔ),消除“臟”數(shù)據(jù),消除重復(fù)記錄等。數(shù)據(jù)清洗是指去除或修補(bǔ)源數(shù)據(jù)中的不完整、不一致、含噪音的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰、甚至為了保密使系統(tǒng)設(shè)計(jì)人員無(wú)法得到某些數(shù)據(jù)項(xiàng)的數(shù)據(jù)。假如這個(gè)數(shù)據(jù)項(xiàng)正是知識(shí)發(fā)現(xiàn)系統(tǒng)所關(guān)心的,那么這類不完整的數(shù)據(jù)就需要修補(bǔ)。常見的不完整數(shù)據(jù)的修補(bǔ)辦法有:使用一個(gè)全局值來填充(如“unknown”、估計(jì)的最大數(shù)或最小數(shù))。統(tǒng)計(jì)該屬性的所有非空值,并用平均值來填充空缺項(xiàng)。只使用同類對(duì)象的屬性平均值填充。利用回歸或工具預(yù)測(cè)最可能的值,并用它來填充。數(shù)據(jù)不一致可能是由于源數(shù)據(jù)庫(kù)中對(duì)同樣屬性所使用的數(shù)據(jù)類型、度量單位等不同而導(dǎo)致的。因此需要定義它們的轉(zhuǎn)換規(guī)則,
8、并在挖掘前統(tǒng)一成一個(gè)形式。噪音數(shù)據(jù)是指那些明顯不符合邏輯的偏差數(shù)據(jù)(如某雇員200歲),這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性。2022/7/278共三十三頁(yè)數(shù)據(jù)(shj)的選擇與整理沒有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結(jié)果。為了得到一個(gè)高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方面需要通過數(shù)據(jù)清洗來消除干擾性數(shù)據(jù),另一方面也需要針對(duì)挖掘目標(biāo)進(jìn)行數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是辨別(binbi)出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)采掘的質(zhì)量。數(shù)據(jù)選擇可以使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務(wù)相關(guān)的數(shù)據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖掘的準(zhǔn)確性。利用數(shù)據(jù)變換或規(guī)約等技術(shù)可以將數(shù)據(jù)整理成適合進(jìn)一步挖掘
9、的數(shù)據(jù)格式。數(shù)據(jù)變換可以根據(jù)需要構(gòu)造出新的屬性以幫助理解分析數(shù)據(jù)的特點(diǎn),或者將數(shù)據(jù)規(guī)范化,使之落在一個(gè)特定的數(shù)據(jù)區(qū)間中。數(shù)據(jù)歸約則是在盡可能保證數(shù)據(jù)完整性的基礎(chǔ)上,將數(shù)據(jù)以其他方式進(jìn)行表示,以減少數(shù)據(jù)存儲(chǔ)空間,使挖掘過程更有效。常用的歸約策略有:數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮和離散化等。2022/7/279共三十三頁(yè)數(shù)據(jù)挖掘階段(jidun)的功能運(yùn)用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示。選擇數(shù)據(jù)挖掘算法有兩個(gè)考慮因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此需要用與之相關(guān)的算法來挖掘;二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶可能希望獲取描述型
10、的(Descriptive)、容易(rngy)理解的知識(shí)(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的用戶只是希望獲取預(yù)測(cè)準(zhǔn)確度盡可能高的預(yù)測(cè)型(Predictive)知識(shí),并不在意獲取的知識(shí)是否易于理解。2022/7/2710共三十三頁(yè)知識(shí)評(píng)估(pn )階段的功能數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評(píng)估,可能存在冗余或無(wú)關(guān)的模式,這時(shí)需要將其剔除;也有可能模式不滿足用戶要求,這時(shí)則需要整個(gè)發(fā)現(xiàn)過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等等。KDD由于最終是面向人類用戶的,因此(ync)可能要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶
11、易懂的另一種表示。所以知識(shí)評(píng)估階段是KDD一個(gè)重要的必不可少的階段,它不僅擔(dān)負(fù)著將KDD系統(tǒng)發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),而且根據(jù)需要進(jìn)行知識(shí)評(píng)價(jià),如果和用戶的挖掘目標(biāo)不一致就需要返回前面相應(yīng)的步驟進(jìn)行螺旋式處理以最終獲得可用的知識(shí)。2022/7/2711共三十三頁(yè)知識(shí)發(fā)現(xiàn)需要多方(dufng)合作實(shí)施這樣的項(xiàng)目不僅需要充足的資金,而且需要有良好的技術(shù)和人員儲(chǔ)備。在整個(gè)的知識(shí)發(fā)現(xiàn)過程中,需要有不同專長(zhǎng)的技術(shù)人員支持。業(yè)務(wù)分析人員:要求(yoqi)精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能
12、力把業(yè)務(wù)需求轉(zhuǎn)化為知識(shí)發(fā)現(xiàn)的各步操作,并為每步操作選擇合適的模型或工具。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并負(fù)責(zé)從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。2022/7/2712共三十三頁(yè)第二章 知識(shí)(zh shi)發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu) 內(nèi)容提要知識(shí)發(fā)現(xiàn)的基本(jbn)過程 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過程模型知識(shí)發(fā)現(xiàn)軟件或工具的發(fā)展知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理 數(shù)據(jù)挖掘語(yǔ)言介紹 2022/7/2713共三十三頁(yè)階梯(jit)處理過程模型多階段流水處理(chl)模型: 2022/7/2714共三十三頁(yè)螺旋(luxun)處理過程模型它強(qiáng)調(diào)領(lǐng)域?qū)<覅⑴c的重要性,并以問題的定義為中心循環(huán)評(píng)測(cè)挖掘的結(jié)果。當(dāng)結(jié)果不令人滿意時(shí),就需
13、要重新定義問題,開始新的處理(chl)循環(huán)。每次循環(huán)都使問題更清晰,結(jié)果更準(zhǔn)確,因此是一個(gè)螺旋式上升過程。 2022/7/2715共三十三頁(yè)以用戶為中心(zhngxn)的處理模型Brachman和Anand從用戶的角度對(duì)KDD處理過程進(jìn)行了分析。他們認(rèn)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)應(yīng)該更著重于對(duì)用戶進(jìn)行知識(shí)發(fā)現(xiàn)的整個(gè)過程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個(gè)階段上。該模型強(qiáng)調(diào)(qing dio)對(duì)用戶與數(shù)據(jù)庫(kù)的交互的支持。2022/7/2716共三十三頁(yè)聯(lián)機(jī)(lin j)KDD模型實(shí)現(xiàn)聯(lián)機(jī)交互式KDD需要可視化技術(shù)支撐。這種可視化需要從數(shù)據(jù)挖掘過程可視化、數(shù)據(jù)可視化、模型可視化和算法可視覺化等方面(fn
14、gmin)來理解。OLAM(On Line Analytical Mining:聯(lián)機(jī)分析挖掘)的概念是OLAP的發(fā)展。An OLAM ArchitectureData WarehouseMeta DataMDDBOLAMEngineOLAPEngineUser GUIAPIData Cube APIDatabase APIData cleaningData integrationL2OLAP/OLAML1MDDBL0Data RepositoryL3User InterfaceFiltering&IntegrationFilteringDatabasesMining queryMining r
15、esult2022/7/2717共三十三頁(yè)支持多數(shù)據(jù)源多知識(shí)模式(msh)的KDD處理模型數(shù)據(jù)與方法相對(duì)獨(dú)立。數(shù)據(jù)不是針對(duì)某一特定知識(shí)模式,而是針對(duì)某一類問題來抽取。經(jīng)過預(yù)處理后,這些數(shù)據(jù)對(duì)于某些挖掘算法來說可能存在屬性冗余、與目標(biāo)無(wú)關(guān)等問題,因此在后面的階段再進(jìn)行相關(guān)的數(shù)據(jù)清洗和選擇工作(gngzu),這樣使得解決同一類問題的不同算法可以在統(tǒng)一的KDD平臺(tái)上完成。 模式評(píng)估模式評(píng)估數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)選擇數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗模式選擇數(shù)據(jù)集成數(shù)據(jù)抽取數(shù)據(jù)抽取問題定義Web/TEXTDBDWDB/DW源數(shù)據(jù)備選數(shù)據(jù)Cube目標(biāo)數(shù)據(jù)DB知識(shí)庫(kù)用戶知識(shí)模式庫(kù)2022/7/2718共三十三頁(yè)第二章 知識(shí)
16、發(fā)現(xiàn)(fxin)過程與應(yīng)用結(jié)構(gòu) 內(nèi)容提要知識(shí)發(fā)現(xiàn)的基本過程(guchng) 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過程模型知識(shí)發(fā)現(xiàn)軟件或工具的發(fā)展知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理 數(shù)據(jù)挖掘語(yǔ)言介紹 2022/7/2719共三十三頁(yè)知識(shí)發(fā)現(xiàn)(fxin)軟件的發(fā)展雖然市場(chǎng)上已經(jīng)有許多所謂的知識(shí)發(fā)現(xiàn)系統(tǒng)或工具,但是,這些工具只能用來輔助技術(shù)人員進(jìn)行設(shè)計(jì)和開發(fā),而且知識(shí)發(fā)現(xiàn)軟件本身也正處于發(fā)展階段,仍然(rngrn)存在各種各樣需要解決的問題。粗略地說,知識(shí)發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨(dú)立的知識(shí)發(fā)現(xiàn)軟件、橫向的知識(shí)發(fā)現(xiàn)工具集和縱向的知識(shí)發(fā)現(xiàn)解決方案三個(gè)主要階段,其中后面兩種反映了目前知識(shí)發(fā)現(xiàn)軟件的兩個(gè)主要發(fā)展方向。2022/7
17、/2720共三十三頁(yè)獨(dú)立的知識(shí)(zh shi)發(fā)現(xiàn)軟件獨(dú)立的知識(shí)發(fā)現(xiàn)軟件出現(xiàn)在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)研究的早期。當(dāng)研究人員(rnyun)開發(fā)出一種新型的數(shù)據(jù)挖掘算法后,就在此基礎(chǔ)上形成軟件原型。這些原型系統(tǒng)經(jīng)過完善被嘗試使用。這類軟件要求用戶必須對(duì)具體的數(shù)據(jù)挖掘技術(shù)和算法有相當(dāng)?shù)牧私?,還要手工負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。2022/7/2721共三十三頁(yè)橫向的知識(shí)發(fā)現(xiàn)(fxin)工具集成化的知識(shí)發(fā)現(xiàn)輔助工具集,屬于通用輔助工具范疇,可以幫助(bngzh)用戶快速完成知識(shí)發(fā)現(xiàn)的不同階段處理工作。一些有代表性的原型系統(tǒng)或工具介紹。名稱研究機(jī)構(gòu)或公司主要特點(diǎn)DBMiner1Simon Fraser以O(shè)L
18、AM引擎為核心的聯(lián)機(jī)挖掘原型系統(tǒng);包含多特征/序列/關(guān)聯(lián)等多模式。Quest75IBM Almaden面向大數(shù)據(jù)集的多模式(關(guān)聯(lián)規(guī)則/分類等)挖掘工具。IBM Intelligent Miner76IBM包含多種技術(shù)(神經(jīng)網(wǎng)絡(luò)/統(tǒng)計(jì)分析/聚類等)的輔助挖掘工具集。Darwin76Thinking Machines基于神經(jīng)網(wǎng)絡(luò)的輔助挖掘工具。ReMindCognitive System基于實(shí)例推理和歸納邏輯的輔助挖掘工具。2022/7/2722共三十三頁(yè)縱向(zn xin)的知識(shí)發(fā)現(xiàn)解決方案隨著橫向的數(shù)據(jù)挖掘工具集的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用。如果對(duì)數(shù)
19、據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)及其算法不了解,就難以開發(fā)出好的應(yīng)用 ??v向的數(shù)據(jù)挖掘解決方案的核心是針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)解決方案。由于和具體的商業(yè)邏輯相結(jié)合,因此,數(shù)據(jù)挖掘技術(shù)專門為了解決某些(mu xi)特定的問題被使用,成為企業(yè)應(yīng)用系統(tǒng)中一部分。許多廠商或研究機(jī)構(gòu)可以提供縱向數(shù)據(jù)挖掘的解決方案。因此,數(shù)據(jù)挖掘技術(shù)在最近幾年開始在一些領(lǐng)域得到應(yīng)用。例如,證券系統(tǒng)的趨勢(shì)預(yù)測(cè)、銀行和電信行業(yè)的欺詐行為檢測(cè)、在CRM中的應(yīng)用、在基因分析系統(tǒng)中用于DNA識(shí)別等。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,
20、發(fā)現(xiàn)的知識(shí)可靠度也比較高。 2022/7/2723共三十三頁(yè)第二章 知識(shí)發(fā)現(xiàn)過程(guchng)與應(yīng)用結(jié)構(gòu) 內(nèi)容提要知識(shí)發(fā)現(xiàn)的基本過程 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過程模型知識(shí)發(fā)現(xiàn)軟件或工具的發(fā)展知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理 數(shù)據(jù)挖掘語(yǔ)言(yyn)介紹 2022/7/2724共三十三頁(yè)知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理(gunl)問題開發(fā)一個(gè)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)項(xiàng)目需要各方面協(xié)同合作而且極易出現(xiàn)(chxin)問題,因此它的質(zhì)量管理問題的討論是重要而困難的。近幾年,有一些針對(duì)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理所開展的工作,其中一個(gè)典型的模型三被稱作強(qiáng)度挖掘(Intension Mining)的I-MIN過程模型。I-
21、MIN過程模型把KDD過程分成IM1、IM2、IM6等步驟處理,在每個(gè)步驟里,集中討論幾個(gè)問題,并按一定的質(zhì)量標(biāo)準(zhǔn)來控制項(xiàng)目的實(shí)施。2022/7/2725共三十三頁(yè)IM1的任務(wù)(rn wu)與目的它是KDD項(xiàng)目的計(jì)劃階段(jidun),需要確定企業(yè)的挖掘目標(biāo),選擇知識(shí)發(fā)現(xiàn)模式,編譯知識(shí)發(fā)現(xiàn)模式得到的元數(shù)據(jù)。其目的是將企業(yè)的挖掘目標(biāo)嵌入到對(duì)應(yīng)的知識(shí)模式中。對(duì)數(shù)據(jù)挖掘研究人員來說,往往把主要精力用在改進(jìn)現(xiàn)有算法和探索新算法上。但是在真正調(diào)用挖掘算法之前,必須對(duì)企業(yè)的決策機(jī)制和流程進(jìn)行充分調(diào)研,理解企業(yè)急需解決的問題。需要準(zhǔn)確地確定挖掘目標(biāo)和可交付系統(tǒng)的指標(biāo)等。2022/7/2726共三十三頁(yè)IM2的任務(wù)(rn wu)與目標(biāo)它是KDD的預(yù)處理階段(jidun),可以用IM2a、IM2b、IM2c等分別對(duì)應(yīng)于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等階段。其目的是生成高質(zhì)量的目標(biāo)數(shù)據(jù)。知識(shí)發(fā)現(xiàn)項(xiàng)目的數(shù)據(jù)預(yù)處理是一個(gè)費(fèi)時(shí)費(fèi)力的工作。事實(shí)上,數(shù)據(jù)挖掘的成功與否,數(shù)據(jù)預(yù)處理起到了至關(guān)重要的作用。只有好的預(yù)處理,才能避免GIGO(垃圾進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度杭州電子科技大學(xué)產(chǎn)學(xué)研合作項(xiàng)目合同
- 2025年度出租車司機(jī)培訓(xùn)與技能提升合同
- 2025年國(guó)際海上救助服務(wù)海運(yùn)貨物運(yùn)輸合同協(xié)議范本
- 2025年度綠色生態(tài)建設(shè)環(huán)保合同范本
- 2025年度企業(yè)并購(gòu)貸款續(xù)借合同模板
- 北京餐飲合伙合同范本
- 買賣山地合同范例
- vr制作合同范本
- 修路車輛租賃合同范例
- 出售翻新塔吊合同范本
- 藥膳與食療試題及答案高中
- 北京市西城區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷含答案
- 2025年南京信息職業(yè)技術(shù)學(xué)院高職單招數(shù)學(xué)歷年(2016-2024)頻考點(diǎn)試題含答案解析
- 二零二五年度海外市場(chǎng)拓展合作協(xié)議4篇
- 2025年春新外研版(三起)英語(yǔ)三年級(jí)下冊(cè)課件 Unit4第2課時(shí)Speedup
- 2024年湖南汽車工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)標(biāo)準(zhǔn)卷
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 公共關(guān)系學(xué)完整教學(xué)課件
- 固定資產(chǎn)借用登記表
- 行業(yè)會(huì)計(jì)比較ppt課件(完整版)
- 外固定架--ppt課件
評(píng)論
0/150
提交評(píng)論