版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主講:趙宏慶數(shù)據(jù)挖掘原理與算法第二章知識(shí)發(fā)現(xiàn)過(guò)程與應(yīng)用結(jié)構(gòu)
2第二章知識(shí)發(fā)現(xiàn)過(guò)程與應(yīng)用結(jié)構(gòu)2.1知識(shí)發(fā)現(xiàn)的根本過(guò)程2.2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過(guò)程模型2.3知識(shí)發(fā)現(xiàn)軟件或工具的開(kāi)展2.4知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理2.5數(shù)據(jù)挖掘語(yǔ)言介紹3如何學(xué)習(xí)本章內(nèi)容在上一章我們指出,數(shù)據(jù)挖掘有廣義和狹義兩種理解。為了防止混淆,本章使用知識(shí)發(fā)現(xiàn)而把數(shù)據(jù)挖掘限制在上面所描述的狹義概念上。4如何學(xué)習(xí)本章內(nèi)容雖然不同企業(yè)會(huì)有不同的業(yè)務(wù)邏輯,解決問(wèn)題的具體方法有所差異,但是它們進(jìn)行知識(shí)發(fā)現(xiàn)的目的和根本思路是一致的。本章首先對(duì)知識(shí)發(fā)現(xiàn)的根本過(guò)程進(jìn)行分析,旨在使讀者從總體上掌握知識(shí)發(fā)現(xiàn)的根本步驟和技術(shù)。然后對(duì)目前比較流行的KDD過(guò)程處理模型進(jìn)行剖析,了解KDD系統(tǒng)的應(yīng)用體系結(jié)構(gòu)。通過(guò)對(duì)KDD系統(tǒng)的根本技術(shù)環(huán)境和主要部件功能分析,對(duì)KDD系統(tǒng)的體系結(jié)構(gòu)有一個(gè)更深入的了解。在此根底上對(duì)KDD軟件和工具進(jìn)行歸納、舉例和分析,幫助讀者在實(shí)際應(yīng)用中學(xué)會(huì)選擇和使用相應(yīng)的軟件和工具。5如何學(xué)習(xí)本章內(nèi)容本章也對(duì)KDD系統(tǒng)工程的過(guò)程化管理、交互式數(shù)據(jù)挖掘過(guò)程以及通用的KDD原型系統(tǒng)進(jìn)行討論,從軟件工程管理角度來(lái)更好地理解KDD過(guò)程。最后對(duì)數(shù)據(jù)挖掘語(yǔ)言的類型和特點(diǎn)進(jìn)行介紹。62.1知識(shí)發(fā)現(xiàn)是一個(gè)系統(tǒng)化的工作從源數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)是一個(gè)系統(tǒng)化的工作。首先必須對(duì)可以利用的源數(shù)據(jù)進(jìn)行分析,確定適宜的挖掘目標(biāo)。然后才能著手系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)。完成從大型源數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值知識(shí)的過(guò)程可以簡(jiǎn)單地概括為:首先從數(shù)據(jù)源中抽取感興趣的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,調(diào)用相應(yīng)的算法生成所需的知識(shí);最后對(duì)生成的知識(shí)模式進(jìn)行評(píng)估,并把有價(jià)值的知識(shí)集成到企業(yè)的智能系統(tǒng)中?!桃话愕卣f(shuō),KDD是一個(gè)多步驟的處理過(guò)程,一般分為問(wèn)題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及模式評(píng)估等根本階段。7問(wèn)題定義階段的功能KDD是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此發(fā)現(xiàn)何種知識(shí)就成為整個(gè)過(guò)程中第一個(gè)也是最重要的一個(gè)階段。在問(wèn)題定義過(guò)程中,數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<乙约白罱K用戶緊密協(xié)作一方面了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求,確定挖掘的目標(biāo)等要求;另一方面通過(guò)對(duì)各種學(xué)習(xí)算法的比照進(jìn)而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準(zhǔn)備都是在此根底上進(jìn)行的。82.1.1數(shù)據(jù)抽取與集成數(shù)據(jù)抽取與集成是知識(shí)發(fā)現(xiàn)的關(guān)鍵性工作。早期的數(shù)據(jù)抽取是依靠手工編程來(lái)實(shí)現(xiàn)的,現(xiàn)在可以通過(guò)高效的抽取工具來(lái)實(shí)現(xiàn)。源數(shù)據(jù)庫(kù)的選取以及從中抽取數(shù)據(jù)的原那么和具體規(guī)那么必須依據(jù)系統(tǒng)的任務(wù)來(lái)界定。主要任務(wù)是設(shè)計(jì)存儲(chǔ)新數(shù)據(jù)的結(jié)構(gòu)和準(zhǔn)確定義它與源數(shù)據(jù)的轉(zhuǎn)換和裝載機(jī)制,以便正確地從每個(gè)數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結(jié)構(gòu)和轉(zhuǎn)換信息應(yīng)該作為元數(shù)據(jù)〔Metadata〕被存儲(chǔ)起來(lái)。來(lái)自不同源的數(shù)據(jù)可能有模式定義上的差異,也可能存在因數(shù)據(jù)冗余而無(wú)法確定有效數(shù)據(jù)的情形。此外,還要考慮數(shù)據(jù)庫(kù)系統(tǒng)本身可能存在不兼容的情況9數(shù)據(jù)清洗與預(yù)處理在開(kāi)始一個(gè)知識(shí)發(fā)現(xiàn)工程之前必須清晰地定義挖掘目標(biāo)。因此,要提高挖掘結(jié)果的準(zhǔn)確率,數(shù)據(jù)預(yù)處理是不可無(wú)視的一步。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,一般需要對(duì)源數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行平滑,對(duì)喪失的數(shù)據(jù)進(jìn)行填補(bǔ),消除“臟〞數(shù)據(jù),消除重復(fù)記錄等。數(shù)據(jù)清洗是指去除或修補(bǔ)源數(shù)據(jù)中的不完整、不一致、含噪音的數(shù)據(jù)。10數(shù)據(jù)清洗與預(yù)處理常見(jiàn)的不完整數(shù)據(jù)的修補(bǔ)方法有:使用一個(gè)全局值來(lái)填充〔如“unknown〞、估計(jì)的最大數(shù)或最小數(shù)〕。統(tǒng)計(jì)該屬性的所有非空值,并用平均值來(lái)填充空缺項(xiàng)。只使用同類對(duì)象的屬性平均值填充。利用回歸或工具預(yù)測(cè)最可能的值,并用它來(lái)填充。數(shù)據(jù)不一致可能是由于源數(shù)據(jù)庫(kù)中對(duì)同樣屬性所使用的數(shù)據(jù)類型、度量單位等不同而導(dǎo)致的。因此需要定義它們的轉(zhuǎn)換規(guī)那么,并在挖掘前統(tǒng)一成一個(gè)形式。11數(shù)據(jù)的選擇與整理沒(méi)有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結(jié)果。為了得到一個(gè)高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方面需要通過(guò)數(shù)據(jù)清洗來(lái)消除干擾性數(shù)據(jù),另一方面也需要針對(duì)挖掘目標(biāo)進(jìn)行數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是區(qū)分出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)采掘的質(zhì)量。數(shù)據(jù)選擇可以使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務(wù)相關(guān)的數(shù)據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖掘的準(zhǔn)確性。12數(shù)據(jù)的選擇與整理利用數(shù)據(jù)變換或規(guī)約等技術(shù)可以將數(shù)據(jù)整理成適合進(jìn)一步挖掘的數(shù)據(jù)格式。數(shù)據(jù)變換可以根據(jù)需要構(gòu)造出新的屬性以幫助理解分析數(shù)據(jù)的特點(diǎn),或者將數(shù)據(jù)標(biāo)準(zhǔn)化,使之落在一個(gè)特定的數(shù)據(jù)區(qū)間中。數(shù)據(jù)規(guī)約那么是在盡可能保證數(shù)據(jù)完整性的根底上,將數(shù)據(jù)以其他方式進(jìn)行表示,以減少數(shù)據(jù)存儲(chǔ)空間,使挖掘過(guò)程更有效。常用的規(guī)約策略有:數(shù)據(jù)立方體聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值壓縮和離散化等。132.1.4數(shù)據(jù)挖掘階段的功能運(yùn)用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示。選擇數(shù)據(jù)挖掘算法有兩個(gè)考慮因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此需要用與之相關(guān)的算法來(lái)挖掘;二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶可能希望獲取描述型的〔Descriptive〕、容易理解的知識(shí)〔采用規(guī)那么表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法〕,而有的用戶只是希望獲取預(yù)測(cè)準(zhǔn)確度盡可能高的預(yù)測(cè)型〔Predictive〕知識(shí),并不在意獲取的知識(shí)是否易于理解。142.1.5知識(shí)評(píng)估階段的功能數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來(lái)的模式,經(jīng)過(guò)評(píng)估,可能存在冗余或無(wú)關(guān)的模式,這時(shí)需要將其剔除;也有可能模式不滿足用戶要求,這時(shí)那么需要整個(gè)發(fā)現(xiàn)過(guò)程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等等。152.1.5知識(shí)評(píng)估階段的功能KDD由于最終是面向人類用戶的,因此可能要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示。所以知識(shí)評(píng)估階段是KDD一個(gè)重要的必不可少的階段,它不僅擔(dān)負(fù)著將KDD系統(tǒng)發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),而且根據(jù)需要進(jìn)行知識(shí)評(píng)價(jià),如果和用戶的挖掘目標(biāo)不一致就需要返回前面相應(yīng)的步驟進(jìn)行螺旋式處理以最終獲得可用的知識(shí)。16知識(shí)發(fā)現(xiàn)需要多方合作實(shí)施這樣的工程不僅需要充足的資金,而且需要有良好的技術(shù)和人員儲(chǔ)藏。在整個(gè)的知識(shí)發(fā)現(xiàn)過(guò)程中,需要有不同專長(zhǎng)的技術(shù)人員支持。業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為知識(shí)發(fā)現(xiàn)的各步操作,并為每步操作選擇適宜的模型或工具。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并負(fù)責(zé)從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。17第二章知識(shí)發(fā)現(xiàn)過(guò)程與應(yīng)用結(jié)構(gòu)2.1知識(shí)發(fā)現(xiàn)的根本過(guò)程2.2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過(guò)程模型2.3知識(shí)發(fā)現(xiàn)軟件或工具的開(kāi)展2.4知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理2.5數(shù)據(jù)挖掘語(yǔ)言介紹182.2.1階梯處理過(guò)程模型多階段流水處理模型:
192.2.2螺旋處理過(guò)程模型它強(qiáng)調(diào)領(lǐng)域?qū)<覅⑴c的重要性,并以問(wèn)題的定義為中心循環(huán)評(píng)測(cè)挖掘的結(jié)果。當(dāng)結(jié)果不令人滿意時(shí),就需要重新定義問(wèn)題,開(kāi)始新的處理循環(huán)。每次循環(huán)都使問(wèn)題更清晰,結(jié)果更準(zhǔn)確,因此是一個(gè)螺旋式上升過(guò)程。
202.2.3以用戶為中心的處理模型Brachman和Anand從用戶的角度對(duì)KDD處理過(guò)程進(jìn)行了分析。他們認(rèn)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)應(yīng)該更著重于對(duì)用戶進(jìn)行知識(shí)發(fā)現(xiàn)的整個(gè)過(guò)程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個(gè)階段上。該模型強(qiáng)調(diào)對(duì)用戶與數(shù)據(jù)庫(kù)的交互的支持。212.2.4聯(lián)機(jī)KDD模型實(shí)現(xiàn)聯(lián)機(jī)交互式KDD需要可視化技術(shù)支撐。這種可視化需要從數(shù)據(jù)挖掘過(guò)程可視化、數(shù)據(jù)可視化、模型可視化和算法可視覺(jué)化等方面來(lái)理解。OLAM〔OnLineAnalyticalMining:聯(lián)機(jī)分析挖掘〕的概念是OLAP的開(kāi)展。AnOLAMArchitectureDataWarehouseMetaDataMDDBOLAMEngineOLAPEngineUserGUIAPIDataCubeAPIDatabaseAPIDatacleaningDataintegrationL2OLAP/OLAML1MDDBL0DataRepositoryL3UserInterfaceFiltering&IntegrationFilteringDatabasesMiningqueryMiningresult222.2.5支持多數(shù)據(jù)源多知識(shí)模式的KDD處理模型數(shù)據(jù)與方法相對(duì)獨(dú)立。數(shù)據(jù)不是針對(duì)某一特定知識(shí)模式,而是針對(duì)某一類問(wèn)題來(lái)抽取。經(jīng)過(guò)預(yù)處理后,這些數(shù)據(jù)對(duì)于某些挖掘算法來(lái)說(shuō)可能存在屬性冗余、與目標(biāo)無(wú)關(guān)等問(wèn)題,因此在后面的階段再進(jìn)行相關(guān)的數(shù)據(jù)清洗和選擇工作,這樣使得解決同一類問(wèn)題的不同算法可以在統(tǒng)一的KDD平臺(tái)上完成。
模式評(píng)估模式評(píng)估數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)選擇數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗模式選擇數(shù)據(jù)集成數(shù)據(jù)抽取數(shù)據(jù)抽取問(wèn)題定義Web/TEXTDBDWDB/DW源數(shù)據(jù)備選數(shù)據(jù)Cube目標(biāo)數(shù)據(jù)DB知識(shí)庫(kù)用戶知識(shí)模式庫(kù)23第二章知識(shí)發(fā)現(xiàn)過(guò)程與應(yīng)用結(jié)構(gòu)2.1知識(shí)發(fā)現(xiàn)的根本過(guò)程2.2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過(guò)程模型2.3知識(shí)發(fā)現(xiàn)軟件或工具的開(kāi)展2.4知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理2.5數(shù)據(jù)挖掘語(yǔ)言介紹242.3知識(shí)發(fā)現(xiàn)軟件的開(kāi)展雖然市場(chǎng)上已經(jīng)有許多所謂的知識(shí)發(fā)現(xiàn)系統(tǒng)或工具,但是,這些工具只能用來(lái)輔助技術(shù)人員進(jìn)行設(shè)計(jì)和開(kāi)發(fā),而且知識(shí)發(fā)現(xiàn)軟件本身也正處于開(kāi)展階段,仍然存在各種各樣需要解決的問(wèn)題。粗略地說(shuō),知識(shí)發(fā)現(xiàn)軟件或工具的開(kāi)展經(jīng)歷了獨(dú)立的知識(shí)發(fā)現(xiàn)軟件、橫向的知識(shí)發(fā)現(xiàn)工具集和縱向的知識(shí)發(fā)現(xiàn)解決方案三個(gè)主要階段,其中后面兩種反映了目前知識(shí)發(fā)現(xiàn)軟件的兩個(gè)主要開(kāi)展方向。252.3.1獨(dú)立的知識(shí)發(fā)現(xiàn)軟件獨(dú)立的知識(shí)發(fā)現(xiàn)軟件出現(xiàn)在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)研究的早期。當(dāng)研究人員開(kāi)發(fā)出一種新型的數(shù)據(jù)挖掘算法后,就在此根底上形成軟件原型。這些原型系統(tǒng)經(jīng)過(guò)完善被嘗試使用。這類軟件要求用戶必須對(duì)具體的數(shù)據(jù)挖掘技術(shù)和算法有相當(dāng)?shù)牧私?,還要手工負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。262.3.2橫向的知識(shí)發(fā)現(xiàn)工具集成化的知識(shí)發(fā)現(xiàn)輔助工具集,屬于通用輔助工具范疇,可以幫助用戶快速完成知識(shí)發(fā)現(xiàn)的不同階段處理工作。一些有代表性的原型系統(tǒng)或工具介紹。名稱 研究機(jī)構(gòu)或公司 主要特點(diǎn) DBMiner[1] SimonFraser 以O(shè)LAM引擎為核心的聯(lián)機(jī)挖掘原型系統(tǒng);包含多特征/序列/關(guān)聯(lián)等多模式。 Quest[75] IBMAlmaden 面向大數(shù)據(jù)集的多模式〔關(guān)聯(lián)規(guī)那么/分類等〕挖掘工具。 IBMIntelligentMiner[76] IBM 包含多種技術(shù)〔神經(jīng)網(wǎng)絡(luò)/統(tǒng)計(jì)分析/聚類等〕的輔助挖掘工具集。 Darwin[76] ThinkingMachines 基于神經(jīng)網(wǎng)絡(luò)的輔助挖掘工具。 ReMind CognitiveSystem 基于實(shí)例推理和歸納邏輯的輔助挖掘工具。 272.3.3縱向的知識(shí)發(fā)現(xiàn)解決方案隨著橫向的數(shù)據(jù)挖掘工具集的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用。如果對(duì)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)及其算法不了解,就難以開(kāi)發(fā)出好的應(yīng)用。縱向的數(shù)據(jù)挖掘解決方案的核心是針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)解決方案。由于和具體的商業(yè)邏輯相結(jié)合,因此,數(shù)據(jù)挖掘技術(shù)專門為了解決某些特定的問(wèn)題被使用,成為企業(yè)應(yīng)用系統(tǒng)中一局部。282.3.3縱向的知識(shí)發(fā)現(xiàn)解決方案許多廠商或研究機(jī)構(gòu)可以提供縱向數(shù)據(jù)挖掘的解決方案。因此,數(shù)據(jù)挖掘技術(shù)在最近幾年開(kāi)始在一些領(lǐng)域得到應(yīng)用。例如,證券系統(tǒng)的趨勢(shì)預(yù)測(cè)、銀行和電信行業(yè)的欺詐行為檢測(cè)、在CRM中的應(yīng)用、在基因分析系統(tǒng)中用于DNA識(shí)別等。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。29第二章知識(shí)發(fā)現(xiàn)過(guò)程與應(yīng)用結(jié)構(gòu)2.1知識(shí)發(fā)現(xiàn)的根本過(guò)程2.2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過(guò)程模型2.3知識(shí)發(fā)現(xiàn)軟件或工具的開(kāi)展2.4知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理2.5數(shù)據(jù)挖掘語(yǔ)言介紹302.4知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理問(wèn)題開(kāi)發(fā)一個(gè)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)工程需要各方面協(xié)同合作而且極易出現(xiàn)問(wèn)題,因此它的質(zhì)量管理問(wèn)題的討論是重要而困難的。近幾年,有一些針對(duì)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理所開(kāi)展的工作,其中一個(gè)典型的模型三被稱作強(qiáng)度挖掘〔IntensionMining〕的I-MIN過(guò)程模型。I-MIN過(guò)程模型把KDD過(guò)程分成IM1、IM2、…、IM6等步驟處理,在每個(gè)步驟里,集中討論幾個(gè)問(wèn)題,并按一定的質(zhì)量標(biāo)準(zhǔn)來(lái)控制工程的實(shí)施。31IM1的任務(wù)與目的它是KDD工程的方案階段,需要確定企業(yè)的挖掘目標(biāo),選擇知識(shí)發(fā)現(xiàn)模式,編譯知識(shí)發(fā)現(xiàn)模式得到的元數(shù)據(jù)。目的是將企業(yè)的挖掘目標(biāo)嵌入到對(duì)應(yīng)的知識(shí)模式中。對(duì)數(shù)據(jù)挖掘研究人員來(lái)說(shuō),往往把主要精力用在改進(jìn)現(xiàn)有算法和探索新算法上。但是在真正調(diào)用挖掘算法之前,必須對(duì)企業(yè)的決策機(jī)制和流程進(jìn)行充分調(diào)研,理解企業(yè)急需解決的問(wèn)題。需要準(zhǔn)確地確定挖掘目標(biāo)和可交付系統(tǒng)的指標(biāo)等。32IM2的任務(wù)與目標(biāo)它是KDD的預(yù)處理階段,可以用IM2a、IM2b、IM2c等分別對(duì)應(yīng)于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等階段。其目的是生成高質(zhì)量的目標(biāo)數(shù)據(jù)。知識(shí)發(fā)現(xiàn)工程的數(shù)據(jù)預(yù)處理是一個(gè)費(fèi)時(shí)費(fèi)力的工作。事實(shí)上,數(shù)據(jù)挖掘的成功與否,數(shù)據(jù)預(yù)處理起到了至關(guān)重要的作用。只有好的預(yù)處理,才能防止GIGO〔垃圾進(jìn)垃圾出〕的現(xiàn)象發(fā)生。33IM3的任務(wù)與目標(biāo)它是KDD的挖掘準(zhǔn)備階段,數(shù)據(jù)挖掘工程師進(jìn)行挖掘?qū)嶒?yàn),反復(fù)測(cè)試和驗(yàn)證模型的有效性。其目的是通過(guò)實(shí)驗(yàn)和訓(xùn)練得到濃縮知識(shí)(KnowledgeConcentrate),為最終用戶提供可使用的模型。34IM4的任務(wù)與目標(biāo)它是KDD的數(shù)據(jù)挖掘階段,用戶通過(guò)指定數(shù)據(jù)挖掘算法得到對(duì)應(yīng)的知識(shí)。
35IM5的任務(wù)與目標(biāo)它是KDD的知識(shí)表示階段,按指定要求形成規(guī)格化的知識(shí)。36IM6的任務(wù)與目標(biāo)它是KDD的知識(shí)解釋與使用階段,其目的是根據(jù)用戶要求直觀地輸出知識(shí)或集成到企業(yè)的知識(shí)庫(kù)中。37第二章知識(shí)發(fā)現(xiàn)過(guò)程與應(yīng)用結(jié)構(gòu)2.1知識(shí)發(fā)現(xiàn)的根本過(guò)程2.2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)處理過(guò)程模型2.3知識(shí)發(fā)現(xiàn)軟件或工具的開(kāi)展2.4知識(shí)發(fā)現(xiàn)工程的過(guò)程化管理2.5數(shù)據(jù)挖掘語(yǔ)言介紹382.5數(shù)據(jù)挖掘語(yǔ)言概述設(shè)計(jì)理想的數(shù)據(jù)挖掘語(yǔ)言是一個(gè)巨大的挑戰(zhàn)。這是因?yàn)閿?shù)據(jù)挖掘覆蓋的任務(wù)寬、包含知識(shí)形式廣〔如數(shù)據(jù)特征化、關(guān)聯(lián)規(guī)那么、數(shù)據(jù)分類、聚集等等〕。每個(gè)任務(wù)都有不同的需求,每種知識(shí)表示形式都有不同內(nèi)涵。一個(gè)有效的數(shù)據(jù)挖掘語(yǔ)言設(shè)計(jì)需要對(duì)各種不同的數(shù)據(jù)挖掘任務(wù)的能力、約束以及運(yùn)行機(jī)制有深入地理解。392.5數(shù)據(jù)挖掘語(yǔ)言概述眾所周知,關(guān)系查詢語(yǔ)言的標(biāo)準(zhǔn)化,發(fā)生在關(guān)系型數(shù)據(jù)庫(kù)開(kāi)發(fā)的早期階段。經(jīng)過(guò)不懈的努力,以SQL為代表的關(guān)系型數(shù)據(jù)庫(kù)查詢語(yǔ)言的標(biāo)準(zhǔn)化被成功解決。同樣,一個(gè)好的數(shù)據(jù)挖掘語(yǔ)言可以有助于數(shù)據(jù)挖掘系統(tǒng)平臺(tái)的標(biāo)準(zhǔn)化進(jìn)程,甚至可以象HTML推動(dòng)Internet的開(kāi)展一樣,推動(dòng)數(shù)據(jù)挖掘行業(yè)的開(kāi)發(fā)和開(kāi)展。402.5數(shù)據(jù)挖掘語(yǔ)言概述數(shù)據(jù)挖掘語(yǔ)言的開(kāi)展大致經(jīng)歷了兩個(gè)階段:第一個(gè)階段是研究單位和公司自行研究和開(kāi)發(fā)階段;第二階段是研究單位和公司組成聯(lián)盟,研制和開(kāi)發(fā)數(shù)據(jù)挖掘語(yǔ)言標(biāo)準(zhǔn)化的階段。41數(shù)據(jù)挖掘語(yǔ)言分類根據(jù)功能和側(cè)重點(diǎn)不同,數(shù)據(jù)挖掘語(yǔ)言可以分為三種類型:數(shù)據(jù)挖掘查詢語(yǔ)言:希望以一種像SQL這樣的數(shù)據(jù)庫(kù)查詢語(yǔ)言完成數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘建模語(yǔ)言:對(duì)數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語(yǔ)言,設(shè)計(jì)一種標(biāo)準(zhǔn)的數(shù)據(jù)挖掘建模語(yǔ)言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標(biāo)準(zhǔn)可以遵循。通用數(shù)據(jù)挖掘語(yǔ)言:通用數(shù)據(jù)挖掘語(yǔ)言合并了上述兩種語(yǔ)言的特點(diǎn),既具有定義模型的功能,又能作為查詢語(yǔ)言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互式挖掘。42數(shù)據(jù)挖掘語(yǔ)言分類通用數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問(wèn)題的頗具吸引力的研究方向。432.5.2數(shù)據(jù)挖掘查詢語(yǔ)言J.W.Han等開(kāi)發(fā)的數(shù)據(jù)挖掘系統(tǒng)DBMiner中數(shù)據(jù)挖掘查詢語(yǔ)言DMQL〔DataMiningQueryLanguage〕是這類挖掘語(yǔ)言的典型代表。數(shù)據(jù)挖掘查詢語(yǔ)言DMQL由數(shù)據(jù)挖掘原語(yǔ)組成,數(shù)據(jù)挖掘原語(yǔ)用來(lái)定義一個(gè)數(shù)據(jù)挖掘任務(wù)。用戶使用數(shù)據(jù)挖掘原語(yǔ)與數(shù)據(jù)挖掘系統(tǒng)通信,使得知識(shí)發(fā)現(xiàn)更有效。442.5.2數(shù)據(jù)挖掘查詢語(yǔ)言這些原語(yǔ)有以下幾個(gè)種類:數(shù)據(jù)庫(kù)局部以及用戶感興趣的數(shù)據(jù)集〔包括感興趣的數(shù)據(jù)庫(kù)屬性或數(shù)據(jù)倉(cāng)庫(kù)的維度〕;挖掘知識(shí)的種類;在指導(dǎo)挖掘過(guò)程中有用的背景知識(shí);模式估值的興趣度測(cè)量;挖掘出的知識(shí)如何可視化表示。452.5.2數(shù)據(jù)挖掘查詢語(yǔ)言數(shù)據(jù)挖掘查詢的根本單位是數(shù)據(jù)挖掘任務(wù),通過(guò)數(shù)據(jù)挖掘查詢語(yǔ)言,數(shù)據(jù)挖掘任務(wù)可以通過(guò)查詢的形式輸入到數(shù)據(jù)挖掘系統(tǒng)中。一個(gè)數(shù)據(jù)挖掘查詢由五種根本的數(shù)據(jù)挖掘原語(yǔ)定義。462.5.3數(shù)據(jù)挖掘建模語(yǔ)言數(shù)據(jù)挖掘建模語(yǔ)言是對(duì)數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語(yǔ)言。預(yù)言模型標(biāo)記語(yǔ)言〞〔PredictiveModelMarkupLanguage,PMML〕被一個(gè)稱作數(shù)據(jù)挖掘協(xié)會(huì)〔TheDataMiningGroup,DMG〕的組織開(kāi)發(fā)。PMML是一種基于XML的語(yǔ)言,用來(lái)定義預(yù)言模型。PMML允許應(yīng)用程序和聯(lián)機(jī)分析處理〔OLAP〕工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用單獨(dú)開(kāi)發(fā)數(shù)據(jù)挖掘模塊。472.5.3數(shù)據(jù)挖掘建模語(yǔ)言PMML的模型定義由以下幾局部組成:頭文件〔Header〕;數(shù)據(jù)模式〔DataSchema〕;數(shù)據(jù)挖掘模式〔DataMiningSchema〕;預(yù)言模型模式〔PredictiveModelSchema〕;預(yù)言模型定義〔DefinitionsforPredictiveModels〕;全體模型定義〔DefinitionsforEnsemblesofModels〕;選擇和聯(lián)合模型和全體模型的規(guī)那么〔RulesforSelectingandCombiningModelsandEnsemblesofModels〕;異常處理的規(guī)那么〔RulesforExceptionHandling〕482.5.4通用數(shù)據(jù)挖掘語(yǔ)言通用數(shù)據(jù)挖掘語(yǔ)言合并了上述兩種語(yǔ)言的特點(diǎn),既具有定義模型的功能,又能作為查詢語(yǔ)言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互式挖掘。2000年3月,微軟公司推出了一個(gè)數(shù)據(jù)挖掘語(yǔ)言,稱作OLEDBforDataMining〔DM〕,是通用數(shù)據(jù)挖掘語(yǔ)言中最具代表性的嘗試。微軟此舉的目的是為數(shù)據(jù)挖掘提供行業(yè)標(biāo)準(zhǔn)。只要符合這個(gè)標(biāo)準(zhǔn),都能容易地嵌入應(yīng)用程序中。OLEDBforDM支持多種流行的數(shù)據(jù)挖掘算法。使用OLEDBforDM,數(shù)據(jù)挖掘應(yīng)用能夠通過(guò)OLEDB生產(chǎn)者接進(jìn)任何表格式的數(shù)據(jù)源。492.5.5DMQL挖掘查詢語(yǔ)言介紹DMQL語(yǔ)言的頂層語(yǔ)法{DMQL}::=<DMQL_Statement>;{<DMQL_Statement>}<DMQL_Statement>::=<Data_Mining_Statement> |<Concept_Hierarchy_Definition_Statement> |<Visualization_and_Presentation>數(shù)據(jù)挖掘聲明〔Data_Mining_Statement〕語(yǔ)句相關(guān)項(xiàng)說(shuō)明<Data_Mining_Statement>::=usedatabase<database_name> |usedatawarehouse<data_warehouse_name> {usehierarchy<hierarch_name>for<attribute_or_dimension>} from<relation(s)/cube(s)>[where<condition>] inrelevanceto<attribute_or_dimension_list> [orderby<order_list>] [groupby<grouping_list>] [having<condition>]502.5.5DMQL挖掘查詢語(yǔ)言介紹例子:usedatabaseAllElecronics_dbinrelevancetoI.name,I.price,C.income,C.agefromcustomerC,itemI,purchasesP,items_soldSwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandC.country=“Canada〞groupbyP.date;51DMQL挖掘查詢語(yǔ)言介紹(續(xù)〕挖掘知識(shí)指定〔Mine_Knowledge_Specification〕語(yǔ)句相關(guān)項(xiàng)說(shuō)明<Mine_Knowledge_Specification>::=<Mine_Char>|<Mine_Discr>|<Mine_Assoc>|<Mine_Class><Mine_Char>::=minecharacteristics[as<pattern_name>]analyze<measure(s)><Mine_Discr>::=minecomparison[as<pattern_name>] for<target_class>where<target_condition> {versus<contrast_class_i>where<contrast_condition_i>} analyze<measure(s)><Mine_Assoc>::=mineassociations[as<pattern_name>] [matching<metapattern>]<Mine_Class>::=mineclassification[as<pattern_name>] analyze<classifying_attribute_or_dimension>52DMQL挖掘查詢語(yǔ)言介紹(續(xù)〕概念分層聲明〔Concept_Hierarchy_Definition_Statement〕相關(guān)項(xiàng)說(shuō)明<Concept_Hierarchy_Definition_Statement>::=definehiera
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州大學(xué)《影視音樂(lè)欣賞》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽(yáng)幼兒師范高等??茖W(xué)?!段枧_(tái)語(yǔ)言基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025江蘇省建筑安全員A證考試題庫(kù)及答案
- 貴陽(yáng)學(xué)院《復(fù)合材料學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025重慶建筑安全員-B證考試題庫(kù)附答案
- 2025年-浙江省安全員C證考試(專職安全員)題庫(kù)附答案
- 2025貴州省建筑安全員-C證考試(專職安全員)題庫(kù)及答案
- 廣州醫(yī)科大學(xué)《材料創(chuàng)新導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025四川省建筑安全員知識(shí)題庫(kù)附答案
- 2025遼寧建筑安全員B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 2024年道路清障拖車服務(wù)合同協(xié)議3篇
- 2025年1月八省聯(lián)考河南新高考物理試卷真題(含答案詳解)
- 建設(shè)工程檢試驗(yàn)工作管理實(shí)施指引
- 軟件租賃合同范例
- 匯川技術(shù)在線測(cè)評(píng)題及答案
- 廣東省廣州市2023-2024學(xué)年高一上學(xué)期期末物理試卷(含答案)
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 物理 含解析
- 食品企業(yè)產(chǎn)品出廠檢驗(yàn)報(bào)告
- 鍋爐本體水壓試驗(yàn)記錄
- 綜治工作中心信訪穩(wěn)定和矛盾糾紛排查化解工作流程圖
- 牛初乳知識(shí)課件
評(píng)論
0/150
提交評(píng)論