數(shù)據(jù)挖掘集成工具課件_第1頁(yè)
數(shù)據(jù)挖掘集成工具課件_第2頁(yè)
數(shù)據(jù)挖掘集成工具課件_第3頁(yè)
數(shù)據(jù)挖掘集成工具課件_第4頁(yè)
數(shù)據(jù)挖掘集成工具課件_第5頁(yè)
已閱讀5頁(yè),還剩163頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/1/4史忠植高級(jí)人工智能1高級(jí)人工智能第十四章

知識(shí)發(fā)現(xiàn)

(二)

史忠植

中國(guó)科學(xué)院計(jì)算技術(shù)研究所2022/12/28史忠植高級(jí)人工智能1高級(jí)人工智能第十2023/1/4史忠植高級(jí)人工智能2主要內(nèi)容研究背景WekaMSMiner體系結(jié)構(gòu)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)采掘集成工具2022/12/28史忠植高級(jí)人工智能2主要內(nèi)容研究背景2023/1/4史忠植高級(jí)人工智能3典型的知識(shí)發(fā)現(xiàn)系統(tǒng)SAS公司的SASEnterpriseMinerIBM公司的IntelligentMinerSolution公司的Clementine加拿大SimonFraserUniv.的DBMiner中科院計(jì)算技術(shù)研究所的MSMiner等2022/12/28史忠植高級(jí)人工智能3典型的知識(shí)發(fā)現(xiàn)系2023/1/4史忠植高級(jí)人工智能4

知識(shí)發(fā)現(xiàn)工具SASSAS公司的SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具。通過收集分析各種統(tǒng)計(jì)資料和客戶購(gòu)買模式,SASEnterpriseMiner可以幫助您發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),解釋已知的事實(shí),預(yù)測(cè)未來的結(jié)果,并識(shí)別出完成任務(wù)所需的關(guān)鍵因素,以實(shí)現(xiàn)增加收入、降低成本。2022/12/28史忠植高級(jí)人工智能4知識(shí)發(fā)現(xiàn)工具S2023/1/4史忠植高級(jí)人工智能5

知識(shí)發(fā)現(xiàn)工具SASSASEnterpriseMiner提供"抽樣-探索-轉(zhuǎn)換-建模-評(píng)估"(SEMMA)的處理流程。數(shù)據(jù)挖掘算法有:

·聚類分析,SOM/KOHONEN神經(jīng)網(wǎng)絡(luò)分類算法

·關(guān)聯(lián)模式/序列模式分析

·多元回歸模型

·決策樹模型(C45,CHAID,CART)

·神經(jīng)網(wǎng)絡(luò)模型(MLP,RBF)

·SAS/STAT,SAS/ETS等模塊提供的統(tǒng)計(jì)分析模型和時(shí)間序列分析模型也可嵌入其中。2022/12/28史忠植高級(jí)人工智能5知識(shí)發(fā)現(xiàn)工具S2023/1/4史忠植高級(jí)人工智能6

知識(shí)發(fā)現(xiàn)工具IntelligentMiner

IBM公司的IntelligentMiner具有典型數(shù)據(jù)集自動(dòng)生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化顯示等功能。它可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果顯示。若有必要,對(duì)結(jié)果數(shù)據(jù)集還可以重復(fù)這一過程,直至得到滿意結(jié)果為止。2022/12/28史忠植高級(jí)人工智能6知識(shí)發(fā)現(xiàn)工具I2023/1/4史忠植高級(jí)人工智能7

知識(shí)發(fā)現(xiàn)工具ClementineSolution公司的Clementine提供了一個(gè)可視化的快速建立模型的環(huán)境。它由數(shù)據(jù)獲?。―ataAccess)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和報(bào)告(Reporting)等部分組成。都使用一些有效、易用的按鈕表示,用戶只需用鼠標(biāo)將這些組件連接起來建立一個(gè)數(shù)據(jù)流,可視化的界面使得數(shù)據(jù)挖掘更加直觀交互,從而可以將用戶的商業(yè)知識(shí)在每一步中更好的利用。2022/12/28史忠植高級(jí)人工智能7知識(shí)發(fā)現(xiàn)工具C2023/1/4史忠植高級(jí)人工智能8數(shù)據(jù)挖掘工具:公用系統(tǒng)

MLC++MatlabWeka2022/12/28史忠植高級(jí)人工智能8數(shù)據(jù)挖掘工具:1/4/2023UniversityofWaikato9作者:IanH.Witten/EibeFrank

副標(biāo)題:PracticalMachineLearningToolsandTechniques,SecondEdition(MorganKaufmannSeriesinDataManagementSystems)

頁(yè)數(shù):525

出版社:MorganKaufmann

出版年:2005-06-08

Weka12/28/2022UniversityofWaikat關(guān)于WEKA的簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。非常有趣的是,該軟件的縮寫WEKA也是NewZealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來自NewZealand的theUniversityofWaikato。1/4/2023UniversityofWaikato10關(guān)于WEKA的簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境(Wai1/4/2023UniversityofWaikato11WEKA:thebird(譯:秧雞)Copyright:MartinKramer(mkramer@wxs.nl)12/28/2022UniversityofWaikat關(guān)于WEKA的簡(jiǎn)介WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用WEKA的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。用戶如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以查看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。1/4/2023UniversityofWaikato12關(guān)于WEKA的簡(jiǎn)介WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集WEKA開發(fā)歷史的介紹WEKA自1993年由位于NewZealand的theUniversityofWaikato進(jìn)行開發(fā),最初的軟件基于C語言實(shí)現(xiàn)。1997年,開發(fā)小組用JAVA語言重新編寫了該軟件,并且對(duì)相關(guān)的數(shù)據(jù)挖掘算法進(jìn)行了大量的改進(jìn)。2005年8月,在第11屆ACMSIGKDD國(guó)際會(huì)議上,theUniversityofWaikato的Weka小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),Weka系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一.1/4/2023UniversityofWaikato13WEKA開發(fā)歷史的介紹WEKA自1993年由位于NewZ1/4/2023UniversityofWaikato14WEKA:versionsThereareseveralversionsofWEKA:WEKA3.4:“bookversion”compatiblewithdescriptionindataminingbookWEKA3.6:“GUIversion”addsgraphicaluserinterfacesWEKA3.7:“developmentversion”withlotsofimprovementsThistalkisbasedonthesnapshotofWEKA3.312/28/2022UniversityofWaikatWEKA:FormatoftheData使用這個(gè)系統(tǒng)前,首先需要將用戶的數(shù)據(jù)轉(zhuǎn)變成為WEKA所需要的數(shù)據(jù)格式(ARFF格式)。大多數(shù)ARFF數(shù)據(jù)文件是一個(gè)包括所有事例的列表,還有每個(gè)事例的屬性值,這些屬性值用逗號(hào)分開。當(dāng)事例存在EXCEL或數(shù)據(jù)庫(kù)中的時(shí)候,只需要將他們提出,轉(zhuǎn)成數(shù)據(jù)間用逗號(hào)分割的形式,然后加上數(shù)據(jù)集的名字@relation,屬性信息@attribute,值@data,然后再將該文件保存成ARFF格式即可。需要注意的是WEKA中的分類方案缺省假定ARFF文件中的最后一個(gè)屬性是分類屬性。1/4/2023UniversityofWaikato15WEKA:FormatoftheData使用這個(gè)系統(tǒng)前1/4/2023UniversityofWaikato16@relationheart-disease-simplified@attributeagenumeric@attributesex{female,male}@attributechest_pain_type{typ_angina,asympt,non_anginal,atyp_angina}@attributecholesterolnumeric@attributeexercise_induced_angina{no,yes}@attributeclass{present,not_present}@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...WEKAonlydealswith“flat”filesFlatfileinARFFformat12/28/2022UniversityofWaikat1/4/2023UniversityofWaikato17@relationheart-disease-simplified@attributeagenumeric@attributesex{female,male}@attributechest_pain_type{typ_angina,asympt,non_anginal,atyp_angina}@attributecholesterolnumeric@attributeexercise_induced_angina{no,yes}@attributeclass{present,not_present}@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...WEKAonlydealswith“flat”filesnumericattributenominalattribute12/28/2022UniversityofWaikat1/4/2023UniversityofWaikato1812/28/2022UniversityofWaikat1/4/2023UniversityofWaikato1912/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2012/28/2022UniversityofWaikat1/4/2023UniversityofWaikato21Explorer:pre-processingthedataDatacanbeimportedfromafileinvariousformats:ARFF,CSV,C4.5,binaryDatacanalsobereadfromaURLorfromanSQLdatabase(usingJDBC)Pre-processingtoolsinWEKAarecalled“filters”WEKAcontainsfiltersfor:Discretization,normalization,resampling,attributeselection,transformingandcombiningattributes,…12/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2212/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2312/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2412/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2512/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2612/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2712/28/2022UniversityofWaikat1/4/2023UniversityofWaikato2812/28/2022UniversityofWaikat2023/1/4史忠植高級(jí)人工智能29

知識(shí)發(fā)現(xiàn)工具M(jìn)SMiner

中科院計(jì)算技術(shù)研究所智能信息處理開放實(shí)驗(yàn)室開發(fā)的MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái),能夠提供快捷有效的數(shù)據(jù)挖掘解決方案,提供多種知識(shí)發(fā)現(xiàn)方法。MSMiner具有下列特點(diǎn):

.基于數(shù)據(jù)倉(cāng)庫(kù)和新型的元數(shù)據(jù)管理按照主題創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),并通過元數(shù)據(jù)進(jìn)行管理和維護(hù)。

.數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載等預(yù)處理方便,支持OLAP查詢。

2022/12/28史忠植高級(jí)人工智能29知識(shí)發(fā)現(xiàn)工具2023/1/4史忠植高級(jí)人工智能30MSMiner的特點(diǎn)提供決策樹、支持向量機(jī)、粗糙集、模糊聚類、基于范例推理、統(tǒng)計(jì)方法、神經(jīng)計(jì)算等多種數(shù)據(jù)挖掘算法,支持特征抽取、分類、聚類、預(yù)測(cè)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、統(tǒng)計(jì)分析等數(shù)據(jù)挖掘功能,并支持高層次的決策分析功能。實(shí)現(xiàn)了可視化的任務(wù)編輯環(huán)境,以及功能強(qiáng)大的任務(wù)處理引擎,能夠快捷有效地實(shí)現(xiàn)各種數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)挖掘任務(wù)。

可擴(kuò)展性好。轉(zhuǎn)換規(guī)則和挖掘算法是封裝的、模塊化的,系統(tǒng)提供了一個(gè)開放的、靈活通用的接口,使用戶能夠加入新的規(guī)則和算法。

容易進(jìn)行二次開發(fā)。

2022/12/28史忠植高級(jí)人工智能30MSMiner2023/1/4史忠植高級(jí)人工智能31數(shù)據(jù)倉(cāng)庫(kù):特征面向主題集成性穩(wěn)定性隨時(shí)間變化2022/12/28史忠植高級(jí)人工智能31數(shù)據(jù)倉(cāng)庫(kù):2023/1/4史忠植高級(jí)人工智能32數(shù)據(jù)倉(cāng)庫(kù):OLAPROLAP:RelationalOLAPMOLAP:MultidimensionalOLAPHOLAP:HybridOLAP2022/12/28史忠植高級(jí)人工智能32數(shù)據(jù)倉(cāng)庫(kù):O2023/1/4史忠植高級(jí)人工智能33數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供經(jīng)良好處理的數(shù)據(jù)源數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供深層數(shù)據(jù)分析手段2022/12/28史忠植高級(jí)人工智能33數(shù)據(jù)挖掘和數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能34MSMiner體系結(jié)構(gòu)設(shè)計(jì)目標(biāo):

提供快捷有效的數(shù)據(jù)挖掘解決方案。設(shè)計(jì)要求:開放性可擴(kuò)展性效率易用性2022/12/28史忠植高級(jí)人工智能34MSMiner2023/1/4史忠植高級(jí)人工智能35MSMiner體系結(jié)構(gòu)MSMiner體系結(jié)構(gòu)示意圖客戶端服務(wù)器端元數(shù)據(jù)模塊執(zhí)行數(shù)據(jù)挖掘任務(wù)編輯數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)采掘集成工具數(shù)據(jù)抽取和集成主題組織OLAP可視化數(shù)據(jù)倉(cāng)庫(kù)管理器數(shù)據(jù)倉(cāng)庫(kù)OLEDBforODBC2022/12/28史忠植高級(jí)人工智能35MSMiner2023/1/4史忠植高級(jí)人工智能36元數(shù)據(jù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的(包括數(shù)據(jù)庫(kù)、表、字段的信息)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的(包括事實(shí)表、維表、立方以及其它的中間表)關(guān)于用戶信息的數(shù)據(jù)采掘算法(包括算法的參數(shù)信息)關(guān)于采掘任務(wù)的(包括采掘步驟、每個(gè)步驟的所用的參數(shù))2022/12/28史忠植高級(jí)人工智能36元數(shù)據(jù)的內(nèi)容關(guān)2023/1/4史忠植高級(jí)人工智能37元數(shù)據(jù):元數(shù)據(jù)庫(kù)2022/12/28史忠植高級(jí)人工智能37元數(shù)據(jù):元數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能38元數(shù)據(jù):元數(shù)據(jù)對(duì)象模型設(shè)計(jì)思路一致性完備性易維護(hù)性2022/12/28史忠植高級(jí)人工智能38元數(shù)據(jù):元數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能39元數(shù)據(jù)是層次的嵌套的封裝的互相聯(lián)系的采用面向?qū)ο蟮姆椒ü灿?0多個(gè)類元數(shù)據(jù)的結(jié)構(gòu)2022/12/28史忠植高級(jí)人工智能39元數(shù)據(jù)是元數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能40數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):結(jié)構(gòu)MSMiner數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)示意圖外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)抽取、清洗、聚集、轉(zhuǎn)換主題2主題1主題nOLAP及可視化工具數(shù)據(jù)采掘集成工具...2022/12/28史忠植高級(jí)人工智能40數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能41數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)抽取和集成數(shù)據(jù)的簡(jiǎn)單抽取和集成數(shù)據(jù)的復(fù)雜處理面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理2022/12/28史忠植高級(jí)人工智能41數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能42數(shù)據(jù)抽取和集成:MSETL

MSETL系統(tǒng)作為MSMiner數(shù)據(jù)挖掘平臺(tái)的一個(gè)重要組成部分,主要完成從業(yè)務(wù)數(shù)據(jù)源到分析數(shù)據(jù)源的轉(zhuǎn)換功能。具體包括從異質(zhì)業(yè)務(wù)數(shù)據(jù)源中抽取需要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行多種預(yù)處理,把經(jīng)過處理后的數(shù)據(jù)裝載入指定數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)2022/12/28史忠植高級(jí)人工智能42數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能43數(shù)據(jù)抽取和集成:MSETL

用戶界面(ETL轉(zhuǎn)換函數(shù)和ETL任務(wù))邏輯處理元數(shù)據(jù)管理數(shù)據(jù)庫(kù)服務(wù)器2022/12/28史忠植高級(jí)人工智能43數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能44數(shù)據(jù)抽取和集成:MSETL支持多種數(shù)據(jù)源和目的數(shù)據(jù)庫(kù)良好的可擴(kuò)充性高效率的調(diào)度執(zhí)行功能增量更新功能2022/12/28史忠植高級(jí)人工智能44數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能45數(shù)據(jù)抽取和集成:MSETL2022/12/28史忠植高級(jí)人工智能45數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能46數(shù)據(jù)抽取和集成:MSETL2022/12/28史忠植高級(jí)人工智能46數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能47數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)倉(cāng)庫(kù)建模產(chǎn)品號(hào)產(chǎn)品名稱產(chǎn)品目錄產(chǎn)品維表訂單號(hào)訂貨日期訂貨維表客戶號(hào)客戶名稱客戶地址客戶維表產(chǎn)品號(hào)客戶號(hào)訂單號(hào)時(shí)間標(biāo)識(shí)地區(qū)名稱產(chǎn)品數(shù)量總價(jià)事實(shí)表時(shí)間標(biāo)識(shí)月季度年時(shí)間維表地區(qū)名稱省別地區(qū)維表星型模型2022/12/28史忠植高級(jí)人工智能47數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能48OLAPMOLAP,ROLAP,HOLAPOLAP的操作Slice(切片)Dice(切塊)Rollup(上卷)Drilldown(下鉆)Pivot(旋轉(zhuǎn))OLAP方案

采用了自主開發(fā)的OLAPServer2022/12/28史忠植高級(jí)人工智能48OLAPMOL2023/1/4史忠植高級(jí)人工智能49數(shù)據(jù)立方體2022/12/28史忠植高級(jí)人工智能49數(shù)據(jù)立方體2023/1/4史忠植高級(jí)人工智能50數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):OLAP的實(shí)現(xiàn)2022/12/28史忠植高級(jí)人工智能50數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能51數(shù)據(jù)挖掘集成工具:結(jié)構(gòu)數(shù)據(jù)挖掘集成工具結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)任務(wù)編輯任務(wù)規(guī)劃和執(zhí)行算法庫(kù)算法管理元數(shù)據(jù)任務(wù)模型庫(kù)、算法描述2022/12/28史忠植高級(jí)人工智能51數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能52數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2022/12/28史忠植高級(jí)人工智能52數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能53數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型步驟對(duì)象BNF語法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2022/12/28史忠植高級(jí)人工智能53數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能54數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)向?qū)?022/12/28史忠植高級(jí)人工智能54數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能55數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)編輯圖板2022/12/28史忠植高級(jí)人工智能55數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能56數(shù)據(jù)挖掘集成工具:處理任務(wù)模型人機(jī)界面主控模塊規(guī)劃器解釋器緩存函數(shù)庫(kù)黑板任務(wù)模型庫(kù)數(shù)據(jù)采掘任務(wù)處理引擎的結(jié)構(gòu)2022/12/28史忠植高級(jí)人工智能56數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能57數(shù)據(jù)挖掘集成工具:處理任務(wù)模型任務(wù)規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52022/12/28史忠植高級(jí)人工智能57數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能58數(shù)據(jù)挖掘集成工具:DML語言DML函數(shù)人機(jī)交互和控制臺(tái)輸入/輸出數(shù)值計(jì)算字符串處理圖形、圖表展示文件操作數(shù)據(jù)庫(kù)訪問網(wǎng)絡(luò)通訊對(duì)象訪問消息處理和流程控制黑板操作外部功能調(diào)用其它輔助功能2022/12/28史忠植高級(jí)人工智能58數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能59數(shù)據(jù)挖掘集成工具:內(nèi)嵌決策樹SOM神經(jīng)網(wǎng)絡(luò)粗糙集關(guān)聯(lián)規(guī)則

2022/12/28史忠植高級(jí)人工智能59數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能60決策樹2022/12/28史忠植高級(jí)人工智能60決策樹2023/1/4史忠植高級(jí)人工智能61知識(shí)約簡(jiǎn)知識(shí)約簡(jiǎn)——在保持知識(shí)庫(kù)的分類或決策能力不變的條件下,刪除其中不相關(guān)或不重要知識(shí)冗余知識(shí)——資源的浪費(fèi);干擾人們作出正確而簡(jiǎn)潔的決策RoughSet——把那些無法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集(Z.Pawlak)

知識(shí)約簡(jiǎn)是粗糙集的核心內(nèi)容之一

2022/12/28史忠植高級(jí)人工智能61知識(shí)約簡(jiǎn)知識(shí)約2023/1/4史忠植高級(jí)人工智能62RoughSet約簡(jiǎn)2022/12/28史忠植高級(jí)人工智能62RoughS2023/1/4史忠植高級(jí)人工智能63數(shù)據(jù)挖掘集成工具:外聯(lián)BP神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)分析模糊聚類超曲面分類SVM貝葉斯網(wǎng)絡(luò)基于范例推理(CBR)隱馬爾科夫模型(HMM)2022/12/28史忠植高級(jí)人工智能63數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能64BP用于預(yù)測(cè)2022/12/28史忠植高級(jí)人工智能64BP用于預(yù)測(cè)2023/1/4史忠植高級(jí)人工智能65統(tǒng)計(jì)工具線性回歸模型

——一元線性回歸、多元線性回歸、逐步回歸

非線性回歸模型——二次曲線、三次曲線、指數(shù)曲線、冪指數(shù)曲線、生產(chǎn)函數(shù)等模型

確定型時(shí)間序列模型——指數(shù)平滑法、趨勢(shì)移動(dòng)平均法(水平趨勢(shì)、線性趨勢(shì)和二次曲線趨勢(shì))、成長(zhǎng)曲線模型(Compertz曲線、Logistic曲線和修正指數(shù)曲線)、季節(jié)指數(shù)法隨機(jī)型時(shí)間序列模型(自回歸-移動(dòng)平均模型ARMA)相關(guān)分析

2022/12/28史忠植高級(jí)人工智能65統(tǒng)計(jì)工具線性回2023/1/4史忠植高級(jí)人工智能66自回歸移動(dòng)平均(ARMA)2022/12/28史忠植高級(jí)人工智能66自回歸移動(dòng)平均2023/1/4史忠植高級(jí)人工智能67模糊聚類基于傳遞閉包的模糊聚類

——計(jì)算模糊相似矩陣的傳遞閉包,

從而獲得傳遞閉包法的模糊聚類基于攝動(dòng)的模糊聚類

——參數(shù)系

相似矩陣的最優(yōu)模糊等價(jià)陣及其等價(jià)標(biāo)準(zhǔn)型獲得失真最小的模糊聚類2022/12/28史忠植高級(jí)人工智能67模糊聚類基于傳2023/1/4史忠植高級(jí)人工智能68數(shù)據(jù)挖掘集成工具:可擴(kuò)展算法庫(kù)算法注冊(cè)2022/12/28史忠植高級(jí)人工智能68數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能69MSMiner的應(yīng)用:計(jì)算機(jī)選案決策樹選案執(zhí)行選案選案結(jié)果分析定義樣本模板訓(xùn)練樣本數(shù)據(jù)選案規(guī)則樣本數(shù)據(jù)表數(shù)據(jù)匯總表稅務(wù)稽查計(jì)算機(jī)選案系統(tǒng)功能結(jié)構(gòu)2022/12/28史忠植高級(jí)人工智能69MSMiner2023/1/4史忠植高級(jí)人工智能70MSMiner的應(yīng)用:計(jì)算機(jī)選案挖掘結(jié)果:2022/12/28史忠植高級(jí)人工智能70MSMiner云計(jì)算時(shí)代的分布并行編程技術(shù)分布并行數(shù)據(jù)處理技術(shù)GoogleMap/ReduceHadoopMap/Reduce

分布式文件系統(tǒng)GoogleFileSystemHadoop

DistributedFileSystem分布式數(shù)據(jù)庫(kù)Google

BigTableHadoopHBase云計(jì)算時(shí)代的分布并行編程技術(shù)云計(jì)算時(shí)代的分布并行編程技術(shù)云計(jì)算時(shí)代的分布并行編程技術(shù)分布并行數(shù)據(jù)處理72軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室Map/Reduce用于大規(guī)模數(shù)據(jù)并行處理數(shù)據(jù)量大(超過1TB)在成百上千個(gè)CPU上并行處理用戶只需實(shí)現(xiàn)下面接口 map(in_key,in_value)-> (out_key,intermediate_value)list reduce(out_key,intermediate_valuelist)-> out_valuelist分布并行數(shù)據(jù)處理72軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室Map/Reduc分布并行數(shù)據(jù)處理73軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室Map/Reduce架構(gòu)分布并行數(shù)據(jù)處理73軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室Map/Reduc分布并行數(shù)據(jù)處理MapReduce實(shí)現(xiàn)原理分布并行數(shù)據(jù)處理MapReduce實(shí)現(xiàn)原理分布式文件系統(tǒng)75GoogleFileSystem(GFS)需求:在廉價(jià)、相對(duì)不可靠的計(jì)算機(jī)上對(duì)巨量數(shù)據(jù)進(jìn)行冗余存儲(chǔ)。為什么不用現(xiàn)有的文件系統(tǒng)?--Google面對(duì)特殊的挑戰(zhàn)文件較大,每個(gè)都在100M以上,通常為幾個(gè)GB文件通常需要頻繁的追加用流方式讀取高吞吐量低延遲針對(duì)上述問題,GFS在文件系統(tǒng)性能和可伸縮性方面進(jìn)行了優(yōu)化設(shè)計(jì)。分布式文件系統(tǒng)75GoogleFileSystem(GFGFS的設(shè)計(jì)理念文件用塊存儲(chǔ)每個(gè)塊固定為64MB通過冗余解決可靠性問題每個(gè)塊同時(shí)拷貝在3個(gè)塊服務(wù)器上主服務(wù)器負(fù)責(zé)協(xié)調(diào)訪問和保存元數(shù)據(jù)簡(jiǎn)單化的集中管理定制化的API無數(shù)據(jù)緩存較大文件塊和流式讀取使得緩存效果不佳76分布式文件系統(tǒng)GFS的設(shè)計(jì)理念76分布式文件系統(tǒng)GFS架構(gòu)分布式文件系統(tǒng)GFS架構(gòu)分布式文件系統(tǒng)GFS集群一個(gè)GFS集群有一個(gè)主服務(wù)器和多個(gè)塊服務(wù)器文件被分割成固定尺寸的塊。塊服務(wù)器把塊作為linux文件保存在本地硬盤上,并根據(jù)指定的塊句柄和字節(jié)范圍來讀寫塊數(shù)據(jù)。主服務(wù)器管理文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間、訪問控制信息和文件到塊的映射信息,以及塊當(dāng)前所在的位置??蛻舳伺c主服務(wù)器交互,處理元數(shù)據(jù)客戶端與塊服務(wù)器交互,存取數(shù)據(jù)本身分布式文件系統(tǒng)GFS集群分布式文件系統(tǒng)分布式數(shù)據(jù)庫(kù)系統(tǒng)GoogleBigTable為了處理Google內(nèi)部大量的格式化以及半格式化數(shù)據(jù)而構(gòu)建的大規(guī)模分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)特點(diǎn)面向大規(guī)模處理、容錯(cuò)性強(qiáng)的自我管理系統(tǒng),擁有TB級(jí)的內(nèi)存和PB級(jí)的存儲(chǔ)能力,每秒可以處理數(shù)百萬的讀寫操作能夠保存記錄的不同時(shí)段的版本構(gòu)建于GFS和Map/Reduce基礎(chǔ)之上軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室79分布式數(shù)據(jù)庫(kù)系統(tǒng)GoogleBigTable軟件工程國(guó)家重BigTable的設(shè)計(jì)理念面向網(wǎng)頁(yè)數(shù)據(jù)的發(fā)布、搜索和瀏覽等特定處理的需要,簡(jiǎn)化數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì),并提高性能不支持關(guān)聯(lián)不支持SQL查詢簡(jiǎn)化數(shù)據(jù)的一致性管理網(wǎng)頁(yè)數(shù)據(jù)的管理對(duì)一致性要求不高簡(jiǎn)化事務(wù)管理網(wǎng)頁(yè)數(shù)據(jù)的處理(搜索、發(fā)布)對(duì)事務(wù)管理要求不高面向海量數(shù)據(jù)管理要求設(shè)計(jì)分割和合并管理機(jī)制(基于元數(shù)據(jù))設(shè)計(jì)自動(dòng)伸縮功能(根據(jù)數(shù)據(jù)量調(diào)整資源用量)軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室80分布式數(shù)據(jù)庫(kù)系統(tǒng)BigTable的設(shè)計(jì)理念軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室80分布式數(shù)BigTable的實(shí)現(xiàn)GFS為表文件、元數(shù)據(jù)和日志提供存儲(chǔ)服務(wù)Chubby提供分布式并行處理功能一個(gè)Table按照行被分割為多個(gè)tablet每一個(gè)tablet在物理層被存為SSTable文件通過維護(hù)keydiskblock索引,SSTable文件管理系統(tǒng)提供keyvalue的索引功能分布式數(shù)據(jù)庫(kù)系統(tǒng)BigTable的實(shí)現(xiàn)分布式數(shù)據(jù)庫(kù)系統(tǒng)BigTable架構(gòu)82分布式數(shù)據(jù)庫(kù)系統(tǒng)BigTable架構(gòu)82分布式數(shù)據(jù)庫(kù)系統(tǒng)2023/1/4史忠植高級(jí)人工智能83進(jìn)一步的工作與用戶合作開發(fā)應(yīng)用實(shí)例進(jìn)一步完善工作流完善和豐富數(shù)據(jù)挖掘算法庫(kù)算法評(píng)測(cè)功能。2022/12/28史忠植高級(jí)人工智能83進(jìn)一步的工作與2023/1/4史忠植高級(jí)人工智能84/shizz/Questions?!2022/12/28史忠植高級(jí)人工智能842023/1/4史忠植高級(jí)人工智能85高級(jí)人工智能第十四章

知識(shí)發(fā)現(xiàn)

(二)

史忠植

中國(guó)科學(xué)院計(jì)算技術(shù)研究所2022/12/28史忠植高級(jí)人工智能1高級(jí)人工智能第十2023/1/4史忠植高級(jí)人工智能86主要內(nèi)容研究背景WekaMSMiner體系結(jié)構(gòu)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)采掘集成工具2022/12/28史忠植高級(jí)人工智能2主要內(nèi)容研究背景2023/1/4史忠植高級(jí)人工智能87典型的知識(shí)發(fā)現(xiàn)系統(tǒng)SAS公司的SASEnterpriseMinerIBM公司的IntelligentMinerSolution公司的Clementine加拿大SimonFraserUniv.的DBMiner中科院計(jì)算技術(shù)研究所的MSMiner等2022/12/28史忠植高級(jí)人工智能3典型的知識(shí)發(fā)現(xiàn)系2023/1/4史忠植高級(jí)人工智能88

知識(shí)發(fā)現(xiàn)工具SASSAS公司的SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具。通過收集分析各種統(tǒng)計(jì)資料和客戶購(gòu)買模式,SASEnterpriseMiner可以幫助您發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),解釋已知的事實(shí),預(yù)測(cè)未來的結(jié)果,并識(shí)別出完成任務(wù)所需的關(guān)鍵因素,以實(shí)現(xiàn)增加收入、降低成本。2022/12/28史忠植高級(jí)人工智能4知識(shí)發(fā)現(xiàn)工具S2023/1/4史忠植高級(jí)人工智能89

知識(shí)發(fā)現(xiàn)工具SASSASEnterpriseMiner提供"抽樣-探索-轉(zhuǎn)換-建模-評(píng)估"(SEMMA)的處理流程。數(shù)據(jù)挖掘算法有:

·聚類分析,SOM/KOHONEN神經(jīng)網(wǎng)絡(luò)分類算法

·關(guān)聯(lián)模式/序列模式分析

·多元回歸模型

·決策樹模型(C45,CHAID,CART)

·神經(jīng)網(wǎng)絡(luò)模型(MLP,RBF)

·SAS/STAT,SAS/ETS等模塊提供的統(tǒng)計(jì)分析模型和時(shí)間序列分析模型也可嵌入其中。2022/12/28史忠植高級(jí)人工智能5知識(shí)發(fā)現(xiàn)工具S2023/1/4史忠植高級(jí)人工智能90

知識(shí)發(fā)現(xiàn)工具IntelligentMiner

IBM公司的IntelligentMiner具有典型數(shù)據(jù)集自動(dòng)生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化顯示等功能。它可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果顯示。若有必要,對(duì)結(jié)果數(shù)據(jù)集還可以重復(fù)這一過程,直至得到滿意結(jié)果為止。2022/12/28史忠植高級(jí)人工智能6知識(shí)發(fā)現(xiàn)工具I2023/1/4史忠植高級(jí)人工智能91

知識(shí)發(fā)現(xiàn)工具ClementineSolution公司的Clementine提供了一個(gè)可視化的快速建立模型的環(huán)境。它由數(shù)據(jù)獲取(DataAccess)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和報(bào)告(Reporting)等部分組成。都使用一些有效、易用的按鈕表示,用戶只需用鼠標(biāo)將這些組件連接起來建立一個(gè)數(shù)據(jù)流,可視化的界面使得數(shù)據(jù)挖掘更加直觀交互,從而可以將用戶的商業(yè)知識(shí)在每一步中更好的利用。2022/12/28史忠植高級(jí)人工智能7知識(shí)發(fā)現(xiàn)工具C2023/1/4史忠植高級(jí)人工智能92數(shù)據(jù)挖掘工具:公用系統(tǒng)

MLC++MatlabWeka2022/12/28史忠植高級(jí)人工智能8數(shù)據(jù)挖掘工具:1/4/2023UniversityofWaikato93作者:IanH.Witten/EibeFrank

副標(biāo)題:PracticalMachineLearningToolsandTechniques,SecondEdition(MorganKaufmannSeriesinDataManagementSystems)

頁(yè)數(shù):525

出版社:MorganKaufmann

出版年:2005-06-08

Weka12/28/2022UniversityofWaikat關(guān)于WEKA的簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。非常有趣的是,該軟件的縮寫WEKA也是NewZealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來自NewZealand的theUniversityofWaikato。1/4/2023UniversityofWaikato94關(guān)于WEKA的簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境(Wai1/4/2023UniversityofWaikato95WEKA:thebird(譯:秧雞)Copyright:MartinKramer(mkramer@wxs.nl)12/28/2022UniversityofWaikat關(guān)于WEKA的簡(jiǎn)介WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用WEKA的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。用戶如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以查看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。1/4/2023UniversityofWaikato96關(guān)于WEKA的簡(jiǎn)介WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集WEKA開發(fā)歷史的介紹WEKA自1993年由位于NewZealand的theUniversityofWaikato進(jìn)行開發(fā),最初的軟件基于C語言實(shí)現(xiàn)。1997年,開發(fā)小組用JAVA語言重新編寫了該軟件,并且對(duì)相關(guān)的數(shù)據(jù)挖掘算法進(jìn)行了大量的改進(jìn)。2005年8月,在第11屆ACMSIGKDD國(guó)際會(huì)議上,theUniversityofWaikato的Weka小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),Weka系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一.1/4/2023UniversityofWaikato97WEKA開發(fā)歷史的介紹WEKA自1993年由位于NewZ1/4/2023UniversityofWaikato98WEKA:versionsThereareseveralversionsofWEKA:WEKA3.4:“bookversion”compatiblewithdescriptionindataminingbookWEKA3.6:“GUIversion”addsgraphicaluserinterfacesWEKA3.7:“developmentversion”withlotsofimprovementsThistalkisbasedonthesnapshotofWEKA3.312/28/2022UniversityofWaikatWEKA:FormatoftheData使用這個(gè)系統(tǒng)前,首先需要將用戶的數(shù)據(jù)轉(zhuǎn)變成為WEKA所需要的數(shù)據(jù)格式(ARFF格式)。大多數(shù)ARFF數(shù)據(jù)文件是一個(gè)包括所有事例的列表,還有每個(gè)事例的屬性值,這些屬性值用逗號(hào)分開。當(dāng)事例存在EXCEL或數(shù)據(jù)庫(kù)中的時(shí)候,只需要將他們提出,轉(zhuǎn)成數(shù)據(jù)間用逗號(hào)分割的形式,然后加上數(shù)據(jù)集的名字@relation,屬性信息@attribute,值@data,然后再將該文件保存成ARFF格式即可。需要注意的是WEKA中的分類方案缺省假定ARFF文件中的最后一個(gè)屬性是分類屬性。1/4/2023UniversityofWaikato99WEKA:FormatoftheData使用這個(gè)系統(tǒng)前1/4/2023UniversityofWaikato100@relationheart-disease-simplified@attributeagenumeric@attributesex{female,male}@attributechest_pain_type{typ_angina,asympt,non_anginal,atyp_angina}@attributecholesterolnumeric@attributeexercise_induced_angina{no,yes}@attributeclass{present,not_present}@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...WEKAonlydealswith“flat”filesFlatfileinARFFformat12/28/2022UniversityofWaikat1/4/2023UniversityofWaikato101@relationheart-disease-simplified@attributeagenumeric@attributesex{female,male}@attributechest_pain_type{typ_angina,asympt,non_anginal,atyp_angina}@attributecholesterolnumeric@attributeexercise_induced_angina{no,yes}@attributeclass{present,not_present}@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...WEKAonlydealswith“flat”filesnumericattributenominalattribute12/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10212/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10312/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10412/28/2022UniversityofWaikat1/4/2023UniversityofWaikato105Explorer:pre-processingthedataDatacanbeimportedfromafileinvariousformats:ARFF,CSV,C4.5,binaryDatacanalsobereadfromaURLorfromanSQLdatabase(usingJDBC)Pre-processingtoolsinWEKAarecalled“filters”WEKAcontainsfiltersfor:Discretization,normalization,resampling,attributeselection,transformingandcombiningattributes,…12/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10612/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10712/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10812/28/2022UniversityofWaikat1/4/2023UniversityofWaikato10912/28/2022UniversityofWaikat1/4/2023UniversityofWaikato11012/28/2022UniversityofWaikat1/4/2023UniversityofWaikato11112/28/2022UniversityofWaikat1/4/2023UniversityofWaikato11212/28/2022UniversityofWaikat2023/1/4史忠植高級(jí)人工智能113

知識(shí)發(fā)現(xiàn)工具M(jìn)SMiner

中科院計(jì)算技術(shù)研究所智能信息處理開放實(shí)驗(yàn)室開發(fā)的MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái),能夠提供快捷有效的數(shù)據(jù)挖掘解決方案,提供多種知識(shí)發(fā)現(xiàn)方法。MSMiner具有下列特點(diǎn):

.基于數(shù)據(jù)倉(cāng)庫(kù)和新型的元數(shù)據(jù)管理按照主題創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),并通過元數(shù)據(jù)進(jìn)行管理和維護(hù)。

.數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載等預(yù)處理方便,支持OLAP查詢。

2022/12/28史忠植高級(jí)人工智能29知識(shí)發(fā)現(xiàn)工具2023/1/4史忠植高級(jí)人工智能114MSMiner的特點(diǎn)提供決策樹、支持向量機(jī)、粗糙集、模糊聚類、基于范例推理、統(tǒng)計(jì)方法、神經(jīng)計(jì)算等多種數(shù)據(jù)挖掘算法,支持特征抽取、分類、聚類、預(yù)測(cè)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、統(tǒng)計(jì)分析等數(shù)據(jù)挖掘功能,并支持高層次的決策分析功能。實(shí)現(xiàn)了可視化的任務(wù)編輯環(huán)境,以及功能強(qiáng)大的任務(wù)處理引擎,能夠快捷有效地實(shí)現(xiàn)各種數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)挖掘任務(wù)。

可擴(kuò)展性好。轉(zhuǎn)換規(guī)則和挖掘算法是封裝的、模塊化的,系統(tǒng)提供了一個(gè)開放的、靈活通用的接口,使用戶能夠加入新的規(guī)則和算法。

容易進(jìn)行二次開發(fā)。

2022/12/28史忠植高級(jí)人工智能30MSMiner2023/1/4史忠植高級(jí)人工智能115數(shù)據(jù)倉(cāng)庫(kù):特征面向主題集成性穩(wěn)定性隨時(shí)間變化2022/12/28史忠植高級(jí)人工智能31數(shù)據(jù)倉(cāng)庫(kù):2023/1/4史忠植高級(jí)人工智能116數(shù)據(jù)倉(cāng)庫(kù):OLAPROLAP:RelationalOLAPMOLAP:MultidimensionalOLAPHOLAP:HybridOLAP2022/12/28史忠植高級(jí)人工智能32數(shù)據(jù)倉(cāng)庫(kù):O2023/1/4史忠植高級(jí)人工智能117數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供經(jīng)良好處理的數(shù)據(jù)源數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供深層數(shù)據(jù)分析手段2022/12/28史忠植高級(jí)人工智能33數(shù)據(jù)挖掘和數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能118MSMiner體系結(jié)構(gòu)設(shè)計(jì)目標(biāo):

提供快捷有效的數(shù)據(jù)挖掘解決方案。設(shè)計(jì)要求:開放性可擴(kuò)展性效率易用性2022/12/28史忠植高級(jí)人工智能34MSMiner2023/1/4史忠植高級(jí)人工智能119MSMiner體系結(jié)構(gòu)MSMiner體系結(jié)構(gòu)示意圖客戶端服務(wù)器端元數(shù)據(jù)模塊執(zhí)行數(shù)據(jù)挖掘任務(wù)編輯數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)采掘集成工具數(shù)據(jù)抽取和集成主題組織OLAP可視化數(shù)據(jù)倉(cāng)庫(kù)管理器數(shù)據(jù)倉(cāng)庫(kù)OLEDBforODBC2022/12/28史忠植高級(jí)人工智能35MSMiner2023/1/4史忠植高級(jí)人工智能120元數(shù)據(jù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的(包括數(shù)據(jù)庫(kù)、表、字段的信息)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的(包括事實(shí)表、維表、立方以及其它的中間表)關(guān)于用戶信息的數(shù)據(jù)采掘算法(包括算法的參數(shù)信息)關(guān)于采掘任務(wù)的(包括采掘步驟、每個(gè)步驟的所用的參數(shù))2022/12/28史忠植高級(jí)人工智能36元數(shù)據(jù)的內(nèi)容關(guān)2023/1/4史忠植高級(jí)人工智能121元數(shù)據(jù):元數(shù)據(jù)庫(kù)2022/12/28史忠植高級(jí)人工智能37元數(shù)據(jù):元數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能122元數(shù)據(jù):元數(shù)據(jù)對(duì)象模型設(shè)計(jì)思路一致性完備性易維護(hù)性2022/12/28史忠植高級(jí)人工智能38元數(shù)據(jù):元數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能123元數(shù)據(jù)是層次的嵌套的封裝的互相聯(lián)系的采用面向?qū)ο蟮姆椒ü灿?0多個(gè)類元數(shù)據(jù)的結(jié)構(gòu)2022/12/28史忠植高級(jí)人工智能39元數(shù)據(jù)是元數(shù)據(jù)2023/1/4史忠植高級(jí)人工智能124數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):結(jié)構(gòu)MSMiner數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)示意圖外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)抽取、清洗、聚集、轉(zhuǎn)換主題2主題1主題nOLAP及可視化工具數(shù)據(jù)采掘集成工具...2022/12/28史忠植高級(jí)人工智能40數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能125數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)抽取和集成數(shù)據(jù)的簡(jiǎn)單抽取和集成數(shù)據(jù)的復(fù)雜處理面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理2022/12/28史忠植高級(jí)人工智能41數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能126數(shù)據(jù)抽取和集成:MSETL

MSETL系統(tǒng)作為MSMiner數(shù)據(jù)挖掘平臺(tái)的一個(gè)重要組成部分,主要完成從業(yè)務(wù)數(shù)據(jù)源到分析數(shù)據(jù)源的轉(zhuǎn)換功能。具體包括從異質(zhì)業(yè)務(wù)數(shù)據(jù)源中抽取需要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行多種預(yù)處理,把經(jīng)過處理后的數(shù)據(jù)裝載入指定數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)2022/12/28史忠植高級(jí)人工智能42數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能127數(shù)據(jù)抽取和集成:MSETL

用戶界面(ETL轉(zhuǎn)換函數(shù)和ETL任務(wù))邏輯處理元數(shù)據(jù)管理數(shù)據(jù)庫(kù)服務(wù)器2022/12/28史忠植高級(jí)人工智能43數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能128數(shù)據(jù)抽取和集成:MSETL支持多種數(shù)據(jù)源和目的數(shù)據(jù)庫(kù)良好的可擴(kuò)充性高效率的調(diào)度執(zhí)行功能增量更新功能2022/12/28史忠植高級(jí)人工智能44數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能129數(shù)據(jù)抽取和集成:MSETL2022/12/28史忠植高級(jí)人工智能45數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能130數(shù)據(jù)抽取和集成:MSETL2022/12/28史忠植高級(jí)人工智能46數(shù)據(jù)抽取和集成2023/1/4史忠植高級(jí)人工智能131數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)倉(cāng)庫(kù)建模產(chǎn)品號(hào)產(chǎn)品名稱產(chǎn)品目錄產(chǎn)品維表訂單號(hào)訂貨日期訂貨維表客戶號(hào)客戶名稱客戶地址客戶維表產(chǎn)品號(hào)客戶號(hào)訂單號(hào)時(shí)間標(biāo)識(shí)地區(qū)名稱產(chǎn)品數(shù)量總價(jià)事實(shí)表時(shí)間標(biāo)識(shí)月季度年時(shí)間維表地區(qū)名稱省別地區(qū)維表星型模型2022/12/28史忠植高級(jí)人工智能47數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能132OLAPMOLAP,ROLAP,HOLAPOLAP的操作Slice(切片)Dice(切塊)Rollup(上卷)Drilldown(下鉆)Pivot(旋轉(zhuǎn))OLAP方案

采用了自主開發(fā)的OLAPServer2022/12/28史忠植高級(jí)人工智能48OLAPMOL2023/1/4史忠植高級(jí)人工智能133數(shù)據(jù)立方體2022/12/28史忠植高級(jí)人工智能49數(shù)據(jù)立方體2023/1/4史忠植高級(jí)人工智能134數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):OLAP的實(shí)現(xiàn)2022/12/28史忠植高級(jí)人工智能50數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):2023/1/4史忠植高級(jí)人工智能135數(shù)據(jù)挖掘集成工具:結(jié)構(gòu)數(shù)據(jù)挖掘集成工具結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)任務(wù)編輯任務(wù)規(guī)劃和執(zhí)行算法庫(kù)算法管理元數(shù)據(jù)任務(wù)模型庫(kù)、算法描述2022/12/28史忠植高級(jí)人工智能51數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能136數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2022/12/28史忠植高級(jí)人工智能52數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能137數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型步驟對(duì)象BNF語法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2022/12/28史忠植高級(jí)人工智能53數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能138數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)向?qū)?022/12/28史忠植高級(jí)人工智能54數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能139數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)編輯圖板2022/12/28史忠植高級(jí)人工智能55數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能140數(shù)據(jù)挖掘集成工具:處理任務(wù)模型人機(jī)界面主控模塊規(guī)劃器解釋器緩存函數(shù)庫(kù)黑板任務(wù)模型庫(kù)數(shù)據(jù)采掘任務(wù)處理引擎的結(jié)構(gòu)2022/12/28史忠植高級(jí)人工智能56數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能141數(shù)據(jù)挖掘集成工具:處理任務(wù)模型任務(wù)規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52022/12/28史忠植高級(jí)人工智能57數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能142數(shù)據(jù)挖掘集成工具:DML語言DML函數(shù)人機(jī)交互和控制臺(tái)輸入/輸出數(shù)值計(jì)算字符串處理圖形、圖表展示文件操作數(shù)據(jù)庫(kù)訪問網(wǎng)絡(luò)通訊對(duì)象訪問消息處理和流程控制黑板操作外部功能調(diào)用其它輔助功能2022/12/28史忠植高級(jí)人工智能58數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能143數(shù)據(jù)挖掘集成工具:內(nèi)嵌決策樹SOM神經(jīng)網(wǎng)絡(luò)粗糙集關(guān)聯(lián)規(guī)則

2022/12/28史忠植高級(jí)人工智能59數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能144決策樹2022/12/28史忠植高級(jí)人工智能60決策樹2023/1/4史忠植高級(jí)人工智能145知識(shí)約簡(jiǎn)知識(shí)約簡(jiǎn)——在保持知識(shí)庫(kù)的分類或決策能力不變的條件下,刪除其中不相關(guān)或不重要知識(shí)冗余知識(shí)——資源的浪費(fèi);干擾人們作出正確而簡(jiǎn)潔的決策RoughSet——把那些無法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集(Z.Pawlak)

知識(shí)約簡(jiǎn)是粗糙集的核心內(nèi)容之一

2022/12/28史忠植高級(jí)人工智能61知識(shí)約簡(jiǎn)知識(shí)約2023/1/4史忠植高級(jí)人工智能146RoughSet約簡(jiǎn)2022/12/28史忠植高級(jí)人工智能62RoughS2023/1/4史忠植高級(jí)人工智能147數(shù)據(jù)挖掘集成工具:外聯(lián)BP神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)分析模糊聚類超曲面分類SVM貝葉斯網(wǎng)絡(luò)基于范例推理(CBR)隱馬爾科夫模型(HMM)2022/12/28史忠植高級(jí)人工智能63數(shù)據(jù)挖掘集成工2023/1/4史忠植高級(jí)人工智能148BP用于預(yù)測(cè)2022/12/28史忠植高級(jí)人工智能64BP用于預(yù)測(cè)2023/1/4史忠植高級(jí)人工智能149統(tǒng)計(jì)工具線性回歸模型

——一元線性回歸、多元線性回歸、逐步回歸

非線性回歸模型——二次曲線、三次曲線、指數(shù)曲線、冪指數(shù)曲線、生產(chǎn)函數(shù)等模型

確定型時(shí)間序列模型——指數(shù)平滑法、趨勢(shì)移動(dòng)平均法(水平趨勢(shì)、線性趨勢(shì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論