版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)為什么要數(shù)據(jù)挖掘原語和語言?沒有精確的指令和規(guī)則,數(shù)據(jù)挖掘系統(tǒng)就沒法使用。一個(gè)完全自動(dòng)(不需要人為干預(yù)或指導(dǎo))的數(shù)據(jù)挖掘機(jī)器:會(huì)產(chǎn)生大量模式(重新把知識(shí)淹沒)會(huì)涵蓋所有數(shù)據(jù),使得挖掘效率低下大部分有價(jià)值的模式集可能被忽略挖掘出的模式可能難以理解,缺乏有效性、新穎性和實(shí)用性——令人不感興趣。用數(shù)據(jù)挖掘原語和語言來指導(dǎo)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘原語的組成部分?jǐn)?shù)據(jù)挖掘原語應(yīng)該包括以下部分:說明數(shù)據(jù)庫的部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識(shí)類型用于指導(dǎo)挖掘的背景知識(shí)模式評(píng)估、興趣度量如何顯示發(fā)現(xiàn)的知識(shí)數(shù)據(jù)挖掘原語用于用戶和數(shù)據(jù)挖掘系統(tǒng)通信,讓用戶能從不同的角度和深度審查和發(fā)現(xiàn)結(jié)果,并指導(dǎo)挖掘過程。說明數(shù)據(jù)挖掘任務(wù)的原語任務(wù)相關(guān)的數(shù)據(jù)數(shù)據(jù)庫(倉庫)名、數(shù)據(jù)立方體、選擇條件、相關(guān)屬性、分組條件挖掘的知識(shí)類型特征化、區(qū)分、關(guān)聯(lián)、分類/預(yù)測(cè)、聚類背景知識(shí)概念分層,關(guān)聯(lián)的確信度模式興趣度度量簡(jiǎn)單性、確定性、實(shí)用性、新穎性發(fā)現(xiàn)模式的可視化規(guī)則、表、圖表、圖、判定樹…任務(wù)相關(guān)的數(shù)據(jù)用戶感興趣的只是數(shù)據(jù)庫或數(shù)據(jù)倉庫的一個(gè)子集。相關(guān)的操作:DB-選擇、投影、連接、聚集等;DW-切片、切塊初始數(shù)據(jù)關(guān)系數(shù)據(jù)子集選擇過程產(chǎn)生的新的數(shù)據(jù)關(guān)系可挖掘的視圖用于數(shù)據(jù)挖掘相關(guān)任務(wù)的數(shù)據(jù)集任務(wù)相關(guān)的數(shù)據(jù)——例子挖掘加拿大顧客和他們常在AllElectronics購買的商品間的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(倉庫)名(e.g.AllElectronics_db)包含相關(guān)數(shù)據(jù)的表或數(shù)據(jù)立方體名(e.g.item,customer,purchases,item_sold)選擇相關(guān)數(shù)據(jù)的條件(今年、加拿大)相關(guān)的屬性或維(item表的name和price,customer表的income和age)要挖掘的知識(shí)類型要挖掘的知識(shí)類型將決定使用什么數(shù)據(jù)挖掘功能。概念描述(特征化和區(qū)分),關(guān)聯(lián)規(guī)則,分類/預(yù)測(cè),聚類和演化分析等模式模板又稱元模式或元規(guī)則,用來指定所發(fā)現(xiàn)模式所必須匹配的條件,用于指導(dǎo)挖掘過程。關(guān)聯(lián)規(guī)則元模式——例子研究AllElectronics的顧客購買習(xí)慣,使用如下關(guān)聯(lián)規(guī)則:P(X:customer,W)∧Q(X,Y)=>buys(X,Z)X---customer表的關(guān)鍵字P,Q---謂詞變量W,Y,Z---對(duì)象變量模板具體化age(X,“30…39”)∧income(X,“40k…49k”)=>buys(X,“VCR”) [2.2%,60%]occupation(x,“student”)∧age(X,“20…29”)=>buys(X,“computer”) [1.4%,70%]背景知識(shí):概念分層背景知識(shí)是關(guān)于挖掘領(lǐng)域的知識(shí),概念分層是背景知識(shí)的一種,它允許在多個(gè)抽象層上發(fā)現(xiàn)知識(shí)。概念分層以樹形結(jié)構(gòu)的節(jié)點(diǎn)集來表示,其中每個(gè)節(jié)點(diǎn)本身代表一個(gè)概念,根節(jié)點(diǎn)稱為all,而葉節(jié)點(diǎn)則對(duì)應(yīng)于維的原始數(shù)據(jù)值。概念分層——上卷和下鉆在概念分層中應(yīng)用上卷操作(概化),使得用戶可以使用較高層次概念替代較低層次概念,從而可以在更有意義,跟抽象的層次觀察數(shù)據(jù),從而跟容易發(fā)現(xiàn)知識(shí)。同時(shí)上卷操作帶來的數(shù)據(jù)歸約還能有效的節(jié)省I/O支出。概念分層的下鉆操作使用較低層概念代替較高層概念,從而使用戶能夠?qū)^于一般化的數(shù)據(jù)做更詳細(xì)分析。上卷和下鉆操作讓用戶以不同視圖觀察數(shù)據(jù),洞察隱藏的數(shù)據(jù)聯(lián)系。概念分層的自動(dòng)生成。概念分層的類型模式分層E.g.,street<city<province<country集合分組分層E.g.,{20-39}=young,{40-59}=middle_aged操作導(dǎo)出的分層Email:abc@基于規(guī)則的分層low_profit_margin(X)<=price(X,P1)andcost(X,P2)and(P1-P2)<$50high_profit_margin(X)<=price(X,P1)andcost(X,P2)and(P1-P2)>$250興趣度度量沒有興趣度度量,挖掘出來的有用模式,很可能會(huì)給淹沒在用戶不感興趣的模式中。簡(jiǎn)單性確定性實(shí)用性新穎性興趣度的客觀度量方法:根據(jù)模式的結(jié)構(gòu)和統(tǒng)計(jì),用一個(gè)臨界值來判斷某個(gè)模式是不是用戶感興趣的。簡(jiǎn)單性和確定性簡(jiǎn)單性(simplicity)模式是否容易被人所理解模式結(jié)構(gòu)的函數(shù)(模式的長(zhǎng)度、屬性的個(gè)數(shù)、操作符個(gè)數(shù))。e.g.規(guī)則長(zhǎng)度或者判定樹的節(jié)點(diǎn)個(gè)數(shù)。確定性(certainty)表示一個(gè)模式在多少概率下是有效的。置信度(A=>B)=(包含A和B的元組值)/(包含A的元組值),e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%]100%置信度:準(zhǔn)確的。實(shí)用性和新穎性實(shí)用性可以用支持度來進(jìn)行度量:支持度(A=>b)=(包含A和B的元組數(shù))/(元組總數(shù))e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%]同時(shí)滿足最小置信度臨界值和最小支持度臨界值的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。新穎性提供新信息或提高給定模式集性能的模式通過刪除冗余模式來檢測(cè)新穎性(一個(gè)模式已經(jīng)為另外一個(gè)模式所蘊(yùn)涵)Location(X,“Canada”)=>buys(X,“Sony_TV”)[8%,70%]Location(X,“Vancouver”)=>buys(X,“Sony_TV”)[2%,70%]發(fā)現(xiàn)模式的表示和可視化以多種形式顯示挖掘出來的模式:表、圖、判定樹、數(shù)據(jù)立方體等等,以適合不同背景的用戶的需要。使用概念分層,用更有意義,更容易理解的高層概念來替代低層概念;并通過上卷、下鉆等操作從不同的抽象級(jí)審視所發(fā)現(xiàn)的模式。特定知識(shí)類型的表示。一種數(shù)據(jù)挖掘查詢語言DMQLDMQL的設(shè)計(jì)目的支持特別的和交互的數(shù)據(jù)查詢,以便利于靈活和有效的知識(shí)發(fā)現(xiàn)提供一種類似于SQL的標(biāo)準(zhǔn)化查詢語言希望達(dá)到SQL在關(guān)系數(shù)據(jù)庫中的地位系統(tǒng)開發(fā)和演化的基礎(chǔ)方便的信息交互,廣泛的技術(shù)支持,商業(yè)化,廣為認(rèn)可設(shè)計(jì)挑戰(zhàn)數(shù)據(jù)挖掘任務(wù)涉及面寬數(shù)據(jù)特征、關(guān)聯(lián)規(guī)則、分類、演變分析…每種任務(wù)都有不同的需求DMQL的語法采用與SQL相類似的語法,便于與SQL的集成。允許在多個(gè)抽象層上,由關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫進(jìn)行多類型知識(shí)的特殊挖掘DMQL的設(shè)計(jì)基于數(shù)據(jù)挖掘原語,語法中應(yīng)該包括對(duì)以下任務(wù)的指定:說明數(shù)據(jù)庫的部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識(shí)類型用于指導(dǎo)挖掘的背景知識(shí)模式評(píng)估、興趣度量如何顯示發(fā)現(xiàn)的知識(shí)任務(wù)相關(guān)數(shù)據(jù)說明的語法任務(wù)相關(guān)數(shù)據(jù)說明應(yīng)包括的內(nèi)容:包含相關(guān)數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫相關(guān)的表名或數(shù)據(jù)立方體的名字選擇相關(guān)數(shù)據(jù)的條件探察的相關(guān)屬性或維關(guān)于檢索數(shù)據(jù)的排序和分組指令任務(wù)相關(guān)數(shù)據(jù)說明子句說明相關(guān)的數(shù)據(jù)庫或數(shù)據(jù)倉庫usedatabase<db_name>或usedatawarehouse<dw_name>指定涉及的表或數(shù)據(jù)立方體,定義檢索條件From<relation(s)/cube(s)>[where<condition>]列出要探察的屬性或維Inrelevanceto<attributeordimension_list>相關(guān)數(shù)據(jù)的排序orderby<order_list>相關(guān)數(shù)據(jù)的分組groupby<grouping_list>相關(guān)數(shù)據(jù)的分組條件:having<condition>任務(wù)相關(guān)數(shù)據(jù)說明——示例挖掘加拿大顧客與在AllElectronics經(jīng)常購買的商品之間的關(guān)聯(lián)規(guī)則usedatabaseAllElectronics_dbinrelevancetoI.name,I.price,C.income,C.agefromcustomerC,itemI,purchasesP,items_soldSwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandC.country=“Canada”groupbyP.date指定挖掘知識(shí)類型要挖掘的知識(shí)類型將決定所使用的數(shù)據(jù)挖掘功能。幾種主要的數(shù)據(jù)挖掘功能特征化目標(biāo)數(shù)據(jù)的一般特征或特性匯總數(shù)據(jù)區(qū)分將目標(biāo)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的特性相比較關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁的在給定數(shù)據(jù)中集中一起出現(xiàn)的條件分類找出區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便用之標(biāo)志未知的對(duì)象類。聚類分析、孤立點(diǎn)分析、演變分析…指定挖掘知識(shí)類型——特征化目標(biāo)數(shù)據(jù)的一般特征或特性匯總語法
Mine_Knowledge_Specification
::=
minecharacteristics[as
pattern_name]
analyze
measure(s)analyze子句指定聚集度量(count,sum,count%),通過這些度量對(duì)每個(gè)找到的數(shù)據(jù)特征進(jìn)行計(jì)算示例:顧客購買習(xí)慣的特征描述,對(duì)于每一特征,顯示滿足特征的任務(wù)相關(guān)元組的百分比
minecharacteristics
as
custPurchasing
analyzecount%指定挖掘知識(shí)類型——數(shù)據(jù)區(qū)分將目標(biāo)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的特性相比較語法Mine_Knowledge_Specification
::=
minecomparison[as
pattern_name]
for
target_class
where
target_condition
{versuscontrast_class_i
where
contrast_condition_i}
analyze
measure(s)analyze子句指定聚集度量(count,sum,count%),將對(duì)每個(gè)描述進(jìn)行計(jì)算或顯示示例:用戶將客戶區(qū)分為大顧客與小顧客,并顯示滿足每個(gè)區(qū)分的元組數(shù)Mine_Knowledge_Specification
::=
minecomparison
as
purchaseGroups
for
bigSpenders
where
avg(I.price)≧$100
versusbudgetSpenders
where
avg(I.price)≦$100
analyzecount指定挖掘知識(shí)類型——關(guān)聯(lián)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁的在給定數(shù)據(jù)中集中一起出現(xiàn)的條件語法Mine_Knowledge_Specification
::=
mineassociations[as
pattern_name]matching子句后面往往可以跟元模式,用來指定用戶有興趣探察的數(shù)據(jù)束或假定示例:使用元模式指導(dǎo)的挖掘來指定用于描述顧客購買習(xí)慣的關(guān)聯(lián)規(guī)則挖掘Mine_Knowledge_Specification
::=
mineassociations
as
buyingHabbits
matching
P(X:customer,W)∧Q(X,Y)=>buys(X,Z)指定挖掘知識(shí)類型——分類找出區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便用之標(biāo)志未知的對(duì)象類語法Mine_Knowledge_Specification
::=
mineclassification[as
pattern_name]
analyze
classifying_attribute_or_dimensionanalyze子句說明根據(jù)某個(gè)屬性或維進(jìn)行分類,通常每個(gè)分類屬性的或維的值就代表一個(gè)分類示例:挖掘客戶的信用等級(jí)模式
mineclassification
asclassifyCustCreditRating
analyze
credit_rating概念分層說明的語法每個(gè)屬性或維可能有多個(gè)概念分層,已適應(yīng)用戶從不同角度看待問題的需要;用戶可以使用如下語句指定使用哪個(gè)概念分層:usehierarchy<hierarchy>
for<attribute_or_dimension>示例1:定義模式分層location,location中包含一個(gè)概念分層的全序(street<city<province<country),相應(yīng)的DMQL語法定義如下所示:Definehierarchylocation_hierarchy
onlocationas[street,city,province,country]概念分層說明的語法——集合分組分層Level0Level1Level2definehierarchy
age_hierarchy
forageoncustomeras
level1:{young,middle_aged,senior}<level0:alllevel2:{20…39}<level1:younglevel2:{40…59}<level1:middle_agedlevel2:{60…89}<level1:senior興趣度度量說明的語法興趣度的度量包括置信度、支持度、噪聲和新穎度等度量,可以通過將模式的興趣度度量與相應(yīng)的臨界值相比較決定一個(gè)模式是否為感興趣的模式。with<interest_measure_name>
threshold=threshold_value示例:挖掘關(guān)聯(lián)規(guī)則時(shí)限定找到的感興趣模式必須滿足最小支持度為5%,最小置信度為70%withsupportthreshold=5%withconfidencethreshold=70%模式表示和可視化說明的語法對(duì)挖掘出來的模式,可以使用多種形式進(jìn)行表示,包括:規(guī)則、表、餅圖、立方體、曲線等displayas<resultform>為了方便用戶在不同的角度或者不同的概念層觀察發(fā)現(xiàn)的模式,用戶可以使用上卷、下鉆、添加或丟棄屬性或維等操作Multilevel_Manipulation
::=rollupon
attribute_or_dimension
|drilldownon
attribute_or_dimension
|add
attribute_or_dimension |drop
attribute_or_dimension
例:假定描述是基于維location,age和income的挖掘。用戶可以”rolluponlocation”,“dropage”,概化發(fā)現(xiàn)的模式。一個(gè)DMQL查詢的完整示例查詢AllElectronics購買商品的價(jià)格不小于$100的,用AmEx信用卡結(jié)帳的加拿大顧客的購買習(xí)慣特征(年齡,商品類型和產(chǎn)地),以表的形式表示挖掘的模式use
database
AllElectronics_db
use
hierarchy
location_hierarchyforB.addressminecharacteristicsas
customerPurchasing
analyzecount%inrelevanceto
C.age,I.type,I.place_made
fromcustomerC,itemI,purchasesP,items_soldS,works_atW,branchwhere
I.item_ID=S.item_IDandS.trans_ID=P.trans_ID
andP.cust_ID=C.cust_IDandP.method_paid=``AmEx'' andP.empl_ID=W.empl_IDandW.branch_ID=B.branch_IDandB.address=``Canada"andI.price>=100withnoisethreshold=0.05display
astable其他數(shù)據(jù)挖掘語言和數(shù)據(jù)挖掘原語的標(biāo)準(zhǔn)化關(guān)聯(lián)規(guī)則語言規(guī)范MSQL(Imielinski&Virmani’99)MineRule(Meo
PsailaandCeri’96)QueryflocksbasedonDatalogsyntax(Tsuretal’98)數(shù)據(jù)挖掘的OLEDB基于OLEDB和OLEDBforOLAP技術(shù)整合數(shù)據(jù)庫,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘CRISP-DM(CRoss-IndustryStandardProcessforDataMining)提供了一個(gè)有效的數(shù)據(jù)挖掘平臺(tái)和處理結(jié)構(gòu)強(qiáng)調(diào)使用數(shù)據(jù)挖掘技術(shù)解決商務(wù)問題的需要基于數(shù)據(jù)挖掘語言的圖形用戶界面(GUI)設(shè)計(jì)就像SQL是關(guān)系數(shù)據(jù)庫應(yīng)用的GUI設(shè)計(jì)的“核心”一樣,DMQL是數(shù)據(jù)挖掘應(yīng)用GUI設(shè)計(jì)的核心。數(shù)據(jù)挖掘的GUI可能包含以下部分:數(shù)據(jù)收集和數(shù)據(jù)查詢編輯發(fā)現(xiàn)模式的表示分層結(jié)構(gòu)說明和操縱數(shù)據(jù)挖掘原語的操作交互的多層挖掘其他各種信息數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)一個(gè)系統(tǒng)的體系結(jié)構(gòu)是指一個(gè)系統(tǒng)的各種結(jié)構(gòu),包括系統(tǒng)的各種部分,這些部分所顯示出來的特性,以及它們之間的相互關(guān)系。系統(tǒng)功能與系統(tǒng)體系結(jié)構(gòu)的無關(guān)性。系統(tǒng)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 自然辯證法與科學(xué)思想史概論- 關(guān)于科學(xué)思想史、科學(xué)技術(shù)哲學(xué)和科學(xué)社會(huì)學(xué)若干問題的探討
- 2025年度二零二五山地生態(tài)旅游項(xiàng)目租賃協(xié)議3篇
- 2025年度商業(yè)地產(chǎn)項(xiàng)目場(chǎng)地承包經(jīng)營及管理服務(wù)協(xié)議3篇
- 2024年二級(jí)造價(jià)師考試題庫(奪冠)
- 2024財(cái)務(wù)咨詢服務(wù)合同
- 2024琴行教師音樂教育信息化平臺(tái)設(shè)計(jì)與開發(fā)合同3篇
- 2024銷售兼職勞務(wù)合同
- 2024項(xiàng)目管理流程優(yōu)化與綠色建筑標(biāo)準(zhǔn)實(shí)施合同3篇
- 2024輕質(zhì)隔墻板生產(chǎn)線設(shè)備租賃及維護(hù)服務(wù)合同3篇
- 《知識(shí)管理介紹》課件
- GB/T 2317.1-2000電力金具機(jī)械試驗(yàn)方法
- 供應(yīng)商ROHs審核表
- JESD22~B117A中文版完整詳細(xì)
- 五大發(fā)電公司及所屬電廠列表及分部精編版
- 小學(xué)數(shù)學(xué)聽課記錄 精選(范文20篇)
- 住宅工程公共區(qū)域精裝修施工組織設(shè)計(jì)(217頁)
- 冷卻塔技術(shù)要求及質(zhì)量標(biāo)準(zhǔn)介紹
- 光伏電站設(shè)備監(jiān)造與性能驗(yàn)收
- 10kV架空線路施工方案
- 2018江蘇蘇州中考英語真題解析
- 10KV戶外封閉型噴射式熔斷器技術(shù)規(guī)范書
評(píng)論
0/150
提交評(píng)論