第八章 數(shù)據(jù)開(kāi)采課件_第1頁(yè)
第八章 數(shù)據(jù)開(kāi)采課件_第2頁(yè)
第八章 數(shù)據(jù)開(kāi)采課件_第3頁(yè)
第八章 數(shù)據(jù)開(kāi)采課件_第4頁(yè)
第八章 數(shù)據(jù)開(kāi)采課件_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘二、決策樹(shù)方法(分類(lèi)方法)三、聚類(lèi)方法四、關(guān)聯(lián)分析方法第八章數(shù)據(jù)挖掘本章內(nèi)容

第八章數(shù)據(jù)開(kāi)采(1)80年在美國(guó)召開(kāi)了第一屆國(guó)際機(jī)器學(xué)習(xí)研討會(huì);(2)89年8月于美國(guó)底特律市召開(kāi)的第一屆KDD國(guó)際學(xué)術(shù)會(huì)議;(3)95年在加拿大召開(kāi)了第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議;(4)我國(guó)于87年召開(kāi)了第一屆全國(guó)機(jī)器學(xué)習(xí)研討會(huì)。第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.1知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的興起第八章數(shù)據(jù)開(kāi)采

知識(shí)發(fā)現(xiàn)(KDD)被認(rèn)為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過(guò)程。數(shù)據(jù)挖掘(DM)被認(rèn)為是KDD過(guò)程中的一個(gè)特定步驟,它用專門(mén)算法從數(shù)據(jù)中抽取模式(patterns)。

KDD過(guò)程定義(Fayyad,Piatetsky-Shapiror,andSmyth1996):

從大量數(shù)據(jù)中提取出可信的、新穎的、有用的并能被人理解的模式的高級(jí)處理過(guò)程?!澳J健笨梢钥闯墒侵R(shí)的雛形,經(jīng)過(guò)驗(yàn)證、完善后形成知識(shí)。第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.2知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘概念第八章數(shù)據(jù)開(kāi)采KDD過(guò)程數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標(biāo)數(shù)據(jù)預(yù)處理后數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)模式知識(shí)數(shù)據(jù)選擇預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換結(jié)果表達(dá)和解釋數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)和解釋第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.2知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘概念第八章數(shù)據(jù)開(kāi)采若兩個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的取值之間重復(fù)出現(xiàn)且概率很高時(shí),它就存在某種關(guān)聯(lián),可以建立起這些數(shù)據(jù)項(xiàng)的關(guān)聯(lián)規(guī)則。一個(gè)相關(guān)規(guī)則的形式為:A1∧A2…∧Ai→B1∧B2…∧Bj。如果B1,B2,Bj出現(xiàn),那么A1,A2,Ai一定出現(xiàn),這表明A1,A2,Ai與B1,B2,Bj有某種關(guān)聯(lián)第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.3數(shù)據(jù)挖掘任務(wù)關(guān)聯(lián)分析數(shù)據(jù)挖掘任務(wù)主要有:關(guān)聯(lián)分析、聚類(lèi)、概念描述

、偏差檢測(cè)、預(yù)測(cè)。第八章數(shù)據(jù)開(kāi)采

數(shù)據(jù)庫(kù)中的數(shù)據(jù)可以劃分為一系列有意義的子集,即類(lèi)。在同一類(lèi)別中,個(gè)體之間的距離較小,而不同類(lèi)別上的個(gè)體之間的距離偏大。第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.3數(shù)據(jù)挖掘任務(wù)聚類(lèi)分析第八章數(shù)據(jù)開(kāi)采對(duì)數(shù)據(jù)庫(kù)中一類(lèi)對(duì)象的內(nèi)涵進(jìn)行描述,以概括這個(gè)類(lèi)的有關(guān)特征。概念描述是對(duì)數(shù)據(jù)庫(kù)的整體信息有全面概括,從數(shù)據(jù)庫(kù)中歸納抽象的信息。類(lèi)的內(nèi)涵描述有兩種:(1)特征描述:對(duì)類(lèi)中對(duì)象的共同特點(diǎn)進(jìn)行描述(2)辨別性描述:對(duì)兩個(gè)或多個(gè)類(lèi)之間的區(qū)別描述產(chǎn)生辨別性描述的方法有:(1)決策樹(shù)方法:ID3,IBLE等(2)神經(jīng)網(wǎng)絡(luò)方法(3)遺傳算法第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.3數(shù)據(jù)挖掘任務(wù)

概念描述第八章數(shù)據(jù)開(kāi)采數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,從數(shù)據(jù)分析中發(fā)現(xiàn)這些異常情況也是很重要的,以引起人們對(duì)它更多的注意。偏差檢測(cè)的數(shù)據(jù)模式有極值點(diǎn)、斷點(diǎn)、拐點(diǎn)、零點(diǎn)和邊界等不同的偏差對(duì)象。第八章數(shù)據(jù)挖掘一、

知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘1.3數(shù)據(jù)挖掘任務(wù)偏差檢測(cè)

預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型來(lái)預(yù)測(cè)未來(lái)數(shù)據(jù)的種類(lèi),特征等。預(yù)測(cè)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.1基本概念決策樹(shù)方法著眼于從一組無(wú)次序、無(wú)規(guī)則的示例中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)(非葉結(jié)點(diǎn))進(jìn)行屬性值的比較,并根據(jù)不同的屬性值決定從此結(jié)點(diǎn)向下的分支,直到葉結(jié)點(diǎn)才得到結(jié)論。葉結(jié)點(diǎn)的條件:結(jié)點(diǎn)內(nèi)所有示例屬于同類(lèi)。內(nèi)部結(jié)點(diǎn)用作分支判斷的屬性稱為測(cè)試屬性。

——怎么選擇測(cè)試屬性?二、

決策樹(shù)方法(分類(lèi)分析)分類(lèi)規(guī)則:從樹(shù)根到葉結(jié)點(diǎn)的一條路徑對(duì)應(yīng)著一條合取規(guī)則。第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.2CLS(ConceptLearningSystem)方法二、

決策樹(shù)方法(分類(lèi)分析)工作過(guò)程:首先找出最有判別力的因素,把數(shù)據(jù)分成兩個(gè)子集,每個(gè)子集又選擇最有判別力的因素進(jìn)行劃分,一直進(jìn)行到所有子集僅包含同一類(lèi)型的數(shù)據(jù)為止,最后得到一棵決策樹(shù),可以用來(lái)對(duì)新的樣例進(jìn)行分類(lèi)。

沒(méi)有明確選擇測(cè)試屬性的標(biāo)準(zhǔn)Quinlan在1979年引進(jìn)了信息論中的互信息,作為特征判別能力的度量。——ID3方法第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.3信息論原理源信息宿信息信道干預(yù)源信息是客觀系統(tǒng)本身固有的信息。宿信息是接受系統(tǒng)所呈現(xiàn)的信息。信息熵(先驗(yàn)熵)、條件熵(后驗(yàn)熵)、互信息互信息=信息熵-條件熵三者關(guān)系:二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采條件熵:H(U/V)=-∑P(vj)∑P(ui/vj)logP(ui/vj)第八章數(shù)據(jù)挖掘2.3信息論原理源U宿V信道P(V/U)u1,u2,…,urv1,v2,…,vq信道模型:計(jì)算:信息熵:H(U)=-∑P(ui)logP(ui)irrijqP(U)=(P(u1),P(u2),…,P(ur))給定:P(V/U)=P(v1/u1)P(v2/u1)…P(vq/u1)P(v1/u2)P(v2/u2)…P(vq/u2)P(v1/ur)P(v2/ur)…P(vq/ur)傳輸概率二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.4ID3算法主算法:訓(xùn)練集PE,NE取子集建窗口窗口PE’,NE’生成決策樹(shù)測(cè)試PE,NE存在錯(cuò)判的PE’’,NE’’?擴(kuò)展窗口PE’=PE’+PE’’NE’=NE’+NE’’YN結(jié)束二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.4ID3算法建樹(shù)算法:(1)對(duì)當(dāng)前集合,計(jì)算各特征的互信息;(2)選擇互信息最大的特征AK;(3)根據(jù)特征AK的取值把當(dāng)前集合分為若干個(gè)子集;(4)對(duì)既含正例又含反例的子集,遞歸調(diào)用建樹(shù)算法;(5)對(duì)只含正例或反例的子集,對(duì)應(yīng)分支標(biāo)上P或N,返回調(diào)用處。二、

決策樹(shù)方法(分類(lèi)分析)優(yōu)缺點(diǎn):第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.4ID3算法示例:二、

決策樹(shù)方法(分類(lèi)分析)1晴熱高無(wú)風(fēng)N2晴熱高有風(fēng)N3多云熱高無(wú)風(fēng)P4雨適中高無(wú)風(fēng)P5雨冷正常無(wú)風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無(wú)風(fēng)N9晴冷正常無(wú)風(fēng)P10雨適中正常無(wú)風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無(wú)風(fēng)P14雨適中高有風(fēng)N天氣氣溫濕度風(fēng)P(u1)=9/14u1代表正例Pu2代表反例P(u2)=5/14A1=天氣取值

v1=晴,v2=多云,v3=雨第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.4ID3算法示例:NPNP天氣濕度風(fēng)高正常有風(fēng)無(wú)風(fēng)多云P晴

雨二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.5ID3應(yīng)用示例

示例:用決策樹(shù)方法挖掘保險(xiǎn)業(yè)務(wù)(醫(yī)療保險(xiǎn))數(shù)據(jù)中的投資風(fēng)險(xiǎn)規(guī)則設(shè)醫(yī)療保險(xiǎn)數(shù)據(jù)庫(kù)由個(gè)人信息表、單位信息表、一定時(shí)間內(nèi)(月)索賠單據(jù)表等數(shù)據(jù)表組成,各表信息如下:保險(xiǎn)號(hào)姓名性別出生日期單位編號(hào)年薪投保日期張女670121305423000970901劉男541123200115508970402李男43082520457086970623……個(gè)人信息表:二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.5ID3應(yīng)用示例

編號(hào)單位名稱類(lèi)別投保日期3054XX房產(chǎn)公司企業(yè)9709012001XX公交公司企業(yè)9704022045XX工業(yè)大學(xué)事業(yè)970623…………單位信息表:月索賠單據(jù)表:?jiǎn)翁?hào)營(yíng)業(yè)員保險(xiǎn)號(hào)索賠金額索賠日期000121王300970901000101劉158970902000340劉208970923二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.5ID3應(yīng)用示例

數(shù)據(jù)挖掘工作的幾個(gè)步驟:1)數(shù)據(jù)整理保險(xiǎn)號(hào)年齡性別單位類(lèi)別年薪索賠次數(shù)是否索賠63女企業(yè)230006Y33男企業(yè)155080N55男事業(yè)70863Y2)數(shù)據(jù)分析:索賠次數(shù)可以去掉。3)數(shù)據(jù)挖掘:

年齡分段;年薪分段。

ID3建樹(shù)4)挖掘結(jié)果解釋:二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.5ID3應(yīng)用示例

數(shù)據(jù)離散化(分段)

無(wú)指導(dǎo)離散化:等間隔離散、等頻度離散有指導(dǎo)離散化:基于信息熵的離散化等基于信息熵的離散化基本原理:給定一樣本集S,如果用邊界T將S劃分為S1和S2兩部分,則劃分后的熵為:H(S,T)=H(S1)+H(S2)|S1||S||S2||S|選取使H(S,T)取值最小的邊界T進(jìn)行劃分。二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.6IBLE算法基本思想2.7IBLE算法為了克服ID3的缺點(diǎn),而設(shè)計(jì)的。用信道容量代替互信息作為特征判別力的度量結(jié)點(diǎn)是一組特征,而不只一個(gè)特征決策規(guī)則樹(shù)規(guī)則2規(guī)則3規(guī)則1u1u1u1u2u2u2二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘2.7IBLE算法決策規(guī)則樹(shù)中非葉結(jié)點(diǎn)均為規(guī)則。規(guī)則形式為:

特征:A1,A2,...,.Am

權(quán)值:W1,W2,...,.Wm

標(biāo)準(zhǔn)值:V1,V2,...,.Vm

閾值:Sp,Sn該規(guī)則可形式描述為:(1)sum:=0;(2)對(duì)i:=1到m作:若Ai=Vi,則sum:=sum+wi;(3)若sum

sn,則該例為N類(lèi);(4)若sum

sp,則該例為P類(lèi);(5)若sn<sum<sp,則該例暫不能判,轉(zhuǎn)下一條規(guī)則判別。其中sum表示權(quán)和。二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘決策規(guī)則樹(shù)結(jié)點(diǎn)IBLE算法組成部分:預(yù)處理,建規(guī)則算法,建決策樹(shù)算法,類(lèi)判定算法PENE建規(guī)則測(cè)試PEPPENPEMNEPNENNEM二、

決策樹(shù)方法(分類(lèi)分析)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.1聚類(lèi)將集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程被稱為聚類(lèi)。主要的聚類(lèi)方法:劃分方法、層次方法、基于密度方法、基于網(wǎng)格的方法、基于模型的方法。三、

聚類(lèi)分析與分類(lèi)的區(qū)別:不依賴預(yù)先定義的類(lèi)和帶類(lèi)標(biāo)識(shí)的訓(xùn)練實(shí)例。聚類(lèi)屬于無(wú)指導(dǎo)學(xué)習(xí),而分類(lèi)是指導(dǎo)性的學(xué)習(xí)。第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.2劃分法算法思想:對(duì)N個(gè)對(duì)象的數(shù)據(jù)集,構(gòu)建數(shù)據(jù)的K個(gè)劃分,每個(gè)劃分表示一個(gè)聚簇,并且K<=N。即,它將數(shù)據(jù)劃分為K個(gè)組,同時(shí)滿足如下的要求:

每個(gè)組至少包含一個(gè)對(duì)象;每個(gè)對(duì)象必須屬于且只屬于一個(gè)組。三、

聚類(lèi)分析目前較流行的兩個(gè)劃分方法是:K-平均算法:每個(gè)簇用該簇中所有對(duì)象的平均值來(lái)表示;K-中心算法:每個(gè)簇用最接近簇中心的那個(gè)對(duì)象來(lái)表示。第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.2劃分法三、

聚類(lèi)分析K-平均算法:輸入:簇的數(shù)目K和包含N個(gè)對(duì)象的數(shù)據(jù)集輸出:K個(gè)簇,使平方誤差準(zhǔn)則最小方法:任意選擇K個(gè)對(duì)象作為初始的簇中心;repeat

根據(jù)對(duì)象與各簇中心的距離,將每個(gè)對(duì)象賦給最近的簇;更新簇的平均值,即計(jì)算每個(gè)簇的中心;3.Until平方誤差準(zhǔn)則函數(shù)收斂第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.2劃分法三、

聚類(lèi)分析K-平均算法:簇是否不再變化結(jié)束NY任意選定K個(gè)初始的簇中心將每個(gè)對(duì)象分配給最臨近的簇更新簇平均值缺陷:

不適合發(fā)現(xiàn)非凸面形狀的簇;不適合發(fā)現(xiàn)大小相差很大的簇;對(duì)噪聲和孤立點(diǎn)數(shù)據(jù)敏感。算法復(fù)雜度:O(nkt)第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.2劃分法三、

聚類(lèi)分析K-中心算法:方法:任意選擇K個(gè)對(duì)象作為初始的簇中心;repeat將每個(gè)對(duì)象賦給最臨近的簇;隨機(jī)地選擇一個(gè)非中心點(diǎn)對(duì)象,并計(jì)算迭代后的總代價(jià);如果總代價(jià)小于0,迭代成功,形成新的K個(gè)中心點(diǎn)集合;3.until不再發(fā)生變化優(yōu)點(diǎn):對(duì)噪聲和孤立點(diǎn)不敏感缺陷:計(jì)算代價(jià)高第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.3層次法三、

聚類(lèi)分析算法思想:首先將每個(gè)對(duì)象作為一簇,然后這些原子簇為越來(lái)越大的簇,直到所有的對(duì)象都在一個(gè)簇中。CURE(ClusteringUsingREpresentatives)CURE思想:用固定數(shù)目的代表點(diǎn)來(lái)表示一個(gè)簇。每個(gè)簇的代表點(diǎn)通過(guò)這種方式產(chǎn)生:首先選擇類(lèi)中分散的點(diǎn),然后根據(jù)一個(gè)特定的收縮因子向類(lèi)中心“收縮”。在算法的每一步,有最近距離的代表點(diǎn)對(duì)(每個(gè)點(diǎn)來(lái)自一個(gè)不同的類(lèi))的兩個(gè)類(lèi)被合并。第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.3層次法三、

聚類(lèi)分析優(yōu)點(diǎn):每個(gè)類(lèi)有多于一個(gè)的代表點(diǎn)使得CURE可以適宜非球形的幾何形狀。類(lèi)的收縮可以有助于控制孤立點(diǎn)的影響。因此,CURE對(duì)孤立點(diǎn)的處理更加健壯,而且能夠識(shí)別非球形和大小變化較大的類(lèi)。

CURE(ClusteringUsingREpresentatives)劃分法聚類(lèi)結(jié)果第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.3層次法三、

聚類(lèi)分析代表點(diǎn)的產(chǎn)生與收縮:CURE第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.4基于密度的方法——DBSCAN三、

聚類(lèi)分析算法思想:算法將具有足夠高密度的區(qū)域劃分為簇,并可以在帶有“噪聲”的數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類(lèi)。它定義簇為密度相連的點(diǎn)的最大集合。有關(guān)定義:核心對(duì)象:如果一個(gè)對(duì)象的EPS鄰域至少包含了MinPts個(gè)對(duì)象,則稱該對(duì)象為核心對(duì)象。直接密度可達(dá):給定一個(gè)對(duì)象集合D,如果p在q的EPS鄰域內(nèi),而q是一個(gè)核心對(duì)象,則稱p從對(duì)象q出發(fā)是直接密度可達(dá)的。密度可達(dá):如果存在一個(gè)對(duì)象鏈p1,p2,…,pn,p1=q,pn=p,對(duì)pi∈D,(1≤i≤n),pi+1是從pi關(guān)于EPS和MinPts直接密度可達(dá)的,則對(duì)象p是從對(duì)象q關(guān)于EPS和MinPts密度可達(dá)的。密度相連:如果對(duì)象集合D中存在一個(gè)對(duì)象o,使得對(duì)象p、q是從o關(guān)于EPS和MinPts密度可達(dá)的,那么對(duì)象p,q是關(guān)于EPS和MinPts密度相連的。

第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.4基于密度的方法——DBSCAN三、

聚類(lèi)分析基于密度的簇:基于密度可達(dá)性的最大的密度相連對(duì)象的集合

DBSCAN的原理如下:檢查數(shù)據(jù)庫(kù)中每個(gè)點(diǎn)的EPS鄰域,如果一個(gè)點(diǎn)p的EPS鄰域包含多于MinPts個(gè)點(diǎn),則創(chuàng)建一個(gè)以p為核心的新簇。然后,反復(fù)尋找從核心對(duì)象直接密度可達(dá)的對(duì)象,這個(gè)過(guò)程還涉及一些密度可達(dá)簇的合并。當(dāng)沒(méi)有新的點(diǎn)可以被添加到任何簇時(shí),該過(guò)程結(jié)束。第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘3.4基于密度的方法——DBSCAN三、

聚類(lèi)分析參數(shù)設(shè)置接受用戶給定的EPS和MinPts的設(shè)置值查找核心對(duì)象根據(jù)EPS和MinPts的設(shè)置值,掃描數(shù)據(jù)庫(kù),找出所有核心對(duì)象,建立初始簇群簇的擴(kuò)展與合并根據(jù)直接密度可達(dá)性擴(kuò)展和合并簇篩除噪聲把不屬于任何簇的對(duì)象標(biāo)識(shí)為噪聲第八章數(shù)據(jù)開(kāi)采第八章數(shù)據(jù)挖掘四、

關(guān)聯(lián)分析4.1基本概念設(shè)I={i1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論