數(shù)據(jù)挖掘知識(shí)點(diǎn)_第1頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)_第2頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)_第3頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)_第4頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘知識(shí)點(diǎn):

一、 數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘那些令人感興趣的有用的隱含的先前未知的和不可能有用的模式和知識(shí)。

數(shù)據(jù)庫(kù)DB系統(tǒng)最主要的功能:

數(shù)據(jù)存儲(chǔ)、查詢處理、事物處理。

數(shù)據(jù)挖掘的主要功能:

關(guān)聯(lián)分析、時(shí)序模式、聚類(lèi)分析、分類(lèi)、偏差檢測(cè)、預(yù)測(cè)

數(shù)據(jù)預(yù)處理:是從大量的數(shù)據(jù)屬性中提取出對(duì)目標(biāo)有重要影響的屬性來(lái)降低原始數(shù)據(jù)的維數(shù),或者是處理一些不好的數(shù)據(jù),從而改善實(shí)例數(shù)據(jù)的質(zhì)量和提高數(shù)據(jù)挖掘的速度。

數(shù)據(jù)預(yù)處理功能:數(shù)據(jù)集成,數(shù)據(jù)清理,數(shù)據(jù)變換,數(shù)據(jù)簡(jiǎn)化。

二、 數(shù)據(jù)挖掘的基本算法:

1、分類(lèi):分類(lèi)的目的是構(gòu)造一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類(lèi)別。

分類(lèi)定義:給定數(shù)據(jù)庫(kù)D={t1,t2,…,tn},元組tiD,類(lèi)的集合C={C1,,Cm},分類(lèi)問(wèn)題定義為從數(shù)據(jù)庫(kù)到類(lèi)集合的映射^DC,即數(shù)據(jù)庫(kù)中的元組ti分配到某個(gè)類(lèi)Cj中,有Cj={tilf(ti)=Cj,IWiWn,且ti^D}。

ID3算法:

ID3算法是國(guó)際上最具影響和最早的決策樹(shù)算法。

首先通過(guò)檢驗(yàn)數(shù)據(jù)庫(kù)中的所有字段,找出具有最大信息增益Gian(A)的字段作為決策樹(shù)碑的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹(shù)的分支,對(duì)每個(gè)子集分支重復(fù)建立下層結(jié)點(diǎn)和分支,直到某一子集的結(jié)果屬于同一類(lèi)。

信息量計(jì)算公式:

I(s1,s2, ,sm)=—EPilog2(pi)(i=1,…,m)

(S是s個(gè)數(shù)據(jù)樣本的集合。類(lèi)別屬性具有m個(gè)不同值Ci。

si是類(lèi)Ci中的樣本數(shù)。pi是任意樣本屬于類(lèi)別Ci的概率,并用si/s估計(jì)。)由非類(lèi)別屬性A劃分為子集的熵(也叫做信息熵)計(jì)算公式為:E(A)=E(s1j+ +smj)/s*I(s1j, ,smj)

(非類(lèi)別屬性A具有v個(gè)不同值{a1,a2,…,av}。利用屬性A將集合S劃

Day

outlook

TemperatuHumidityre

Wind

Playball

1

Hot

High

Weak

No

2

Hot

High

StrongNo

3

多云

Hot

High

Weak

Yes

4

有雨

mild

High

Weak

Yes

5

有雨

Cool

Normal

Weak

Yes

6

有雨

Cool

Normal

StrongNo

7

多云

Cool

Normal

StrongYes

8

mild

High

Weak

No

9

Cool

Normal

Weak

Yes

10

有雨

mild

Normal

Weak

Yes

11

mild

Normal

StrongYes

12

多云

mild

High

StrongYes

13

多云

hot

Normal

Weak

Yes

14

有雨

mild

High

StrongNo

分為v個(gè)子集{S1,S2,…,Sv};其中Sj包含S集合中在屬性A上具有值aj的數(shù)據(jù)樣本。

Sij是子集Sj中類(lèi)Ci的樣本數(shù)(Sij是子集Sj中類(lèi)Ci的樣本數(shù))。)

信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)

例題:

類(lèi)C1運(yùn)動(dòng)=“適合”,

類(lèi)C2對(duì)運(yùn)動(dòng)=“不適合”

I(s1,s2)=I(9,5)=0.940

計(jì)算屬性天氣的熵:: 5 4

E(天氣)=14/(2'3)+14/(4,0)

+乏I(3,2)=0.971

14

Gain(天氣)=I(s1,s2)-E(天氣)=0.246

天氣

C1

C2

l(pn)

晴朗

2

3

0.971

多云

4

0

0

有雨

3

2

0.971

Gain(溫度)=0.029

Gain(濕度)=0.151

Gain(風(fēng)況)=0.048

貝葉斯分類(lèi)方法:

貝葉斯分類(lèi)方法是一種基于統(tǒng)計(jì)的學(xué)習(xí)方法,利用概率統(tǒng)計(jì)進(jìn)行學(xué)習(xí)分類(lèi),如預(yù)測(cè)一個(gè)數(shù)據(jù)對(duì)象屬于某個(gè)類(lèi)別的概率。

貝葉斯定理:

P(H|X)=

P(X|H)P(H)

P(X)

主要算法:樸素貝葉斯分類(lèi)、貝葉斯信念網(wǎng)絡(luò)分類(lèi)算法等。

樸素貝葉斯分類(lèi):

樸素貝葉斯分類(lèi)算法利用貝葉斯定理來(lái)預(yù)測(cè)一個(gè)未知類(lèi)別的樣本屬于各個(gè)類(lèi)別的可能性,選擇可能性最大的一個(gè)類(lèi)別作為該樣本的最終類(lèi)別。

原理:

設(shè)樣本有n個(gè)屬性(A1,A2,...,An),每個(gè)樣本可看作是n維空間的一個(gè)點(diǎn)X=(x1,x2,...,xn)。

假定有m個(gè)不同的類(lèi)別,C1,C2,....Cm。X是一個(gè)未知類(lèi)別的樣本。預(yù)測(cè)X的類(lèi)別為后驗(yàn)概率最大的那個(gè)類(lèi)別,即算法將未知類(lèi)別的樣本X歸到類(lèi)Ci,當(dāng)且僅當(dāng)

P(Ci|X)>P(CjlX),對(duì)于所有的[成立(1WjWm,j尹i)即P(CilX)最大。

根據(jù)貝葉斯定理得知

P(CilX)=P(XlCi)P(Ci)/P(X)。

P(X)對(duì)于所有類(lèi)為常數(shù),因此只需P(XlCi)P(Ci)取最大即可

類(lèi)的先驗(yàn)概率P(Ci)由P(Ci)=si/s估算

Si訓(xùn)練樣本中屬于類(lèi)Ci的樣本數(shù),s全部訓(xùn)練樣本的樣本數(shù)。

給定具有多屬性的數(shù)據(jù)集,計(jì)算P(xlCi)的開(kāi)銷(xiāo)可能非常大,為降低計(jì)算P(xlCi)的開(kāi)銷(xiāo),樸素貝葉斯做了類(lèi)條件獨(dú)立假設(shè),即假定一個(gè)屬性值對(duì)給定類(lèi)的影響?yīng)毩⒂谄渌麑傩灾?,屬性之間不存在依賴關(guān)系,則:

P(XlCi)=P(x1lCi)P(x2lCi)...P(xnlCi)

對(duì)未知樣本X分類(lèi),對(duì)每個(gè)類(lèi)Ci,分別計(jì)算P(XlCi)P(Ci)。

樣本X被指派到類(lèi)Ci,當(dāng)且僅當(dāng)

P(XlCi)P(Ci)>P(XlCj)P(Cj),(IWjWm,j尹i)即X被指派到其P(XlCi)P(Ci)最大的類(lèi)Ci。

算法描述:

函數(shù)名:NaiveBayes

輸入:類(lèi)別號(hào)未知的樣本X={x1,x2,???xn}

輸出:未知的樣本X所屬類(lèi)別號(hào)

forj=1tom

計(jì)算X屬于每個(gè)類(lèi)別Cj的概率

P(XlCj)=P(x1lCj)P(x2lCj)...P(xnlCj);

計(jì)算訓(xùn)練集中每個(gè)類(lèi)別Cj的概率P(Cj);

計(jì)算概率值Q=P(XlCj)*P(Cj);

endfor

選擇計(jì)算概率值Q最大的Ci(1<=i<=m)作為類(lèi)別

輸出。

例題:

Day

outlook

TemperatuHumidityre

Wind

Playball

1

Hot

High

Weak

No

2

Hot

High

StrongNo

3

多云

Hot

High

Weak

Yes

4

有雨

mild

High

Weak

Yes

5

有雨

Cool

Normal

WeakYes

6

有雨

Cool

Normal

StrongNo

7

多云

Cool

Normal

StrongYes

8

mild

High

WeakNo

9

Cool

Normal

WeakYes

10

有雨

mild

Normal

WeakYes

11

mild

Normal

StrongYes

12

多云

mild

High

StrongYes

13

多云

hot

Normal

WeakYes

14

有雨

mild

High

StrongNo

使用樸素貝葉斯算法預(yù)測(cè)未知樣本:

x={rainy,hot,normal,weak,?}屬性play為yes還是no的概率。

1、 P(play=yesIx)=P(xIplay=yes)*P(play=yes)

=P(xjplay=yes)*P(x2Iplay=yes)*...*P(x4Iplay=yes)*P(play=yes)

P(x1|play=yes)=P(outlook=rainy|play=yes)=3/9

P(x2|play=yes)=P(tem=hot|play=yes)=2/9

P(x3|play=yes)=P(humidity=normal|play=yes)=6/9

P(x4|play=yes)=P(wind=weak|play=yes)=6/9

所以,P(play=yes|x)=3/9*2/9*6/9*6/9*9/14=0.021

2、 P(play=no|x)=P(x|play=no)*P(play=no)

=P(x1|play=no)*P(x2|play=no)*???*P(x4|play=no)*P(play=no)

P(x1|play=no)=P(outlook=rainy|play=no)=2/5

P(x2|play=no)=P(tem=hot|play=no)=2/5

P(x3|play=no)=P(humidity=normal|play=no)=1/5

P(x4|play=no)=P(wind=weak|play=no)=2/5

所以,P(play=no|x)=2/5*2/5*1/5*2/5*5/14=0.0045

拉普拉斯(Laplace):樸素貝葉斯分類(lèi)算法在計(jì)算概率的時(shí)候存在概率=0,及概率值可能很小的情況,所以,在某些情況下,需要考慮條件概率的Laplace估計(jì)和解決小概率相乘溢出問(wèn)題。

條件概率=0,用條件概率的Laplace估計(jì)。

Laplace估計(jì)定義:

P(XilYj)=(nc+l*p)/(n+l)

N是類(lèi)Yj中的實(shí)例總數(shù),nc是類(lèi)Yj的訓(xùn)練樣例中取值為Xi的樣例數(shù),lp例題:

序號(hào)

是否有房

婚姻狀況

年收入

拖欠貸款

1

Yes

Single

125K

No

2

No

Married

100K

No

3

No

Single

70K

No

4

Yes

Married

120K

No

5 :

No

Divorced

95K

Yes

6

No

Married

60K

No

7

Yes

Divorced

220K

No

8

No

Single

85K

Yes

9

No

Married

75K

No

10

No

Single

90K

Yes

當(dāng)條件概率為0時(shí),用Laplace估計(jì)求X=(yes,single,80k,?)拖欠貸款的屬性為yes還是no的概率。

設(shè)是否有房為X1,婚姻狀況為x2,年收入為x3.

1)P(拖欠貸款=yes|x)=P(x|拖欠貸款=yes)XP(拖欠貸款=yes)

=P(x1|拖欠貸款=yes)XP(x2|拖欠貸款=yes)XP(x3|拖欠

貸款=yes)XP(拖欠貸款=yes)

P(x1|拖欠貸款=yes)=(0+3X1/3)/3+3=1/6

P(x21拖欠貸款=yes)=2/3

P(x3l拖欠貸款=yes)= —/算=0.589

12兀。 yes

ci

x3(平均)=(95k+85k+90k)/3=90k

2)P(拖欠貸款=眼lx)=P(xl拖欠貸款=no)XP(拖欠貸款=no)

=P(x11拖欠貸款=no)XP(x21拖欠貸款=no)XP(x3|拖欠貸款=no)

XP(拖欠貸款=no)

P(x11拖欠貸款=no)=3/7

P(x21拖欠貸款=no)=2/7

1 80-110

P(x3|拖欠貸款=no)= —。2%=

3 、'2兀。

ci

X3(平均)=(125k+100k+70k+120k+60k+220k+75k)=110k

2、聚類(lèi)

a) 聚類(lèi)(Clustering)是一個(gè)將數(shù)據(jù)集劃分為若干組(class)或類(lèi)(cluster)的過(guò)程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的。

b) 有關(guān)的聚類(lèi)方法(類(lèi)型)主要有:劃分類(lèi)方法、分層類(lèi)方法、基于密度類(lèi)方法、基于網(wǎng)格類(lèi)方法和基于模型類(lèi)方法。

c) 聚類(lèi)和分類(lèi)的相同點(diǎn)和不同點(diǎn)分析:一是按照定義區(qū)分;二是聚類(lèi)不依賴于預(yù)先定義好的類(lèi),它要?jiǎng)澐值氖俏粗?;是無(wú)指導(dǎo)學(xué)習(xí),聚類(lèi)是觀察式學(xué)習(xí),而不是示例式學(xué)習(xí)。(聚類(lèi)又稱(chēng)分段,是一種對(duì)具有共同趨勢(shì)和模式的數(shù)據(jù)元組進(jìn)行分組的方法。)

d) 無(wú)論如何最大程度的實(shí)現(xiàn)類(lèi)中對(duì)象相似度最大,類(lèi)間相似度最小是聚類(lèi)分析的指導(dǎo)思想。

e) 數(shù)據(jù)挖掘?qū)垲?lèi)算法的典型要求如下:可伸縮性

處理不同類(lèi)型屬性的能力

發(fā)現(xiàn)任意形狀的聚類(lèi)

需要(由用戶)決定的輸入?yún)?shù)最少

處理噪聲數(shù)據(jù)的能力

對(duì)輸入記錄順序不敏感

高維問(wèn)題

基于約束的聚類(lèi)

可解釋性和可用

區(qū)間標(biāo)度變量計(jì)算方法:

數(shù)據(jù)標(biāo)準(zhǔn)化:計(jì)算絕對(duì)偏差的平均值

s=n(Ix—mI+1x—mI+...+1x—mI)

f 1f f 2f f nff

mf=+...+%).

計(jì)算標(biāo)準(zhǔn)度量值(z-score):

x-m

Z=祈。f

if —S

f

二元變量計(jì)算方法:

一個(gè)二元變量只有兩個(gè)狀態(tài)0或1,0表示該變量為空,1表示該變量存在。

兩個(gè)變量0和1沒(méi)有優(yōu)先權(quán),則二元變量為對(duì)稱(chēng),相反,如果兩個(gè)狀態(tài)輸出不是同等重要,那么該二元變量是不對(duì)稱(chēng)的。

對(duì)稱(chēng)的二元變量計(jì)算其相異度公式

d(i,j)=(r+s)/(q+r+s+t)

非對(duì)稱(chēng)的二元變量:d(i,j)=(r+s)/(q+r+s)

其中q表示對(duì)象i和j都為1的變量數(shù)目,r是對(duì)象i為1而對(duì)象j為0的變量數(shù)目。,是對(duì)象i為0對(duì)象j為1的變量數(shù)目,t是對(duì)象i和j都為0的變量數(shù)目。變量的總數(shù)是p=q+r+s+t。

例題:

計(jì)算相異度:

Name是對(duì)象標(biāo)識(shí),gender是對(duì)稱(chēng)的二元變量,其余的屬性都是非對(duì)稱(chēng)的二元變量。(計(jì)算非對(duì)稱(chēng)二元變量)

Name

Gender

Fever

Cough

Test-1

Test-2

Tcst-3

Tcst-4

Jack

M

Y

N

P

N

N

N

Mary

F

Y

N

P

N

P—

N.

?酒看原圖

Jun

M

Y

P

N

N

N

N

d(Jack,Mary)=(0+1)/(2+0+1)=0.33d

(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

上面的值顯示Jim和Mary不可能有相似的疾病,因?yàn)樗麄冇兄罡叩南嗨贫取?/p>

在這三人中,Jack和Mary最有可能有類(lèi)似的疾病。

相對(duì)于對(duì)稱(chēng)的二元變量,不對(duì)稱(chēng)的二元變量基于不對(duì)稱(chēng)的二元變量的相似度稱(chēng)為非恒定的相似度,且變量的兩個(gè)狀態(tài)的重要性不同,可用d(i,j)=(b+c)/(a+b+c)

當(dāng)我被上帝造出來(lái)時(shí),上帝問(wèn)我想在人間當(dāng)一個(gè)怎樣的人,我不假思索的說(shuō),

我要做一個(gè)偉大的世人皆知的人。于是,我降臨在了人間。

我出生在一個(gè)官僚知識(shí)分子之家,父親在朝中做官,精讀詩(shī)書(shū),母親知書(shū)答

禮,溫柔體貼,父母給我去了一個(gè)好聽(tīng)的名字:李清照。

小時(shí)侯,受父母影響的我飽讀詩(shī)書(shū),聰明伶俐,在朝中享有“神童”的稱(chēng)號(hào)。

小時(shí)候的我天真活潑,才思敏捷,小河畔,花叢邊撒滿了我的詩(shī)我的笑,無(wú)可置

疑,小時(shí)侯的我快樂(lè)無(wú)慮。

“興盡晚回舟,誤入藕花深處。爭(zhēng)渡,爭(zhēng)渡,驚起一灘鷗鷺?!鼻啻旱奈胰缤?/p>

一只小鳥(niǎo),自由自在,沒(méi)有約束,少女純凈的心靈常在朝陽(yáng)小,流水也被自然洗

禮,纖細(xì)的手指拈一束花,輕拋入水,隨波蕩漾,發(fā)髻上沾著晶瑩的露水,雙腳任水流輕撫。身影輕飄而過(guò),留下一陣清風(fēng)。

可是晚年的我卻生活在一片黑暗之中,家庭的衰敗,社會(huì)的改變,消磨著我那柔弱的心。我?guī)缀鯇?duì)生活絕望,每天在痛苦中消磨時(shí)光,一切都好象是灰暗的?!皩ひ捯捓淅淝迩迤嗥鄳K慘戚戚”這千古疊詞句就是我當(dāng)時(shí)心情的寫(xiě)照。

最后,香消玉殞?zhuān)以谕纯嗪桶г怪衅鄾龅乃廊ァ?/p>

在天堂里,我又見(jiàn)到了上帝。上帝問(wèn)我過(guò)的怎么樣,我搖搖頭又點(diǎn)點(diǎn)頭,我的一生有歡樂(lè)也有坎坷,有笑聲也有淚水,有鼎盛也有衰落。我始終無(wú)法客觀的評(píng)價(jià)我的一生。我原以為做一個(gè)著名的人,一生應(yīng)該是被歡樂(lè)榮譽(yù)所包圍,可我發(fā)現(xiàn)我錯(cuò)了。于是在下一輪回中,我選擇做一個(gè)平凡的人。

我來(lái)到人間,我是一個(gè)平凡的人,我既不著名也不出眾,但我擁有一切的幸福:我有溫馨的家,我有可親可愛(ài)的同學(xué)和老師,我每天平凡而快樂(lè)的活著,這就夠了。

天兒藍(lán)藍(lán)風(fēng)兒輕輕,暖和的春風(fēng)帶著春的氣息吹進(jìn)明亮的教室,我坐在教室的窗前,望著我擁有的一切,我甜甜的笑了。我拿起手中的筆,不禁想起曾經(jīng)作詩(shī)的李清照,我雖然沒(méi)有橫溢的才華,但我還是拿起手中的筆,用最樸實(shí)的語(yǔ)言,寫(xiě)下了一時(shí)的感受:

人生并不總是完美的,每個(gè)人都會(huì)有不如意的地方。這就需要我們靜下心來(lái)閱讀自己的人生,體會(huì)其中無(wú)盡的快樂(lè)和與眾不同。

“富不讀書(shū)富不久,窮不讀書(shū)終究窮?!睘槭裁磸墓诺浇穸寄敲纯粗赜袑W(xué)識(shí)之

人?那是因?yàn)橛袑W(xué)識(shí)之人可以為社會(huì)做出更大的貢獻(xiàn)。那時(shí)因?yàn)樽x書(shū)能給人帶來(lái)快樂(lè)。

自從看了《丑小鴨》這篇童話之后,我變了,變得開(kāi)朗起來(lái),變得樂(lè)意同別人交往,變得自信了因?yàn)槲抑溃杭词宫F(xiàn)在我是只“丑小鴨”,但只要有自信,總有一天我會(huì)變成“白天鵝”的,而且會(huì)是一只世界上最美麗的“白天鵝”......

我讀完了這篇美麗的童話故事,深深被丑小鴨的自信和樂(lè)觀所折服,并把故事講給了外婆聽(tīng),外婆也對(duì)童話帶給我們的深刻道理而驚訝不已。還吵著鬧著多看幾本名

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論