數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘7_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第7章 信息論方法7.1信信息論論原理7.2決決策樹樹方法7.1信信息論論原理信息論是是C.E.Shannon為為解決信信息傳遞遞(通信信)過程程問題而而建立的的理論,也稱為為統(tǒng)計(jì)通通信理論論。1.信信道模型型一個(gè)傳遞遞信息的的系統(tǒng)是是由發(fā)送送端(信信源)和和接收端端(信宿宿)以及及連接兩兩者的通通道(信信道)三三者組成成。信道u1,u2.ur信源Uv1,v2.vrP(V|U)信宿V在進(jìn)行實(shí)實(shí)際的通通信之前前,收信信者(信信宿)不不可能確確切了解解信源究究竟會(huì)發(fā)發(fā)出什么么樣的具具體信息息,不可可能判斷斷信源會(huì)會(huì)處于什什么樣的的狀態(tài)。這種情形形就稱為為信宿對對于信源源狀態(tài)具具有不確確定性。而且這

2、這種不確確定性是是存在于于通信之之前的。因而又又叫做先驗(yàn)不確確定性,表示成成信息熵H(U)在進(jìn)行了了通信之之后,信信宿收到到了信源源發(fā)來的的信息,這種先先驗(yàn)不確確定性才才會(huì)被消消除或者者被減少少。如果干擾擾很小,不會(huì)對對傳遞的的信息產(chǎn)產(chǎn)生任何何可察覺覺的影響響,信源源發(fā)出的的信息能能夠被信信宿全部部收到,在這種種情況下下,信宿宿的先驗(yàn)驗(yàn)不確定定性就會(huì)會(huì)被完全全消除。一般情況況下,干干擾總會(huì)會(huì)對信源源發(fā)出的的信息造造成某種種破壞,使信宿宿收到的的信息不不完全。先驗(yàn)不不確定性性不能全全部被消消除,只只能部分分地消除除。通信結(jié)束束之后,信宿仍仍然具有有一定程程度的不不確定性性。這就就是后驗(yàn)不確確定性

3、,用條件熵表表示H(U/V)。后驗(yàn)不確確定性總總要小于于先驗(yàn)不不確定性性:H(U/V)H(X)故信源Y比信源X的平均不不確定性性要大。信息熵H(U)是信源輸輸出前的的平均不不確定性性,也稱稱先驗(yàn)熵熵。H(U)的性質(zhì):(1)H(U)=0時(shí),說明明只存在在著唯一一的可能能性,不不存在不不確定性性。(2)如果n種可能的的發(fā)生都都有相同同的概率率,即所所有的Ui有P(Ui)=1/n,H(U)達(dá)到最大大值logn,系統(tǒng)的不不確定性性最大。P(Ui)互相接近近,H(U)就大。P(Ui)相差大,則H(U)就小。7互信息息(1)后驗(yàn)熵當(dāng)信宿沒沒有接收收到輸出出符號V時(shí),已知知輸入符符號U的概率分分布為P(U)

4、,而當(dāng)接收收到輸出出符號V=Vj后,輸入入符號的的概率分分布發(fā)生生了變化化,變成后驗(yàn)驗(yàn)概率分分布P(U|Vj)。其后驗(yàn)熵熵為:后驗(yàn)熵是是接收到到單個(gè)輸輸出符號號Vj后關(guān)于信信息源U的不確定定性(信息度量量)。7互信息息(2)條件熵后驗(yàn)熵對對輸出符符合V(全部符號號)求平均值值(數(shù)學(xué)期望望),得到條條件熵這個(gè)條件件熵稱為為信道疑疑義度。它表示示在輸出出端收到到全部輸輸出符號號V后,對于于輸入端端的符號號集U尚存在的的不確定定性(存存在疑義義)。從上面分分析可知知:條件件熵小于于無條件件熵,即即H(U|V)H(U)。說明接收收到符號號集V的所有符符號后,關(guān)于輸輸入符號號U的平均不不確定性性減少了了

5、。即總總能消除除一些關(guān)關(guān)于輸入入端X的不確定定性,從從而獲得得了一些些信息。(3)互信息息定義:I(U,V)=H(U)H(U|V)I(U,V)稱為U和V之間的互互信息。它代表接接收到符符號集V后獲得的的關(guān)于U的信息量量。可見,熵熵(H(U)、H(U|V)只是平均均不確定定性的描描述。熵熵差(H(U)H(U|V)是不確定定性的消消除,即即互信息息才是接接收端所所獲得的的信息量量。對輸入端端U只有U1,U2兩類,互互信息的的計(jì)算公公式為:7.2決決策策樹方法法7.2.1決策策樹概念念決策樹是是用樣本本的屬性性作為結(jié)結(jié)點(diǎn),用用屬性的的取值作作為分支支的樹結(jié)結(jié)構(gòu)。決策樹的的根結(jié)點(diǎn)點(diǎn)是所有有樣本中中信息

6、量量最大的的屬性。樹的中中間結(jié)點(diǎn)點(diǎn)是該結(jié)結(jié)點(diǎn)為根根的子樹樹所包含含的樣本本子集中中信息量量最大的的屬性。決策樹樹的葉結(jié)結(jié)點(diǎn)是樣樣本的類類別值。決策樹是是一種知知識表示示形式,它是對對所有樣樣本數(shù)據(jù)據(jù)的高度度概括。決策樹能能準(zhǔn)確地地識別所所有樣本本的類別別,也能能有效地地識別新新樣本的的類別。7.2.2ID3方法基基本思想想最有影響響的決策策樹方法法首推J.R.Quinlan的ID3。首先找出出最有判判別力的的特征,把數(shù)據(jù)據(jù)分成多多個(gè)子集集,每個(gè)個(gè)子集又又選擇最最有判別別力的特特征進(jìn)行行劃分,一直進(jìn)進(jìn)行到所所有子集集僅包含含同一類類型的數(shù)數(shù)據(jù)為止止。最后后得到一一棵決策策樹。J.R.Quinla

7、n的工工作主要要是引進(jìn)進(jìn)了信息息論中的的互信息息,他將將其稱為為信息增增益(informationgain),作作為特征征判別能能力的度度量,并并且將建建樹的方方法嵌在在一個(gè)迭迭代的外外殼之中中。一、ID3基本本思想例如:關(guān)關(guān)于氣候候的類型型,特征征為:天氣取值為:晴晴,多多云,雨雨氣溫取值為:冷冷,適中,熱濕度取值為:高高,正常風(fēng)取值為:有有風(fēng), 無風(fēng)風(fēng)每個(gè)實(shí)體體在世界界中屬于于不同的的類別,為簡單單起見,假定僅僅有兩個(gè)個(gè)類別,分別為為P,N。在這這種兩個(gè)個(gè)類別的的歸納任任務(wù)中,P類和和N類的的實(shí)體分分別稱為為概念的的正例和和反例。將一些些已知的的正例和和反例放放在一起起便得到到訓(xùn)練集集。表

8、3.1給出一一個(gè)訓(xùn)練練集。由由ID3算法得得出一棵棵正確分分類訓(xùn)練練集中每每個(gè)實(shí)體體的決策策樹,見見下圖。NO.屬性類別天氣氣溫濕度風(fēng)1晴熱高無風(fēng)N2晴熱高有風(fēng)N3多云熱高無風(fēng)P4雨適中高無風(fēng)P5雨冷正常無風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無風(fēng)N9晴冷正常無風(fēng)P10雨適中正常無風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無風(fēng)P14雨適中高有風(fēng)N天 氣濕 度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決決策樹決策樹葉葉子為類類別名,即P或或者N。其它它結(jié)點(diǎn)由由實(shí)體的的特征組組成,每每個(gè)特征征的不同同取值對對應(yīng)一分分枝。若要對一一實(shí)體分分類,從從樹根開開始進(jìn)行行測試,按特征

9、征的取值值分枝向向下進(jìn)入入下層結(jié)結(jié)點(diǎn),對對該結(jié)點(diǎn)點(diǎn)進(jìn)行測測試,過過程一直直進(jìn)行到到葉結(jié)點(diǎn)點(diǎn),實(shí)體體被判為為屬于該該葉結(jié)點(diǎn)點(diǎn)所標(biāo)記記的類別別?,F(xiàn)用來判判一個(gè)具具體例子子,某天早晨晨氣候描描述為:天氣:多云氣溫:冷濕度:正常風(fēng):無風(fēng)它屬于哪哪類氣候候呢?從圖中可可判別該該實(shí)體的的類別為為P類。ID3就是要從從表的訓(xùn)訓(xùn)練集構(gòu)構(gòu)造出這這樣的決決策樹。實(shí)際上,能正確確分類訓(xùn)訓(xùn)練集的的決策樹樹不止一一棵。Quinlan的ID3算法能得得出結(jié)點(diǎn)點(diǎn)最少的的決策樹樹。二、ID3算法法(一)主主算法從訓(xùn)練集集中隨機(jī)機(jī)選擇一一個(gè)既含含正例又又含反例例的子集集(稱為為窗口口);用“建樹樹算法”對當(dāng)前前窗口形形成一棵棵

10、決策樹樹;對訓(xùn)練集集(窗口口除外)中例子子用所得得決策樹樹進(jìn)行類類別判定定,找出出錯(cuò)判的的例子;若存在錯(cuò)錯(cuò)判的例例子,把把它們插插入窗口口,轉(zhuǎn)2,否則則結(jié)束。主算法流流程用下下圖表示示。其中中PE、NE分分別表示示正例集集和反例例集,它它們共同同組成訓(xùn)訓(xùn)練集。PE,PE和和NE,NE分分別表示示正例集集和反例例集的子子集。主算法中中每迭代代循環(huán)一一次,生生成的決決策樹將將會(huì)不相相同。訓(xùn)練集PE、NE取子集建窗口窗口PE、NE生成決策樹測試集PE、NE擴(kuò)展窗口PE=PE+PENE=NE+NE此決策樹為最后結(jié)果存在錯(cuò)判的PE,NE嗎是否ID3主主算法流流程(二)建建樹算法法對當(dāng)前例例子集合合,計(jì)算

11、算各特征征的互信信息;選擇互信信息最大大的特征征Ak;把在Ak處取值值相同的的例子歸歸于同一一子集,Ak取取幾個(gè)值值就得幾幾個(gè)子集集;對既含正正例又含含反例的的子集,遞歸調(diào)調(diào)用建樹樹算法;若子集僅僅含正例例或反例例,對應(yīng)應(yīng)分枝標(biāo)標(biāo)上P或或N,返返回調(diào)用用處。NO.屬性類別天氣氣溫濕度風(fēng)1晴熱高無風(fēng)N2晴熱高有風(fēng)N3多云熱高無風(fēng)P4雨適中高無風(fēng)P5雨冷正常無風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無風(fēng)N9晴冷正常無風(fēng)P10雨適中正常無風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無風(fēng)P14雨適中高有風(fēng)N實(shí)例計(jì)算算對于氣候候分類問問題進(jìn)行行具體計(jì)計(jì)算有: 信息息熵的計(jì)計(jì)算對9個(gè)

12、正正例和5個(gè)反例例有:P(u1)=9/14P(u2)=5/14H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit條件熵計(jì)計(jì)算條件熵:A1=天氣取值v1=晴,v2=多云,v3=雨在A1處取值晴晴的例子子5個(gè),取值值多云的的例子4個(gè),取值值雨的例例子5個(gè),故:P(v1)=5/14P(v2)=4/14P(v3)=5/14取值為晴晴的5個(gè)例子中中有2個(gè)正例、3個(gè)反例,故:P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4,P(u2/v2)=0P(u1/v3)=2/5,P(u2/v3)=3/5H(U/V)=(5/14)(2/5)log

13、(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4)+0)+(5/14)(2/5)log(5/2)+(3/5)log(5/3)=0.694bit 互信信息計(jì)算算對 A1=天氣氣 處有有:I(天氣氣)=H(U)-H(U|V)= 0.94-0.694= 0.246 bit類似可得得:I(氣溫溫)=0.029bitI(濕度度)=0.151bitI(風(fēng))=0.048 bit 建決決策樹的的樹根和和分枝ID3算算法將選選擇互信信息最大大的特征征天氣作作為樹根根,在14個(gè)例例子中對對天氣的的3個(gè)取取值進(jìn)行行分枝,3個(gè)個(gè)分枝對對應(yīng)3個(gè)個(gè)子集集,分別別是:F1=1,2,8,9,11,

14、F2=3,7,12,13,F(xiàn)3=4,5,6,10,14其中F2中的例例子全屬屬于P類類,因此此對應(yīng)分分枝標(biāo)記記為P,其余兩兩個(gè)子集集既含有有正例又又含有反反例,將將遞歸調(diào)調(diào)用建樹樹算法。天 氣1,2,8,9,114,5,6,10,14晴雨多云P 遞歸歸建樹分別對F1和F3子集集利用ID3算算法,在在每個(gè)子子集中對對各特征征(仍為為四個(gè)特特征)求求互信息息.(1)F1中的的天氣全全取晴值值,則H(U)=H(U|V),有有I(U|V)=0,在余下下三個(gè)特特征中求求出濕度度互信息息最大,以它為為該分枝枝的根結(jié)結(jié)點(diǎn),再再向下分分枝。濕濕度取高高的例子子全為N類,該該分枝標(biāo)標(biāo)記N。取值正正常的例例子全為

15、為P類,該分枝枝標(biāo)記P。(2)在F3中中,對四四個(gè)特征征求互信信息,得得到風(fēng)特特征互信信息最大大,則以以它為該該分枝根根結(jié)點(diǎn)。再向下下分枝,風(fēng)取有有風(fēng)時(shí)全全為N類類,該分分枝標(biāo)記記N。取取無風(fēng)時(shí)時(shí)全為P類,該該分枝標(biāo)標(biāo)記P。這樣就得得到圖8.5的的決策樹樹天 氣濕 度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPP對ID3的討論論 優(yōu)點(diǎn)點(diǎn)ID3在在選擇重重要特征征時(shí)利用用了互信信息的概概念,算算法的基基礎(chǔ)理論論清晰,使得算算法較簡簡單,是是一個(gè)很很有實(shí)用用價(jià)值的的示例學(xué)學(xué)習(xí)算法法。該算法的的計(jì)算時(shí)時(shí)間是例例子個(gè)數(shù)數(shù)、特征征個(gè)數(shù)、結(jié)點(diǎn)個(gè)個(gè)數(shù)之積積的線性性函數(shù)。用4761個(gè)個(gè)關(guān)于苯苯的質(zhì)譜譜例子作作了試驗(yàn)驗(yàn)。其

16、中中正例2361個(gè),反反例2400個(gè)個(gè),每個(gè)個(gè)例子由由500個(gè)特征征描述,每個(gè)特特征取值值數(shù)目為為6,得得到一棵棵1514個(gè)結(jié)結(jié)點(diǎn)的決決策樹。對正、反例各各100個(gè)測試試?yán)髁肆藴y試,正例判判對82個(gè),反反例判對對80個(gè)個(gè),總預(yù)預(yù)測正確確率81%,效效果是令令人滿意意的。 缺點(diǎn)點(diǎn)(1)互信息的的計(jì)算依依賴于特特征取值值的數(shù)目目較多的的特征,這樣不不太合理理。NO.屬性類別天氣氣溫濕度風(fēng)1晴熱高無風(fēng)N2晴熱高有風(fēng)N3多云熱高無風(fēng)P4雨適中高無風(fēng)P5雨冷正常無風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無風(fēng)N9晴冷正常無風(fēng)P10雨適中正常無風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱

17、正常無風(fēng)P14雨適中高有風(fēng)N(2)用互信息息作為特特征選擇擇量存在在一個(gè)假假設(shè),即即訓(xùn)練例例子集中中的正,反例的的比例應(yīng)應(yīng)與實(shí)際際問題領(lǐng)領(lǐng)域里正正、反例例比例相相同。一一般情況況不能保保證相同同,這樣樣計(jì)算訓(xùn)訓(xùn)練集的的互信息息就有偏偏差。(3)ID3在建樹時(shí)時(shí),每個(gè)個(gè)節(jié)點(diǎn)僅僅含一個(gè)個(gè)特征,是一種種單變元元的算法法,特征征間的相相關(guān)性強(qiáng)強(qiáng)調(diào)不夠夠。雖然然它將多多個(gè)特征征用一棵棵樹連在在一起,但聯(lián)系系還是松松散的。(4)ID3對對噪聲較較為敏感感。關(guān)于于什么是是噪聲,Quinlan的定定義是訓(xùn)訓(xùn)練例子子中的錯(cuò)錯(cuò)誤就是是噪聲。它包含含兩方面面,一是是特征值值取錯(cuò),二是類類別給錯(cuò)錯(cuò)。(5)當(dāng)訓(xùn)練集集增

18、加時(shí)時(shí),ID3的決決策樹會(huì)會(huì)隨之變變化。在在建樹過過程中,各特征征的互信信息會(huì)隨隨例子的的增加而而改變,從而使使決策樹樹也變化化。這對對漸近學(xué)學(xué)習(xí)(即即訓(xùn)練例例子不斷斷增加)是不方方便的。C4.5算法ID3算算法在數(shù)數(shù)據(jù)挖掘掘中占有有非常重重要的地地位。但但是,在在應(yīng)用中中,ID3算法法不能處處理連續(xù)續(xù)屬性、計(jì)算信信息增益益時(shí)偏向向于選擇擇取值較較多的屬屬性等不不足。C4.5是在ID3基基礎(chǔ)上發(fā)發(fā)展起來來的決策策樹生成成算法,由J.R.Quinlan在1993年年提出。C4.5克服了了ID3在應(yīng)用用中存在在的不足足,主要要體現(xiàn)在在以下幾幾個(gè)方面面:(1)用信息增增益率來來選擇屬屬性,它它克服了

19、了用信息息增益選選擇屬性性時(shí)偏向向選擇取取值多的的屬性的的不足;(2)在樹構(gòu)造造過程中中或者構(gòu)構(gòu)造完成成之后,進(jìn)行剪剪枝;(3)能夠完成成對連續(xù)續(xù)屬性的的離散化化處理;(4)能夠?qū)τ谟诓煌暾麛?shù)據(jù)的的處理,例如未未知的屬屬性值值;(5)C4.5采用的的知識表表示形式式為決策策樹,并并最終可可以形形成產(chǎn)產(chǎn)生式規(guī)規(guī)則。C4.5克服了ID3在應(yīng)用中中存在的的不足,主要體體現(xiàn)在以以下幾個(gè)個(gè)方面:(1)用信息增增益率來來選擇屬屬性,它它克服了了用信息息增益選選擇屬性時(shí)偏偏向選擇擇取值多多的屬性性的不足足;(2)在樹構(gòu)構(gòu)造過程程中或者者構(gòu)造完完成之后后,進(jìn)行行剪枝;(3)能夠完完成對連連續(xù)屬性性的離散散化

20、處理理;(4)能夠?qū)τ诓煌晖暾麛?shù)據(jù)據(jù)的處理理;(5)可以形形成規(guī)則則。C4.5構(gòu)造決決策樹的的算法1、用信息增增益率來來選擇屬屬性一般來說說率就是是用來取取平衡用用的,就就像方差差。比如有兩兩個(gè)跑步步的人,一個(gè)起起點(diǎn)是10m/s的人人、其10s后為20m/s;另另一個(gè)人人起速是是1m/s、其其1s后后為2m/s。如果僅僅僅算差值值那么兩兩個(gè)差距距就很大大了,如如果使用用速度增增加率(加速度度,即都都是為1m/s2)來衡量量,2個(gè)個(gè)人就是是一樣的的加速度度。因此,C4.5克服了了ID3用信息息增益選選擇屬性性時(shí)偏向向選擇取取值多的的屬性的的不足。2、連續(xù)續(xù)屬性的的處理C4.5是如何何處理連連續(xù)

21、屬性性的呢?實(shí)際上上它先把把連續(xù)屬屬性轉(zhuǎn)換換為離散散屬性再再進(jìn)行處處理。雖然本質(zhì)質(zhì)上屬性性的取值值是連續(xù)續(xù)的,但但對于有有限的采采樣數(shù)據(jù)據(jù)它是離離散的,如果有N條樣本本,那么么我們有有N-1種離散散化的方方法:vj的分分到右子子樹。計(jì)計(jì)算這N-1種種情況下下最大的的信息增增益率。天氣溫度濕度有風(fēng)打高爾夫sunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALS

22、Eyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEno2、連續(xù)續(xù)屬性的的處理在C4.5中,對連續(xù)續(xù)屬性的的處理如如下:1.對對屬性的的取值進(jìn)進(jìn)行排序序2.兩兩個(gè)屬性性取值之之間的中中點(diǎn)作為為可能的的分裂點(diǎn)點(diǎn),將數(shù)數(shù)據(jù)集分分成兩部部分,計(jì)計(jì)算每個(gè)個(gè)可能的的分裂點(diǎn)點(diǎn)的信息息增益3.對對每個(gè)分分裂點(diǎn)的的信息增增益(InforGain)進(jìn)行修修正:減減去log2(N-1)/|D|4.選選擇修正正后信息息增益(InforGain)最大大的,分分裂點(diǎn)作作為該屬屬性的最最佳分裂裂點(diǎn)

23、5.計(jì)計(jì)算最佳佳分裂點(diǎn)點(diǎn)的信息息增益率率(GainRatio)作為屬屬性的Gain Ratio6.選選擇GainRatio最最大的屬屬性作為為分裂屬屬性2、連續(xù)續(xù)屬性的的處理在離散屬屬性上只只需要計(jì)計(jì)算1次次信息增增益率,而在連連續(xù)屬性性上卻需需要計(jì)算算N-1次,計(jì)計(jì)算量是是相當(dāng)大大的。有辦法可可以減少少計(jì)算量量。對于連續(xù)續(xù)屬性先先進(jìn)行排排序,只只有在決決策屬性性發(fā)生改改變的地地方才需需要切開開。3、決策策樹剪枝枝由于噪聲聲和隨機(jī)機(jī)因素的的影響,決策樹樹一般會(huì)會(huì)很復(fù)雜雜。因此此需要進(jìn)進(jìn)行剪枝枝操作。(1)什什么時(shí)候候剪枝?有兩種剪剪枝策略略:(1)在在樹生成成過程中中判斷是是否還繼繼續(xù)擴(kuò)展展決

24、策樹樹。若停停止擴(kuò)展展,則相相當(dāng)于剪剪去該結(jié)結(jié)點(diǎn)以下下的分枝枝。(2)對對于生成成好的樹樹剪去某某些結(jié)點(diǎn)點(diǎn)和分枝枝。C4.5采用第第二種方方法。剪枝之后后的決策策樹的葉葉結(jié)點(diǎn)不不再只包包含一類類實(shí)例。結(jié)點(diǎn)有有一個(gè)類類分布描描述,即即該葉結(jié)結(jié)點(diǎn)屬于于某類的的概率。(2)基于誤差差的剪枝枝決策樹的的剪枝通通常是用用葉結(jié)點(diǎn)點(diǎn)替代一一個(gè)或者者多個(gè)子子樹,然然后選擇擇出現(xiàn)概概率最高高的類作作為該結(jié)結(jié)點(diǎn)的類類別。在在C4.5中,還允允許用其其中的樹樹枝來替替代子樹樹。如果使用用葉結(jié)點(diǎn)點(diǎn)或者樹樹枝代替替原來的的子樹之之后,誤誤差率若若能夠下下降,則則使用此此葉結(jié)點(diǎn)點(diǎn)或者樹樹枝代替替原來的的子樹。4、從決決策樹抽抽取規(guī)則則在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論