版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.1
廣義知識
4.2
關聯(lián)知識4.3
分類知識4.4
預測型知識4.5偏差型知識24.1廣義知識從數(shù)據(jù)分析角度出發(fā),數(shù)據(jù)挖掘可以分為兩種類型:描述型數(shù)據(jù)挖掘——以簡潔概述的方式表達數(shù)據(jù)中的存在一些有意義的性質(zhì)預測型數(shù)據(jù)挖掘——通過對所提供數(shù)據(jù)集應用特定方法分析所獲得的一個或一組數(shù)據(jù)模型,并將該模型用于預測未來新數(shù)據(jù)的有關性質(zhì)。34.1廣義知識數(shù)據(jù)庫通常包含了大量細節(jié)性數(shù)據(jù),然而用戶卻常常想要得到能以簡潔描述性方式所提供的概要性總結(summarized)。這樣的數(shù)據(jù)摘要能夠提供一類數(shù)據(jù)的整體情況描述;或與其它類別數(shù)據(jù)相比較的有關情況的整體描述。此外用戶通常希望能輕松靈活地獲得從不同角度和分析細度對數(shù)據(jù)所進行的描述。描述型數(shù)據(jù)挖掘又稱為概念描述,它是數(shù)據(jù)挖掘中的一個重要組成部分。下面就將主要介紹如何有效地進行定性歸納以獲得概念描述的有關內(nèi)容。12345概念上的層次4第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.1.1廣義知識的概念定義廣義知識是指類別特征的概括性描述知識,也稱為概念描述。它反映同類事物共同性質(zhì),是對數(shù)據(jù)的概括、精煉和抽象。廣義知識是對大量數(shù)據(jù)的歸納、概括,提煉出帶有普遍性的、概括性的描述統(tǒng)計知識。5第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型數(shù)據(jù)庫中數(shù)據(jù)及對象在基本概念層次包含了許多細節(jié)性的數(shù)據(jù)信息。在商場銷售數(shù)據(jù)庫的商品信息數(shù)據(jù)中,就包含了許多諸如:商品編號、商品名稱、商品品牌等低層次信息,對這類大量的數(shù)據(jù)進行更高層次抽象以提供一個概要性描述是十分重要的。例如:對春節(jié)所銷售商品情況進行概要描述,對于市場和銷售主管來講顯然是十分重要的。最簡單的描述型數(shù)據(jù)(廣義知識)挖掘就是定性歸納。定性歸納常常也稱為概念描述。這里概念描述涉及一組(同一類別)的對象,諸如:商店??偷取8拍蠲枋錾蓪?shù)據(jù)的定性描述和對比定性描述。定性概念描述提供了一個有關數(shù)據(jù)整體的簡潔清晰描述(概念內(nèi)涵)對比定性概念描述提供了基于多組(不同類別)數(shù)據(jù)的對比概念描述(概念外延)6第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型給定存儲在數(shù)據(jù)庫中的大量數(shù)據(jù),能夠用簡潔清晰的高層次抽象泛化名稱來描述相應的定性概念是非常重要的,這樣用戶就可以利用基于多層次數(shù)據(jù)抽象的功能對數(shù)據(jù)中所存在的一般性規(guī)律進行探索。例如在商場數(shù)據(jù)庫中,銷售主管不用對每個顧客的購買記錄進行檢查,而只需要對更高抽象層次的數(shù)據(jù)進行研究即可。
如:對按地理位置進行劃分的顧客購買總額、每組顧客的購買頻率以及顧客收入情況進行更高層次的研究分析。這種多維多層次的數(shù)據(jù)泛化分析與數(shù)據(jù)倉庫中的多維數(shù)據(jù)分析,7第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.1.2廣義知識的發(fā)現(xiàn)方法要順利完成概要描述任務,就需要一個十分重要的數(shù)據(jù)挖掘功能:數(shù)據(jù)泛化。數(shù)據(jù)泛化是一個從相對低層概念到更高層概念且對數(shù)據(jù)庫中與任務相關的大量數(shù)據(jù)進行抽象概述的一個分析過程。對大量數(shù)據(jù)進行有效靈活的概述方法主要有兩種1.數(shù)據(jù)立方體2.面向屬性的規(guī)約81.數(shù)據(jù)立方體數(shù)據(jù)立方的維是通過一系列能夠形成層次的屬性或網(wǎng)格,例如:日期(date)可以包含屬性天、周、月、季和年,這些屬性構成了維的網(wǎng)格。利用數(shù)據(jù)立方方法(又稱為OLAP方法)進行數(shù)據(jù)泛化,就是在數(shù)據(jù)立方中存放著預先對部分或所有維(屬性)的聚合計算結果。通常數(shù)據(jù)立方中的數(shù)據(jù)需要經(jīng)過費時復雜的運算操作(如:sum、count、average),不同的抽象層次均需要進行這類運算,將這些運算與操作結果存放在這些數(shù)據(jù)立方中,最終所獲得的這些數(shù)據(jù)立方可用于決策支持、知識發(fā)現(xiàn),或其它許多應用。91.數(shù)據(jù)立方體對多維數(shù)據(jù)立方的數(shù)據(jù)泛化和數(shù)據(jù)細化工作,可以通過rollup或drilldown操作實現(xiàn)上卷(roll-up):匯總數(shù)據(jù)
消減數(shù)據(jù)立方中的維數(shù)(維規(guī)約),或將屬性值泛化為更高層次的概念(概念分層向上攀升)下鉆(drill-down):上卷的逆操作
由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實現(xiàn)10111.數(shù)據(jù)立方體數(shù)據(jù)立方方法提供了一種有效的數(shù)據(jù)泛化方法,且構成了描述型數(shù)據(jù)挖掘中一個重要功能。數(shù)據(jù)立方體方法局限性:數(shù)據(jù)類型限制
多數(shù)商用數(shù)據(jù)立方的實現(xiàn)都是將維的類型限制在數(shù)值類型方面,而且將處理限制在簡單數(shù)值聚合方面。由于許多應用涉及到更加復雜數(shù)據(jù)類型的分析,此時數(shù)據(jù)立方體的方法應用有限。缺乏一定的標準
數(shù)據(jù)立方方法并不能解決概念描述所能解決的一些重要問題,諸如:在描述中應該使用哪些維?在泛化過程應該進行到哪個抽象層次上。這些問題均要由用戶負責提供答案的。122.面向屬性的歸約(Attribure-OrientedInduction,簡稱AOI)數(shù)據(jù)立方方法是基于數(shù)據(jù)倉庫、預先計算的具體實施方法。該方法在進行OLAP或數(shù)據(jù)挖掘查詢處理之前,就已進行了離線聚合計算。而AOI方法是一種在線數(shù)據(jù)分析技術方法。1989年首次提出基本思想:首先利用關系數(shù)據(jù)庫查詢來收集與任務相關的數(shù)據(jù),并通過對任務相關數(shù)據(jù)集中各屬性不同值個數(shù)的檢查完成數(shù)據(jù)泛化操作。數(shù)據(jù)泛化操作是通過屬性消減或屬性泛化(又稱為概念層次提升)操作來完成的。通過合并(泛化后)相同行并累計它們相應的個數(shù)。這就自然減少了泛化后的數(shù)據(jù)集大小。所獲(泛化后)結果以圖表和規(guī)則等多種不同形式提供給用戶。13示例:研究生概念描述從一個大學數(shù)據(jù)庫的學生數(shù)據(jù)中挖掘出研究生的概念描述。所涉及的屬性包括:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和GPA14AOI方法的第一步就是首先利用數(shù)據(jù)庫查詢語言從大學數(shù)據(jù)庫中將(與本挖掘任務相關的)學生數(shù)據(jù)抽取出來;然后指定一組與挖掘任務相關的屬性集(這對于用戶而言可能比較困難)。例如:假設根據(jù)屬性城市City、省Province和國家Country定義出生地(BirthPlace)維,在這些屬性中,用戶或許只考慮了城市屬性。為了對出生地進行泛化處理,就必須將出生地泛化所涉及的其它屬性也包含進來。換句話說,系統(tǒng)應能自動包含省和國家作為相關屬性,以便在歸納過程中可以從城市泛化到更高概念層次。而在另一方面,用戶或許會提供過多的屬性,這時就需要利用前面數(shù)據(jù)預處理所介紹的數(shù)據(jù)清理和維歸約方法從描述型數(shù)據(jù)挖掘中過濾掉無關或弱相關的屬性。15AOI的基本操作是數(shù)據(jù)泛化,其所涉及的操作主要有兩種:屬性消除它基于以下規(guī)則進行:若一個屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且(a)該屬性無法進行泛化操作(如:沒有定義相應的概念層次樹),或(b)它更高層次概念是用其它屬性描述的,這時該屬性就可以從數(shù)據(jù)集中消去.屬性泛化它是基于以下規(guī)則進行:若一個屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且該屬性存在一組泛化操作,則可以選擇一個泛化操作對該屬性進行處理。16屬性消減和屬性泛化兩條規(guī)則都表明:若一個屬性有許多不同值,則應對其應用泛化操作。但這也提出一個問題,“究竟一個屬性應有多少不同值才能認為是許多呢?”。根據(jù)所涉及屬性或具體應用情況,一個用戶或許選擇一些屬性仍保留在低層次抽象水平而對其它一些屬性進行更高層次的泛化處理。對泛化抽象層次的控制也是相當主觀的,這一控制也稱為屬性泛化控制。若屬性被泛化“過高”,就將會導致過分泛化以致所獲(結果)規(guī)則變得失去意義。另一方面,若屬性泛化沒有到達“足夠高的層次”,那么“亞泛化”也可能同樣會變得失去意義。因此在基于屬性歸納時掌握泛化平衡是非常重要的。17有許多控制泛化過程的方法,以下就是兩種常用的方法屬性泛化閾值控制
該技術就是對所有屬性統(tǒng)一設置一個泛化閾值,或每個屬性分別設置一個閾值;若一個屬性不同取值個數(shù)大于屬性泛化閾值,就需要對相應屬性作進一步的屬性消減或屬性泛化操作。數(shù)據(jù)挖掘系統(tǒng)通常都有一個缺省屬性閾值(一般從2到8)泛化關系閾值控制
若一個泛化關系中內(nèi)容不相同的行數(shù)(元組數(shù))大于泛化關系閾值,這就需要進一步進行相關屬性的泛化工作。否則就不需要作更進一步的泛化。通常數(shù)據(jù)挖掘系統(tǒng)都預置這一閾值(一般為10到30)這兩個技術可以串行使用,即首先應用屬性閾值控制來泛化每個屬性;然后再應用泛化關系閾值控制來進一步減少泛化關系的(規(guī)模)大小。18對原數(shù)據(jù)集進行泛化的處理過程1920初始數(shù)據(jù)集結果數(shù)據(jù)集21面向屬性歸約的結果表示AOI方法的挖掘結果可以有多種輸出表示形式。22組合表表示在二維組合表中,每一行代表屬性的一個值;每一列代表其它屬性的一個值。在一個n維組合表中,列可能代表多個屬性的值并分欄顯示各屬性累計值23用圖(棒圖、餅圖和曲線)表示24轉換為邏輯規(guī)則形式通常每個泛化后的數(shù)據(jù)行代表(概念描述)規(guī)則中的一個析取項。由于一個大型數(shù)據(jù)庫中的數(shù)據(jù)通常具有多種不同的分布;因此一個泛化后的數(shù)據(jù)行不可能覆蓋或表達所有(100%)初始數(shù)據(jù)集中的數(shù)據(jù)行。因此定量信息,諸如滿足規(guī)則條件左邊(自然也滿足規(guī)則右邊)數(shù)據(jù)行數(shù)目與初始數(shù)據(jù)集中總行數(shù)之比,可作為所獲概念描述規(guī)則的一個度量客觀價值的重要參量,帶有這種參量的概念描述規(guī)則就稱為定量描述規(guī)則。2526第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.2
關聯(lián)知識4.2.1關聯(lián)知識的概念關聯(lián)知識反映一個事件和其他事件之間依賴或相互關聯(lián)的知識,如果兩項或多項屬性之間存在關聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬性值進行預測。
關聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關知識。隨著收集和存儲在數(shù)據(jù)庫中的數(shù)據(jù)規(guī)模越來越大,人們對從這些數(shù)據(jù)中挖掘相應的關聯(lián)知識越來越有興趣。例如:從大量的商業(yè)交易記錄中發(fā)現(xiàn)有價值的關聯(lián)知識就可幫助進行商品目錄的設計、交叉營銷或幫助進行其它有關的商業(yè)決策。挖掘關聯(lián)知識的一個典型應用實例就是市場購物分析“什么商品組或集合顧客多半會在一次購物時同時購買”27給定:事務數(shù)據(jù)庫,每個事務是一系列商品(一個消費者一次購買的物品)找到:所有
的規(guī)則,這些規(guī)則能夠表明這些列商品和另一系列商品相關。E.g.,購買汽車配件的人中有98%會購買汽車服務應用*
MaintenanceAgreement(那些商品能夠加強日常消費?)家用電器
*
(那些商品應該保持高庫存?)28第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.2.2關聯(lián)知識的發(fā)現(xiàn)方法購物模式的關聯(lián)規(guī)則:支持度與可信度關聯(lián)規(guī)則的支持度(support)和信任度(confidence)是兩個度量有關規(guī)則趣味性的方法。支持度描述了一個被挖掘出的關聯(lián)規(guī)則的有用性,信任度描述了一個被挖掘出的關聯(lián)規(guī)則的確定性。規(guī)則(computer->financial_management_software)的支持度為2%,就表示所分析的交易記錄數(shù)據(jù)中有2%交易記錄同時包含電腦和金融管理軟件(即在一起被購買)。規(guī)則(computer->financial_management_software)的60信任度則表示有60%的顧客在購買電腦的同時還會購買金融管理軟件。通常如果一個關聯(lián)規(guī)則滿足最小支持度閾值(min_support)和最小信任度閾值(min_confidence),那么就認為該關聯(lián)規(guī)則是有意義的;而用戶或專家可以設置最小支持度閾值和最小信任度閾值。29第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.2.2關聯(lián)知識的發(fā)現(xiàn)方法基本概念:一個數(shù)據(jù)項的集合就稱為項集(Itemset)一個包含k個數(shù)據(jù)項(屬性)的項集就稱為k?項集。{computer,financial_management_software}就是一個2-項集。一個項集的出現(xiàn)頻度就是整個交易數(shù)據(jù)集中包含該項集的交易記錄數(shù),這也稱為是該項集的支持度(supportcount)。若一個項集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中記錄數(shù),那么就稱該項集滿足最小支持度閾值滿足最小支持度閾值所對應的交易記錄數(shù)就稱為最小支持頻度(minimumsupportcount)。滿足最小支持閾值的項集就稱為頻繁項集(frequentitemset)。所有頻繁k?項集的集合就記為Lk。30Apriori算法一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁集的算法,使用候選項集找頻繁項集?;舅枷耄喊l(fā)現(xiàn)所有的頻繁項集,根據(jù)定義,這些項集的頻度至少應等于(預先設置的)最小支持頻度;根據(jù)所獲得的頻繁項集,產(chǎn)生相應的強關聯(lián)規(guī)則。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。31關聯(lián)規(guī)則的分類1.基于規(guī)則中處理的變量的類別分類布爾型:性別=男->職業(yè)=“網(wǎng)絡工程師”數(shù)值型:
2.基于規(guī)則中數(shù)據(jù)的抽象層次分類3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)分類單維的
多維的32Apriori算法Apriori算法是挖掘產(chǎn)生布爾關聯(lián)規(guī)則所需頻繁項集的基本算法,它也是一個很有影響的關聯(lián)規(guī)則挖掘算法。Apriori算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作。這一循環(huán)方法就是利用k-項集來產(chǎn)生(k+1)?項集。具體做法就是:首先,通過掃描數(shù)據(jù)集,產(chǎn)生一個大的候選數(shù)據(jù)項集,并計算每個候選數(shù)據(jù)項發(fā)生的次數(shù),然后基于預先給定的最小支持度生成頻繁1-項集的集合,該集合記作L1;然后基于L1和數(shù)據(jù)集中的數(shù)據(jù),產(chǎn)生頻繁2-項集L2;用同樣的方法,直到生成頻繁n-項集Ln,其中已不再可能生成滿足最小支持度的(N+1)-項集。最后,從大數(shù)據(jù)項集中導出規(guī)則。每挖掘一層,就需要掃描整個數(shù)據(jù)庫一遍。33為提高按層次搜索并產(chǎn)生相應頻繁項集的處理效率。Apriori算法利用了一個重要性質(zhì),又稱為Apriori性質(zhì)來幫助有效縮小頻繁項集的搜索空間。34Apriori算法中的關鍵步驟35Apriori算法中的關鍵步驟36實例1假定最小事務支持計數(shù)為2(即min_sup=2/9=22%)
37383940算法描述41425.2.3從頻繁項集產(chǎn)生關聯(lián)規(guī)則
4344實例245關聯(lián)規(guī)則的應用前件和后件規(guī)則中的信任度和支持度前件后件信任度支持度百吉餅奶油干酪80%5%百吉餅橙汁40%3%百吉餅咖啡40%2%百吉餅雞蛋25%2%面包牛奶35%30%黃油牛奶65%20%雞蛋牛奶35%15%奶酪牛奶40%8%支持度信任度低信任度高高規(guī)則很少是正確的,但可以使用信任度多數(shù)情況下是正確的,而且可以經(jīng)常使用低規(guī)則很少是正確的,一般不被使用信任度多數(shù)情況下是正確的,但很少被使用46關聯(lián)規(guī)則的表述(TableForm)47用圖形可視化的表述關聯(lián)規(guī)則48用圖形可視化的表述關聯(lián)規(guī)則49第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.2.3關聯(lián)規(guī)則應用實例例如某超級市場的銷售系統(tǒng),記錄了5個顧客的購物清單
流水號所購物品清單1球鞋、手套、網(wǎng)球拍2摩托車、手套、頭盔3球鞋、摩托車
、手套、頭盔4頭盔5摩托車、頭盔50第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型采用著名的Apriori算法多次掃描數(shù)據(jù)庫,得出支持度大于(等于)40%的數(shù)據(jù)
單項統(tǒng)計支持度球鞋40%摩托車60%手套60%頭盔80%51第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型對支持度大于(等于)40%同時購買兩種商品的數(shù)據(jù)進行統(tǒng)計
雙項統(tǒng)計支持度球鞋,手套40%摩托車,手套40%摩托車,頭盔60%手套,頭盔40%52第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型支持度大于(等于)40%同時購買三種商品的數(shù)據(jù)進行統(tǒng)計
三項統(tǒng)計支持度摩托車,手套,頭盔40%53第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型得出下列規(guī)則:(1)買了摩托車的顧客同時買手套或頭盔的支持度是40%,置信度是66.6%;(2)買了手套的顧客同時買摩托車或頭盔的支持度是40%,置信度是66.6%;(3)買了頭盔的顧客同時買手套或摩托車的支持度是40%,置信度是50%。按照第(1)條關系,將摩托車降價以促銷手套或頭盔,就可能賠本;而按照第(3)條關系,將頭盔降價以促銷摩托車,就能盈利;利用第(2)條關系,將手套降價以促銷摩托車,有可能引不起顧客的興趣。
54第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.3
分類知識4.3.1分類知識的概念
分類:把給定的數(shù)據(jù)劃分到一定的類別中。分類是預測分類標號,即離散型。分類知識:反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差異型特征知識。55第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.3.2分類知識的發(fā)現(xiàn)方法分類過程:首先,在已知訓練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;其次,根據(jù)規(guī)則對新數(shù)據(jù)進行分類。56具體步驟(P83)1:建立一個模型,描述給定的數(shù)據(jù)類集或概念集(簡稱訓練集)通過分析由屬性描述的數(shù)據(jù)庫元組來構造模型。每個元組屬于一個預定義的類,由類標號屬性確定。用于建立模型的元組集稱為訓練數(shù)據(jù)集,其中每個元組稱為訓練樣本。由于給出了類標號屬性,因此該步驟又稱為有指導的學習。如果訓練樣本的類標號是未知的,則稱為無指導的學習(聚類)。學習模型可用分類規(guī)則、決策樹和數(shù)學公式的形式給出。通常分類學習所獲得的模型可以表示為分類規(guī)則形式、決策樹形式,或數(shù)學公式形式。57具體步驟2.使用模型進行分類首先對模型分類準確率進行估計如果一個學習所獲模型的準確率經(jīng)測試被認為是可以接受的,那么就可以使用這一模型對未來數(shù)據(jù)行或對象(其類別未知)進行分類。58應用信譽證實醫(yī)療診斷性能測試市場營銷示例:現(xiàn)有一個顧客郵件地址數(shù)據(jù)庫,該數(shù)據(jù)庫內(nèi)容包含有關顧客情況的描述(例如年齡、收入、職業(yè)和信用等級等)。利用分類數(shù)據(jù)挖掘技術可以將顧客被分類為是否會成為在本商場購買商品的顧客,這個郵件地址可以給潛在顧客發(fā)送用于促銷的新商品宣傳冊和將要開始的商品打折信息。59第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型分類規(guī)則的挖掘常用方法:決策樹方法貝葉斯方法人工神經(jīng)網(wǎng)絡方法粗集方法遺傳算法60對各種分類方法比較標準預測準確率——描述(學習所獲)模型能夠正確預測未知對象類別或(類別)數(shù)值的能力。速度——描述在構造和使用模型時的計算效率。魯棒性——描述在數(shù)據(jù)帶有噪聲和有數(shù)據(jù)遺失情況下,(學習所獲)模型仍能進行正確預測的能力??蓴U展性——描述對處理大量數(shù)據(jù)并構造相應學習模型所需要的能力。易理解性——描述學習所獲模型表示的可理解程度61第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型4.4
預測型知識4.4.1預測型知識的概念預測(prediction)是構造和使用模型評估無標號樣本類,或評估給定的樣本可能具有的屬性或區(qū)間值預測型知識:根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認為是以時間為關鍵屬性的關聯(lián)知識。預測的目的是從歷史數(shù)據(jù)中自動推導出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預測。在這種觀點下,分類和回歸是兩類主要預測問題。其中分類是預測離散或標稱值,而回歸用于預測連續(xù)或有序值。一般認為:用預測法預測類標號為分類,用預測法預測連續(xù)值為預測。連續(xù)值的預測一般用回歸統(tǒng)計技術建模?;貧w方法包括:線性回歸、多元回歸、非線性回歸和其他回歸方法等。62第5章數(shù)據(jù)挖掘中常用算法5.3決策樹算法用于分類和預測。決策樹學習是以樣本為基礎的歸納學習方法?;舅惴ㄊ秦澬乃惴?,采用自頂向下的遞歸方式構造決策樹。決策樹(DecisionTree)又稱為判定樹,是運用于分類的一種樹結構。其中的每個內(nèi)部結點(internalnode)代表對某個屬性的一次測試,每條邊代表一個測試結果,葉結點(leaf)代表某個類(class)或者類的分布(classdistribution),最上面的結點是根結點。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。若要對一個實體分類,從樹根開始進行測試,按特征的取值分枝向下進入下層節(jié)點,對該節(jié)點進行測試,過程一直進行到葉節(jié)點,實體被判為屬于該葉節(jié)點所標記的類別。決策樹方法有ID3、ID4和ID5等。63這棵決策樹對銷售記錄進行分類,指出一個電子產(chǎn)品消費者是否會購買一臺計算機“buys_computer”。每個內(nèi)部結點(方形框)代表對某個屬性的一次檢測。每個葉結點(橢圓框)代表一個類: buys_computers=yes或者buys_computers=no在這個例子中,樣本向量為:(age,student,credit_rating;buys_computers)被決策數(shù)據(jù)的格式為: (age,student,credit_rating)輸入新的被決策的記錄,可以預測該記錄隸屬于哪個類。64第5章數(shù)據(jù)挖掘中常用算法5.3.1信息論的基本原理1.信息論原理信息論是為解決信息傳遞(通信)過程問題而建立的理論,也稱為統(tǒng)計通信理論。一個傳遞信息的系統(tǒng)是由信源、信宿、信道組成。信息論把通信過程看作是在隨機干擾的環(huán)境中傳遞信息的過程。在這個通信模型中,信息源和干擾(噪聲)都被理解為某種隨機過程或隨機序列。先驗不確定性——在進行實際通信以前,信宿對于信源狀態(tài)具有不確定性。后驗不確定性——通信結束之后,信宿仍然具有一定程度的不確定性?!昂篁灢淮_定性=先驗不確定性”——信宿根本沒有收到信息?!昂篁灢淮_定性=0”——信宿收到了全部信息。
65第5章數(shù)據(jù)挖掘中常用算法2.互信息的計算(1)定義設S為訓練集,訓練集中每個訓練樣本有n個特征(屬性),表示為(A1,A2…An),|S|表示例子總數(shù);S中有U1、U2兩類,|Ui|表示Ui類例子總數(shù);特征Ak處有m個取值,分別為(V1,V2…Vm)。(2)概率出現(xiàn)概率:Ui類出現(xiàn)概率
P(Ui)=|Ui|/|S|條件概率:Ui類中在特征Ak處,取值Vj的例子集合Vij的條件概率P(Vj|Ui)=|Vij|/|Ui|子集概率:在特征Ak處,取值Vj的例子集合的概率為P(Vj)=|Vj|/|S|子集條件概率:在特征Ak處取值Vj的例子,屬于Ui類的例子集合Uii的概率為P(Ui|Vj)=|Uij|/|Vj|66第5章數(shù)據(jù)挖掘中常用算法(3)信息熵
信源數(shù)學模型[U,P]:消息(符號)及其發(fā)生概率。自信息I(Ui):在收到Ui之前,收信者對信源發(fā)出Ui的不確定性定義為信息符號Ui的自信息量I(Ui)。它反映消息發(fā)生后所含有的信息量或者消息發(fā)生前的不確定性(隨機性)。信息熵H(U):信源輸出前的不確定性(平均)。(4)互信息后驗熵H(U/Vj)條件熵H(H/V)平均互信息:I(U,V)67第5章數(shù)據(jù)挖掘中常用算法5.3.2ID3算法1.ID3基本思想在一實體世界中,每個實體用多個特征來描述。每個特征限于在一個離散集中取互斥的值。每個實體在世界中屬于不同的類別,為簡單起見,假定有兩個類別,分別為P和N。在這兩個類別的歸納任務中,P類和N類的實體分別稱為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓練集。例P108:氣候訓練集68第5章數(shù)據(jù)挖掘中常用算法2.ID3算法ID3算法是分類規(guī)則挖掘算法中最有影響的算法。ID3即決策樹歸納(InductionofDecisionTree)。早期的ID算法只能就兩類數(shù)據(jù)進行挖掘(如正類和反類);經(jīng)過改進后,現(xiàn)在ID算法可以挖掘多類數(shù)據(jù)。待挖掘的數(shù)據(jù)必須是不矛盾的、一致的,也就是說,對具有相同屬性的數(shù)據(jù),其對應的類必須是唯一的。在ID3算法挖掘后,分類規(guī)則由決策樹來表示。69第5章數(shù)據(jù)挖掘中常用算法(1)算法的基本思想step1.任意選取一個屬性作為決策樹的根結點,然后就這個屬性所有的取值創(chuàng)建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度醫(yī)療設備隱秘操作監(jiān)管規(guī)范與服務協(xié)議3篇
- 西藏農(nóng)牧學院《園藝療法概論》2023-2024學年第一學期期末試卷
- 2024版建筑工程施工合同履約保函
- 武漢理工大學《結構設計原理課程設計》2023-2024學年第一學期期末試卷
- 2024版綜合醫(yī)療設備交易協(xié)議細則一
- 2024教育培訓機構合作與許可合同
- 個性化民間車輛抵押借款合同范本2024版版B版
- 二零二五年度新能源汽車充電站土地購置協(xié)議3篇
- 天津現(xiàn)代職業(yè)技術學院《管理知識概論》2023-2024學年第一學期期末試卷
- 二零二五年珠寶設計與定制生產(chǎn)合同
- 政治表現(xiàn)及具體事例三條經(jīng)典優(yōu)秀范文三篇
- 高考詩歌鑒賞專題復習:題畫抒懷詩、干謁言志詩
- 2023年遼寧省交通高等??茖W校高職單招(英語)試題庫含答案解析
- GB/T 304.3-2002關節(jié)軸承配合
- 漆畫漆藝 第三章
- CB/T 615-1995船底吸入格柵
- 光伏逆變器一課件
- 貨物供應、運輸、包裝說明方案
- (完整版)英語高頻詞匯800詞
- 《基礎馬來語》課程標準(高職)
- IEC61850研討交流之四-服務影射
評論
0/150
提交評論