第五章概念描述:特征化與比較_第1頁
第五章概念描述:特征化與比較_第2頁
第五章概念描述:特征化與比較_第3頁
第五章概念描述:特征化與比較_第4頁
第五章概念描述:特征化與比較_第5頁
已閱讀5頁,還剩102頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)挖掘》主講:王名揚(yáng)信息與計(jì)算機(jī)工程學(xué)院2引言—要挖掘知識(shí)的類型概念描述:特征化和比較;關(guān)聯(lián)規(guī)則;分類/預(yù)測(cè);聚類分析;其他的數(shù)據(jù)挖掘任務(wù)。3引言從數(shù)據(jù)分析角度,DM可分為兩類:描述式數(shù)據(jù)挖掘:以簡潔、概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì);預(yù)測(cè)式數(shù)據(jù)挖掘:分析數(shù)據(jù),建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。4引言概念描述:描述性數(shù)據(jù)挖掘的最簡單類型;概念:指一類數(shù)據(jù)的集合,如研究生、大客戶等。概念描述用以產(chǎn)生數(shù)據(jù)的特征化和比較描述:特征化:提供給定數(shù)據(jù)集的簡潔匯總;比較(區(qū)分):提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。

第5章5.1什么是概念描述?5.2數(shù)據(jù)概化與基于匯總的特征化5.3屬性相關(guān)分析5.4挖掘類比較:區(qū)分不同的類5.5常見的統(tǒng)計(jì)度量指標(biāo)6學(xué)習(xí)目的掌握屬性歸納的一般方法。

掌握屬性相關(guān)分析的一般方法;

掌握大型數(shù)據(jù)庫中統(tǒng)計(jì)度量的常見指標(biāo)。5.1什么是概念描述概念描述(Conceptdescription):描述性數(shù)據(jù)挖掘的最簡單類型;對(duì)于大量的細(xì)節(jié)數(shù)據(jù),希望以簡潔的描述形式(不同的粒度、不同的角度等)觀察匯總的數(shù)據(jù)集。需要對(duì)該數(shù)據(jù)進(jìn)行描述以概括出固有的特性,這種描述性數(shù)據(jù)挖掘稱為概念描述。特征化(characterization):提供給定數(shù)據(jù)匯集的簡潔匯總。比較(comparision):也稱區(qū)分(discrimination),提供兩個(gè)或多個(gè)數(shù)據(jù)匯集(或不同類別數(shù)據(jù))的對(duì)比概念描述。數(shù)據(jù)概化數(shù)據(jù)概化:概念描述與數(shù)據(jù)概化(datageneralization)密切相關(guān)。給定存放在數(shù)據(jù)庫中的大量數(shù)據(jù),如果能以簡潔的形式在更一般的(而不是較低的)抽象層描述數(shù)據(jù),這非常有利于用戶考察數(shù)據(jù)的一般行為。如,一個(gè)商場(chǎng)數(shù)據(jù)庫中,銷售主管不用對(duì)每個(gè)顧客的購買記錄進(jìn)行檢查,而只需要對(duì)更高抽象層次的數(shù)據(jù)進(jìn)行研究即可。例如:對(duì)按地理位置進(jìn)行劃分的顧客購買總額、每組顧客的購買頻率以及顧客收入情況進(jìn)行更高層次的研究分析。5.2數(shù)據(jù)概化與基于匯總的特征化為什么進(jìn)行數(shù)據(jù)概化:數(shù)據(jù)庫中數(shù)據(jù)及對(duì)象在基本概念層次包含了許多細(xì)節(jié)性的數(shù)據(jù)信息,如:在商場(chǎng)銷售數(shù)據(jù)庫的商品信息數(shù)據(jù)中,就包含著諸如:item_ID,name,brand,supplier等低層次信息,對(duì)這類大量的數(shù)據(jù)進(jìn)行更高層次抽象以提供一個(gè)概要性描述是十分重要的。數(shù)據(jù)概化可以將大量的相關(guān)數(shù)據(jù)從一個(gè)較低的概念層次轉(zhuǎn)化到一個(gè)比較高的層次。如從南京轉(zhuǎn)換到江蘇,江蘇轉(zhuǎn)換到華東地區(qū)等。10數(shù)據(jù)概化和基于匯總的特征化方法一數(shù)據(jù)立方體(或OLAP)方法在數(shù)據(jù)立方體上進(jìn)行計(jì)算和存儲(chǔ)結(jié)果優(yōu)點(diǎn):數(shù)據(jù)概化的一種有效實(shí)現(xiàn);效率高,能夠計(jì)算多種不同的度量值,如:count,average,sum,min,max;概化和特征分析通過一系列的數(shù)據(jù)立方體操作完成,如roll-down和roll-up操作。12等價(jià)于第三章的數(shù)據(jù)立方體聚集13數(shù)據(jù)立方體聚集方法一數(shù)據(jù)立方體(或OLAP)方法限制維和度量的數(shù)據(jù)類型有限,數(shù)據(jù)立方體和OLAP只能處理非數(shù)值類型(離散類型)的維和簡單聚集數(shù)值類型的度量值;大部分現(xiàn)有商業(yè)系統(tǒng)中,只能為非數(shù)值類型的維產(chǎn)生概念分層;缺乏智能分析,不能自動(dòng)確定分析中該使用哪些維,應(yīng)該概化到哪個(gè)層次。15面向?qū)傩詺w納(Attribute-OrientedInduction,AOI):基本思想:(1)首先使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù);(2)然后,通過考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化(屬性刪除;屬性概化);(3)通過合并相等的、概化的廣義元組,并累計(jì)它們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作。(4)通過與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶。方法二面向?qū)傩缘臍w納16屬性刪除屬性刪除基本原則:

若一個(gè)屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且:a)該屬性上沒有定義概化操作符(如:沒有定義相應(yīng)的概念層次);b)它的較高層概念可用其他屬性表示;

則,該屬性從數(shù)據(jù)集中刪除。

17屬性刪除解釋:

a)沒有定義概化操作符:一個(gè)屬性擁有許多不同的數(shù)值但卻沒有定義對(duì)它的泛化操作,該屬性應(yīng)被刪除;因?yàn)槿绻A?,則會(huì)產(chǎn)生過多的規(guī)則;b)較高層概念可用其他屬性表示:如街道屬性street,它的更高層次概念是利用(city,province,country)三個(gè)屬性表示的,此時(shí)刪除street相當(dāng)于應(yīng)用于了概化操作。18屬性概化屬性概化基本原則:

若一個(gè)屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且:在該屬性上存在概化操作符,則應(yīng)當(dāng)選擇該概化操作符。解釋:

在一個(gè)數(shù)據(jù)集中對(duì)一個(gè)屬性進(jìn)行概化操作,將會(huì)使得所產(chǎn)生的規(guī)則覆蓋更多的數(shù)據(jù)行,實(shí)現(xiàn)了對(duì)其所表示的概念的概化。

19特征化:面向?qū)傩詺w納

屬性刪除和屬性概化都表明:如果某屬性有大量的不同值,應(yīng)進(jìn)一步進(jìn)行概化。問題是:多大才算“屬性具有大量不同值?”兩種方法:1)屬性概化閾值控制;2)概化關(guān)系閾值控制。20特征化:面向?qū)傩詺w納基本原理:如果屬性的不同值的個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)一步進(jìn)行屬性刪除或概化。如果用戶感到一個(gè)屬性概化達(dá)到的層次太高,可以加大閾值(屬性下鉆);反之,可減小閾值(屬性上卷)。21特征化:面向?qū)傩詺w納基本原理:為概化關(guān)系設(shè)置一個(gè)閾值,如果概化關(guān)系中不同元組的個(gè)數(shù)超過該閾值,則應(yīng)進(jìn)一步概化;否則,不再概化。閾值可在數(shù)據(jù)挖掘系統(tǒng)中預(yù)先設(shè)定(通常為10~30),或由用戶或?qū)<以O(shè)置、調(diào)整。如果用戶感到概化的關(guān)系太少,可以加大閾值(屬性下鉆);反之,可減小閾值(屬性上卷)。22示例:面向?qū)傩詺w納示例1:

從一個(gè)大學(xué)數(shù)據(jù)庫的學(xué)生數(shù)據(jù)中挖掘出研究生的概念描述,所涉及的屬性包括:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和gpa。

AOI方法的第一步是:首先利用數(shù)據(jù)庫查詢語言從大學(xué)數(shù)據(jù)庫中將與本挖掘任務(wù)相關(guān)的學(xué)生數(shù)據(jù)抽取出來;然后指定一組與挖掘任務(wù)相關(guān)的屬性集。

最終得到如下關(guān)系表。23示例:面向?qū)傩詺w納表1與任務(wù)相關(guān)的初始數(shù)據(jù)集合要求對(duì)以上數(shù)據(jù)集進(jìn)行面向?qū)傩詺w納的操作。24示例:面向?qū)傩詺w納1)name:由于name屬性擁有許多不同的取值,且對(duì)它沒定義合適的概化操作符,因此該屬性被刪除;2)gender:由于gender屬性僅包括兩個(gè)不同取值,該屬性被保留且無需進(jìn)行概化;3)major:假設(shè)對(duì)major屬性已定義一個(gè)概念層次{science,management,engineering,},從而可對(duì)major進(jìn)行概化。又假設(shè)屬性概化閾值設(shè)定為5,大于major較高層概化的屬性值個(gè)數(shù),則major可以沿概念分層向上攀升并被概化。25示例:面向?qū)傩詺w納4)birth_place:該屬性擁有大量不同取值,需進(jìn)行概化。假設(shè)其上存在一個(gè)概念層次:city<province<country。如果初始數(shù)據(jù)集中country的不同值個(gè)數(shù)大于屬性概化閾值,則birth_place應(yīng)當(dāng)被刪除,因?yàn)榧词勾嬖诟呕僮鞣?,概化閾值也不?huì)滿足;如果country的不同值個(gè)數(shù)小于屬性概化閾值,則該屬性應(yīng)被概化到country。5)birth_data:假定存在概念分層,可將birth_data概化到age,而age可進(jìn)一步概化到age_range;如果age_range的不同值個(gè)數(shù)小于對(duì)應(yīng)的屬性概化閾值,將birth_data概化到age_range。26示例:面向?qū)傩詺w納6)residence:假設(shè)residence被屬性number,street,residence_city,residence_province和residence_country屬性定義。Number和street的不同值多半很多,刪除;將residence概化到residence_city,假定僅包含4個(gè)不同取值。7)phone#:與屬性name類似,也包含過多不同取值,刪除。8)gpa:假定存在概念分層,將平均成績劃分為若干間隔,如:{excellent,verygood,…}等,對(duì)其進(jìn)行概化。27示例:面向?qū)傩詺w納

概化過程會(huì)產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,如表1所示的頭兩行數(shù)據(jù)記錄就被上述的概化操作轉(zhuǎn)變成具有相同內(nèi)容的數(shù)據(jù)行。這里,繼續(xù)對(duì)具有相同內(nèi)容的數(shù)據(jù)行進(jìn)行合并,同時(shí)累計(jì)其個(gè)數(shù)(count),最終獲得的結(jié)果如表2所示。表2表1示例2在下面的初始工作表上做屬性歸納姓名性別專業(yè)籍貫出身日期信用情況電話學(xué)歷張明男計(jì)算機(jī)南京79。01良4316111本李枚女生物蘇州76。02優(yōu)4315111研李山男高分子化學(xué)鹽城80。02中4315808本.................…...王民男通信工程鎮(zhèn)江80。04一般4315807本對(duì)于每個(gè)屬性,概化討論如下:1)姓名、電話:該屬性的值有許多,并且無概化操作符,屬性刪除2)性別:屬性可取的值2個(gè),屬性保留不概化3)專業(yè):假定我們事先已定義了一個(gè)概念分層,可以將專業(yè)概化到{藝術(shù)、化學(xué)、機(jī)械、通信、信息、…..},所以可被概化4)籍貫:此表以城市為單位,已無法概化,值不算太多,保留5)出生日期:假定存在概念分層,首先概化到年齡,再到年齡段6)信用:假定有{優(yōu)、良、中、一般、差}的分層,可以概化7)學(xué)歷:可以按{博士生、碩士生、本科生}概化概化過程將產(chǎn)生相等的元組,相等的元組歸為一類并給出計(jì)數(shù)性別專業(yè)籍貫?zāi)挲g段信用情況計(jì)數(shù)男信息南京19-22良10女信息南京19-22優(yōu)9男化學(xué)鹽城19-22中4................男通信鎮(zhèn)江22-25一般1學(xué)歷本研本..本2.面向?qū)傩詺w納結(jié)果的表示?31面向?qū)傩詺w納結(jié)果的表示方法

AOI方法的挖掘結(jié)果可以通過多種形式來輸出表示:表格;組合表;圖表等。32示例—表格表示假設(shè)面向?qū)傩缘臍w納操作是在一個(gè)商場(chǎng)數(shù)據(jù)庫(2000年的銷售額)中進(jìn)行的,最終獲得如表3所示的概化結(jié)果。表3AOI挖掘結(jié)果表格表示示意圖33示例—組合表表示

AOI的結(jié)果也可用組合表(交叉表)表示。其中每一行代表屬性的一個(gè)值;每一列代表其他屬性的一個(gè)值。在一個(gè)n維組合表中,列可能代表多個(gè)屬性的值并分欄顯示各屬性的累計(jì)值。表4對(duì)應(yīng)表3的組合表表示示意圖34示例—圖表表示

AOI的結(jié)果也可用圖表的形式表示。如:棒圖、餅圖、曲線,以實(shí)現(xiàn)結(jié)果的可視化。圖1對(duì)應(yīng)表3的棒圖示意圖圖2對(duì)應(yīng)表3(部分?jǐn)?shù)據(jù))的餅圖示意圖35定量描述規(guī)則

概化關(guān)系用邏輯規(guī)則的形式表示。通常,每個(gè)概化后的數(shù)據(jù)行代表規(guī)則中的一個(gè)合取項(xiàng)。由于一個(gè)大型數(shù)據(jù)庫中的數(shù)據(jù)通常具有多種不同的分布,因此一個(gè)概化后的數(shù)據(jù)行不可能覆蓋或表達(dá)所有(100%)的初始數(shù)據(jù)集中的數(shù)據(jù)行。36定量描述規(guī)則

因此需要為每條規(guī)則帶上量化的信息。如,滿足規(guī)則條件前件和后件的數(shù)據(jù)行數(shù)目與初始數(shù)據(jù)集中總行數(shù)之比,作為度量規(guī)則客觀價(jià)值的參量。

將這種帶參量的規(guī)則稱為:定量描述規(guī)則。37定量描述規(guī)則t-weight(t-權(quán)):規(guī)則興趣度度量指標(biāo)表示規(guī)則中一個(gè)析取項(xiàng)具有的代表性。

將需要進(jìn)行歸納描述的對(duì)象集合稱為目標(biāo)集合,設(shè)qa是描述目標(biāo)集合的一個(gè)概化數(shù)據(jù)行,則qa的t-weight是該數(shù)據(jù)行所涵蓋的數(shù)據(jù)行數(shù)與初始數(shù)據(jù)集中數(shù)據(jù)行數(shù)之比,定義如下:其中,N是概化后目標(biāo)集合中的數(shù)據(jù)行個(gè)數(shù);q1,q2,…,qN是概化后目標(biāo)集合中的數(shù)據(jù)行。顯然,qa是其中的一行,且t_weight的值在[0,1]區(qū)間中。38定量描述規(guī)則定量描述規(guī)則:一個(gè)定量描述規(guī)則可表示為:其中,wi是conditioni的t_weight。給出了目標(biāo)集合X中,各個(gè)條件出現(xiàn)的興趣度。

如設(shè)定目標(biāo)集合為{電腦},查看電腦在各個(gè)地域的銷售情況。39示例1將表3所示的概化結(jié)果,轉(zhuǎn)換為定量規(guī)則的形式。表340示例1設(shè)目標(biāo)集合為一組電腦產(chǎn)品,相應(yīng)的定量規(guī)則為:其中,第一個(gè)t-weight值0.25,是通過將(computer,Asia)的count累計(jì)值1000除以(computer,all_region)的count累計(jì)值4000(代表總體電腦銷售額)而得到的;其余的權(quán)值通過類似方法獲得。例:有部分學(xué)生在圖書館借閱了《大趨勢(shì)》這本書,想通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這部分學(xué)生具有什么樣的特征。其基本關(guān)系表是:學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89822041劉偉歷史大趨勢(shì)2000.6.309928073朱小明企管大趨勢(shì)2000.5.209932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3示例2學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89822041劉偉歷史大趨勢(shì)2000.6.309928073朱小明企管大趨勢(shì)2000.5.209932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3概化層次:系別文科–

商學(xué)院--經(jīng)濟(jì),金融,企管,會(huì)計(jì),國貿(mào)文科–

文學(xué)院--中文,新聞,信管,歷史,哲學(xué)理科–

醫(yī)學(xué)院理科–

理學(xué)院--數(shù)學(xué),天文,物理(文,商學(xué)院)(文,商學(xué)院)(理,醫(yī)學(xué)院)(文,商學(xué)院)(文,文學(xué)院)(文,商學(xué)院)(文,文學(xué)院)概化關(guān)系表二(按學(xué)科)系別書名借閱次數(shù)商學(xué)院大趨勢(shì)4文學(xué)院大趨勢(shì)2醫(yī)學(xué)院大趨勢(shì)1系別書名借閱次數(shù)文科大趨勢(shì)6理科大趨勢(shì)1概化關(guān)系表一(按學(xué)院)學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89822041劉偉歷史大趨勢(shì)2000.6.309928073朱小明企管大趨勢(shì)2000.5.209932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3如果定義噪聲數(shù)據(jù)的閾值是1(記錄數(shù)為1),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘經(jīng)濟(jì)系’的學(xué)生如果定義噪聲數(shù)據(jù)的閾值是1(記錄數(shù)為1),則:根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘商學(xué)院’的學(xué)生借閱《大趨勢(shì)》一書的是‘文學(xué)院’的學(xué)生系別書名借閱次數(shù)商學(xué)院大趨勢(shì)4文學(xué)院大趨勢(shì)2醫(yī)學(xué)院大趨勢(shì)1如果定義噪聲數(shù)據(jù)的閾值是1(記錄數(shù)為1),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘經(jīng)濟(jì)系’的學(xué)生根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘商學(xué)院’的學(xué)生借閱《大趨勢(shì)》一書的是‘文學(xué)院’的學(xué)生根據(jù)‘概括關(guān)系表二’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘文科’的學(xué)生系別書名借閱次數(shù)文科大趨勢(shì)6理科大趨勢(shì)1學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89822041劉偉歷史大趨勢(shì)2000.6.309928073朱小明企管大趨勢(shì)2000.5.209932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3如果定義噪聲數(shù)據(jù)的閾值是2(記錄數(shù)為2),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘商學(xué)院’的學(xué)生系別書名借閱次數(shù)商學(xué)院大趨勢(shì)4文學(xué)院大趨勢(shì)2醫(yī)學(xué)院大趨勢(shì)1如果定義噪聲數(shù)據(jù)的閾值是2(記錄數(shù)為2),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘商學(xué)院’的學(xué)生根據(jù)‘概括關(guān)系表二’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘文科’的學(xué)生系別書名借閱次數(shù)文科大趨勢(shì)6理科大趨勢(shì)1學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89822041劉偉歷史大趨勢(shì)2000.6.309928073朱小明企管大趨勢(shì)2000.5.209932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3如果定義噪聲數(shù)據(jù)的閾值是5(記錄數(shù)為5),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則如果定義噪聲數(shù)據(jù)的閾值是5(記錄數(shù)為5),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則系別書名借閱次數(shù)商學(xué)院大趨勢(shì)4文學(xué)院大趨勢(shì)2醫(yī)學(xué)院大趨勢(shì)1如果定義噪聲數(shù)據(jù)的閾值是5(記錄數(shù)為5),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表二’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書的是‘文科’的學(xué)生系別書名借閱次數(shù)文科大趨勢(shì)6理科大趨勢(shì)1應(yīng)該說,此時(shí)的規(guī)則是有意義的,該書基本上是文科學(xué)生借閱,t_權(quán)=6/75.3屬性相關(guān)分析

在進(jìn)行數(shù)據(jù)挖掘時(shí),原始數(shù)據(jù)集中可能包含50-100個(gè),甚至更多的屬性;在這些屬性中,很有可能存在著與挖掘任務(wù)不相關(guān)或弱相關(guān)的屬性。

如將所有屬性考慮在內(nèi),將大大增加數(shù)據(jù)挖掘的復(fù)雜度,同時(shí)降低數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。5.3屬性相關(guān)分析尤其對(duì)于分類數(shù)據(jù)挖掘,對(duì)給定的類,如果某屬性或維的值可用于區(qū)分該類與其他類,則該屬性被認(rèn)為是任務(wù)高度相關(guān)的。如,汽車的顏色多半不能區(qū)分汽車價(jià)格的高低,但型號(hào)、制造商、款式和汽缸數(shù)可能是更相關(guān)的屬性。此外,在同一維內(nèi),不同層的概念也可能具有不相同的分類能力。如,在birth_data維,birth_day和birth_month看上去與雇員的salary不相關(guān),然而,birth_decade(即年齡區(qū)間)則可能與雇員的salary是高度相關(guān)的。屬性相關(guān)分析因此,必須引入一些方法進(jìn)行屬性或維上的相關(guān)性分析,以過濾掉統(tǒng)計(jì)上不相關(guān)或弱相關(guān)的屬性,而僅保留對(duì)手頭挖掘任務(wù)最相關(guān)的屬性:

屬性相關(guān)分析的方法;屬性相關(guān)分析的步驟。

1.屬性相關(guān)分析的方法?屬性相關(guān)分析方法在機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模糊邏輯和粗糙集領(lǐng)域都提出了許多屬性相關(guān)分析的方法。

基本思想:對(duì)給定的數(shù)據(jù)集,計(jì)算某種度量,用于量化屬性與給定的類或概念間的相關(guān)性。

常用的度量包括信息增益、GINI索引、不確定性和相關(guān)系數(shù)等。基于信息增益的屬性選擇過程信息增益法:

決策樹歸納學(xué)習(xí)算法(如ID3,C4.5)中普遍采用的一種方法,該方法可以刪除信息量較少的屬性,而保留信息含量較大的屬性,以幫助進(jìn)行概念描述分析。以ID3算法為例介紹基于信息熵進(jìn)行屬性相關(guān)分析的基本內(nèi)容。ID3算法ID3算法是一個(gè)眾所周之的決策樹算法,該算法是澳大利亞悉尼大學(xué)的RossQuinlan于1986年提出,也是國際上最早、最有影響力的決策樹算法,其他的許多算法如C4.5、CART算法等都是在ID3算法基礎(chǔ)上的改進(jìn)。ID3算法在ID3算法中,決策節(jié)點(diǎn)屬性的選擇運(yùn)用了信息論中的熵概念作為啟發(fā)式函數(shù)。在這種屬性選擇方法中,選擇具有最大信息增益(informationgain)的屬性作為當(dāng)前劃分節(jié)點(diǎn)。通過這種方式選擇的節(jié)點(diǎn)屬性可以保證決策樹具有最小的分枝數(shù)量,使得到的決策樹冗余最小。ID3算法的基本原理ID3算法根據(jù)一組類別已知的訓(xùn)練數(shù)據(jù)集來構(gòu)造一棵決策樹;然后利用構(gòu)造的決策樹對(duì)類別未知的數(shù)據(jù)對(duì)象進(jìn)行分類。在歸納學(xué)習(xí)過程中,利用一個(gè)稱為信息增益的參量對(duì)屬性的重要性進(jìn)行評(píng)估。認(rèn)為:具有最大信息增益的屬性為當(dāng)前數(shù)據(jù)集中具有最大分辨能力的屬性。利用該屬性構(gòu)造決策樹的一個(gè)節(jié)點(diǎn),并根據(jù)該屬性取值的個(gè)數(shù)確定該節(jié)點(diǎn)的各個(gè)分支,這些分支將原有數(shù)據(jù)集分為若干子數(shù)據(jù)集。若一個(gè)節(jié)點(diǎn)所包含的數(shù)據(jù)行均為同一類別,則將該節(jié)點(diǎn)標(biāo)記為決策樹的葉節(jié)點(diǎn),并標(biāo)記為所有數(shù)據(jù)行對(duì)應(yīng)的類別。不斷重復(fù)這一過程,直至所有節(jié)點(diǎn)都無需繼續(xù)分支為止。示例

假如你是一個(gè)網(wǎng)球愛好者,天氣狀況(天氣、溫度、濕度、風(fēng)力)是你決定是否去打球的重要因素,利用ID3算法構(gòu)筑決策樹。條件屬性:天氣、溫度、濕度、風(fēng)力決策(結(jié)果)屬性:yes(打球);no(不打球)訓(xùn)練集天

氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)YNNYYID3算法致力于建立這樣形式的決策樹決策樹是類似流程圖的倒立的樹型結(jié)構(gòu)。最頂層節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹的開始;樹的每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,其每個(gè)分支代表一個(gè)測(cè)試輸出;樹的每個(gè)葉節(jié)點(diǎn)代表一個(gè)類別。天

氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)YNNYY利用決策樹(判定樹)進(jìn)行屬性選擇在決策樹的每個(gè)節(jié)點(diǎn),算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。當(dāng)決策樹歸納用于屬性子集選擇時(shí),不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的;出現(xiàn)在決策樹中的屬性形成相關(guān)的屬性子集。Problem:如何構(gòu)造決策樹?基于信息增益的屬性選擇過程對(duì)本例,結(jié)果屬性打球有兩個(gè)取值(即{Yes,No}),因此有兩個(gè)不同的類,即m=2,設(shè)C1類對(duì)應(yīng)“Yes”,C2類對(duì)應(yīng)”No”。C1有9個(gè)元組,C2有5個(gè)元組。我們根據(jù)上式可以計(jì)算S中元組分類所需要的期望信息:I(S)=初始不確定性:基于信息增益的屬性選擇過程如果根據(jù)天氣屬性劃分,有三個(gè)取值“晴朗”、“多云”、“雨天”S晴=[2+,3-]//天氣屬性取值”晴朗”的樣例共5個(gè),2正,3反S多云=[4+,0-]//天氣屬性取值“多云”的樣例共4個(gè),4正,0反S雨=[3+,2-]//天氣屬性取值“雨天”的樣例共5個(gè),3正,2反故:E(天氣)=I(S晴)知道天氣之后的不確定性:基于信息增益的屬性選擇過程則,根據(jù)天氣進(jìn)行劃分的信息增益為:Gain(天氣)=I(S)-E(天氣)=0.940-0.694=0.246位根據(jù)相似的思路,可以繼續(xù)計(jì)算用其他屬性進(jìn)行劃分的信息增益。顯然,根據(jù)屬性“天氣”進(jìn)行劃分帶來的信息增益最大,所以選擇天氣作為決策樹的根節(jié)點(diǎn)。基于信息增益的屬性選擇過程70天

氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)YNNYY最終生成的決策樹根據(jù)生成的決策樹,出現(xiàn)在樹中的屬性形成歸約的屬性子集{天氣、濕度、風(fēng)力}。2.屬性相關(guān)分析的步驟?屬性相關(guān)分析步驟(1)數(shù)據(jù)收集:通過查詢處理,建立目標(biāo)數(shù)據(jù)集,以及對(duì)比數(shù)據(jù)集(如需要進(jìn)行比較概念描述的話),對(duì)比數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集互不相交。(2)利用保守的AOI方法進(jìn)行屬性相關(guān)分析:利用AOI方法進(jìn)行初步的屬性相關(guān)分析工作,刪除數(shù)據(jù)集中取不同值個(gè)數(shù)過多的屬性或?qū)筛呕瘮?shù)據(jù)進(jìn)行概化。保險(xiǎn)起見,這里屬性概化控制閾值都設(shè)置的較大,以便留下較多屬性供稍后屬性相關(guān)分析用。

利用AOI方法所獲得的數(shù)據(jù)集被稱為數(shù)據(jù)挖掘任務(wù)的候選數(shù)據(jù)集。概念描述的屬性相關(guān)分析步驟(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)的屬性:使用選定的相關(guān)分析度量(如上面介紹的信息增益度量),評(píng)估候選關(guān)系中的每個(gè)屬性??梢栽O(shè)置一個(gè)閾值來定義“弱相關(guān)”。(4)使用AOI產(chǎn)生概念描述:利用更嚴(yán)格的屬性概化控制閾值來進(jìn)行基于屬性的歸納操作。若描述性挖掘任務(wù)是概念描述,僅涉及初始目標(biāo)數(shù)據(jù)集;若描述挖掘任務(wù)是比較概念描述,則需包括初始目標(biāo)數(shù)據(jù)集,及相應(yīng)的對(duì)比數(shù)據(jù)集。示例背景:假定我們想得到Big-university的研究生的一般特征描述。給定的屬性是name,gender,birth_place,birth_date,phone#和gpa。示例具體步驟:(1)收集目標(biāo)數(shù)據(jù),建立研究生目標(biāo)數(shù)據(jù)集合和本科生對(duì)比數(shù)據(jù)集。(2)利用保守的屬性概化閾值進(jìn)行面向?qū)傩缘臍w納,通過屬性刪除和屬性概化進(jìn)行預(yù)相關(guān)分析。與前面的例子類似,屬性name和phone#因含有過多取值而被刪除;使用概念分層將birth_place概化到birth_country屬性,將birth_date屬性概化到age_range。同樣將屬性major和gpa概化到更高的概念分層,從而獲得如下表所示的候選數(shù)據(jù)集。示例表5目標(biāo)候選數(shù)據(jù)集(研究生)示例表6對(duì)比數(shù)據(jù)集(本科生)示例(3)用屬性相關(guān)分析方法,如:利用信息增益法從候選數(shù)據(jù)集中選擇有關(guān)的屬性。假設(shè)C1對(duì)應(yīng)研究生數(shù)據(jù)集(其中包含120個(gè)數(shù)據(jù)行),C2對(duì)應(yīng)本科生數(shù)據(jù)集(其中包含130個(gè)數(shù)據(jù)行)。為計(jì)算每個(gè)屬性的信息增益,需要首先利用信息量的計(jì)算公式來計(jì)算該屬性對(duì)當(dāng)前數(shù)據(jù)進(jìn)行分類所需要的信息熵:示例示例(4)假設(shè)屬性閾值設(shè)為0.1,以此來幫助判斷弱相關(guān)屬性,因此由于屬性gender(0.0003)和birth_country(0.0407)都小于這一閾值,因此被認(rèn)為是弱相關(guān)的,而同時(shí)從目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集中刪除,并獲得初始工作數(shù)據(jù)集。表7初始工作數(shù)據(jù)集(研究生)表8初始工作數(shù)據(jù)集(本科生)示例(5)利用面向?qū)傩缘臍w納算法,最終獲得研究生目標(biāo)數(shù)據(jù)集的概念描述。(定量描述規(guī)則)81回顧:定量描述規(guī)則:一個(gè)定量描述規(guī)則可表示為:其中,wi是conditioni的t_weight。給出了目標(biāo)集合X中,各個(gè)條件出現(xiàn)的興趣度。示例82表7初始工作數(shù)據(jù)集(研究生)表8初始工作數(shù)據(jù)集(本科生)5.4挖掘類比較:區(qū)分不同的類在許多實(shí)際應(yīng)用中,用戶可能需要對(duì)多個(gè)不同的數(shù)據(jù)集進(jìn)行對(duì)比歸納,以獲得比較概念描述。即,基于對(duì)比數(shù)據(jù)集挖掘出目標(biāo)數(shù)據(jù)集的概念描述。注意:

目標(biāo)數(shù)據(jù)集與對(duì)比數(shù)據(jù)集應(yīng)包含相同的屬性(維),以確保它們是可比的。如:雇員、地址和商品這三個(gè)數(shù)據(jù)集就是不可比的,而過去3年的銷售額數(shù)據(jù)是可以比較的。不同系別的學(xué)生數(shù)據(jù)也是可比的。5.4挖掘類比較:區(qū)分不同的類在比較概念描述中,屬性概化仍是一個(gè)重要的處理操作。注意:

屬性概化在所有比較類上同步進(jìn)行,以確保數(shù)據(jù)集中屬性均被概化到同一抽象層次。如:要對(duì)一個(gè)商場(chǎng)1999年和2000年的數(shù)據(jù)集進(jìn)行比較歸納,這兩年的銷售數(shù)據(jù)中l(wèi)ocation屬性均需要同時(shí)進(jìn)行city屬性、province屬性和country屬性抽象層次的概化,并要概化到同一層次。即,同時(shí)概化到city層次、province層次和country層次。5.4挖掘類比較:區(qū)分不同的類比較概念描述的步驟;比較概念描述結(jié)果的表示。1.比較概念描述的步驟?87比較方法的實(shí)現(xiàn)步驟(1)數(shù)據(jù)收集:通過查詢處理收集數(shù)據(jù)庫中與挖掘任務(wù)相關(guān)的數(shù)據(jù)集,并將它們分為目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集。(2)屬性相關(guān)分析:如果數(shù)據(jù)集中包含的屬性個(gè)數(shù)過多,需要進(jìn)行屬性相關(guān)分析,以保留強(qiáng)相關(guān)的屬性,供稍后分析;(3)同步概化:依據(jù)用戶或?qū)<宜O(shè)置的閾值,同步概化目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集,得到主目標(biāo)數(shù)據(jù)集以及主對(duì)比數(shù)據(jù)集。88比較方法的實(shí)現(xiàn)步驟(4)挖掘結(jié)果表示:根據(jù)用戶的要求,對(duì)主目標(biāo)數(shù)據(jù)集以及主對(duì)比數(shù)據(jù)集進(jìn)行某個(gè)或某些屬性(維)上的比較,將結(jié)果用表格、圖形、或規(guī)則等的形式表示。如需要,用戶還可以在目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集上進(jìn)行上鉆、下鉆或其他的OLAP操作。示例背景:假定我們想對(duì)Big-university的研究生和本科生的一般特征進(jìn)行對(duì)比。給定的屬性是姓名,性別,專業(yè),籍貫,出生日期,居住地,電話號(hào)和信用情況。示例具體步驟:(1)收集數(shù)據(jù),建立研究生目標(biāo)數(shù)據(jù)集和本科生對(duì)比數(shù)據(jù)集(2)對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行屬性相關(guān)分析,刪除無關(guān)或弱相關(guān)的屬性,如:name、gender、birth_place和phone#,只留下與挖掘任務(wù)密切相關(guān)的屬性。(3)進(jìn)行同步概化:根據(jù)用戶指定或預(yù)先設(shè)置的控制閾值,對(duì)目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集中的屬性進(jìn)行同步概化,得到如表5和6所示的主目標(biāo)數(shù)據(jù)集和主對(duì)比數(shù)據(jù)集。示例表5目標(biāo)候選數(shù)據(jù)集(研究生)表6對(duì)比數(shù)據(jù)集(本科生)示例具體步驟:(4)對(duì)挖掘結(jié)果進(jìn)行可視化:需注意的是,在顯示挖掘結(jié)果時(shí),還包括一個(gè)對(duì)比度量(如表中的count)以對(duì)目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集進(jìn)行比較。

例如:得到如下的結(jié)論:研究生一般年齡更大一些,且gpa更高一些;僅有2.32%的年齡在25-30之間且gpa為良的研究生來自科學(xué)專業(yè);而相比之下,滿足同樣條件的本科生的比例占到5.02%。2.比較概念描述結(jié)果的表示?94比較結(jié)果的表示

與特征化概念描述類似,比較概念描述也可采用多種形式,如:關(guān)系表、組合表、棒圖、曲線和規(guī)則的形式加以表示。

在上述表示方式中,除規(guī)則表示外,其他表示方法與特征化中的表示方法相同。因此,這里著重介紹基于規(guī)則的表示方法。95基于規(guī)則的表示方法設(shè)qa是一個(gè)概化后的數(shù)據(jù)行,Cj為目標(biāo)數(shù)據(jù)集,qa可能包含Cj中的一部分?jǐn)?shù)據(jù)行,當(dāng)然也可能包含對(duì)比數(shù)據(jù)集中的數(shù)據(jù)行。則,qa的d_weight值定義為:qa所包含的Cj中數(shù)據(jù)行數(shù)與qa所涵蓋的所有數(shù)據(jù)行數(shù)(包括目標(biāo)數(shù)據(jù)集及所有對(duì)比數(shù)據(jù)集)之比:96基于規(guī)則的表示方法目標(biāo)數(shù)據(jù)集中一個(gè)較大的d_weight值意味著相應(yīng)的概念(概化后某一數(shù)據(jù)行)涵蓋較多的目標(biāo)數(shù)據(jù)集中的初始數(shù)據(jù)行;反之,則意味著該概念涵蓋較多的非目標(biāo)(對(duì)比)數(shù)據(jù)集中的初始數(shù)據(jù)行。示例背景:設(shè)在前面所進(jìn)行的比較概念描述中,所獲得的一個(gè)概化后的數(shù)據(jù)行為“major=“科學(xué)”andage_range=“25-30”andgpa=“良””的有關(guān)內(nèi)容如表9所示。表9研究生與本科生的其中一個(gè)比較結(jié)果示例從表9得到:major=“科學(xué)”andage_range=“25-30”andgpa=“良”該數(shù)據(jù)行相對(duì)目標(biāo)數(shù)據(jù)集的d_weight為:90/(210+90)=30%而相對(duì)對(duì)比數(shù)據(jù)集的d_weight為:210/(210+90)=70%即:若一個(gè)學(xué)生專業(yè)為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論