教學(xué)課件-數(shù)據(jù)挖掘原理、算法及應(yīng)用(李?lèi)?ài)國(guó))_第1頁(yè)
教學(xué)課件-數(shù)據(jù)挖掘原理、算法及應(yīng)用(李?lèi)?ài)國(guó))_第2頁(yè)
教學(xué)課件-數(shù)據(jù)挖掘原理、算法及應(yīng)用(李?lèi)?ài)國(guó))_第3頁(yè)
教學(xué)課件-數(shù)據(jù)挖掘原理、算法及應(yīng)用(李?lèi)?ài)國(guó))_第4頁(yè)
教學(xué)課件-數(shù)據(jù)挖掘原理、算法及應(yīng)用(李?lèi)?ài)國(guó))_第5頁(yè)
已閱讀5頁(yè),還剩1337頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章緒論

1.1數(shù)據(jù)挖掘的概念和定義1.2數(shù)據(jù)挖掘的歷史及發(fā)展1.3數(shù)據(jù)挖掘的研究?jī)?nèi)容及功能1.4數(shù)據(jù)挖掘的常用技術(shù)及工具1.5數(shù)據(jù)挖掘的應(yīng)用熱點(diǎn)1.1數(shù)據(jù)挖掘的概念和定義

數(shù)據(jù)挖掘(DateMining)是近年來(lái)隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門(mén)新興技術(shù)。它是從大量的數(shù)據(jù)中篩選出有效的、可信的以及隱含信息的高級(jí)處理過(guò)程。數(shù)據(jù)挖掘包含豐富的內(nèi)涵,是一個(gè)多學(xué)科交叉的研究領(lǐng)域。僅從從事研究和開(kāi)發(fā)的人員來(lái)說(shuō),其涉及范圍之廣是其他領(lǐng)域所難以企及的,既有大學(xué)里的專(zhuān)門(mén)研究人員,也有商業(yè)公司的專(zhuān)家和技術(shù)人員。研究背景的不同會(huì)使他們從不同的角度來(lái)看待數(shù)據(jù)挖掘的概念。因此,理解數(shù)據(jù)挖掘的概念不是簡(jiǎn)單地下個(gè)定義就能解決的問(wèn)題。

1.1.1從商業(yè)角度看數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù)。數(shù)據(jù)挖掘技術(shù)把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的聯(lián)機(jī)查詢(xún)操作提高到?jīng)Q策支持、分析預(yù)測(cè)等更高級(jí)的應(yīng)用上。通過(guò)對(duì)特定數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性、未來(lái)趨勢(shì)以及一般性的概括知識(shí)等,這些知識(shí)性的信息可以用來(lái)指導(dǎo)高級(jí)商務(wù)活動(dòng),如顧客分析、定向營(yíng)銷(xiāo)、工作流管理、商店分布和欺詐監(jiān)測(cè)等。原始數(shù)據(jù)只是未被開(kāi)采的礦山,需要挖掘和提煉才能獲得對(duì)商業(yè)目的有用的規(guī)律性知識(shí)。這正是數(shù)據(jù)挖掘這個(gè)名字的由來(lái)。因此,從商業(yè)角度看,數(shù)據(jù)挖掘就是按企業(yè)的業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行深層次分析,以揭示隱藏的、未知的規(guī)律并將其模型化,從而支持商業(yè)決策活動(dòng)的技術(shù)。從商業(yè)應(yīng)用角度刻畫(huà)數(shù)據(jù)挖掘,可以使人們更全面地了解數(shù)據(jù)挖掘的真正含義。1.1.2數(shù)據(jù)挖掘的技術(shù)含義談到數(shù)據(jù)挖掘,必須提到另外一個(gè)名詞:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,KDD),即將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過(guò)程。KDD這個(gè)術(shù)語(yǔ)首次出現(xiàn)在1989年8月在美國(guó)底特律召開(kāi)的第十一屆國(guó)際人工智能聯(lián)合會(huì)議的專(zhuān)題討論會(huì)上。隨后,在近十年的發(fā)展過(guò)程中,KDD專(zhuān)題討論會(huì)逐漸發(fā)展壯大。1999年在美國(guó)圣地亞哥舉行的第五屆KDD國(guó)際學(xué)術(shù)大會(huì),參加人數(shù)近千人,投稿280多篇。近年來(lái)的國(guó)際會(huì)議涉及的范圍更廣,如數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(DataMiningandKnowledgeDiscovery,DMKD)的基礎(chǔ)理論、新的發(fā)現(xiàn)算法、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)及OLAP的結(jié)合、可視化技術(shù)、知識(shí)表示方法、Web中的數(shù)據(jù)挖掘等。此外,IEEE、ACM、IFIS、VLDB、SIGMOD等其他學(xué)會(huì)、學(xué)刊也紛紛把DMKD列為會(huì)議議題或出版專(zhuān)刊,成為當(dāng)前國(guó)際上的一個(gè)研究熱點(diǎn)。關(guān)于KDD和DataMining的關(guān)系,有許多不同的看法。我們可以從這些不同的觀點(diǎn)中了解數(shù)據(jù)挖掘的技術(shù)含義。

1)將KDD看成數(shù)據(jù)挖掘的例子之一這一觀點(diǎn)在數(shù)據(jù)挖掘發(fā)展的早期比較流行,并且可以在許多文獻(xiàn)中看到這種說(shuō)法。其主要觀點(diǎn)是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)僅是數(shù)據(jù)挖掘的一個(gè)方面,因?yàn)閿?shù)據(jù)挖掘系統(tǒng)可以在關(guān)系數(shù)據(jù)庫(kù)(RelationalDatabase)、事務(wù)數(shù)據(jù)庫(kù)(TransactionalDatabase)、數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouses)、空間數(shù)據(jù)庫(kù)(SpatialDatabase)、文本數(shù)據(jù)(TextData)以及諸如Web等多種數(shù)據(jù)組織形式中挖掘知識(shí)。從這個(gè)意義上來(lái)說(shuō),數(shù)據(jù)挖掘就是從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及其他數(shù)據(jù)存儲(chǔ)方式中挖掘有用知識(shí)的過(guò)程。

2)數(shù)據(jù)挖掘是KDD不可缺少的一部分為了統(tǒng)一認(rèn)識(shí),F(xiàn)ayyd、PiatetskyShapiro和Smyth在1996年出版的權(quán)威論文集《知識(shí)發(fā)現(xiàn)與數(shù)據(jù)進(jìn)展》中給出了KDD和數(shù)據(jù)挖掘的最新定義:KDD是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過(guò)程;數(shù)據(jù)挖掘是KDD中通過(guò)特定的算法在可接受的計(jì)算效率限制內(nèi)生成特定模式的一個(gè)步驟。

這種觀點(diǎn)得到了大多數(shù)學(xué)者的認(rèn)同。它將KDD看做是一個(gè)廣義的范疇,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式生成及評(píng)估等一系列步驟。這樣,我們可以把KDD看做是由一些基本功能構(gòu)件組成的系統(tǒng)化協(xié)同工作系統(tǒng),而數(shù)據(jù)挖掘則是這個(gè)系統(tǒng)中的一個(gè)關(guān)鍵的部分。源數(shù)據(jù)經(jīng)過(guò)清理和轉(zhuǎn)換等步驟成為適合挖掘的數(shù)據(jù)集,數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉,最后以合適的知識(shí)模式用于進(jìn)一步的分析決策工作。將數(shù)據(jù)挖掘作為KDD的一個(gè)重要步驟看待,可以使我們更容易聚焦研究重點(diǎn),有效解決問(wèn)題。目前,人們對(duì)于數(shù)據(jù)挖掘算法的研究基本屬于這樣的范疇。

3)KDD與DataMining的含義相同有些人認(rèn)為,KDD與DataMining只是對(duì)同一個(gè)概念的不同叫法。事實(shí)上,現(xiàn)今的許多文獻(xiàn)(如技術(shù)綜述等)中,這兩個(gè)術(shù)語(yǔ)仍然不加區(qū)分地使用著。有人說(shuō),KDD在人工智能界更流行,而DataMining在數(shù)據(jù)庫(kù)界使用更多。也有人說(shuō),一般在研究領(lǐng)域稱(chēng)之為KDD,在工程領(lǐng)域則稱(chēng)之為數(shù)據(jù)挖掘。實(shí)際上,數(shù)據(jù)挖掘的概念有廣義和狹義之分。廣義的定義是,數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。狹義的定義是,數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。綜上所述,數(shù)據(jù)挖掘概念可以從不同的技術(shù)層面上來(lái)理解,但是其核心仍然是從數(shù)據(jù)中挖掘知識(shí)。所以,有人說(shuō)叫知識(shí)挖掘更合適。本書(shū)也在不同的章節(jié)使用數(shù)據(jù)挖掘的廣義或狹義概念,讀者要注意根據(jù)上下文加以區(qū)分。當(dāng)然,在可能混淆的地方,我們將明確說(shuō)明。1.2數(shù)據(jù)挖掘的歷史及發(fā)展

數(shù)據(jù)挖掘可以看做是信息技術(shù)自然演化的結(jié)果。像其他新技術(shù)的發(fā)展歷程一樣,數(shù)據(jù)挖掘也必須經(jīng)過(guò)概念提出、概念接受、廣泛研究和探索、逐步應(yīng)用和大量應(yīng)用等階段。從目前的現(xiàn)狀看,大部分學(xué)者認(rèn)為數(shù)據(jù)挖掘的研究仍然處于廣泛研究和探索階段。一方面,數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受;另一方面,數(shù)據(jù)挖掘的廣泛應(yīng)用還有待時(shí)日,需要深入的理論研究和豐富的工程實(shí)踐做積累。經(jīng)過(guò)十幾年的研究和實(shí)踐,數(shù)據(jù)挖掘技術(shù)已經(jīng)吸收了許多學(xué)科的最新成果而形成獨(dú)具特色的研究。毋庸置疑,數(shù)據(jù)挖掘的研究和應(yīng)用具有很大的挑戰(zhàn)性。隨著KDD在學(xué)術(shù)界和商業(yè)界的影響越來(lái)越大,數(shù)據(jù)挖掘的研究向著更深入和實(shí)用技術(shù)兩個(gè)方向發(fā)展。從事數(shù)據(jù)挖掘研究的人員主要集中在大學(xué)、研究機(jī)構(gòu),也有部分在企業(yè)和公司。所涉及的研究領(lǐng)域很多,主要集中在學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的實(shí)際應(yīng)用以及數(shù)據(jù)挖掘理論等方面。大多數(shù)基礎(chǔ)研究項(xiàng)目是由政府資助進(jìn)行的,而司的研究則更注重和實(shí)際商業(yè)問(wèn)題的結(jié)合。數(shù)據(jù)挖掘的概念從20世紀(jì)80年代被提出后,其經(jīng)濟(jì)價(jià)值也逐步顯現(xiàn)出來(lái),而且被眾多商業(yè)廠家所推崇,形成初步的市場(chǎng)。另一方面,目前的數(shù)據(jù)挖掘系統(tǒng)研制也絕不是像一些商家為了宣傳自己商品所說(shuō)的那樣神奇,而是仍有許多問(wèn)題亟待研究和探索。把目前數(shù)據(jù)挖掘的研究現(xiàn)狀描述為鴻溝(Chasm)階段是比較準(zhǔn)確的。所謂Chasm階段,是說(shuō)數(shù)據(jù)挖掘技術(shù)在廣泛被應(yīng)用之前仍有許多“鴻溝”需要跨越。例如,就目前商家推出的數(shù)據(jù)挖掘系統(tǒng)而言,它們都是一些通用的輔助開(kāi)發(fā)工具,這些工具只能給那些熟悉數(shù)據(jù)挖掘技術(shù)的專(zhuān)家或高級(jí)技術(shù)人員使用,僅對(duì)應(yīng)用起到加速作用,或稱(chēng)之為橫向解決方案(HorizontalSolution)。但是,數(shù)據(jù)挖掘來(lái)自于商業(yè)應(yīng)用,而商業(yè)應(yīng)用又會(huì)由于領(lǐng)域的不同而存在很大差異。大多數(shù)學(xué)者贊成這樣的觀點(diǎn):數(shù)據(jù)挖掘在商業(yè)上的成功不能期望于通用的輔助開(kāi)發(fā)工具,而應(yīng)該是數(shù)據(jù)挖掘概念與特定領(lǐng)域的商業(yè)邏輯相結(jié)合的縱向解決方案(VerticalSolution)。分析目前的研究和應(yīng)用現(xiàn)狀,數(shù)據(jù)挖掘需要在如下幾個(gè)方面重點(diǎn)開(kāi)展工作。

1.數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問(wèn)題

談到數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù),人們大多引用“啤酒與尿布”的例子。事實(shí)上,目前在數(shù)據(jù)挖掘領(lǐng)域的確很難再找到其他類(lèi)似的經(jīng)典例子。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)的廣闊應(yīng)用前景需要有效的應(yīng)用實(shí)例來(lái)證明。數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)技術(shù)研究與應(yīng)用的重要方向包括領(lǐng)域知識(shí)對(duì)行業(yè)或企業(yè)知識(shí)挖掘的約束與指導(dǎo)、商業(yè)邏輯有機(jī)潛入數(shù)據(jù)挖掘過(guò)程等關(guān)鍵課題。

2.數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲(chǔ)類(lèi)型的適應(yīng)問(wèn)題數(shù)據(jù)的存儲(chǔ)方式會(huì)影響數(shù)據(jù)挖掘的目標(biāo)定位、具體實(shí)現(xiàn)機(jī)制、技術(shù)有效性等問(wèn)題。指望一種能夠在所有數(shù)據(jù)存儲(chǔ)方式下發(fā)現(xiàn)有效知識(shí)的應(yīng)用模式是不現(xiàn)實(shí)的。因此,針對(duì)不同的數(shù)據(jù)存儲(chǔ)類(lèi)型進(jìn)行挖掘研究是目前的趨勢(shì),而且也是未來(lái)研究所必須面對(duì)的問(wèn)題。

3.大型數(shù)據(jù)的選擇和規(guī)格化問(wèn)題

數(shù)據(jù)挖掘技術(shù)是面向大型且動(dòng)態(tài)變化的數(shù)據(jù)集的,這些數(shù)據(jù)集往往存在噪聲、不確定性、信息丟失、信息冗余、數(shù)據(jù)分布稀疏等問(wèn)題,挖掘前必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。另外,數(shù)據(jù)挖掘技術(shù)又是面向特定商業(yè)目標(biāo)的,數(shù)據(jù)需要選擇性地利用,因此,針對(duì)特定挖掘問(wèn)題進(jìn)行數(shù)據(jù)選擇、針對(duì)特定挖掘方法進(jìn)行數(shù)據(jù)規(guī)格化是數(shù)據(jù)挖掘技術(shù)無(wú)法回避的問(wèn)題。

4.數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù)

雖然經(jīng)過(guò)多年的探索,數(shù)據(jù)挖掘系統(tǒng)的基本構(gòu)架和過(guò)程已經(jīng)趨于明朗,但是在應(yīng)用領(lǐng)域、數(shù)據(jù)類(lèi)型以及知識(shí)表達(dá)模式等因素的影響下,其具體的實(shí)現(xiàn)機(jī)制、技術(shù)路線(xiàn)以及各階段(如數(shù)據(jù)清理、知識(shí)形成、模式評(píng)估等)功能定位等方面仍需細(xì)化和深入的研究。另外,由于數(shù)據(jù)挖掘是在大量的源數(shù)據(jù)中發(fā)現(xiàn)潛在的、事先并不知道的知識(shí),因此和提供源數(shù)據(jù)的用戶(hù)進(jìn)行交互式探索挖掘是必然的。這種交互可能發(fā)生在數(shù)據(jù)挖掘的各個(gè)階段,從不同角度或不同粒度進(jìn)行交互。所以,良好的交互式挖掘(InteractionMining)也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。

5.數(shù)據(jù)挖掘語(yǔ)言與系統(tǒng)可視化問(wèn)題對(duì)于OLTP應(yīng)用來(lái)說(shuō),結(jié)構(gòu)化查詢(xún)語(yǔ)言SQL已經(jīng)得到充分發(fā)展,并成為支持?jǐn)?shù)據(jù)庫(kù)應(yīng)用的重要基石。相比OLTP應(yīng)用而言,數(shù)據(jù)挖掘技術(shù)誕生較晚,應(yīng)用更復(fù)雜,因此開(kāi)發(fā)相應(yīng)的數(shù)據(jù)挖掘操作語(yǔ)言仍然是一件極富挑戰(zhàn)性的工作??梢暬呀?jīng)成為目前信息處理系統(tǒng)必不可少的要求,對(duì)于一個(gè)數(shù)據(jù)挖掘系統(tǒng)來(lái)說(shuō)更是尤為重要??梢暬诰虺艘土己玫慕换ナ郊夹g(shù)相結(jié)合外,還必須在挖掘結(jié)果或知識(shí)模式的可視化、挖掘過(guò)程的可視化以及可視化指導(dǎo)用戶(hù)挖掘等方面進(jìn)行探索和實(shí)踐。數(shù)據(jù)的可視化在某種程度上推動(dòng)了人們進(jìn)行知識(shí)發(fā)現(xiàn),因此它可以被認(rèn)為是人們從對(duì)KDD的神秘感變成可以直觀理解知識(shí)和形象的過(guò)程。

6.數(shù)據(jù)挖掘理論與算法研究

經(jīng)過(guò)幾十年的研究,數(shù)據(jù)挖掘已經(jīng)在繼承和發(fā)展相關(guān)基礎(chǔ)學(xué)科(如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等)方面取得了可喜的進(jìn)步,并探索出了許多獨(dú)具特色的理論體系。但這并不意味著挖掘理論的探索已經(jīng)結(jié)束,恰恰相反,它留給研究者更多豐富的理論課題。這些研究課題一方面著眼于探索和創(chuàng)新面向?qū)嶋H應(yīng)用目標(biāo)的挖掘理論,另一方面的重點(diǎn)在于發(fā)展新的挖掘理論和算法。這些算法可能在挖掘的有效性、挖掘的精度或效率以及融合特定的應(yīng)用目標(biāo)等方面做出貢獻(xiàn)。因此,對(duì)數(shù)據(jù)挖掘理論和算法的探討將是長(zhǎng)期而艱巨的任務(wù)。特別是,像定性定量轉(zhuǎn)換、不確定性推理等一些根本性的問(wèn)題還沒(méi)有得到很好的解決,同時(shí)需要針對(duì)大容量數(shù)據(jù)集研究有效和高效算法。從上面的敘述可以看出,數(shù)據(jù)挖掘研究和探索的內(nèi)容是極其豐富和具有挑戰(zhàn)性的。1.3數(shù)據(jù)挖掘的研究?jī)?nèi)容及功能

1.3.1數(shù)據(jù)挖掘的研究?jī)?nèi)容目前,數(shù)據(jù)挖掘的主要研究?jī)?nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉(cāng)庫(kù)、可視化技術(shù)、定性定量互換模型、知識(shí)表示方法、發(fā)現(xiàn)知識(shí)的維護(hù)和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘。數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)最常見(jiàn)的有以下五類(lèi)。

1.廣義知識(shí)(Eneralization)

廣義知識(shí)指類(lèi)別特征的概括性描述知識(shí),是根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、高層次概念的、中觀或宏觀的知識(shí)。反映同類(lèi)事物的共同性質(zhì),是對(duì)數(shù)據(jù)的概括、精煉和抽象。廣義知識(shí)的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體、面向?qū)傩缘臍w約等。數(shù)據(jù)立方體還有其他一些別名,如“多維數(shù)據(jù)庫(kù)”、“實(shí)現(xiàn)視圖”、“OLAP”等。該方法的基本思想是計(jì)算某些常用的代價(jià)較高的聚集函數(shù),諸如計(jì)數(shù)、求和、平均、最大值等,并將這些實(shí)現(xiàn)視圖儲(chǔ)存在多維數(shù)據(jù)庫(kù)中。既然很多聚集函數(shù)需經(jīng)常重復(fù)計(jì)算,那么在多維數(shù)據(jù)立方體中存放預(yù)先計(jì)算好的結(jié)果將能保證快速響應(yīng),并可靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。另一種廣義知識(shí)發(fā)現(xiàn)方法是加拿大SimonFraser大學(xué)提出的面向?qū)傩缘臍w約方法。這種方法以類(lèi)SQL語(yǔ)言表示數(shù)據(jù)挖掘查詢(xún),收集數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)集,然后在相關(guān)數(shù)據(jù)集上應(yīng)用一系列數(shù)據(jù)推廣技術(shù)進(jìn)行數(shù)據(jù)推廣,包括屬性刪除、概念樹(shù)提升、屬性閾值控制、計(jì)數(shù)及其他聚集函數(shù)傳播等。

2.關(guān)聯(lián)知識(shí)(Association)關(guān)聯(lián)知識(shí)是反映一個(gè)事件和其他事件之間依賴(lài)或關(guān)聯(lián)的知識(shí),又稱(chēng)依賴(lài)(Dependency)關(guān)系。這類(lèi)知識(shí)可用于數(shù)據(jù)庫(kù)中的歸一化、查詢(xún)優(yōu)化等。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)挖掘可分為兩步:第一步是找出所有的頻繁項(xiàng)集,要求頻繁項(xiàng)集出現(xiàn)的頻繁性不低于用戶(hù)設(shè)定的最小支持度閾值(支持度反映了所發(fā)現(xiàn)規(guī)則的有用性);第二步是從頻繁項(xiàng)集中產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿(mǎn)足用戶(hù)設(shè)定的最小置信度閾值(置信度反應(yīng)了所發(fā)現(xiàn)規(guī)則的確定性)。識(shí)別或發(fā)現(xiàn)所有挖掘頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計(jì)算量最大的部分。

3.分類(lèi)知識(shí)(Classification&Clustering)分類(lèi)知識(shí)反映同類(lèi)事物共同性質(zhì)的特征型知識(shí)和不同事物之間差異的特征型知識(shí),用于反映數(shù)據(jù)的匯聚模式或根據(jù)對(duì)象的屬性區(qū)分其所屬類(lèi)別。最為典型的分類(lèi)方法是基于決策樹(shù)的分類(lèi)方法。它從實(shí)例集中構(gòu)造決策樹(shù),是一種有指導(dǎo)性的學(xué)習(xí)方法。該方法先根據(jù)訓(xùn)練子集(稱(chēng)為窗口)構(gòu)造決策樹(shù)。如果該樹(shù)不能對(duì)所有對(duì)象進(jìn)行正確的分類(lèi),那么選擇一些例外加入到窗口中,重復(fù)該過(guò)程一直到形成正確的決策集。其最終結(jié)果是一棵樹(shù),葉結(jié)點(diǎn)是類(lèi)名,中間結(jié)點(diǎn)是帶有分枝的屬性,該分枝對(duì)應(yīng)該屬性的某一可能值。最為典型的決策樹(shù)分類(lèi)系統(tǒng)是ID3,它采用自頂向下不回溯策略,能保證找到一個(gè)簡(jiǎn)單的樹(shù)。算法C4.5和C5.0都是ID3的擴(kuò)展,它們將分類(lèi)領(lǐng)域從類(lèi)別屬性擴(kuò)展到數(shù)值型屬性。數(shù)據(jù)分類(lèi)還有統(tǒng)計(jì)、粗糙集(RoughSet)等方法。線(xiàn)性回歸和線(xiàn)性辨別分析是典型的統(tǒng)計(jì)模型。為降低決策樹(shù)生成代價(jià),人們還提出了一種區(qū)間分類(lèi)器。最近也有人研究使用神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)庫(kù)中進(jìn)行分類(lèi)和規(guī)則提取。

4.預(yù)測(cè)型知識(shí)(Prediction)預(yù)測(cè)型知識(shí)是指由歷史的和當(dāng)前的時(shí)間序列型數(shù)據(jù)去推測(cè)未來(lái)的數(shù)據(jù),它實(shí)際上是一種以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。目前,時(shí)間序列預(yù)測(cè)的經(jīng)典方法有統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。1968年,Box和Jenkins提出了一套比較完善的時(shí)間序列建模理論和分析方法,通過(guò)經(jīng)典的數(shù)學(xué)方法建立隨機(jī)模型,如自回歸模型、自回歸滑動(dòng)平均模型、求和自回歸滑動(dòng)平均模型和季節(jié)調(diào)整模型,并在此基礎(chǔ)上進(jìn)行時(shí)間序列的預(yù)測(cè)。大量的時(shí)間序列是非平穩(wěn)的,其特征參數(shù)和數(shù)據(jù)分布隨著時(shí)間的推移而發(fā)生變化,僅僅通過(guò)對(duì)某段歷史數(shù)據(jù)的訓(xùn)練,建立單一的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,還無(wú)法完成準(zhǔn)確的預(yù)測(cè)任務(wù),為此,人們提出了統(tǒng)計(jì)學(xué)和基于精確性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)存預(yù)測(cè)模型不再適用于當(dāng)前數(shù)據(jù)時(shí),對(duì)模型重新訓(xùn)練,獲得新的權(quán)重參數(shù),建立新的模型。此外,有許多系統(tǒng)借助并行算法的計(jì)算優(yōu)勢(shì)對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。

5.偏差型知識(shí)(Deviation)偏差型知識(shí)是指通過(guò)分析標(biāo)準(zhǔn)類(lèi)以外的特例、數(shù)據(jù)聚類(lèi)外的離群值、實(shí)際觀測(cè)值和系統(tǒng)預(yù)測(cè)值間的顯著差別,對(duì)差異和極端特例進(jìn)行描述。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,滿(mǎn)足不同用戶(hù)不同層次決策的需要。1.3.2數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘用于在指定數(shù)據(jù)挖掘任務(wù)中找到模式類(lèi)型。數(shù)據(jù)挖掘任務(wù)一般可以分兩類(lèi):描述和預(yù)測(cè)。描述性挖掘任務(wù)刻畫(huà)數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性;預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推測(cè)和預(yù)測(cè)。用戶(hù)有時(shí)不知道他們的數(shù)據(jù)中什么類(lèi)型的模式是有趣的,因此數(shù)據(jù)挖掘系統(tǒng)要能夠并行地挖掘多種類(lèi)型的模式,以適應(yīng)不同的用戶(hù)需要或不同的應(yīng)用。此外,數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)能夠發(fā)現(xiàn)各種粒度(即不同的抽象層次)的模式。數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)允許用戶(hù)給出提示,指導(dǎo)或聚焦有趣模式的搜索。由于有些模式并非對(duì)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)都成立,通常每個(gè)被發(fā)現(xiàn)的模式需要帶上一個(gè)確定性或“可信性”度量。數(shù)據(jù)挖掘的功能主要體現(xiàn)在以下六個(gè)方面。

1.類(lèi)/概念描述:特征化和區(qū)分

數(shù)據(jù)可以與類(lèi)或概念相關(guān)聯(lián)。一個(gè)概念常常是對(duì)一個(gè)包含大量數(shù)據(jù)的數(shù)據(jù)集合總體情況的概述。對(duì)含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行描述性的總結(jié)并獲得簡(jiǎn)明、準(zhǔn)確的描述,這種描述就稱(chēng)為類(lèi)/概念描述(Class/ConceptDescription)。這種描述可以通過(guò)下述方法得到:

(1)數(shù)據(jù)特征化,一般地匯總所研究類(lèi)(稱(chēng)為目標(biāo)類(lèi)(ArgetClass))的數(shù)據(jù)。

(2)數(shù)據(jù)區(qū)分,將目標(biāo)類(lèi)與一個(gè)或多個(gè)比較類(lèi)(常稱(chēng)為對(duì)比類(lèi)(OntrastingClass))比較。

(3)數(shù)據(jù)特征化和比較。數(shù)據(jù)特征化(DataCharacterization)是目標(biāo)類(lèi)數(shù)據(jù)的一般特征或特性的匯總。通常,用戶(hù)指定類(lèi)的數(shù)據(jù)通過(guò)數(shù)據(jù)庫(kù)查詢(xún)收集。例如,為研究上一年銷(xiāo)售增加10%的軟件產(chǎn)品的特征,可以通過(guò)執(zhí)行一個(gè)SQL查詢(xún)收集關(guān)于這些產(chǎn)品的數(shù)據(jù)。有許多有效的方法可以將數(shù)據(jù)特征化和匯總。例如,基于數(shù)據(jù)立方體的OLAP上卷操作可以用來(lái)執(zhí)行用戶(hù)控制的、沿著指定維的數(shù)據(jù)匯總。一種面向?qū)傩缘臍w納技術(shù)可以用來(lái)進(jìn)行數(shù)據(jù)的概化和特征化,而不必一步步地與用戶(hù)進(jìn)行交互。

數(shù)據(jù)特征可以通過(guò)多種形式輸出,包括餅圖、條圖、曲線(xiàn)、多維數(shù)據(jù)立方體和包括交叉表在內(nèi)的多維表。結(jié)果描述也可以由概化關(guān)系(GeneralizedRelation)或規(guī)則形式(稱(chēng)作特征規(guī)則)提供。數(shù)據(jù)區(qū)分(DataDiscrimination)是將目標(biāo)類(lèi)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般特性比較。目標(biāo)類(lèi)和對(duì)比類(lèi)由用戶(hù)指定,而對(duì)應(yīng)的數(shù)據(jù)通過(guò)數(shù)據(jù)庫(kù)查詢(xún)檢索。例如,用戶(hù)可能希望將上一年銷(xiāo)售增加10%的軟件產(chǎn)品與同一時(shí)期銷(xiāo)售至少下降30%的那些產(chǎn)品進(jìn)行比較。用于數(shù)據(jù)區(qū)分的方法與用于數(shù)據(jù)特征化的方法類(lèi)似。區(qū)分描述的輸出形式類(lèi)似于特征描述,但區(qū)分描述應(yīng)當(dāng)包括比較度量,幫助區(qū)分目標(biāo)類(lèi)和對(duì)比類(lèi)。用規(guī)則表示的區(qū)分描述稱(chēng)為區(qū)分規(guī)則(DiscriminantRule)。用戶(hù)應(yīng)當(dāng)能夠?qū)μ卣骱蛥^(qū)分描述的輸出進(jìn)行操作。

2.關(guān)聯(lián)分析

關(guān)聯(lián)分析(AssociationAnalysis)就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí),又稱(chēng)為關(guān)聯(lián)規(guī)則AssociationRules。關(guān)聯(lián)分析廣泛應(yīng)用于市場(chǎng)營(yíng)銷(xiāo)、事務(wù)分析等領(lǐng)域。通常關(guān)聯(lián)規(guī)則具有X

Y形式即“A1∧…∧Am

B1∧…∧Bn”的規(guī)則,其中,Ai(i∈{1,…,m}),Bj(j∈{1,…,n})均為屬性—值(屬性=值)形式。關(guān)聯(lián)規(guī)則XY

表示“數(shù)據(jù)庫(kù)中的滿(mǎn)足X中條件的記錄(tuples)也一定滿(mǎn)足Y中的條件”。

3.分類(lèi)和預(yù)測(cè)

分類(lèi)(Classification)就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類(lèi)識(shí)別未知數(shù)據(jù)的歸屬或類(lèi)別(Class),即將未知事例映射到某種離散類(lèi)別之一。分類(lèi)模型(或函數(shù))可以通過(guò)分類(lèi)挖掘算法從一組訓(xùn)練樣本數(shù)據(jù)(其類(lèi)別歸屬已知)中學(xué)習(xí)獲得。

分類(lèi)挖掘所獲得的分類(lèi)模型可以采用多種形式加以描述輸出。其中主要的表示方法有:分類(lèi)規(guī)則(IFTHEN)、決策樹(shù)(DecisionTrees)、數(shù)學(xué)公式(MathematicalFormulae)和神經(jīng)網(wǎng)絡(luò)。分類(lèi)規(guī)則容易由判定樹(shù)轉(zhuǎn)換而成。決策樹(shù)是一個(gè)類(lèi)似于流程圖的樹(shù)結(jié)構(gòu),每個(gè)節(jié)點(diǎn)代表一個(gè)屬性值上的測(cè)試,每個(gè)分支代表測(cè)試的一個(gè)輸出,樹(shù)葉代表類(lèi)和類(lèi)分布。神經(jīng)網(wǎng)絡(luò)在用于分類(lèi)時(shí)是一組類(lèi)似于神經(jīng)元的處理單元,單元之間加權(quán)連接。分類(lèi)可以用來(lái)預(yù)測(cè)數(shù)據(jù)對(duì)象的類(lèi)標(biāo)記。然而,在某些應(yīng)用中,人們可能希望預(yù)測(cè)某些空缺或未知的數(shù)據(jù)值,而不是類(lèi)標(biāo)記。當(dāng)被預(yù)測(cè)的值是數(shù)值數(shù)據(jù)時(shí),通常稱(chēng)之為預(yù)測(cè)(Prediction)。盡管預(yù)測(cè)可以涉及數(shù)據(jù)值預(yù)測(cè)和類(lèi)標(biāo)記預(yù)測(cè),但預(yù)測(cè)通常是指值預(yù)測(cè),并因此不同于分類(lèi)。預(yù)測(cè)同時(shí)也包含基于可用數(shù)據(jù)的分布趨勢(shì)識(shí)別。相關(guān)分析(RelevanceAnalysis)可能需要在分類(lèi)和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類(lèi)和預(yù)測(cè)無(wú)用的屬性。這些屬性應(yīng)當(dāng)排除。

4.聚類(lèi)分析

聚類(lèi)分析(ClusteringAnalysis)與分類(lèi)預(yù)測(cè)方法的明顯不同之處在于,后者所學(xué)習(xí)獲取分類(lèi)預(yù)測(cè)模型所使用的數(shù)據(jù)是已知類(lèi)別屬性(ClasslabeledData),屬于有監(jiān)督學(xué)習(xí)方法,而聚類(lèi)分析(無(wú)論是在學(xué)習(xí)還是在歸類(lèi)預(yù)測(cè)時(shí))所分析處理的數(shù)據(jù)均是無(wú)(事先確定)類(lèi)別歸屬的。類(lèi)別歸屬標(biāo)志在聚類(lèi)分析處理的數(shù)據(jù)集中是不存在的。聚類(lèi)也便于將觀察到的內(nèi)容分類(lèi)編制(TaxonomyFormation)成類(lèi)分層結(jié)構(gòu),把類(lèi)似的事件組織在一起。

5.孤立點(diǎn)分析數(shù)據(jù)庫(kù)中可能包含一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象。這些數(shù)據(jù)對(duì)象被稱(chēng)為孤立點(diǎn)(Outlier)。大部分?jǐn)?shù)據(jù)挖掘方法將孤立點(diǎn)視為噪聲或異常而丟棄,然而在一些應(yīng)用場(chǎng)合,如各種商業(yè)欺詐行為的自動(dòng)檢測(cè)中,小概率發(fā)生的事件(數(shù)據(jù))往往比經(jīng)常發(fā)生的事件(數(shù)據(jù))更有挖掘價(jià)值。孤立點(diǎn)數(shù)據(jù)分析通常稱(chēng)做孤立點(diǎn)挖掘(OutlierMining)。孤立點(diǎn)可以使用統(tǒng)計(jì)試驗(yàn)檢測(cè)。它假定一個(gè)數(shù)據(jù)分布或概率模型,并使用距離進(jìn)行度量,到其他聚類(lèi)的距離很大的對(duì)象被視為孤立點(diǎn)。基于偏差的方法通過(guò)考察一群對(duì)象主要特征上的差別來(lái)識(shí)別孤立點(diǎn),而不是使用統(tǒng)計(jì)或距離度量。

6.演變分析數(shù)據(jù)演變分析(EvolutionAnalysis)就是對(duì)隨時(shí)間變化的數(shù)據(jù)對(duì)象的變化規(guī)律和趨勢(shì)進(jìn)行建模描述。這一建模手段包括概念描述、對(duì)比概念描述、關(guān)聯(lián)分析、分類(lèi)分析、時(shí)間相關(guān)數(shù)據(jù)(TimeRelated)分析,時(shí)間相關(guān)數(shù)據(jù)分析又包括時(shí)序數(shù)據(jù)分析,序列或周期模式匹配,以及基于相似性的數(shù)據(jù)分析等。1.4數(shù)據(jù)挖掘的常用技術(shù)及工具

數(shù)據(jù)挖掘是從人工智能領(lǐng)域的一個(gè)分支——機(jī)器學(xué)習(xí)發(fā)展而來(lái)的,因此機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能領(lǐng)域的常規(guī)技術(shù),如聚類(lèi)、決策樹(shù)、統(tǒng)計(jì)等方法經(jīng)過(guò)改進(jìn),大都可以應(yīng)用于數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的常用技術(shù)有決策樹(shù)、規(guī)則發(fā)現(xiàn)、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類(lèi)、可視化、文本/Web挖掘等。近年來(lái),神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等技術(shù)在數(shù)據(jù)挖掘中的應(yīng)用發(fā)展很快;可視化技術(shù)受到越來(lái)越多的重視;文本和Web數(shù)據(jù)的挖掘成為一個(gè)新興的研究方向。1.4.1數(shù)據(jù)挖掘的常用技術(shù)數(shù)據(jù)挖掘的常用技術(shù)有:

(1)人工神經(jīng)網(wǎng)絡(luò):仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線(xiàn)性預(yù)測(cè)模型,通過(guò)學(xué)習(xí)進(jìn)行模式識(shí)別。

(2)決策樹(shù):代表著決策集的樹(shù)形結(jié)構(gòu)。

(3)遺傳算法:基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。

(4)近鄰算法:將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類(lèi)的方法。

(5)規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果—那么”規(guī)則進(jìn)行尋找和推導(dǎo)。采用上述技術(shù)的某些專(zhuān)門(mén)的分析工具已經(jīng)發(fā)展了大約十年的時(shí)間,不過(guò)這些工具所能處理的數(shù)據(jù)量通常較小?,F(xiàn)在,這些技術(shù)已經(jīng)被直接集成到許多大型的符合工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析系統(tǒng)中了。1.4.2數(shù)據(jù)挖掘的工具

1.基于神經(jīng)網(wǎng)絡(luò)的工具神經(jīng)網(wǎng)絡(luò)用于分類(lèi)、特征挖掘、預(yù)測(cè)和模式識(shí)別。人工神經(jīng)網(wǎng)絡(luò)仿真生物神經(jīng)網(wǎng)絡(luò),本質(zhì)上是一個(gè)分散型或矩陣結(jié)構(gòu),它通過(guò)訓(xùn)練數(shù)據(jù)的挖掘,逐步計(jì)算網(wǎng)絡(luò)連接的加權(quán)值。由于對(duì)非線(xiàn)性數(shù)據(jù)具有快速建模能力,基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘工具現(xiàn)在越來(lái)越流行。其開(kāi)采過(guò)程基本上是將數(shù)據(jù)聚類(lèi),然后分類(lèi)計(jì)算權(quán)值。神經(jīng)網(wǎng)絡(luò)很適合分析非線(xiàn)性數(shù)據(jù)和含噪聲數(shù)據(jù),所以在市場(chǎng)數(shù)據(jù)庫(kù)的分析和建模方面應(yīng)用廣泛。

2.基于規(guī)則和決策樹(shù)的工具

大部分?jǐn)?shù)據(jù)挖掘工具采用規(guī)則發(fā)現(xiàn)或決策樹(shù)分類(lèi)技術(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則,其核心是某種歸納算法。這類(lèi)工具通常是對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行開(kāi)采,產(chǎn)生規(guī)則和決策樹(shù),然后對(duì)新數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。其主要優(yōu)點(diǎn)是:規(guī)則和決策樹(shù)都是可讀的。

3.基于模糊邏輯的工具該方法應(yīng)用模糊邏輯進(jìn)行數(shù)據(jù)查詢(xún)、排序等。它使用模糊概念和“最近”搜索技術(shù)的數(shù)據(jù)查詢(xún)工具,可以讓用戶(hù)指定目標(biāo),然后對(duì)數(shù)據(jù)庫(kù)進(jìn)行搜索,找出接近目標(biāo)的所有記錄,并對(duì)結(jié)果進(jìn)行評(píng)估。

4.綜合多方法的工具

不少數(shù)據(jù)挖掘工具采用了多種開(kāi)采方法,這類(lèi)工具一般規(guī)模較大,適用于大型數(shù)據(jù)庫(kù)(包括并行數(shù)據(jù)庫(kù))。這類(lèi)工具開(kāi)采能力很強(qiáng),但價(jià)格昂貴,并要花很長(zhǎng)時(shí)間進(jìn)行學(xué)習(xí)。1.5數(shù)據(jù)挖掘的應(yīng)用熱點(diǎn)

就目前來(lái)看,數(shù)據(jù)挖掘未來(lái)的幾個(gè)應(yīng)用熱點(diǎn)包括網(wǎng)站的數(shù)據(jù)挖掘、生物數(shù)據(jù)挖掘、文本的數(shù)據(jù)挖掘、實(shí)時(shí)數(shù)據(jù)挖掘以及數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全。

1.網(wǎng)站的數(shù)據(jù)挖掘隨著互聯(lián)網(wǎng)的發(fā)展,各類(lèi)電子商務(wù)網(wǎng)站層出不窮。電子商務(wù)網(wǎng)站在進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一部分?jǐn)?shù)據(jù)是客戶(hù)的背景信息,此部分信息主要來(lái)自于客戶(hù)的登記信息;另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流(ClickStream),此部分?jǐn)?shù)據(jù)主要用于考察客戶(hù)的行為表現(xiàn)。但有的時(shí)候,客戶(hù)不肯把背景信息填寫(xiě)在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。此時(shí),就不得不從瀏覽者的點(diǎn)擊流數(shù)據(jù)中來(lái)推測(cè)客戶(hù)的背景信息,進(jìn)而再加以分析。就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來(lái)自于點(diǎn)擊流,這與傳統(tǒng)的數(shù)據(jù)庫(kù)格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。目前,有很多廠商正在致力于開(kāi)發(fā)專(zhuān)門(mén)用于網(wǎng)站挖掘的軟件。

2.生物數(shù)據(jù)挖掘

生物數(shù)據(jù)具有復(fù)雜性、豐富性、重要性等特點(diǎn)。這些都需要在進(jìn)行數(shù)據(jù)挖掘時(shí)重點(diǎn)關(guān)注。挖掘DNA和蛋白序列、挖掘高維微陣列數(shù)據(jù)、生物路徑和網(wǎng)絡(luò)分析、異構(gòu)生物數(shù)據(jù)的鏈接分析,以及通過(guò)數(shù)據(jù)挖掘集成生物數(shù)據(jù)等都是生物數(shù)據(jù)挖掘研究的有趣課題。生物數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論是數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還是分析和建立模型的算法,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法?,F(xiàn)在很多廠商正在致力于這方面的研究。

3.文本的數(shù)據(jù)挖掘隨著文本數(shù)據(jù)的快速猛增,傳統(tǒng)信息檢索技術(shù)已無(wú)法滿(mǎn)足實(shí)際的需要。文檔都包含有用信息,但只有一小部分是與特定用戶(hù)的需求密切相關(guān)的,在不知道文檔中究竟會(huì)有哪些內(nèi)容時(shí),要想給出準(zhǔn)確精致的查詢(xún)是較為困難的。在處理大量文檔時(shí),需要對(duì)文檔進(jìn)行比較,評(píng)估文檔的重要性和相關(guān)性,或發(fā)現(xiàn)多文檔的模式和趨勢(shì)。也可以將互聯(lián)網(wǎng)看成是一個(gè)巨大的、動(dòng)態(tài)的文本數(shù)據(jù)庫(kù)。顯然,隨著互聯(lián)網(wǎng)的飛速發(fā)展,文本挖掘?qū)⒃跀?shù)據(jù)挖掘中扮演越來(lái)越重要的角色。

4.實(shí)時(shí)數(shù)據(jù)挖掘

許多包括流數(shù)據(jù)(比如電子商務(wù)、Web挖掘、股票分析、入侵檢測(cè)和移動(dòng)數(shù)據(jù)挖掘)的應(yīng)用要求能實(shí)時(shí)地建立動(dòng)態(tài)數(shù)據(jù)挖掘模型。該領(lǐng)域還需要進(jìn)一步發(fā)展。

5.數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全

Web上有大量電子形式的個(gè)人信息,隨著網(wǎng)上攻擊能力的不斷增強(qiáng),對(duì)我們的隱私和數(shù)據(jù)安全造成了威脅。隱私的保護(hù)越來(lái)越得到了重視。這需要技術(shù)專(zhuān)家、社會(huì)科學(xué)家、法律專(zhuān)家和公司協(xié)作,提出隱私的嚴(yán)格定義和形式機(jī)制,以證明數(shù)據(jù)挖掘中的隱私保護(hù)性。隨著計(jì)算機(jī)計(jì)算能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)的類(lèi)型會(huì)越來(lái)越多、越來(lái)越復(fù)雜,數(shù)據(jù)挖掘?qū)l(fā)揮出越來(lái)越大的作用。第2章數(shù)據(jù)預(yù)處理

2.1數(shù)據(jù)預(yù)處理的目的2.2數(shù)據(jù)清理2.3數(shù)據(jù)集成和數(shù)據(jù)變換2.4數(shù)據(jù)歸約2.5數(shù)據(jù)離散化和概念分層2.6特征選擇與提取2.1數(shù)據(jù)預(yù)處理的目的

數(shù)據(jù)源中的數(shù)據(jù)可能不完整(如某些屬性值的空缺)、含噪聲(具有不正確的屬性值)和不一致(如同一屬性的不同名稱(chēng))。不完整數(shù)據(jù)的出現(xiàn)可能有多種原因:某些數(shù)據(jù)被認(rèn)為是不必要的,如銷(xiāo)售事務(wù)數(shù)據(jù)中顧客的信息并非總是可用的;其他數(shù)據(jù)沒(méi)有包含在內(nèi),可能只是因?yàn)檩斎霑r(shí)認(rèn)為是不重要的;由于理解錯(cuò)誤,或者因?yàn)樵O(shè)備故障相關(guān)數(shù)據(jù)沒(méi)有記錄;某些記錄與其他記錄的內(nèi)容不一致而被刪除;記錄歷史或修改的數(shù)據(jù)可能被忽略。

空缺的數(shù)據(jù),特別是某些屬性上缺少值的元組可能需要推導(dǎo)。數(shù)據(jù)含噪聲可能有多種原因:數(shù)據(jù)采集設(shè)備可能出故障;在數(shù)據(jù)錄入過(guò)程中發(fā)生了人為的或計(jì)算機(jī)導(dǎo)致的錯(cuò)誤;可能由于技術(shù)的限制,數(shù)據(jù)傳輸過(guò)程中出現(xiàn)錯(cuò)誤;不正確的數(shù)據(jù)也可能是由命名或所用的數(shù)據(jù)代碼不一致而導(dǎo)致的。重復(fù)元組有時(shí)也需要進(jìn)行數(shù)據(jù)清理。數(shù)據(jù)清理(DataCleaning)例程通過(guò)填補(bǔ)空缺數(shù)據(jù)平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),并糾正不一致的數(shù)據(jù)。異常數(shù)據(jù)可能使挖掘過(guò)程陷入混亂,導(dǎo)致不可靠的輸出。數(shù)據(jù)集成(DataIntegration)指將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合成一致的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)變換(DataTransformation)操作,如規(guī)格化和聚集,是將數(shù)據(jù)轉(zhuǎn)換成適于挖掘的形式的預(yù)處理過(guò)程。數(shù)據(jù)歸約策略有助于從原有的龐大的數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性。在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行的數(shù)據(jù)挖掘顯然效率更高,并且挖掘結(jié)果與使用原有數(shù)據(jù)集的結(jié)果基本相同。概化也可以“歸約”數(shù)據(jù)。概化用較高層的概念替換較低層的概念。圖2-1對(duì)上述數(shù)據(jù)預(yù)處理進(jìn)行了圖解。以上的數(shù)據(jù)預(yù)處理并不互斥,例如,冗余數(shù)據(jù)的刪除既是數(shù)據(jù)清理,也是數(shù)據(jù)歸約。圖2-1數(shù)據(jù)預(yù)處理的形式總之,數(shù)據(jù)源中的數(shù)據(jù)一般是含噪聲的、不完整的和不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而改善挖掘過(guò)程的性能,提高挖掘結(jié)果的質(zhì)量。高質(zhì)量的決策必然依賴(lài)于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程的重要步驟。2.2數(shù)據(jù)清理

2.2.1空缺值空缺值是指所關(guān)心的某些屬性對(duì)應(yīng)的部分屬性值是空缺的。在數(shù)據(jù)挖掘過(guò)程中,這些空缺值會(huì)對(duì)挖掘結(jié)果帶來(lái)影響,因此需要進(jìn)行相應(yīng)的處理。主要方法如下:

(1)忽略元組,即不選擇有空缺值的元組。此方法不是很有效,除非元組有多個(gè)屬性缺少值時(shí)。

(2)人工填寫(xiě)空缺值。通常數(shù)據(jù)挖掘所涉及的數(shù)據(jù)量較大,如果空缺值很多,這種方法比較費(fèi)時(shí),幾乎行不通。

(3)使用一個(gè)全局常量填充空缺值,即對(duì)一個(gè)屬性的所有空缺值都使用一個(gè)事先確定好的值(如“OK”或-∞)來(lái)填補(bǔ)。雖然此方法比較簡(jiǎn)單,但并非總是正確的,例如空缺值都用“OK”替換,挖掘程序可能誤以為它們形成了一個(gè)有趣的模式。

(4)使用屬性的平均值填充空缺值。例如,若一個(gè)顧客的平均收入(income)為16000元,則用此值填補(bǔ)income屬性中的所有空缺值。

(5)使用與給定元組屬同一類(lèi)的所有樣本的平均值。例如,在分類(lèi)挖掘中,使用與給定樣本屬于同一類(lèi)的其他樣本的平均值來(lái)填充空缺值。

(6)使用最可能的值填充空缺值:可以用回歸、貝葉斯形式化方法的工具或判定樹(shù)歸納確定最有可能的值。當(dāng)有空缺值的數(shù)據(jù)不是孤立點(diǎn)時(shí),此方法有較高的準(zhǔn)確性。2.2.2噪聲數(shù)據(jù)

噪聲(Noise)是一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差。下面介紹四種數(shù)據(jù)平滑技術(shù)。

1.分箱(Binning)分箱方法通過(guò)考察“鄰居”(即周?chē)闹?來(lái)平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被劃分到若干個(gè)箱或桶中。由于僅考察被平滑點(diǎn)鄰近的數(shù)據(jù),因此分箱方法進(jìn)行的是局部平滑。例2.1展示了一些分箱技術(shù)。在該例中,score數(shù)據(jù)首先被劃分并存入等深(每個(gè)箱中的數(shù)據(jù)個(gè)數(shù)相等)的箱中。平均值平滑是指將同一箱中的數(shù)據(jù)全部用該箱中數(shù)據(jù)的平均值替換。例如,箱1中的值60,65,67的平均值是64,那么該箱中的每一個(gè)值被替換為64。類(lèi)似地,可以使用按箱中值平滑,此時(shí),箱中的每一個(gè)值被箱中的中值替換;按箱邊界平滑,箱中的最大和最小值被視為箱邊界,箱中的每一個(gè)值被最近的邊界值替換。分箱技術(shù)可以采用等深和等寬的分布規(guī)則對(duì)數(shù)據(jù)進(jìn)行平滑,等深指每個(gè)箱中的數(shù)據(jù)個(gè)數(shù)相同,等寬指每個(gè)箱的取值范圍相同。分箱也可以作為一種離散化技術(shù)使用?!纠?.1】[ST][HT]

score排序后的數(shù)據(jù)(分):60,65,67,72,76,77,84,87,90劃分為(等深,深度為3)箱(桶):箱1:60,65,67箱2:72,76,77箱3:84,87,90采用分箱平滑技術(shù)后,用平均值平滑得:箱1:64,64,64箱2:75,75,75箱3:87,87,87用邊界值平滑得:箱1:60,67,67箱2:72,77,77箱3:84,84,90

2.聚類(lèi)(Clustering)孤立點(diǎn)可以被聚類(lèi)檢測(cè)。通過(guò)聚類(lèi)可以發(fā)現(xiàn)異常數(shù)據(jù)(Outliters),相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個(gè)聚類(lèi)集合,而那些位于聚類(lèi)集合之外的數(shù)據(jù),自然被認(rèn)為是異常數(shù)據(jù)(孤立點(diǎn))。直觀地看,落在聚類(lèi)集合之外的值被視為孤立點(diǎn),如圖2-2所示。孤立點(diǎn)將被視為噪聲數(shù)據(jù)而消除。圖2-2孤立點(diǎn)可以被聚類(lèi)分析檢測(cè)

3.計(jì)算機(jī)檢查和人工檢查結(jié)合

通過(guò)人與計(jì)算機(jī)相結(jié)合的檢查方法,可以幫助識(shí)別孤立點(diǎn)。例如,利用機(jī)遇信息論方法可以幫助識(shí)別用于手寫(xiě)符號(hào)庫(kù)中的異常模式,所識(shí)別出的異常模式可以輸出到一個(gè)列表中,然后由人對(duì)這一列表中的各異常模式進(jìn)行檢查,并最終確認(rèn)無(wú)用的模式。這種人機(jī)結(jié)合檢查的方法比單純利用手工方法手寫(xiě)符號(hào)庫(kù)進(jìn)行檢查要快得多。

4.回歸(Regression)可以利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。例如,線(xiàn)性回歸需要找出適合兩個(gè)變量的“最佳”直線(xiàn),使得一個(gè)變量能夠預(yù)測(cè)另一個(gè)。多線(xiàn)性回歸是線(xiàn)性回歸的擴(kuò)展,它涉及多于兩個(gè)變量。利用回歸分析方法獲得的擬合函數(shù),能夠幫助平滑數(shù)據(jù)并除去其中的噪聲。

許多數(shù)據(jù)平滑的方法也是離散化的數(shù)據(jù)歸約方法。例如,上面介紹的分箱技術(shù)減少了每個(gè)屬性的不同值的數(shù)量。概念分層是一種數(shù)據(jù)離散化形式,也可以用于數(shù)據(jù)平滑。例如,score的概念分層可以把score的值映射到優(yōu)、良、中、及格和不及格,從而減少了挖掘過(guò)程所處理的值的數(shù)量。有些分類(lèi)方法有內(nèi)置的數(shù)據(jù)平滑機(jī)制,如神經(jīng)網(wǎng)絡(luò)。2.2.3不一致數(shù)據(jù)現(xiàn)實(shí)世界的數(shù)據(jù)可能常出現(xiàn)數(shù)據(jù)記錄內(nèi)容的不一致。有些數(shù)據(jù)不一致可以用其與外部的關(guān)聯(lián)手工加以解決。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可以與原稿進(jìn)行對(duì)比來(lái)加以糾正。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。例如,知道屬性間的函數(shù)依賴(lài),可以查找違反函數(shù)依賴(lài)的值。由于同一屬性在不同數(shù)據(jù)庫(kù)中的取名不規(guī)范,常常使得在進(jìn)行數(shù)據(jù)集成時(shí),不一致的情況發(fā)生,也可能存在冗余。2.3數(shù)據(jù)集成和數(shù)據(jù)變換

2.3.1數(shù)據(jù)集成數(shù)據(jù)分析任務(wù)多半涉及數(shù)據(jù)集成。數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中。數(shù)據(jù)源可能涉及多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件。在數(shù)據(jù)集成時(shí),需要解決以下幾個(gè)問(wèn)題:

(1)模式集成的過(guò)程中涉及到的實(shí)體識(shí)別問(wèn)題。這類(lèi)問(wèn)題主要是來(lái)自多個(gè)信息源的現(xiàn)實(shí)世界的實(shí)體如何才能“匹配”的問(wèn)題。例如,確信一個(gè)數(shù)據(jù)庫(kù)中的customer_id和另一個(gè)數(shù)據(jù)庫(kù)中的cust_number指的是同一實(shí)體。通常,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))可以幫助避免模式集成中的錯(cuò)誤。

(2)冗余問(wèn)題。冗余是數(shù)據(jù)集成中的另一個(gè)重要問(wèn)題。如果一個(gè)屬性可以從其他屬性中推演出來(lái),該屬性就是冗余的,如年薪。屬性或維命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。利用相關(guān)分析可以幫助發(fā)現(xiàn)一些數(shù)據(jù)冗余情況。例如,給定兩個(gè)屬性,根據(jù)可用的數(shù)據(jù),這種分析可以度量一個(gè)屬性能在多大程度上蘊(yùn)涵另一個(gè)屬性。屬性A和B之間的相關(guān)性可用下式度量:其中,n是元組個(gè)數(shù);σA和σB分別為屬性A和B的標(biāo)準(zhǔn)差。如果(2.1)式的值大于0,則A和B是正相關(guān)的,意味著A的值隨B的值增加而增加。該值越大,說(shuō)明A、B正相關(guān)關(guān)系越密切。因此,一個(gè)很大的值表明A(或B)可以作為冗余而被去掉。如果結(jié)果值等于0,則A和B是獨(dú)立的,兩者之間沒(méi)有關(guān)系。如果結(jié)果值小于0,則A和B是負(fù)相關(guān)的,一個(gè)值隨另一個(gè)值減少而增加,這表明每一個(gè)屬性都阻止另一個(gè)屬性出現(xiàn)。(2.1)式可以用來(lái)檢測(cè)(1)中的customer_id和cust_number的相關(guān)性。除了檢測(cè)屬性間的冗余外,還應(yīng)當(dāng)檢測(cè)元組級(jí)的“重復(fù)”。重復(fù)是指對(duì)于同一數(shù)據(jù),存在兩個(gè)或多個(gè)相同的元組。

(3)數(shù)據(jù)集成過(guò)程中的數(shù)據(jù)值沖突的檢測(cè)與處理問(wèn)題。例如,對(duì)于同一實(shí)體,不同數(shù)據(jù)源的屬性值可能不一致。這可能是因?yàn)楸硎镜牟町悺⒈壤叨然蚓幋a不同造成的。例如,長(zhǎng)度屬性可能在一個(gè)系統(tǒng)中以公制單位存放,而在另一個(gè)系統(tǒng)中以英制單位存放;價(jià)格屬性不同地點(diǎn)采用不同的貨幣單位。數(shù)據(jù)在語(yǔ)義上的差異,是數(shù)據(jù)集成的巨大挑戰(zhàn)。2.3.2數(shù)據(jù)變換數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。常用的數(shù)據(jù)變換方法如下:

(1)平滑(smoothing):幫助去除數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱、聚類(lèi)和回歸。

(2)聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集操作。例如,可以聚集日銷(xiāo)售數(shù)據(jù),計(jì)算月和年銷(xiāo)售額。通常,這一步用來(lái)為多粒度數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體。

(3)數(shù)據(jù)概化:用更抽象的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象。例如,分類(lèi)的屬性,如price,可以概化為較高層的概念,如cheap、moderatelypriced或expensive。類(lèi)似地,數(shù)值屬性,如age,可以映射到較高層概念,如young、middleage和senior。

(4)規(guī)范化:將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍內(nèi),如-1.0~1.0或0.0~1.0。規(guī)范化可以消除數(shù)值型屬性因大小不一而造成的挖掘結(jié)果偏差。對(duì)于分類(lèi)算法,如涉及神經(jīng)網(wǎng)絡(luò)的算法或諸如最臨近分類(lèi)和聚類(lèi)的距離度量分類(lèi)算法,規(guī)范化特別有用。如果使用神經(jīng)網(wǎng)絡(luò)后向傳播算法進(jìn)行分類(lèi)挖掘,訓(xùn)練樣本的規(guī)范化能夠提高學(xué)習(xí)的速度。有許多數(shù)據(jù)規(guī)范化的方法,此處介紹三種:最小—最大規(guī)范化、z-score規(guī)范化和按小數(shù)定標(biāo)規(guī)范化。最小—最大規(guī)范化方法是對(duì)初始數(shù)據(jù)進(jìn)行一種線(xiàn)性變換。假定,minA和maxA分別為屬性A的最小值和最大值。最小—最大規(guī)范化方法通過(guò)下式(2.2)將A的值v映射到區(qū)間[new_minA,new_maxA]中的v′。最小—最大規(guī)范化保留了原始數(shù)據(jù)中存在的關(guān)系。如果將來(lái)遇到目前屬性A取值范圍之外的數(shù)據(jù),則該方法將面臨“越界”錯(cuò)誤。

【例2.2】假定某屬性的最小與最大值分別為$8000和$14000。要將其映射到區(qū)間[0.0,1.0]。按照最小-最大規(guī)范化方法對(duì)屬性值進(jìn)行縮放,則屬性值$12600將變換為

z-score(零—均值)規(guī)范化方法根據(jù)屬性A的平均值和標(biāo)準(zhǔn)差對(duì)A進(jìn)行規(guī)范化。A的值v被規(guī)范化為v′,由下式計(jì)算:(2.3)其中,和σA分別為屬性A的平均值和標(biāo)準(zhǔn)差。該方法常用于屬性A最大值和最小值未知的情況,或孤立點(diǎn)左右了最大—最小規(guī)范化的情況。

【例2.3】若屬性income的平均值和標(biāo)準(zhǔn)差分別為$32000和$17000,則使用z-score規(guī)范化后,值$65600被轉(zhuǎn)換為按小數(shù)定標(biāo)規(guī)范化方法通過(guò)移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴(lài)于A的最大絕對(duì)值。

A的值v被規(guī)范化為v′,由下式計(jì)算:(2.4)其中,j是使得max(|v′|)<1的最小整數(shù)。【例2.4】假定A的值為-859~653。A的最大絕對(duì)值為859。使用按小數(shù)定標(biāo)規(guī)范化方法,用1000(即j=3)除每個(gè)值。這樣,-859被規(guī)范化為-0.859。注意,規(guī)范化使得原始數(shù)據(jù)改變了很多,必須保留規(guī)范化參數(shù)(如平均值和標(biāo)準(zhǔn)差,如果使用z-score規(guī)范化),以便將來(lái)的數(shù)據(jù)可以用一致的方式規(guī)范化。

(5)屬性構(gòu)造(或特征構(gòu)造):由已有的屬性構(gòu)造和添加新的屬性,以幫助挖掘更深層次的模式知識(shí),提高挖掘結(jié)果的準(zhǔn)確性。例如,可根據(jù)屬性height和width添加屬性area。屬性構(gòu)造可以減少使用判定樹(shù)算法分類(lèi)的分裂問(wèn)題。通過(guò)組合屬性,可以幫助發(fā)現(xiàn)所遺漏的屬性間的相互關(guān)系,而這對(duì)于數(shù)據(jù)挖掘是十分重要的。2.4數(shù)據(jù)歸約

數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,它比源數(shù)據(jù)集小得多,但仍接近于保持原數(shù)據(jù)的完整性。在歸約后的數(shù)據(jù)集上挖掘?qū)⒏咝В⒛墚a(chǎn)生相同(或幾乎相同)的分析結(jié)果。數(shù)據(jù)歸約的策略如下:

(1)數(shù)據(jù)立方體聚集:主要用于構(gòu)造數(shù)據(jù)立方體。

(2)維歸約:可以檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性或維(數(shù)據(jù)倉(cāng)庫(kù)中的屬性)。

(3)數(shù)據(jù)壓縮:利用編碼技術(shù)壓縮數(shù)據(jù)集的大小。

(4)數(shù)值壓縮:用較小的數(shù)據(jù)表示數(shù)據(jù)或估計(jì)數(shù)據(jù),如用參數(shù)模型(只需要存放模型參數(shù),而不是實(shí)際數(shù)據(jù))或非參數(shù)方法,如聚類(lèi)、抽樣和使用直方圖。

(5)離散化和概念分層產(chǎn)生:利用取值范圍或更高層次的概念來(lái)代替原始數(shù)據(jù)。概念分層允許挖掘多個(gè)抽象層上的模式知識(shí),是數(shù)據(jù)挖掘的一種強(qiáng)有力的工具。下面詳細(xì)地介紹幾種常用的數(shù)據(jù)規(guī)約策略。2.4.1維歸約數(shù)據(jù)集可能包含成百上千的屬性,但大部分屬性與挖掘任務(wù)不相關(guān),屬于冗余屬性。例如,分析銀行顧客的信用度時(shí),諸如顧客的電話(huà)號(hào)碼、地址等屬性與任務(wù)不相關(guān)。維歸約通過(guò)減少或刪除不相關(guān)的屬性(或維)減少數(shù)據(jù)集的規(guī)模。通常使用屬性子集選擇方法。屬性子集選擇的目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類(lèi)的概率分布盡可能地接近原屬性集的概率分布。在規(guī)約后的屬性集上進(jìn)行挖掘,不僅減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,而且使得模式更易于理解。對(duì)于屬性子集選擇,通常使用壓縮搜索空間的啟發(fā)式算法。屬性子集選擇的基本啟發(fā)式方法包括以下幾種:

(1)逐步向前選擇。方法從空屬性集開(kāi)始,每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性或滿(mǎn)足一定閾值為止。

(2)逐步向后刪除。該方法從一個(gè)全屬性集開(kāi)始,每次從當(dāng)前屬性集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性集中消去,直到無(wú)法選擇出最差的屬性為止或滿(mǎn)足一定閾值為止。

(3)向前選擇和向后刪除的結(jié)合。向前選擇和向后刪除方法可以結(jié)合在一起,每一步選擇一個(gè)最好的屬性,并在剩余屬性中刪除一個(gè)最壞的屬性。方法(1)~(3)的結(jié)束條件可以有多種。可以用一個(gè)閾值來(lái)確定是否停止屬性選擇過(guò)程。

(4)判定樹(shù)歸納:通常用于分類(lèi)的決策樹(shù)算法也可以用于構(gòu)造屬性子集,如ID3和C4.5。判定樹(shù)歸納構(gòu)造對(duì)原數(shù)據(jù)進(jìn)行分類(lèi)歸納學(xué)習(xí),獲得一個(gè)初始判定樹(shù),沒(méi)有出現(xiàn)在樹(shù)中的屬性均被認(rèn)為是不相關(guān)的屬性,出現(xiàn)在樹(shù)中的屬性就可以得到一個(gè)較優(yōu)的屬性集。2.4.2數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原始數(shù)據(jù)集合壓縮為一個(gè)較小規(guī)模的數(shù)據(jù)集合。可以不丟失任何信息地還原數(shù)據(jù)的壓縮稱(chēng)為無(wú)損壓縮;構(gòu)造原始數(shù)據(jù)的近似表示稱(chēng)為有損壓縮。本小節(jié)介紹兩種流行的和有效的有損數(shù)據(jù)壓縮方法:小波變換和主要成分分析。

1.小波變換離散小波變換(DWT)是一種線(xiàn)性信號(hào)處理技術(shù),該技術(shù)可以將一個(gè)數(shù)據(jù)向量D轉(zhuǎn)換為另一個(gè)數(shù)據(jù)向量D′(小波相關(guān)系數(shù))。兩個(gè)向量具有相同的長(zhǎng)度。小波變換后的數(shù)據(jù)可以裁減。僅存放一小部分最強(qiáng)的小波系數(shù),就能保留近似的壓縮數(shù)據(jù)。例如,保留大于用戶(hù)設(shè)定的某個(gè)閾值的小波系數(shù),其他系數(shù)置為0。這樣,結(jié)果數(shù)據(jù)表示非常稀疏,若在小波基礎(chǔ)上進(jìn)行的話(huà),利用數(shù)據(jù)稀疏特點(diǎn)的操作使得計(jì)算效率得到大大提高。該技術(shù)也能用于消除噪聲,并且不會(huì)平滑掉數(shù)據(jù)的主要特性,使得它們也能有效地用于數(shù)據(jù)清理。給定一組系數(shù),使用所用的DWT的逆,可以還原源數(shù)據(jù)的近似。流行的小波變換包括Haar_2、Daubechies_4和Daubechies_6變換。應(yīng)用離散小波變換的一般過(guò)程使用一種分層的算法,它在每次迭代時(shí)將數(shù)據(jù)減半,從而獲得更快的計(jì)算速度。該方法步驟如下:

(1)輸入數(shù)據(jù)向量的長(zhǎng)度L,它必須是2的整數(shù)冪。必要時(shí),需要在數(shù)據(jù)向量后添加0,以滿(mǎn)足上述條件。

(2)每次變換涉及兩個(gè)函數(shù)。第一個(gè)對(duì)數(shù)據(jù)進(jìn)行平滑,如求和或加權(quán)平均;第二個(gè)進(jìn)行帶權(quán)差分,以獲得數(shù)據(jù)的主要特征。該步將數(shù)據(jù)一分為二,產(chǎn)生兩個(gè)長(zhǎng)度為L(zhǎng)/2的數(shù)據(jù)集,它們分別代表輸入數(shù)據(jù)平滑后的低頻部分和高頻部分。

(3)循環(huán)使用兩個(gè)函數(shù)作用于數(shù)據(jù)集,直到結(jié)果數(shù)據(jù)集的長(zhǎng)度為2。由以上步驟處理得到的結(jié)果即為數(shù)據(jù)變換的小波系數(shù)。類(lèi)似地,可以使用矩陣乘法對(duì)輸入數(shù)據(jù)進(jìn)行處理,以得到小波系數(shù)。所用的矩陣依賴(lài)于具體的DWT。矩陣必須是標(biāo)準(zhǔn)正交的,即它們的列是單位向量并相互正交,使得矩陣的逆是它的轉(zhuǎn)置。

小波變換還可以用于多維數(shù)據(jù),如數(shù)據(jù)立方體。具體操作方法為:先對(duì)第一維數(shù)據(jù)進(jìn)行變換,然后對(duì)第二維進(jìn)行變換,如此下去。計(jì)算的復(fù)雜性與立方體的單元個(gè)數(shù)呈線(xiàn)性關(guān)系。對(duì)于稀疏或傾斜數(shù)據(jù)和具有有序?qū)傩缘臄?shù)據(jù),小波變換能夠得到很好的結(jié)果。小波變換有許多實(shí)際應(yīng)用,包括指紋圖像壓縮、計(jì)算機(jī)視覺(jué)、時(shí)間序列、數(shù)據(jù)分析和數(shù)據(jù)清理。

2.主要成分分析

假定待壓縮的數(shù)據(jù)由N個(gè)元組或數(shù)據(jù)向量組成,取自k個(gè)維。主要成分分析(PCA,又稱(chēng)Karhunen-Loeve或K-L方法)從k維數(shù)據(jù)中尋找出c個(gè)正交向量,這里c≤k。通過(guò)該方法,原數(shù)據(jù)被投影到一個(gè)較小的空間,實(shí)現(xiàn)數(shù)據(jù)的壓縮。PCA可以作為一種維歸約形式使用。然而,不同于屬性子集選擇保留原屬性集的一個(gè)子集來(lái)減少屬性集的大小,PCA方法通過(guò)創(chuàng)建一個(gè)替換的、較小的變量集來(lái)“組合”屬性的精華。原數(shù)據(jù)可以投影到此較小的集合中。主要處理步驟如下:

(1)對(duì)輸入數(shù)據(jù)規(guī)范化,使得每個(gè)屬性的數(shù)據(jù)值都落在相同的數(shù)值范圍內(nèi)。

(2)計(jì)算c個(gè)規(guī)范正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些向量是單位向量,兩兩間相互垂直。這些向量被稱(chēng)為主要成分。輸入數(shù)據(jù)都可以表示為主要成分的線(xiàn)性組合。(3)對(duì)c個(gè)主要成分按照“重要性”進(jìn)行遞減排序。

(4)根據(jù)給定的用戶(hù)閾值,消去“意義”較低的主要成分。使用最強(qiáng)的主要成分,應(yīng)當(dāng)可能重構(gòu)原數(shù)據(jù)的很好的近似值。

PCA方法的計(jì)算量不大,并且可以用于有序和無(wú)序的屬性,還可以處理稀疏和傾斜數(shù)據(jù)。高維數(shù)據(jù)可以通過(guò)將問(wèn)題歸約為2維來(lái)處理。與數(shù)據(jù)壓縮的小波變換相比,PCA能較好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)的處理變換。2.4.3數(shù)值歸約

數(shù)值規(guī)約通過(guò)選擇替代的、較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。主要包括有參數(shù)與非參數(shù)兩種基本方法。所謂有參數(shù)方法,就是利用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),因此只需要存儲(chǔ)模型參數(shù)即可,而不是實(shí)際數(shù)據(jù)(孤立點(diǎn)也可能被存放)。例如數(shù)線(xiàn)性模型,它可以估計(jì)離散的多維概率分布。無(wú)參方法用于存儲(chǔ)利用直方圖、聚類(lèi)和選樣歸約后的數(shù)據(jù)集。

1.回歸和對(duì)數(shù)線(xiàn)性模型

回歸和對(duì)數(shù)線(xiàn)性模型可以用來(lái)近似給定數(shù)據(jù)。線(xiàn)性回歸方法利用一條直線(xiàn)對(duì)數(shù)據(jù)進(jìn)行擬合。例如,將隨機(jī)變量Y(稱(chēng)做響應(yīng)變量)表示為另一隨機(jī)變量X(稱(chēng)為預(yù)測(cè)變量)的線(xiàn)性函數(shù):

Y=α+βX

(2.5)這里,假定Y的方差是常量,系數(shù)α和β(稱(chēng)為回歸系數(shù))分別為直線(xiàn)的截距和斜率。系數(shù)可以用最小二乘法求得,使得分離數(shù)據(jù)的實(shí)際直線(xiàn)與該直線(xiàn)間的誤差最小。多元回歸是線(xiàn)性回歸的擴(kuò)展,響應(yīng)變量是多維特征向量的線(xiàn)性函數(shù)。對(duì)數(shù)線(xiàn)性模型(loglinearmodel)近似離散的多維概率分布。該方法能夠根據(jù)構(gòu)成數(shù)據(jù)立方的較小數(shù)據(jù)塊,對(duì)其一組屬性的基本單元分布概率進(jìn)行估計(jì),并且可以由較低階的數(shù)據(jù)立方體構(gòu)造較高階的數(shù)據(jù)立方體。這樣,對(duì)數(shù)線(xiàn)性還可以進(jìn)行數(shù)據(jù)壓縮(因?yàn)檩^小階的方體總共占用的空間小于基本方體占用的空間),同時(shí)具有一定的數(shù)據(jù)平滑效果(因?yàn)榕c用基本方體進(jìn)行估計(jì)相比,用較小階的方體對(duì)單元進(jìn)行估計(jì)選樣變化小一些)?;貧w和對(duì)數(shù)線(xiàn)性模型都可以用于稀疏數(shù)據(jù)和異常數(shù)據(jù)處理。雖然兩種方法都可以用于異常數(shù)據(jù),但回歸模型的效果好于對(duì)數(shù)線(xiàn)性模型。回歸模型處理高維數(shù)據(jù)時(shí)計(jì)算復(fù)雜度較大,而對(duì)數(shù)線(xiàn)性模型具有好的可伸縮性,可以擴(kuò)展到10維左右。

2.直方圖直方圖使用分箱方法近似數(shù)據(jù)分布,是一種常用的數(shù)據(jù)歸約方法。屬性A的直方圖(histogram)將A的數(shù)據(jù)分布劃分為若干個(gè)不相交的子集,或稱(chēng)桶。子集(桶)沿水平軸顯示,而高度(和面積)表示值的平均頻率。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶稱(chēng)為單桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。

【例2.5】下面是某商場(chǎng)銷(xiāo)售的商品的價(jià)格清單(按照遞增的順序排列,括號(hào)中的數(shù)字表示改價(jià)格產(chǎn)品銷(xiāo)售的數(shù)目):2(3),5(6),8(2),10(6),13(9),15(5),18(4),20(7),21(10),23(4),26(8),28(7),29(3),30(8)圖2-3使用單桶顯示了這些數(shù)據(jù)的直方圖。為進(jìn)一步壓縮數(shù)據(jù),通常讓一個(gè)桶代表給定屬性的一個(gè)連續(xù)值域。在圖2-4中每個(gè)桶代表商品價(jià)格的一個(gè)不同的$10區(qū)間。

圖2-3使用單桶的商品價(jià)格直方圖—每個(gè)桶代表一個(gè)商品價(jià)格/頻率對(duì)圖2-4商品價(jià)格的等寬直方圖,值被聚類(lèi)使得每個(gè)桶都有$10寬構(gòu)造直方圖的數(shù)據(jù)集劃分方法有以下幾種:

(1)等寬。在等寬的直方圖中,每個(gè)桶的寬度區(qū)間是一個(gè)常數(shù)(如圖2-4中每個(gè)桶的寬度為$10)。

(2)等深(或等高)。在等深的直方圖中,每個(gè)桶中的數(shù)據(jù)個(gè)數(shù)為一個(gè)常數(shù)(即每個(gè)桶大致包含相同個(gè)數(shù)的臨近數(shù)據(jù)樣本)。

(3)V最優(yōu)。給定桶個(gè)數(shù),如果考慮所有可能的直方圖,那么V最優(yōu)直方圖是具有最小方差的直方圖。直方圖的方差是每個(gè)桶代表的原數(shù)據(jù)的加權(quán)和,其中權(quán)等于桶中值的個(gè)數(shù)。

(4)MaxDiff。在MaxDiff直方圖中,我們考慮每對(duì)相鄰值之間的差。桶的邊界是具有β-1個(gè)最大差的對(duì),其中β是由用戶(hù)指定的閾值。

V-最優(yōu)和MaxDiff是更精確和實(shí)用的方法。對(duì)于近似稀疏和稠密數(shù)據(jù)以及高傾斜和一致的數(shù)據(jù),直方圖具有較高的效能。直方圖可以推廣到多屬性數(shù)據(jù)集,多維直方圖能夠描述屬性間的依賴(lài)。研究發(fā)現(xiàn),這種直方圖對(duì)于多達(dá)5個(gè)屬性能夠有效地近似表示數(shù)據(jù)。對(duì)于更高維、多維直方圖的有效性尚需進(jìn)一步研究。對(duì)于存放具有高頻率的孤立點(diǎn),單桶是有用的。

3.聚類(lèi)

聚類(lèi)技術(shù)將數(shù)據(jù)行視為對(duì)象。聚類(lèi)分析所得到的組或類(lèi)有下述性質(zhì):同一類(lèi)或類(lèi)中的對(duì)象比較相似,不同組或類(lèi)中的對(duì)象彼此不相似。一般的類(lèi)似性基于多維空間的距離表示,用對(duì)象在空間中的“接近”程度定義。聚類(lèi)的“質(zhì)量”可以用“直徑”表示,直徑是指一個(gè)聚類(lèi)中兩個(gè)任意對(duì)象的最大距離。質(zhì)心距離是聚類(lèi)質(zhì)量的另一種度量,以組或類(lèi)質(zhì)心(表示“平均對(duì)象”,或聚類(lèi)空間中的平均點(diǎn))到每個(gè)聚類(lèi)對(duì)象的平均距離。圖2-5所示為某城市內(nèi)的大學(xué)位置的2D圖,每個(gè)聚類(lèi)的質(zhì)心用“+”顯示,兩個(gè)數(shù)據(jù)聚類(lèi)如圖所示。圖2-5某城市的大學(xué)位置2D圖在數(shù)據(jù)歸約時(shí),用數(shù)據(jù)的聚類(lèi)替換原始數(shù)據(jù)。該技術(shù)的有效性依賴(lài)于數(shù)據(jù)的性質(zhì)。如果數(shù)據(jù)能夠組織成不同的聚類(lèi),該方法將是有效的。

4.選樣

選樣可以作為一種數(shù)據(jù)歸約技術(shù)使用,它采用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集。假定大的數(shù)據(jù)集D包含N個(gè)元組,幾種選樣方法如下:

(1)簡(jiǎn)單選擇n個(gè)樣本,不回放(SRSWOR)。由D的N個(gè)元組中抽取n個(gè)樣本(n<N),其中D中任何元組被抽取的概率均為1/N。即所有元組是等可能的。

(2)簡(jiǎn)單選擇n個(gè)樣本,回放(SRSWR)。該方法類(lèi)似于SRSWOR,不同在于當(dāng)一個(gè)元組被抽取后,記錄它,然后放回去。這樣,一個(gè)元組被抽取后,它又被放回D,以便它可以再次被抽取。這樣,最后的n個(gè)樣本數(shù)據(jù)集中可能會(huì)出現(xiàn)相同的數(shù)據(jù)行。

(3)聚類(lèi)選樣。如果D中的元組被分組放入M個(gè)互不相交的“聚類(lèi)”,則可以得到聚類(lèi)的m個(gè)簡(jiǎn)單隨機(jī)選樣,這里m<M。

(4)分層選樣。如果D被劃分成互不相交的部分,稱(chēng)做“層”,則通過(guò)對(duì)每一層的簡(jiǎn)單隨機(jī)選樣就可以得到D的分層選樣。特別是當(dāng)數(shù)據(jù)傾斜時(shí),這可以幫助確保樣本的代表性。例如,可以得到關(guān)于顧客數(shù)據(jù)的一個(gè)分層選樣,其中分層對(duì)顧客的每個(gè)年齡組創(chuàng)建。這樣,具有最少顧客數(shù)目的年齡組肯定能夠得到表示。采用選樣進(jìn)行數(shù)據(jù)歸約的優(yōu)點(diǎn)是,得到樣本的花費(fèi)正比例于樣本的大小n,而不是數(shù)據(jù)的大小N。因此,選樣的復(fù)雜性子線(xiàn)性(Sublinear)于數(shù)據(jù)的大小。其他數(shù)據(jù)歸約技術(shù)至少需要完全掃描D。對(duì)于固定的樣本大小,選樣的復(fù)雜性?xún)H隨數(shù)據(jù)的維數(shù)d線(xiàn)性地增加,而其他技術(shù),如使用直方圖,復(fù)雜性隨d指數(shù)增長(zhǎng)。用于數(shù)據(jù)歸約時(shí),選樣最常用來(lái)回答聚集查詢(xún)。在指定的誤差范圍內(nèi),可以確定(使用中心極限定理)估計(jì)一個(gè)給定的函數(shù)在指定誤差范圍內(nèi)所需的樣本大小。樣本的大小n相對(duì)于N可能非常小。對(duì)于歸約數(shù)據(jù)集的逐步求精,選樣是一種自然選擇。這樣的集合可以通過(guò)簡(jiǎn)單地增加樣本大小而進(jìn)一步提煉。2.5數(shù)據(jù)離散化和概念分層

2.5.1數(shù)值數(shù)據(jù)的離散化和概念分層生成對(duì)于數(shù)值屬性,由于數(shù)據(jù)的可能取值范圍的多樣性和數(shù)據(jù)值的更新頻繁,構(gòu)造數(shù)值屬性的概念分層是比較困難的。數(shù)值屬性的概念分層可以根據(jù)數(shù)據(jù)分布分析自動(dòng)地構(gòu)造。下面介紹五種主要的數(shù)值概念分層生成方法:分箱、直方圖分析、聚類(lèi)分析、基于熵的離散化和通過(guò)“自然劃分”的數(shù)據(jù)分段。

1.分箱前面討論了數(shù)據(jù)平滑的分箱方法。此方法也是離散化方法。例如,通過(guò)將數(shù)據(jù)分布到箱中,并用平均值或中值替換方法對(duì)箱值進(jìn)行平滑,可以將屬性值離散化。遞歸地應(yīng)用這些操作處理每次的結(jié)果,就可以產(chǎn)生一個(gè)概念層次樹(shù)。

2.直方圖分析前面討論的直方圖也可以用于離散化處理。圖2-6給出了一個(gè)等寬直方圖,顯示某給定數(shù)據(jù)集的數(shù)值分布。例如,大部分?jǐn)?shù)據(jù)分布在0~2171。例如,在等寬直方圖中,將值劃分成相等的部分或區(qū)間(如(0,2171),(2171,4342),…,(8685,10860))。直方圖分析算法遞歸地用于每一部分,將自動(dòng)地產(chǎn)生多級(jí)概念分層,直到到達(dá)用戶(hù)指定的層次水平后結(jié)束劃分。圖2-6顯示某數(shù)據(jù)集數(shù)值的分布直方圖

3.聚類(lèi)分析聚類(lèi)算法可以將數(shù)據(jù)劃分成若干類(lèi)或組。每一個(gè)類(lèi)形成概念分層的一個(gè)節(jié)點(diǎn),而所有的節(jié)點(diǎn)在同一概念層。每一個(gè)類(lèi)還可以進(jìn)一步分成若干子類(lèi),形成較低的概念層。類(lèi)也可以合并在一起,以形成分層結(jié)構(gòu)中較高的概念層。

4.基于熵的離散化熵(Entropy)是一種基于信息的度量,可以用來(lái)遞歸地劃分?jǐn)?shù)值屬性A的值,形成分層的離散化。這種離散化形成屬性的數(shù)值概念分層。給定一個(gè)數(shù)據(jù)元組的集合S,基于熵對(duì)A離散化的方法如下:

(1)A的每個(gè)值都可以認(rèn)為是一個(gè)潛在的區(qū)間邊界或閾值T。例如,A的值v可以將樣本S劃分成分別滿(mǎn)足條件A<v和A≥v的兩個(gè)子集,這樣就創(chuàng)建了一個(gè)二元離散化。

(2)對(duì)給定的數(shù)據(jù)集S,所選擇的閾值是這樣的值,它使其后劃分得到的信息增益最大。信息增益(InformationGain)為(2.6)其中,S1和S2分別對(duì)應(yīng)于S中滿(mǎn)足條件A<T和A≥T的一個(gè)劃分。對(duì)于給定的集合,它的熵函數(shù)Ent可以根據(jù)集合中樣本的類(lèi)分布計(jì)算獲得。例如,給定m個(gè)類(lèi),S1的熵為(2.7)其中,pi是類(lèi)i在S1中的概率,等于S1中類(lèi)i的樣本數(shù)除以S1中的樣本總數(shù)。Ent(S2)的值可以類(lèi)似地計(jì)算。

(3)確定閾值的過(guò)程遞歸地用于所得到的每個(gè)劃分,直到滿(mǎn)足某個(gè)終止條件,如Ent(S)-I(S,T)>δ

(2.8)

基于熵的離散化可以壓縮數(shù)據(jù)量。與其他方法不同的是,基于熵的方法利用了類(lèi)別信息,這使得區(qū)間邊界定義的分類(lèi)挖掘結(jié)果更加準(zhǔn)確。這里介紹的信息增益和熵也用于判定樹(shù)歸納。

5.通過(guò)自然劃分分段盡管分箱、直方圖、聚類(lèi)和基于熵的離散化都可以幫助構(gòu)造數(shù)值概念層次樹(shù),但是用戶(hù)希望得到數(shù)值區(qū)域被劃分為相對(duì)一致的、易于閱讀的、看上去更自然直觀的區(qū)間。例如,更希望將年薪劃分成像($4000,$8000)的區(qū)間,而不是像由某種復(fù)雜的聚類(lèi)技術(shù)得到的($4263.52,$6471.38]。利用3-4-5規(guī)則可以將數(shù)值量分解為相對(duì)統(tǒng)一、自然的區(qū)間。該規(guī)則一般將數(shù)值范圍遞歸地和逐層地將給定的數(shù)據(jù)區(qū)域劃分為3、4或5個(gè)等寬區(qū)間。該規(guī)則如下:

(1)若一個(gè)區(qū)間在最高有效位上包含3、6、7或9個(gè)不同的值,則將該區(qū)間劃分成3個(gè)區(qū)間(對(duì)于3、6和9,劃分成3個(gè)等寬區(qū)間;而對(duì)于7,按2-3-2分組,劃分成3個(gè)區(qū)間)。

(2)如果它在最高有效位上包含2、4或8個(gè)不同的值,則將區(qū)間劃分成4個(gè)等寬區(qū)間。

(3)如果它在最高有效位上包含1、5或10個(gè)不同的值,則將區(qū)間劃分成5個(gè)等寬區(qū)間。

(4)將該規(guī)則遞歸地用于每個(gè)區(qū)間,就可以得到數(shù)值屬性創(chuàng)建的概念分層樹(shù)。由于在數(shù)據(jù)集中可能有特別大的正值和負(fù)值,最高層分段簡(jiǎn)單地按最小和最大值劃分可能導(dǎo)致與實(shí)際結(jié)果背離。例如,在考試成績(jī)中,少數(shù)人的成績(jī)可能比較接近滿(mǎn)分。按照最高分分段可能導(dǎo)致高度傾斜的分層。因此最初的區(qū)間分解需要根據(jù)包含大多數(shù)取值的區(qū)間(例如,從5%到95%之間的區(qū)域)進(jìn)行。不在這個(gè)區(qū)域的特別高和特別低的值劃分為單獨(dú)的區(qū)間。2.5.2分類(lèi)數(shù)據(jù)的概念分層生成分類(lèi)數(shù)據(jù)(CategoricalData)是離散數(shù)據(jù)。一個(gè)分類(lèi)屬性具有有限個(gè)(但可能很多)不同值,且值之間無(wú)序。例如電話(huà)號(hào)碼、家庭住址和商品類(lèi)型。分類(lèi)數(shù)據(jù)的概念分層主要有以下幾種方法。

(1)屬性的部分序由用戶(hù)或?qū)<以谀J郊?jí)顯式地說(shuō)明。通常,分類(lèi)屬性或維的概念分層涉及一組屬性。通過(guò)在(數(shù)據(jù)庫(kù))模式定義時(shí)指定各屬性的有序關(guān)系,可以很容易地構(gòu)造概念分層。例如,關(guān)系數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的維location可能包含一組屬性:street,city,province_or_state和country??梢栽谀J郊?jí)說(shuō)明一個(gè)全序,如street<city<province_or_state<country,來(lái)定義層次結(jié)構(gòu)。

(2)通過(guò)數(shù)據(jù)聚合描述層次樹(shù)。這是人工地定義概念分層結(jié)構(gòu)方法。在大型數(shù)據(jù)庫(kù)中,顯式的值窮舉定義整個(gè)概念分層是不現(xiàn)實(shí)的。然而,對(duì)于一小部分中間層數(shù)據(jù),可以進(jìn)行顯式的分組。例如,在模式級(jí)說(shuō)明了province和country形成一個(gè)分層后,可以人工地添加某些中間層。

(3)定義一組不說(shuō)明順序?qū)傩约?。用?hù)可以定義一個(gè)屬性集,形成概念分層,但并不顯式說(shuō)明它們的順序。系統(tǒng)將自動(dòng)地產(chǎn)生屬性的序,以便構(gòu)造有意義的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論