第一章數(shù)據(jù)挖掘及其算法綜述_第1頁
第一章數(shù)據(jù)挖掘及其算法綜述_第2頁
第一章數(shù)據(jù)挖掘及其算法綜述_第3頁
第一章數(shù)據(jù)挖掘及其算法綜述_第4頁
第一章數(shù)據(jù)挖掘及其算法綜述_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第一章數(shù)據(jù)挖掘及其算法綜述1.1本文研究的目的及意義隨著數(shù)據(jù)庫和計算機網(wǎng)絡(luò)的廣泛應(yīng)用,加上先進的數(shù)據(jù)自動生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)據(jù)的極速增長與數(shù)據(jù)分析方法的改進并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎(chǔ)上進行科學(xué)研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對數(shù)據(jù)進行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,數(shù)據(jù)挖掘應(yīng)運而生。數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術(shù)是一個"以發(fā)現(xiàn)為驅(qū)動"的過程,已經(jīng)引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大重視。特別是從1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國際國內(nèi)都受到了前所未有的重視,目前數(shù)據(jù)挖掘廣泛應(yīng)用于各個領(lǐng)域,如地理學(xué)、地質(zhì)學(xué)、生物醫(yī)學(xué)等等,總之數(shù)據(jù)挖掘的出現(xiàn)使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段,不僅能對過去的數(shù)據(jù)進行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進信息的傳播。近十幾年來數(shù)據(jù)挖掘軟件行業(yè)的發(fā)展飛速。各種應(yīng)用軟件層出不窮,如何選擇合適的挖掘工具,成為一個很重要的問題。在軟件的選擇上,不同的用途會有不同的要求,而本文是針對教學(xué)軟件的選擇來做一些研究。目前在這一方面的文獻幾乎空白。而數(shù)據(jù)挖掘這一專業(yè)的重要性日益突顯,本文通過實例研究與評估,為教學(xué)軟件的選擇提供一個參考。1.2數(shù)據(jù)挖掘算法簡述1.2.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是一個從數(shù)據(jù)中提取模式的過程,是一個受多個學(xué)科影響的交叉領(lǐng)域,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機器學(xué)習、可視化和信息科學(xué)等;數(shù)據(jù)挖掘反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型,是一種決策支持過程。通過預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風險,做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具、報表工具)無法回答事先未定義的綜合性問題或跨部門/機構(gòu)的問題,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨部門/機構(gòu)的問題,挖掘潛在的模式并預(yù)測未來的趨勢,用戶不必提出確切的問題,而且模糊問題更有利于發(fā)現(xiàn)未知的事實。1.2.2基本數(shù)據(jù)挖掘技術(shù)?決策樹決策樹可能是現(xiàn)在最流行的有指導(dǎo)數(shù)據(jù)挖掘結(jié)構(gòu)。創(chuàng)建一棵決策樹最常見的方法是從訓(xùn)練數(shù)據(jù)中選擇實例的一個子集來構(gòu)建一棵初始樹。剩余實例被用于檢驗樹的準確度。如果任意一個實例的分類錯誤,將該實例添加到當前的訓(xùn)練集中,重復(fù)該過程。它的一個主要目標是最小化樹的層次和結(jié)點數(shù),從而最大化數(shù)據(jù)概化。決策樹已經(jīng)成功地應(yīng)用到現(xiàn)實問題中,它易于理解并能夠準確地映射為一組產(chǎn)生式規(guī)則。?生成關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則能從大型數(shù)據(jù)庫中找到關(guān)聯(lián)關(guān)系,關(guān)聯(lián)規(guī)則和傳統(tǒng)的產(chǎn)生式規(guī)則不同,某規(guī)則中的前擔條件可能出現(xiàn)在另一條規(guī)則的結(jié)果里。同時,關(guān)聯(lián)規(guī)則生成器允許規(guī)則的結(jié)果包含一個或多個屬性值。由于關(guān)關(guān)規(guī)則更復(fù)雜,已經(jīng)開發(fā)出專門的技術(shù),從而更有效地生成關(guān)聯(lián)規(guī)則。規(guī)則置信度和支持度有助于確定哪些已發(fā)現(xiàn)的關(guān)聯(lián)從市場前景看是有利的。然而,在解釋關(guān)聯(lián)規(guī)則時必須小心,因為許多已發(fā)現(xiàn)的關(guān)系價值并不高。?K-平均值算法K-平均值算法是一種統(tǒng)計的無指導(dǎo)聚類技術(shù)。算法中的所有屬性都必須是數(shù)值型的,并且用戶必須確定要發(fā)現(xiàn)的簇的數(shù)目。開始的時候,算法為每個簇任意選擇一個數(shù)據(jù)點。然后,每個數(shù)據(jù)實例被放置在與它最相似的簇里。通過計算產(chǎn)生新的簇中心,重復(fù)該過程直到簇中心不再改變?yōu)橹?。K-平均值算法易于實現(xiàn)和理解。然而,該算法無法保證收斂到一個完全理想的解決方案,缺乏解釋所發(fā)現(xiàn)內(nèi)容的能力,也不能指出哪些屬性對確定所形成的簇時是重要的。盡管有這些不足之處,K-平均值算法還是使用最廣泛的聚類技術(shù)之一?!稊?shù)據(jù)挖掘教程》RichardJ.RoigerMichaelW.Geatz著翁敬農(nóng)譯1.3基本數(shù)據(jù)挖掘算法的詳細介紹1.3.1數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則什么是關(guān)聯(lián)規(guī)則在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細節(jié)之前,我們先來看一個有趣的故事:"尿布與啤酒"的故事。在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法1)關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets),第二階段再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(LargeItemsets)。高頻的意思是指某一項目組出現(xiàn)的頻率相對于所有記錄而言,必須達到某一水平。一項目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項目組的支持度,若支持度大于等于所設(shè)定的最小支持度(MinimumSupport)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequentk-itemset),一般表示為Largek或Frequentk。算法并從Largek的項目組中再產(chǎn)生Largek+1,直到無法再找到更長的高頻項目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。從高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則,在最小信賴度(MinimumConfidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。A=>B規(guī)則的支持度S和置信度C,用集合的關(guān)系表示:(1)

S(2)

CAU—表示總體(參加關(guān)聯(lián)規(guī)則的所有案例)就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀錄進行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費者出現(xiàn)購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因為就該超市過去的交易紀錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數(shù)據(jù)庫中的指標值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進行適當?shù)臄?shù)據(jù)離散化(實際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。2)關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法Apriori算法使用候選項集找頻繁項集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法??赡墚a(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點。1.3.2數(shù)據(jù)挖掘中的分類算法分類是數(shù)據(jù)挖掘中的一個重要課題。分類的目的是,學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。分類可描述如下:輸人數(shù)據(jù),或稱訓(xùn)練集(TrainingSet),是一條條的數(shù)據(jù)庫記錄(Record)組成的。每一條記錄包含若干條屬性(Attribute),組成一個特征向量。訓(xùn)練集的每條記錄還有一個特定的類標簽(ClassLabel)與之對應(yīng)。該類標簽是系統(tǒng)的輸人,通常是以往的一些經(jīng)驗數(shù)據(jù)。一個具體樣本的形式可為樣本向量:(V1,V2,…,Vn,c)在這里Vi表示字段值,c表示類別。分類技術(shù)在很多領(lǐng)域都有應(yīng)用,例如可以通過客戶分類構(gòu)造一個分類模型來對銀行貸款進行風險評估;當前的市場營銷中很重要的一個特點是強調(diào)客戶細分??蛻纛悇e分析的功能也在于此,采用數(shù)據(jù)挖掘中的分類技術(shù),可以將客戶分成不同的類別,比如呼叫中心設(shè)計時可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征;其他分類應(yīng)用如文獻檢索和搜索引擎中的自動文本分類技術(shù);安全領(lǐng)域有基于分類技術(shù)的入侵檢測等等。機器學(xué)習、專家系統(tǒng)、統(tǒng)計學(xué)和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的研究人員已經(jīng)提出了許多具體的分類預(yù)測方法。下面對分類流程作個簡要描述:訓(xùn)練:訓(xùn)練集——>特征選取——>訓(xùn)練——>分類器分類:新樣本——>特征選取——>分類——>判決最初的數(shù)據(jù)挖掘分類應(yīng)用大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方法都要求具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力且具有可擴展能力。下面對兩種主要的分類方法做個簡要介紹:(1)決策樹決策樹歸納是經(jīng)典的分類算法。它采用自頂向下遞歸的各個擊破方式構(gòu)造決策樹。樹的每一個結(jié)點上使用信息增益度量選擇測試屬性??梢詮纳傻臎Q策樹中提取規(guī)則。(2)KNN法(K-NearestNeighbor)KNN法即K最近鄰法,最初由Cover和Hart于1968年提出的,是一個理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。KNN方法雖然從原理上也依賴于極限定理,但在類別決策時,只與極少量的相鄰樣本有關(guān)。因此,采用這種方法可以較好地避免樣本的不平衡問題。另外,由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。該方法的不足之處是計算量較大,因為對每一個待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯,事先去除對分類作用不大的樣本。另外還有一種ReverseKNN法,能降低KNN算法的計算復(fù)雜度,提高分類的效率。該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。百度百科神威《數(shù)據(jù)挖掘中分類算法小結(jié)》來源:神威異度空間/shenwei/Html/?841_1.html羅海蛟劉顯《數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用》微機發(fā)展,第十三卷1.3.3數(shù)據(jù)挖掘中的聚類分析聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎(chǔ),在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。聚類的用途是很廣泛的。在商業(yè)上,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;并且,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個預(yù)處理步驟。聚類分析的算法可以分為分裂法(PartitioningMethods)、層次法(HierarchicalMethods)、基于密度的方法(density-basedmethods)、基于網(wǎng)格的方法(grid-basedmethods)、基于模型的方法(Model-BasedMethods)。在自然科學(xué)和社會科學(xué)中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統(tǒng)計分析方法。聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學(xué)工具進行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報法等。K-MEANS算法k-means算法接受輸入量k;然后將n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。k-means算法的工作過程說明如下:首先從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù).k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。百度百科第二章數(shù)據(jù)挖掘工具及其評價指標體系2.1數(shù)據(jù)挖掘軟件的選擇面對信息爆炸的時代,如何從眾多的信息中發(fā)掘出其中有用和有意義的信息,成了人們?nèi)找骊P(guān)心的問題,能夠從大量的數(shù)據(jù)中提取知識和信息的數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,近年來逐漸成為被人們廣泛應(yīng)用的一種方法。為了適應(yīng)數(shù)據(jù)挖掘的發(fā)展和應(yīng)用,涌現(xiàn)出了大量不同的數(shù)據(jù)挖掘軟件,據(jù)著名數(shù)據(jù)挖掘網(wǎng)站KDnuggets統(tǒng)計,截至到2005年約有50多種數(shù)據(jù)挖掘軟件問世。近幾年數(shù)據(jù)挖掘軟件的發(fā)展更是飛速。如何從這眾多的軟件中挑選出最適宜于使用者的一種,這受到多種因素的影響,比如使用者的分析能力、分析目的、數(shù)據(jù)的類型、數(shù)據(jù)挖掘軟件所能提供的分析方法及其易使用性等。通過對數(shù)據(jù)挖掘軟件的總體了解,本文選擇三個有代表性的軟件來做為研究和評估的對象。首先是SASEnterpriceMiner。SASEnterpriceMiner是屬于這個領(lǐng)域中最專業(yè),使用最廣泛的權(quán)威性數(shù)據(jù)挖掘工具之一。與之在同一個水平與層次的常用軟件還有SPSSClementine,IBMIntelligentMiner等。但由于我們學(xué)院正好只購買了SAS軟件,所以本文從經(jīng)濟方便的角度考慮,選了SAS。其次是開源的軟件Weka.Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費的,非商業(yè)化,與SAS軟件相對應(yīng)。Weka系統(tǒng)得到了廣泛的認可,被譽為數(shù)據(jù)挖掘和機器學(xué)習歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。最后一個軟件是基于Excel的數(shù)據(jù)挖掘工具iData分析器(iDA),這個軟件包是附在教材里的,也算是一款免費的商業(yè)軟件,但是有使用時間的限制,只能使用100天,并且只能用于學(xué)習。筆者還研究過XLMiner這個軟件,這個軟件也是基于Excel的一個小插件。但由于它只能處理最多600個案例的關(guān)聯(lián)分析,200個案例的分類和聚類分析,不能滿足本文數(shù)據(jù)集的要求。所以最終還是選擇了iDA.2.2數(shù)據(jù)挖掘軟件的介紹2.2.1SAS/EnterpriseMinerSAS/EnterpreiseMiner是在數(shù)據(jù)挖掘市場上令人敬畏的競爭者。它支持SAS統(tǒng)計模塊,使之具有杰出的力量和影響,它還通過大量數(shù)據(jù)挖掘算法增強了那些模塊。SAS使用它的SEMMA方法學(xué)以提供一個能支持包括關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計回歸在內(nèi)的廣闊范圍的模型數(shù)據(jù)挖掘工具。SASEntelpriseMiner設(shè)計為被初學(xué)者和有經(jīng)驗的用戶使用。它的GUI界面是數(shù)據(jù)流驅(qū)動的,且它易于理解和使用。它允許一個分析者通過構(gòu)造一個使用鏈接連接數(shù)據(jù)結(jié)點和處理結(jié)點的可視數(shù)據(jù)流圖建造一個模型。另外,此界面允許把處理結(jié)點直接插入到數(shù)據(jù)流中。由于支持多種模型,所以EnterpriseMiner允許用戶比較(評估)不同模型并利用評估結(jié)點選擇最適合的。另外,EnterpriseMiner提供了一個能產(chǎn)生被任何SAS應(yīng)用程序所訪問的評分模型的評分結(jié)點。SASEnterpriseMiner能運行在客戶/服務(wù)器上或(計算機的外圍設(shè)備)能獨立運行的配置上。此外,在客戶/服務(wù)器模式下,EnterpriseMiner允許把服務(wù)器配置成一個數(shù)據(jù)服務(wù)器、計算服務(wù)器或兩者的綜合。EntepnseMiner被設(shè)計成能在所有SAS支持的平臺上運行。該結(jié)構(gòu)支持胖客戶機配置(要求客戶機上的完全SAS許可證)以及瘦客戶機(瀏覽器)版本。數(shù)據(jù)訪問、操縱和預(yù)處理:直接數(shù)據(jù)界面貫穿于SAS數(shù)據(jù)集。然而,數(shù)據(jù)也能通過標準SAS數(shù)據(jù)程序(例如:訪問RDBMS和PC格式數(shù)據(jù)的ACCESS被訪問。對Oracle、Informix、Sybase和DB2RDBMS的支持是通過ACCESS來實現(xiàn)。數(shù)據(jù)操縱能力包括通過基本SA3引擎可用的所有特征。此外,各種各樣的數(shù)據(jù)取樣和數(shù)據(jù)劃分技術(shù)也通過合適的EntelprjseMiner結(jié)點被支持。數(shù)據(jù)挖掘技術(shù)、算法和應(yīng)用程序:SASEntelpriseMiner支持關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和經(jīng)典的統(tǒng)計回歸技術(shù)?!耜P(guān)聯(lián):此算法允許關(guān)聯(lián)規(guī)則勘測(例如市場劃分分析)和順序模式勘測?!窬垲悾簾o監(jiān)督學(xué)習技術(shù)用作初始知識勘測和數(shù)據(jù)可視化。●決策樹:支持幾種決策樹技術(shù):CHAIDandEntropyReductlon(二進制和絕對變量)和F—TESTandVarianceReduc血n(為間隔目標變量)。●神經(jīng)元網(wǎng)絡(luò):支持幾種神經(jīng)元網(wǎng)絡(luò),包括多層感知器(MLP)和基于半徑的函數(shù)(RBF)。EnterpdseMiner還提供了各種各樣的轉(zhuǎn)變和報錯函數(shù)以及訓(xùn)練方法。設(shè)計這些能力是為了提供比標準向后傳播網(wǎng)絡(luò)更好的預(yù)測和運行時性能?!窕貧w:EnterpdseMiner支持多種在標準SAS上已被實現(xiàn)的回歸技術(shù)。EnterpdseMiner支持市場劃分分析、分類、預(yù)測模型、顧客分析、計量經(jīng)濟時序的統(tǒng)計分析范圍、運作研究和其它許多方面。使用工具:EntepnseMiner為構(gòu)造預(yù)測模型提供了大量選項。指定過程是在可視化編程環(huán)境中通過拖拉和按下動作完成的。大量的默認集使它能對初學(xué)者合適。EnterpriseMiner為神經(jīng)元網(wǎng)絡(luò)的解釋提供了日志文件和SAS源代碼。EnterpriseMiner支持兩種評估模型的方法:通過模型管理器或通過評估結(jié)點。模型管理器是從特定的模型分析輸出結(jié)果的好工具。評估結(jié)點在評估模型的概況和健壯性方面很有用。兩者都支持提升表、利潤表、ROI和別的指示器。由于評分結(jié)點能把模型存儲在SAS結(jié)構(gòu)中以各以后代入數(shù)據(jù),所以模型能通過使用評分結(jié)點被直接配置。有經(jīng)驗的用戶能利用把任意復(fù)雜的代碼并入數(shù)據(jù)流的SAS代碼結(jié)點。關(guān)于元數(shù)據(jù),EnterpriseMiner使用了與SAS系統(tǒng)其它部分一樣的元數(shù)據(jù)。由于它在統(tǒng)計分析軟件上的豐富經(jīng)驗,所以SAS開發(fā)出了一個全功能、易于使用、可靠和易于管理的系統(tǒng)。模型選項和算法所覆蓋的廣闊范圍、設(shè)計良好的用戶界面、現(xiàn)存數(shù)據(jù)商店的能力和在統(tǒng)計分析市場所占的巨大份額(允許一個公司獲得一個增加的SAS部件而不是一個新的工具)都可能使SAS在數(shù)據(jù)挖掘市場上取得領(lǐng)先位置。由于它最近剛投放市場,所以在寫此書時只能獲得少數(shù)公布的用戶基推測試。這些結(jié)果表明EnterpriseMiner在可伸縮性、預(yù)測準確性和處理時間上都表現(xiàn)得很好??偟膩碚f,此工具適合于企業(yè)在數(shù)據(jù)挖掘方面的應(yīng)用以及CBM的全部決策支持應(yīng)用。2.2.WaikatoEnvironmentforKnowledgeAnalysis(WEKA)Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機器學(xué)習(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是NewZealand獨有的一種鳥名,而Weka的主要開發(fā)者同時恰好來自NewZealand的theUniversityofWaikato。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學(xué)習算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用Weka的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看weka的接口文檔。在weka中集成自己的算法甚至借鑒它的方法自己實現(xiàn)可視化工具并不是件很困難的事情。WEKA自1993年由位于NewZealand的theUniversityofWaikato進行開發(fā),最初的軟件基于C語言實現(xiàn)。1997年,開發(fā)小組用JAVA語言重新編寫了該軟件,并且對相關(guān)的數(shù)據(jù)挖掘算法進行了大量的改進。2005年8月,在第11屆ACMSIGKDD國際會議上,theUniversityofWaikato的Weka小組榮獲了數(shù)據(jù)挖掘和知識探索領(lǐng)域的最高服務(wù)獎,Weka系統(tǒng)得到了廣泛的認可,被譽為數(shù)據(jù)挖掘和機器學(xué)習歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。3.2.2/view/2257668.html百度百科2.2.3基于Excel的數(shù)據(jù)挖掘工具iData分析器(iDA)iData分析器(iDA)是InformationAcumen公司的產(chǎn)品,通過可視化環(huán)境、集成工具以及對數(shù)據(jù)挖掘的過程支持,提供了進行商業(yè)和技術(shù)分析的支持。iDA由一個預(yù)處理器、三個數(shù)據(jù)挖掘工具和一個報表生成器組成。iDA是Excel的插件,其用戶界面是MicrosoftExcel。還缺個圖以下是對每個組件的簡單描述:預(yù)處理器(Preprocessor):在將文件的數(shù)據(jù)表示成一個iDA挖掘引擎之前,文件需要進行多種類型的錯誤掃描,包括非法數(shù)值、空行和缺失項。預(yù)處理器能糾正多種類型的錯誤,但它不能修正數(shù)值數(shù)據(jù)的錯誤。預(yù)處理器輸出一個為數(shù)據(jù)挖掘準備的數(shù)據(jù)文件,和一個報告未解決問題的性質(zhì)和位置的文檔。啟發(fā)式代理(Heuristicagent):啟發(fā)式代理對所擔交的包含數(shù)千個實例的數(shù)據(jù)文件做出響應(yīng)。啟發(fā)式代理允許我們決定是提取數(shù)據(jù)的代表性子集進行分析,還是處理整個數(shù)據(jù)集。ESX:該組件是基于樣本的數(shù)據(jù)挖掘工具,它創(chuàng)建一個概念層次來概化數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)(Neuralnetwork):iDA包含兩個神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),用于有指導(dǎo)學(xué)習的反向傳播神經(jīng)網(wǎng)絡(luò)和用于無指導(dǎo)聚類的自組織特征映射。RuleMaker:iDA的產(chǎn)生式規(guī)則生成器,它提供了許多規(guī)則生成選項。報表生成器:這個報表生成器為每個數(shù)據(jù)挖掘會話提供了許多匯總信息的工作表。RichardJ.RoigerMichaelW.Geatz《數(shù)據(jù)挖掘教程》翁敬農(nóng)譯1.CSDN一篇文章:/ctu_85/archive/2008/09/16/2937486.aspx2.中國域名網(wǎng)3.HanJiaweiMichelineKamber《數(shù)據(jù)挖掘概念與技術(shù)》4./bookfiles/327/10032713183.shtml2.3軟件評價指標體系的設(shè)計針對數(shù)據(jù)挖掘教學(xué)工具建立的指標體系,應(yīng)同時考慮教學(xué)的特點和工具本身的性能。參照袁立新的《構(gòu)建教育軟件評價指標要注重“三個結(jié)合”》。第一個結(jié)合:評價指標的類型是教育性和技術(shù)性的結(jié)合;第二個結(jié)合:評價指標的性質(zhì)是共性與個性的結(jié)合;第三個結(jié)合:評價指標的描述是定量與定性的結(jié)合。這是指標設(shè)置的總參考。姚志紅等人的《教學(xué)軟件評價指標體系設(shè)計》中詳細地介紹了指標體系設(shè)計的步驟。第一步,收集現(xiàn)有的評價指標體系;第二步對收集到的指標體系進行處理;第三步,分類歸納處理;第四步,完備性、合理性檢查與評價指標的修改;第五步,對收集到的修改意見進行處理;第六步,結(jié)束整理。吳載斌,王斌會的《數(shù)據(jù)挖掘軟件的介紹及其評價》中關(guān)于軟件的評價主要考慮如下幾個方面:1)軟件開發(fā)的目的或者解決問題的領(lǐng)域2)軟件實現(xiàn)的功能和方法3)對數(shù)據(jù)的操作能力4)軟件使用的容易程度5)軟件的運行平臺等因素6)軟件的銷售價格和服務(wù)也是必須考慮的因素李逸波,于吉紅《合理選擇數(shù)據(jù)挖掘工具》中列出幾個主要的參考指標為:1)數(shù)據(jù)挖掘的功能和方法;2)數(shù)據(jù)挖掘工具的可伸縮性;3)操作的簡易性;4)數(shù)據(jù)挖掘工具的可視化;5)數(shù)據(jù)挖掘工具的開放性綜上可以總結(jié)出適合本文的指標體系。首先是軟件性能方面的評價指標,由于是教學(xué)軟件,目標和解決問題的領(lǐng)域都相同,所以不考慮這一點。運行平臺均為個人電腦windows系統(tǒng),所以也不考慮這點,但由于在做本研究的過程中,有的軟件在有些機器上無法正常使用,所以需要加上健壯性這一評價指標。合并重復(fù)項,最后的評價指標體系如下:軟件實現(xiàn)的功能和方法:即是否可以完成各種數(shù)據(jù)挖掘的任務(wù),如:關(guān)聯(lián)分析、分類分析、序列分析、回歸分析、聚類分析、自動預(yù)測等。我們知道數(shù)據(jù)挖掘的過程一般包括數(shù)據(jù)抽樣、數(shù)據(jù)描述和預(yù)處理、數(shù)據(jù)變換、模型的建立、模型評估和發(fā)布等,因此一個好的數(shù)據(jù)挖掘工具應(yīng)該能夠為每個步驟提供相應(yīng)的功能集。數(shù)據(jù)挖掘工具還應(yīng)該能夠方便的導(dǎo)出挖掘的模型,從而在以后的應(yīng)用中使用該模型。軟件使用的容易程度:作為教學(xué)軟件,如果不是專業(yè)的挖掘者,只要在完成教學(xué)目標的前提下,應(yīng)該考慮軟件使用的容易程度,讓學(xué)生花最少的時間掌握軟件的操作。軟件的可視化程度:這包括源數(shù)據(jù)的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結(jié)果的可視化,可視化的程度、質(zhì)量和交互的靈活性都將嚴重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力。畢竟人們接受外界信息的80%是通過視覺獲得的,自然數(shù)據(jù)挖掘工具的可視化能力就相當重要。軟件的開放性:即數(shù)據(jù)挖掘工具與數(shù)據(jù)庫的結(jié)合能力。好的數(shù)據(jù)挖掘工具應(yīng)該可以連接盡可能多的數(shù)據(jù)庫管理系統(tǒng)和其他的數(shù)據(jù)資源,應(yīng)盡可能的與其他工具進行集成;盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)庫或數(shù)據(jù)倉庫之上進行,但數(shù)據(jù)挖掘的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)變換等等將耗費巨大的時間和資源,因此數(shù)據(jù)挖掘工具必須要與數(shù)據(jù)庫緊密結(jié)合,減少數(shù)據(jù)轉(zhuǎn)換的時間,充分利用整個的數(shù)據(jù)和數(shù)據(jù)倉庫的處理能力,在數(shù)據(jù)倉庫內(nèi)直接進行數(shù)據(jù)挖掘,而且開發(fā)模型,測試模型,部署模型都要充分利用數(shù)據(jù)倉庫的處理能力,另外,多個數(shù)據(jù)挖掘項目可以同時進行。軟件的伸縮性:也就是說解決復(fù)雜問題的能力,一個好的數(shù)據(jù)挖掘工具應(yīng)該可以處理盡可能大的數(shù)據(jù)量,可以處理盡可能多的數(shù)據(jù)類型,可以盡可能高的提高處理的效率,盡可能使處理的結(jié)果有效。如果在數(shù)據(jù)量和挖掘維數(shù)增加的情況下,挖掘的時間呈線性增長,那么可以認為該挖掘工具的伸縮性較好。軟件的健壯性:一個軟件可以正確地運行在不同環(huán)境下,則說明軟件在不同平臺下是健壯的。軟件的有效性:數(shù)據(jù)挖掘結(jié)果的準確率,模型的有效性等。軟件的銷售價格。SASSASWekaiDA軟件實現(xiàn)的功能和方法軟件的開放性軟件使用的容易程度軟件的可視化程度軟件的伸縮性軟件的健壯性軟件的有效性全好一般一般少李逸波于吉紅《合理選擇數(shù)據(jù)挖掘工具》2008-03-08來源:計算機與信息技術(shù)袁立新的《構(gòu)建教育軟件評價指標要注重“三個結(jié)合”》姚志紅等人的《教學(xué)軟件評價指標體系設(shè)計》吳載斌,王斌會的《數(shù)據(jù)挖掘軟件的介紹及其評價》第三章數(shù)據(jù)挖掘軟件基于不同算法的研究3.1數(shù)據(jù)集的選擇聚類和分類算法均使用標準原數(shù)據(jù)集bank-data.xls,該數(shù)據(jù)集來源于WEKA自帶數(shù)據(jù)集。案例如下:該數(shù)據(jù)集共有600個客戶,11個屬性。屬性的詳細信息如下:Age:數(shù)值型屬性,描述客戶的年齡;Sex:分類型屬性,描述客戶的性別,屬性值為FEMALE(女性),MALE(男性);Region:分類型屬性,描述客戶所在的區(qū)域,屬性值為INNER_CITY(市內(nèi)),TOWN(鎮(zhèn)里),RURAL( 鄉(xiāng)村),SUBURBAN(郊區(qū));Income:數(shù)值型屬性,描述客戶的收入;Married:分類型屬性,描述客戶的婚姻狀況,屬性值為YES(已婚),NO(未婚);Children:數(shù)值型屬性,描述客戶的孩子個數(shù),屬性值為0,1,2,3;Car:分類型屬性,描述客戶是否有車,屬性值為YES(有車),NO(沒車);Save_act:分類型屬性,描述客戶是否有定期儲蓄,屬性值為YES(有定期儲蓄),NO(沒有定期儲蓄);Current_act:分類型屬性,描述客戶是否有活期儲蓄,屬性值為YES(有活期儲蓄),NO(沒有活期儲蓄);Mortgage:分類型屬性,描述客戶是否有抵押,屬性值為YES(有抵押),NO(沒有抵押);Pep:分類型屬性,描述客戶是否購買個人參股計劃(PersonalEquityPlan)關(guān)聯(lián)數(shù)據(jù)集由于只能處理分類型數(shù)據(jù),利用WEKA的數(shù)據(jù)處理功能將age和income分成三箱,再利用記事本的替換功能,將其換成整數(shù)。Age分成三個年齡段,0_34;35_51;52_max;income的三個收入段分別為0_24386;24387_43758;43759_max.將income的屬性特征numeric改成{0,1,2,3}即可。得到的數(shù)據(jù)集命名為bank-data-final.csv。處理后數(shù)據(jù)如下:SAS/EM關(guān)聯(lián)算法的數(shù)據(jù)集存儲格式與WEKA不同,由一個ID的識別身份屬性,和一個target屬性構(gòu)成。因為關(guān)聯(lián)規(guī)則最常使用的環(huán)境是超市商場的客戶購物數(shù)據(jù)庫。由于商品的種類很多,但每個客戶購買的商品有限,如果每個商品為一個屬性,就會增加很多不必要的存儲空間,使挖掘速度變慢。所以相對來說SAS/EM的數(shù)據(jù)集存儲格式更為合理。數(shù)據(jù)格式轉(zhuǎn)換程序如下:datavar1;settemp;ID=_n_;lengthtar$21;tar=age;keepIDtar;run;datavar2;settemp;ID=_n_;tar=sex;keepIDtar;run;datavar3;settemp;ID=_n_;tar=region;keepIDtar;run;datavar4;settemp;ID=_n_;tar=income;keepIDtar;run;datavar5;settemp;ID=_n_;tar="mar_"||married;keepIDtar;run;datavar6;settemp;ID=_n_;tar="chi_"||left(children);keepIDtar;run;datavar7;settemp;ID=_n_;tar="car_"||car;keepIDtar;run;datavar8;settemp;ID=_n_;tar="sav_"||save_act;keepIDtar;run;datavar9;settemp;ID=_n_;tar="cur_"||current_act;keepIDtar;run;datavar10;settemp;ID=_n_;tar="mor_"||mortgage;keepIDtar;run;datavar11;settemp;ID=_n_;tar="pep_"||pep;keepIDtar;run;datasasData;setvar1var2var3var4var5var6var7var8var9var10var11;run;procsortdata=sasData;byID;run;輸出的數(shù)據(jù)集格式如下,文件名為sasData;并存儲在臨時邏輯庫work中。在分類中為了測試運行速度,還將用到一個大數(shù)據(jù)集income.xls,該數(shù)據(jù)集來源于機器學(xué)習網(wǎng)站。共有23686個案例,14個屬性,屬性說明如下:age:continuous.workclass:Private,Self-emp-not-inc,Self-emp-inc,Federal-gov,Local-gov,State-gov,Without-pay,Never-worked.fnlwgt:cation:Bachelors,Some-college,11th,HS-grad,Prof-school,Assoc-acdm,Assoc-voc,9th,7th-8th,12th,Masters,1st-4th,10th,Doctorate,5th-6th,Pcation-num:continuous.marital-status:Married-civ-spouse,Divorced,Never-married,Separated,Widowed,Married-spouse-absent,Married-AF-spouse.occupation:Tech-support,Craft-repair,Other-service,Sales,Exec-managerial,Prof-specialty,Handlers-cleaners,Machine-op-inspct,Adm-clerical,Farming-fishing,Transport-moving,Priv-house-serv,Protective-serv,Armed-Forces.relationship:Wife,Own-child,Husband,Not-in-family,Other-relative,Unmarried.race:White,Asian-Pac-Islander,Amer-Indian-Eskimo,Other,Black.sex:Female,Male.capital-gain:continuous.capital-loss:continuous.hours-per-week:continuous.native-country:United-States,Cambodia,England,Puerto-Rico,Canada,Germany,Outlying-US(Guam-USVI-etc),India,Japan,Greece,South,China,Cuba,Iran,Honduras,Philippines,Italy,Poland,Jamaica,Vietnam,Mexico,Portugal,Ireland,France,Dominican-Republic,Laos,Ecuador,Taiwan,Haiti,Columbia,Hungary,Guatemala,Nicaragua,Scotland,Thailand,Yugoslavia,El-Salvador,Trinadad&Tobago,Peru,Hong,Holand-Netherlands.3.2關(guān)聯(lián)算法WEKA的關(guān)聯(lián)算法,使用數(shù)據(jù)集bank-data-final.csv,使用asssociations.apriori算法,設(shè)置產(chǎn)生的關(guān)聯(lián)規(guī)則滿足置信度confidence大于90%,將規(guī)則數(shù)目改成100,產(chǎn)生41條規(guī)則。最小的支持度support為10%(600個案例中至少覆蓋60個案例)輸出的結(jié)果按照置信度由大到小排列,每條規(guī)則都標出覆蓋的案例個數(shù),即支持度。該數(shù)據(jù)集的所有屬性的支持度都比較低。前四條規(guī)則的置信度均為100%,并且條件項中都有income=43759_max,結(jié)果項都是save_act=yes.可以得出結(jié)論,高收入與有定期存款有很大的關(guān)聯(lián)。部份規(guī)則如下:1.income=43759_max80==>save_act=YES80conf:(1)9.income=43759_maxcurrent_act=YES63==>age=52_max61conf:(0.97)13.age=0_34married=YEScar=NO69==>income=0_2438666conf:(0.96)第九條和第十三條說明收入和年齡的關(guān)系,某種程度上來看,年齡越大收入越高。結(jié)果輸出如下圖:SAS/EM的關(guān)聯(lián)規(guī)則,使用修改格式后的數(shù)據(jù)集sasData,同樣讓其最小支持度為1%(60個案例),最小置信度為90%。Relations表示的是幾元的關(guān)聯(lián)規(guī)則,二元時產(chǎn)生2條規(guī)則,3元時產(chǎn)生12條規(guī)則,4元時產(chǎn)生30條,5元產(chǎn)生41條,6元仍是41條,說明同樣的支持度和置信度下不同的軟件產(chǎn)生的關(guān)聯(lián)規(guī)則完全相同。其中Lift是提升度,是A和B同時出現(xiàn)的概率與A和B單獨出現(xiàn)的概率乘積之比,即Lift(A=>B)=Pr(A,B)Pr?(A)Pr?(B),如果該值為1,則A和B是獨立的。該值越高,A和B3.3分類算法主要通過分類算法考察軟件的性能和運行速度。IDA的分類算法,修改pep的參數(shù)值為輸出Output,其它屬性均為輸入Input,分類算法為有指導(dǎo)算法。選擇480(80%)個案例作為訓(xùn)練集。IDA按照輸出屬性值分類,分為兩類,一類值為YES,一類值為NO.從輸出表bank-dataRESTST中可以看到測試集的分類結(jié)果,共有120個案例,其中78(65%)個案例被模型正確分類,錯誤率為35%。Weka的分類算法,使用J48算法,將數(shù)據(jù)集分成兩部份,80%用作training,20%用作test.錯誤率為11.6667%SAS/EM的決策樹算法,設(shè)定60%為train,20%為validation,20%為test.測試數(shù)據(jù)集的錯誤分類率為0.2066我們可以通過應(yīng)用經(jīng)典的假設(shè)檢驗范例比較兩個用同樣訓(xùn)練數(shù)據(jù)創(chuàng)建的有指導(dǎo)學(xué)習者模型。假設(shè)兩個用相同訓(xùn)練數(shù)據(jù)創(chuàng)建的有指導(dǎo)學(xué)習者模型,M1和M2,它們的檢驗集錯誤率沒有顯著差別。比較兩個分類模型(M1和M2)性能最一般的統(tǒng)計形式為:ddxP=|E1-E2|q1-q(1n1其中:E1=模型M1的錯誤率E2=模型M2的錯誤率q=(E1+E2)/2n1=檢驗集A中的實例個數(shù)n2=檢驗集B中的實例個數(shù)(A和B分別代表M1和M2所對應(yīng)的檢驗數(shù)據(jù)集)如果P>=2,根據(jù)統(tǒng)計學(xué)知識有95%的把握認為M1和M2的檢驗集性能差別是顯著的。設(shè)iDA的分類模型為M1,WEKA的分類模型為M2,SAS/EM的分類模型為M3,所以E1=0.35,E2=0.1167,E3=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論