![數(shù)據(jù)挖掘論文.doc_第1頁](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/cbf67a14-8a09-40ff-80d2-6ce8468c323a/cbf67a14-8a09-40ff-80d2-6ce8468c323a1.gif)
![數(shù)據(jù)挖掘論文.doc_第2頁](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/cbf67a14-8a09-40ff-80d2-6ce8468c323a/cbf67a14-8a09-40ff-80d2-6ce8468c323a2.gif)
![數(shù)據(jù)挖掘論文.doc_第3頁](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/cbf67a14-8a09-40ff-80d2-6ce8468c323a/cbf67a14-8a09-40ff-80d2-6ce8468c323a3.gif)
![數(shù)據(jù)挖掘論文.doc_第4頁](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/cbf67a14-8a09-40ff-80d2-6ce8468c323a/cbf67a14-8a09-40ff-80d2-6ce8468c323a4.gif)
![數(shù)據(jù)挖掘論文.doc_第5頁](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/cbf67a14-8a09-40ff-80d2-6ce8468c323a/cbf67a14-8a09-40ff-80d2-6ce8468c323a5.gif)
免費(fèi)預(yù)覽已結(jié)束,剩余6頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘論文數(shù)據(jù)挖掘分類方法及其應(yīng)用課程名稱:數(shù)據(jù)挖掘概念與技術(shù) 姓 名 學(xué) 號: 指導(dǎo)教師: 數(shù)據(jù)挖掘分類方法及其應(yīng)用作 者: 來 煜摘要:社會的發(fā)展進(jìn)入了網(wǎng)絡(luò)信息時(shí)代,各種形式的數(shù)據(jù)海量產(chǎn)生,在這些數(shù)據(jù)的背后隱藏這許多重要的信息,如何從這些數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)有用信息,越來越受到關(guān)注。為了適應(yīng)信息處理新需求和社會發(fā)展各方面的迫切需要而發(fā)展起來一種新的信息分析技術(shù),這種局勢稱為數(shù)據(jù)挖掘。分類技術(shù)是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一。各種分類算法有其自身的優(yōu)劣,適合于不同的領(lǐng)域。目前隨著新技術(shù)和新領(lǐng)域的不斷出現(xiàn),對分類方法提出了新的要求。關(guān)鍵字:數(shù)據(jù)挖掘;分類方法;數(shù)據(jù)分析Abstract:The development of the society entered the network information age, mass produce various forms of data, hidden behind the data that a number of important information, how to find out some rule from these data, find useful information, more and more attention. In order to meet the new demand information processing and the urgent needs of the social development in all aspects and developed a new kind of information analysis technology, this situation is called data mining. Classification technique is widely applied in data mining field of one of the important technology. All kinds of classification algorithm has its own advantages and disadvantages, and suitable for different fields. Now with the new technology and new fields appear constantly, puts forward new requirements for classification method. Key words: data mining; Classification method; Data analysisl 引言數(shù)據(jù)是知識的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識完全是兩回事。過去幾年中,從數(shù)據(jù)庫中發(fā)現(xiàn)知識這一領(lǐng)域發(fā)展的很快。廣闊的市場和研究利益促使這一領(lǐng)域的飛速發(fā)展。計(jì)算機(jī)技術(shù)和數(shù)據(jù)收集技術(shù)的進(jìn)步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲信息。收集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫技術(shù)使我們很容易存儲大量的數(shù)據(jù)流,但現(xiàn)在還沒有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經(jīng)驗(yàn)知識經(jīng)過分析、篩選、比較、綜合、再提取出知識和規(guī)則。然而,由于知識工程師所擁有知識的有局限性,所以對于獲得知識的可信度就應(yīng)該打個(gè)折扣。目前,傳統(tǒng)的知識獲取技術(shù)面對巨型數(shù)據(jù)倉庫無能為力,數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘通過在大量數(shù)據(jù)的基礎(chǔ)上對各種學(xué)習(xí)算法的訓(xùn)練,得到數(shù)據(jù)對象間的關(guān)系模式,這些模式反映了數(shù)據(jù)的內(nèi)在特性,是對數(shù)據(jù)包含信息的更高層次的抽象。目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來越多的關(guān)注,同時(shí),在實(shí)際問題中,大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說明了數(shù)據(jù)挖掘?qū)茖W(xué)研究具有很大的促進(jìn)作用。數(shù)據(jù)挖掘可以幫助人們對大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理,以節(jié)約時(shí)間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。分類技術(shù)是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一。至今已提出了多種分類算法,主要有決策樹、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和貝葉斯、k臨近法、遺傳算法、粗糙集以及模糊邏輯技術(shù)等。大部分技術(shù)都是使用學(xué)習(xí)算法確定分類模型,擬合輸入數(shù)據(jù)中樣本類別和屬性集之間的聯(lián)系,預(yù)測未知樣本的類別。訓(xùn)練算法的主要目標(biāo)是建立具有好的泛化能力的模型,該模型能夠準(zhǔn)確地預(yù)測未知樣本的類別。1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。分類技術(shù)是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一。各種分類算法有其自身的優(yōu)劣,適合于不同的領(lǐng)域。目前隨著新技術(shù)和新領(lǐng)域的不斷出現(xiàn),對分類方法提出了新的要求。2數(shù)據(jù)挖掘分類算法介紹 分類是用于識別什么樣的事務(wù)屬于哪一類的方法,可用于分類的算法有決策樹、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和貝葉斯、k臨近法、遺傳算法、粗糙集以及模糊邏輯技術(shù)等。下面對若干分類問題進(jìn)行簡要分析。21基于決策樹的分類 基于決策樹的分類算法是數(shù)據(jù)挖掘中最為典型的分類算法。決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),其每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試,每個(gè)分枝代表一個(gè)測試輸出,每個(gè)葉節(jié)點(diǎn)代表類或類分布。 211決策樹算法基本思想。開始時(shí)所有的訓(xùn)練樣本在根部,基于最高信息增益自頂向下遞歸地劃分?jǐn)?shù)據(jù)集,生成決策樹。當(dāng)一個(gè)結(jié)點(diǎn)上所有樣本都屬于同一類或者沒有剩余屬性可以用來進(jìn)一步劃分樣本時(shí)停止劃分,形成一個(gè)葉結(jié)點(diǎn)。如果葉結(jié)點(diǎn)上的樣本不屬于同一類,則根據(jù)大多數(shù)樣本的分類來確定葉結(jié)點(diǎn)的類別。 創(chuàng)建決策樹時(shí),因數(shù)據(jù)中存在噪聲和孤立點(diǎn),許多分枝反映的是訓(xùn)練數(shù)據(jù)集中的異常。剪枝方法可以剪去不可靠的分枝,提高分類速度和分類的準(zhǔn)確度。常用的剪枝方法有:先剪枝和后剪枝。前者通過提前停止樹的構(gòu)造而對樹剪枝;后者在完全創(chuàng)建好的樹上剪去分枝。 212典型的決策樹算法。最為典型的決策樹學(xué)習(xí)算法是ID3,它采用自頂向下不回溯策略,能保證找到一個(gè)簡單的樹。算法c45和c50是ID3的擴(kuò)展,它們將分類領(lǐng)域從類別屬性擴(kuò)展到數(shù)值型屬性。在決策樹中,從根到樹葉的每條路徑以IFTHEN形式表示一條分類規(guī)則,沿著給定路徑上的每個(gè)屬性一值對形成規(guī)則前件的一個(gè)合取項(xiàng),葉結(jié)點(diǎn)包含類預(yù)測,形成規(guī)則后件。 213優(yōu)缺點(diǎn)。決策樹很擅長處理非數(shù)值型數(shù)據(jù),從決策樹中可以方便地提取分類規(guī)則。其主要優(yōu)點(diǎn)是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。不足之處是ID3算法偏向于選擇屬性較多的屬性,而屬性較多的屬性往往不是最優(yōu)的屬性:學(xué)習(xí)簡單的邏輯表達(dá)能力較差。 22基于統(tǒng)計(jì)的分類 貝葉斯分類算法是基于貝葉斯定理的一種統(tǒng)計(jì)學(xué)分類算法。它們可以預(yù)測類成員關(guān)系的可能性,如給定樣本屬于一個(gè)特定類的概率。如果出現(xiàn)類別重疊現(xiàn)象,貝葉斯分類算法采用兩種方法處理這種情況:一是選擇后驗(yàn)概率最大的類別,二是選擇效用函數(shù)最大(或損失最小)的類別。貝葉斯分類也是一種常用的分類方法,它是一種對屬性集和類變量的概率關(guān)系建模的方法。其理論基礎(chǔ)是貝葉斯定理,可用式221表示。 p(cx)p(xc)p(c)/p(x) 221其中x是類標(biāo)號未知的數(shù)據(jù)樣本。設(shè)c為某種假定,如數(shù)據(jù)樣本I屬于某特定類民則P(cx)為c成立的概率,也稱為類c的先驗(yàn)概率;P(x)為x的支持度。P(cx)是規(guī)定數(shù)據(jù)樣本x,假定c成立的概率,稱作類c的后驗(yàn)概率。P(xvc)是假定c成立的情況下,樣本x的支持度,也稱為類條件概率。 準(zhǔn)確估計(jì)類標(biāo)號和屬性值的每一種可能組合的后驗(yàn)概率非常困難,因?yàn)榧幢銓傩詳?shù)目不是很大,仍然需要很大的訓(xùn)練集。此時(shí),貝葉斯定理很有用,因?yàn)樗试S我們用先驗(yàn)概率P(c)、類條件概率P(xc)和P(x)來表示后驗(yàn)概率。 在比較不同類c的后驗(yàn)概率時(shí),分母P(x)總是常數(shù),因此可以忽略。先驗(yàn)概率P(c)可以通過計(jì)算訓(xùn)練集中屬于每個(gè)類的訓(xùn)練記錄所占的比例很容易地估計(jì)。因此類c的后驗(yàn)概率P(xc)的確定取決于對類條件概率P(xc)的估計(jì)。對類條件概率P(xc)的估計(jì),常使用兩種貝葉斯分類方法來實(shí)現(xiàn):樸素貝葉斯分類和貝葉斯信念網(wǎng)絡(luò)。 23基于神經(jīng)網(wǎng)絡(luò)的分類 231基本思想。經(jīng)常用于分類的還有人工神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)3為解決大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種非線形預(yù)測模型,經(jīng)過學(xué)習(xí)進(jìn)行模式識別的。其工作機(jī)理是通過學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。神經(jīng)網(wǎng)絡(luò)有前向神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等,在神經(jīng)網(wǎng)絡(luò)中,由權(quán)重和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)決定了它所能識別的模式類型。神經(jīng)網(wǎng)絡(luò)分類過程可以分為訓(xùn)練和分類兩個(gè)階段。在訓(xùn)練階段,首先定義網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),再對訓(xùn)練樣本中的每個(gè)屬性的值進(jìn)行規(guī)范化預(yù)處理,然后用神經(jīng)網(wǎng)絡(luò)對已預(yù)處理的輸入進(jìn)行學(xué)習(xí)。訓(xùn)練完畢后,用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對標(biāo)識樣本進(jìn)行分類。 最流行的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是后向傳播算法。后向傳播算法是在多層前饋神經(jīng)網(wǎng)絡(luò)上進(jìn)行學(xué)習(xí)的。這種神經(jīng)網(wǎng)絡(luò)具有一個(gè)輸入層和一個(gè)輸出層,在兩者之間可能包含多個(gè)中間層,這些中間層叫做隱藏層。后向傳播通過迭代地處理一組訓(xùn)練樣本,將每個(gè)樣本的網(wǎng)絡(luò)預(yù)測與實(shí)際知道的類標(biāo)號比較,進(jìn)行學(xué)習(xí)。對于每個(gè)訓(xùn)練樣本,修改權(quán)值,使得網(wǎng)絡(luò)預(yù)測和實(shí)際類之間的均方誤差最小。這種修改后向進(jìn)行,即由輸出層,經(jīng)由每個(gè)隱藏層,到第一個(gè)隱藏層。一般的,權(quán)將最終收斂,學(xué)習(xí)過程停止。算法的每一次迭代包括兩個(gè)階段:前向階段和后向階段。在前向階段,使用前一次迭代所得到的權(quán)值計(jì)算網(wǎng)絡(luò)中每一個(gè)神經(jīng)元的輸出值。計(jì)算是向前進(jìn)行的,先計(jì)算第k層神經(jīng)元的輸出,再計(jì)算第k1層的輸出。在后向階段,以相反的方向應(yīng)用權(quán)值更新公式,先更新k1層的權(quán)值,再更新第k層的權(quán)值。 232優(yōu)缺點(diǎn)。神經(jīng)網(wǎng)絡(luò)法的優(yōu)點(diǎn)是有較強(qiáng)的抗噪能力,對未經(jīng)訓(xùn)練的數(shù)據(jù)也具有較好的預(yù)測分類能力。神經(jīng)網(wǎng)絡(luò)的主要缺點(diǎn)是用加權(quán)鏈連結(jié)單元的網(wǎng)絡(luò)所表示的知識很難被人理解、學(xué)習(xí)時(shí)間較長,僅適用于時(shí)間容許的應(yīng)用場合;對于如網(wǎng)絡(luò)結(jié)構(gòu)等關(guān)鍵參數(shù),通常需要經(jīng)驗(yàn)方能有效確定。 24基于源自關(guān)聯(lián)規(guī)則挖掘概念的分類 241基本思想。關(guān)聯(lián)規(guī)則聚類系統(tǒng)是基于聚類挖掘關(guān)聯(lián)規(guī)則,然后使用規(guī)則進(jìn)行分類。挖掘形如Aquan1Aquan2Acat的關(guān)聯(lián)規(guī)則;其中,Aquan1,Aquan2是在量化屬性區(qū)間上的測試,為給定訓(xùn)練數(shù)據(jù)的分類屬性指定一個(gè)類標(biāo)號。關(guān)聯(lián)規(guī)則畫在2-D柵格上。算法掃描柵格,搜索規(guī)則的矩形聚類。由ARCS產(chǎn)生的聚類關(guān)聯(lián)規(guī)則用于分類,其準(zhǔn)確率與C45差不多,精確度比C45高一點(diǎn)。 關(guān)聯(lián)分類挖掘形如condsety的規(guī)則,condset是項(xiàng)屬性一值對的集合,y是類標(biāo)號。若給定數(shù)據(jù)集中的樣本s包含condset并且屬于類y,則規(guī)則的支持度為s。若規(guī)則滿足預(yù)先指定的最小支持度,則該規(guī)則是頻繁;若給定數(shù)據(jù)集中包含conset的樣本c屬于類y,則規(guī)則的置信度為c;若滿足最小置信度,則該規(guī)則是精確的。如果一個(gè)規(guī)則項(xiàng)集具有相同的condset,則選擇具有最高置信度的規(guī)則作為可能規(guī)則,代表該集合。 242關(guān)聯(lián)分類方法由兩步組成。第一步是找出所有頻繁的、精確的PR集合。算法使用迭代方法,類似Apriori。第二步使用一種啟發(fā)式方法構(gòu)造分類,發(fā)現(xiàn)的規(guī)則按支持度和置信度遞減的優(yōu)先次序組織,用滿足新樣本滿足該樣本的第一個(gè)規(guī)則對其分類。CBA是關(guān)聯(lián)分類的經(jīng)典算法,該方法比c45更精確。 25其他分類方法 用于數(shù)據(jù)分類的方法還有:基于案例的推理分類法、遺傳算法等。 251基于案例的推理分類法?;诎咐耐评矸诸惙ㄊ腔谝蟮?,其存放的樣本是復(fù)雜的符號描述。當(dāng)給定一個(gè)待分類的新案例時(shí),基于案例的推理首先檢查是否存在一個(gè)同樣的訓(xùn)練案例。如果找到一個(gè),則返回附在該案例上的解。如果找不到同樣的案例,則基于案例的推理將搜索具有類似于新案例成分的訓(xùn)練案例,這些訓(xùn)練案例可視為新案例的鄰接者。 252遺傳算法。遺傳算法結(jié)合了自然進(jìn)化的思想。遺傳學(xué)習(xí)開始時(shí)創(chuàng)建了一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體,每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示。根據(jù)適者生存的原則,形成由當(dāng)前群體中最適合的規(guī)則組成的新群體,以及這些規(guī)則的后代。后代通過使用諸如交叉和變異等遺傳操作來創(chuàng)建。由先前的規(guī)則群體產(chǎn)生新的規(guī)則群體的過程繼續(xù)進(jìn)化,直到群體中每個(gè)規(guī)則滿足預(yù)先指定的適合度值3數(shù)據(jù)挖掘的應(yīng)用 數(shù)據(jù)挖掘技術(shù)已應(yīng)用于許多領(lǐng)域,如在學(xué)校、銀行、電信、股市、保險(xiǎn)、交通、零售等領(lǐng)域已得到廣泛的應(yīng)用。31數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用 隨著招生規(guī)模的擴(kuò)大,高校的學(xué)生人數(shù)就達(dá)到上萬人,甚至幾萬人,考試成績達(dá)到幾十萬個(gè)數(shù)據(jù),還有大量的學(xué)習(xí)成績以外的影響因素,傳統(tǒng)的學(xué)習(xí)成績分析方法已不能完全滿足需要,對此引入數(shù)據(jù)挖掘技術(shù)以找到影響學(xué)生成績的真實(shí)原因,制定相應(yīng)的措施,提高教育教學(xué)質(zhì)量。 32 數(shù)據(jù)挖掘技術(shù)在金融企業(yè)中的應(yīng)用 321數(shù)據(jù)挖掘技術(shù)在證券行業(yè)中得到廣泛應(yīng)用,數(shù)據(jù)挖掘技術(shù)作為分析與輔助決策工具已經(jīng)越來越得到國內(nèi)券商的重視。322數(shù)據(jù)挖掘技術(shù)也應(yīng)用于銀行業(yè),數(shù)據(jù)挖掘可以從大量的歷史記錄中發(fā)現(xiàn)或挖掘出這種關(guān)聯(lián)關(guān)系更深層次的、更詳盡的方面。323數(shù)據(jù)挖掘技術(shù)也應(yīng)用于保險(xiǎn)業(yè)保險(xiǎn)金的確定:對受險(xiǎn)人員的分類有助于確定適當(dāng)?shù)谋kU(xiǎn)金額度。通過數(shù)據(jù)挖掘可以得到對不同行業(yè)的人、不同年齡段的人、處于不同社會層次的人的保險(xiǎn)金該如何確定。險(xiǎn)種關(guān)聯(lián)分析:分析購買了某種保險(xiǎn)的人是否同時(shí)購買另一種保險(xiǎn)。預(yù)測什么樣的顧客會購買新險(xiǎn)種。33 數(shù)據(jù)挖掘技術(shù)在零售企業(yè)中的應(yīng)用從超市銷售管理系統(tǒng)、客戶資料管理及其他運(yùn)營數(shù)據(jù)中,可以收集到關(guān)于商品銷售、客戶信息、庫存及超市店面信息等的信息資料。數(shù)據(jù)從各種應(yīng)用系統(tǒng)中采集,經(jīng)按不同條件分類,存放到數(shù)據(jù)倉庫,允許管理人員、分析人員、采購人員、市場人員和客戶訪問,利用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進(jìn)行分析,為管理者提供高效的科學(xué)決策工具。4數(shù)據(jù)挖掘應(yīng)用實(shí)例41提出問題。一個(gè)自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計(jì)劃將廣告冊和禮品投遞給這些會員。但是投遞廣告冊是需要成本的,不可能投遞給所有的超市會員。而這些會員中有的人會響應(yīng)廣告宣傳,有的人就算得到廣告冊不會購買。所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。42自行車廠商首先從所有會員中抽取了1000個(gè)會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會員是否購買了自行車。數(shù)據(jù)如表1所示。表1 會員實(shí)例模型數(shù)據(jù)事例列會員編號12496141772438125597輸入列婚姻狀況MarriedMarriedSingleSingle性別FemaleMaleMaleMale收入40000800007000030000孩子數(shù)1500教育背景BachelorsPartial CollegeBachelorsBachelors職業(yè)Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽車數(shù)0210上班距離0-1 Miles2-5 Miles5-10 Miles0-1 Miles區(qū)域EuropeEuropePacificEurope年齡42604136預(yù)測列是否購買自行車NoNoYesYes在分類模型中,每個(gè)會員作為一個(gè)事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預(yù)測的分類是客戶是否購買了自行車。43訓(xùn)練數(shù)據(jù)集填充模型使用1000個(gè)會員事例訓(xùn)練模型后得到的決策樹分類如圖1所示:圖1 會員事例訓(xùn)練模型后得到的決策樹分類431圖中矩形表示一個(gè)拆分節(jié)點(diǎn),矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點(diǎn)包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點(diǎn)包含所有的1000個(gè)事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個(gè)事例,年齡小于32歲的133個(gè)事例,年齡在39和67歲之間的602個(gè)事例,年齡32和39歲之間的229個(gè)事例。所以第一次拆分后,年齡在39和67歲的節(jié)點(diǎn)顏色最深,年齡大于67歲的節(jié)點(diǎn)顏色最淺。節(jié)點(diǎn)中的條包含兩種顏色,紅色和藍(lán)色,分別表示此節(jié)點(diǎn)中的事例購買和不購買自行車的比例。如節(jié)點(diǎn)“年齡=67”節(jié)點(diǎn)中,包含36個(gè)事例,其中28個(gè)沒有購買自行車,8個(gè)購買了自行車,所以藍(lán)色的條比紅色的要長。表示年齡大于67的會員有7462%的概率不購買自行車,有2301%的概率購買自行車。432在圖中,可以找出幾個(gè)有用的節(jié)點(diǎn):1年齡小于32歲,居住在太平洋地區(qū)的會員有7275%的概率購買自行車;2年齡在32和39歲之間的會員有6842%的概率購買自行車;3年齡在39和67歲之間,上班距離不大于10公里,只有1輛汽車的會員有6608%的概率購買自行車;4年齡小于32歲,不住在太平洋地區(qū),上班距離在1公里范圍內(nèi)的會員有5192%的概率購買自行車;44模型訓(xùn)練后,還無法確定模型的分類方法是否準(zhǔn)確??梢杂媚P蛯?00個(gè)會員的檢驗(yàn)集進(jìn)行查詢,查詢后,模型會預(yù)測出哪些會員會購買自
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年代理記帳合同商范文(2篇)
- 2025年產(chǎn)品承包經(jīng)營合同(2篇)
- 2025年個(gè)人門面店鋪轉(zhuǎn)讓協(xié)議范文(2篇)
- 民宿裝修合同專業(yè)文檔
- 親子樂園裝修合同模板
- 國際藝術(shù)品收藏居間協(xié)議
- 家電公司辦公室翻新協(xié)議
- 養(yǎng)殖技術(shù)升級飼料配送協(xié)議
- 客運(yùn)站裝修改造協(xié)議
- 塑料原料運(yùn)輸服務(wù)合同
- 醫(yī)院消防安全培訓(xùn)課件(完美版)
- 人教版(2024新版)一年級上冊數(shù)學(xué)第一單元《數(shù)學(xué)游戲》單元整體教學(xué)設(shè)計(jì)
- 魏寧海超買超賣指標(biāo)公式
- 防洪防汛安全知識教育課件
- (正式版)FZ∕T 80014-2024 潔凈室服裝 通 用技術(shù)規(guī)范
- 新起點(diǎn)英語二年級下冊全冊教案
- 【幼兒園戶外體育活動材料投放的現(xiàn)狀調(diào)查報(bào)告(定量論文)8700字】
- 剪映專業(yè)版:PC端短視頻制作(全彩慕課版) 課件 第3章 短視頻剪輯快速入門
- 湖南省長沙市開福區(qū)青竹湖湘一外國語學(xué)校2023-2024學(xué)年九年級下學(xué)期一模歷史試題
- 帶狀皰疹與帶狀皰疹后遺神經(jīng)痛(HZ與PHN)
- 漢密爾頓抑郁和焦慮量表
評論
0/150
提交評論