數(shù)據(jù)挖掘論文.doc

上傳人：心*** IP屬地：江西上傳時(shí)間：2020-03-10 格式：DOC 頁(yè)數(shù)：11 大?。?5KB 積分：12 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余6頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘論文數(shù)據(jù)挖掘分類方法及其應(yīng)用課程名稱：數(shù)據(jù)挖掘概念與技術(shù) 姓名學(xué) 號(hào)：指導(dǎo)教師：數(shù)據(jù)挖掘分類方法及其應(yīng)用作者：來(lái) 煜摘要：社會(huì)的發(fā)展進(jìn)入了網(wǎng)絡(luò)信息時(shí)代，各種形式的數(shù)據(jù)海量產(chǎn)生，在這些數(shù)據(jù)的背后隱藏這許多重要的信息，如何從這些數(shù)據(jù)中找出某種規(guī)律，發(fā)現(xiàn)有用信息，越來(lái)越受到關(guān)注。為了適應(yīng)信息處理新需求和社會(huì)發(fā)展各方面的迫切需要而發(fā)展起來(lái)一種新的信息分析技術(shù)，這種局勢(shì)稱為數(shù)據(jù)挖掘。分類技術(shù)是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一。各種分類算法有其自身的優(yōu)劣，適合于不同的領(lǐng)域。目前隨著新技術(shù)和新領(lǐng)域的不斷出現(xiàn)，對(duì)分類方法提出了新的要求。關(guān)鍵字：數(shù)據(jù)挖掘；分類方法；數(shù)據(jù)分析Abstract：The development of the society entered the network information age, mass produce various forms of data, hidden behind the data that a number of important information, how to find out some rule from these data, find useful information, more and more attention. In order to meet the new demand information processing and the urgent needs of the social development in all aspects and developed a new kind of information analysis technology, this situation is called data mining. Classification technique is widely applied in data mining field of one of the important technology. All kinds of classification algorithm has its own advantages and disadvantages, and suitable for different fields. Now with the new technology and new fields appear constantly, puts forward new requirements for classification method. Key words: data mining; Classification method; Data analysisl 引言數(shù)據(jù)是知識(shí)的源泉。但是，擁有大量的數(shù)據(jù)與擁有許多有用的知識(shí)完全是兩回事。過(guò)去幾年中，從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)這一領(lǐng)域發(fā)展的很快。廣闊的市場(chǎng)和研究利益促使這一領(lǐng)域的飛速發(fā)展。計(jì)算機(jī)技術(shù)和數(shù)據(jù)收集技術(shù)的進(jìn)步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲(chǔ)信息。收集數(shù)據(jù)是為了得到信息，然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫(kù)技術(shù)使我們很容易存儲(chǔ)大量的數(shù)據(jù)流，但現(xiàn)在還沒(méi)有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來(lái)。在過(guò)去，我們常用的知識(shí)獲取方法是由知識(shí)工程師把專家經(jīng)驗(yàn)知識(shí)經(jīng)過(guò)分析、篩選、比較、綜合、再提取出知識(shí)和規(guī)則。然而，由于知識(shí)工程師所擁有知識(shí)的有局限性，所以對(duì)于獲得知識(shí)的可信度就應(yīng)該打個(gè)折扣。目前，傳統(tǒng)的知識(shí)獲取技術(shù)面對(duì)巨型數(shù)據(jù)倉(cāng)庫(kù)無(wú)能為力，數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來(lái)越突出，人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理，但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理，使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足，并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘通過(guò)在大量數(shù)據(jù)的基礎(chǔ)上對(duì)各種學(xué)習(xí)算法的訓(xùn)練，得到數(shù)據(jù)對(duì)象間的關(guān)系模式，這些模式反映了數(shù)據(jù)的內(nèi)在特性，是對(duì)數(shù)據(jù)包含信息的更高層次的抽象。目前，在需要處理大數(shù)據(jù)量的科研領(lǐng)域中，數(shù)據(jù)挖掘受到越來(lái)越多的關(guān)注，同時(shí)，在實(shí)際問(wèn)題中，大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說(shuō)明了數(shù)據(jù)挖掘?qū)茖W(xué)研究具有很大的促進(jìn)作用。數(shù)據(jù)挖掘可以幫助人們對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理，以節(jié)約時(shí)間，將更多的精力投入到更高層的研究中，從而提高科研工作的效率。分類技術(shù)是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一。至今已提出了多種分類算法，主要有決策樹(shù)、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和貝葉斯、k臨近法、遺傳算法、粗糙集以及模糊邏輯技術(shù)等。大部分技術(shù)都是使用學(xué)習(xí)算法確定分類模型，擬合輸入數(shù)據(jù)中樣本類別和屬性集之間的聯(lián)系，預(yù)測(cè)未知樣本的類別。訓(xùn)練算法的主要目標(biāo)是建立具有好的泛化能力的模型，該模型能夠準(zhǔn)確地預(yù)測(cè)未知樣本的類別。1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)，是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題，所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程，它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等，高度自動(dòng)化地分析企業(yè)的數(shù)據(jù)，做出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調(diào)整市場(chǎng)策略，減少風(fēng)險(xiǎn)，做出正確的決策。數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù)，從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)，主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集；規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái)；規(guī)律表示是盡可能以用戶可理解的方式（如可視化）將找出的規(guī)律表示出來(lái)。分類技術(shù)是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一。各種分類算法有其自身的優(yōu)劣，適合于不同的領(lǐng)域。目前隨著新技術(shù)和新領(lǐng)域的不斷出現(xiàn)，對(duì)分類方法提出了新的要求。2數(shù)據(jù)挖掘分類算法介紹分類是用于識(shí)別什么樣的事務(wù)屬于哪一類的方法，可用于分類的算法有決策樹(shù)、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和貝葉斯、k臨近法、遺傳算法、粗糙集以及模糊邏輯技術(shù)等。下面對(duì)若干分類問(wèn)題進(jìn)行簡(jiǎn)要分析。21基于決策樹(shù)的分類基于決策樹(shù)的分類算法是數(shù)據(jù)挖掘中最為典型的分類算法。決策樹(shù)是一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu)，其每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試，每個(gè)分枝代表一個(gè)測(cè)試輸出，每個(gè)葉節(jié)點(diǎn)代表類或類分布。 211決策樹(shù)算法基本思想。開(kāi)始時(shí)所有的訓(xùn)練樣本在根部，基于最高信息增益自頂向下遞歸地劃分?jǐn)?shù)據(jù)集，生成決策樹(shù)。當(dāng)一個(gè)結(jié)點(diǎn)上所有樣本都屬于同一類或者沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本時(shí)停止劃分，形成一個(gè)葉結(jié)點(diǎn)。如果葉結(jié)點(diǎn)上的樣本不屬于同一類，則根據(jù)大多數(shù)樣本的分類來(lái)確定葉結(jié)點(diǎn)的類別。創(chuàng)建決策樹(shù)時(shí)，因數(shù)據(jù)中存在噪聲和孤立點(diǎn)，許多分枝反映的是訓(xùn)練數(shù)據(jù)集中的異常。剪枝方法可以剪去不可靠的分枝，提高分類速度和分類的準(zhǔn)確度。常用的剪枝方法有：先剪枝和后剪枝。前者通過(guò)提前停止樹(shù)的構(gòu)造而對(duì)樹(shù)剪枝；后者在完全創(chuàng)建好的樹(shù)上剪去分枝。 212典型的決策樹(shù)算法。最為典型的決策樹(shù)學(xué)習(xí)算法是ID3，它采用自頂向下不回溯策略，能保證找到一個(gè)簡(jiǎn)單的樹(shù)。算法c45和c50是ID3的擴(kuò)展，它們將分類領(lǐng)域從類別屬性擴(kuò)展到數(shù)值型屬性。在決策樹(shù)中，從根到樹(shù)葉的每條路徑以IFTHEN形式表示一條分類規(guī)則，沿著給定路徑上的每個(gè)屬性一值對(duì)形成規(guī)則前件的一個(gè)合取項(xiàng)，葉結(jié)點(diǎn)包含類預(yù)測(cè)，形成規(guī)則后件。 213優(yōu)缺點(diǎn)。決策樹(shù)很擅長(zhǎng)處理非數(shù)值型數(shù)據(jù)，從決策樹(shù)中可以方便地提取分類規(guī)則。其主要優(yōu)點(diǎn)是描述簡(jiǎn)單，分類速度快，特別適合大規(guī)模的數(shù)據(jù)處理。不足之處是ID3算法偏向于選擇屬性較多的屬性，而屬性較多的屬性往往不是最優(yōu)的屬性：學(xué)習(xí)簡(jiǎn)單的邏輯表達(dá)能力較差。 22基于統(tǒng)計(jì)的分類貝葉斯分類算法是基于貝葉斯定理的一種統(tǒng)計(jì)學(xué)分類算法。它們可以預(yù)測(cè)類成員關(guān)系的可能性，如給定樣本屬于一個(gè)特定類的概率。如果出現(xiàn)類別重疊現(xiàn)象，貝葉斯分類算法采用兩種方法處理這種情況：一是選擇后驗(yàn)概率最大的類別，二是選擇效用函數(shù)最大(或損失最小)的類別。貝葉斯分類也是一種常用的分類方法，它是一種對(duì)屬性集和類變量的概率關(guān)系建模的方法。其理論基礎(chǔ)是貝葉斯定理，可用式221表示。 p(cx)p(xc)p(c)/p(x) 221其中x是類標(biāo)號(hào)未知的數(shù)據(jù)樣本。設(shè)c為某種假定，如數(shù)據(jù)樣本I屬于某特定類民則P(cx)為c成立的概率，也稱為類c的先驗(yàn)概率；P(x)為x的支持度。P(cx)是規(guī)定數(shù)據(jù)樣本x，假定c成立的概率，稱作類c的后驗(yàn)概率。P(xvc)是假定c成立的情況下，樣本x的支持度，也稱為類條件概率。準(zhǔn)確估計(jì)類標(biāo)號(hào)和屬性值的每一種可能組合的后驗(yàn)概率非常困難，因?yàn)榧幢銓傩詳?shù)目不是很大，仍然需要很大的訓(xùn)練集。此時(shí)，貝葉斯定理很有用，因?yàn)樗试S我們用先驗(yàn)概率P(c)、類條件概率P(xc)和P(x)來(lái)表示后驗(yàn)概率。在比較不同類c的后驗(yàn)概率時(shí)，分母P(x)總是常數(shù)，因此可以忽略。先驗(yàn)概率P(c)可以通過(guò)計(jì)算訓(xùn)練集中屬于每個(gè)類的訓(xùn)練記錄所占的比例很容易地估計(jì)。因此類c的后驗(yàn)概率P(xc)的確定取決于對(duì)類條件概率P(xc)的估計(jì)。對(duì)類條件概率P(xc)的估計(jì)，常使用兩種貝葉斯分類方法來(lái)實(shí)現(xiàn)：樸素貝葉斯分類和貝葉斯信念網(wǎng)絡(luò)。 23基于神經(jīng)網(wǎng)絡(luò)的分類 231基本思想。經(jīng)常用于分類的還有人工神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)3為解決大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的簡(jiǎn)單方法，它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種非線形預(yù)測(cè)模型，經(jīng)過(guò)學(xué)習(xí)進(jìn)行模式識(shí)別的。其工作機(jī)理是通過(guò)學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。神經(jīng)網(wǎng)絡(luò)有前向神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等，在神經(jīng)網(wǎng)絡(luò)中，由權(quán)重和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)決定了它所能識(shí)別的模式類型。神經(jīng)網(wǎng)絡(luò)分類過(guò)程可以分為訓(xùn)練和分類兩個(gè)階段。在訓(xùn)練階段，首先定義網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)，再對(duì)訓(xùn)練樣本中的每個(gè)屬性的值進(jìn)行規(guī)范化預(yù)處理，然后用神經(jīng)網(wǎng)絡(luò)對(duì)已預(yù)處理的輸入進(jìn)行學(xué)習(xí)。訓(xùn)練完畢后，用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)識(shí)樣本進(jìn)行分類。最流行的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是后向傳播算法。后向傳播算法是在多層前饋神經(jīng)網(wǎng)絡(luò)上進(jìn)行學(xué)習(xí)的。這種神經(jīng)網(wǎng)絡(luò)具有一個(gè)輸入層和一個(gè)輸出層，在兩者之間可能包含多個(gè)中間層，這些中間層叫做隱藏層。后向傳播通過(guò)迭代地處理一組訓(xùn)練樣本，將每個(gè)樣本的網(wǎng)絡(luò)預(yù)測(cè)與實(shí)際知道的類標(biāo)號(hào)比較，進(jìn)行學(xué)習(xí)。對(duì)于每個(gè)訓(xùn)練樣本，修改權(quán)值，使得網(wǎng)絡(luò)預(yù)測(cè)和實(shí)際類之間的均方誤差最小。這種修改后向進(jìn)行，即由輸出層，經(jīng)由每個(gè)隱藏層，到第一個(gè)隱藏層。一般的，權(quán)將最終收斂，學(xué)習(xí)過(guò)程停止。算法的每一次迭代包括兩個(gè)階段：前向階段和后向階段。在前向階段，使用前一次迭代所得到的權(quán)值計(jì)算網(wǎng)絡(luò)中每一個(gè)神經(jīng)元的輸出值。計(jì)算是向前進(jìn)行的，先計(jì)算第k層神經(jīng)元的輸出，再計(jì)算第k1層的輸出。在后向階段，以相反的方向應(yīng)用權(quán)值更新公式，先更新k1層的權(quán)值，再更新第k層的權(quán)值。 232優(yōu)缺點(diǎn)。神經(jīng)網(wǎng)絡(luò)法的優(yōu)點(diǎn)是有較強(qiáng)的抗噪能力，對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)也具有較好的預(yù)測(cè)分類能力。神經(jīng)網(wǎng)絡(luò)的主要缺點(diǎn)是用加權(quán)鏈連結(jié)單元的網(wǎng)絡(luò)所表示的知識(shí)很難被人理解、學(xué)習(xí)時(shí)間較長(zhǎng)，僅適用于時(shí)間容許的應(yīng)用場(chǎng)合；對(duì)于如網(wǎng)絡(luò)結(jié)構(gòu)等關(guān)鍵參數(shù)，通常需要經(jīng)驗(yàn)方能有效確定。 24基于源自關(guān)聯(lián)規(guī)則挖掘概念的分類 241基本思想。關(guān)聯(lián)規(guī)則聚類系統(tǒng)是基于聚類挖掘關(guān)聯(lián)規(guī)則，然后使用規(guī)則進(jìn)行分類。挖掘形如Aquan1Aquan2Acat的關(guān)聯(lián)規(guī)則；其中，Aquan1，Aquan2是在量化屬性區(qū)間上的測(cè)試，為給定訓(xùn)練數(shù)據(jù)的分類屬性指定一個(gè)類標(biāo)號(hào)。關(guān)聯(lián)規(guī)則畫在2-D柵格上。算法掃描柵格，搜索規(guī)則的矩形聚類。由ARCS產(chǎn)生的聚類關(guān)聯(lián)規(guī)則用于分類，其準(zhǔn)確率與C45差不多，精確度比C45高一點(diǎn)。關(guān)聯(lián)分類挖掘形如condsety的規(guī)則，condset是項(xiàng)屬性一值對(duì)的集合，y是類標(biāo)號(hào)。若給定數(shù)據(jù)集中的樣本s包含condset并且屬于類y，則規(guī)則的支持度為s。若規(guī)則滿足預(yù)先指定的最小支持度，則該規(guī)則是頻繁；若給定數(shù)據(jù)集中包含conset的樣本c屬于類y，則規(guī)則的置信度為c；若滿足最小置信度，則該規(guī)則是精確的。如果一個(gè)規(guī)則項(xiàng)集具有相同的condset，則選擇具有最高置信度的規(guī)則作為可能規(guī)則，代表該集合。 242關(guān)聯(lián)分類方法由兩步組成。第一步是找出所有頻繁的、精確的PR集合。算法使用迭代方法，類似Apriori。第二步使用一種啟發(fā)式方法構(gòu)造分類，發(fā)現(xiàn)的規(guī)則按支持度和置信度遞減的優(yōu)先次序組織，用滿足新樣本滿足該樣本的第一個(gè)規(guī)則對(duì)其分類。CBA是關(guān)聯(lián)分類的經(jīng)典算法，該方法比c45更精確。 25其他分類方法用于數(shù)據(jù)分類的方法還有：基于案例的推理分類法、遺傳算法等。 251基于案例的推理分類法?；诎咐耐评矸诸惙ㄊ腔谝蟮模浯娣诺臉颖臼菑?fù)雜的符號(hào)描述。當(dāng)給定一個(gè)待分類的新案例時(shí)，基于案例的推理首先檢查是否存在一個(gè)同樣的訓(xùn)練案例。如果找到一個(gè)，則返回附在該案例上的解。如果找不到同樣的案例，則基于案例的推理將搜索具有類似于新案例成分的訓(xùn)練案例，這些訓(xùn)練案例可視為新案例的鄰接者。 252遺傳算法。遺傳算法結(jié)合了自然進(jìn)化的思想。遺傳學(xué)習(xí)開(kāi)始時(shí)創(chuàng)建了一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體，每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示。根據(jù)適者生存的原則，形成由當(dāng)前群體中最適合的規(guī)則組成的新群體，以及這些規(guī)則的后代。后代通過(guò)使用諸如交叉和變異等遺傳操作來(lái)創(chuàng)建。由先前的規(guī)則群體產(chǎn)生新的規(guī)則群體的過(guò)程繼續(xù)進(jìn)化，直到群體中每個(gè)規(guī)則滿足預(yù)先指定的適合度值3數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)已應(yīng)用于許多領(lǐng)域，如在學(xué)校、銀行、電信、股市、保險(xiǎn)、交通、零售等領(lǐng)域已得到廣泛的應(yīng)用。31數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用隨著招生規(guī)模的擴(kuò)大，高校的學(xué)生人數(shù)就達(dá)到上萬(wàn)人，甚至幾萬(wàn)人，考試成績(jī)達(dá)到幾十萬(wàn)個(gè)數(shù)據(jù)，還有大量的學(xué)習(xí)成績(jī)以外的影響因素，傳統(tǒng)的學(xué)習(xí)成績(jī)分析方法已不能完全滿足需要，對(duì)此引入數(shù)據(jù)挖掘技術(shù)以找到影響學(xué)生成績(jī)的真實(shí)原因，制定相應(yīng)的措施，提高教育教學(xué)質(zhì)量。 32 數(shù)據(jù)挖掘技術(shù)在金融企業(yè)中的應(yīng)用 321數(shù)據(jù)挖掘技術(shù)在證券行業(yè)中得到廣泛應(yīng)用，數(shù)據(jù)挖掘技術(shù)作為分析與輔助決策工具已經(jīng)越來(lái)越得到國(guó)內(nèi)券商的重視。322數(shù)據(jù)挖掘技術(shù)也應(yīng)用于銀行業(yè)，數(shù)據(jù)挖掘可以從大量的歷史記錄中發(fā)現(xiàn)或挖掘出這種關(guān)聯(lián)關(guān)系更深層次的、更詳盡的方面。323數(shù)據(jù)挖掘技術(shù)也應(yīng)用于保險(xiǎn)業(yè)保險(xiǎn)金的確定:對(duì)受險(xiǎn)人員的分類有助于確定適當(dāng)?shù)谋ｋU(xiǎn)金額度。通過(guò)數(shù)據(jù)挖掘可以得到對(duì)不同行業(yè)的人、不同年齡段的人、處于不同社會(huì)層次的人的保險(xiǎn)金該如何確定。險(xiǎn)種關(guān)聯(lián)分析:分析購(gòu)買了某種保險(xiǎn)的人是否同時(shí)購(gòu)買另一種保險(xiǎn)。預(yù)測(cè)什么樣的顧客會(huì)購(gòu)買新險(xiǎn)種。33 數(shù)據(jù)挖掘技術(shù)在零售企業(yè)中的應(yīng)用從超市銷售管理系統(tǒng)、客戶資料管理及其他運(yùn)營(yíng)數(shù)據(jù)中，可以收集到關(guān)于商品銷售、客戶信息、庫(kù)存及超市店面信息等的信息資料。數(shù)據(jù)從各種應(yīng)用系統(tǒng)中采集，經(jīng)按不同條件分類，存放到數(shù)據(jù)倉(cāng)庫(kù)，允許管理人員、分析人員、采購(gòu)人員、市場(chǎng)人員和客戶訪問(wèn)，利用數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析，為管理者提供高效的科學(xué)決策工具。4數(shù)據(jù)挖掘應(yīng)用實(shí)例41提出問(wèn)題。一個(gè)自行車廠商想要通過(guò)廣告宣傳來(lái)吸引顧客。他們從各地的超市獲得超市會(huì)員的信息，計(jì)劃將廣告冊(cè)和禮品投遞給這些會(huì)員。但是投遞廣告冊(cè)是需要成本的，不可能投遞給所有的超市會(huì)員。而這些會(huì)員中有的人會(huì)響應(yīng)廣告宣傳，有的人就算得到廣告冊(cè)不會(huì)購(gòu)買。所以最好是將廣告投遞給那些對(duì)廣告冊(cè)感興趣從而購(gòu)買自行車的會(huì)員。分類模型的作用就是識(shí)別出什么樣的會(huì)員可能購(gòu)買自行車。42自行車廠商首先從所有會(huì)員中抽取了1000個(gè)會(huì)員，向這些會(huì)員投遞廣告冊(cè)，然后記錄這些收到廣告冊(cè)的會(huì)員是否購(gòu)買了自行車。數(shù)據(jù)如表1所示。表1 會(huì)員實(shí)例模型數(shù)據(jù)事例列會(huì)員編號(hào)12496141772438125597輸入列婚姻狀況MarriedMarriedSingleSingle性別FemaleMaleMaleMale收入40000800007000030000孩子數(shù)1500教育背景BachelorsPartial CollegeBachelorsBachelors職業(yè)Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽車數(shù)0210上班距離0-1 Miles2-5 Miles5-10 Miles0-1 Miles區(qū)域EuropeEuropePacificEurope年齡42604136預(yù)測(cè)列是否購(gòu)買自行車NoNoYesYes在分類模型中，每個(gè)會(huì)員作為一個(gè)事例，居民的婚姻狀況、性別、年齡等特征作為輸入列，所需預(yù)測(cè)的分類是客戶是否購(gòu)買了自行車。43訓(xùn)練數(shù)據(jù)集填充模型使用1000個(gè)會(huì)員事例訓(xùn)練模型后得到的決策樹(shù)分類如圖1所示：圖1 會(huì)員事例訓(xùn)練模型后得到的決策樹(shù)分類431圖中矩形表示一個(gè)拆分節(jié)點(diǎn)，矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點(diǎn)包含事例的數(shù)量，顏色越深包含的事例越多，如全部節(jié)點(diǎn)包含所有的1000個(gè)事例，顏色最深。經(jīng)過(guò)第一次基于年齡的拆分后，年齡大于67歲的包含36個(gè)事例，年齡小于32歲的133個(gè)事例，年齡在39和67歲之間的602個(gè)事例，年齡32和39歲之間的229個(gè)事例。所以第一次拆分后，年齡在39和67歲的節(jié)點(diǎn)顏色最深，年齡大于67歲的節(jié)點(diǎn)顏色最淺。節(jié)點(diǎn)中的條包含兩種顏色，紅色和藍(lán)色，分別表示此節(jié)點(diǎn)中的事例購(gòu)買和不購(gòu)買自行車的比例。如節(jié)點(diǎn)“年齡=67”節(jié)點(diǎn)中，包含36個(gè)事例，其中28個(gè)沒(méi)有購(gòu)買自行車，8個(gè)購(gòu)買了自行車，所以藍(lán)色的條比紅色的要長(zhǎng)。表示年齡大于67的會(huì)員有7462%的概率不購(gòu)買自行車，有2301%的概率購(gòu)買自行車。432在圖中，可以找出幾個(gè)有用的節(jié)點(diǎn)：1年齡小于32歲，居住在太平洋地區(qū)的會(huì)員有7275%的概率購(gòu)買自行車；2年齡在32和39歲之間的會(huì)員有6842%的概率購(gòu)買自行車；3年齡在39和67歲之間，上班距離不大于10公里，只有1輛汽車的會(huì)員有6608%的概率購(gòu)買自行車；4年齡小于32歲，不住在太平洋地區(qū)，上班距離在1公里范圍內(nèi)的會(huì)員有5192%的概率購(gòu)買自行車；44模型訓(xùn)練后，還無(wú)法確定模型的分類方法是否準(zhǔn)確?？梢杂媚Ｐ蛯?duì)300個(gè)會(huì)員的檢驗(yàn)集進(jìn)行查詢，查詢后，模型會(huì)預(yù)測(cè)出哪些會(huì)員會(huì)購(gòu)買自

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘論文.doc

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘論文.doc

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔