版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘定義:通過自動或半自動化的工具對大量的數(shù)據(jù)進(jìn)行探索和分析的過程,其目的是發(fā)現(xiàn)其中有意義的模式和規(guī)律?!獢?shù)據(jù)挖掘是一門技能,不是一種現(xiàn)成的產(chǎn)品。數(shù)據(jù)挖掘能做什么6種方法:分類(classification)、估計(estimation)、預(yù)測(prediction)、組合或關(guān)聯(lián)法則(affinitygroupingorassociationrules)、聚類(clustering)、描述與可視化(descriptionandvisualization)前三種方法屬于直接的數(shù)據(jù)挖掘,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其他可得到的數(shù)據(jù)來描述我們感興趣某一變量。后三種方法屬于間接的數(shù)據(jù)挖掘,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。分類:其特點(diǎn)是先對不同的類別加以定義,并由預(yù)先分類的樣本構(gòu)成訓(xùn)練集。任務(wù)是建立一個模型并應(yīng)用這一模型對未分類數(shù)據(jù)進(jìn)行分類。分類處理的是離散的結(jié)果。估計處理的是連續(xù)的結(jié)果。組合法的任務(wù)是確認(rèn)哪些事物會一起出現(xiàn)。聚類的任務(wù)是將相似的事物分成一類,差異較大的事物分在不同的類中。聚類與分類的區(qū)別是聚類并不依賴于事先確定好的組別。技術(shù)層面的數(shù)據(jù)挖掘算法與技巧數(shù)據(jù)建模實踐二、數(shù)據(jù)挖掘方法論:互動循環(huán)系統(tǒng)數(shù)據(jù)挖掘的兩種類型一種是自上而下的方法,稱之為有監(jiān)督的數(shù)據(jù)挖掘方法,當(dāng)明確知道要搜索的目標(biāo)時,可以是用這種方法。一種是自下而上的方法,稱之為無監(jiān)督的數(shù)據(jù)挖掘方法,實際就是讓數(shù)據(jù)解釋自己。此方法是在數(shù)據(jù)中尋找模式,然后把產(chǎn)生的結(jié)果留給使用者去判斷其中哪些模式重要。數(shù)據(jù)挖掘的結(jié)果通常是這兩種方法的結(jié)合。有監(jiān)督的數(shù)據(jù)挖掘黑匣子模型:使用一個或多個輸入值產(chǎn)生一個輸出的模型。我們并不關(guān)心模型如何運(yùn)作,那只是黑盒子,我們只關(guān)心可能的最優(yōu)結(jié)果。我們根據(jù)已知事例,分析其相關(guān)資料,將分析結(jié)果用在從未聯(lián)絡(luò)的潛在客戶,這樣的模型稱之為預(yù)測模型。預(yù)測模型使用歷史記錄來計算某些相應(yīng)結(jié)果中的得分。成功預(yù)測的要領(lǐng)之一是擁有足夠支持結(jié)果的數(shù)據(jù)來訓(xùn)練模型。2)無監(jiān)督的數(shù)據(jù)挖掘半透明模型:有時需要使用模型能夠得到與數(shù)據(jù)相關(guān)的重要信息,我們也需要了解模型的運(yùn)作細(xì)節(jié),這就好比一組半透明的盒子。數(shù)據(jù)挖掘的互動循環(huán)過程數(shù)據(jù)挖掘的互動過程是一種高層次的流程,由四個重要的業(yè)務(wù)過程所構(gòu)成:理解業(yè)務(wù)問題;將數(shù)據(jù)轉(zhuǎn)換成可執(zhí)行的結(jié)果;結(jié)果實施過程;評價結(jié)果的實施。將數(shù)據(jù)轉(zhuǎn)換成可操作的決策數(shù)據(jù)挖掘的核心是將數(shù)據(jù)轉(zhuǎn)換為可操作的結(jié)果。建立模型的第一步是確認(rèn)和獲得合適的數(shù)據(jù)。首先要考慮得到的數(shù)據(jù)是否符合解決企業(yè)業(yè)務(wù)問題的需要;在建模的時候需要盡可能完整的數(shù)據(jù)。------將數(shù)據(jù)轉(zhuǎn)換成具有合適粒度的數(shù)據(jù)。粒度是指建模數(shù)據(jù)的級別大小。------加入衍生變量是數(shù)據(jù)挖掘過程的第三步。衍生變量值是合并原始數(shù)據(jù)生成的結(jié)果。------準(zhǔn)備建模數(shù)據(jù)集,將數(shù)據(jù)集分成三部分:訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集、評估數(shù)據(jù)集。------將結(jié)果生成決策??梢再x之以行動的結(jié)果有如下幾種不同的表現(xiàn)方式:新的認(rèn)知;用于特定商業(yè)活動的結(jié)果;可被儲存的結(jié)果;周期性預(yù)測結(jié)果;實時得分;修復(fù)數(shù)據(jù)。預(yù)測模型在使用(生成得分)之前必須得到訓(xùn)練(構(gòu)建):訓(xùn)練模型是使用歷史數(shù)據(jù)和待預(yù)測信息已知的數(shù)據(jù)創(chuàng)建模型的過程。較多的近期數(shù)據(jù)+預(yù)測模型預(yù)測、可信度用預(yù)測模型產(chǎn)生評分是這樣一個過程,它將模型應(yīng)用到未來的數(shù)據(jù)中,預(yù)測未來。預(yù)測模型的成功應(yīng)用依賴于三個假定:過去是將來的預(yù)言家。數(shù)據(jù)是可獲得的。數(shù)據(jù)中應(yīng)包括我們的預(yù)期目標(biāo)??蛻艉退麄兊纳芷谡l是企業(yè)的客戶客戶大致分為兩種類型:消費(fèi)者(consumer)和企業(yè)客戶(businesscustomer)。消費(fèi)者經(jīng)濟(jì)營銷單位是市場營銷中對客戶的描述。由于客戶在經(jīng)濟(jì)活動中的多重身份,客戶的答案也不統(tǒng)一,具體表現(xiàn)如下:行為身份(actionrole),表示對某項互動活動的個體或?qū)嶓w;所有權(quán)身份(ownershiprole),表示擁有某項經(jīng)濟(jì)活動所有權(quán)的個體或?qū)嶓w;決策身份(decisionmakingrole),表示具有制定和影響購買決策和行為的個體或?qū)嶓w,這種身份用于家庭。企業(yè)客戶消費(fèi)者的身份是購買最終產(chǎn)品和服務(wù),而企業(yè)客戶的身份是向你行銷、出售、提供產(chǎn)品和服務(wù)。企業(yè)客戶間的關(guān)系更加復(fù)雜。市場行銷中的間接關(guān)系,是客戶的關(guān)系變得異常復(fù)雜。由于客戶關(guān)系的越趨復(fù)雜,分析這些關(guān)系時必須考慮到企業(yè)中介的作用。普通消費(fèi)者和企業(yè)客戶最大區(qū)別在于有沒有賬戶管理團(tuán)隊(accountmanagementteam)的存在。從合作的角度,數(shù)據(jù)挖掘必須能夠支持賬戶管理系統(tǒng)。客戶市場細(xì)分指的是將客戶劃分為互不相交的不同的類別。客戶的生命周期1)客戶的生命周期指的是一個客戶和一個企業(yè)之間不同的關(guān)系階段,它直接影響到客戶對一個公司的長期價值。一般認(rèn)為有如下三種方法提升客戶的價值:對客戶已有產(chǎn)品增添新功能,或者說提升產(chǎn)品的購買價值;向客戶出售更多、更容易升級的產(chǎn)品;使客戶能長期購買本公司的產(chǎn)品??蛻舻谋尘百Y料是客戶和公司商業(yè)交往中的詳細(xì)檔案。客戶生命周期的不同階段客戶生命周期中的重要事件客戶生命周期中不同時段所產(chǎn)生的資料未來潛在客戶的資料通常最少。響應(yīng)資料指的是客戶對促銷活動所做出的反應(yīng)的資料??蛻舻纳砩芷诔丝蛻舻南M(fèi)生命周期外,我們還要考慮客戶本身的生理生命周期。這些重要事件包括以下幾個方面:更換工作、初為人母、結(jié)婚娶嫁、離職退休、搬遷新居、重疾有染等。這些事件都為公司發(fā)展客戶,改善客戶關(guān)系提供了有利時機(jī)。選擇最佳時機(jī),鎖定最佳客戶兩種觀點(diǎn),來評價客戶關(guān)系管理的好壞:一是將注意力放在客戶身上,節(jié)支增收;二是將每一位客戶的價值最大化。預(yù)算最優(yōu)化促銷活動最優(yōu)化客戶最優(yōu)化最好的下一個信息包括所能提供的任何類型,諸如:對新客戶提供不一樣的促銷;選擇適當(dāng)?shù)墓艿纴韨鬟f信息;針對將要離開的客戶,推出留念客戶的方案;針對將要停止付費(fèi)的客戶,推出解決方案;針對客戶不同的需求,推出量身定做的服務(wù);所能提供的不同產(chǎn)品。第二部分?jǐn)?shù)據(jù)挖掘的三大支柱三大支柱:數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)和數(shù)據(jù)建模數(shù)據(jù)挖掘技術(shù)和算法不同的目標(biāo)要求不同的技術(shù)數(shù)據(jù)挖掘功能可以是目標(biāo)性的,也可以是描述性的,其差異取決于數(shù)據(jù)挖掘?qū)嵺`的目標(biāo)。1)目標(biāo)性數(shù)據(jù)挖掘首要任務(wù)是創(chuàng)建一個可以預(yù)測、指定標(biāo)記以及估計數(shù)值的預(yù)測模型,從而可以自動實現(xiàn)決策過程。2)描述性數(shù)據(jù)挖掘的主要任務(wù)是增加對數(shù)據(jù)深入的了解,然后了解數(shù)據(jù)所反映的廣泛的現(xiàn)實世界。2、三種數(shù)據(jù)挖掘技術(shù)自動類別偵測(automaticclusterdetection);決策樹(decisiontrees);神經(jīng)網(wǎng)絡(luò)(neuralnetworks)。自動類別偵測區(qū)隔方法:把所有的記錄認(rèn)為是一個大類,然后這個類分成兩個或更多較小的類,這些較小的類自身也被拆分,直到最后每個記錄只屬于一個類為止。該過程的每一步都會記錄下有關(guān)分群的度量值,直到最后能找到最佳的聚類集合。凝聚方法:先把每個記錄當(dāng)作一個類,不斷的組合新的類,直到最后所有的記錄變成一個類。K-均值聚類法(k-means),當(dāng)輸入變量是數(shù)值型時,這種算法效果更好。K-均值算法是把數(shù)據(jù)集拆分成預(yù)先給定數(shù)目的類,這個數(shù)目就是“K-均值”中的“K”。第一步:選擇K個數(shù)據(jù)點(diǎn)作為種子點(diǎn)(seed),多少可任意。每個種子點(diǎn)是只有一個元素的胚胎群。第二步:把每個記錄點(diǎn)歸于離其質(zhì)心最近的那個類。初始種子間用虛線連接,由種子產(chǎn)生的類的界限(兩個初始種子連線的中垂線)用實現(xiàn)表示,可完成以初始種子為中心的歸類。第三步:計算新類的質(zhì)心(取每個字段的平均),再按照新類的界限(每隊質(zhì)心的中垂線)把每個點(diǎn)歸類,依次迭代直到類與類之間的界限不再改變。自動類別偵測是一種無監(jiān)督的方法,即便沒有對于問題的先驗知識也可以應(yīng)用,另一方面除了將數(shù)據(jù)映射到幾何坐標(biāo)體系,可以從一定程度上反映一些樣本點(diǎn)彼此臨近的程度外,我們無法得知這樣做的道理,因此聚類的結(jié)果實際很難應(yīng)用。自動聚類算法產(chǎn)生的聚類結(jié)果并不都保證有實際價值,一旦產(chǎn)生類別就由我們自己來解釋,三種最常用的是:把類別作為目標(biāo)變量建一個決策樹,并用它產(chǎn)生一些規(guī)則解釋如何歸類新的樣品;使用可視化方法研究觀察這些類別如何受輸入變量變化的影響;檢查一類到另一類變量分布的差異,每一次一個變量。決策樹按功能分決策樹有兩種類型:分類樹,對樣品進(jìn)行標(biāo)識并把它們正確歸類。同時還可以提供分類正確的信度?;貧w樹,對數(shù)值型的目標(biāo)變量進(jìn)行估計。不同決策樹算法的不同主要體現(xiàn)在三個方面:樹的每一層允許的拆分點(diǎn)的數(shù)目。建樹時拆分點(diǎn)的選擇原則。為了防止“過度擬合”,該怎樣抑制樹的成長。決策樹的工作原理:決策樹的每個分枝相當(dāng)于單變量的校驗,結(jié)果將整個空間分成兩個或更多空間。例子:設(shè)定僅有兩個變量X和Y,每個變量取值在0~100之間。樹的每個拆分點(diǎn)都是二分的,在每個拆分點(diǎn)處,根據(jù)對X或Y的校驗,一個記錄要么進(jìn)入左枝要么進(jìn)入右枝。決策樹的建立過程:決策樹是通過遞推分割的方式建立起來的。遞推分割是一種把數(shù)據(jù)拆分成不同小的部分的迭代過程。確定初始拆分點(diǎn)這個過程始于包含預(yù)分類樣品的訓(xùn)練集。所謂預(yù)分類,就是在這些數(shù)據(jù)集中,目標(biāo)變量標(biāo)識了已知的類別。我們的目標(biāo)就是建立一個能區(qū)分不同類別的樹,也就是說根據(jù)其他變量或自變量的取值,這棵樹能夠?qū)π聵悠返哪繕?biāo)變量進(jìn)行分類。第一個步驟是選擇哪一個字變量是最佳拆分變量。評估一個可能的拆分點(diǎn)的度量是差異的減少。------度量差異性:基尼系數(shù),目地是度量總體的差異程度。解釋為從總體中有放回地隨機(jī)取得兩個樣品屬于不同類別的概率,一個種類被連續(xù)兩次抽到的概率是P^2,差異系數(shù)就是1減去所有的P^2。當(dāng)只有兩個類別時差異系數(shù)就是2P(1-P)。差異總的減少為根部的差異減去后代加權(quán)的差異,最佳拆分點(diǎn)就是差異性減少最大的那一個。初始拆分點(diǎn)會形成兩個節(jié)點(diǎn),每一個節(jié)點(diǎn)會像根節(jié)點(diǎn)一樣被再次拆分。若某一個節(jié)點(diǎn)下的結(jié)果都是一樣的,就沒必要拆分下去了,這樣的節(jié)點(diǎn)叫做葉節(jié)點(diǎn)。樹的修剪,修剪是為了改善決策樹各位而把一些枝葉修剪的過程。樹長到一定深度時,模型已經(jīng)是對訓(xùn)練集的過度擬合。如何處理過度擬合?解決方法主要是修剪法和盆栽法:盆栽法盡力限制樹的成長以免它長得太深。每個節(jié)點(diǎn)都會使用各種檢驗決定更深入的拆分是否有用。檢驗方法可以是規(guī)定每個節(jié)點(diǎn)下最小的記錄數(shù)目,也可以對每一個可能的拆分用統(tǒng)計檢驗其顯著性。修剪法可以允許初始決策樹長的足夠深,然后用一些規(guī)則剪掉不是一般性的枝節(jié)。通常的方法是找到初始決策樹的各種各樣的越來越小的子樹相關(guān)的分類錯誤率。樹以及它所有的子樹的效果是由一系列的叫作檢驗集的已經(jīng)分類數(shù)據(jù)集合來度量的,僅用一個檢驗集,算法是根據(jù)最小的基于檢驗集的誤差率可以把樹修剪回一棵子樹。選擇決策樹所產(chǎn)生的后果決策樹的每一次分隔都是根據(jù)單一變量所在的檢驗,因此決策樹不可能發(fā)現(xiàn)有關(guān)變量之間互相關(guān)系的規(guī)則,這使得有必要增加一些可能會很重要的衍生變量。什么時候選擇決策樹當(dāng)數(shù)據(jù)挖掘的任務(wù)是對記錄的分類或者未知結(jié)果的預(yù)測時,決策樹是一個好的選擇。當(dāng)目的是把每個記錄歸并到許多范圍更大的目錄的其中時,可以選擇決策樹的方法。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)有一個輸入層和一個輸出層,每個輸入值本身就是一個單元或網(wǎng)絡(luò)節(jié)點(diǎn)。一般進(jìn)入輸入層的并不是輸入變量的實際值,而是通過一個權(quán)重和輸出單元相聯(lián)系。在輸出單元內(nèi)部,各輸入權(quán)重通過一個組合函數(shù)組合起來,然后向后傳遞到轉(zhuǎn)移函數(shù),其結(jié)果就是神經(jīng)網(wǎng)絡(luò)的輸出。組合函數(shù)和轉(zhuǎn)移函數(shù)一起構(gòu)成了激活函數(shù)。隱層:通常在輸入層和輸出層之間還會有一個或多個層,叫做隱層,其中的單元叫隱單元。激活函數(shù):組合函數(shù)通常是輸入變量的加權(quán)求和函數(shù),常見的轉(zhuǎn)移函數(shù)是S形或鐘的。鐘形轉(zhuǎn)移函數(shù)也叫做徑向基函數(shù)。常見的S形轉(zhuǎn)移函數(shù)是正切函數(shù)、雙曲正切函數(shù)和邏輯斯函數(shù)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練:訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)就是把權(quán)重分配給每個單元的輸入變量的過程,所產(chǎn)生的神經(jīng)網(wǎng)絡(luò)對重要的函數(shù)要有最好的擬合近似。從更廣的意義上看,建立神經(jīng)網(wǎng)絡(luò)模型的大多軟件包使用這種最優(yōu)化方法的變體,就是向后傳播方法。后向傳播訓(xùn)練一個后向傳播神經(jīng)網(wǎng)絡(luò)有三個步驟:得到一個訓(xùn)練實例。在網(wǎng)絡(luò)中使用現(xiàn)有的權(quán)重計算實例的輸出;后向傳播然后計算——取計算結(jié)果和期望(實際)結(jié)果的差;該誤差用來調(diào)整權(quán)重。數(shù)據(jù)準(zhǔn)備問題神經(jīng)網(wǎng)絡(luò)模型要產(chǎn)生好的結(jié)果必須作大量的數(shù)據(jù)準(zhǔn)備工作。神經(jīng)網(wǎng)絡(luò)的輸入量必須變換到特定的一個區(qū)域(通常是-1到1之間),需要詳細(xì)考慮針對輸入數(shù)據(jù)的附加變換和操作。定類變量需要轉(zhuǎn)變?yōu)閿?shù)值型變量,而且不能有偽排序。關(guān)于定類變量的另一方法是為變量可能取到的每一個值產(chǎn)生一個二分的標(biāo)簽變量。何時使用神經(jīng)網(wǎng)絡(luò)如果在分類和預(yù)測中模型的結(jié)果比了解模型的原理更為重要,神經(jīng)網(wǎng)絡(luò)就是很好的選擇。當(dāng)有成百上千個特征量要輸入時,神經(jīng)網(wǎng)絡(luò)的效果就不是很好,可能會導(dǎo)致長時間的訓(xùn)練且不會收斂于好的結(jié)果,這時需要把它和決策樹結(jié)合起來使用。五、無所不在的數(shù)據(jù)1、數(shù)據(jù)結(jié)構(gòu)行:在數(shù)據(jù)挖掘中行是行為的集合,行的定義取決于數(shù)據(jù)挖掘結(jié)果如何使用。列:列或段代表了在每條記錄里的數(shù)據(jù)。對數(shù)據(jù)挖掘十分重要的一些特例:只有一種值的列。只有一種值有時是數(shù)據(jù)的一個特性。幾乎只含一種值的列。拇指規(guī)則是即使某一列被證實是很有信息量的,但如果它幾乎是單一值,則意味著沒有用處。也就是說如果某一列95%~99%的值相同,這一列很可能沒有。列的值各不相同。另一個極端是列的值在每一行上都不相同或幾乎不同,這樣的列同樣沒有用處。因為每個記錄上數(shù)值幾乎不同使得無法產(chǎn)生預(yù)測值。忽略與目標(biāo)同義的列。當(dāng)某一列和目標(biāo)列相關(guān)度很高時,可能意味這一列是目標(biāo)列的同列。數(shù)據(jù)挖掘中列的作用,其三種基本種類角色是:輸入列;目標(biāo)列(只有當(dāng)構(gòu)造預(yù)測模型時才使用);忽略列。簡而言之,數(shù)據(jù)挖掘中的數(shù)據(jù)需要采用以下格式:所有數(shù)據(jù)應(yīng)該在一個表格或數(shù)據(jù)庫視圖中。每一行對應(yīng)于業(yè)務(wù)問題相關(guān)的一個案例。忽略具有單一值的列。忽略所有行的值都不同的列。對于預(yù)測模型,目標(biāo)列是可識別的;刪除所有同義列。數(shù)據(jù)來源:數(shù)據(jù)通常存儲于關(guān)系數(shù)據(jù)庫,也可以是平面、樹型或其他復(fù)雜文件結(jié)構(gòu)。操作系統(tǒng);數(shù)據(jù)倉庫;數(shù)據(jù)市場和在線分析處理系統(tǒng);調(diào)查和產(chǎn)品登記數(shù)據(jù);外部數(shù)據(jù)源。度量數(shù)據(jù)取值的不同方法次序是最重要的度量性質(zhì)。無自然順序的數(shù)據(jù)列被稱為定類數(shù)據(jù)。定類型數(shù)據(jù)列有一個含義明確的數(shù)值集合,這些數(shù)值通常沒有自然順序的類別標(biāo)識,無序性是定類數(shù)據(jù)的重要特性之一。有序的數(shù)據(jù)列則呈現(xiàn)出幾種不同的風(fēng)格:定序型:有順序但不允許算術(shù)運(yùn)算。通常,對數(shù)值型變量的值域進(jìn)行區(qū)間分割,就會得到定序變量。區(qū)間劃分能平衡數(shù)值分布上的不平均,這也是處理極值點(diǎn)的一種方法。定距型:有順序并允許進(jìn)行減法運(yùn)算,但不能進(jìn)行加法運(yùn)算。日期、時間、溫度是最常見的例子。數(shù)值型:支持四則運(yùn)算,可以將兩個數(shù)值型數(shù)據(jù)相加,或進(jìn)行其他類型的四則運(yùn)算。衍生變量衍生變量是原始數(shù)據(jù)中并不存在的通過計算合成而得的變量。1)按照合適的間隔尺度對數(shù)據(jù)進(jìn)行分類匯總后所積累而成的匯總值構(gòu)成了衍生變量的一大類。2)對多個列變量進(jìn)行計算會得到一類重要的衍生變量。這種方法利用一行中已經(jīng)存在的數(shù)據(jù)計算新的數(shù)值。3)從某一列中提取信息。日期數(shù)據(jù)包含著關(guān)于行為的豐富信息。六:建立有效的預(yù)測模型建立好的預(yù)測模型預(yù)測模型的建立過程:模型是通過預(yù)分類數(shù)據(jù)中的一部分?jǐn)?shù)據(jù)來建立的。用于建立模型的這部分?jǐn)?shù)據(jù)被稱為訓(xùn)練集。利用另外一個子集——測試集來對模型進(jìn)行修正??梢怨烙嬆P偷男Ч?,或者對模型的效果進(jìn)行比較。這個過程需要用到第三個數(shù)據(jù)集——評價集。它是在建模和測試修正過程中尚未用到的那部分?jǐn)?shù)據(jù)的集合,也是模型集的一個部分。將模型應(yīng)用于得分集。得分集沒有進(jìn)行預(yù)分類,也不是模型集的一部分。對模型集進(jìn)行處理分割與掌握:訓(xùn)練集、測試集與評價集要訣:對模型集按照60:30:10的百分比劃分,結(jié)果較好。模型集規(guī)模對模型效果的影響:訓(xùn)練模型的數(shù)據(jù)量越大效果會越好。但是模型集過大可能不是最好的選擇。調(diào)整模型參數(shù)模型集密度對模型效果的影響抽樣:從原始數(shù)據(jù)集中抽取一定量的記錄構(gòu)成新數(shù)據(jù)集的過程。過抽樣:多抽取稀有結(jié)果,少抽取常見結(jié)果,以建立模型集的過程。其目的是調(diào)整模型集中常見結(jié)果和非常見結(jié)果的比例。使用多個模型多個模型的表決每個模型都做出了自己的預(yù)測,然后將各項預(yù)測進(jìn)行比較,當(dāng)所有模型結(jié)果都一致時置信度通常會更高。替代已有的模型:表決的簡單問題。有多個可以取代老模型的模型,在第一階段需要對所有模型進(jìn)行表決,模型越老,表決的權(quán)重就越大。第二階段在將這些模型同新近一點(diǎn)的模型進(jìn)行比較的同時,還要在這些模型直接進(jìn)行比較。最后老模型就可以“退休”了。試用多種技巧對定性預(yù)測采取多數(shù)制原則,對定量預(yù)測采取平均值方法。對模型結(jié)果進(jìn)行組合,方法可以是將預(yù)測結(jié)果當(dāng)作擁有一定可靠度的佐證。例如:模型A——>“暗的”置信度為80%模型B——>“亮的”置信度為60%模型C——>“暗的”置信度為50%“暗的”置信度為:模型A為80%,模型B為40%,模型C為50%“亮的”置信度為:模型A為20%,模型B為60%,模型C為50%我們把置信度值組合起來當(dāng)作證據(jù),假設(shè)各個分離的模型是獨(dú)立的,則“暗的”證據(jù)是80%×40%×50%=16%,“亮的”證據(jù)是20%×6%×50%=6%,證據(jù)的總是則為16%+6%=22%,“暗的”置信度就是它的證據(jù)占總證據(jù)的百分比即:16%/22%=72.7%,對應(yīng)“亮的”置信度為27.2%。將輸入分段將輸入分段進(jìn)入模型有兩個基本原因:第一是處理缺失數(shù)據(jù),并不是所有的記錄都可以獲得相應(yīng)的數(shù)據(jù)的;第二:要將商業(yè)信息融入建模過程。將數(shù)據(jù)分段,一種方式是利用自動聚類算法,給每條記錄都分配一個組別,然后將各個組看作不同的分段。不過這種方法所產(chǎn)生的結(jié)果并不是總令人滿意,因為此時模型集很小。模型的分段模型的分段與輸入分段模型密切相關(guān),二者最大的區(qū)別在于輸入分段模型其分隔是預(yù)先知道的,而對模型分段,其數(shù)據(jù)的分段則由另外一個模型決定。其目的常常就是只就其中一個部分?jǐn)?shù)據(jù)來建立模型。誤差修正增強(qiáng)數(shù)據(jù)做試驗!模型集規(guī)模、密度不同類型的模型以及模型參數(shù)時間范圍七:實施控制:建立數(shù)據(jù)挖掘環(huán)境何謂數(shù)據(jù)挖掘環(huán)境數(shù)據(jù)挖掘環(huán)境是組織的一個或幾個部分,這些組織的核心競爭力就是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘環(huán)境包括以下幾個部分:有一支得到承認(rèn)的專門開發(fā)數(shù)據(jù)挖掘技術(shù)的團(tuán)隊;一個或多個事業(yè)單位之間的交流渠道,所有工作都以企業(yè)的需要為中心;使數(shù)據(jù)挖掘發(fā)揮作用的一套工具,包括硬件和軟件;能夠接觸到整個組織上下的數(shù)據(jù),以及發(fā)布結(jié)果便于各個部門依照執(zhí)行的能力。案例1:建造公司內(nèi)部核心競爭力本案例考察的是一個財產(chǎn)和意外傷害保險公司,它正在實施數(shù)據(jù)挖掘。保險行業(yè)的數(shù)據(jù)挖掘:該行業(yè)擁有大量的數(shù)據(jù)以及大量的統(tǒng)計人員和精算人員。選擇團(tuán)隊選出組織中對數(shù)據(jù)挖掘負(fù)責(zé)的人員。團(tuán)隊里包括用戶管理員、負(fù)責(zé)提供數(shù)據(jù)和硬件的信息技術(shù)部門、為初始項目提供業(yè)務(wù)經(jīng)驗的市場專家。此團(tuán)隊負(fù)責(zé)在公司里倡導(dǎo)數(shù)據(jù)挖掘和客戶關(guān)系管理,核心目標(biāo)是培養(yǎng)競爭力。找出商業(yè)需求他們發(fā)現(xiàn)了幾個可以利用數(shù)據(jù)挖掘為公司增加競爭力的領(lǐng)域,更近一步選定了可能成為示范項目的商業(yè)課題——分析某個州的汽車保險數(shù)據(jù),建立預(yù)測模型,以估計保單的損失率。選擇分析單位:司機(jī)?汽車?保單?家庭?本例中選擇的分析單位是保單,它包含了保單層次的全部信息——汽車數(shù)量、司機(jī)數(shù)量、汽車保險的新增車輛頻率、退保頻率。研究區(qū)域選擇新澤西州,費(fèi)率是在州范圍統(tǒng)一設(shè)定的。此時在州定費(fèi)率框架下,公司的費(fèi)率平均較高,則低風(fēng)險個體就具有高盈利能力。按照保險業(yè)的說法,他們正在尋找州定費(fèi)率沒有效力的領(lǐng)域,并對這些領(lǐng)域進(jìn)行開發(fā)。表明對信息的需求(RequestforInformation,REI)擬出商業(yè)需求,就要通過REI找出供應(yīng)商,并同他們?nèi)〉寐?lián)系。選擇供應(yīng)商案例2:創(chuàng)造新的商機(jī)本案例講述的是一個人壽保險公司。向網(wǎng)上發(fā)展該保險公司認(rèn)識到,有必要建立直接的銷售單位來彌補(bǔ)代理網(wǎng)絡(luò)的不足。代理商建立的客戶關(guān)系在保持客戶方面非常得力,但是保持個人關(guān)系的成本非常高昂。此公司的內(nèi)部目標(biāo)是年底之前通過網(wǎng)絡(luò)賣出20%的保單。環(huán)境該公司設(shè)立了一個獨(dú)立的部門來進(jìn)行直接銷售業(yè)務(wù)。在網(wǎng)絡(luò)方面,主要業(yè)務(wù)來源之一是給定標(biāo)價后對不同保險推銷員的網(wǎng)站進(jìn)行比較。通過點(diǎn)擊這些網(wǎng)站就將有投保意向的客戶反映到公司的網(wǎng)頁上。新的直接保險銷售單位主要是一個營銷小組。他的一個功能就是進(jìn)行市場分析,并且在團(tuán)隊內(nèi)部成立一個市場分析小組。潛在客戶的數(shù)據(jù)倉庫銷售壽險的時候關(guān)鍵是要決定哪些潛在客戶最后會真正購買。作為直接銷售投資的一個組成部分,公司正在建立潛在客戶數(shù)據(jù)倉庫。數(shù)據(jù)來源常常是公司外部的供應(yīng)商。建立潛在客戶數(shù)據(jù)倉庫的一個非常重要的問題是如何選擇外部供應(yīng)商、利用人口統(tǒng)計資料來擴(kuò)大數(shù)據(jù)的數(shù)量并提高其質(zhì)量。下一個步驟進(jìn)行促銷活動。案例3:在數(shù)據(jù)倉庫工作中培養(yǎng)數(shù)據(jù)挖掘技能本案例講述的是一家銀行。該銀行的目的是要在數(shù)據(jù)倉庫工作基礎(chǔ)上建立數(shù)據(jù)挖掘?qū)<蚁到y(tǒng)。特殊類型的數(shù)據(jù)倉庫該銀行決定利用Tandem電腦公司的硬件和軟件,來建立以客戶為中心的數(shù)據(jù)倉庫。數(shù)據(jù)挖掘的計劃隨著數(shù)據(jù)被加載進(jìn)入數(shù)據(jù)倉庫,可以用于挖掘的數(shù)據(jù)就會越來越多。銀行開始著手實施數(shù)據(jù)挖掘的示范項目:判定商業(yè)目標(biāo);對數(shù)據(jù)進(jìn)行評價;準(zhǔn)備和轉(zhuǎn)換數(shù)據(jù);探索和解釋數(shù)據(jù);發(fā)送結(jié)果。信息技術(shù)部門內(nèi)部的數(shù)據(jù)挖掘案例4:利用特斯拉快速建模環(huán)境法(RME)進(jìn)行數(shù)據(jù)挖掘建立高級數(shù)據(jù)挖掘環(huán)境所需的條件從技術(shù)角度講,需要比先前更高水平的支持:從多個源頭獲取數(shù)據(jù),并將這些數(shù)據(jù)整合到一個數(shù)據(jù)挖掘表格的能力;根據(jù)需要,對已建立的模型進(jìn)行評估的能力;隨著時間的變化,對幾百個模型評分進(jìn)行管理的能力;隨著時間的變化,對幾十或幾百個模型進(jìn)行管理的能力;將數(shù)據(jù)挖掘結(jié)果返回數(shù)據(jù)倉庫及其他應(yīng)用軟件的能力。什么是RME?RME注重建模前后的活動,以使數(shù)據(jù)挖掘分析人員有效的傳送數(shù)據(jù)挖掘結(jié)果。其目的就是讓數(shù)據(jù)挖掘分析人員為商業(yè)用戶迅速地開發(fā)數(shù)據(jù)挖掘軟件。RME如何運(yùn)作?RM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年度智能化煤場租賃經(jīng)營合同3篇
- 職業(yè)技術(shù)學(xué)院教學(xué)診斷與改進(jìn)學(xué)習(xí)手冊
- 產(chǎn)褥期母嬰的護(hù)理主講人趙國璽
- 二零二五年度土地承包經(jīng)營權(quán)抵押合同范本編制
- 2025年度農(nóng)家院農(nóng)產(chǎn)品銷售合作租賃合同范本4篇
- 課題申報參考:明清近代文人圈層化及思想傾向、審美感知研究
- 2025年度個人與公司租賃保證金合同3篇
- 二零二五年度工器具庫存管理及采購合同3篇
- 二零二五年度高端住宅內(nèi)墻涂料個性化定制合同4篇
- 江蘇省啟東市匯龍中學(xué)2013屆高三高考考前輔導(dǎo)語文試題(含答案)
- 發(fā)電機(jī)停電故障應(yīng)急預(yù)案
- 接電的施工方案
- 常用藥物作用及副作用課件
- 幼兒阿拉伯?dāng)?shù)字描紅(0-100)打印版
- 社會組織等級評估報告模板
- GB/T 12173-2008礦用一般型電氣設(shè)備
- 2023年1月浙江高考英語聽力試題及答案(含MP3+錄音原文)
- 新媒體研究方法教學(xué)ppt課件(完整版)
- 2020新版?zhèn)€人征信報告模板
- 東芝空調(diào)維修故障代碼匯總
- 工藝管道儀表流程圖(共68頁).ppt
評論
0/150
提交評論