煙草數(shù)據(jù)挖掘論文_第1頁
煙草數(shù)據(jù)挖掘論文_第2頁
煙草數(shù)據(jù)挖掘論文_第3頁
煙草數(shù)據(jù)挖掘論文_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、煙草數(shù)據(jù)挖掘論文 1研究背景 目前現(xiàn)有的針對煙草營銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營銷策略是對終端客戶進(jìn)行分類,根據(jù)用戶的銷量和誠信記錄把用戶分為多個等級,但這種分級策略只能反應(yīng)用戶的銷量信息,把這個分類作為營銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對現(xiàn)有商戶進(jìn)行聚類,獲取到自主的商戶分類,但盲目的聚類會導(dǎo)致商戶的分類沒有實(shí)際意義,或獲取的結(jié)果是無助于營銷目的的。 2技術(shù)關(guān)鍵 本系統(tǒng)采用基于營銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。 2.1特征

2、選擇 假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個數(shù),為簡化模型,也為了防止模型陷入過擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對項(xiàng)目改造判定起關(guān)鍵作用的因素挑選出來。本系統(tǒng)采用PCA算法來進(jìn)行降維處理,過程如下: 1)計(jì)算標(biāo)準(zhǔn)化后的矩陣Z的樣本的協(xié)方差矩陣Cov; 2)計(jì)算協(xié)方差矩陣Cov的本征向量e1,e2,en的本征值。本征值按大到小排序; 3)投影數(shù)據(jù) 到本征矢張成的空間之中,利用貢獻(xiàn)分析取前m個向量Y1,Y2,Ym。 2.2基于營銷目標(biāo)限制的商戶精確聚類算法 現(xiàn)有聚類算法一般沒有約束條件,只根據(jù)相似度來進(jìn)行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增

3、加進(jìn)去,這樣在樣本聚類的時候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來進(jìn)行聚類。進(jìn)而可建立如下商戶模型:分類對象X,X=A1=x1A2=x2Am=xm,其中xjDOM(Aj),1jm,為簡便起見,將對象X用向量(x1,x2,xm)表達(dá),如果屬性Aj的值不存在,則Aj=。令=X1,X2,Xn為n個分類對象的集合,用集合方式表達(dá)分類對象,則Xi=xi,1,xi,2,xi,m

4、,如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|m。如果存在Xi,j=Xk,j,1jm,則Xi=Xk。為方便聚類,利用聚類匯總來壓縮原始數(shù)據(jù),從而達(dá)到提高算法效率的目的。一個類C可以由如下三元組(n,I,S)來表示。其中n為類C中的對象數(shù)量,I=i1,i2,iu是C內(nèi)所有屬性值的集合,S=s1,s2,su,其中sj為ij在類C中的數(shù)量,ijI,1ju。集合S按升序排列,即s1s2su,這同時也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個成員分別記作CS.n、CS.I和CS.S;對于CS.I的任一元素ijCS.I,則記作C

5、S.I.ij,對于sjCS.S,則記作CS.S.sj,其中1ju。 2.3基于煙草營銷的多層關(guān)聯(lián)規(guī)則的研究 針對本項(xiàng)目,對關(guān)聯(lián)規(guī)則定義進(jìn)行擴(kuò)展,對形如:XY的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個項(xiàng)目集,而把X和Y定義為條件的合取范式,每個條件Ai=True/False為布爾表達(dá)式。此時的Ai為一個項(xiàng)目集,它的含義與原來的X和Y的含義相同,如果把結(jié)果中的條件布爾表達(dá)式寫成Cj=True/False,則關(guān)聯(lián)規(guī)則有如下形式:(A1=True/False)(A2=True/False)(An=True/False)(C1=True/False)(C2=True/False)(Cm=True/False)關(guān)聯(lián)

6、規(guī)則的開采問題可以分解成以下兩個子問題: 從數(shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項(xiàng)目集。 從頻繁項(xiàng)目集中生成所有置信度不小于用戶定義的最小置信度minconf的關(guān)聯(lián)規(guī)則。即對任一個頻繁項(xiàng)目集F和F的所有非空真子集S,SF,如果sup(F)/sup(FS)minconf,則(FS)S就是一條有效的關(guān)聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。這兩個步驟中第2步要相對容易,因此項(xiàng)目的研究將更關(guān)注第1步,由于最大頻繁項(xiàng)目集已經(jīng)隱含了所有頻繁項(xiàng)目集,所以可以把發(fā)現(xiàn)頻繁項(xiàng)目集的問題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項(xiàng)目集的問題。針對煙草營銷的客戶,進(jìn)行關(guān)聯(lián)規(guī)則挖掘時,是在上一步的基礎(chǔ)上,即針對每一個商戶群進(jìn)行規(guī)則挖掘。在獲取

7、到最大頻繁項(xiàng)目集后,順序生成頻繁項(xiàng)目集,然后獲取到可用的關(guān)聯(lián)規(guī)則。此時獲取的關(guān)聯(lián)規(guī)則是底層關(guān)聯(lián)規(guī)則,然后再采用概念樹的方法對獲取的底層關(guān)聯(lián)規(guī)則進(jìn)行匯總。概念樹由煙草領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點(diǎn)是用any表示最一般的概念,葉結(jié)點(diǎn)是最具體的概念即屬性的具體值。 在獲取多層關(guān)聯(lián)規(guī)則后,能靈活確定關(guān)聯(lián)規(guī)則的前后件,分析出不同層次各事務(wù)的關(guān)聯(lián)。能分析出任意兩個事務(wù)間的關(guān)聯(lián)關(guān)系;分析出任意一項(xiàng)事務(wù)與其他多項(xiàng)事務(wù)間的關(guān)聯(lián)關(guān)系;任意幾項(xiàng)事務(wù)與其他一項(xiàng)事務(wù)間的關(guān)聯(lián)關(guān)系,或者任意幾項(xiàng)事務(wù)與另外幾項(xiàng)事務(wù)間的關(guān)聯(lián)關(guān)系。如:某一時間,某品牌煙,商戶總進(jìn)貨量;某類別商戶,某品牌煙進(jìn)貨量;某商戶,某段時間,某卷煙進(jìn)貨量;某地址

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論