下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、一種基于粗糙集的小型電子商務(wù)挖掘模型摘 要 已有的數(shù)據(jù)挖掘模型大多是針對大型商務(wù)網(wǎng)站設(shè)計(jì)的,成本高,技術(shù)復(fù)雜,難于實(shí)現(xiàn)。本文針對為數(shù)眾多的小型電子商務(wù)網(wǎng)站,將粗糙集與數(shù)據(jù)挖掘結(jié)合起來,建立了一個(gè)切實(shí)可行的參考模型,該模型能夠有效地、自主地挖掘電子商務(wù)網(wǎng)站的運(yùn)營狀況和潛在的經(jīng)濟(jì)規(guī)律,從而為小型電子商務(wù)運(yùn)營者提供決策參考。 關(guān)鍵詞 數(shù)據(jù)挖掘;粗糙集;小型電子商務(wù) 一、 引 言 數(shù)據(jù)挖掘應(yīng)用于小型電子商務(wù),可發(fā)現(xiàn)客戶新的購買傾向,設(shè)計(jì)投資戰(zhàn)略,在會(huì)計(jì)系統(tǒng)中探測未經(jīng)認(rèn)可的開支,增加銷售業(yè)務(wù)等,其目標(biāo)為揭示小型電子商務(wù)網(wǎng)站的運(yùn)營狀況以及潛在的經(jīng)濟(jì)活動(dòng)。然而,為數(shù)眾多的中小電子商務(wù)網(wǎng)站由于自身規(guī)模小、商業(yè)
2、伙伴多、客戶雜而多、產(chǎn)品周期短、可利用資金少等特點(diǎn),很難實(shí)現(xiàn)針對大型商務(wù)網(wǎng)站設(shè)計(jì)的數(shù)據(jù)挖掘模型。故建立一個(gè)適合于小型電子商務(wù)網(wǎng)站的切實(shí)可行的數(shù)據(jù)挖掘模型非常必要。 通常, 一個(gè)簡單的小型電子商務(wù)系統(tǒng)包括以下幾個(gè)基本功能: 1. 客戶注冊??蛻敉ㄟ^該功能提交相應(yīng)的客戶信息??蛻粢话憧煞譃閮深悾浩胀蛻艉蜁?huì)員客戶。他們享有不同的權(quán)限,通常會(huì)員客戶將享受一些優(yōu)惠的價(jià)格、被邀請參加一些網(wǎng)站舉辦的活動(dòng)等。 2. 客戶登錄。主要進(jìn)行客戶身份認(rèn)證,以確保是合法的客戶。 3. 在線商品瀏覽??蛻艨闪私馍唐返脑敿?xì)情況。商品陳列如現(xiàn)實(shí)中超市的貨架一樣。好的分類以及好的擺放次序都將影響銷售業(yè)務(wù)。 4. 購物車。實(shí)現(xiàn)
3、超市購物車的功能??蛻粢贿厼g覽網(wǎng)站一邊將欲購買的商品放入購物車。 5. 生成訂單(購物單)。當(dāng)客戶選好商品后,系統(tǒng)按照客戶購物車中的商品生成購物單。 6. 訂單確認(rèn)。網(wǎng)站按照訂單,計(jì)算出本次購買的購買清單和總金額后,讓客戶確認(rèn)是否真的購買。 7. 在線支付。當(dāng)客戶確認(rèn)訂單后,可通過信用卡在線支付,支付成功后系統(tǒng)生成一份永久訂單,并提交給訂單處理系統(tǒng)。 8. 成交確認(rèn)。當(dāng)客戶成功實(shí)現(xiàn)支付后,站點(diǎn)向客戶發(fā)送E-mail以確認(rèn)交易成功。 以上是電子商務(wù)的基本功能,除此之外,更需要一個(gè)高效、安全的數(shù)據(jù)挖掘工具, 挖掘潛在的、深層次的經(jīng)濟(jì)活動(dòng),為網(wǎng)站決策者提供各種分析數(shù)據(jù)和參考決策,如自動(dòng)生成日報(bào)表、月
4、報(bào)表等統(tǒng)計(jì)報(bào)表,以及客戶行為變化、商品銷售預(yù)測等。 電子商務(wù)環(huán)境下,供應(yīng)商、倉儲(chǔ)物流伙伴、客戶之間要進(jìn)行物流、信息流和資金流等經(jīng)濟(jì)活動(dòng), 數(shù)據(jù)挖掘可對物流數(shù)據(jù)、信息流數(shù)據(jù)、資金流數(shù)據(jù)進(jìn)行綜合挖掘。 二、 基于粗糙集的小型電子商務(wù)挖掘模型 數(shù)據(jù)挖掘的一般過程包括:數(shù)據(jù)采集、數(shù)據(jù)清洗、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識(shí)評價(jià)。從理論研究到應(yīng)用實(shí)現(xiàn),涉及的技術(shù)主要有分類技術(shù)、聚類技術(shù)、粗糙集技術(shù)、統(tǒng)計(jì)技術(shù)和關(guān)聯(lián)規(guī)則技術(shù)等。 粗糙集技術(shù)是處理知識(shí)的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用。這里,結(jié)合粗糙集,建立如圖1所示的挖掘模型。從圖1中看到,采用的主要技術(shù)是粗糙集技術(shù)。以下對其中的關(guān)鍵步驟作進(jìn)一步的
5、分析。 三、 小型電子商務(wù)網(wǎng)站的數(shù)據(jù)采集 數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ)。電子商務(wù)網(wǎng)站的數(shù)據(jù)分布在服務(wù)器端、代理端和客戶端。理論上講,應(yīng)采集到所有三處的數(shù)據(jù),才能得到最完整的數(shù)據(jù)。但在實(shí)際中,由于實(shí)際情況的限制,幾乎是不可能實(shí)現(xiàn)的。具體分析如下: 1. 服務(wù)器端數(shù)據(jù)采集。在服務(wù)器端客戶的行為可以被TCP/IP包監(jiān)測器跟蹤,以提取客戶的請求信息。服務(wù)器主要以Web日志的形式記錄客戶每一次的網(wǎng)頁請求信息。主要包括:客戶標(biāo)識(shí)、遠(yuǎn)程IP、請求日期和時(shí)間等,并且可以記錄COOKIES和查詢參數(shù)來描述各個(gè)不同客戶的行為。其優(yōu)點(diǎn)是:能夠?qū)崟r(shí)采集數(shù)據(jù);來自不同服務(wù)器的數(shù)據(jù)能被整合到唯一的日志中。服務(wù)器端數(shù)據(jù)采集的缺
6、點(diǎn)是:如果客戶使用本地CACHE和代理(Proxy),則Web服務(wù)器僅能獲取代理信息,而得不到客戶的真正信息;同樣, Web環(huán)境中有各種CACHE,Web日志記錄可能不準(zhǔn)確。這些都將導(dǎo)致信息的不完整以及信息量的不足。 2. 代理端數(shù)據(jù)采集。許多網(wǎng)絡(luò)服務(wù)商通過CACHE為客戶提高導(dǎo)航速度,它通過海量的Web Servers來采集客戶數(shù)據(jù)。代理不僅可以采集多個(gè)客戶的行為,還可以采集多個(gè)網(wǎng)站的行為。代理端數(shù)據(jù)采集適合有大量靜態(tài)頁面的網(wǎng)站。 代理端數(shù)據(jù)采集的缺點(diǎn)是:多個(gè)客戶使用同一個(gè)代理服務(wù)器的環(huán)境下,如何標(biāo)識(shí)某個(gè)客戶,如何識(shí)別屬于該客戶的會(huì)話和使用記錄,此問題在很大程度上影響挖掘質(zhì)量。 3. 客戶端
7、數(shù)據(jù)采集。客戶端通過JavaScript、Java Applets或修改過的瀏覽器記錄數(shù)據(jù)。但JavaScript不能記錄客戶所有的行為,而Java Applets可以記錄客戶的所有行為,但效率低。 客戶端數(shù)據(jù)采集的缺點(diǎn)是:客戶可能會(huì)在瀏覽器設(shè)置中關(guān)閉JavaScript、Java Applets功能;涉及客戶的個(gè)人隱私信息,需要客戶配合。 綜上所述,對于電子商務(wù)網(wǎng)站而言,盡管有多種數(shù)據(jù)采集源,但實(shí)現(xiàn)起來比較困難,而且所得數(shù)據(jù)是很不完整的。 基于以上分析,在建立電子商務(wù)網(wǎng)站時(shí),除客戶注冊表、商品表等表外,應(yīng)在服務(wù)器端維持兩個(gè)基本表:客戶行為表和商業(yè)行為表??蛻粜袨楸碛涗浛蛻舻男袨?,如:登錄、查
8、詢、添加商品到購物車、瀏覽等行為。商業(yè)行為表記錄客戶的實(shí)際購物情況,如所購商品、數(shù)量、日期等。 表的基本結(jié)構(gòu)包含如下一些基本字段: 客戶行為表:Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select 其中,Customer Type為客戶類別:0-普通客戶,1-會(huì)員客戶。 商業(yè)行為表:Customer No, Merchandises, Number, Date, Time 可見,上述兩個(gè)表格記錄了挖掘所需的基
9、本數(shù)據(jù),使得數(shù)據(jù)采集更易于完成。 四、 粗糙集數(shù)據(jù)清洗 利用粗糙集的約簡算法對數(shù)據(jù)進(jìn)行清洗。主要是計(jì)算知識(shí)的約簡、核、上近似及下近似(正域)。以決策規(guī)則為例。表1是某電子商店的購物記錄, P,Q,R,S代表4種商品;Customer No. 為客戶號。是:表示購買了某商品;否:表示沒有購買某商品。 以下對表1進(jìn)行粗糙集數(shù)據(jù)清洗。 根據(jù)粗糙集理論,論域U=t1,t2,t3,t4,t5,t6,t7,t8,條件屬性集C=P,Q,R,決策屬性集D=S。容易計(jì)算: U關(guān)于等價(jià)關(guān)系C的劃分U/C=X1,X2,X3,X4,X5,其中,X1=t1,X2=t2,t3,X3=t4,X4=t5,t7,X5=t6,t
10、8。 U關(guān)于等價(jià)關(guān)系D的劃分U/D=Y1,Y2,其中,Y1=t2,t3,t6,t7,t8,Y2=t1,t4,t5。 類似地,U/P=t1,t2,t3,t4,t5,t6,t7,t8,U/Q=t1,t2,t3,t4,t6,t8,t5,t7,U/R=t2,t3,t5,t6,t7,t8,t1,t4,U/P,Q=t1,t2,t3,t4,t6,t8,t5,t7,U/P,R=t1,t2,t3,t4,t5,t6,t7,t8,U/Q,R=t1,t4,t2,t3,t6,t8,t5,t7 以下計(jì)算正域: posC(D)= t1,t2,t3,t4,t6,t8 pos(C-P)(D)= t1,t4,t2,t3,t6,t
11、8=posC(D) pos(C-Q)(D)= t1,t2,t3,t4posC(D) pos(C-R)(D)=posC(D) pos(C-P, Q)(D)= t1,t4posC(D) pos(C-P,R)(D)=posC(D) pos(C-Q,R)(D)=posC(D) 因此,C的D約簡為Q,R。故表1經(jīng)過粗糙集數(shù)據(jù)清洗后得到表2。 五、 決策規(guī)則的提取 定義決策規(guī)則為: rij:des(Xi) des(Yj),XiYj?準(zhǔn)。其中,des()為對等價(jià)類的描述。 定義規(guī)則rij的確定性因子(Xi,Yj)=| XiYj |/| Xi |。顯然,0(Xi,Yj)1。 當(dāng)(Xi,Yj)=1時(shí),rij是確
12、定的;當(dāng)0(Xi,Yj)1時(shí),rij是不確定的。 這樣,可得以下確定性規(guī)則: r12:(購買Q)且(不購買R) (不購買S) r21:(購買Q)且(購買R) (購買S) r32:(購買Q)且(不購買R) (不購買S) r51:(購買Q)且(購買R) (購買S) 不確定性規(guī)則為: r41:(不購買Q)且(購買R) (購買S),(X4,Y1)=0.5 r42:(不購買Q)且(購買R) (不購買S),(X4,Y2)=0.5 六、 模式解釋及知識(shí)評價(jià) 經(jīng)過挖掘可得到大量的模式和規(guī)則,需對規(guī)則作進(jìn)一步的篩選、合并。上述例子經(jīng)合并后最終得到兩條確定性規(guī)則: 1(購買Q)且(購買R) (購買S) 2(購買Q)且(不購買R) (不購買S) 基于上述規(guī)則,可作決策:在電子商店中,可將商品P,Q,R按順序相鄰擺放在一起??商岣咪N售。 對于不確定規(guī)則,可作參考或直接刪除均可。 七、 結(jié)束語 通過以上分析,所建立的基于粗糙集的小型電子商務(wù)挖掘模型是有效、可行的。已經(jīng)提出很多可行的粗糙集算法,在實(shí)現(xiàn)挖掘時(shí)可參考。上述只舉出決
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 影響摩托車定價(jià)的因素分析-洞察分析
- 虛擬現(xiàn)實(shí)考古實(shí)踐-洞察分析
- 云計(jì)算與大數(shù)據(jù)融合-第1篇-洞察分析
- 香精在康復(fù)醫(yī)療領(lǐng)域的應(yīng)用前景考核試卷
- 物體殘留預(yù)防與干預(yù)-洞察分析
- 土地資源價(jià)值動(dòng)態(tài)監(jiān)測-洞察分析
- 隧道防水施工工藝優(yōu)化-第1篇-洞察分析
- 倉庫保管員技師論文范文
- 施工現(xiàn)場安全防護(hù)技術(shù)措施
- 墩柱施工操作平臺(tái)相關(guān)計(jì)算
- 高職院校油層物理說課
- 計(jì)算機(jī)課件:計(jì)算機(jī)安全
- SCH壁厚等級對照表
- 道路減速帶減速模型分析
- 35kv及以下架空線路施工及驗(yàn)收規(guī)范
- 身體健康狀況自測表
- PID控制原理與調(diào)整方法
- 山東昌樂二中“271高效課堂”解讀
- 配電工程竣工資料
- 花鍵強(qiáng)度校核程序
評論
0/150
提交評論