版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Web 數(shù)據(jù)挖掘在移動(dòng)電子商務(wù)領(lǐng)域的應(yīng)用研究-電子商務(wù)論文Web 數(shù)據(jù)挖掘在移動(dòng)電子商務(wù)領(lǐng)域的應(yīng)用研究張昶 ZHANG Chang ;靳偉 JIN Wei ;靳艷峰 JIN Yan-feng (石家莊郵電職業(yè)技術(shù)學(xué)院,石家莊050021)摘要: 隨著移動(dòng)通信技術(shù)的飛速發(fā)展,移動(dòng)電子商務(wù)以其方便、快捷等優(yōu)點(diǎn)獲得了大量 的網(wǎng)絡(luò)用戶。移動(dòng)互聯(lián)網(wǎng)端的用戶行為分析已經(jīng)成為迅速發(fā)展的知識(shí)領(lǐng)域。 Web 數(shù)據(jù)挖掘 技術(shù)作為用戶行為分析的基礎(chǔ)在移動(dòng)電子商務(wù)領(lǐng)域具有很高的實(shí)用價(jià)值。 文章主要介紹了基 于 Web 的數(shù)據(jù)挖掘定義及 Web 的數(shù)據(jù)特點(diǎn), 并對(duì) Web 使用模式挖掘的過(guò)程和算法進(jìn)行了重 點(diǎn)分析,包括
2、數(shù)據(jù)的預(yù)處理、 模式發(fā)現(xiàn)和模式分析。 除此之外, 基于傳統(tǒng)企業(yè)的電子商務(wù)化、 業(yè)務(wù)領(lǐng)域多元化等特點(diǎn), 創(chuàng)新研究了如何建設(shè)企業(yè)電子化大平臺(tái), 如何有效收集平臺(tái)產(chǎn)生的 海量數(shù)據(jù),如何將 Web 數(shù)據(jù)挖掘技術(shù)應(yīng)用于企業(yè)等內(nèi)容。關(guān)鍵詞 : 移動(dòng)電子商務(wù); Web 挖掘技術(shù);電子化平臺(tái);用戶行為模式 中圖分類號(hào): TP311 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1006-4311(2015) 26-0245-05 課題項(xiàng)目:河北省高等學(xué)??茖W(xué)技術(shù)研究項(xiàng)目編號(hào): Z2014167 。作者簡(jiǎn)介:張昶( 1986- ),男,河北石家莊人, 碩士研究生,講師,研究方向?yàn)殡娮由虅?wù)、 移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)。目前,移動(dòng)互
3、聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)飛速發(fā)展,移 它把電子交易從傳統(tǒng)的 PC 端轉(zhuǎn)移到了移動(dòng)終端, 這加速了社會(huì)經(jīng)濟(jì)的電子化進(jìn)程, 同時(shí)也使得數(shù)據(jù)1 移動(dòng)電子商務(wù)與數(shù)據(jù)挖掘1.1 移動(dòng)電子商務(wù)與數(shù)據(jù)挖掘的關(guān)系 動(dòng)電子商務(wù)正顯示出越來(lái)越強(qiáng)大的生命力, 使人們可以隨時(shí)隨地進(jìn)行電子商務(wù)活動(dòng), 爆炸的問(wèn)題越來(lái)越嚴(yán)重。 數(shù)據(jù)挖掘的興起為電子商務(wù)提供了強(qiáng)大的數(shù)據(jù)支撐, 利用數(shù)據(jù)挖掘 技術(shù)可以有效的幫助企業(yè)分析網(wǎng)上獲取的大量數(shù)據(jù), 發(fā)現(xiàn)隱藏在其背后的知識(shí), 為電子商務(wù) 客戶提供個(gè)性化服務(wù), 建設(shè)智能商務(wù)網(wǎng)站, 指導(dǎo)企業(yè)的營(yíng)銷策略, 由此使企業(yè)線上的業(yè)務(wù)得 到進(jìn)一步的發(fā)展。移動(dòng)電子商務(wù)便捷以及交互式的服務(wù)可以為數(shù)據(jù)挖掘提供海
4、量的數(shù)據(jù)。 因?yàn)榭蛻魧?duì)網(wǎng)站的 每一次點(diǎn)擊都會(huì)被網(wǎng)絡(luò)服務(wù)器記錄在日志中,由此產(chǎn)生了點(diǎn)擊流數(shù)據(jù)。網(wǎng)站的服務(wù)器日志, 后臺(tái)數(shù)據(jù)庫(kù)中客戶相關(guān)的數(shù)據(jù), 以及大量交易記錄等數(shù)據(jù)資源中都蘊(yùn)含著海量有待充分挖掘 的信息, 海量數(shù)據(jù)是數(shù)據(jù)挖掘的一個(gè)必要條件, 如果數(shù)據(jù)量少, 則挖掘的信息是不夠精準(zhǔn)的。移動(dòng)電子商務(wù)網(wǎng)站可以為數(shù)據(jù)挖掘提供 “干凈的 ”數(shù)據(jù)。 因?yàn)樵S多相關(guān)的信息是從網(wǎng)站上直 接提取的, 無(wú)需從歷史系統(tǒng)中集成, 避免了很多錯(cuò)誤。通過(guò)良好的站點(diǎn)設(shè)計(jì),不需要進(jìn)行分 析、計(jì)算和預(yù)處理等步驟, 就可以直接得到與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)。 移動(dòng)電子商務(wù)網(wǎng)站的數(shù) 據(jù),非??煽?,無(wú)需人工輸入,從而避免了很多錯(cuò)誤。此外,可
5、以通過(guò)良好的站點(diǎn)設(shè)計(jì)來(lái)控 制數(shù)據(jù)采樣的顆粒度?;谝苿?dòng)電子商務(wù)的數(shù)據(jù)挖掘能夠使得挖掘的成果非常容易應(yīng)用。 很多其他的數(shù)據(jù)挖掘研 究雖然有很多的知識(shí)發(fā)現(xiàn), 但是這些知識(shí)很多不能輕松的在商業(yè)領(lǐng)域中應(yīng)用并產(chǎn)生效果。 因 為要應(yīng)用這些知識(shí)可能意味著需要進(jìn)行復(fù)雜的系統(tǒng)更改、 流程更改、 或改變?nèi)藗內(nèi)粘5霓k事 習(xí)慣,這在現(xiàn)實(shí)中是相對(duì)困難的。而在移動(dòng)電子商務(wù)領(lǐng)域,很多知識(shí)發(fā)現(xiàn)都可以直接應(yīng)用。 如改變站點(diǎn)設(shè)計(jì)(改變布局,適當(dāng)進(jìn)行個(gè)性化設(shè)計(jì)) ,針對(duì)于特定目標(biāo)或消費(fèi)群進(jìn)行的隨時(shí) 隨地的網(wǎng)上促銷, 根據(jù)對(duì)廣告效果的統(tǒng)計(jì)數(shù)據(jù)改變相應(yīng)的廣告策略, 根據(jù)數(shù)據(jù)特點(diǎn)可以很容 易地進(jìn)行網(wǎng)上捆綁式銷售等。1.2 Web 挖掘的
6、定義 Web 數(shù)據(jù)挖掘( Web Data Mining ),是數(shù)據(jù)挖掘技術(shù)在 Web 環(huán)境下 的應(yīng)用,是從大量的 Web 文檔集合和在站點(diǎn)內(nèi)進(jìn)行瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的 模式或信息。它是一項(xiàng)綜合技術(shù),涉及到 Internet 技術(shù)、人工智能、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。面向電子商務(wù)的數(shù)據(jù)挖掘是 Web 挖掘的一個(gè)典型應(yīng)用, Web 上的日志文件,如客戶的訪 問(wèn)行為, 訪問(wèn)頻度, 瀏覽內(nèi)容及時(shí)間等, 包括很多可挖掘內(nèi)容, 對(duì)這些內(nèi)容進(jìn)行提取、 加工、 分析,可以將客戶的訪問(wèn)數(shù)據(jù)從潛在的、隱含的狀態(tài),變?yōu)槠髽I(yè)分析市場(chǎng)、制定經(jīng)營(yíng)策略、 管理客戶關(guān)系的有力依據(jù),從而實(shí)現(xiàn) Web 上電子商務(wù)活
7、動(dòng)的本質(zhì),即獲得商務(wù)的增值。對(duì)應(yīng)于不同的 Web 數(shù)據(jù), Web 挖掘也分成三類: Web 內(nèi)容挖掘( Web Content Mining )、Web 結(jié)構(gòu)挖掘( Web Structure Mining )和 Web 使用模式挖掘( Web Usage Mining )。(圖 1)Web 內(nèi)容挖掘就是對(duì)網(wǎng)絡(luò)頁(yè)面的內(nèi)容進(jìn)行挖掘分析,包括對(duì)文本、圖像、音頻、視頻、 元組數(shù)據(jù)的挖掘, 但目前多數(shù)是基于文本信息的挖掘, 這又可以進(jìn)一部分為網(wǎng)頁(yè)內(nèi)容挖掘和 搜索結(jié)果挖掘, 前者是傳統(tǒng)的依據(jù)內(nèi)容搜索網(wǎng)頁(yè), 后者是在前者搜索結(jié)果的基礎(chǔ)上進(jìn)一步搜 索網(wǎng)頁(yè)。 Web 內(nèi)容挖掘和通常的平面文本挖掘的功能和方法比
8、較類似,但由于互聯(lián)網(wǎng)上的 數(shù)據(jù)基本上都是 HTML 格式的文件數(shù)據(jù)格式流,因此可以利用文檔中的 HTML 標(biāo)記來(lái)提高 Web 文本挖掘的性能。Web 結(jié)構(gòu)挖掘是對(duì)網(wǎng)絡(luò)頁(yè)面之間的結(jié)構(gòu)進(jìn)行挖掘,從網(wǎng)頁(yè)的實(shí)際組織結(jié)構(gòu)中獲取信息。 整個(gè) Web 空間中,頁(yè)面內(nèi)容和頁(yè)面結(jié)構(gòu)中都可能會(huì)存在有用的知識(shí)。Web 結(jié)構(gòu)挖掘主要就是針對(duì)頁(yè)面的超鏈接結(jié)構(gòu)進(jìn)行分析,通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來(lái)建立 Web 自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁(yè)歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁(yè) 間相似度及關(guān)聯(lián)度的信息。 如果發(fā)現(xiàn)有較多的超鏈接都指向某一頁(yè)面, 那么該頁(yè)面就是重要 的。這種知識(shí)可以用來(lái)改進(jìn)搜索路徑。We
9、b 使用模式挖掘是對(duì)用戶和網(wǎng)絡(luò)交互的過(guò)程中抽取出來(lái)的第二手?jǐn)?shù)據(jù)進(jìn)行挖掘,包括 網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄、 瀏覽器日志記錄、 注冊(cè)信息等。 最常用到的是網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄挖 掘,它通過(guò)挖掘 Web 日志文件及客戶交易數(shù)據(jù)來(lái)發(fā)現(xiàn)有意義的客戶訪問(wèn)模式和相關(guān)的潛在 客戶群。其主要特點(diǎn)是對(duì)客戶信息數(shù)據(jù)進(jìn)行抽取、 轉(zhuǎn)換、 分析和其他模型化處理, 從中提取 輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。這里需要特別指出的是, Web 使用模式挖掘還可以進(jìn)一部分 為一般訪問(wèn)模式跟蹤和定制使用跟蹤,前者是一種查看網(wǎng)頁(yè)訪問(wèn)歷史記錄的使用模式挖掘。 這種挖掘可以是一般化的,也可以是針對(duì)特定的使用或使用者,這便是后者。1.3 Web 挖掘的數(shù)
10、據(jù)源很多數(shù)據(jù)都可以在 Web 上進(jìn)行數(shù)據(jù)挖掘分析,并且這些數(shù)據(jù)存在很多類型,具體來(lái)說(shuō)主 要有以下幾種類型的數(shù)據(jù)。1.3.1 服務(wù)器數(shù)據(jù) 通常只要有客戶訪問(wèn)站點(diǎn)就會(huì)在 Web 服務(wù)器上留下相應(yīng)的痕跡, 即日 志數(shù)據(jù),這些日志數(shù)據(jù)存儲(chǔ)在服務(wù)器上的形式通常都是文本文件,比如 cookie logs、 error logs、 sever logs 等。1.3.2 查詢數(shù)據(jù) 它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對(duì)于在線客 戶也許會(huì)搜索一些產(chǎn)品或某些廣告信息,這些查詢信息就通過(guò) cookie 或是登記信息連接到 服務(wù)器的訪問(wèn)日志上。1.3.3 在線市場(chǎng)數(shù)據(jù) 在線時(shí)長(zhǎng)數(shù)據(jù)主要包括存儲(chǔ)在傳統(tǒng)關(guān)
11、系數(shù)據(jù)庫(kù)里的商品信息、客戶 購(gòu)買(mǎi)信息和電子商務(wù)站點(diǎn)信息等。1.3.4 Web頁(yè)面 主要是指 HTLM 和 XML 頁(yè)面的內(nèi)容,包括本文、圖片、語(yǔ)音、圖像等。1.3.5 Web 頁(yè)面超級(jí)鏈接關(guān)系 主要是指頁(yè)面之間存在的超級(jí)鏈接關(guān)系,這也是一種重要 的資源。1.3.6 客戶登記信息 客戶登記信息是指客戶通過(guò) Web 頁(yè)輸入的、 要提交給服務(wù)器的相關(guān) 客戶信息,這些信息通常是關(guān)于用戶的人的特征。在 Web 的數(shù)據(jù)挖掘中,客戶登記信息需 要和訪問(wèn)日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度,使之能更進(jìn)一步地了解客戶。2 Web 使用模式挖掘分析Web 使用模式挖掘是 Web 數(shù)據(jù)挖掘中最重要的應(yīng)用, 其數(shù)據(jù)源通常
12、是服務(wù)器的日志信息。 Web 服務(wù)器的日志記載了用戶訪問(wèn)站點(diǎn)的信息,這些信息包括:訪問(wèn)者的 IP 地址、訪問(wèn)時(shí) 間、訪問(wèn)方式( GET/POST )、訪問(wèn)的頁(yè)面、協(xié)議、錯(cuò)誤代碼以及傳輸?shù)淖止?jié)數(shù)等信息。每當(dāng)網(wǎng)頁(yè)被請(qǐng)求一次, Web 日志就在日志數(shù)據(jù)庫(kù)內(nèi)追加相應(yīng)的記錄。站點(diǎn)的規(guī)模和復(fù)雜 程度與日俱增, 利用普通的概率方法來(lái)統(tǒng)計(jì)、 分析和安排站點(diǎn)結(jié)構(gòu)已經(jīng)不能滿足要求。 只有 通過(guò)數(shù)據(jù)挖掘技術(shù)處理服務(wù)器的日志文件, 才能分析用戶訪問(wèn)站點(diǎn)的規(guī)律, 改進(jìn)網(wǎng)站的組織 結(jié)構(gòu)及其性能,增加個(gè)性化服務(wù),實(shí)現(xiàn)網(wǎng)站自適應(yīng),發(fā)現(xiàn)潛在的用戶群體。Web 使用模式挖掘的過(guò)稱具體包括數(shù)據(jù)的預(yù)處理過(guò)程、模式發(fā)現(xiàn)過(guò)程以及模式分析
13、過(guò)程。2.1 數(shù)據(jù)預(yù)處理過(guò)程 在數(shù)據(jù)預(yù)處理過(guò)程中, 首先需要做一些數(shù)據(jù)清洗。 其次由于日志文件中只記錄了主機(jī)或代 理服務(wù)器的地址, 需要運(yùn)用 Cookie 技術(shù)和一些啟發(fā)規(guī)則來(lái)幫助識(shí)別用戶, 之后還要確認(rèn) Web 日志中是否有重要的訪問(wèn)頁(yè)面被遺漏, 如果有, 需要進(jìn)行相關(guān)的路徑補(bǔ)充。 最后要進(jìn)行事務(wù) 識(shí)別工作, 即將用戶的會(huì)話針對(duì)挖掘活動(dòng)的特定需要進(jìn)行定義、細(xì)分, 使挖掘更加精確,得 到想要的知識(shí)。數(shù)據(jù)清洗:即把日志文件中一些與數(shù)據(jù)分析的無(wú)關(guān)項(xiàng)處理掉,例如剔除 Web 請(qǐng)求方法中 不是 “get”的記錄。以及刪除 Web 服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù),一般來(lái)說(shuō)只有服務(wù) 器日志中的 HTML
14、 與挖掘相關(guān), Web 日志文件的目的是獲取用戶的行為模式, 通過(guò)檢查 URL 的后綴, 可以刪除不相關(guān)的數(shù)據(jù)。 例如: 將日志文件中后綴名為 JPG,GIF 等圖片文件刪除, 將后綴名為 CGI 的腳本文件刪除。用戶識(shí)別: 數(shù)據(jù)清洗之后, 使用基于日志的方法同時(shí)輔助以一些啟發(fā)式規(guī)則, 可以識(shí)別出 每個(gè)訪問(wèn)網(wǎng)站的用戶,這個(gè)過(guò)程就叫做用戶識(shí)別。在時(shí)間區(qū)間跨越較大的 Web 日志中,某 一用戶可能多次訪問(wèn)該站點(diǎn), 這時(shí)就要用到會(huì)話識(shí)別。 其目的就是將用戶的訪問(wèn)記錄分為單 個(gè)會(huì)話( Session)。那么如何來(lái)分呢?可以做如下設(shè)定:用二元組S 表示一個(gè)用戶會(huì)話S=userid ,RS,其中 user
15、id 是用戶標(biāo)識(shí), RS 是用戶在一段時(shí)間內(nèi)請(qǐng)求訪問(wèn) Web 頁(yè)面的集合, RS 內(nèi)包含 用戶請(qǐng)求頁(yè)面的標(biāo)識(shí)符 Pid 及請(qǐng)求時(shí)間 time,那么這段時(shí)間的訪問(wèn)集合 RS 即可劃分為:RS=Pid1 , time1 , Pid2 , time2 Pidn, timen , 于是,用戶會(huì)話可表示為:S=userid ,Pid1 ,time1,Pid2,time2Pidn,timen , 由此可以看出分成的每一個(gè)單獨(dú)的會(huì)話。路徑補(bǔ)充: 由于代理服務(wù)器本地緩存和代理服務(wù)器緩存的存在, 使得服務(wù)器的日志會(huì)遺漏 一些重要的頁(yè)面請(qǐng)求, 路徑補(bǔ)充就是利用引用日志和站點(diǎn)的的拓?fù)浣Y(jié)構(gòu)將這些遺漏的請(qǐng)求補(bǔ) 充到用戶
16、會(huì)話中,設(shè)遺漏的請(qǐng)求為Pidk , timek ,其中請(qǐng)求時(shí)間 timek 為設(shè)備前后兩次請(qǐng)求的平均值,那么,用戶會(huì)話即可表示為:S=userid ,Pid1 ,time1,Pid2,time2Pidk,timekPidn,timen (kn) 事務(wù)識(shí)別:上面講到的用戶會(huì)話是 Web 日志挖掘中唯一具備的自然事物元素,但對(duì)于某 些挖掘算法來(lái)說(shuō)可能它的顆粒太粗, 區(qū)分度較低, 為此需要利用分割算法將其轉(zhuǎn)換為更小的 事物,即進(jìn)行事務(wù)識(shí)別。HTML 通過(guò)“Frame”標(biāo)記支持多窗口頁(yè)面, 每個(gè)窗口里裝載的頁(yè)面都對(duì)應(yīng)一個(gè)URL ,F(xiàn)rame頁(yè)面用來(lái)定義頁(yè)面的大小、 位置、及內(nèi)容, “Subframe”
17、用來(lái)定義被 Frame 包含的子窗口頁(yè)面, 當(dāng)用戶訪問(wèn) URL 對(duì)應(yīng)的是一個(gè) Frame 頁(yè)面時(shí),瀏覽器通過(guò)解釋執(zhí)行頁(yè)面源程序,會(huì)自動(dòng)向 Web 服務(wù)器請(qǐng)求該 Frame 頁(yè)面包含的所有 Subframe 頁(yè)面,這一過(guò)程可以重復(fù)進(jìn)行,直到所 有 Subframe 頁(yè)面都被請(qǐng)求。 如果在這樣的用戶會(huì)話文件上進(jìn)行挖掘, Frame 頁(yè)面和 Subframe 頁(yè)面作為頻繁遍歷路徑出現(xiàn)的概率很高,這自然就降低的挖掘的結(jié)果價(jià)值。為此應(yīng)當(dāng)消除Frame 頁(yè)面對(duì)挖掘的影響,得到用戶真正感興趣的挖掘結(jié)果。2.2 模式發(fā)現(xiàn)過(guò)程數(shù)據(jù)預(yù)處理之后,可以對(duì) “干凈整齊 ”的數(shù)據(jù)進(jìn)行挖掘,即找出有用的模式和規(guī)則的過(guò)程。
18、下面主要分析三種常用的 Web 使用模式挖掘方法:關(guān)聯(lián)分析、分類與預(yù)測(cè)、聚類分析、時(shí) 間序列分析。關(guān)聯(lián)分析:即通過(guò)分析用戶訪問(wèn)網(wǎng)頁(yè)間的潛在聯(lián)系而歸納出的一種規(guī)則,如80%的用戶訪問(wèn)頁(yè)面 company/product1 時(shí),也訪問(wèn)了頁(yè)面 company/product2 ,這說(shuō)明了兩個(gè)頁(yè)面的相關(guān) 性。那么可以進(jìn)行一個(gè)頁(yè)面的預(yù)取,來(lái)減少等待時(shí)間。用 A ,B 來(lái)表示兩個(gè)頁(yè)面,那么在 用戶訪問(wèn) A 時(shí),可以把頁(yè)面 B 提前調(diào)入緩存中,從了改善 Web 緩存,改善網(wǎng)絡(luò)交通,提高 性能。若 A 和 B 表示兩個(gè)產(chǎn)品頁(yè)面,則兩種產(chǎn)品對(duì)客戶來(lái)說(shuō)有很大的相關(guān)性。利用這一點(diǎn) 可以做出很有效的促銷和廣告策略。關(guān)
19、聯(lián)規(guī)則的算法思想是 Apriori 算法或其變形,由此可以挖掘出訪問(wèn)頁(yè)面中頻繁在一起被 訪問(wèn)的頁(yè)面集,這種頻繁在一起被訪問(wèn)的頁(yè)面就成為關(guān)聯(lián)頁(yè)面,可用 A=B 表示。那么,若 有:A=B=C ,A=B=D , A=B=E ,A=B=F=G ,則說(shuō)明 A=B 。分類和預(yù)測(cè): 可以用分類來(lái)提取出用來(lái)描述重要數(shù)據(jù)類的模型, 并可以用分類模型來(lái)劃分 未知數(shù)據(jù)的類, 從而預(yù)測(cè)未知數(shù)據(jù)的趨勢(shì)。常用的算法思想為決策樹(shù), 神經(jīng)網(wǎng)絡(luò)、 貝葉斯分 類等。 例如可以根據(jù)用戶的資料數(shù)據(jù) (包括用戶一些屬性) 或其特定的訪問(wèn)模式將其歸入某 一特定的類??梢愿鶕?jù)客戶對(duì)某一類產(chǎn)品的訪問(wèn)情況, 或如其拋棄購(gòu)物車(chē)的情況, 來(lái)對(duì)客
20、戶分類 (即對(duì) 哪一類產(chǎn)品感興趣) 。更深入一點(diǎn),可以為客戶添加一些屬性,如性別,年齡,愛(ài)好等(可 在網(wǎng)站注冊(cè)信息中獲得) ,并將對(duì)哪一類產(chǎn)品感興趣定義為目標(biāo)屬性,那么基于這些屬性可 以用決策樹(shù)算法來(lái)進(jìn)行分類,可以得出符合目標(biāo)屬性的人的特點(diǎn),如 40 歲以上的男性更容 易網(wǎng)購(gòu)皮鞋等,這樣可以更精準(zhǔn)的捕捉客戶并制定營(yíng)銷策略。聚類分析: 聚類即將對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程。 常用的算法思想 有劃分方法、層次方法、基于密度的方法等。如可以用 K-mean 的劃分方法做到類之間差異 化最大,而類內(nèi)相似性最大。在使用模式挖掘中主要有兩種聚類。 一種是頁(yè)聚類, 即將內(nèi)容相關(guān)的頁(yè)面歸到一個(gè)
21、網(wǎng)頁(yè)組, 這對(duì)網(wǎng)上搜索引擎對(duì)網(wǎng)頁(yè)的搜索有很大幫助。 另一種是客戶聚類, 即將具有相似訪問(wèn)特性的 客戶歸為一組, 那么可以分析出喜好類似的客戶群, 從而可以動(dòng)態(tài)的為客戶群制定網(wǎng)頁(yè)內(nèi)容 或提供瀏覽意見(jiàn),如通過(guò)對(duì)眾多的瀏覽 “sports”網(wǎng)頁(yè)的客戶分析 ,發(fā)現(xiàn)經(jīng)常在該網(wǎng)頁(yè)上花上一 段時(shí)間去瀏覽的客戶, 再通過(guò)對(duì)這部分客戶的登記資料分析, 知道這些客戶是潛在要買(mǎi)運(yùn)動(dòng) 產(chǎn)品的客戶群體。就可以調(diào)整 “sports”網(wǎng)頁(yè)的內(nèi)容和風(fēng)格,以適應(yīng)客戶的需要。這在電子商 務(wù)市場(chǎng)的分割和為客戶提供個(gè)性化服務(wù)中起到了很大的作用。2.3 模式分析過(guò)程 在挖掘出一系列客戶訪問(wèn)模式和規(guī)則后,還需要進(jìn)一步觀察發(fā)現(xiàn)的規(guī)則、模式
22、和統(tǒng)計(jì)值, 之后確定下步怎么辦,是發(fā)布模式還是對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行進(jìn)一步調(diào)整。如果存在冗余或無(wú)關(guān)的知識(shí), 需要將其剔除。 如果經(jīng)過(guò)模式分析發(fā)現(xiàn)該模式不是想要的有 價(jià)值的模式,則需要對(duì)挖掘過(guò)程進(jìn)行調(diào)整,再轉(zhuǎn)入第二步重新開(kāi)始。反之, 即發(fā)現(xiàn)感興趣的 規(guī)則模式,則可采用可視化技術(shù)以圖形界面的方式提供給使用者。3 基于企業(yè)的電子商務(wù)平臺(tái)的數(shù)據(jù)挖掘應(yīng)用許多傳統(tǒng)制造業(yè)或零售業(yè)的業(yè)務(wù)正在進(jìn)行著電子化的轉(zhuǎn)型, 電子商務(wù)、 移動(dòng)客戶端、 線上 大平臺(tái)的思路不斷發(fā)展。 那么, 如何建設(shè)一個(gè)企業(yè)的電子化平臺(tái), 如何有效收集平臺(tái)產(chǎn)生的海量數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)如何應(yīng)用于海量數(shù)據(jù),這些都是值得深入研究的問(wèn)題。3.1 建設(shè)企業(yè)
23、線上大平臺(tái)目前許多企業(yè)都面臨著客戶資源管理分散, 客戶數(shù)據(jù)的物理化、 靜態(tài)化、 分散化,以及缺 乏對(duì)客戶的深層分析和需求挖掘等問(wèn)題。 按照傳統(tǒng)企業(yè)想要占有電子商務(wù)市場(chǎng)或移動(dòng)客戶端 市場(chǎng)的需求, 為了更好地以大數(shù)據(jù)集中為基礎(chǔ), 推進(jìn)客戶營(yíng)銷服務(wù)個(gè)性化, 企業(yè)可建設(shè)以會(huì) 員管理為核心的大客戶管理系統(tǒng), 把原有的各類信息系統(tǒng)、 業(yè)務(wù)網(wǎng)站、 電子商務(wù)網(wǎng)站等融匯 在一個(gè)大平臺(tái)下,并分階段實(shí)施數(shù)據(jù)大集中,實(shí)現(xiàn) “海量客戶資源共享,一個(gè)客戶、多個(gè)產(chǎn) 品、多頻次使用 ”的一站式營(yíng)銷服務(wù)。通過(guò)數(shù)據(jù)的整合管理,分析客戶特點(diǎn),實(shí)現(xiàn)客戶在企 業(yè)內(nèi)各板塊的遷移和共享。會(huì)員管理的實(shí)質(zhì)是為用戶提供連續(xù)的、 長(zhǎng)期的產(chǎn)品和服務(wù)
24、。 實(shí)現(xiàn)了為用戶提供持續(xù)的、 長(zhǎng) 期的產(chǎn)品和服務(wù)就需要將短期的用戶發(fā)展為長(zhǎng)期型和穩(wěn)定型用戶, 而會(huì)員制正式實(shí)現(xiàn)這種轉(zhuǎn) 變的最合適的方法, 這就需要建立起強(qiáng)大的會(huì)員平臺(tái), 從而掌握會(huì)員的消費(fèi)數(shù)據(jù), 實(shí)現(xiàn)會(huì)員 制的管理。許多企業(yè)擁有的業(yè)務(wù)眾多, 這就造成了各業(yè)務(wù)擁有自己眾多的忠實(shí)用戶, 但目前各個(gè)業(yè)務(wù) 的用戶沒(méi)有達(dá)到行業(yè)內(nèi)的共享。 會(huì)員管理平臺(tái)為這些分散在行業(yè)內(nèi)的用戶提供統(tǒng)一的平臺(tái)達(dá) 到行業(yè)內(nèi)的統(tǒng)一, 在會(huì)員管理的平臺(tái)上不同業(yè)務(wù)的用戶可以實(shí)現(xiàn)統(tǒng)一登錄、 統(tǒng)一管理、 統(tǒng)一 辦理業(yè)務(wù)來(lái)達(dá)到賬號(hào)統(tǒng)一、業(yè)務(wù)統(tǒng)一、積分統(tǒng)一、信用統(tǒng)一,從而使企業(yè)多元化的各項(xiàng)業(yè)務(wù) 達(dá)到資源和信息的行業(yè)內(nèi)統(tǒng)一。3.2 基于線上平
25、臺(tái)的數(shù)據(jù)采集平臺(tái)建設(shè)會(huì)員管理平臺(tái)的根本目的是進(jìn)行數(shù)據(jù)挖掘, 以龐大的會(huì)員信息來(lái)進(jìn)行市場(chǎng)洞察和市場(chǎng) 預(yù)測(cè)。因此建設(shè)數(shù)據(jù)收集系統(tǒng)并與會(huì)員管理平臺(tái)對(duì)接, 可以有效收集到客戶數(shù)據(jù)并進(jìn)行挖掘 工作。在數(shù)據(jù)的收集方面, 目前許多企業(yè)數(shù)據(jù)信息的作用主要是統(tǒng)計(jì)收入和業(yè)務(wù)量、 清分核算以 及考核,而大數(shù)據(jù)這一數(shù)據(jù)價(jià)值最為關(guān)鍵的特性卻沒(méi)有被很好利用。企業(yè)現(xiàn)有的平臺(tái)有時(shí)并不能很好地完成有效數(shù)據(jù)的收集, 許多數(shù)據(jù)多為財(cái)務(wù)列收數(shù)據(jù)或業(yè) 務(wù)完成情況數(shù)據(jù)。 該類數(shù)據(jù)的屬性并無(wú)太多挖掘價(jià)值, 無(wú)法進(jìn)行有效的數(shù)據(jù)分析。 數(shù)據(jù)挖掘 需涉及到分類、 聚類、關(guān)聯(lián)分析等算法的應(yīng)用,以此來(lái)定位目標(biāo)客戶, 這對(duì)數(shù)據(jù)的屬性要求 是比較高的。
26、 企業(yè)要充分挖掘和分析各類數(shù)據(jù), 開(kāi)展信息應(yīng)用, 進(jìn)行業(yè)務(wù)創(chuàng)新和運(yùn)作流程的 優(yōu)化,提升經(jīng)營(yíng)管理能力和客戶服務(wù)水平。數(shù)據(jù)收集平臺(tái)系統(tǒng)正是基于此目的進(jìn)行開(kāi)發(fā), 需達(dá)到真實(shí)有效的客戶信息數(shù)據(jù)、 業(yè)務(wù)數(shù)據(jù)、 Web 服務(wù)器日志數(shù)據(jù)的全面收集,功能包括: 與電子化平臺(tái)對(duì)接, 可以收集到平臺(tái)的會(huì)員及非會(huì)員的客戶信息數(shù)據(jù)。 在系統(tǒng)中可設(shè)客 戶的年齡、 職業(yè)、愛(ài)好、收入等客戶相關(guān)屬性項(xiàng),從而把會(huì)員俱樂(lè)部中的有效客戶信息數(shù)據(jù) 歸類收集,為分析不同類型客戶做準(zhǔn)備。 有效收集到客戶交易數(shù)據(jù)以及相關(guān)業(yè)務(wù)數(shù)據(jù), 系統(tǒng)中設(shè)定各類客戶指標(biāo) (收入貢獻(xiàn)、 交 易額、價(jià)值度等) ,為分析不同類型業(yè)務(wù)做準(zhǔn)備。 能夠進(jìn)行 WEB
27、服務(wù)器日志數(shù)據(jù)的收集。對(duì)于企業(yè)業(yè)務(wù)網(wǎng)站及企業(yè)電子商務(wù)平臺(tái),系統(tǒng) 可抽取和收集網(wǎng)站的 WEB 服務(wù)器日志數(shù)據(jù),從而為進(jìn)行相關(guān)的頁(yè)面訪問(wèn)頻度、瀏覽時(shí)間、 頁(yè)面指向等客戶行為模式分析做準(zhǔn)備。3.3 Web 挖掘在企業(yè)的應(yīng)用目前 Web 數(shù)據(jù)挖掘技術(shù)已經(jīng)在企業(yè)得到了廣泛應(yīng)用,分析其原因是該技術(shù)能夠挖掘出活 動(dòng)過(guò)程中的各類潛在信息,進(jìn)而幫助企業(yè)得到更高的發(fā)展,其優(yōu)勢(shì)具體如下:3.3.1 發(fā)現(xiàn)潛在客戶 由于 Web 數(shù)據(jù)挖掘技術(shù)可以把客戶在電子化平臺(tái)上的瀏覽行為存 儲(chǔ)下來(lái), 通過(guò)查看這些客戶的瀏覽行為就可以了解到客戶的興趣和購(gòu)買(mǎi)意向, 由此就可以發(fā) 現(xiàn)潛在客戶, 進(jìn)而有針對(duì)性地對(duì)這些潛在客戶采取某種謀略,
28、 使其盡快的成為在冊(cè)客戶群體, 如此一來(lái),電子商務(wù)網(wǎng)站的經(jīng)濟(jì)效益將會(huì)越來(lái)越好。3.3.2 提供優(yōu)質(zhì)個(gè)性化服務(wù),提高客戶忠誠(chéng)度 在電子商務(wù)中,雖然客戶和銷售商之間的 空間距離消失了, 但客戶的選擇面更廣了, 客戶只需輕點(diǎn)幾下鼠標(biāo)就可以從這家電子商務(wù)網(wǎng) 站轉(zhuǎn)換到另一家電子商務(wù)網(wǎng)站。 在這種情況下, 各家電子商務(wù)網(wǎng)站必須各出奇招, 努力使自 家網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題和獎(jiǎng)勵(lì)方案等比其它網(wǎng)站更具優(yōu)勢(shì)、 更吸引人, 通過(guò)提供 優(yōu)質(zhì)個(gè)性化的服務(wù),不斷提高客戶的忠誠(chéng)度。3.3.3 改進(jìn)系統(tǒng)性能,增強(qiáng)安全性 對(duì)于電子化平臺(tái)的各種數(shù)據(jù)統(tǒng)計(jì)分析,有助于改進(jìn)系 統(tǒng)性能, 增強(qiáng)系統(tǒng)安全性, 并提供相關(guān)決策支持。
29、客戶衡量網(wǎng)站滿意度的一個(gè)關(guān)鍵指標(biāo)就是 Web服務(wù)器的性能, 通過(guò)應(yīng)用 Web數(shù)據(jù)挖掘技術(shù)可以清楚了解到哪個(gè)站點(diǎn)的客戶是最多的, 最容易造成擁塞記錄的, 然后有針對(duì)性的采取有效的 Web 緩存策略, 減少網(wǎng)站的傳輸壓力, 同時(shí)運(yùn)用 Web 數(shù)據(jù)挖掘技術(shù)還可以將非法進(jìn)入電子商務(wù)網(wǎng)站的人員挖掘并清除出去,因此 可以說(shuō) Web 挖掘在企業(yè)的應(yīng)用改進(jìn)了系統(tǒng)性能,增強(qiáng)了安全性,保證了業(yè)務(wù)的正常展開(kāi)。3.3.4 改進(jìn)網(wǎng)站設(shè)計(jì), 增強(qiáng)客戶體驗(yàn) Web 挖掘在企業(yè)的應(yīng)用還能夠有效的改進(jìn)網(wǎng)站設(shè)計(jì), 增強(qiáng)客戶體驗(yàn),具體表現(xiàn)在以下三個(gè)方面:通過(guò)對(duì) Web 日志的挖掘,發(fā)現(xiàn)客戶訪問(wèn)頁(yè)面的相關(guān)性,從而對(duì)密切聯(lián)系的網(wǎng)頁(yè)之間
30、增 加鏈接,方便客戶使用。利用路徑分析技術(shù)判定在一個(gè) Web 站點(diǎn)中最頻繁的訪問(wèn)路徑, 可以考慮把重要的商品信息放在這些頁(yè)面中, 改進(jìn)頁(yè)面和網(wǎng)站結(jié)構(gòu)的設(shè)計(jì), 增強(qiáng)對(duì)客戶的吸 引力,提高銷售量。通過(guò)對(duì) Web 日志的挖掘,發(fā)現(xiàn)客戶的期望位置。如果在期望位置的 訪問(wèn)頻率高于對(duì)實(shí)際位置的訪問(wèn)頻率, 可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接, 從 而實(shí)現(xiàn)對(duì) Web 站點(diǎn)結(jié)構(gòu)的優(yōu)化。3.3.5 應(yīng)用于收索引擎 通過(guò)對(duì) Web 網(wǎng)頁(yè)內(nèi)容的挖掘, 可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類和分類, 實(shí) 現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索; 通過(guò)客戶使用的歷史記錄分析, 可以有效地進(jìn)行擴(kuò)展, 提高 客戶的檢索效果;通過(guò)運(yùn)用 Web 挖掘
31、技術(shù)改進(jìn) 關(guān)鍵詞 加權(quán)法,可以提高網(wǎng)絡(luò)信息的準(zhǔn)確 度,改善檢索效果。通過(guò)挖掘客戶的行為記錄和反饋情況可以為站點(diǎn)設(shè)計(jì)提供改進(jìn)的依據(jù), 從而進(jìn)一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)和服務(wù)方式來(lái)提高網(wǎng)站效率。站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引客戶的關(guān)鍵, 站點(diǎn)上頁(yè)面內(nèi)容的安排和連接如同超市中物品在貨 架上的擺設(shè)一樣, 把具有一定支持度和信任度的相關(guān)聯(lián)物品擺放在一起有助于銷售。 比如利 用關(guān)聯(lián)規(guī)則, 可以針對(duì)不同客戶動(dòng)態(tài)調(diào)整站點(diǎn)結(jié)構(gòu), 使客戶訪問(wèn)的有關(guān)聯(lián)的頁(yè)面之間的鏈接 更直接, 讓客戶很容易訪問(wèn)到想要訪問(wèn)的頁(yè)面。 這樣的網(wǎng)站往往能給客戶留下好印象, 提高 客戶忠誠(chéng)度,吸引客戶不斷訪問(wèn)。3.3.6 聚類客戶 許多企業(yè)都對(duì)企業(yè)的客戶
32、、市場(chǎng)、銷售、服務(wù)與支持信息進(jìn)行深層次發(fā) 掘和分析, 對(duì)客戶價(jià)值進(jìn)行分類,發(fā)現(xiàn)新的市場(chǎng)機(jī)會(huì),增加收入和利潤(rùn)。所以聚類電子化平 臺(tái)客戶是一個(gè)重要的方面。通過(guò)分組具有相似瀏覽行為的客戶并分析組中客戶的共同特征, 可以幫助企業(yè)更好地了解自己的客戶, 及時(shí)調(diào)整頁(yè)面及頁(yè)面內(nèi)容使商務(wù)活動(dòng)能夠在一定程度 上滿足客戶的要求, 向客戶提供更適合、 更面向客戶的服務(wù), 使商務(wù)活動(dòng)對(duì)客戶和銷售商來(lái) 說(shuō)更具意義。4 小結(jié)數(shù)據(jù)挖掘技術(shù)正以前所未有的速度發(fā)展, 并且擴(kuò)大著用戶群體, 在未來(lái)越來(lái)越激烈的市場(chǎng) 競(jìng)爭(zhēng)中,擁有數(shù)據(jù)挖掘技術(shù)必將比別人獲得更快速的反應(yīng),贏得更多的商業(yè)機(jī)會(huì)?;?Web 的數(shù)據(jù)挖掘在移動(dòng)電子商務(wù)中的應(yīng)用將是一個(gè)非常有前景的領(lǐng)域, 有很多優(yōu)勢(shì), 經(jīng)過(guò)近幾年的發(fā)展已逐漸成為數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域的一個(gè)重要分支。 其針對(duì)移動(dòng)電子商 務(wù)網(wǎng)站用戶的行為模式進(jìn)行挖掘, 可以找到用戶的潛在興趣與偏好, 指導(dǎo)網(wǎng)站建設(shè), 支持企 業(yè)營(yíng)銷決策。企業(yè)在運(yùn)營(yíng)電子商務(wù)網(wǎng)站時(shí), 尤其是移動(dòng)電子商務(wù), 會(huì)產(chǎn)生海量的業(yè)務(wù)數(shù)據(jù), 所以需要建 設(shè)一個(gè)線上的電子化大平臺(tái)來(lái)匯集業(yè)務(wù),同時(shí)在這個(gè)大平臺(tái)基礎(chǔ)之上高效地收集業(yè)務(wù)數(shù)據(jù), 針對(duì) Web數(shù)據(jù),使用 Web 挖掘技術(shù)預(yù)測(cè)客戶的消費(fèi)趨勢(shì)、市場(chǎng)走向,維系客戶關(guān)系、指導(dǎo) 企業(yè)建設(shè)個(gè)性化智能網(wǎng)站, 帶來(lái)巨大商業(yè)利潤(rùn)。 這可以為企業(yè)創(chuàng)造新的商業(yè)增
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆寧夏吳忠市高三上學(xué)期適應(yīng)性考試(一模)歷史試題(解析版)
- 《社區(qū)自治》課件
- 單位管理制度集合大全職員管理篇
- 單位管理制度匯編大全【人力資源管理】
- 單位管理制度合并選集人事管理
- 單位管理制度分享合集【人事管理】十篇
- 單位管理制度范例匯編【人力資源管理篇】十篇
- 單位管理制度呈現(xiàn)大全【人力資源管理篇】十篇
- 七年級(jí)英語(yǔ)Whatwouldyouliketohave課件
- 《珠海酒店信息》課件
- 重大隱患判定標(biāo)準(zhǔn)培訓(xùn)課件
- 畫(huà)法幾何及機(jī)械制圖課件
- 棋牌游戲自審自查報(bào)告
- 地質(zhì)災(zāi)害風(fēng)險(xiǎn)調(diào)查評(píng)價(jià)項(xiàng)目招標(biāo)文件
- JJF 2088-2023大型蒸汽滅菌器溫度、壓力、時(shí)間參數(shù)校準(zhǔn)規(guī)范
- 幼兒園食堂食品安全主體責(zé)任風(fēng)險(xiǎn)管控清單(日管控)
- 九年級(jí)上冊(cè)第二單元民主與法治 單元作業(yè)設(shè)計(jì)
- 陜西華縣皮影戲調(diào)研報(bào)告
- 2016年食堂期末庫(kù)存
- 運(yùn)籌學(xué)課程設(shè)計(jì)報(bào)告
- (完整)雙溪課程評(píng)量表
評(píng)論
0/150
提交評(píng)論