電子商務(wù)平臺中的Web數(shù)據(jù)挖掘應(yīng)用探討_第1頁
電子商務(wù)平臺中的Web數(shù)據(jù)挖掘應(yīng)用探討_第2頁
電子商務(wù)平臺中的Web數(shù)據(jù)挖掘應(yīng)用探討_第3頁
電子商務(wù)平臺中的Web數(shù)據(jù)挖掘應(yīng)用探討_第4頁
電子商務(wù)平臺中的Web數(shù)據(jù)挖掘應(yīng)用探討_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、電子商務(wù)平臺中的 Web數(shù)據(jù)挖掘應(yīng)用探討摘 要:隨著In ternet的高速發(fā)展和快速普及,各種信息知識可以在網(wǎng) 絡(luò)上獲得,由于In ternet是全球性的信息服務(wù)中心,可以從中取得的 數(shù)據(jù)量難以計算,特別是電子商務(wù)平臺上的客戶信息量的巨大,難以從中獲取有價值的信息,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。介紹了Web數(shù)據(jù)挖掘定義,闡述了其在電子商務(wù)平臺上的應(yīng)用。關(guān)鍵詞:Web數(shù)據(jù)挖掘;電子商務(wù)平臺Web數(shù)據(jù)挖掘概述Web數(shù)據(jù)挖掘定義Web數(shù)據(jù)挖掘是指使用數(shù)據(jù)挖掘技術(shù)從 Web文檔及Web服務(wù)中 自動發(fā)現(xiàn)并提取人們感興趣的信息。 Web挖掘是一項綜合技術(shù),覆蓋 了多個研究領(lǐng)域,包括 Web技術(shù)、數(shù)據(jù)庫、數(shù)據(jù)挖掘

2、、計算機語言 學(xué)、信息獲取、統(tǒng)計學(xué)以及人工智能等。Web數(shù)據(jù)挖掘不同于傳統(tǒng)的 數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘的研究對象是以半結(jié)構(gòu)化或非結(jié)構(gòu)化文檔為 中心的Web,這些數(shù)據(jù)沒有統(tǒng)一的模式,不像傳統(tǒng)數(shù)據(jù)庫中的結(jié)構(gòu)化 表格,數(shù)據(jù)的內(nèi)容和表示互相交織,數(shù)據(jù)內(nèi)容基本上沒有語義信息進(jìn) 行描述,僅僅依靠HTML語法對數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的描述。Web數(shù)據(jù)挖掘分類根據(jù)不同的作用與應(yīng)用對象的不同,可以把Web數(shù)據(jù)挖掘分為3 種類型:HTML標(biāo)記的Web文檔數(shù)據(jù)、Web文檔內(nèi)的連接的結(jié)構(gòu)數(shù) 據(jù)和用戶訪問數(shù)據(jù)如服務(wù)器的log日志信息。Web內(nèi)容挖掘(Web Content Mining):是指對 Web上大量文檔集合的“內(nèi)容”

3、進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢預(yù)測等,是從 Web文檔內(nèi)容或其描述中抽取知識的過 程。Web上的數(shù)據(jù)既有文本數(shù)據(jù),也有聲音、圖像、圖形、視頻等多 媒體數(shù)據(jù);既有無結(jié)構(gòu)的自由文本,也有用 HTML標(biāo)記的半結(jié)構(gòu)數(shù) 據(jù)和來自數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)。Web內(nèi)容挖掘可分為Web文本挖掘 和Web多媒體挖掘,針對的對象分別是 Web文本信息和Web多媒體 信息。Web結(jié)構(gòu)挖掘(Web Structure Mining):由于超文本文檔間的關(guān)聯(lián)關(guān)系,使得 WWW不僅可以揭示文檔中所包含的信息,同時 也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可以對頁面進(jìn)行排序,來發(fā)現(xiàn)重要的頁面

4、。挖掘 Web結(jié)構(gòu)的目的是發(fā)現(xiàn)頁面 的結(jié)構(gòu)和Web結(jié)構(gòu),在此基礎(chǔ)上對頁面進(jìn)行分類和聚類從而找到權(quán) 威頁面。Web使用挖掘(Web Usage Mining):主要通過分析用戶訪問Web的記錄了解用戶的興趣和習(xí)慣,對用戶行為進(jìn)行預(yù)測,以便 提供個性化的產(chǎn)品信息和服務(wù)。挖掘的數(shù)據(jù)是用戶與Web交互過程中留下的用戶訪問過程的數(shù)據(jù)。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志 記錄外還包括代理服務(wù)器日志、游覽器端日志、注冊信息、用戶會話 信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點擊流等一切用 戶與站點之間可能的交互記錄。Web數(shù)據(jù)挖掘的過程2.1 Web資源搜集利用抓取網(wǎng)頁的工具爬蟲(crawler

5、)和蜘蛛(spider)從Web或電 子商務(wù)網(wǎng)站上收集頁面信息。游覽頁面是用戶請求的頁面,一個頁面 中包括幾個框架、圖片和腳本。2.2預(yù)處理所謂數(shù)據(jù)預(yù)處理就是從原始數(shù)據(jù)集中除去那些與挖掘無關(guān),甚至有可能影響挖掘效果的數(shù)據(jù),同時也要對數(shù)據(jù)的屬性進(jìn)行必要的刪 除,只留下與挖掘相關(guān)的數(shù)據(jù)屬性。2.3特征抽取特征抽取對 Web文本內(nèi)容的過濾和分類、聚類、自動摘要以 及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等具有重要作用。2.4模式發(fā)現(xiàn)自動地發(fā)現(xiàn)模式,Web挖掘所產(chǎn)生的知識模式,既可以是對哥 哥文檔含義的概括,也可以是有關(guān)整個文檔集合的結(jié)構(gòu)或趨勢描述。2.5模式評價最后對挖掘出的模式進(jìn)行質(zhì)量評價,若評價的結(jié)果滿足一

6、定的 要求,則存儲這一知識模式,否則返回到前面的某一步驟,分析改進(jìn) 后,進(jìn)行新一輪的挖掘。Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)平臺3.1路徑分析技術(shù)路經(jīng)分析是一種找尋頻繁訪問路徑的方法,它通過對Web服務(wù)器的日志文件中客戶訪問站點訪問次數(shù)的分析,挖掘出頻繁訪問路 徑。簡而言之,就是簡化路徑,消除一些不必要的頁面,使用戶快速 需找到相應(yīng)的商品。在很多情況下,中間頁面會降低消費者的興趣, 同時增加了網(wǎng)站的維護(hù)成本,路經(jīng)分析就是對網(wǎng)站頁面之間的關(guān)系及 超鏈接之間聯(lián)系的分析,判斷網(wǎng)站中最頻繁訪問的路徑,刪除其他沒 有價值的頁面。3.2關(guān)聯(lián)規(guī)則關(guān)聯(lián)分析(Association Analysis)就是從大量的

7、數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的聯(lián)系、相關(guān)關(guān)系或因果結(jié)構(gòu),以及項集的頻繁模式。關(guān)聯(lián) 分析用于了解顧客的購買習(xí)慣和偏好,決定市場商品的擺放和產(chǎn)品的 捆綁銷售策略;如淘寶網(wǎng)上運動服裝頁面上會有大量的關(guān)于運動鞋和 襪子以及相關(guān)產(chǎn)品的圖片鏈接;女性雜志書籍頁面中,會有不同的相 關(guān)圖書,顧客可能會一起購買等等。利用關(guān)聯(lián)分析還可以發(fā)現(xiàn)什么商 品組合,客戶多半會一起購買,從而可以向客戶提出推薦或把相關(guān)的 商品的鏈接放在一起,進(jìn)而提高銷售量。優(yōu)化網(wǎng)站結(jié)構(gòu)關(guān)聯(lián)分析的目 的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系, 找到客戶對網(wǎng)站上各種 文件之間訪問的相互聯(lián)系??梢愿玫亟M織站點,減少用戶過濾信息 的負(fù)擔(dān),并可以根據(jù)客戶當(dāng)前

8、的購買行為給客戶提供推薦,挖掘群體用戶訪問頁面之間的關(guān)聯(lián),進(jìn)而改進(jìn)電子商務(wù)網(wǎng)站的設(shè)計。3.3序列模式序列模式是用某時間點發(fā)現(xiàn)的產(chǎn)品購買或其他行為模式來預(yù)測將來顧客購買產(chǎn)品或服務(wù)類別的概率;例如,根據(jù)前一段時間里, 電子商務(wù)網(wǎng)站的銷售情況來預(yù)測下一個階段的銷售情況。當(dāng)客戶在網(wǎng)上購買了羽毛球拍時,那么顧客會在后續(xù)的時間里會不斷的購買羽 毛球,以及相應(yīng)的運動用品。序列模式分析的側(cè)重點在于分析數(shù)據(jù)間 的前后或因果關(guān)系。在電子商務(wù)數(shù)據(jù)挖掘中,應(yīng)用序列模式分析技術(shù) 便于電子商務(wù)企業(yè)預(yù)測客戶的行為對客戶提供個性化服務(wù)。當(dāng)訪問者鏈接到電子商務(wù)網(wǎng)站,網(wǎng)站管理員可以找出這個訪問者的訪問序列模 式,將他可能要訪問但

9、還未訪問的頁面放在顯眼的位置。3.4分類分類用于預(yù)測哪些人會對郵寄廣告和產(chǎn)品目錄、 贈券促銷手段 有反應(yīng),還可用于顧客類別劃分、破產(chǎn)預(yù)測等。對于商業(yè)網(wǎng)站,根據(jù) 訪問網(wǎng)站的客戶信息和用戶的訪問模式得出訪問網(wǎng)站的用戶特征。對用戶分類后,知道各類客戶的特點愛好,就可以發(fā)現(xiàn)未來的潛在客戶 并開展有針對性的商務(wù)活動,提供人性化的信息服務(wù)。同時,也可以 對新的客戶進(jìn)行分析,分類,發(fā)現(xiàn)新的客戶屬于哪一個類別,進(jìn)而有 針對性的開展商務(wù)活動。3.5聚類分析聚類用于市場細(xì)分,將顧客按其行為或特征模式的相似性劃分 為若干細(xì)分市場,以采取有針對性的營銷策略;可以從服務(wù)器訪問信 息數(shù)據(jù)中找出具有相似特性的客戶組,即把有

10、相似特性的用戶信息數(shù) 據(jù)合并到一起。在電子商務(wù)平臺上為用戶提供個性化服務(wù), 將需求和 愛好類似的用戶歸為一類,從而動態(tài)地為客戶定制商品的內(nèi)容或提供瀏覽建議,同時有利于提高廣告的效果,促進(jìn)網(wǎng)上銷售和提高用戶忠 誠度等。4電子商務(wù)中的Web挖掘的作用4.1發(fā)現(xiàn)潛在客戶和提高客戶滿意度通過挖掘相關(guān)的 Web日志,發(fā)現(xiàn)用戶訪問 Web頁面的模式;通 過分析日志的規(guī)律,可以識別用戶的忠誠度、喜好和滿意度,可以挖 掘潛在用戶,增強站點的服務(wù)競爭力。4.2優(yōu)化網(wǎng)站結(jié)構(gòu)Web挖掘有利于合理建造網(wǎng)站及合理設(shè)計服務(wù)器, 如輔助改進(jìn)分布式網(wǎng)絡(luò)系統(tǒng)的設(shè)計性能,在有高度相關(guān)的網(wǎng)站間提供快速有效的訪 問通道;幫助更好地組

11、織設(shè)計 Web主頁;幫助改善市場營銷決策, 如把廣告放在適當(dāng)?shù)?Web頁上或更好地理解客戶的興趣,這樣的知 識將有助于商家制定促銷策略。4.3個性化服務(wù),智能商務(wù)針對單個用戶的使用記錄對該用戶進(jìn)行建模, 結(jié)合該用戶基本信 息分析其使用習(xí)慣、個人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提 供與眾不同的個性化服務(wù)。根據(jù)客戶所訪問的商品頁面內(nèi)容,提供大 量同類商品的鏈接頁面進(jìn)行對比選擇,滿足客戶的不同需求。5結(jié)束語電子商務(wù)平臺就像一個可以收集海量客戶信息的數(shù)據(jù)庫,應(yīng)用Web數(shù)據(jù)挖掘技術(shù),分析其規(guī)律,探討其模式,為商業(yè)決策提供有力 的支持和保證。作為實用工具,還需要進(jìn)一步地分析完善。Web數(shù)據(jù) 挖掘在電子商務(wù)平臺上有著不可估量的發(fā)展前景,能夠指導(dǎo)網(wǎng)商進(jìn)行合理的、科學(xué)地建設(shè)網(wǎng)站,提供個性化的服務(wù)和增強市場競爭力。參考文獻(xiàn)::1夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第 2版)M 北京: 科學(xué)出版社,2009.:2洪濤.電子商務(wù)盈利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論