Web數(shù)據(jù)挖掘技術在電子商務中的應用論文_第1頁
Web數(shù)據(jù)挖掘技術在電子商務中的應用論文_第2頁
Web數(shù)據(jù)挖掘技術在電子商務中的應用論文_第3頁
Web數(shù)據(jù)挖掘技術在電子商務中的應用論文_第4頁
Web數(shù)據(jù)挖掘技術在電子商務中的應用論文_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Web 數(shù)據(jù)挖掘技術在電子商務中的應用論文電子商務的迅猛開展產(chǎn)生了海量的Web數(shù)據(jù),從電子商務的大 數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的知識和信息,是電子商務安康開展的需 要。在電子商務中應用Web數(shù)據(jù)挖掘技術,可實現(xiàn)從電子商務的 Web文檔和Web活動中抽取出隱藏的有用模式。本文通過介紹Web 數(shù)據(jù)挖掘技術,分析其在電子商務中的挖掘流程,對其在電子商務 中的具體應用進行了探討。我國電子商務交易量增長迅猛,電子商務平臺和網(wǎng)站越來越 多,數(shù)據(jù)呈現(xiàn)爆炸式增長。面對海量的 Web 數(shù)據(jù),對企業(yè)而言,構 建良好的客戶管理關系,吸引新客戶留住老客戶,發(fā)現(xiàn)顧客潛在的 購置興趣等都成為了企業(yè)要關注的問題。對用戶而言,如

2、何從爆炸式的大數(shù)據(jù)中發(fā)現(xiàn)與自己相關的信息 存在一定的難度。數(shù)據(jù)挖掘技術是一種從大量的、不完全的、有噪 聲的、隨機的、模糊的數(shù)據(jù)中提取隱含在其中的人們事先不知道 的,但又具有潛在價值的信息和知識的技術1-2。在電子商務中應 用數(shù)據(jù)挖掘技術,從已有的信息數(shù)據(jù)中挖掘出潛在的有用的信息, 已成為人們關注和研究的熱點。Web數(shù)據(jù)挖掘是將傳統(tǒng)的數(shù)據(jù)挖掘思想和技術應用于Web環(huán)境 中,從Web文檔集和Web活動中抽取出感興趣、潛在的、有用的模 式和知識的過程。Web數(shù)據(jù)挖掘根據(jù)Web信息不同可以分為Web內(nèi) 容挖掘、Web結構挖掘和Web使用挖掘三個方面。Web 內(nèi)容挖掘是從文檔內(nèi)容或其描述中直接抽取有用信

3、息的過 程,通過對文本內(nèi)容的檢索,獲取和提煉知識和信息。用于Web內(nèi)容挖掘的數(shù)據(jù)既有無結構的自由文本,也有網(wǎng)民留 言、帖子、中文微博等半結構化的信息和于數(shù)據(jù)庫的結構數(shù)據(jù)。所 以Web內(nèi)容挖掘需要從Web頁面及后臺數(shù)據(jù)庫中開展挖掘任務,從 大量元數(shù)據(jù)、文本、視頻、音頻等網(wǎng)絡數(shù)據(jù)集中找到特定的信息 2。Web結構挖掘是從Web組織結構和鏈接中推導知識,對頁面進 行分類、聚類,提高檢索效率和找出權威頁面,目的是發(fā)現(xiàn)頁面的 內(nèi)部結構和文檔間的結構,利用這些結構蘊含的信息幫助發(fā)現(xiàn)有用 的知識和模式。超鏈接是Web頁面的根本元素,經(jīng)??梢岳贸溄訉eb結 構進行挖掘。進行Web結構挖掘的常用算法有計算

4、頁面權威的 PageRank算法、基于網(wǎng)頁分析的HITS算法等。Web使用挖掘是從效勞器端記錄的用戶訪問日志或用戶的瀏覽 信息中獲取數(shù)據(jù),通過分析這些數(shù)據(jù)抽取出隱藏在這些數(shù)據(jù)后面的 用戶模式,進行預測性分析。通過Web使用挖掘,可以發(fā)現(xiàn)隱藏的 與用戶訪問行為相關的規(guī)律,如頻繁訪問路徑、相似用戶群和相似 的Web頁面等3。2.1 Web數(shù)據(jù)挖掘過程在電子商務環(huán)境下,Web數(shù)據(jù)挖掘過程要經(jīng)歷以下幾步,它是 不斷反復修正的過程,直至得到準確的知識,如圖1所示。 確定挖掘任務,建立挖掘模型。構建模型的任務主要是將數(shù) 據(jù)進行規(guī)格化處理,使用不同的算法、調整參數(shù)來優(yōu)化挖掘任務, 數(shù)據(jù)挖掘技術本身就是一個不

5、斷反復、不斷迭代的過程,通過屢次 的循環(huán)構造才能得出更好的評估模型2。 數(shù)據(jù)源:電子商務網(wǎng)站每天都會產(chǎn)生海量的交易數(shù)據(jù)和用戶 訪問記錄,提供的數(shù)據(jù)數(shù)量和質量都會影響到挖掘的結果。由于 Web的結構大體為客戶端一代理效勞器-Web效勞4,所以Web的 數(shù)據(jù)源主要有Web效勞器上的Web日志文件、從代理效勞器端收集 信息及其從Web頁面中提取數(shù)據(jù)等。 數(shù)據(jù)預處理:數(shù)據(jù)預處理的目的是提高挖掘效率,提供有效 的挖掘數(shù)據(jù),使得結果更合理。Web文檔的數(shù)據(jù)很多都是半結構或 非結構化的,很難對采集的Web數(shù)據(jù)直接進行處理。采集的Web數(shù) 據(jù)需根據(jù)挖掘主題選擇相關的數(shù)據(jù)項,經(jīng)過初步的篩選,縮小數(shù)據(jù) 處理范圍。

6、另外,Web數(shù)據(jù)具有不完全性、冗余性和模糊性等特 性,通過補全不完全項、去除冗余項、處理模糊項等,去掉無用、 不合理的數(shù)據(jù),最后生成標準的數(shù)據(jù)集。 模式發(fā)現(xiàn):根據(jù)挖掘需求選擇適宜的Web挖掘算法和工具, 實現(xiàn)從數(shù)據(jù)集發(fā)現(xiàn)潛在的、有用的知識和模型。常用的Web挖掘算 法有:路徑分析用來發(fā)現(xiàn)Web站點中最經(jīng)常被訪問的路徑;關聯(lián)規(guī)那 么用于關聯(lián)知識的發(fā)現(xiàn),了解網(wǎng)頁之間的關系;序列模式可以挖掘出 交易集之間有時間序列關系的模式;運用分類和聚類算法對數(shù)據(jù)進行 分組等Web挖掘。 模式分析:對于發(fā)現(xiàn)的模式進行驗證、解釋、說明,獲取對 決策支持有用的信息。根據(jù)模式分析的反應,如果沒有得到適宜的 結果,重復上

7、述步驟,重新挖掘知識,直至得到滿意的結果。 結果可視化:Web數(shù)據(jù)挖掘的意義不是獲取龐大的數(shù)據(jù)信 息,而是要將獲取的知識或者模型采取用戶可理解的方式展現(xiàn)給用 戶,這意味著要將分析結果可視化。數(shù)據(jù)可視化主要是借助于圖形 化手段,依據(jù)數(shù)據(jù)本身及其內(nèi)在的模式和關系,清晰有效地傳達與 溝通信息。2.2 Web數(shù)據(jù)挖掘在電子商務中的應用將Web數(shù)據(jù)挖掘技術應用在電子商務中,從技術角度,可以提 供優(yōu)化網(wǎng)站結構和頁面的策略;從商家角度,可以增加穿插銷售量, 盡可能將瀏覽者變?yōu)橄M者;從用戶角度,為用戶提供了個性化效 勞。以下是Web數(shù)據(jù)挖掘在電子商務中的具體應用。 改良站點的訪問效率。通過對Web結構和We

8、b日志的分析, 對Web頁面之間的組織關系、引用關系和超鏈接關系的分析,可以 挖掘用戶網(wǎng)頁瀏覽行為模式、頁面瀏覽情況等,對頁面的重要性進 行評估,有助于商家重新調整頁面結構和頁面布局,改良Web站點 設計,提升訪問效率,吸引更多用戶。 提供個性化效勞。電子商務的快速開展,為用戶提供了更多 的選擇,同時,面對電商網(wǎng)站眾多的商品和越來越復雜的網(wǎng)站結 構,如何能快速查找到自己感興趣的商品是一個費時費力的問題。 個性化效勞是電子商務網(wǎng)站爭取更多用戶、防止用戶流失以及實現(xiàn) 市場目標的重要手段。協(xié)同過濾算法是目前使用最多、應用最成熟 的一種推薦技術5。在電子商務中,運用協(xié)同過濾等推薦算法,構 建基于Web

9、電子商務的個性化推薦系統(tǒng),可以制定不同的個性化營 銷策略。 商品推薦效勞。運用聚類、分類、關聯(lián)規(guī)那么等數(shù)據(jù)挖掘技 術,可以從用戶的訪問數(shù)據(jù)中發(fā)現(xiàn)商品之間的聯(lián)系,挖掘用戶感興 趣的商品。比方通過用戶購置商品A,推導出商品B也是用戶感興 趣的商品。通過基于Web電子商務的智能推薦系統(tǒng),客戶可以在較 短時間內(nèi)購置到滿意的商品,同時增加商家的穿插銷售量。 識別電子商務潛在客戶。通過對Web已有的老客戶數(shù)據(jù)的公 共屬性、類別關鍵屬性及其屬性間的相互關系進行分析,建立分類 模型。對于一個新的用戶,根據(jù)已建立的分類模型,對新用戶進行 正確的分類,根據(jù)類別判斷用戶是否潛在客戶。 理解客戶意圖。通過分析用戶的瀏覽路徑等多個數(shù)據(jù)源,運 用路徑游歷模式等發(fā)現(xiàn)算法,發(fā)現(xiàn)被頻繁訪問的路徑,從而發(fā)現(xiàn)用 戶的真實訪問意圖。Web挖掘能夠在海量的大數(shù)據(jù)中尋找出潛在的有用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論