下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Word-6-Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文1知如何能夠投其所好,為用戶實(shí)現(xiàn)主動(dòng)推舉,供應(yīng)共性化服務(wù);
這些都是電子商務(wù)成敗的關(guān)鍵問題。在這種新型的商務(wù)模式下,如何對(duì)網(wǎng)絡(luò)上大量的信息進(jìn)行有效組織利用,關(guān)心海量數(shù)據(jù)的擁有者們找出真正有價(jià)值的信息和學(xué)問,以指導(dǎo)他們的商業(yè)決策行為,成為電子商務(wù)經(jīng)營(yíng)者關(guān)注的問題??焖龠M(jìn)展的基于Web的數(shù)據(jù)挖掘技術(shù),為解決電子商務(wù)所面臨的問題供應(yīng)了有效途徑。
2Web數(shù)據(jù)挖掘
2.1Web數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中提取人們事先不知道的、潛在有用的信息和學(xué)問的非平凡過程。
Web數(shù)據(jù)挖掘(WebMining)是從Web文檔和Web活動(dòng)中抽取感愛好的、潛在的有用模式和隱蔽的信息,是數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、人工智能、信息檢索、自然語言理解等技術(shù)的綜合應(yīng)用,是在肯定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)覺有用的學(xué)問來關(guān)心人們從中提取學(xué)問。Web數(shù)據(jù)挖掘可以分為Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining)三類。Web內(nèi)容挖掘是指從文檔內(nèi)容或其描述中抽取學(xué)問的過程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對(duì)Web上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析等。Web結(jié)構(gòu)挖掘是指從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)學(xué)問。通過對(duì)Web結(jié)構(gòu)的挖掘,可以用來指導(dǎo)對(duì)頁(yè)面進(jìn)行分類和聚類,找到權(quán)威頁(yè)面,從而提高檢索的性能,同時(shí)還可以用來指導(dǎo)網(wǎng)頁(yè)采集工作,提高采集效率。Web使用記錄挖掘是指從服務(wù)器端記錄的客戶訪問日志或從客戶的掃瞄信息中抽取感愛好的模式。
基于Web的數(shù)據(jù)挖掘技術(shù)的消失不僅為商家做出正確的商業(yè)決策供應(yīng)了強(qiáng)有力的工具,也為商家更加深化地了解客戶需求信息和購(gòu)物行為的特征供應(yīng)了可能性。
2.2電子商務(wù)中Web數(shù)據(jù)挖掘的步驟
電子商務(wù)中Web數(shù)據(jù)挖掘的步驟如下:
①明確數(shù)據(jù)挖掘的對(duì)象—業(yè)務(wù)對(duì)象,確定商業(yè)應(yīng)用主題,不能盲目地進(jìn)行挖掘;
②將與業(yè)務(wù)對(duì)象的各類原始數(shù)據(jù)收集起來作為挖掘的數(shù)據(jù)源泉;
③對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理,一般包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別和格式化等階段,以提高挖掘效率,剔除無用、無關(guān)信息并對(duì)信息進(jìn)行必要的整理。
④依據(jù)需要解決的問題建立合適的數(shù)據(jù)挖掘模型,然后利用已知數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,并應(yīng)用該模型得到挖掘結(jié)果;
⑤利用可視化技術(shù),驗(yàn)證、解釋挖掘的結(jié)果,并據(jù)此做出決策或豐富學(xué)問,即進(jìn)行模式分析與應(yīng)用。
在整個(gè)Web數(shù)據(jù)挖掘的過程中,被明確的業(yè)務(wù)對(duì)象是挖掘過程的基礎(chǔ),它驅(qū)動(dòng)整個(gè)Web數(shù)據(jù)挖掘的全過程;
同時(shí),也是檢驗(yàn)挖掘結(jié)果和引導(dǎo)分析人員完成挖掘的依據(jù)。
2.3電子商務(wù)中Web數(shù)據(jù)挖掘的數(shù)據(jù)源
在電子商務(wù)中,可以用來作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多,總結(jié)起來有以下幾種類型的數(shù)據(jù)可用于Web數(shù)據(jù)挖掘技術(shù)產(chǎn)生各種學(xué)問模式。
①服務(wù)器數(shù)據(jù)。客戶訪問站點(diǎn)時(shí)會(huì)在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲(chǔ)在服務(wù)器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查詢數(shù)據(jù)。它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對(duì)于再現(xiàn)存儲(chǔ)的客戶或許會(huì)搜尋一些產(chǎn)品或某些廣告信息,這些查詢信息就是通過cookie或是登記信息連接到服務(wù)器的訪問日志上。
③在線市場(chǎng)數(shù)據(jù)。這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)里存儲(chǔ)的有關(guān)電子商務(wù)站點(diǎn)信息、用戶購(gòu)買信息、商品信息等數(shù)據(jù)。
④Web頁(yè)面。主要是指HTML和XML頁(yè)面的內(nèi)容,包括文本、圖片、語音、圖像等。
⑤Web頁(yè)面超級(jí)鏈接關(guān)系。主要是指頁(yè)面之間存在的超級(jí)鏈接關(guān)系,這也是一種重要的資源。
⑥客戶登記信息??蛻舻怯浶畔⑹侵缚蛻敉ㄟ^Web頁(yè)輸入的、要提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的人口特征。在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問日志集成,以提高數(shù)據(jù)挖掘的精確?????度,使之能更進(jìn)一步的了解客戶。
2.4Web數(shù)據(jù)挖掘能夠獵取的學(xué)問模式
運(yùn)用Web數(shù)據(jù)挖掘技術(shù)能夠?qū)φ军c(diǎn)上的各種數(shù)據(jù)源進(jìn)行挖掘,找到相關(guān)的一些學(xué)問模式,以指導(dǎo)站點(diǎn)人員更好地運(yùn)作站點(diǎn)和向客戶供應(yīng)更好的服務(wù)。一般運(yùn)用Web數(shù)據(jù)挖掘可以在站點(diǎn)上挖掘出來的學(xué)問模式有以下幾個(gè):
①路徑分析。它可以被用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問的路徑。通過路徑分析,可以得到重要的頁(yè)面,可以改進(jìn)頁(yè)面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì)。
②關(guān)聯(lián)規(guī)章的發(fā)覺。在電子商務(wù)中關(guān)聯(lián)規(guī)章的發(fā)覺可以找到客戶對(duì)網(wǎng)站上各種文件之間訪問的相互關(guān)系,可以找到用戶訪問的頁(yè)面與頁(yè)面之間的相關(guān)性和購(gòu)買商品間的相關(guān)性。利用這些相關(guān)性,可以更好的組織站點(diǎn)的內(nèi)容,實(shí)施有效的市場(chǎng)策略,增加交叉銷售量,同時(shí)還可以削減用戶過濾信息的負(fù)擔(dān)。
③序列模式的發(fā)覺。序列模式的發(fā)覺就是在時(shí)間戳有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一項(xiàng)”的內(nèi)部事務(wù)模式。它能夠便于進(jìn)行電子商務(wù)的組織猜測(cè)客戶的訪問模式,對(duì)客戶開展有針對(duì)性的廣告服務(wù)。通過系列模式的發(fā)覺,能夠在服務(wù)器方選擇有針對(duì)性地頁(yè)面,以滿意訪問者的特定要求。
④分類和猜測(cè)。分類發(fā)覺就是給出識(shí)別一個(gè)特別群體的公共屬性的描述,這個(gè)描述可以用來分類新的項(xiàng)。分類的目的是通過構(gòu)造分類模型或分類器,把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),以便用于猜測(cè);
也就是利用歷史數(shù)據(jù)記錄自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)將來數(shù)據(jù)進(jìn)行猜測(cè),進(jìn)行適合某一類客戶的商務(wù)活動(dòng)。
⑤聚類分析。聚類分析可以從Web訪問信息數(shù)據(jù)中聚集出具有相像特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng)能夠便于開發(fā)和執(zhí)行將來的市場(chǎng)策略。這種市場(chǎng)策略包括自動(dòng)給一個(gè)特定的顧客聚類發(fā)送銷售郵件、為屬于某一個(gè)顧客聚類中的顧客推舉特定的商品等。對(duì)電子商務(wù)來說,客戶聚類可以對(duì)市場(chǎng)細(xì)分理論供應(yīng)有力的支持。通過對(duì)聚類客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶供應(yīng)共性化的服務(wù)。
⑥特別檢測(cè)。特別檢測(cè)是對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,以揭示內(nèi)在的緣由,從而減小經(jīng)營(yíng)的風(fēng)險(xiǎn)。特別檢測(cè)在電子商務(wù)中的應(yīng)用可以體現(xiàn)在信用卡欺詐甄別、發(fā)覺特別客戶和網(wǎng)絡(luò)入侵檢測(cè)等方面。
Web數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)自存在的,而是在挖掘過程中相互聯(lián)系,發(fā)揮作用。
3Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
3.1數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用
與傳統(tǒng)商務(wù)活動(dòng)相比,電子商務(wù)具有更多的虛擬和不確定的因素:如客戶購(gòu)買的心理、動(dòng)機(jī)、力量、欲望等。Web數(shù)據(jù)挖掘要解決的問題就是如何從零散的無規(guī)章的網(wǎng)絡(luò)數(shù)據(jù)中找到有用的和有規(guī)章的數(shù)據(jù)和學(xué)問,基本方法之一就是進(jìn)行數(shù)據(jù)抽取,以期對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如方差值等統(tǒng)計(jì)值或用直方圖等圖形方式表示,從數(shù)據(jù)泛化的角度爭(zhēng)論數(shù)據(jù)總結(jié),把最原始、基本的信息數(shù)據(jù)從低層次抽象到高層次,以便于企業(yè)決策。
3.2基于Web數(shù)據(jù)挖掘的智能化搜尋引擎
電子商務(wù)企業(yè)在活動(dòng)過程中面臨的問題之一是如何通過Internet全面、精確?????、準(zhǔn)時(shí)地收集到企業(yè)內(nèi)、外部的環(huán)境信息,尤其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024山場(chǎng)土地合同范本
- 2024超市股份合同范本
- 2024東莞市簡(jiǎn)易廠房租賃合同范本
- 2024廣播系統(tǒng)維修合同
- 2024股東股權(quán)轉(zhuǎn)讓合同范本
- 《詳細(xì)逆變電路》課件
- 深圳大學(xué)《自然辯證法概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 餐飲的勞務(wù)合同(2篇)
- 魚塘共同經(jīng)營(yíng)管理協(xié)議書(2篇)
- 裝修合同范本(2篇)
- 2024-2025學(xué)年七年級(jí)上學(xué)期期中考試英語試題
- 職域行銷BBC模式開拓流程-企業(yè)客戶營(yíng)銷技巧策略-人壽保險(xiǎn)營(yíng)銷實(shí)戰(zhàn)-培訓(xùn)課件
- 24秋國(guó)家開放大學(xué)《計(jì)算機(jī)系統(tǒng)與維護(hù)》實(shí)驗(yàn)1-13參考答案
- 巖溶地區(qū)建筑地基基礎(chǔ)技術(shù)規(guī)范
- 光榮升旗手PPT課件
- WHO癌痛的三階梯止痛的原則
- 山西經(jīng)濟(jì)出版社小學(xué)第二冊(cè)四年級(jí)信息技術(shù)第一單元活動(dòng)教案
- 高等電力系統(tǒng)分析
- 深圳牛津版英語最新八年級(jí)(上) 課文 (帶翻譯)
- 城市污水處理廠污泥綜合處置利用制磚項(xiàng)目可行性研究報(bào)告
- 16食品科學(xué)與工程2班 吳志宏 年產(chǎn)3000噸茶油工廠設(shè)計(jì) 定稿
評(píng)論
0/150
提交評(píng)論