版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于Web日志挖掘技術(shù)的商務(wù)信息系統(tǒng)構(gòu)建論文導(dǎo)讀:Web日志挖掘,是Web使用挖掘的一種,就是通過(guò)對(duì)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,從而進(jìn)一步分析和研究Web日志記錄中的規(guī)律,以期改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率,并通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時(shí)間、特定頁(yè)面等要素之間的內(nèi)在聯(lián)系,這在電子商務(wù)等領(lǐng)域是大有作為的。web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn),一般包括三個(gè)階段,即數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析。Web日志挖掘技術(shù)為商務(wù)信息網(wǎng)站構(gòu)建的合理性分析以及相關(guān)電子商務(wù)信息系統(tǒng)建設(shè)提供了重要的科學(xué)指導(dǎo)。關(guān)鍵詞:Web日志挖
2、掘,商務(wù)信息網(wǎng)站,數(shù)據(jù)1.Web日志挖掘的概念Web日志挖掘,是Web使用挖掘的一種,就是通過(guò)對(duì)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,從而進(jìn)一步分析和研究Web日志記錄中的規(guī)律,以期改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率,并通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時(shí)間、特定頁(yè)面等要素之間的內(nèi)在聯(lián)系,這在電子商務(wù)等領(lǐng)域是大有作為的。用戶使用Web獲取信息的過(guò)程中需要不停地從一個(gè)Web站點(diǎn)通過(guò)超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn),這種過(guò)程存在一定的普遍性,發(fā)現(xiàn)此規(guī)律即是Web用戶訪問(wèn)信息發(fā)現(xiàn)。免費(fèi)論文。web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn),一般包括三個(gè)
3、階段,即數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析。2.Web日志挖掘的過(guò)程Web日志挖掘通過(guò)分析和研究Web日志記錄中的規(guī)律,識(shí)別電子商務(wù)的潛在用戶,提高對(duì)最終用戶信息服務(wù)的質(zhì)量并改進(jìn)Web服務(wù)系統(tǒng)的性能和結(jié)構(gòu)。2.1數(shù)據(jù)預(yù)處理Web日志文件記錄中存儲(chǔ)的是用戶訪問(wèn)站點(diǎn)信息的原始記錄,直接在這些數(shù)據(jù)上面進(jìn)行挖掘是比較困難的,在使用算法或工具對(duì)其進(jìn)行分析之前,必須進(jìn)行預(yù)處理。預(yù)處理過(guò)程是Web日志挖掘質(zhì)量保證的關(guān)鍵,因?yàn)樘幚砗蟮臄?shù)據(jù)好壞、全面與否,直接影響到數(shù)據(jù)挖掘的結(jié)果,進(jìn)而對(duì)網(wǎng)站決策者的決策造成直接影響。特別是中小型電子商務(wù)網(wǎng)站,其數(shù)據(jù)相對(duì)較少,因此數(shù)據(jù)處理的準(zhǔn)確性極為重要。Web日志預(yù)處理主要有4個(gè)步
4、驟:數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別和數(shù)據(jù)合并。Web日志文件中包含一些不能反映用戶行為的記錄,數(shù)據(jù)凈化就是去掉這些記錄。而用戶識(shí)別的目的是對(duì)用戶的唯一性的識(shí)別。在通常情況下,只有通過(guò)分析日志文件中的IP地址、agent等信息來(lái)識(shí)別不同的用戶。會(huì)話識(shí)別是建立在對(duì)用戶識(shí)別的基礎(chǔ)上的,其目的是將用戶的訪問(wèn)記錄分為單個(gè)會(huì)話。同時(shí),對(duì)于網(wǎng)站上繁雜的頁(yè)面,由于數(shù)量較多,而且有許多網(wǎng)頁(yè)的內(nèi)容有一定的聯(lián)系或相似之處,所以可以對(duì)其進(jìn)行一定程度的合并,從而將其分成能反映網(wǎng)站邏輯信息的同質(zhì)類(lèi)別。特別是中小型電子商務(wù)網(wǎng)站的網(wǎng)頁(yè),由于網(wǎng)站設(shè)計(jì)人員的知識(shí)架構(gòu)、技術(shù)層次以及對(duì)所要設(shè)計(jì)的網(wǎng)站內(nèi)容的了解程度的限制,很難建立一個(gè)完
5、全無(wú)重復(fù)內(nèi)容網(wǎng)頁(yè)和完全反映網(wǎng)站邏輯信息的網(wǎng)站。如果不對(duì)網(wǎng)頁(yè)進(jìn)行一定程度的合并,那么數(shù)據(jù)集合中變量的數(shù)量也即對(duì)應(yīng)的瀏覽過(guò)的網(wǎng)頁(yè)數(shù)量就太大了,甚至這些變量中許多組合從來(lái)都沒(méi)有現(xiàn)過(guò),或出現(xiàn)的很少,所以就需要將數(shù)據(jù)進(jìn)行合并。免費(fèi)論文。免費(fèi)論文。2.2模式發(fā)現(xiàn)模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識(shí)??捎糜赪eb的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類(lèi)規(guī)則、聚類(lèi)分析、序列分析、依賴(lài)性建模等。2.3模式分析模式分析是Web日志挖掘中的最后一項(xiàng)重要的步驟,主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣(有用)的模式。對(duì)于一個(gè)商務(wù)信息系統(tǒng),通過(guò)模式發(fā)現(xiàn)與模式分
6、析,可以得到詳細(xì)的用戶反饋,幫助他們根據(jù)實(shí)際用戶的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁(yè)鏈接結(jié)構(gòu)和網(wǎng)頁(yè)內(nèi)容,對(duì)網(wǎng)站進(jìn)行優(yōu)化,從而延長(zhǎng)用戶的駐留時(shí)間,挽留老用戶、吸引新州戶,并增加用戶的購(gòu)買(mǎi)率,以此獲得電子商務(wù)網(wǎng)站的成功運(yùn)行;而通過(guò)對(duì)內(nèi)部管理系統(tǒng)用戶的聚類(lèi),可以明確網(wǎng)站運(yùn)營(yíng)的缺陷在哪里,還有何可以改進(jìn)的地方。3.Web日志挖掘技術(shù)在商務(wù)信息系統(tǒng)中的構(gòu)建3.1建立個(gè)性化的網(wǎng)站模型(1)用戶可以通過(guò)注冊(cè)后訪問(wèn)網(wǎng)站,也可以不通過(guò)注冊(cè)直接訪問(wèn);(2)針對(duì)不同的用戶,網(wǎng)站提供不同的服務(wù);(3)根據(jù)用戶的訪問(wèn)記錄信息,動(dòng)態(tài)調(diào)整網(wǎng)站的頁(yè)面,產(chǎn)生的個(gè)性化的網(wǎng)站使得用戶可以更容易地到達(dá)他所需服務(wù)的數(shù)據(jù)網(wǎng)頁(yè);(4)挖掘用戶的We
7、b訪問(wèn)日志,在用戶定制區(qū)內(nèi)預(yù)測(cè)并推薦用戶的潛在訪問(wèn)網(wǎng)頁(yè)鏈接。3.2個(gè)性化網(wǎng)站系統(tǒng)的框架系統(tǒng)主要由4個(gè)功能模塊組成,分別為用戶識(shí)別模塊,行為記錄模塊,興趣識(shí)別模塊和個(gè)性推薦模塊。各個(gè)模塊的說(shuō)明如下。(1)用戶識(shí)別模塊。用戶識(shí)別模塊處理用戶的基本信息并識(shí)別用戶。包括用戶的登錄名(注冊(cè)用戶有自己唯一對(duì)應(yīng)的name;非注冊(cè)用戶有一個(gè)共同的name,但有不同的Cookie值);用戶登錄密碼;用戶注冊(cè)個(gè)人信息時(shí)填入的喜好;以及為了更加準(zhǔn)確地識(shí)別用戶而獲取的關(guān)于用戶身份的其他一些基本信息,如MAC地址、IP地址、瀏覽器版本號(hào)和操作系統(tǒng)版本號(hào)等。用戶登錄后通過(guò)用戶名或Cookie值為每個(gè)用戶分配UserID,
8、以方便其他模塊進(jìn)一步地調(diào)整網(wǎng)站的頁(yè)面以及在用戶定制區(qū)內(nèi)推薦該用戶可能訪問(wèn)的鏈接。(2)行為記錄模塊。用戶的訪問(wèn)(行為記錄)日志是系統(tǒng)進(jìn)行用戶個(gè)性化特征分析的數(shù)據(jù)依據(jù)和數(shù)據(jù)基礎(chǔ)。訪問(wèn)日志模塊處理用戶行為記錄的各項(xiàng)信息,包括用戶訪問(wèn)某一頁(yè)面的時(shí)間以及在該頁(yè)面停留的時(shí)間,訪問(wèn)某一頁(yè)面的次數(shù),用戶訪問(wèn)網(wǎng)站的某頁(yè)面的URL地址,為其他相關(guān)模塊提供用戶信息,以及對(duì)大量數(shù)據(jù)保存方面的管理配置。(3)興趣識(shí)別模塊。一個(gè)網(wǎng)站由眾多網(wǎng)頁(yè)構(gòu)成的結(jié)點(diǎn)組成,結(jié)點(diǎn)之間的聯(lián)系是通過(guò)頁(yè)面的鏈接來(lái)實(shí)現(xiàn)的。一些大型門(mén)戶網(wǎng)站首頁(yè),大量的鏈接讓人跟花繚亂。在這類(lèi)網(wǎng)站上讓用戶填寫(xiě)興趣表單只會(huì)考驗(yàn)用戶的耐心。因此根據(jù)用戶在網(wǎng)站中各頁(yè)面的
9、停留時(shí)間和訪問(wèn)次數(shù)等特征,結(jié)合用戶參與、識(shí)別、建立、調(diào)整該用戶的喜好,可以避免用戶填寫(xiě)一系列繁瑣的表單操作。興趣的識(shí)別模塊將根據(jù)訪問(wèn)日志模塊所給出的各個(gè)用戶不同信息計(jì)算得到該用戶的興趣強(qiáng)度,并且把識(shí)別的結(jié)果存儲(chǔ)在用戶興趣分類(lèi)中,以便為頁(yè)面顯示提供數(shù)據(jù)源。(4)個(gè)性推薦模塊。個(gè)性推薦模塊的功能包括興趣回顧和興趣推薦,根據(jù)用戶過(guò)去的行為預(yù)測(cè)用戶的將來(lái)行為。網(wǎng)站的用戶在登錄以后,個(gè)性推薦模塊根據(jù)用戶的UserlD查找用戶興趣庫(kù)中該用戶的歷史興趣,利用個(gè)性化推薦進(jìn)行興趣推薦。系統(tǒng)針對(duì)用戶的不同興趣提供相應(yīng)的服務(wù)。在頁(yè)面主顯示區(qū)和用戶定制區(qū)分別顯示相應(yīng)的內(nèi)容。免去用戶多次點(diǎn)擊鏈接的麻煩,使用戶的訪問(wèn)更加有效率。4.結(jié)束語(yǔ)Web日志挖掘技術(shù)為商務(wù)信息網(wǎng)站構(gòu)建的合理性分析以及相關(guān)電子商務(wù)信息系統(tǒng)建設(shè)提供了重要的科學(xué)指導(dǎo)。實(shí)踐證明,通過(guò)對(duì)Web日志進(jìn)行預(yù)處理,清理、過(guò)濾以及重新組合不規(guī)范的記錄,并將Web日志中的數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的形式來(lái)挖掘關(guān)聯(lián)規(guī)則,并對(duì)用戶進(jìn)行聚類(lèi)和分類(lèi),能夠找出特定用戶與特定地域、特定時(shí)間、特定頁(yè)面等要素之間的內(nèi)在聯(lián)系,發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式,從而改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率。參考文獻(xiàn)1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二手店鋪過(guò)戶協(xié)議模板版B版
- 二零二五年度豪華酒店建筑工程施工總承包合同2篇
- 二零二五年度安置房項(xiàng)目環(huán)保驗(yàn)收合同6篇
- 二零二五年海洋平臺(tái)用鋼板租賃服務(wù)協(xié)議3篇
- 二零二五年度高等教育機(jī)構(gòu)教師聘期管理勞動(dòng)合同范本3篇
- 二零二五年食品安全生產(chǎn)責(zé)任賠償合同3篇
- 武漢工貿(mào)職業(yè)學(xué)院《珠寶商務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度智能安防產(chǎn)品集成與調(diào)試合同3篇
- 2024銅門(mén)制安工程物流服務(wù)合同
- 2024版日用百貨購(gòu)銷(xiāo)合同范本
- 小學(xué)四年級(jí)數(shù)學(xué)知識(shí)點(diǎn)總結(jié)(必備8篇)
- GB/T 893-2017孔用彈性擋圈
- GB/T 11072-1989銻化銦多晶、單晶及切割片
- GB 15831-2006鋼管腳手架扣件
- 醫(yī)學(xué)會(huì)自律規(guī)范
- 商務(wù)溝通第二版第4章書(shū)面溝通
- 950項(xiàng)機(jī)電安裝施工工藝標(biāo)準(zhǔn)合集(含管線套管、支吊架、風(fēng)口安裝)
- 微生物學(xué)與免疫學(xué)-11免疫分子課件
- 《動(dòng)物遺傳育種學(xué)》動(dòng)物醫(yī)學(xué)全套教學(xué)課件
- 弱電工程自檢報(bào)告
- 民法案例分析教程(第五版)完整版課件全套ppt教學(xué)教程最全電子教案
評(píng)論
0/150
提交評(píng)論