下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
web用戶訪問(wèn)會(huì)話識(shí)別方法
1web用戶訪問(wèn)記錄由于網(wǎng)絡(luò)傳輸協(xié)議http的狀態(tài)、客戶端和代理服務(wù)器緩慢,用戶訪問(wèn)協(xié)議的狀態(tài)狀態(tài)分別存在于服務(wù)器、代理服務(wù)器和客戶端。同時(shí),這分布在不同地方的訪問(wèn)日志數(shù)據(jù)集也分別記載了用戶使用網(wǎng)絡(luò)資源的不同模式,比如,客戶端瀏覽器日志記錄了單個(gè)用戶訪問(wèn)多個(gè)網(wǎng)站的模式;Web服務(wù)器的日志則記錄了多個(gè)用戶訪問(wèn)一個(gè)網(wǎng)站的模式;代理服務(wù)器日志跟蹤記錄了多個(gè)用戶訪問(wèn)多個(gè)網(wǎng)站的情況。從Web用戶訪問(wèn)日志中探究用戶訪問(wèn)規(guī)律前必須要把這些日志收集整理,進(jìn)行預(yù)處理,形成多個(gè)用戶一次次對(duì)同一服務(wù)器的會(huì)話。這中間主要涉及到對(duì)用戶的確定,確定用戶瀏覽Web頁(yè)面的時(shí)間,確定用戶訪問(wèn)服務(wù)器會(huì)話期間和用戶訪問(wèn)服務(wù)器會(huì)話期間頁(yè)面幾個(gè)步驟。本文在分析國(guó)際上Web數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理方面研究狀況的基礎(chǔ)上,經(jīng)過(guò)對(duì)用戶瀏覽行為的合理假定,提出了基于時(shí)間窗口模型和最大前向參引模型的用戶訪問(wèn)會(huì)話識(shí)別方法。2web日志數(shù)據(jù)預(yù)處理方法分析2.1現(xiàn)有技術(shù)的優(yōu)缺點(diǎn)我們知道,用戶訪問(wèn)和服務(wù)器資源不是一對(duì)一的關(guān)系,比如,服務(wù)器端日志可能記載了一個(gè)用戶在多個(gè)客戶端提交請(qǐng)求的情況,也可能是多個(gè)用戶在一個(gè)客戶端提交請(qǐng)求的情況。同時(shí),由于存在緩存、防火墻和代理服務(wù)器等的存在,準(zhǔn)確確定出每個(gè)用戶很困難。除非通過(guò)在客戶端跟蹤用戶的行蹤得到第一手的訪問(wèn)資料,否則,很難準(zhǔn)確確定用戶。即使能做到這一點(diǎn),在客戶端跟蹤用戶的訪問(wèn)行為因?yàn)橐婕暗接脩舻膫€(gè)人隱私,必須用戶自己要配合才行。在這種情況下有關(guān)學(xué)者也設(shè)計(jì)了種種啟發(fā)式推斷用戶的方法,表1歸納了目前常用的為確定用戶及其行為所使用的方法及其優(yōu)缺點(diǎn)。表1中根據(jù)IP和代理識(shí)別用戶是最簡(jiǎn)單易行的,不過(guò),誤差也最大。嵌入SessionID技術(shù)一般在電子商務(wù)記錄用戶購(gòu)物籃內(nèi)物品時(shí)最常用,對(duì)每一次用戶訪問(wèn)都嵌入一個(gè)SessionID,也就是把一段時(shí)間內(nèi)同一用戶的請(qǐng)求都標(biāo)記上相同的SessionID號(hào)。但是,嵌入SessionID只在動(dòng)態(tài)網(wǎng)站上適用,而且是以時(shí)間間隔來(lái)判別當(dāng)前SessionID是否失效,超過(guò)一定的時(shí)間段就需要分配新SessionID,因此沒有考慮短時(shí)間內(nèi)重復(fù)訪問(wèn)的情況。注冊(cè)的方法只有在用戶登錄進(jìn)站以后才能跟蹤用戶訪問(wèn)行為,方法準(zhǔn)確性稍高一些,但是并不是所有的用戶都愿意注冊(cè),且每一次訪問(wèn)時(shí)都愿意登錄,可操作性不強(qiáng)。在客戶端寫入Cookie標(biāo)志,可以跟蹤用戶的重復(fù)訪問(wèn)情況,精確性較高,但是用戶如果不打開瀏覽器Cookie開關(guān),就無(wú)法實(shí)施。目前有一種折中的方法把用戶注冊(cè)登錄與寫Cookie技術(shù)結(jié)合起來(lái),用戶可以選擇本次登錄以后與下次登錄的時(shí)間間隔,利用代理軟件,精確性高,可以得到用戶精確的訪問(wèn)情況,但是可操作性也不強(qiáng),用戶可能認(rèn)為侵犯了個(gè)人隱私,拒絕使用代理軟件。修改了的瀏覽器可得到用戶對(duì)廣域網(wǎng)范圍內(nèi)的訪問(wèn)情況,對(duì)用戶隱私涉及程度也最深,幾乎不能實(shí)施,可操作性很差。如果不使用表1的方法收集客戶在客戶端瀏覽行為的數(shù)據(jù),用戶訪問(wèn)日志數(shù)據(jù)挖掘中,只根據(jù)服務(wù)器端日志數(shù)據(jù)確定用戶是有誤差的。確定用戶的誤差會(huì)導(dǎo)致對(duì)用戶訪問(wèn)服務(wù)器會(huì)話期間的劃分出現(xiàn)偏差,從而引起數(shù)據(jù)挖掘結(jié)果也出現(xiàn)偏差。因此,如何準(zhǔn)確確定用戶而又不涉及用戶隱私在研究領(lǐng)域內(nèi)一直很受關(guān)注。2.2服務(wù)器記載的時(shí)間由于網(wǎng)絡(luò)擁塞情況不同,Web頁(yè)面大小不同,服務(wù)器記載用戶請(qǐng)求頁(yè)面的時(shí)刻,瀏覽頁(yè)面時(shí)間也有較大的偏差。根據(jù)服務(wù)器端記載的用戶瀏覽頁(yè)面時(shí)間明顯要比客戶端實(shí)際的瀏覽時(shí)間長(zhǎng)。服務(wù)器記載的時(shí)間是從服務(wù)器響應(yīng)用戶請(qǐng)求時(shí)開始,在服務(wù)器收到用戶發(fā)出的下一次請(qǐng)求時(shí)結(jié)束。其中,包括了Web頁(yè)面?zhèn)鬟f向客戶瀏覽器的時(shí)間、用戶瀏覽頁(yè)面實(shí)際使用的時(shí)間、用戶下一次請(qǐng)求傳到服務(wù)器的時(shí)間。受客戶端連接處理速度、頁(yè)面大小和網(wǎng)絡(luò)擁擠程度的影響,服務(wù)器記載的用戶瀏覽頁(yè)面時(shí)間誤差大小甚至可以達(dá)到幾分鐘,因此,無(wú)法準(zhǔn)確確定用戶訪問(wèn)時(shí)間。實(shí)際應(yīng)用中一般都把服務(wù)器記載的用戶訪問(wèn)時(shí)間當(dāng)作用戶瀏覽時(shí)間。2.3確定用戶訪問(wèn)行為并進(jìn)行時(shí)間窗口評(píng)估一般地,Web服務(wù)器都要并發(fā)處理多個(gè)用戶的請(qǐng)求,因此,要從多個(gè)相互交織的用戶訪問(wèn)會(huì)話期間中正確區(qū)分出所有用戶訪問(wèn)會(huì)話期間也是有一定困難的。一般都是對(duì)用戶在客戶端瀏覽行為做合理的假定,然后在此基礎(chǔ)上確定用戶訪問(wèn)服務(wù)器會(huì)話期間。因此,也不能保證完全精確。目前最常做的假設(shè)有:用戶訪問(wèn)過(guò)程中只有在改變?cè)L問(wèn)主題時(shí),才會(huì)訪問(wèn)前面訪問(wèn)過(guò)的頁(yè)面以跳轉(zhuǎn)到另外的頁(yè)面;用戶一次訪問(wèn)的時(shí)間都不會(huì)超過(guò)一個(gè)最大的限制——時(shí)間窗口(TimeWindow)。與之相對(duì)應(yīng)也就出現(xiàn)了兩種確定用戶訪問(wèn)行為及訪問(wèn)服務(wù)器會(huì)話期間的模型:最大前向參引模型(MaximalForwardReferenceModel)、時(shí)間窗口模型(TimeWindowModel)。最大前向參引模型中所謂前向,指的是某頁(yè)面不在目前的訪問(wèn)服務(wù)器會(huì)話期間頁(yè)面集里。后向指的是某頁(yè)面已在目前的訪問(wèn)服務(wù)器會(huì)話期間集里。比如,一個(gè)用戶在一次瀏覽過(guò)程中請(qǐng)求了ABCBCDE頁(yè)面,根據(jù)最大前向參引模型,用戶訪問(wèn)過(guò)的訪問(wèn)服務(wù)器會(huì)話期間應(yīng)該是ABC和BCDE。時(shí)間窗口模型,以用戶訪問(wèn)會(huì)話歷時(shí)來(lái)作為用戶訪問(wèn)服務(wù)器會(huì)話期間的分界,如式(1)所示。當(dāng)然也可能用戶離開了,卻長(zhǎng)時(shí)間開著瀏覽器,如果出現(xiàn)這種情況,也可以使用間隔時(shí)間來(lái)區(qū)分訪問(wèn)服務(wù)器會(huì)話期間。時(shí)間窗口是可以調(diào)整的。ltmmt.time-lt11t.time≤W(1)不過(guò),在實(shí)際用戶訪問(wèn)中經(jīng)常用戶在時(shí)間窗口內(nèi)同時(shí)在進(jìn)行著兩個(gè)以上的訪問(wèn)服務(wù)器會(huì)話期間,比如同時(shí)打開幾個(gè)瀏覽器窗口,在一個(gè)窗口內(nèi)容下載過(guò)程中,瀏覽另外的窗口內(nèi)容。因此,我們提出把時(shí)間窗口模型和最大參引模型結(jié)合起來(lái),對(duì)訪問(wèn)服務(wù)器會(huì)話期間進(jìn)行推斷的方法。3基于最大前向參引模型的時(shí)間窗口模型前面介紹了根據(jù)不同的用戶瀏覽行為假設(shè)確定用戶訪問(wèn)服務(wù)器會(huì)話期間的兩種方法,實(shí)際使用過(guò)程中都存在不完善的地方。假如某網(wǎng)站具有以下的鏈接結(jié)構(gòu):假如某用戶訪問(wèn)序列是ABCDBEGF,訪問(wèn)A頁(yè)面的時(shí)刻為0時(shí)刻。根據(jù)服務(wù)器記載,T1=5,T2=10,T3=16,T4=20,T5=28,T6=56,T7=60。而第T5=28分鐘訪問(wèn)到E頁(yè)面,此刻用戶接了一個(gè)電話,在第T6=56分鐘時(shí)請(qǐng)求了E頁(yè)面,在第60分鐘又請(qǐng)求了G頁(yè)面。這種情形下,根據(jù)最大前向參引模型,可以劃分為兩個(gè)會(huì)話期間—ABCD和CEFG。根據(jù)時(shí)間窗口模型,取時(shí)間窗口長(zhǎng)度為15分鐘,那么,可以劃分為三個(gè)會(huì)話期間分別是ABC,DCE和FG。可見,單純使用最大前向參引模型,無(wú)法區(qū)分一個(gè)用戶沿時(shí)間軸訪問(wèn)的準(zhǔn)確轉(zhuǎn)折點(diǎn),比如說(shuō)用戶前后兩次訪問(wèn)間隔了有可能把一個(gè)用戶的若干次訪問(wèn)全都分配到一個(gè)訪問(wèn)服務(wù)器會(huì)話期間中。而時(shí)間窗口模型僅按照用戶瀏覽時(shí)間長(zhǎng)短區(qū)分,如果用戶在短時(shí)間(時(shí)間窗口)里進(jìn)行了兩次訪問(wèn),用時(shí)間窗口模型就無(wú)法區(qū)分,同時(shí),如果時(shí)間窗口設(shè)置不合適,又會(huì)把不屬于一次訪問(wèn)會(huì)話的頁(yè)面放在一起。因此,我們提出綜合以上兩種方法優(yōu)點(diǎn)的會(huì)話期間確定方法:①根據(jù)最大前向參引模型生成用戶訪問(wèn)服務(wù)器會(huì)話期間。②把根據(jù)最大前向參引模型劃分的除了第一個(gè)會(huì)話期間的其他會(huì)話期間按照時(shí)間窗口約束進(jìn)行劃分。在上述中把BEFG,再根據(jù)時(shí)間窗口約束W=15進(jìn)行劃分,就得到了ABCD,BE,FG三個(gè)會(huì)話期間。4不同頁(yè)面的參引關(guān)系由于客戶端緩存的存在,用戶訪問(wèn)過(guò)程中會(huì)不斷訪問(wèn)到緩存中間已經(jīng)存在的頁(yè)面,前面的方法只是從服務(wù)器日志中區(qū)分出了一個(gè)個(gè)用戶訪問(wèn)服務(wù)器會(huì)話期間,其中沒有完全包含所有用戶訪問(wèn)過(guò)的頁(yè)面。需要推斷完善用戶訪問(wèn)服務(wù)器會(huì)話期間。這里給出了一種推斷的算法??傮w思路是判斷兩個(gè)相鄰的頁(yè)面之間是否存在參引關(guān)系,所謂參引關(guān)系,就是指從一個(gè)頁(yè)面上的鏈接可以訪問(wèn)到另一個(gè)頁(yè)面。若沒有參引關(guān)系,就有需要推斷。假定相鄰頁(yè)面中間,后一個(gè)頁(yè)面為當(dāng)前頁(yè)面。這里就有兩種可能性:①需要推理的頁(yè)面在該用戶訪問(wèn)會(huì)話期間以前面頁(yè)面為參引頁(yè)面的頁(yè)面集中間;②需要推理的頁(yè)面在前面頁(yè)面的參引頁(yè)面中間。因此,問(wèn)題就轉(zhuǎn)換為在以前面頁(yè)面為參引頁(yè)面的頁(yè)面集與后一個(gè)頁(yè)面的參引頁(yè)面集之間的交集,或者前面頁(yè)面的參引頁(yè)面集和后一個(gè)頁(yè)面的參引頁(yè)面集中間尋找服務(wù)器日志中沒有記載的用戶訪問(wèn)頁(yè)面。通過(guò)這種方法就可以補(bǔ)上用戶從客戶端緩存中訪問(wèn)的頁(yè)面。根據(jù)圖1和圖2,我們知道E,C頁(yè)面之間不存在直接參引關(guān)系,通過(guò)尋找E,C頁(yè)面參引頁(yè)面的交集—B,可以推斷出用戶在訪問(wèn)C與E頁(yè)面之間,可能通過(guò)客戶端的緩存訪問(wèn)到了B頁(yè)面,由B頁(yè)面上的鏈接轉(zhuǎn)到了E頁(yè)面。同樣道理,我們可以推斷出用戶在訪問(wèn)F頁(yè)面之前可能通過(guò)客戶端的緩存訪問(wèn)到了B和A頁(yè)面,由A頁(yè)面上的鏈接轉(zhuǎn)到了F頁(yè)面。5服務(wù)器信息整理通過(guò)對(duì)用戶訪問(wèn)日志分析,確定用戶訪問(wèn)會(huì)話期間、推斷和完善用戶訪問(wèn)會(huì)話期間,我們可以比較清楚地了解用戶訪問(wèn)的情況,為進(jìn)一步的Web用戶訪問(wèn)數(shù)據(jù)挖掘做好準(zhǔn)備。本文在上述假設(shè)基礎(chǔ)上只給出了如何把服務(wù)器端日志整理成用戶訪問(wèn)會(huì)話期間并完善會(huì)話期間的方法。綜合了最大化前向訪問(wèn)模型和時(shí)間窗口模型確定用戶訪問(wèn)服務(wù)器會(huì)話期間的方法。其次,由于一個(gè)完整的Web是由一個(gè)個(gè)圖片和
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東酒店管理職業(yè)技術(shù)學(xué)院《能源工程與管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東交通職業(yè)技術(shù)學(xué)院《住宅空間設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東建設(shè)職業(yè)技術(shù)學(xué)院《高層建筑給排水與消防》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東海洋大學(xué)《中學(xué)英語(yǔ)課程標(biāo)準(zhǔn)研讀與教材分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東工業(yè)大學(xué)《道路軟件應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東東軟學(xué)院《高級(jí)木材學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東創(chuàng)新科技職業(yè)學(xué)院《初等數(shù)學(xué)研究》2023-2024學(xué)年第一學(xué)期期末試卷
- 《功能材料學(xué)概論》課件
- 廣東白云學(xué)院《化工單元仿真實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 共青科技職業(yè)學(xué)院《舞蹈III》2023-2024學(xué)年第一學(xué)期期末試卷
- 軟件定義網(wǎng)絡(luò)(SDN)實(shí)戰(zhàn)教程課件
- 上海市住院醫(yī)師規(guī)范化培訓(xùn)公共科目考試題庫(kù)-重點(diǎn)傳染病防治知識(shí)
- 燃燒仿真.燃燒數(shù)值模擬方法:化學(xué)反應(yīng)動(dòng)力學(xué)模型:燃燒仿真前沿技術(shù)與研究
- 2024江蘇省鐵路集團(tuán)限公司春季招聘24人高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- 線性代數(shù)考試練習(xí)題帶答案大全(二)
- 2024智能變電站新一代集控站設(shè)備監(jiān)控系統(tǒng)技術(shù)規(guī)范部分
- 企業(yè)反恐專項(xiàng)經(jīng)費(fèi)保障制度
- 電梯工程師在電梯設(shè)計(jì)中的工作內(nèi)容
- 《概率論與數(shù)理統(tǒng)計(jì)基礎(chǔ)》全套教學(xué)課件
- 2024國(guó)家開放大學(xué)電大本科《液壓氣動(dòng)技術(shù)》期末試題及答案
- GB/T 30306-2024家用和類似用途飲用水處理濾芯
評(píng)論
0/150
提交評(píng)論