用戶建模概述-個性化系統(tǒng)應(yīng)用_第1頁
用戶建模概述-個性化系統(tǒng)應(yīng)用_第2頁
用戶建模概述-個性化系統(tǒng)應(yīng)用_第3頁
用戶建模概述-個性化系統(tǒng)應(yīng)用_第4頁
用戶建模概述-個性化系統(tǒng)應(yīng)用_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

用戶興趣建模概述

報告人:王影

導(dǎo)師:王浩

時間:2023年9月973DMGroupResearchAdvance(1)

1合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣建模用戶興趣建模的概念用戶建模技術(shù)的分類用戶模型的更新及模型的評價方法實例介紹下一步工作2合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣建模的概念用戶建模是指從有關(guān)用戶興趣和行為的信息(如瀏覽內(nèi)容、瀏覽行為、背景知識等)中歸納出可計算的用戶興趣模型的過程。3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇一跈C器學(xué)習(xí)的用戶建模根本思想讓系統(tǒng)學(xué)習(xí)的用戶興趣,如用戶指定的某類文檔或主題詞集合,使系統(tǒng)學(xué)會相應(yīng)的規(guī)那么,建立相應(yīng)的用戶模型,然后,根據(jù)用戶模型向用戶推薦相應(yīng)的新信息。李廣健,周浩.用戶建模算法的適應(yīng)性及多算法用戶建模研究.北京:中科院文獻情報中心,2023.4合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩艚5男畔碓从脩糨斎氲牟樵冴P(guān)鍵詞用戶維護的Bookmark用戶瀏覽的頁面用戶瀏覽的行為效勞器日志用戶下載、保存的頁面和資料用戶手工輸入的其它信息5合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣偏好的獲取方法用戶主動填寫關(guān)鍵字學(xué)習(xí)反響學(xué)習(xí)樣本學(xué)習(xí)跟蹤用戶瀏覽行為學(xué)習(xí)趙銀春。用戶瀏覽內(nèi)容分析與用戶興趣挖掘。2004年重慶大學(xué)碩士畢業(yè)論文6合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇页R姷挠脩襞d趣捕獲方法統(tǒng)計分析:通過分析用戶瀏覽頁面的時間、用戶的瀏覽路徑和路徑長度等信息,可以獲得用戶訪問站點的根本信息。關(guān)聯(lián)規(guī)那么:可以發(fā)現(xiàn)用戶會話中經(jīng)常被用戶一起訪問的頁面集合聚類分析用戶聚類:將具有相似瀏覽行為的用戶歸類頁面聚類:將內(nèi)容相關(guān)的頁面歸類分類:按照用戶特征數(shù)據(jù)將用戶歸屬到既定的用戶類序列模式:尋找用戶會話中在時間上有先后關(guān)系的頁面請求7合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩艚<夹g(shù)的分類按照建模過程中用戶的參與程度分為:用戶手工定制建模例如用戶建模自動用戶建模林鴻飛,楊元生.用戶興趣模型的表示和更新機制.計算機研究與開展2002年07期8合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩羰止ざㄖ平S脩羰止ざㄖ平J侵赣脩糇约菏止ぽ斎牖蜻x擇用戶感興趣信息的用戶建模方法,比方用戶手工輸入感興趣的關(guān)鍵詞列表,或者在系統(tǒng)提交給用戶的一張表格上選擇感興趣的欄目等。MyYahoo,WebWatcher是用戶手工定制建模的典型代表。9合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇沂止ざㄖ平4嬖诘膯栴}完全依賴于用戶,容易降低用戶使用系統(tǒng)的積極性用戶難以全面、準確地羅列自己感興趣的欄目或關(guān)鍵詞,導(dǎo)致用戶模型不夠準確當用戶興趣發(fā)生變化時,用戶必須重新輸入興趣信息,即該建模方法是靜態(tài)的。時間越長手工定制的用戶模型與用戶真實興趣的差異就越大10合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇彝耆蕾囉谟脩簦菀捉档陀脩羰褂孟到y(tǒng)的積極性用戶難以全面、準確地羅列自己感興趣的欄目或關(guān)鍵詞,導(dǎo)致用戶模型不夠準確當用戶興趣發(fā)生變化時,用戶必須重新輸入興趣信息,即該建模方法是靜態(tài)的。時間越長手工定制的用戶模型與用戶真實興趣的差異就越大11合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇依缬脩艚@缬脩艚J侵赣捎脩籼峁┡c自己興趣相關(guān)的例如及其類別屬性來建立用戶模型的建模方法。例如一般通過要求用戶在瀏覽的過程中對瀏覽過的頁面標注感興趣、不感興趣或者感興趣的程度來得到。瀏覽過的頁面及相應(yīng)的標注成為用戶建模的例如。加州大學(xué)于1996年推出的個性化推薦智能體Syskill&Webert是這種模型的代表。12合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇依缬脩艚4嬖诘膯栴}頻繁的交互會降低用戶使用系統(tǒng)的積極性頻繁的交互會干擾用戶的正常瀏覽用戶很難用數(shù)字表達對頁面的興趣度獲得的例如包含較多的噪聲樣本和無效樣本現(xiàn)有的用戶例如建模方法中,訓(xùn)練樣本被劃分為感興趣和不感興趣兩類。用戶感興趣的信息在主題上可能差異很大,將各種類別的興趣信息混雜在一起使得用戶模型的使用和維護很困難。13合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇易詣佑脩艚W詣佑脩艚J侵父鶕?jù)用戶的隱式反響信息自動構(gòu)建用戶模型,建模過程無需用戶干預(yù)的建模的方法。在現(xiàn)有的個性化效勞系統(tǒng)中,采用自動用戶建模方法構(gòu)建用戶模型的系統(tǒng)主要有卡內(nèi)基·梅隆大學(xué)的PersonalWebWatcher、德國國家研究中心的ELFI、麻省理工學(xué)院的Letizia等。RuckerJ.andPolaneoMJ.Siteseer:PersonalizedNavigationfortheWeb[C],CommunicationsoftheACM.Mareh1997,40(3):73一7514合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇易詣佑脩艚4嬖诘膯栴}容易引入噪聲,不利于構(gòu)建高質(zhì)量的用戶模型。15合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣模型的表示形式主題表示法用戶Bookmark表示法關(guān)鍵詞列表表示法基于本體論的表示法基于向量空間模型表示法16合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩裟P偷母嘛@式更新:根據(jù)用戶的反響信息進行更新,要求用戶在每次瀏覽結(jié)束時,對頁面進行反響和評價隱式更新:即根據(jù)用戶訪問的信息進行更新,不需要用戶的參與,具體的說,隱式更新當前主要是利用用戶的瀏覽行為信息進行用戶模型的更新。應(yīng)曉敏.面向Internet個性化效勞的用戶建模技術(shù)研究,國防科學(xué)技術(shù)大學(xué)研究生院,200517合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇腋掠脩裟P蜁r需考慮的問題即時更新:即每次瀏覽后就對用戶模型進行更新長期興趣類更新:即用戶使用一段時間后進行更新一次興趣類的調(diào)整:經(jīng)過長時間的用戶瀏覽以后,每次都用即時更新,用戶興趣類就有可能不能準確描述用戶興趣,這時就需要對用戶興趣類進行重新調(diào)整。18合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩裟P偷脑u價方法對用戶模型性能的評價目前還沒有一個統(tǒng)一而合理的標準,下面是兩種代表性的標準:查準率(preeision)=過濾結(jié)果中符合用戶興趣的信息條數(shù)/過濾結(jié)果得到的信息條數(shù)查全率(reeall)=過濾結(jié)果中符合用戶興趣的信息條數(shù)/信息源中符合用戶興趣的全部信息條數(shù)徐小琳,網(wǎng)喜戎,程時端.信息過濾技術(shù)和個性化信息效勞[J1],計算機工程與應(yīng)用2003,40(9):182一18419合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇覀€性化系統(tǒng)中用戶模型的應(yīng)用框架20合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇覍嵗夯赪eb文檔內(nèi)容的用戶興趣建模介紹建模主要思路:針對用戶所瀏覽的Web頁面,分析這些頁面與用戶興趣的相關(guān)度:假設(shè)是已有興趣那么對其權(quán)重進行加權(quán),否那么根據(jù)其權(quán)重與閥值的大小關(guān)系決定是否進入用戶興趣詞條集何曉林.基于用戶興趣學(xué)習(xí)的個性化信息效勞模型研究.北京交通大學(xué)碩士.2023.21合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣模型構(gòu)建流程圖22合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇页S弥形姆衷~方法通常使用的方法主要有機械分詞和知識分詞。機械分詞方法的思路是先查字典進行匹配,然后再適當?shù)乩镁植吭~法規(guī)那么進行歧義校正。知識分詞不僅通過詞典匹配,而且還要利用詞法、句法甚至語義等方面的知識進行匹配。23合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇艺蜃畲笃ヅ渌惴ā睲M〕根本思想為:設(shè)D為專業(yè)詞典,Max表示D中的最大詞,String為待切分字串,其長度為nLen。Step1:從待切分字串string中取字長為Max的字串Str令nLen=Max;Step2:將Str與D中的詞進行匹配;Step3:假設(shè)匹配成功,那么認為該字串Str為詞,指向待切分字串的指針向后移Max單位的漢字,返回Step1;step4:假設(shè)匹配不成功:如果nLen>1那么令nLen=nLen-1,再從待切分字串中取字長為nLen的字串str,返回到step2;否那么,得到長度為1的單字詞,指向待切分字串的指針向后移動1個漢字,返回到step1。24合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇姨卣黜椣嚓P(guān)概念特征項:指文檔中含有且能夠代表該文檔性質(zhì)的根本語言單位Web文檔的特征提取原那么:一是應(yīng)中選擇包含語義信息較多,對文檔的表示能力較強的語言單位作為特征項;二是文檔在這些特征項上的分布應(yīng)當有比較明顯統(tǒng)計規(guī)律性;三是比較容易實現(xiàn),時間和空間的開銷都不是很大特征項的選擇:字特征項詞匯特征項概念特征項李凡,魯明羽,陸玉昌.關(guān)于文本特征抽取新方法的研究.清華大學(xué)學(xué)報(自然科學(xué)版),2001,41(7):98一10125合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇姨卣黜椀臋?quán)重計算方法權(quán)重wi表示特征項i在該文檔中的重要程度詞頻法詞頻法就是以單字pi在文檔dj中出現(xiàn)的次數(shù)作為該單字的權(quán)重,即:TF-IDF公式法頻數(shù)TF:詞條在文檔中出現(xiàn)的次數(shù)倒排文檔頻數(shù)IDF:詞語在文檔集合中分布情況的一種量化,常用的計算方法是Log2(N/ni),其中N為文檔集合中的文檔數(shù)目,ni為出現(xiàn)詞條pi的文檔數(shù)。TF-IDF的計算公式:其中,TF(pi,dj)表示詞條pi在文檔dj中的出現(xiàn)頻數(shù),N表示文檔集的文檔數(shù)目,ni表示有詞條pi出現(xiàn)的文檔數(shù)目。26合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇蚁蛄靠臻g模型介紹向量空間模型給定一個自然語言文檔D=D{(t1,w1),(t2,w2),…,(tn,wn)},可以暫時不考慮ti(提取的詞條)在文檔中的先后次序,并要求ti互異(即沒有重復(fù))。這時可以把(t1,t2,…,tn)看成一個n維的坐標系,而(w1,w2,…,wn)為相應(yīng)的坐標值。因此一個文檔就可以表示為n維空間中的一個向量,稱D=D{(t1,w1),(t2,w2),…,(tn,wn)}為文檔D的向量表示或者向量空間模型。相似度在向量空間模型下,相似度常用向量的夾角來度量,夾角越小說明相似度越高27合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣模型的表示形式向量空間模型用關(guān)鍵詞向量空間中的向量來表示用戶模型定義1:興趣結(jié)點用二元組(pi,wi)表示,簡記為Node(pi)。其中p為詞條集,p=(p1,p2,..,pm),pl,p2,..,pm分別表示興趣(詞條),m為詞典的大小,wi為興趣詞條pi的權(quán)重;定義2:所有興趣的集合構(gòu)成興趣全集(詞典),興趣全集表示為:U=U{(p1,w1),(p2,w2),..,(pn,wn)};28合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣權(quán)重計算方法影響特征項的權(quán)重:詞出現(xiàn)的頻數(shù)詞在Web文檔中出現(xiàn)的位置最終的權(quán)重計算公式可以表示為:TF(pi,dj,s)表示單詞在網(wǎng)頁中的某個位置出現(xiàn)的頻數(shù),wa(set)表示對在相應(yīng)的Html標記位置上信息所賦予的權(quán)重系數(shù),其大小需要通過試驗來確定;何曉林.基于用戶興趣學(xué)習(xí)的個性化信息效勞模型研究.北京交通大學(xué)碩士.2023.29合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇一陔[式行為的用戶模型生成算法(1)將假設(shè)干文檔并成一個大文檔S(為了后面計算權(quán)重方便),對整個大文檔s進行分詞,提取詞條(p1,p2,..pn),同時分別記錄各個詞條在網(wǎng)頁中的相關(guān)位置s=標題\關(guān)鍵字\正文;(2)確定的值。在試驗中我們?nèi)?3)提取Pi,利用,計算加權(quán)后的詞頻;(4)利用權(quán)重公式對所有的詞頻進行歸處理,得到權(quán)重wi;(5)將所有詞條存入用戶興趣詞條集。30合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇宜惴鞒虉D31合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇矣脩襞d趣模型的更新算法在使用個性化信息效勞系統(tǒng)的過程中,用戶的個人興趣會不斷地發(fā)生變化。這些變化明顯表達在用戶輸入的檢索詞的不斷變化以及用戶瀏覽過程中對不同Web文檔的不同行為方式。32合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇一赪eb文檔內(nèi)容學(xué)習(xí)的個人興趣增量更新算法假設(shè)Web文檔經(jīng)過詞條提取后為{tl,t2,…tn},用戶的興趣詞條集為{q1,q2,qn},重要度閥值為m。(1)對一天內(nèi)文檔作分詞取詞處理,得到一組興趣詞條:(2)從{t1,t2,…tn}中取出詞條ti;(3)假設(shè)ti€{q1,q2,…qn}轉(zhuǎn)(5),否那么轉(zhuǎn)(4);(4)將詞條(ti,?wi)參加用戶的興趣詞條集;(5)假設(shè)ti=qk,那么新的興趣詞條權(quán)重wk=wk+?wi,假設(shè)還有詞條未檢查轉(zhuǎn)(2)。在一周的時間內(nèi)重復(fù)上述的過程,在周日的時候?qū)φ麄€用戶興趣詞條集進行整理。(6))根據(jù)閥值m判斷是否保存詞條(即wi>=m保存詞條,否那么將該詞條刪除,具體見流程圖)。33合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇以隽扛滤惴鞒虉D—詞條處理34合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘?qū)嶒炇以隽扛滤惴鞒虉D—是否保存詞條35合肥工業(yè)大學(xué)人工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論