個(gè)性化檢索中的相似用戶群的獲取與更新_第1頁
個(gè)性化檢索中的相似用戶群的獲取與更新_第2頁
個(gè)性化檢索中的相似用戶群的獲取與更新_第3頁
個(gè)性化檢索中的相似用戶群的獲取與更新_第4頁
個(gè)性化檢索中的相似用戶群的獲取與更新_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、個(gè)性化信息檢索摘要下一代搜索引擎的一個(gè)突出特點(diǎn)是個(gè)性化,個(gè)性化信息檢索是以用戶為中心的信息檢索技術(shù),它獲取以多種形式表達(dá)的用戶需求(包括顯式的、隱式的以及相關(guān)用戶的需求),并綜合利用這些用戶信息,提高信息檢索系統(tǒng)的性能。作為個(gè)性化檢索中的重要研究子課題,相似用戶群的建立與更新的任務(wù)是,通過對(duì)用戶檢索和瀏覽歷史的分析,建立興趣相似的用戶群,并隨著用戶信息和檢索領(lǐng)域的變化對(duì)相似用戶群進(jìn)行更新。相似用戶群的建立與更新任務(wù)面臨的主要問題是,缺乏合理的任務(wù)劃分和標(biāo)準(zhǔn)評(píng)測(cè)集,無法對(duì)相似用戶群系統(tǒng)進(jìn)行公正的評(píng)價(jià)。因此,本文通過對(duì)個(gè)性化檢索進(jìn)行合理的任務(wù)劃分,將相似用戶群劃分為一個(gè)獨(dú)立的子任務(wù),并利用開發(fā)的語

2、料標(biāo)注輔助系統(tǒng),為其建立了標(biāo)準(zhǔn)評(píng)測(cè)集,使得可以對(duì)相似用戶群的系統(tǒng)進(jìn)行公正的評(píng)價(jià)和比較。在相似用戶群的研究中,由于用戶間共同評(píng)價(jià)過的網(wǎng)頁較少,數(shù)據(jù)稀疏成為限制相似用戶群建立效果的重要問題,因此,本文對(duì)相似用戶群建立的研究主要集中在解決數(shù)據(jù)稀疏問題上。本文提出了基于相關(guān)性模型的相似用戶群建立方法,采用相關(guān)性模型,利用相似領(lǐng)域中的相似用戶,對(duì)當(dāng)前領(lǐng)域中的用戶查看數(shù)據(jù)進(jìn)行擴(kuò)充,以解決數(shù)據(jù)稀疏問題。同時(shí),根據(jù)實(shí)際情況,隨著領(lǐng)域的不同對(duì)相似用戶群不斷進(jìn)行更新,以使相似用戶群的建立更加準(zhǔn)確。實(shí)驗(yàn)語料為標(biāo)注者針對(duì)天網(wǎng)100g語料進(jìn)行的檢索行為和標(biāo)注的答案,評(píng)測(cè)指標(biāo)采用錯(cuò)檢率、漏檢率和系統(tǒng)性能損耗代價(jià)。此方法的

3、性能在測(cè)試語料集上比baseline方法提高了7.12%,說明基于相關(guān)性模型的相似用戶群方法可以很好地解決數(shù)據(jù)稀疏,同時(shí)由于利用用戶群興趣挖掘單個(gè)用戶興趣,防止了用戶興趣判斷的偏差,提高相似用戶群建立的效果。關(guān)鍵詞個(gè)性化檢索;協(xié)作過濾;相似用戶群;相關(guān)性模型abstractan important characteristic of next generation search engine is personalization. personalized information retrieval (pir) focuses on users. it captures users inter

4、est in different kinds (explicit, implicit interest and interest of similar users). these information of users are integrated and used to improve the result of information retrieval system.the establishment and update of similar users cluster is an important subtask of personalized information retri

5、eval. its task is to establish clusters of similar users by analyzing users retrieval and browsing history. the clusters will also be updated with the change of users information and retrieval areas. the problem in this task is the lack of tasks division and standard evaluation dataset. therefore, t

6、his paper defines four subtasks of pir, which include the establishment and update of similar users cluster. the establishment standard evaluation dataset makes it possible to evaluate and compare the systems of user clustering. the data sparseness limits the performance of user clustering because w

7、eb pages rated by different users are rare. therefore, the research of this paper focuses on solving the problem of data sparseness. this paper proposes a user clustering method based on relevance model. it uses users data in similar domains to expand the data of users in current domain by relevance

8、 model. the users clusters will also be updated with the change of retrieval domains. the retrieval information and labeled answers of users are used to establish the experimental dataset. the evaluation matrix includes false alarm rate, miss alarm rate and cost of detection. in the experiment, user

9、 clustering based on relevance model improves the result of baseline system by 7.12%. this result proves that the proposed algorithm can alleviate the problem of data sparseness. whats more, mining users interest by its cluster can decrease the false information in users models and improve the resul

10、t of precision of user clustering. keywordspersonalized information retrieval;collaborative filtering; user clustering; relevance model目錄摘要iabstractii第1章 緒論11.1 課題背景11.2 課題的研究目的和意義21.2.1 課題的研究目的21.2.2 課題的研究意義21.2.3 相似用戶群研究的應(yīng)用31.3 國(guó)內(nèi)外相關(guān)研究41.3.1 相似用戶的判斷41.3.2 解決數(shù)據(jù)稀疏問題的研究71.4 本章小結(jié)8第2章 個(gè)性化檢索任務(wù)劃分及評(píng)測(cè)92.1

11、個(gè)性化檢索的任務(wù)劃分92.1.1 用戶新興趣發(fā)現(xiàn)92.1.2 用戶興趣跟蹤112.1.3 相似用戶群建立122.1.4 個(gè)性化檢索142.2 語料標(biāo)注的輔助系統(tǒng)142.2.1 系統(tǒng)介紹142.2.2 正確答案記錄172.2.3 語料規(guī)模182.3 相似用戶群的評(píng)測(cè)182.3.1 評(píng)測(cè)機(jī)制182.3.2 評(píng)測(cè)方法192.4 本章小結(jié)19第3章 用戶興趣發(fā)現(xiàn)與跟蹤213.1 用戶新興趣發(fā)現(xiàn)213.1.1 基于向量空間模型的新興趣發(fā)現(xiàn)方法213.1.2 基于texttiling的新興趣發(fā)現(xiàn)方法223.1.3 實(shí)驗(yàn)結(jié)果及分析243.2 用戶興趣跟蹤253.2.1 實(shí)驗(yàn)方法253.2.2 實(shí)驗(yàn)結(jié)果及分析

12、253.3 本章小結(jié)26第4章 基于相關(guān)性模型的數(shù)據(jù)擴(kuò)充方法研究274.1 話題跟蹤研究簡(jiǎn)介274.2 相關(guān)性模型284.3 基于向量空間模型的相關(guān)性模型284.4 基于話題核心與新穎部分的話題跟蹤294.4.1 話題核心的構(gòu)建304.4.2 利用改進(jìn)相關(guān)性模型調(diào)整話題的新穎部分304.4.3 話題模型的構(gòu)建314.5 實(shí)驗(yàn)及結(jié)果分析314.5.1 實(shí)驗(yàn)語料及評(píng)測(cè)機(jī)制324.5.2 實(shí)驗(yàn)結(jié)果324.6 本章小結(jié)34第5章 基于相關(guān)性模型的相似用戶群研究355.1 相關(guān)研究355.2 基于相關(guān)性模型的相似用戶群建立385.2.1 用戶數(shù)據(jù)擴(kuò)充385.2.2 用戶相似度計(jì)算395.3 實(shí)驗(yàn)及結(jié)果分

13、析395.3.1 實(shí)驗(yàn)語料405.3.2 實(shí)驗(yàn)結(jié)果分析405.4 本章小結(jié)42結(jié)論43參考文獻(xiàn)44攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文48哈爾濱工業(yè)大學(xué)碩士學(xué)位論文原創(chuàng)性聲明49哈爾濱工業(yè)大學(xué)碩士學(xué)位論文使用授權(quán)書49哈爾濱工業(yè)大學(xué)碩士學(xué)位涉密論文管理49致謝50千萬不要?jiǎng)h除行尾的分節(jié)符,此行不會(huì)被打印。在目錄上點(diǎn)右鍵“更新域”,然后“更新整個(gè)目錄”。打印前,不要忘記把上面“abstract”這一行后加一空行第1章 緒論1.1 課題背景由于web信息的日益增長(zhǎng),人們不得不花費(fèi)大量的時(shí)間去搜索、瀏覽自己需要的信息。搜索引擎是最普遍的輔助人們檢索web信息的工具,比如傳統(tǒng)的搜索引擎altavista、yah

14、oo和新一代的搜索引擎google等。盡管商業(yè)搜索引擎已經(jīng)取得了相當(dāng)?shù)某晒?。但要大部分搜索引擎是基于關(guān)鍵詞匹配的方式進(jìn)行檢索的,導(dǎo)致檢索結(jié)果中無關(guān)的網(wǎng)頁過多并且沒有考慮不同用戶的個(gè)性差異和需要。由此可見,目前所廣泛采用的信息檢索技術(shù)無法滿足不同背景、不同目的和不同時(shí)期的查詢請(qǐng)求。舉例來說,研究計(jì)算機(jī)和果樹栽培的兩個(gè)用戶,在搜索 “蘋果”時(shí)分別想查找“蘋果電腦”和關(guān)于蘋果栽培的知識(shí)。如果我們能夠根據(jù)這兩個(gè)用戶的職業(yè)以及平時(shí)查詢和瀏覽的內(nèi)容為這兩個(gè)用戶建立不同的檔案,就可以為他們返回不同的結(jié)果。個(gè)性化檢索系統(tǒng)就是利用用戶的注冊(cè)信息以及瀏覽和查詢歷史等信息挖掘和預(yù)測(cè)用戶興趣,從而結(jié)合用戶當(dāng)前的查詢關(guān)

15、鍵詞,返回符合用戶個(gè)人興趣的檢索結(jié)果。同時(shí),物以類聚,人以群分,每個(gè)人都有自己的興趣,而和他興趣最接近的一些用戶會(huì)組成一個(gè)用戶群。比如有一些用戶都對(duì)“飛碟”非常感興趣,我們可以利用用戶群在查詢和瀏覽中的行為作為判斷當(dāng)前用戶檢索興趣的依據(jù),從而更加準(zhǔn)確地把握用戶的檢索意圖。因此,相似用戶群的建立對(duì)提高個(gè)性化檢索的性能有重要意義。同時(shí)相似用戶群還可以用來預(yù)測(cè)用戶的潛在興趣,將用戶可能感興趣的信息推薦給用戶。例如,某些用戶都對(duì)“飛碟”有共同的興趣,如果某一天出現(xiàn)了新聞“英國(guó)天空驚現(xiàn)ufo”,對(duì)“飛碟”感興趣的很多用戶都對(duì)這個(gè)新聞感興趣,那么,系統(tǒng)就可以將這則新聞推薦給這些用戶。這就是利用相似用戶的興

16、趣判斷和預(yù)測(cè)單個(gè)用戶的興趣。利用這個(gè)原理進(jìn)行個(gè)性化檢索和信息推薦將能夠更好地滿足用戶的個(gè)性需求。1.2 課題的研究目的和意義相似用戶群建立的研究不僅對(duì)個(gè)性化檢索和個(gè)性化推薦系統(tǒng)1有重要意義,而且具有重要的實(shí)際應(yīng)用價(jià)值。1.2.1 課題的研究目的基于相似用戶群的個(gè)性化信息檢索的解決思路是協(xié)作過濾和信息社會(huì)化檢索。主要方法是系統(tǒng)通過對(duì)用戶按興趣模式聚類來增強(qiáng)用戶間的協(xié)同與協(xié)作。我們將從以下幾個(gè)方面展開相關(guān)研究:(1) 相似用戶群建立的評(píng)價(jià)以往研究中,由于缺乏有效評(píng)測(cè)系統(tǒng),因此對(duì)相似用戶群建立任務(wù)的性能缺乏公正的評(píng)價(jià)。本文將個(gè)性化檢索劃分成四個(gè)相對(duì)獨(dú)立又相互關(guān)聯(lián)的子任務(wù),相似用戶群的建立作為獨(dú)立的子

17、任務(wù),通過用戶對(duì)每個(gè)檢索對(duì)象提交的答案構(gòu)建標(biāo)準(zhǔn)評(píng)測(cè)集,以便對(duì)相似用戶建立的效果進(jìn)行公正的評(píng)價(jià)。(2) 用戶評(píng)價(jià)數(shù)據(jù)的擴(kuò)充協(xié)作過濾中由于不同用戶間評(píng)價(jià)過的網(wǎng)頁較少,從而導(dǎo)致用戶相似度計(jì)算的準(zhǔn)確率不高。因此,如何解決數(shù)據(jù)稀疏問題,是一個(gè)重要研究課題。本文將利用用戶對(duì)網(wǎng)頁的點(diǎn)擊代替用戶的顯式評(píng)價(jià)分?jǐn)?shù),同時(shí)基于改進(jìn)的相關(guān)性模型,利用相似領(lǐng)域內(nèi)相似用戶的查看歷史,對(duì)當(dāng)前用戶進(jìn)行數(shù)據(jù)擴(kuò)充,解決數(shù)據(jù)稀疏問題,提高相似用戶群建立的效果。(3) 相似用戶群建立策略以往的用戶群建立工作大部分是對(duì)所有用戶建立一個(gè)靜態(tài)的相似用戶群,但是實(shí)際中,用戶在不同領(lǐng)域的興趣是不同的,因此在不同領(lǐng)域其相似用戶群也是不一樣的。本文

18、探討在每個(gè)領(lǐng)域中分別建立一個(gè)相似用戶群,并對(duì)用戶群進(jìn)行動(dòng)態(tài)的更新,以便使群內(nèi)的用戶興趣盡可能一致。1.2.2 課題的研究意義相似興趣用戶群的建立主要可以起到以下幾點(diǎn)作用:(1)提高個(gè)性化檢索系統(tǒng)的性能。由于單個(gè)用戶的查詢和檢索數(shù)據(jù)比較有限,而判斷單個(gè)用戶興趣時(shí)常常會(huì)有偏差,導(dǎo)致對(duì)用戶興趣判斷的錯(cuò)誤累積現(xiàn)象。而通過用戶群的整體興趣判斷單個(gè)用戶的興趣,可以防止用戶興趣判斷的偏差。(2) 提高個(gè)性化信息推薦的效果。相似用戶群建立后,可以將群中大部分用戶感興趣的信息推薦給其它用戶,提供個(gè)性化推薦功能。評(píng)價(jià)問題是相似用戶群建立中的重要問題。當(dāng)前的很多研究都將相似用戶群建立的任務(wù)依附于其它任務(wù)中,缺少專門

19、針對(duì)此任務(wù)的評(píng)測(cè)。本論文為相似用戶群建立的任務(wù)構(gòu)建合理的自動(dòng)評(píng)測(cè)集語料以及對(duì)應(yīng)的評(píng)測(cè)答案為后續(xù)針對(duì)此任務(wù)的研究奠定基礎(chǔ),對(duì)其它研究的評(píng)測(cè)方法也有重要的參考價(jià)值。1.2.3 相似用戶群研究的應(yīng)用相似用戶群建立的研究,不僅具有重要的理論價(jià)值,而且有重要的實(shí)際應(yīng)用價(jià)值。1.2.3.1 相似用戶群在電子商務(wù)中的應(yīng)用基于相似用戶群的個(gè)性化服務(wù)方式通過對(duì)不同用戶群體興趣取向的挖掘和分析,制定適合此用戶群體的產(chǎn)品的設(shè)計(jì)、開發(fā)以及市場(chǎng)營(yíng)銷策略?;谙嗨朴脩羧旱膫€(gè)性化電子商務(wù)具備如下優(yōu)點(diǎn):(1)面向群體用戶,可以分析用戶群體的興趣,制定針對(duì)性的生產(chǎn)和銷售策略。(2)個(gè)性化電子商務(wù)具備自適應(yīng)的學(xué)習(xí)機(jī)制,從而能夠輔

20、助電子商務(wù)系統(tǒng)識(shí)別商務(wù)趨勢(shì)敏感變化并智能化地調(diào)整商品分配。1.2.3.2 相似用戶群在電子政務(wù)中的應(yīng)用電子政務(wù)主要應(yīng)用于企業(yè)內(nèi)部行政事務(wù)和業(yè)務(wù)企劃的發(fā)布、數(shù)據(jù)和資源共享以及保密信息交互?;谙嗨朴脩羧旱膫€(gè)性化信息檢索應(yīng)用于電子政務(wù)的優(yōu)點(diǎn)主要包括:(1)有益于企業(yè)高效快捷的內(nèi)部管理。相似用戶群建立起對(duì)應(yīng)不同職能部門的相似用戶群,自動(dòng)挖掘與每個(gè)用戶群管理和業(yè)務(wù)職能相關(guān)的信息。(2)海量數(shù)據(jù)的合理保存與維護(hù),建立基于相似用戶群對(duì)于海量資源的分類保存和快速精準(zhǔn)的查詢提供了良性平臺(tái)。1.2.3.3 相似用戶群在電子家務(wù)中的應(yīng)用電子家務(wù)就是:“家庭事務(wù)的電子化,旨在提高家庭管理的水平和效率,是信息化建設(shè)的

21、重要目標(biāo)?!??;谙嗨朴脩羧旱膮f(xié)作過濾可以記錄家庭事務(wù)的核心需求,實(shí)時(shí)監(jiān)控信息流,從而輔助電子家務(wù)系統(tǒng)智能化的信息推送,將用戶從繁多的事務(wù)中解放出來。此外,相似用戶群的建立還可以應(yīng)用在數(shù)字圖書館23中,為用戶提高個(gè)性化的檢索和個(gè)性化推薦功能。1.3 國(guó)內(nèi)外相關(guān)研究以往的相似用戶群的研究主要集中在協(xié)作過濾領(lǐng)域。協(xié)作過濾4是指分析用戶興趣,在用戶群中找到與指定用戶的興趣相同或相似的用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)。協(xié)作過濾分為基于模型和基于記憶的協(xié)作過濾?;谀P偷膮f(xié)作過濾方法,通過挖掘數(shù)據(jù)之間的關(guān)系建立需求模型,過濾后續(xù)的信息資源。其中常用的方法

22、包括貝葉斯網(wǎng)絡(luò)方法5、聚類的方法67和aspect model方法8?;谟洃浀膮f(xié)作過濾主要通過用戶對(duì)項(xiàng)目打分的差別找到相似的用戶或項(xiàng)目,然后對(duì)用戶的興趣進(jìn)行預(yù)測(cè)?;谟洃浀膮f(xié)作過濾分為基于項(xiàng)目的協(xié)作過濾910和基于用戶的協(xié)作過濾1112兩種?;陧?xiàng)目的協(xié)作過濾系統(tǒng)的核心問題是檢測(cè)兩個(gè)項(xiàng)目之間的協(xié)作相似性,然后利用用戶對(duì)相似項(xiàng)目的興趣預(yù)測(cè)用戶對(duì)未評(píng)價(jià)過的項(xiàng)目的興趣?;谟脩舻膮f(xié)作過濾主要研究如何建立和應(yīng)用相似用戶群。比如,兩名具備相似知識(shí)背景的用戶ua和ub,在獲取知識(shí)時(shí)采用不同特征集合構(gòu)成profile,相似的知識(shí)背景使得系統(tǒng)相信ua和ub具備相同的需求趨向,從而將ua和ub感興趣的反饋結(jié)果

23、互相推送,以達(dá)到協(xié)作式的檢索或過濾功能,如圖1-1所示。用戶(a)反饋集:反饋(a)(i)用戶(a)背景信息(a)用戶(b)反饋集:反饋(b)(j)反饋(b)(k)用戶(b)背景信息(b)協(xié)作過濾模型反饋(a)(i)反饋(b)(j)反饋(b)(k)圖1-1 協(xié)作過濾樣例figure 1-1 sample of collaborative filtering1.3.1 相似用戶的判斷基于用戶協(xié)作過濾的核心思想是根據(jù)用戶評(píng)分的相似性獲得活動(dòng)用戶的若干最近鄰,也就是相似用戶群的建立,然后通過這些最近鄰對(duì)項(xiàng)目評(píng)分的加權(quán)和來預(yù)測(cè)活動(dòng)用戶對(duì)項(xiàng)目的評(píng)分。其步驟如圖1-2。所有用戶與活動(dòng)用戶相似度計(jì)算選擇近鄰

24、計(jì)算近鄰用戶對(duì)項(xiàng)目評(píng)分加權(quán)和圖1-2 基于用戶的協(xié)作過濾中用戶對(duì)項(xiàng)目評(píng)分流程figure 1-2 process for users to rate items in user-based collaborative filtering通常基于用戶的協(xié)作過濾采用最近鄰方法。即對(duì)活動(dòng)用戶ua,獲取按照相關(guān)度大小排列的相似“近鄰”集13u=u1,u2,un,可以通過設(shè)置閾值控制u=u1,u2,un的規(guī)模?;诨顒?dòng)用戶ua的近鄰集u=u1,u2,un,用戶ua對(duì)項(xiàng)目ti的評(píng)價(jià)定義為近鄰集u中所有用戶對(duì)項(xiàng)目ti評(píng)價(jià)指標(biāo)的加權(quán)和,公式14如下: (1-1)其中,w(ua,uk)為活動(dòng)用戶ua與uk的相似

25、度;r(uk,ti)為uk對(duì)項(xiàng)目ti的評(píng)分;為uk對(duì)項(xiàng)目的平均評(píng)分;為當(dāng)前活動(dòng)用戶ua先驗(yàn)的平均評(píng)分。用戶間相似度計(jì)算成為決定協(xié)作過濾系統(tǒng)性能的一個(gè)主要方面,常用的用戶間相似度如下: 余弦(cosine)相似性余弦相似性115首先將用戶對(duì)項(xiàng)目的評(píng)分映射為n維評(píng)價(jià)矢量ua=rel(ua,ti)|tit,其中每一維代表用戶對(duì)某一項(xiàng)目的評(píng)分,通??梢院?jiǎn)化地將評(píng)分的取值范圍設(shè)置為0,1,評(píng)分越高說明用戶對(duì)項(xiàng)目的興趣程度越高。用戶之間的相似性通過評(píng)價(jià)矢量間的余弦夾角進(jìn)行度量,其公式如下: (1-2)其中,分母部分是由兩個(gè)評(píng)價(jià)向量的模乘積而成,其作用在于對(duì)余弦相似性進(jìn)行歸一化。 相關(guān)(correlatio

26、n)相似性假設(shè)用戶ua和ub共同評(píng)價(jià)過的項(xiàng)目集為i=t1,tn,相關(guān)相似性csim(ua,ub)可以采用person相關(guān)系數(shù)16進(jìn)行度量。其公式如下: (1-3)其中,csim(ua,ub)是用戶ua和ub的相似度;r(ua,ti)與r(ub,ti)分別代表用戶ua和ub對(duì)項(xiàng)目ti的評(píng)分;與分別代表用戶ua和ub對(duì)其共有的項(xiàng)目集i=t1,tn的評(píng)價(jià)平均值;n為ua和ub共同評(píng)價(jià)過的項(xiàng)目總數(shù)。person相關(guān)系數(shù)要求數(shù)據(jù)的分布條件滿足連續(xù)的線性關(guān)系。在實(shí)際中往往預(yù)先設(shè)置評(píng)價(jià)的等級(jí),用戶按照等級(jí)對(duì)項(xiàng)目進(jìn)行評(píng)價(jià)。這造成數(shù)據(jù)的分布趨向于離散,因此采用spearman等級(jí)相關(guān)系數(shù)17衡量用戶之間的相關(guān)相

27、似性,公式如下: (1-4)其中,rank(ua,ti)和rank(ub,ti)代表用戶ua和ub對(duì)ti的關(guān)注級(jí)別,比如“關(guān)注”、“一般”和“不關(guān)注”分別對(duì)應(yīng)1、0.5和0;和代表ua和ub對(duì)公共項(xiàng)目集i=t1,tn評(píng)價(jià)的平均級(jí)別。余弦相似度計(jì)算法和相關(guān)相似性計(jì)算法提高了推薦項(xiàng)目的準(zhǔn)確性,但是過分相似的用戶共有的項(xiàng)目集規(guī)模相對(duì)很大,削弱了用戶間可以互相推薦的未知項(xiàng)目空間。通常協(xié)作過濾系統(tǒng)可以采用項(xiàng)目的反流行度18為候選用戶賦予權(quán)值,公式如下: (1-5)其中,n(ti)表示對(duì)項(xiàng)目ti評(píng)價(jià)過的用戶總數(shù),即項(xiàng)目ti的流行程度;m是先驗(yàn)的歸一化參數(shù)。根據(jù)公式(1-5),一個(gè)項(xiàng)目的流行程度越大,則其反

28、流行度invpop(i)越小,從而包含該項(xiàng)目的候選用戶獲得的權(quán)值越低。活動(dòng)用戶可以簡(jiǎn)化地選擇經(jīng)過反流行度加權(quán)后權(quán)值相對(duì)較高的用戶作為鄰居。但在實(shí)際應(yīng)用中,又有用戶與評(píng)分的稀疏性,導(dǎo)致協(xié)作過濾系統(tǒng)無法有效識(shí)別相似用戶。1.3.2 解決數(shù)據(jù)稀疏問題的研究用戶對(duì)項(xiàng)目的評(píng)價(jià)值可以構(gòu)成一個(gè)用戶-項(xiàng)目矩陣,由于用戶對(duì)網(wǎng)頁的的評(píng)價(jià)較少,導(dǎo)致此矩陣數(shù)據(jù)較稀疏1920。如圖1-3所示。圖1-3 用戶-項(xiàng)目評(píng)價(jià)矩陣figure 1-3 matrix of user-item ratings數(shù)據(jù)稀疏問題導(dǎo)致用戶相似度計(jì)算時(shí)很不準(zhǔn)確。為了解決數(shù)據(jù)稀疏問題,許多相應(yīng)算法被提出。減少維度的方法致力于直接將用戶-項(xiàng)目評(píng)價(jià)矩

29、陣的維度降低。原理成分分析(pca)技術(shù)21以及信息檢索中的潛在語義索引技術(shù)2223也都被用來解決這個(gè)問題。清華大學(xué)24提出了將用戶-項(xiàng)目矩陣進(jìn)行轉(zhuǎn)換從而計(jì)算用戶間相似度的方法。降低維度的方法通過去除不重要的用戶或項(xiàng)目達(dá)到減少數(shù)據(jù)稀疏的問題。關(guān)聯(lián)檢索技術(shù)25考慮用戶和項(xiàng)目之間的關(guān)系,迭代地增強(qiáng)用戶和相關(guān)項(xiàng)目之間的相似度。內(nèi)容驅(qū)動(dòng)的協(xié)作過濾方法2627增加額外的信息,將項(xiàng)目表示成為向量而計(jì)算他們之間的相似度。賓夕法尼亞大學(xué)28提出了對(duì)內(nèi)容信息進(jìn)行一體化的統(tǒng)一概率模型解決數(shù)據(jù)稀疏問題。協(xié)作過濾以及相似用戶群建立也有了一些實(shí)際應(yīng)用系統(tǒng)。其中,最為有名的是amazon網(wǎng)站的個(gè)性化推薦系統(tǒng)29,其利用協(xié)

30、作過濾技術(shù),將用戶可能感興趣的商品信息推薦給用戶,節(jié)省用戶搜索的時(shí)間并可以發(fā)掘用戶潛在興趣。與此類似的還有g(shù)oogle的個(gè)性化新聞推薦系統(tǒng)30。雅虎公司將相似用戶群的研究應(yīng)用到了個(gè)性化電影搜索網(wǎng)站中31。其根據(jù)當(dāng)前用戶所在的用戶群信息預(yù)測(cè)用戶對(duì)每個(gè)電影的興趣,然后計(jì)算每個(gè)電影針對(duì)每個(gè)用戶的個(gè)性化權(quán)威性,從而實(shí)現(xiàn)檢索結(jié)果的個(gè)性化。1.4 本章小結(jié)本章先對(duì)個(gè)性化檢索以及相似用戶群研究的背景進(jìn)行了介紹,介紹了現(xiàn)有檢索系統(tǒng)的缺點(diǎn),說明了此研究的必要性。然后,對(duì)相似用戶群的研究目的進(jìn)行了闡述,介紹了研究重點(diǎn),分別是對(duì)用戶數(shù)據(jù)的擴(kuò)充、相似用戶群建立的策略以及評(píng)價(jià)方法,并對(duì)研究意義做了說明。之后,通過相似用

31、戶群在電子商務(wù)、電子政務(wù)和電子家務(wù)方面的應(yīng)用,說明相似用戶群研究的重要價(jià)值。最后對(duì)相似用戶群建立的相關(guān)研究和應(yīng)用進(jìn)行了介紹。后續(xù)章節(jié)的安排如下:第二章詳細(xì)說明個(gè)性化檢索的任務(wù)劃分以及相似用戶群的評(píng)測(cè)方法,主要對(duì)個(gè)性化檢索各個(gè)子任務(wù)進(jìn)行了詳細(xì)介紹,并介紹了對(duì)語料收集的輔助系統(tǒng)和其收集到的語料規(guī)模,最后對(duì)相似用戶群的評(píng)測(cè)機(jī)制和方法進(jìn)行了說明;第三章介紹用戶新興趣發(fā)現(xiàn)和興趣跟蹤的初步研究,這兩個(gè)子任務(wù)是相似用戶群建立的前序任務(wù),因此本文對(duì)這兩個(gè)子任務(wù)進(jìn)行了初步研究;第四章探討相關(guān)性模型在數(shù)據(jù)擴(kuò)充中的作用并對(duì)其進(jìn)行改進(jìn),相關(guān)性模型可以解決相似用戶群中的數(shù)據(jù)稀疏問題,因此本章對(duì)相關(guān)性模型進(jìn)行了深入研究并

32、提出了改進(jìn)的相關(guān)性模型以便應(yīng)用到相似用戶群建立任務(wù)中;第五章提出基于相關(guān)性模型的相似用戶建立與更新方法,本章利用相關(guān)性模型解決相似用戶群的數(shù)據(jù)稀疏問題,并根據(jù)用戶新興趣發(fā)現(xiàn)和興趣跟蹤任務(wù)的結(jié)果,探討利用相關(guān)領(lǐng)域中的相似用戶擴(kuò)充當(dāng)前領(lǐng)域中用戶的數(shù)據(jù)。第2章 個(gè)性化檢索任務(wù)劃分及評(píng)測(cè)作為個(gè)性化檢索中的一個(gè)重要模塊,相似用戶群的建立的研究第一步是有合理的任務(wù)劃分、明確的任務(wù)定義以及詳細(xì)的入口和出口數(shù)據(jù)格式。以往對(duì)個(gè)性化檢索以及相似用戶群的研究因?yàn)闆]有明確的任務(wù)劃分和評(píng)測(cè)方案,導(dǎo)致研究無法針對(duì)其中重要問題進(jìn)行深入研究,并且各種研究的結(jié)果缺乏客觀的評(píng)價(jià)。因此,對(duì)個(gè)性化檢索任務(wù)進(jìn)行合理的劃分并給出合理的評(píng)

33、測(cè)方案,使得相似用戶群的建立任務(wù)可以成為獨(dú)立的研究,并且可以有機(jī)地融合到個(gè)性化檢索任務(wù)中,是研究相似用戶群的重要一步。2.1 個(gè)性化檢索的任務(wù)劃分個(gè)性化檢索任務(wù)主要是挖掘單個(gè)和群體用戶的興趣,并利用用戶興趣對(duì)檢索結(jié)果進(jìn)行優(yōu)化,使得檢索結(jié)果更加符合用戶的個(gè)性化需求。因此,個(gè)性化檢索面臨的主要問題是如何從用戶的檢索行為中發(fā)現(xiàn)并跟蹤用戶的興趣,建立興趣相似的用戶群,以及利用挖掘的用戶興趣對(duì)檢索結(jié)果進(jìn)行優(yōu)化。個(gè)性化檢索的任務(wù)劃分應(yīng)該保證各任務(wù)之間具有相互獨(dú)立性,并且各個(gè)任務(wù)解決的是個(gè)性化檢索中最重要的問題,最終各個(gè)任務(wù)的有機(jī)組合可以構(gòu)成一個(gè)初步的個(gè)性化檢索實(shí)用系統(tǒng)?;谝陨系脑瓌t,本文將個(gè)性化檢索劃分

34、為用戶新興趣發(fā)現(xiàn)、用戶興趣跟蹤、相似用戶群建立以及個(gè)性化檢索四個(gè)子任務(wù)。下面就對(duì)四個(gè)子任務(wù)進(jìn)行詳細(xì)介紹。2.1.1 用戶新興趣發(fā)現(xiàn)用戶使用搜索引擎時(shí),會(huì)有比較明確的檢索目的,而搜索過程實(shí)際是一個(gè)不斷學(xué)習(xí)不斷優(yōu)化query,使其能夠更好地描述自己的個(gè)性化需要,從而找到符合自己興趣的結(jié)果的過程,這也是個(gè)性化檢索所要解決的問題,也就是自動(dòng)挖掘用戶興趣,從而自動(dòng)返回符合用戶興趣的結(jié)果。例如,用戶想觀看一些關(guān)于計(jì)算機(jī)智能方面的電影,當(dāng)他利用搜索引擎進(jìn)行檢索時(shí),他的檢索目的是計(jì)算機(jī)智能電影,如圖2-1所示的檢索過程。而由于剛開始不知道具體的電影名,他先輸入了“計(jì)算機(jī)智能電影”的檢索關(guān)鍵詞,然后,根據(jù)從結(jié)果

35、中獲得的信息,用戶找到自己可能感興趣的電影(例如“黑客帝國(guó)”),再輸入精確的電影名以獲得更加詳細(xì)的關(guān)于電影的介紹等信息。在這個(gè)過程中,用戶需要不斷優(yōu)化自己的query,從而最終搜索到自己想要的結(jié)果。但在用戶不斷優(yōu)化query的過程中,他的檢索對(duì)象一直沒變,都是想檢索關(guān)于計(jì)算機(jī)智能方面的電影。因此,前三個(gè)query的檢索對(duì)象相同。之后,用戶可能又想找到一家比較合適的電影院觀看電影,也就是產(chǎn)生了一個(gè)新的檢索興趣,因此他又輸入了“北京電影院”和“首都電影院票價(jià)”檢索相關(guān)信息,這兩個(gè)query屬于相同的檢索對(duì)象。圖2-1 用戶檢索過程figure 2-1 process of users retrie

36、ving如果系統(tǒng)可以判斷用戶的檢索對(duì)象,自動(dòng)識(shí)別出用戶新的檢索興趣的出現(xiàn)。則對(duì)每個(gè)query,可以找到與它檢索對(duì)象相同的query,利用這些query中用戶的行為判斷用戶對(duì)哪些信息感興趣,哪些網(wǎng)頁是用戶真正需要的,這樣就可以使得對(duì)用戶隱式信息的利用更加準(zhǔn)確。因此個(gè)性化檢索任務(wù)中將用戶新興趣的發(fā)現(xiàn)作為一個(gè)獨(dú)立任務(wù),此任務(wù)的目的是對(duì)用戶的query分析,發(fā)現(xiàn)用戶新的檢索需求,將檢索對(duì)象相同的query劃分為同一段落。此任務(wù)的入口數(shù)據(jù)是每個(gè)用戶的query內(nèi)容,系統(tǒng)返回的檢索結(jié)果以及snippet,用戶查看的過的結(jié)果網(wǎng)頁,對(duì)網(wǎng)頁的瀏覽時(shí)間,用戶對(duì)結(jié)果的翻頁信息。此任務(wù)的標(biāo)準(zhǔn)答案格式如圖2-2。標(biāo)準(zhǔn)答

37、案采用xml標(biāo)簽的形式,標(biāo)簽包圍的是當(dāng)前用戶名,每個(gè)和標(biāo)簽中包含的是一個(gè)檢索對(duì)象的信息,中內(nèi)容是此檢索對(duì)象的編號(hào),中包含的是在此檢索對(duì)象中用戶輸入的所有query內(nèi)容。此標(biāo)準(zhǔn)答案由標(biāo)注輔助系統(tǒng)生成,具體的產(chǎn)生方法見3.2節(jié)。用戶新興趣發(fā)現(xiàn)任務(wù)通過對(duì)給定入口數(shù)據(jù)進(jìn)行處理,需要生成系統(tǒng)認(rèn)為的query段落,然后通過系統(tǒng)判定的結(jié)果與標(biāo)準(zhǔn)答案進(jìn)行對(duì)比可以對(duì)系統(tǒng)的性能進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)將采用話題檢測(cè)與跟蹤中的錯(cuò)檢率和漏檢率方法,具體的評(píng)測(cè)方法將和評(píng)測(cè)指標(biāo)將在3.3節(jié)進(jìn)行詳細(xì)的介紹。 圖2-2 用戶新興趣發(fā)現(xiàn)任務(wù)的標(biāo)準(zhǔn)答案圖2-3用戶興趣跟蹤任務(wù)的標(biāo)準(zhǔn)答案figure 2-2 answer of new

38、interest detectionfigure 2-3 answer of users interest tracking2.1.2 用戶興趣跟蹤由于用戶經(jīng)常會(huì)重復(fù)檢索同一領(lǐng)域內(nèi)的信息,而用戶在同一領(lǐng)域內(nèi)的興趣相對(duì)較為固定,因此判定用戶的哪些檢索是在同一興趣領(lǐng)域內(nèi)對(duì)個(gè)性化檢索也很重要。例如,如果用戶較喜歡的運(yùn)動(dòng)是滑雪,那么在他平常的檢索中就會(huì)經(jīng)常檢索關(guān)于滑雪方面的信息。如果系統(tǒng)可以將用戶針對(duì)運(yùn)動(dòng)方面的檢索關(guān)聯(lián)起來,則可以建立用戶在運(yùn)動(dòng)方面的興趣模型。這樣,當(dāng)用戶在后續(xù)再檢索運(yùn)動(dòng)相關(guān)的信息時(shí),系統(tǒng)就會(huì)根據(jù)用戶在運(yùn)動(dòng)方面的興趣模型對(duì)檢索結(jié)果進(jìn)行優(yōu)化,可以將結(jié)果中關(guān)于滑雪方面的網(wǎng)頁位置提前,突出用

39、戶的個(gè)性化需要。由于用戶新興趣跟蹤任務(wù)已經(jīng)將相鄰的query按照檢索對(duì)象劃分為query段落,因此用戶興趣跟蹤任務(wù)主要目標(biāo)是,找到所在領(lǐng)域相同的query段落。此任務(wù)在個(gè)性化檢索中的作用是,可以為每個(gè)用戶在不同興趣領(lǐng)域內(nèi)分別建立興趣模型,從而更準(zhǔn)確地挖掘和利用用戶興趣。同時(shí),由于在不同領(lǐng)域內(nèi)用戶的相似用戶也是不同的,因此在相似用戶群的建立中,可以利用此任務(wù)劃定興趣領(lǐng)域,在每個(gè)興趣領(lǐng)域分別建立興趣相似的用戶群。此任務(wù)的入口數(shù)據(jù)為每個(gè)用戶的query,系統(tǒng)檢索結(jié)果,用戶查看的過的網(wǎng)頁,瀏覽時(shí)間,翻頁信息。同時(shí)第一個(gè)任務(wù)的標(biāo)準(zhǔn)答案,圖2-2中按照檢索對(duì)象劃分的用戶query也是本任務(wù)的入口數(shù)據(jù)。本任

40、務(wù)的標(biāo)準(zhǔn)答案如圖2-3,記錄的分別是每個(gè)query段落的相同領(lǐng)域的query段落編號(hào)。答案的標(biāo)注以及評(píng)測(cè)方法將分別在3.2與3.3節(jié)介紹。2.1.3 相似用戶群建立由于每個(gè)人都生活在一定的群體中,因此每個(gè)用戶的興趣也會(huì)與其它用戶具有一定的相似性,興趣相似的用戶就會(huì)構(gòu)成相似用戶群。建立相似用戶群對(duì)個(gè)性化檢索和個(gè)性化推薦都有重要意義。例如,某個(gè)用戶在音樂中比較感興趣的是抒情歌曲,與他相同,也會(huì)有其他用戶對(duì)抒情歌曲很感興趣,這樣在音樂的領(lǐng)域內(nèi)這個(gè)群體的興趣都是抒情歌曲。因此,因此這個(gè)群體的成員搜索歌曲相關(guān)的信息時(shí),就可以將那首新出的抒情歌歌曲以及風(fēng)格相似的歌曲在檢索結(jié)果中的位置提前,這樣就可以根據(jù)群

41、體的興趣判定單個(gè)用戶的興趣。同時(shí),如果新出一首較受歡迎的抒情歌曲,這個(gè)興趣群體的一部分成員對(duì)這首歌曲的都比較感興趣,那么就可以將這首歌曲推薦給這個(gè)群體中的其它成員。但是,由于在一個(gè)領(lǐng)域內(nèi)的相似用戶在其它領(lǐng)域內(nèi)未必興趣相似,因此相似用戶群的建立應(yīng)該是以領(lǐng)域?yàn)榻缦蓿诿總€(gè)領(lǐng)域內(nèi)分別建立相似用戶群。例如,如果用戶a在音樂方面的興趣是抒情歌曲,而在體育方面興趣是足球;用戶b在音樂方面興趣是抒情歌曲,但在體育方面興趣是網(wǎng)球。這樣a與b雖然在音樂方面興趣相同,但在體育方面興趣差別較大,因此需要在每個(gè)領(lǐng)域內(nèi)分別建立相似用戶群。相似用戶群的建立任務(wù),可以利用用戶新興趣發(fā)現(xiàn)和用戶興趣跟蹤的結(jié)果,將每個(gè)用戶的qu

42、ery劃分為query段落,之后通過第二個(gè)任務(wù),找到用戶間的興趣領(lǐng)域相同的query段落,最后,在每個(gè)興趣領(lǐng)域內(nèi)分別計(jì)算用戶之間的相似度,找到每個(gè)用戶的相似用戶,如圖2-4所示。此任務(wù)的入口數(shù)據(jù)是圖2-2與2-3中所示的用戶新興趣發(fā)現(xiàn)與興趣跟蹤的標(biāo)準(zhǔn)答案。系統(tǒng)需要在每個(gè)對(duì)應(yīng)的query段落下對(duì)標(biāo)注者找到相似用戶。同時(shí),用戶之間的興趣不具有傳遞性。例如a感興趣的電影是“我是傳奇”與“黑客帝國(guó)”,b的興趣是“黑客帝國(guó)”與“阿甘正傳”,c興趣是“阿甘正傳”與“肖申克的救贖”,用戶a與b興趣相似,b與c興趣相似,但a與c興趣不同。所以本任務(wù)中,系統(tǒng)需要在每個(gè)query段落中找到每個(gè)標(biāo)注者的相似用戶,而

43、不是對(duì)用戶進(jìn)行聚類。本任務(wù)的標(biāo)準(zhǔn)答案格式如圖2-5,分別標(biāo)出的是在每個(gè)query段落id下每個(gè)用戶的相似用戶。圖2-4 相似用戶群任務(wù)figure 2-4 task of users clustering 圖2-5 相似用戶群標(biāo)準(zhǔn)答案圖2-6 個(gè)性化檢索標(biāo)準(zhǔn)答案figure 2-5 answer of users clustering figure 2-6 answer of pir2.1.4 個(gè)性化檢索最后一個(gè)任務(wù)是綜合以上三個(gè)任務(wù)的結(jié)果,對(duì)用戶的query給出個(gè)性化的檢索結(jié)果。由于用戶的每個(gè)query段落的目標(biāo)都是相同的檢索對(duì)象,因此本任務(wù)的語料也以query段落作為一個(gè)完整的單位。對(duì)用戶

44、每個(gè)query的檢索結(jié)果,系統(tǒng)分別記錄其前20個(gè)結(jié)果以及用戶查看過的結(jié)果,這樣在一個(gè)query段落內(nèi)的所有query記錄的檢索結(jié)果就構(gòu)成了本段落的語料。系統(tǒng)需要在每個(gè)query中,對(duì)此段落內(nèi)的語料網(wǎng)頁進(jìn)行重排序,返回符合用戶個(gè)性化的檢索結(jié)果,然后用系統(tǒng)的排序結(jié)果與用戶標(biāo)注的結(jié)果進(jìn)行比較,從而評(píng)測(cè)系統(tǒng)性能。本任務(wù)的入口數(shù)據(jù)是圖2-2、2-3與2-5中前三個(gè)任務(wù)的正確答案,標(biāo)準(zhǔn)答案格式如圖2-6,包含的是query段落編號(hào),包含的是用戶在此段落內(nèi)輸入的query,包含的是記錄的返回結(jié)果以及用戶的正確性標(biāo)注,1是相關(guān),0是不相關(guān)。2.2 語料標(biāo)注的輔助系統(tǒng)為了收集用戶檢索時(shí)的各種行為信息,為相似用戶

45、群建立提供語料,我們開發(fā)了個(gè)性化檢索語料標(biāo)注輔助系統(tǒng)。本系統(tǒng)是在基于天網(wǎng)100g語料的普通檢索系統(tǒng)上增加了記錄用戶隱式行為信息的模塊,是標(biāo)注者模擬用戶的普通檢索行為,同時(shí)記錄下用戶在檢索過程過的各種隱式信息,供研究使用。最后,讓標(biāo)注者對(duì)曾瀏覽過的網(wǎng)頁進(jìn)行正確性標(biāo)注,為各個(gè)子任務(wù)提供標(biāo)準(zhǔn)答案。2.2.1 系統(tǒng)介紹圖2-7是用戶登陸界面,新用戶需要注冊(cè)一個(gè)新用戶,如圖2-8。在注冊(cè)時(shí),用戶需要顯式提交自己的個(gè)人信息,包括性別、年齡、收入、職業(yè)和關(guān)注的領(lǐng)域等。注冊(cè)完后,用戶就可以登陸系統(tǒng)進(jìn)行信息檢索。 圖2-7 用戶登陸界面圖2-8 用戶注冊(cè)界面figure 2-7 interface of use

46、r login figure 2-8 interface of user registration 圖2-9 檢索界面figure 2-9 interface of retrieve登陸后,標(biāo)注者將進(jìn)入檢索界面,如圖2-9。檢索中,以檢索問題為檢索和標(biāo)注的基本單位,標(biāo)注者需要針對(duì)系統(tǒng)已經(jīng)設(shè)定的問題檢索其答案。圖2-9的上方顯示的是標(biāo)注者當(dāng)前需要檢索的問題,標(biāo)注者針對(duì)一個(gè)問題可以進(jìn)行多次檢索,直到檢索到問題答案信息為止。當(dāng)用戶輸入query后,系統(tǒng)將返回普通的檢索結(jié)果。用戶可以對(duì)結(jié)果進(jìn)行查看、瀏覽等操作。用戶對(duì)結(jié)果網(wǎng)頁瀏覽時(shí)可以點(diǎn)擊右側(cè)的藍(lán)色條框,可以將結(jié)果網(wǎng)頁翻開或關(guān)閉,如圖2-11。此時(shí),系

47、統(tǒng)則會(huì)記錄用戶點(diǎn)擊的結(jié)果網(wǎng)頁、瀏覽時(shí)間以及用戶的翻頁信息。如果用戶在結(jié)果中找到與檢索問題相關(guān)的答案,則可以將答案信息填入下方的文本框中,并點(diǎn)擊“保存答案”保存檢索的答案信息。當(dāng)用戶針對(duì)此問題找到所有答案后,可以點(diǎn)擊圖2-10中的“提交object”提交此問題。此時(shí)系統(tǒng)自動(dòng)進(jìn)入此檢索問題的標(biāo)注圖2-10 檢索結(jié)果頁面figure 2-10 interface of retrieve results圖2-11 瀏覽網(wǎng)頁界面figure 2-11 interface of browsing pages界面,如圖2-12。系統(tǒng)記錄用戶在此檢索問題中輸入的query,以及每個(gè)query的前20個(gè)檢索結(jié)果

48、和用戶查看過的結(jié)果,將這些網(wǎng)頁返回,標(biāo)注者根據(jù)每個(gè)網(wǎng)頁是否與檢索問題的答案相關(guān)進(jìn)行正確性標(biāo)注。當(dāng)標(biāo)注者對(duì)每個(gè)網(wǎng)頁的正確性標(biāo)注后,就可以點(diǎn)擊提交進(jìn)入下一個(gè)檢索問題,如圖2-13。圖2-12 答案標(biāo)注界面figure 2-12 interface of answer labeling圖2-13 一個(gè)檢索問題結(jié)束界面figure 2-13 interface of the end of a retrieving question2.2.2 正確答案記錄在上述用戶檢索和標(biāo)注過程中,系統(tǒng)對(duì)每個(gè)用戶形成其個(gè)人的語料,同時(shí)可以記錄個(gè)性化檢索中四個(gè)子任務(wù)的標(biāo)準(zhǔn)答案。用戶新興趣發(fā)現(xiàn)任務(wù):用戶針對(duì)每個(gè)檢索問題會(huì)進(jìn)

49、行多次檢索,當(dāng)用戶找到檢索答案后,在圖2-10中點(diǎn)擊“提交object”時(shí),系統(tǒng)會(huì)自動(dòng)記錄用戶在此問題中輸入的所有query,作為一個(gè)query段落,形成圖2-2中所示的答案。用戶興趣跟蹤任務(wù):在制定檢索問題時(shí),已經(jīng)記錄在每個(gè)問題中需要挖掘用戶哪方面的興趣,根據(jù)這些興趣,我們找到挖掘用戶相同領(lǐng)域興趣的檢索問題,將其所代表的query段落關(guān)聯(lián),形成圖2-3中所示的答案。相似用戶群:在圖2-10中,用戶對(duì)每個(gè)檢索問題都提交了答案,我們根據(jù)每個(gè)用戶在每個(gè)檢索問題中的答案,找到在每個(gè)檢索問題中的相似用戶,作為標(biāo)準(zhǔn)的相似用戶,形成如圖2-4所示的答案。個(gè)性化檢索:用戶在圖2-12中對(duì)每個(gè)檢索結(jié)果都進(jìn)行了

50、個(gè)性化的標(biāo)注,以這些標(biāo)注結(jié)果作為個(gè)性化檢索的標(biāo)準(zhǔn)答案。2.2.3 語料規(guī)模利用前面介紹的標(biāo)注輔助系統(tǒng),我們收集了9名同學(xué)的標(biāo)注結(jié)果。其中每個(gè)人對(duì)100個(gè)檢索問題進(jìn)行檢索和標(biāo)注,平均每個(gè)人進(jìn)行了230次檢索,每個(gè)query段落的相關(guān)段落平均個(gè)數(shù)為4.5個(gè),每個(gè)用戶平均對(duì)5086個(gè)網(wǎng)頁進(jìn)行了正確性標(biāo)注。2.3 相似用戶群的評(píng)測(cè)相似用戶群的評(píng)價(jià)指標(biāo)將借鑒話題跟蹤與檢測(cè)(topic detection and tracking, 簡(jiǎn)稱tdt)中的評(píng)價(jià)指標(biāo),對(duì)系統(tǒng)性能進(jìn)行評(píng)測(cè)。2.3.1 評(píng)測(cè)機(jī)制本任務(wù)借鑒tdt2003的評(píng)測(cè)方法32,通過錯(cuò)檢率和漏檢率對(duì)系統(tǒng)性能進(jìn)行評(píng)測(cè)。其計(jì)算公式如下: (2-1)其

51、中a、b、c、d如表2-1所示,a為系統(tǒng)認(rèn)為相關(guān)的用戶且答案也是相關(guān)的個(gè)數(shù)。pfa、pmiss是系統(tǒng)錯(cuò)檢率和漏檢率,值越小則系統(tǒng)性能越好。表2-1 評(píng)測(cè)的參數(shù)table 2-1 parameters in evaluation系統(tǒng)判定相關(guān)系統(tǒng)判定不相關(guān)答案相關(guān)ab答案不相關(guān)cd之后,通過錯(cuò)檢率和漏檢率計(jì)算總的評(píng)價(jià)指標(biāo)(cdet)norm,公式如下: (2-2)其中,cmiss是系統(tǒng)進(jìn)行一次漏檢的代價(jià)、cfa是系統(tǒng)進(jìn)行一次錯(cuò)檢的代價(jià),由于實(shí)際中,找到錯(cuò)誤的相似用戶和漏掉正確相似用戶對(duì)后續(xù)模塊的影響差不多,因此將cmiss和cfa都設(shè)為1;ptarget是每個(gè)用戶為相似用戶的概率,pnon-tar

52、ge是無關(guān)用戶的概率,針對(duì)語料中的答案,將ptarget和pnon-target分別設(shè)為0.394與0.606。(cdet)norm是系統(tǒng)性能損耗代價(jià),此值越小則系統(tǒng)性能越好。為了使系統(tǒng)性能得到更直觀的體現(xiàn),我們引入tdt的中的決策錯(cuò)誤權(quán)衡曲線(decision error tradeoff curve,簡(jiǎn)稱det曲線)評(píng)測(cè)系統(tǒng)性能,如圖2-14所示。橫坐標(biāo)是錯(cuò)檢率,縱坐標(biāo)是漏檢率,曲線越靠近圖的左下角則性能越好,在圖中還標(biāo)出了最小性能損耗代價(jià),此值越小則系統(tǒng)綜合性能越好。圖2-14 det曲線樣例figure 2-14 sample of det curve2.3.2 評(píng)測(cè)方法通過2.2節(jié)介

53、紹的標(biāo)注輔助系統(tǒng),可以對(duì)每個(gè)用戶形成其個(gè)人的語料,系統(tǒng)在語料上運(yùn)行,找出在每個(gè)對(duì)應(yīng)的query段落中的每個(gè)用戶的相似用戶有哪些,然后與圖2-4的答案進(jìn)行對(duì)比,先計(jì)算每個(gè)query段落中每個(gè)用戶的錯(cuò)檢率和漏檢率,然后平均得到每個(gè)query段落的錯(cuò)檢率和漏檢率,之后再對(duì)query段落進(jìn)行平均,計(jì)算得到系統(tǒng)總的錯(cuò)檢率、漏檢率和(cdet)norm值,畫出det曲線,對(duì)系統(tǒng)的性能進(jìn)行總體評(píng)價(jià)。2.4 本章小結(jié)本章對(duì)個(gè)性化檢索的任務(wù)劃分和各子任務(wù)的研究目的、入口數(shù)據(jù)以及標(biāo)準(zhǔn)答案進(jìn)行了介紹。然后,通過對(duì)語料標(biāo)注系統(tǒng)的介紹詳細(xì),說明了如何收集語料和標(biāo)準(zhǔn)答案的過程。最后,對(duì)相似用戶群子任務(wù)的標(biāo)準(zhǔn)答案和評(píng)測(cè)方法

54、進(jìn)行了介紹。主要借鑒話題檢測(cè)與跟蹤中的評(píng)測(cè)方法和指標(biāo),通過錯(cuò)檢率、漏檢率、系統(tǒng)性能損耗代價(jià)以及det曲線評(píng)測(cè)系統(tǒng)的性能。第3章 用戶興趣發(fā)現(xiàn)與跟蹤根據(jù)第二章的介紹,相似用戶群建立被劃分為個(gè)性化檢索的第三個(gè)獨(dú)立子任務(wù),使得可以開展相似用戶群的獨(dú)立研究。但同時(shí),相似用戶群的研究也必須基于前兩個(gè)子任務(wù)的研究成果,即用戶新興趣發(fā)現(xiàn)和興趣跟蹤子任務(wù)。因此,在本章中,將先對(duì)用戶的新興趣發(fā)現(xiàn)和興趣跟蹤兩個(gè)子任務(wù)進(jìn)行初步的研究,利用較簡(jiǎn)單的方法實(shí)現(xiàn)baseline系統(tǒng),為后續(xù)的相似用戶群研究奠定一定的基礎(chǔ)。3.1 用戶新興趣發(fā)現(xiàn)用戶在實(shí)際搜索過程中,會(huì)有比較明確的檢索對(duì)象,而當(dāng)用戶的初始query無法搜索到所

55、需信息時(shí),他就會(huì)變換query搜索同一個(gè)檢索對(duì)象,因此,用戶的搜索過程實(shí)際是一個(gè)不斷學(xué)習(xí)不斷優(yōu)化query以找到檢索對(duì)象的過程。而如果可以判斷用戶哪些query是開始一個(gè)新的檢索對(duì)象,即找到用戶哪些query是關(guān)于同一檢索對(duì)象,這樣就可以從與當(dāng)前query檢索對(duì)象相同的query中挖掘哪些信息是用戶需要的,哪些是無關(guān)信息,提高個(gè)性化檢索效果。后續(xù)相似用戶群建立也可以基于檢索對(duì)象,對(duì)不同領(lǐng)域內(nèi)的檢索對(duì)象分別建立不同的相似用戶群。用戶新興趣發(fā)現(xiàn)的任務(wù)是,通過對(duì)用戶query及對(duì)應(yīng)的行為進(jìn)行分析,發(fā)現(xiàn)用戶開始新興趣檢索的query,將用戶輸入的query按照檢索對(duì)象劃分為不同的段落。3.1.1 基于

56、向量空間模型的新興趣發(fā)現(xiàn)方法文獻(xiàn)33中提出了一個(gè)較基本的用戶新興趣發(fā)現(xiàn)的方法。其基本思想是檢索結(jié)果建立query的模型,然后用vsm方法計(jì)算相鄰query模型的相似度,如果相似度小于閾值則發(fā)現(xiàn)一個(gè)新興趣的query。每個(gè)query模型的構(gòu)建主要采用query內(nèi)容以及系統(tǒng)對(duì)query返回的前50個(gè)檢索結(jié)果的snippet構(gòu)建。構(gòu)建公式如下: (3-1)其中是query模型,采用向量空間模型存放。是query權(quán)重系數(shù),決定query內(nèi)容以及snippet在query模型中的比重。是當(dāng)前query的內(nèi)容,利用向量空間模型表示。k是采用的snippet的個(gè)數(shù),論文中將其設(shè)置為50。是第i個(gè)snippe

57、t的內(nèi)容,也用向量空間表示。采用上述公式構(gòu)建完每個(gè)query模型后,系統(tǒng)就對(duì)每?jī)蓚€(gè)相鄰兩query模型計(jì)算其相似度,相似度采用公式(1-2)的余弦相似度計(jì)算。如果兩query模型x1和x2相似度小于預(yù)先設(shè)置的閾值,則認(rèn)為x2對(duì)應(yīng)的query為用戶的新興趣。依次進(jìn)行,當(dāng)對(duì)所有相鄰query都處理完后,就找到了用戶的所有新興趣query,同時(shí)也將query按照檢索對(duì)象是否相同劃分成了的query段落。圖3-1 baseline方法過程figure 3-1 process of baseline system此方法的實(shí)現(xiàn)過程如圖3-1所示。其中橫坐標(biāo)是按照用戶檢索順序編號(hào)的query,縱坐標(biāo)是query間相似度,圖中的點(diǎn)是相鄰query模型的相似度。小于閾值的相似度對(duì)應(yīng)的query被判定為用戶的新興趣,如圖中實(shí)心點(diǎn)所示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論