基于本地文檔庫的搜索引擎自動排序算法_第1頁
基于本地文檔庫的搜索引擎自動排序算法_第2頁
基于本地文檔庫的搜索引擎自動排序算法_第3頁
基于本地文檔庫的搜索引擎自動排序算法_第4頁
基于本地文檔庫的搜索引擎自動排序算法_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于本地文檔庫的搜索引擎自動排序算法

隨著公司規(guī)模的擴大,公司積累了大量文檔和業(yè)務(wù)數(shù)據(jù),這些資源分散在公司的各種應(yīng)用程序和服務(wù)器上,無法有效使用。另一方面,員工無法通過有效手段獲取必要的資源。另一方面,大量資源處于閑置狀態(tài),無法有效使用。公司搜索引擎的出現(xiàn)改變了這種情況。通過整合公司內(nèi)部不同的資源,公司搜索為公司內(nèi)部提供了一個標(biāo)準(zhǔn)化的信息搜索接口,提高了公司資源的使用水平。企業(yè)搜索引擎作為一種特殊的企業(yè)內(nèi)部的搜索服務(wù),帶有鮮明的業(yè)務(wù)特性.與互聯(lián)網(wǎng)搜索引擎相比,企業(yè)搜索引擎具有許多特性.首先,互聯(lián)網(wǎng)的搜索內(nèi)容對于用戶來說都是未知的,而企業(yè)級的搜索對象已知.在對這些信息進行索引時,用戶需要按照內(nèi)容而不是通過分析網(wǎng)頁之間的鏈接關(guān)系進行排列.其次,與互聯(lián)網(wǎng)搜索引擎相比,企業(yè)搜索引擎要求具有嚴(yán)格的安全性和高可靠性.針對企業(yè)網(wǎng)中不同的用戶對不同的資源,其使用權(quán)限都可能不一樣,需要企業(yè)搜索引擎能夠?qū)τ脩?、資源、權(quán)限分級管理和控制,確保系統(tǒng)的安全.最后,與互聯(lián)網(wǎng)搜索引擎服務(wù)不同,企業(yè)內(nèi)部的搜索結(jié)果將直接參與到企業(yè)的運行和決策過程中,而前者僅提供信息參考的角色.所以,對于搜索的結(jié)果處理,搜索過程中采用相關(guān)智能技術(shù)以達到準(zhǔn)確定位目標(biāo)信息非常重要.本文擬將個性化技術(shù)引入企業(yè)搜索引擎中,根據(jù)用戶對不同信息關(guān)注程度的不同,使用戶關(guān)注度較高的結(jié)果排在結(jié)果列表的前面,關(guān)注度較低的結(jié)果排在后面,從而提高企業(yè)搜索引擎查詢結(jié)果的準(zhǔn)確性.本文提出了一種基于本地文檔庫的個性化檢索算法,該算法由3部分構(gòu)成:個性化表示、更新與結(jié)果排序算法.首先,與傳統(tǒng)基于內(nèi)容的個性化檢索算法廣泛采用的通過關(guān)鍵詞向量表示用戶個性的方法不同,本文采用本地文檔庫的方式表示用戶個性.基于關(guān)鍵詞向量的表示方法通過對用戶瀏覽的歷史文檔的分析,提取若干關(guān)鍵詞構(gòu)成關(guān)鍵詞向量,并對關(guān)鍵詞賦予不同權(quán)值,以權(quán)值的大小體現(xiàn)用戶個性.基于本地文檔集的方法首先將用戶瀏覽的歷史文檔分類,并評定用戶對不同分類的喜好程度.本地文檔庫由從各分類中抽取的文檔構(gòu)成,用戶越喜好的分類,在本地文檔庫中所占的文檔數(shù)越多.本地文檔庫通過屬于各分類文檔數(shù)的多少體現(xiàn)用戶個性.其次,個性化更新算法.由于傳統(tǒng)基于內(nèi)容的個性化檢索算法采用關(guān)鍵詞權(quán)值的方法度量用戶個性,而用戶短期的瀏覽歷史對關(guān)鍵詞權(quán)值的改變影響微小,因此傳統(tǒng)基于內(nèi)容的個性化檢索算法很難對用戶近期的興趣轉(zhuǎn)移作出快速反映.本文提出的基于本地文檔集的個性化表示方法采用模糊推理技術(shù),可以迅速捕捉用戶近期的興趣轉(zhuǎn)移,只需要對本地文檔庫中的文檔進行簡單的增加或刪除,即可體現(xiàn)用戶個性的轉(zhuǎn)移.最后,本文提出的結(jié)果排序算法通過將企業(yè)搜索引擎的查詢結(jié)果與本地文檔庫中的文檔進行相似性比較,對結(jié)果重新排序,體現(xiàn)用戶的個性.綜上所述,本文的主要貢獻是提出了基于本地文檔庫的個性化表示方法,并給出基于此方法的個性化排序算法.與傳統(tǒng)基于內(nèi)容的個性化檢索算法相比,本文提出的算法能夠?qū)τ脩襞d趣的轉(zhuǎn)移作出快速反映,并給出更能體現(xiàn)用戶個性的查詢結(jié)果.1協(xié)作過濾算法目前存在著許多個性化服務(wù)系統(tǒng),文獻對這些系統(tǒng)的優(yōu)缺點進行了比較和總結(jié).這些個性化算法主要分為3類:基于規(guī)則的個性化檢索算法、基于內(nèi)容的個性化檢索算法和協(xié)作過濾算法.基于規(guī)則的系統(tǒng)利用預(yù)定義的規(guī)則對信息進行過濾.其優(yōu)點是簡單、直接,缺點是規(guī)則質(zhì)量很難保證.基于內(nèi)容的個性化系統(tǒng)利用資源和用戶興趣的相似性來過濾信息.其關(guān)鍵問題是用戶的個性化表示方法和相似性計算.其優(yōu)點是簡單、有效,缺點是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,且不能為用戶發(fā)現(xiàn)新的感興趣的資源.協(xié)作過濾系統(tǒng)利用用戶之間的相似性來檢索信息,它能夠為用戶發(fā)現(xiàn)新的感興趣的內(nèi)容.其關(guān)鍵問題是對興趣相似的用戶聚類.其缺點是需要用戶的參與,且容易暴露用戶的隱私.2形成分類根據(jù)的個性化排序本文擬根據(jù)用戶偏好,從用戶瀏覽的歷史文檔中抽取一部分典型文檔,構(gòu)成一個小型文檔庫.以此文檔庫描述用戶個性,并對通用企業(yè)搜索引擎返回的檢索結(jié)果進行個性化排序.由于這個小型文檔庫保存在本地,故又稱為本地文檔庫.首先對用戶瀏覽的歷史文檔進行聚類,通過對所形成的每一類文檔集的屬性進行模糊推理,得到用戶偏好.根據(jù)用戶對各分類喜好程度的不同,分配從不同分類抽取的文檔數(shù)量.上述構(gòu)建過程需要解決3個問題:1)對于某個分類,需要確定反映用戶偏好的屬性;2)需要根據(jù)這些屬性計算用戶對某個分類的喜好程度;3)需要根據(jù)用戶對不同分類的喜好程度確定從該分類抽取的文檔數(shù).下面將分別解決上述3個問題.2.1di的屬性本文采用通過對用戶歷史瀏覽文檔的分析,發(fā)現(xiàn)用戶的個性化需求.具體地,設(shè)t1表示過去的某個時間點,將從t1到聚類算法運行的時間點t2為止用戶所瀏覽的所有文檔構(gòu)成的集合記為D,稱文檔集D為用戶瀏覽的歷史文檔集,稱時間段(t2-t1)為用戶的瀏覽歷史.目前有很多成熟的文檔聚類工具(如WEKA等),因此可以利用這些工具對文檔集D進行聚類分析.設(shè)經(jīng)過聚類分析后,文檔集D被劃分為n個互不相交的分類,分別用D1,D2,…,Dn,表示,且D=D1∪D2∪…∪Dn.設(shè)第i個分類Di由m篇文檔構(gòu)成,記為Di={di1,di2,…,dim}.可以根據(jù)Di的屬性了解用戶對第i個分類的喜好程度.本文主要利用Di的兩個屬性描述用戶對該分類的喜好程度.第1個屬性稱為“文檔數(shù)”,表示第i個分類所包含的文檔個數(shù)|Di|;第2個屬性稱為“冷卻時間”.分類Dt的冷卻時間的計算方法如式(1)所示:設(shè)文檔dij最后一次被用戶訪問的時間為tij,則t2-tij表示分類Di的第j個文檔最后一次被用戶訪問的時間與時間點t2的時間間隔,式(1)定義的冷卻時間表示第i個分類所有文檔被用戶最后一次訪問的時間距時間點t2的平均時間間隔.用戶對某個分類的喜好程度可以按照如下的啟發(fā)式判定:若用戶訪問屬于某個分類的文檔數(shù)量越多,且用戶對這些文檔訪問的時間都是最近發(fā)生的,則說明用戶越喜歡該分類.我們用分類的文檔數(shù)屬性描述用戶瀏覽該分類文檔的數(shù)量,用分類的冷卻時間屬性度量用戶訪問該分類文檔與當(dāng)前時間的間隔.據(jù)此,上述啟發(fā)式等價于如下規(guī)則:屬于某個分類的文檔數(shù)越多,且該分類的冷卻時間越短,用戶越喜歡該分類.在構(gòu)建的本地文檔庫中,應(yīng)該包含更多從該分類中抽取的文檔.除文檔數(shù)和冷卻時間外,還有其他屬性可以用來表達用戶對某分類的喜好程度,在以后的工作中將考慮更多屬性,以進一步提高描述用戶偏好的準(zhǔn)確性.下面要解決的問題是如何利用第i個分類的文檔數(shù)和冷卻時間量化用戶對該分類的喜好程度.本文擬采用基于模糊推理的技術(shù)實現(xiàn).2.2模糊推理技術(shù)模糊推理技術(shù)主要采用基于模糊規(guī)則的推理方法解決問題.運用模糊推理技術(shù)解決問題分3步完成.1)模糊化.其目的是通過隸屬函數(shù)將精確數(shù)據(jù)模糊化.例如,用于描述屬于一個分類的文檔數(shù)的模糊集共包括3個元素{多,中,少},而第i個分類的文檔數(shù)|Di|是一個精確值,模糊化通過隸屬函數(shù)給出這個精確值屬于上述模糊集3個元素的程度.2)模糊推理.完成了對所有輸入精確值的模糊化后,就可以利用模糊規(guī)則進行推理.例如某條模糊規(guī)則是“若分類所包含的文檔數(shù)多且分類的冷卻時間短,則用戶喜好該分類”.利用第1步計算的結(jié)果,及上述模糊規(guī)則即可計算出用戶對該分類的“喜好程度”.3)去模糊化.模糊推理得到的結(jié)論也是模糊的,去模糊化將其轉(zhuǎn)換為精確數(shù)據(jù)用于以后的計算.例如,在本文中需要將用戶對各個分類的喜好程度轉(zhuǎn)換某個具體數(shù)值,為確定從各分類中抽取的文檔數(shù)作準(zhǔn)備.下面將詳細介紹將模糊推理技術(shù)應(yīng)用于確定用戶偏好的3個步驟.2.2.1分類冷卻時間的歸一化第2.1節(jié)為分類確定了兩個反映用戶個性的屬性——文檔數(shù)和冷卻時間.與這兩個屬性對應(yīng)的模糊集是:與文檔數(shù)對應(yīng)的模糊集是{多,中,少},與冷卻時間對應(yīng)的模糊集是{短,中,長}.給定一個精確的文檔數(shù)或冷卻時間,需要一個隸屬函數(shù)對其進行模糊化.隸屬函數(shù)用于描述一個精確值隸屬于模糊集中某個元素的程度.對上述兩個屬性,本文均采用如圖1所示的隸屬函數(shù).該函數(shù)的橫軸表示待模糊化的精確值,縱軸表示精確值屬于模糊集中某元素的程度.圖1所示的隸屬函數(shù)的橫軸范圍為,故需要對每個分類的文檔數(shù)和冷卻時間進行歸一化處理.分類冷卻時間的歸一化方法見式(2),其中n表示分類個數(shù).將式(2)中的改變?yōu)閨Di|即為分類文檔數(shù)的歸一化公式.圖1所示的隸屬函數(shù)橫軸上(0.25,0.45)和(0.65,0.85)兩個區(qū)域值得注意.根據(jù)隸屬函數(shù)的定義,如果某分類的文檔數(shù)或冷卻時間經(jīng)過歸一化處理后未落入這兩個范圍內(nèi),則這個精確值只屬于一個模糊元素;否則,該精確值同時屬于兩個模糊元素,精確值所對應(yīng)的縱坐標(biāo)表示此精確值屬于某個模糊元素的程度.2.2.2模糊推理的應(yīng)用本文的推理規(guī)則利用模糊元素推理用戶對各分類的喜好程度,而推理規(guī)則主要由相關(guān)領(lǐng)域?qū)<抑贫?利用分類的文檔數(shù)和冷卻時間定義用戶對分類喜好程度的模糊規(guī)則定義如表1所示.用于描述用戶對某分類喜好程度的模糊集定義為{很喜歡,較喜歡,一般,較沒興趣,沒興趣},分別對應(yīng)表1中的5,4,3,2,1.表1共給出了9條模糊規(guī)則,采用“&”運算表示模糊規(guī)則被觸發(fā)的條件.例如,若某分類的文檔數(shù)多(對應(yīng)表1中的Many)&冷卻時間短(對應(yīng)表1中的short),則用戶“很喜歡”該分類(表1中Many和short交叉處的數(shù)字為5).下面通過一個例子講解模糊推理的過程.假設(shè)經(jīng)過歸一化處理后,若第i個分類Di的文檔數(shù)為0.3,根據(jù)圖1所示的隸屬函數(shù)可以計算出分類Di的文檔數(shù)屬于“少”的程度為0.75,屬于“中”的程度為0.25,屬于“多”的程度為0.分類Di的冷卻時間數(shù)為0.5,表明該類文檔的冷卻時間屬于“中”的程度為1,屬于其他兩種情況的程度為0.利用隸屬程度和9條模糊推理規(guī)則可以計算出用戶對分類Di的偏好程度.具體方法是:對規(guī)則“若某分類的文檔數(shù)中冷卻時間中,則用戶喜好該分類的程度一般”,分類Di的文檔數(shù)屬于中的程度為0.25,其冷卻時間屬于中的程度為1.根據(jù)模糊推理系統(tǒng)對運算符“&”的定義,取文檔數(shù)和冷卻時間的較小值作為推理規(guī)則結(jié)論的支持度.即用戶對分類Di喜好程度“一般”的支持度為0.25.采用相同方法根據(jù)其他8條規(guī)則,分別計算出用戶對分類Di“較喜歡”、“喜歡”、“一般”、“較沒興趣”和“沒興趣”的支持度.2.2.3模糊元素偏好度計算去模糊化指將用戶對分類Di的喜好程度轉(zhuǎn)換為某個精確值,轉(zhuǎn)換的方法如下:令模糊集{很喜歡,較喜歡,一般,較沒興趣,沒興趣}中各模糊元素所對應(yīng)的權(quán)值為1/20,1/21,1/22,1/23和1/24.設(shè)2.2.2節(jié)計算的用戶對分類Di的5種喜好支持度為S1,S2,S3,S4,S5,則用戶對分類Di喜好程度去模糊化的結(jié)果由式(3)給出:2.3設(shè)計聚類分配算法設(shè)本地文檔庫中共包含N個文檔,則可以按照用戶對不同分類喜好程度的不同計算分配給該分類的抽樣文檔個數(shù).設(shè)聚類算法將用有戶瀏覽的歷史文檔集聚集為n個分類,利用式(3)計算出用戶對每個分類的喜好程度,則從第i個分類Di中抽取的文檔數(shù)由式(4)給出:最后,將剩余的個文檔名額平均分配給用戶最喜好的個分類.3本地醫(yī)療設(shè)計及本地醫(yī)療庫構(gòu)建算法確定了每個分類的抽樣文檔數(shù)后,需要選擇抽取文檔的方法,本文提出3種文檔抽取方法.1)隨機抽樣.設(shè)第i個分類Di中包含的文檔數(shù)為|Di|,為每個文檔分配1個[1,|Di|]范圍內(nèi)的自然數(shù)作為該文檔的ID.若要從該分類中抽取個文檔數(shù),只需在[1,|Di|]范圍內(nèi)產(chǎn)生個互不相同的隨機數(shù),ID與隨機數(shù)對應(yīng)的文檔即為被抽樣的文檔.2)中心抽樣.設(shè)第i個分類Di的聚類中心向量為Vi,將分類Di中的所有文檔向量與V,進行相似性比較,選擇其中與Vi最相似的個文檔作為抽樣文檔.3)覆蓋抽樣.設(shè)分類Di的聚類中心向量為Vi,該向量共包含W個關(guān)鍵詞.分類中的第j篇文檔的文檔向量包含Wj個關(guān)鍵詞.從分類Di中最多選擇個文檔,使這些文檔對應(yīng)的文檔向量所包含的關(guān)鍵詞構(gòu)成的集合最大限度地覆蓋W.分別對聚類算法形成的各分類進行抽樣,將抽樣文檔合并在一起就得到本地文檔庫.定期運行本地文檔庫構(gòu)建算法即可完成對本地數(shù)據(jù)庫的更新,反映用戶最新的個性偏好.完整的本地文檔庫構(gòu)建算法如下所示:算法1.本地文檔集建立算法.4本地醫(yī)療知識數(shù)據(jù)庫的應(yīng)用本地運行的個性化結(jié)果排序算法如下所示:算法2.基于本地文檔集的結(jié)果排序算法.算法首先將從用戶處接收的查詢詞發(fā)往企業(yè)搜索引擎查詢.企業(yè)搜索引擎將查詢結(jié)果集的每一篇文檔轉(zhuǎn)換為關(guān)鍵詞向量并返回客戶端.客戶端利用本地文檔庫對企業(yè)搜索引擎返回的結(jié)果進行重新排序,具體計算方法如下:取出企業(yè)搜索引擎返回的一篇文檔的關(guān)鍵詞向量,計算這篇文檔與本地文檔庫中所有文檔關(guān)鍵詞向量的相似度,將所有相似度結(jié)果累加就得到這篇文檔的排序值.顯然,若一篇文檔與本地文檔集中相似的文檔個數(shù)越多,相似度越大,則這篇文檔排序值就越大.因為在選擇構(gòu)成本地文檔庫的過程中,是根據(jù)用戶對不同分類喜好程度的不同對各分類進行文檔數(shù)分配的.可以保證用戶偏好在對結(jié)果排序值的計算過程中得到體現(xiàn).5實驗1:本地城市遠程高效資源庫下面通過3組實驗驗證本文提出的基于本地文檔集的個性化表示和結(jié)果排序算法可以體現(xiàn)出用戶的個性偏好.實驗的設(shè)置如下:我們采用由1778篇新聞組文檔構(gòu)成的文檔集作為測試集,并通過聚類算法將這些文檔分為3個分類.文檔集全集構(gòu)成遠程文檔庫,從屬于不同分類的文檔集中抽取一定數(shù)量的文檔構(gòu)成的集合表示用戶在本地瀏覽了遠程文檔庫中相關(guān)分類的文檔.為了度量個性化排序算法的性能,本文采用統(tǒng)計各分類在查詢結(jié)果集排名前50個結(jié)果中所占的比例作為度量標(biāo)準(zhǔn).Solr作為一款開源的搜索引擎核心被廣泛運用,它可以給出未經(jīng)過個性化處理的搜索結(jié)果.本文采用Solr作為基準(zhǔn),與本文提出的個性化算法的處理結(jié)果進行比較,從而體現(xiàn)出用戶個性對結(jié)果的影響.實驗的具體內(nèi)容如下:首先,本文共提出了3種抽樣方法:實驗1(見5.1節(jié))通過改變用戶瀏覽某分類的文檔數(shù)和分類的冷卻時間,尋找一種最好的抽樣方法;其次,實驗2(見5.2節(jié))采用實驗1所選的抽樣方法構(gòu)建本地文檔庫,考察本地文檔庫所包含的文檔數(shù)對本文提出的個性化排序算法的影響;最后,實驗3(見5.3節(jié))將本文提出的個性化排序算法與傳統(tǒng)基于關(guān)鍵詞權(quán)值的個性化排序算法進行比較,說明本文提出的算法可以對用戶個性的變化作出更迅速的反應(yīng),并更突出用戶的個性.5.13種抽樣方法的實驗結(jié)果比較本實驗通過在4種不同的用戶瀏覽各分類文檔數(shù)和各分類冷卻時間設(shè)置條件下,比較3種抽樣方法的優(yōu)劣.實驗的所有數(shù)據(jù)均是向搜索引擎發(fā)送5個查詢詞所得實驗結(jié)果的平均值.各實驗的參數(shù)設(shè)置如下:在所有子實驗中均固定本地文檔庫所包含的文檔數(shù)為200.在子實驗1中,設(shè)置用戶瀏覽3個分類的文檔數(shù)之比為1:0.6:0.2,瀏覽3個分類的冷卻時間之比為1:0.6:0.2,實驗結(jié)果如圖2(a)所示.顯然,文檔數(shù)的比值越高說明用戶瀏覽該分類的文檔數(shù)越多,而冷卻時間的比值越高,說明用戶越久沒有訪問該分類中的文檔.因此子實驗1中模擬的場景是在很久以前用戶關(guān)心分類1,但隨著時間的推移,用戶最近的興趣正轉(zhuǎn)向分類3.根據(jù)圖2(a)所示的實驗結(jié)果,“Solr”表示沒有經(jīng)過個性化算法處理的排序結(jié)果,“隨機抽樣”、“中心抽樣”和“覆蓋抽樣”分別表示本地文檔集采用隨機抽樣、抽取與各分類中心距離最近的文檔以及覆蓋分類中心向量的方式構(gòu)成.圖2(a)中,按3種抽樣方法形成的本地文檔庫對結(jié)果排序后,3種抽樣方法使第1個分類在前50個結(jié)果中所占比例較Solr都有所下降,而對第3個分類,3種抽樣方法較Solr的都有所增加.說明個性化排序算法檢查到了用戶個性的轉(zhuǎn)移,盡管當(dāng)前用戶瀏覽第3個分類中的文檔數(shù)還比較小,但也可以適當(dāng)增加屬于第3個分類的文檔在前50個結(jié)果中所占的比例.在這組實驗中,覆蓋抽樣表現(xiàn)最好,即分類1下降最多,分類3增加最多.子實驗2的參數(shù)設(shè)置為:3個分類文檔數(shù)之比為1:0.6:0.2,冷卻時間之比為1:1:1.該實驗中各分類的冷卻時間相同,因此通過文檔數(shù)體現(xiàn)用戶個性.顯然,分類1的文檔數(shù)最多,表明用戶最關(guān)心分類1.實驗結(jié)果如圖2(b)所示,對分類1在結(jié)果集所占的比例,3種抽樣的個性化方法較Solr均有不同程度的提高,而對于分類3,3種抽樣方法較Solr均有所抑制,正確反映了用戶偏好的變化.進一步,中心抽樣方法較其他兩種方法表現(xiàn)得更好.子實驗3的參數(shù)設(shè)置為:3個分類文檔數(shù)之比為1:0.6:0.2,冷卻時間之比為0.2:0.6:1.由此可見,用戶瀏覽分類1的文檔數(shù)最多,且冷卻時間最短,因此對分類1非常關(guān)注,而對分類3則完全相反.圖2(c)的實驗結(jié)果也驗證了這一點,基于抽樣的3種方法在前50個結(jié)果中對屬于分類1的文檔數(shù)較Solr均有更大幅度的增加,對分類3則剛好相反.同樣是中心抽樣方法表現(xiàn)最好.子實驗4的參數(shù)設(shè)置為:3個分類文檔數(shù)之比為1:1:1,冷卻時間之比為1:0.6:0.2.在文檔數(shù)相同的條件下,冷卻時間越短說明用戶越關(guān)心某類文檔.因此用戶最關(guān)心分類3,圖2(d)的實驗結(jié)果驗證了這一點,對屬于分類3的文檔在前50個結(jié)果的比例,抽樣方法較Solr均有明顯的增加,仍然是中心抽樣方法增加最明顯.綜合上述4個實驗,中心抽樣方法是3種抽樣方法中效果最好的一種.5.2dn:400和dn的分類結(jié)果根據(jù)5.1節(jié)得到的結(jié)果,3種抽樣方法中,中心抽樣方法的效果最好,因此本實驗采用中心抽樣方法,測試本地文檔庫所包含的文檔數(shù)對本文提出的個性化排序算法的影響.具體地,測試本地文檔庫包含的文檔數(shù)(documentnumber,DN)分別為200和400兩種情況下,基于中心抽樣的個性化排序算法反應(yīng)用戶個性變化的及時性.本實驗共包括4個子實驗,實驗結(jié)果如圖3所示.各實驗的參數(shù)設(shè)置如下:在子實驗1中,設(shè)置用戶瀏覽3個分類的文檔數(shù)之比為1:0.6:0.2,瀏覽3個分類的冷卻時間之比為1:0.6:0.2,實驗結(jié)果如圖3(a),所示.子實驗1中模擬的場景是在很久以前用戶關(guān)心分類1,但隨著時間的推移,用戶最近的興趣正轉(zhuǎn)向分類3.根據(jù)圖3(a)所示的實驗結(jié)果,“Solr”表示沒有經(jīng)過個性化算法處理的排序結(jié)果,DN=200和DN=400分別表示本地文檔集包含的文檔數(shù)為200和400且經(jīng)過個性化算法處理的排序結(jié)果.經(jīng)中心抽樣方法對結(jié)果排序后,分類1在前50個結(jié)果中的比例較Solr的排序結(jié)果都有所下降,而對第3個分類,DN=200和DN=400較Solr的都有所增加.通過比較DN=200和DN=400減小和增加的幅度可知,在這組實驗中,DN=400比較DN=200更能反映用戶個性的變化.子實驗2的參數(shù)設(shè)置為:3個分類文檔數(shù)之比為1:0.6:0.2,冷卻時間之比為1:1:1.分類1的文檔數(shù)最多,表明用戶最關(guān)心分類1,實驗結(jié)果如圖3(b)所示.對分類1在結(jié)果集所占的比例,DN=400所增加的比例較DN=200高,而對于分類3,DN=400較DN=200有更強的抑制作用,因此子實驗2說明DN=400表現(xiàn)得更好.子實驗3的參數(shù)設(shè)置為:3個分類文數(shù)之比為1:0.6:0.2,冷卻時間之比為0.2:0.6:1.說明用戶對分類1非常關(guān)注,而對分類3則完全相反.圖3(c)的的實驗結(jié)果同樣說明DN=400時的表現(xiàn)要好于DN=200的情況,其解釋同子實驗1和實驗2,在此不再贅述.子實驗4的參數(shù)設(shè)置為:3個分類文檔數(shù)之比為1:1:1,冷卻時間之比為1:0.6:0.2.說明用戶最關(guān)心分類3,圖3(d)的實驗結(jié)果說明DN=400時的表現(xiàn)更好.綜合以上4個實驗的結(jié)果可知,適當(dāng)增加本地文檔集所包含的文檔數(shù)可以更好地體現(xiàn)用戶偏好.5.3實驗結(jié)果與分析本實驗將基于本地文檔集的個性化排序算法和基于關(guān)鍵詞的個性化排序算法進行對比.基于關(guān)鍵詞的個性化排序算法的主要思想是從用戶瀏覽的歷史文檔中提取關(guān)鍵詞.通過對用戶瀏覽文檔的分析,賦予這些關(guān)鍵詞不同的權(quán)值,以體現(xiàn)不同關(guān)鍵詞代表用戶個性的強度,將查詢結(jié)果集中的代表各文檔的關(guān)鍵詞向量與該關(guān)鍵詞向量進行相似性比較,根據(jù)相似度的高低確定其在新結(jié)果集中的排序.本實驗共包括2個子實驗.子實驗1將測試文檔集聚集為3個分類,實驗結(jié)果如圖4所示,根據(jù)5.1和5.2節(jié)所得到的結(jié)果,本文提出的基于本地文檔集的個性化排序算法所設(shè)定的參數(shù)為采用中心抽樣方法構(gòu)建本地文檔集,且文檔集中包含的文檔數(shù)為400.圖4中的Document-Based-1表示本文提出算法在用戶瀏覽3個分類的文檔數(shù)之比為1:0.6:0.2,瀏覽3個分類的冷卻時間之比為0.2:0.6:1條件下的實驗結(jié)果.圖4中的Document-Based-2表示本文提出算法在用戶瀏覽3個分類的文檔數(shù)之比為1:0.6:0.2,瀏覽3個分類的冷卻時間之比為1:0.6:0.2條件下的實驗結(jié)果.圖4中的KeywordBased表示傳統(tǒng)基于關(guān)鍵詞的個性化排序算法的實驗結(jié)果.Document-Based-1的實驗設(shè)置模擬用戶對分類1非常關(guān)注,而對分類3則完全相反.圖4的實驗結(jié)果顯示與基于關(guān)鍵詞的方法相比,DocumentBased-1所得到的結(jié)果集中屬于分類1的文檔高于Keyword-Based方法,而屬于分類3的文檔數(shù)低于Keyword-Based方法.說明基于關(guān)鍵詞的方法相比,本文提出的方法對用戶感興趣的分類在結(jié)果集中進行了增強,而對用戶不感興趣的分類在結(jié)果集中進行了消弱.Document-Based-2的實驗設(shè)置模擬用戶的興趣從分類1轉(zhuǎn)移到分類3.根據(jù)圖4所示的實驗結(jié)果,與基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論