




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
精品文檔-下載后可編輯上下文信息社會(huì)網(wǎng)絡(luò)論文1、相關(guān)工作
比如,即使一個(gè)用戶和其朋友的品味極其相似,她對(duì)一部電影的評(píng)價(jià)可能還受其他因素影響(比如,她在看電影時(shí)候的情緒和陪她看電影的人)。因此近期的研究開始關(guān)注社交網(wǎng)絡(luò)中的上下文信息。文獻(xiàn)[8]提出了將用戶和項(xiàng)目進(jìn)行群組的方法,在協(xié)同過濾算法中利用了這些子群信息(一種上下文信息)來提高用推薦系統(tǒng)的質(zhì)量。Liu等人[9]利用推薦對(duì)象的屬性上下文信息來對(duì)它們之間的關(guān)聯(lián)關(guān)系進(jìn)行度量,并通過估計(jì)出的關(guān)聯(lián)關(guān)系信息來改善推薦的效果。文獻(xiàn)[10]提出了將社會(huì)網(wǎng)絡(luò)上下文信息(個(gè)人表現(xiàn)和交際影響)整合到一個(gè)矩陣分解模型中。但是,這樣的上下文信息僅僅與社交關(guān)系有關(guān),大量的非社交的上下文信息卻被忽視了。相反,本文提出的CS算法運(yùn)用機(jī)器學(xué)習(xí)技術(shù)和矩陣分解技術(shù),不僅包含了大量的上下文信息,而且對(duì)上下文信息沒有限定信息類型:上下文信息被顯式地應(yīng)用到矩陣劃分中;基于信任度的皮爾遜相關(guān)系數(shù)提高了計(jì)算用戶相似度的準(zhǔn)確性。
2、CS推薦系統(tǒng)
2.1預(yù)備知識(shí)
2.1.1相關(guān)概念傳統(tǒng)的推薦系統(tǒng)通常只考慮用戶-項(xiàng)目評(píng)分矩陣來進(jìn)行推薦。然而,在許多系統(tǒng)中,可以通過豐富的上下文信息來為推薦系統(tǒng)提供了新的信息維度。本文把上下文信息分為兩類:(1)靜態(tài)上下文,它描述用戶的特性,例如年齡、性別、會(huì)員身份,角色等;或者是一種商品、種類、價(jià)錢、物理特性等;(2)動(dòng)態(tài)上下文,是一種與等級(jí)相關(guān)的即時(shí)信息(例如當(dāng)一個(gè)用戶評(píng)價(jià)一個(gè)產(chǎn)品時(shí),他的心情和位置信息)。另一方面,在線社交網(wǎng)絡(luò)也帶來一些其他資源,通過分析這些資源一個(gè)用戶的喜好可以由與他有相同品味的朋友推斷出。因此,本文試圖系統(tǒng)地融合上下文信息和社交網(wǎng)絡(luò)信息來改善推薦性能。用{U1,U2,...,Um}u表示用戶集合,{V1,V2,...,Vn}v表示項(xiàng)目集合。所有用戶可以根據(jù)自己的喜好為項(xiàng)目評(píng)分。假設(shè)分值為離散變量,范圍為12{,,...}mLLLL。比如,許多推薦系統(tǒng)(如MovieLens)使用五分制進(jìn)行評(píng)分(例如[1,2,3,4,5])。用戶uU對(duì)項(xiàng)目vV的評(píng)分表示為u,vR,所有的評(píng)分集合,{,v}uvuvR=RUuV構(gòu)成一個(gè)用戶-項(xiàng)目評(píng)分矩陣(如圖1(a))。正如上面提到的,假設(shè)對(duì)用戶的每一個(gè)評(píng)分級(jí)iR都存在與其相關(guān)的上下文信息集合,用12{,,...}iCcc來表示。我們對(duì)每種類型的上下文信息的值域沒有限制,也就是說,離散值和連續(xù)值都是合法的。在社會(huì)網(wǎng)絡(luò)中將用戶信息及用戶之間的關(guān)系可以抽象表示為有向帶權(quán)值的社會(huì)網(wǎng)絡(luò)圖的形式:G(V,E,C)。其中,V表示節(jié)點(diǎn)集合,每個(gè)節(jié)點(diǎn)代表網(wǎng)絡(luò)中的用戶個(gè)體;E表示邊的集合,表示兩個(gè)個(gè)體之間存在的關(guān)系;{}uvCc表示邊的權(quán)重值,此值越大表示信任程度越大,本文將其定義為用戶間的信任度。由于信任關(guān)系不是對(duì)稱的,所以圖中的邊是有向的,網(wǎng)絡(luò)圖為有向圖。2.1.2矩陣因式分解以上的矩陣,使得將矩陣因子相乘后可以重構(gòu)或者近似原始矩陣。在推薦問題中,一個(gè)矩陣因式分解模型是將用戶-項(xiàng)目評(píng)分矩陣R,mnRR(m是用戶數(shù)量,n是項(xiàng)目數(shù)量)分解成一個(gè)用戶特征矩陣U,mlUR和一個(gè)項(xiàng)目特征矩陣V,lnVR。TRUV(1)其中l(wèi)是一個(gè)潛在特征向量的維度,它標(biāo)志著一個(gè)用戶或者一個(gè)項(xiàng)目的特征。對(duì)于一個(gè)用戶a來說,的元素(即aU)衡量了用戶對(duì)項(xiàng)目的興趣度;對(duì)于項(xiàng)目b,的元素(即bV)衡量了和相應(yīng)的潛在特征的相關(guān)程度。因此,TabUV表示用戶和項(xiàng)目之間的關(guān)聯(lián)度,即考慮了所有潛在特征后用戶對(duì)項(xiàng)目的偏好度。為了計(jì)算,考慮到用戶-項(xiàng)目評(píng)分矩陣的稀疏性,定義了以下的目標(biāo)函數(shù),即使預(yù)測(cè)評(píng)分與用戶實(shí)際評(píng)分的誤差最小化:T2i,j,,11argmin()mnijijjkIUVRUV(2)其中i,jI為一個(gè)指示變量,即如果用戶i對(duì)商品j進(jìn)行了打分,則為1,否則為0。另外,為了避免過度擬合,在公式中加入了規(guī)范化系數(shù),即T222i,j,,11argmin()(||||||||)mnijijFFjkIUVRUVUV(3)其中2FA(A是XY的矩陣)是Frobenius范數(shù),是通過2xyxyXYA計(jì)算得到。參數(shù)控制規(guī)范化的范圍。公式3可以通過兩種方式解得:(1)隨機(jī)梯度算法(SGD),通過迭代更新潛在用戶特征因子和潛在項(xiàng)目特征因子。(2)交替最小二乘算法(ALS),通過修正矩陣(或者)以優(yōu)化(或者),并且輪轉(zhuǎn)迭代。
2.2上下文感知的推薦模型
本節(jié)首先介紹一下如何結(jié)合上下文信息來提高推薦系統(tǒng)的推薦準(zhǔn)確度,在此先暫不考慮社會(huì)關(guān)系。為了有效結(jié)合不同的上下文信息,我們使用一種具有較高學(xué)習(xí)精度的隨機(jī)決策樹算法。該算法的目標(biāo)是對(duì)原始即用戶-項(xiàng)目評(píng)分矩陣使用隨機(jī)劃分策略將相似用戶或相似項(xiàng)目的評(píng)分劃分到樹的同一結(jié)點(diǎn)中,即將具有相似上下文的評(píng)分劃分在一個(gè)組內(nèi)。由于是在相似的上下文中產(chǎn)生,因此在相同組里的評(píng)分將會(huì)比在原始評(píng)分矩陣中的評(píng)分具有更高的相關(guān)性,有助于提高推測(cè)缺失值的準(zhǔn)確性。對(duì)每個(gè)決策樹中的每一個(gè)結(jié)點(diǎn),利用公式(2)對(duì)評(píng)分矩陣進(jìn)行基本的矩陣因式分解。經(jīng)過分解之后,分別得到用戶潛在特征向量與項(xiàng)目潛在特征向量(如圖1(b))。用戶特征因子表明了用戶在一些潛在主題上的興趣分布,而項(xiàng)目特征因子代表了與這些主題相關(guān)的項(xiàng)目成員。為了劃分評(píng)分矩陣,我們選擇了一個(gè)潛在特征(如圖1(b)的第二列)和隨機(jī)選取了一個(gè)分割值(本例中假設(shè)選擇的分割值為0.4)。設(shè)定之后,則當(dāng)前的評(píng)分矩陣被劃分為兩部分,如圖1(c)所示。在本例中,根據(jù)中第二個(gè)潛在特征向量和隨機(jī)選定的分割值,評(píng)分矩陣被從第二行和第三行之間分割成了兩部分。由于第一個(gè)和第二個(gè)用戶的潛在特征值比較相似,因此他們給出的評(píng)分被決策樹劃分到同一個(gè)結(jié)點(diǎn)中。在為每個(gè)上下文信息構(gòu)建決策樹時(shí),在樹的每一層,算法都會(huì)從上下文信息集合C中隨機(jī)選擇一個(gè)上下文信息rc來劃分評(píng)分矩陣(見圖2)。具體來說,評(píng)分矩陣是根據(jù)的值進(jìn)行劃分的。例如,如果我們假設(shè)上下文信息是一周時(shí)間,則評(píng)分矩陣可以根據(jù)每一天(即從周日到周六,工作日或者周末)來進(jìn)行有意義的劃分。另一方面,如果的值沒有任何語義信息,則我們首先要對(duì)每一個(gè)評(píng)分進(jìn)行標(biāo)準(zhǔn)化到某一特定區(qū)間(如[0,1]),然后選擇一個(gè)隨機(jī)的閾值(如∈[0,1])來劃分評(píng)分。一旦在樹中的某一層上完成了評(píng)分劃分,則隨機(jī)選取的上下文信息rc就會(huì)從上下文信息集合中被刪除:rCC/c,從而保證了一個(gè)上下文信息在一條路徑上只作一次。盡管朋友能夠提供有用的信息來幫助推薦系統(tǒng)為用戶做出高質(zhì)量的推薦,但現(xiàn)有的研究大部分都是在利用社會(huì)網(wǎng)絡(luò)中所有的可用信息進(jìn)行推薦,沒有對(duì)這些信息進(jìn)行細(xì)致的過濾;或者并沒有深入的調(diào)查怎樣精確計(jì)算用戶之間的品味相似性。為了解決這些問題,本文引進(jìn)一個(gè)新的社會(huì)規(guī)范化系數(shù)來對(duì)用戶和他朋友之間的品味差異進(jìn)行約束。在真實(shí)生活中,一個(gè)用戶可能會(huì)有成百上千個(gè)朋友,因此同等對(duì)待朋友(或者朋友所給出的推薦信息)是沒有意義的,因?yàn)槠渲械囊恍┡笥芽赡芘c用戶具有非常相似的品味,而與另一些朋友可能擁有完全不同的品味。在社會(huì)網(wǎng)絡(luò)中,每一個(gè)用戶u都會(huì)有鄰居集合uN,用uvt表示節(jié)點(diǎn)對(duì)節(jié)點(diǎn)v的社會(huì)信任度,其取值范圍在[0,1]之間。值為0表示完成不信任,值為1表示完成信任。在社會(huì)網(wǎng)絡(luò)中,的值可以解釋為用戶u對(duì)用戶的了解與信任程度。但由于該權(quán)值包含一些噪音數(shù)據(jù),不能體現(xiàn)社會(huì)網(wǎng)絡(luò)中的整體結(jié)構(gòu)信息,這就類似于在網(wǎng)頁分析中的忽略了網(wǎng)頁的鏈接結(jié)構(gòu)信息。但其實(shí)在一個(gè)信任網(wǎng)絡(luò)中,如果某個(gè)用戶信任大部分的用戶,則其信任度應(yīng)當(dāng)被降低;反之,如果某個(gè)用戶被大部分用戶所信任,則其信任度應(yīng)該被增強(qiáng)。
3、實(shí)驗(yàn)評(píng)估
3.1實(shí)驗(yàn)方法
3.1.1數(shù)據(jù)集豆瓣網(wǎng)()是中國最大的社交平臺(tái)之一,許多人在這里分享對(duì)書、電影、音樂的評(píng)價(jià)。每個(gè)用戶可以對(duì)書、電影、音樂進(jìn)行評(píng)級(jí)(從一星到五星),表達(dá)他們對(duì)這些產(chǎn)品的喜好。在社交網(wǎng)絡(luò)中如果某用戶的評(píng)論被認(rèn)為是有趣且有用的,則他就可能被其他用戶所跟隨。表1列出了數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。我們選擇豆瓣的數(shù)據(jù)因?yàn)樗粌H包含了相關(guān)的時(shí)間/數(shù)據(jù)和其它可推斷的上下文信息,而且還包含了社會(huì)網(wǎng)絡(luò)信息,因此非常適合用于評(píng)估應(yīng)用了多種類型信息的CS算法的性能。從豆瓣數(shù)據(jù)集中,隨機(jī)選擇80%的評(píng)價(jià)來訓(xùn)練推薦模型,使用剩下的20%比較它們的性能。3.1.2比較對(duì)象本文將CS推薦系統(tǒng)和目前主流的幾種推薦方法進(jìn)行了對(duì)比實(shí)驗(yàn):傳統(tǒng)的基于上下文感知推薦系統(tǒng)RPMF[14],基于社會(huì)網(wǎng)絡(luò)的推薦系統(tǒng)SoReg[11];應(yīng)用基本的矩陣分解模型構(gòu)建的推薦系統(tǒng)BMF[12]。與所有的上下文推薦系統(tǒng)相似,我們從數(shù)據(jù)集中可獲得的上下文化信息中選取了五種類型的上下文信息:(1)小時(shí)信息,即用戶給出評(píng)分的時(shí)刻;(2)日期信息,即用戶給出評(píng)分的日期;(3)當(dāng)一個(gè)評(píng)價(jià)被給出的時(shí)候,對(duì)目標(biāo)商品產(chǎn)生“期待”的數(shù)量;(4)當(dāng)目標(biāo)用戶評(píng)價(jià)一個(gè)特定商品時(shí),其所給出評(píng)分的平均值;(5)目標(biāo)商品所屬的類別。3.1.3度量標(biāo)準(zhǔn)實(shí)驗(yàn)選取在推薦系統(tǒng)評(píng)價(jià)中經(jīng)常使用的兩個(gè)度量標(biāo)準(zhǔn)來比較不同推薦模型的性能:平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)。公式14和15分別給出兩者的定義:
3.2實(shí)驗(yàn)結(jié)論
首先使用豆瓣網(wǎng)數(shù)據(jù)集來說明CS算法中不同參數(shù)值的選取對(duì)推薦性能的影響。經(jīng)過交叉驗(yàn)證之后得到規(guī)則化常量=0.1。圖3給出了當(dāng)數(shù)據(jù)集的不同子集(如書數(shù)據(jù),電影數(shù)據(jù),音樂數(shù)據(jù))被應(yīng)用時(shí),CS推薦模型的性能如何隨著參數(shù)值的變化而變化,參數(shù)決定了有多少社會(huì)網(wǎng)絡(luò)信息量被整合進(jìn)CS推薦模型中(見公式11)。實(shí)驗(yàn)中設(shè)置在求解矩陣因式分解模型中潛在特征向量的維數(shù)為10,迭代求解次數(shù)為20。后續(xù)實(shí)驗(yàn)會(huì)給出這些變量的變化如何影響基于矩陣因式分解的推薦模型的性能。從圖3可以看出隨著值的增大,MAE和RMSE的值首先減少,接下來當(dāng)?shù)竭_(dá)一定閾值時(shí)(大約在=0.1處)其值變得相對(duì)穩(wěn)定(只是輕微下降)。因此可能得出社交網(wǎng)絡(luò)信息可以有效改善推薦質(zhì)量的結(jié)論,并且=0.001是一個(gè)合適的閾值來很好地平衡用戶-項(xiàng)目評(píng)分矩陣和社交網(wǎng)絡(luò)信息。接下來,驗(yàn)證上下文信息數(shù)量對(duì)推薦性能的影響。這一點(diǎn)可以通過控制決策樹的高度來實(shí)現(xiàn)。也就是說,如果設(shè)樹的高度為1,則只有一種類型的上下文信息在樹的劃分時(shí)被使用;如果設(shè)樹的高度為4,表示所有的上下文信息都被應(yīng)用到推薦系統(tǒng)中來。圖4給出了不同數(shù)量上下文信息的實(shí)驗(yàn)結(jié)果。從圖4中可以看出在所有情況下,上下文信息越多則會(huì)產(chǎn)生越高的推薦精度,即MAE和RMSE的值越小。實(shí)驗(yàn)結(jié)果表明上下文信息很大程度上改善了推薦系統(tǒng)的性能,另一方面,從實(shí)驗(yàn)結(jié)果中可以看出本文所選取的上下文信息是非常有用的。最后,將CS推薦系統(tǒng)和其他推薦系統(tǒng)的性能在豆瓣網(wǎng)數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn)。在做對(duì)比實(shí)驗(yàn)之前,需要決定兩個(gè)重要的參數(shù)的取值,即潛在特征向量的維度和基于矩陣因式分解模型的迭代次數(shù)。首先固定迭代次數(shù)為10,觀察潛在特征向量在不同維度下的MAE取值,如表1所示。發(fā)現(xiàn)隨著維度的增加MAE的值在減少,這意味著隨著維度的增加將會(huì)產(chǎn)生更高的推薦。但是當(dāng)維度增加到大約10時(shí),推薦質(zhì)量的改進(jìn)甚小。因此在實(shí)驗(yàn)中,為推薦算法的潛在特征向量維度設(shè)置為10。同理,本文為所有基于矩陣因式分解模型的迭代次數(shù)設(shè)置為20,因?yàn)楦嗟牡螖?shù)并沒有降低MAE的值,反而會(huì)產(chǎn)生更高的開銷。參數(shù)一量確定,下面就分別使用書數(shù)據(jù)、電影數(shù)據(jù)、音樂數(shù)據(jù)和整個(gè)豆瓣網(wǎng)數(shù)據(jù)來比較不同推薦模型的推薦性能。表2給出了對(duì)比結(jié)果。從圖5可以看出,本文提出的CS推薦模型所有的實(shí)驗(yàn)數(shù)據(jù)中都比其他推薦模型更加精確。所有基于矩陣因式分解的推薦模型都明顯優(yōu)于傳統(tǒng)的基于項(xiàng)目和基于用戶的協(xié)同過濾算法,這表明了矩陣因式分解技術(shù)在推薦領(lǐng)域的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果也表明綜合考慮上下文信息和社會(huì)網(wǎng)絡(luò)信息比只考慮某一種信息類型的推薦模型(如SoReg和RPMF)具有更高的推薦質(zhì)量。
4、結(jié)論
本文提出的CS算法是一個(gè)將上下文信息和社交網(wǎng)絡(luò)信息相結(jié)合推薦算法,大大提高了推薦質(zhì)量。該算法首先使用隨機(jī)決策樹算法基于不同的上下文信息對(duì)原始用戶評(píng)分矩陣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 定制家具預(yù)售合同范本
- 小區(qū)擴(kuò)展面積合同范本
- 吊車維修合同范本
- 出售民用鋼材合同范本
- 202520薪資福利專項(xiàng)集體合同樣本
- 合作放貸業(yè)務(wù)合同范本
- 江蘇省揚(yáng)州市江都區(qū)大橋中學(xué)2025年高三第三次聯(lián)考化學(xué)試題試卷含解析
- 湘潭大學(xué)興湘學(xué)院《藏醫(yī)內(nèi)科學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江省溫州市五校2024-2025學(xué)年下學(xué)期期中化學(xué)試題含解析
- 西安郵電大學(xué)《康復(fù)生物力學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2023-2024學(xué)年遼寧省沈陽市南昌中學(xué)八年級(jí)(下)月考英語試卷(4月份)
- 國服中山裝的設(shè)計(jì)特點(diǎn)及含義
- TB10001-2016 鐵路路基設(shè)計(jì)規(guī)范
- 19S406建筑排水管道安裝-塑料管道
- KA-T 20.1-2024 非煤礦山建設(shè)項(xiàng)目安全設(shè)施設(shè)計(jì)編寫提綱 第1部分:金屬非金屬地下礦山建設(shè)項(xiàng)目安全設(shè)施設(shè)計(jì)編寫提綱
- 綠色生活實(shí)踐
- (2024年)硫化氫安全培訓(xùn)課件
- 《聚焦超聲治療》課件
- 2023-2024學(xué)年高一下學(xué)期第一次月考(湘教版2019)地理試題(解析版)
- 婦科炎癥介紹演示培訓(xùn)課件
- 如康家園管理制度
評(píng)論
0/150
提交評(píng)論