版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、外文:IntroductiontoRecommenderSystemApproachesofCollaborativeFiltering:NearestNeighborhoodandMatrixFactorization“Weareleavingtheageofinformationandenteringtheageofrecommendation.”Likemanymachinelearningtechniques,arecommendersystemmakespredictionbasedonusershistoricalbehaviors.Specifically,itstopredic
2、tuserpreferenceforasetofitemsbasedonpastexperience.Tobuildarecommendersystem,themosttwopopularapproachesareContent-basedandCollaborativeFiltering.Content-basedapproachrequiresagoodamountofinformationofitemsownfeatures,ratherthanusingusersinteractionsandfeedbacks.Forexample,itcanbemovieattributessuch
3、asgenre,year,director,actoretc.,ortextualcontentofarticlesthatcanextractedbyapplyingNaturalLanguageProcessing.CollaborativeFiltering,ontheotherhand,doesntneedanythingelseexceptusershistoricalpreferenceonasetofitems.Becauseitsbasedonhistoricaldata,thecoreassumptionhereisthattheuserswhohaveagreedinthe
4、pasttendtoalsoagreeinthefuture.Intermsofuserpreference,itusuallyexpressedbytwocategories.ExplicitRating,isarategivenbyausertoanitemonaslidingscale,like5starsforTitanic.Thisisthemostdirectfeedbackfromuserstoshowhowmuchtheylikeanitem.ImplicitRating,suggestsuserspreferenceindirectly,suchaspageviews,cli
5、cks,purchaserecords,whetherornotlistentoamusictrack,andsoon.Inthisarticle,Iwilltakeacloselookatcollaborativefilteringthatisatraditionalandpowerfultoolforrecommendersystems.NearestNeighborhoodThestandardmethodofCollaborativeFilteringisknownasNearestNeighborhoodalgorithm.ThereareuserbasedCFanditem-bas
6、edCF.LetsfirstlooUater-basedCF.Wehaveannmmatrixofratings,withuseru?i=1,.nanditemp?,j=1,-m.Nowwewanttopredicttheratingr?iftargetuserididnotwatch/rateanitemj.Theprocessistocalculatethesimilaritiesbetweentargetuseriandallotherusers,selectthetopXsimilarusers,andtaketheweightedaverageofratingsfromtheseXu
7、serswithsimilaritiesasweights.SimilariesiUj,_“numberofratingsWhiledifferentpeoplemayhavedifferentbaselineswhengivingratings,somepeopletendtogivehighscoresgenerally,someareprettystricteventhoughtheyaresatisfiedwithitems.Toavoidthisbias,wecansubtracteachusersaverageratingofatemswhencomputingweightedav
8、erage,andadditbackfortargetuser,shownasbelow.Similanes(uh心)(r燈一)3=0+numberofratingsTwowaystocalculatesimilarityarePearsonCorrelationandCosineSimilarity.2(%一衣)(%一X)PearsonCorrelation:Sim/movie-latentfeaturematrix.2isanrxrdiagonalmatrixcontainingthesingularvaluesoforiginalmatrix,simplyrepresentinghowi
9、mportantaspecificfeatureistopredictuserpreference.R=UZVTUWM,EGIRrxVeIRrxmTosortthevaluesof2bydecreasingabsolutevalueandtruncatematrix2tofirstkdimensions(ksingularvalues),wecanreconstructthematrixasmatrixA.TheselectionofkshouldmakesurethatAisabletocapturethemostofvariancewithintheoriginalmatrixR,soth
10、atAistheapproximationofR,A弋R.ThedifferencebetweenAandRistheerrorthatisexpectedtobeminimized.ThisisexactlythethoughtofPrincipleComponentAnalysis.WhenmatrixRisdense,UandVcouldbeeasilyfactorizedanalytically.However,amatrixofmovieratingsissupersparse.Althoughtherearesomeimputationmethodstofillinmissingv
11、alues,wewillturntoaprogrammingapproachtojustlivewiththosemissingvaluesandfindfactormatricesUandV.InsteadoffactorizingRviaSVD,wearetryingfindUandVdirectlywiththegoalthatwhenUandVmultipliedbacktogethertheoutputmatrixRistheclosestapproximationofRandnomoreasparsematrix.Thisnumericalapproximationisusuall
12、yachievedwithNon-NegativeMatrixFactorizationforrecommendersystemssincethereisnonegativevaluesinratings.Seetheformulabelow.Lookingatthepredictedratingforspecificuseranditem,itemiisnotedasavectorq?anduseruisnotedasavectorp?suchthatthedotproductofthesetwovectorsisthepredictedratingforuseruonitemi.Thisv
13、alueispresentedinthematrixRatrowuandcolumni.PredictedRatings:r:。=RHowdowefindoptimalq?andp?Likemostofmachinelearningtask,alossfunctionisdefinedtominimizethecostoferrors.min一浦+小瓦II?+帥iP)MJr?isthetrueratingsfromoriginaluser-itemmatrix.OptimizationprocessistofindtheoptimalmatrixPcomposedbyvectorp?andma
14、trixQcomposedbyvectorq?inordertominimizethesumsquareerrorbetweenpredictedratingsr?andthetrueratingsr?Also,L2regularizationhasbeenaddedtopreventoverfittingofuseranditemvectors.Itsalsoquitecommontoaddbiastermwhichusuallyhas3majorcomponents:averageratingofallitems以,averageratingofitemiminus?),以(notedas
15、baverageratinggivenbyuseruminusu(notedasb?.min口同上1f也2(入一工人+*+幾+加)+帆儼+右+層+如)OptimizationAfewoptimizationalgorithmshavebeenpopulartosolveNon-NegativeFactorization.AlternativeLeastSquareisoneofthem.Sincethelossfunctionisnon-convexinthiscase,theresnowaytoreachaglobalminimum,whileitstillcanreachagreatapp
16、roximationbyfindinglocalminimums.AlternativeLeastSquareistoholduserfactormatrixconstant,adjustitemfactormatrixbytakingderivativesoflossfunctionandsettingitequalto0,andthensetitemfactormatrixconstantwhileadjustinguserfactormatrix.Repeattheprocessbyswitchingandadjustingmatricesbackandforthuntilconverg
17、ence.IfyouapplyScikit-learnNMFmodel,youwillseeALSisthedefaultsolvertouse,whichisalsocalledCoordinateDescent.PysparkalsooffersprettyneatdecompositionpackagesthatprovidesmoretuningflexibilityofALSitself.SomeThoughtsCollaborativeFilteringprovidesstrongpredictivepowerforrecommendersystems,andrequiresthe
18、leastinformationatthesametime.However,ithasafewlimitationsinsomeparticularsituations.First,theunderlyingtastesexpressedbylatentfeaturesareactuallynotinterpretablebecausethereisnocontent-relatedpropertiesofmetadata.Formovieexample,itdoesntnecessarilytobegenrelikeSci-Fiinmyexample.Itcanbehowmotivation
19、althesoundtrackis,howgoodtheplotis,andsoon.CollaborativeFilteringislackoftransparencyandexplainabilityofthislevelofinformation.Ontheotherhand,CollaborativeFilteringisfacedwithcoldstart.Whenanewitemcomingin,untilithastoberatedbysubstantialnumberofusers,themodelisnotabletomakeanypersonalizedrecommenda
20、tions.Similarly,foritemsfromthetailthatdidntgettoomuchdata,themodeltendstogivelessweightonthemandhavepopularitybiasbyrecommendingmorepopularitems.Itsusuallyagoodideatohaveensemblealgorithmstobuildamorecomprehensivemachinelearningmodelsuchascombiningcontent-basedfilteringbyaddingsomedimensionsofkeywo
21、rdsthatareexplainable,butweshouldalwaysconsiderthetradeoffbetweenmodel/computationalcomplexityandtheeffectivenessofperformanceimprovement.中文翻譯推薦系統(tǒng)介紹協(xié)同過濾的方法:最近鄰域和矩陣分解我們正在離開信息時代,而進入推薦時代。”像許多機器學習技術(shù)一樣,推薦系統(tǒng)根據(jù)用戶的歷史行為進行預(yù)測。具體來說,是根據(jù)過去的經(jīng)驗來預(yù)測用戶對一組商品的偏好。要構(gòu)建推薦系統(tǒng),最流行的兩種方法是基于內(nèi)容的過濾和協(xié)作過濾?;趦?nèi)容的方法需要大量項目自身功能的信息,而不是使用用戶
22、的交互和反饋。例如,它可以是電影屬性(例如流派,年份,導演,演員等)或可以通過應(yīng)用自然語言處理提取的文章的文本內(nèi)容。另一方面,協(xié)作過濾除了用戶對一組項目的歷史偏好之外,不需要任何其他操作。因為它是基于歷史數(shù)據(jù)的,所以這里的核心假設(shè)是,過去已經(jīng)同意的用戶將來也會傾向于也同意。就用戶偏好而言,它通常由兩類表示。明確評分,是用戶按滑動比例對某項商品的價格,例如泰坦尼克號的評分為5星。這是用戶最直接的反饋,表明他們對商品的喜愛程度。隱含評價,間接建議用戶偏好,例如頁面瀏覽量,點擊次數(shù),購買記錄,是否收聽音樂曲目等等。在本文中,我將仔細研究協(xié)作過濾,它是推薦系統(tǒng)的傳統(tǒng)且功能強大的工具。最近的鄰居協(xié)作過濾
23、的標準方法稱為最近鄰算法”。有基于用戶的CF和基于項目的CF。讓我們先來看看基于用戶的CF。我們有一個nXm的評分矩陣,用戶u?,i=1,.n,項目p?,j=1,.m?,F(xiàn)在,如果目標用戶i沒有對項目j進行觀看/評分,我們現(xiàn)在要預(yù)測評分r?o該過程將計算目標用戶i與所有其他用戶之間的相似度,選擇排名靠前的X個相似用戶,并將來自這X個具有相似性的用戶的評分的加權(quán)平均值作為權(quán)重。Sinilaries(uit也),燈k為二Zrnumberofratings盡管不同的人給由評分時可能會有不同的基準,但是有些人通常會給由高分,有些人即使對項目感到滿意也很嚴格。為了避免這種偏差,我們可以在計算加權(quán)平均值時減
24、去每個用戶對所有項目的平均評分,然后將其加回到目標用戶身上,如下所示。WSmilanes(Ui,嘮(陶-4)=?-+numberofratings一計算相似度的兩種方法是皮爾森相關(guān)和余弦相似度。(%一門)1%3PearsonCorrelation:5加(,妣)=./(為一一S物一門:mErijrkf,.r:-r;=lCosineSimilarity:Sim(%,uQ-=-IfJIftlfmmJ斗遇4VJ=ij=i基本上,該想法是找到與您的目標用戶(最接近的鄰居)最相似的用戶,并權(quán)衡他們對某項的評價,以此作為對目標用戶的評價。在不了解商品和用戶本身的情況下,我們認為兩個用戶在給同一個商品相似的評
25、分時是相似的。類似地,對于基于項目的CF,我們說兩個項目在收到來自同一用戶的相似評分時是相似的。然后,我們將通過計算來自該用戶的大多數(shù)X個類似商品的評分的加權(quán)平均值,來預(yù)測該商品的目標用戶。基于項目的CF的一個關(guān)鍵優(yōu)勢是穩(wěn)定性,即與人類的口味不同,給定項目的評級不會隨著時間的推移而發(fā)生顯著變化。此方法有很多限制。當附近沒有人對您要為目標用戶預(yù)測的商品進行評分時,它不能很好地處理稀疏性。而且,隨著用戶和產(chǎn)品數(shù)量的增長,它的計算效率也不高。矩陣分解由于稀疏性和可伸縮性是標準CF方法的兩個最大挑戰(zhàn),因此由現(xiàn)了一種更高級的方法,該方法將原始稀疏矩陣分解為具有潛在因子/特征且稀疏性較低的低維矩陣。那就是
26、矩陣分解。除了解決稀疏性和可伸縮性問題之外,還有一個直觀的解釋,說明為什么我們需要低維矩陣來表示用戶的偏好。用戶對電影阿凡達,重力和盜夢空間給予了很高的評價。它們不一定是3個獨立的意見,而是表明該用戶可能更喜歡科幻電影,并且該用戶可能想要更多的科幻電影。與特定電影不同,潛在功能由更高級別的屬性表示,在這種情況下,科幻類別是潛在功能之一。矩陣分解最終給我們的是用戶與一組潛在特征對齊的程度,以及一部電影在這組潛在特征中的適應(yīng)程度。與標準最近鄰區(qū)相比,它的優(yōu)勢在于,即使兩個用戶未對任何一部電影進行評級,但如果他們共享相似的基本口味(又是潛在特征),仍然有可能找到它們之間的相似性。要了解矩陣如何分解,
27、首先要了解的是奇異值分解(SVD)o基于線性代數(shù),可以將任何實矩陣R分解為3個矩陣U,2和Vo以電影示例為例,U是nxr用戶潛伏特征矩陣,V是命r電影潛伏特征矩陣。2是一個rM對角矩陣,包含原始矩陣的奇異值,僅表示特定功能對預(yù)測用戶偏好的重要性。R=LFLVtSeIRryVeIRrxm為了通過減少絕對值對2的值進行排序并將矩陣2截斷為前k個維(k個奇異值),我們可以將矩陣重構(gòu)為矩陣Ao選擇k應(yīng)該確保A能夠捕獲最大的方差在原始矩陣R內(nèi),A是R的近似值,A=R。A和R之間的差是期望最小化的誤差。這正是主成分分析的思想。當矩陣R是致密的時,U和V可以很容易地解析分解。但是,電影分級矩陣超級稀疏。盡管存在一些填補缺失值的插補方法,但我們將轉(zhuǎn)向一種編程方法,以僅使用那些缺失值并找到因子矩陣U和Vo我們嘗試通過以下方法直接找到U和V,而不是通過SVD對R進行因子分解。目的是當U和V相乘時,輸由矩陣R是R的最近似值,而不再是稀疏矩陣。對于推薦系統(tǒng),通常使用非負矩陣分解實現(xiàn)此數(shù)值近似,因為評級中沒有負值。請參閱下面的公式。查看特定用戶和項目的預(yù)測評級,將項目i記為向量q?將用戶u標記為向量p?,以使這兩個向量的點積為用戶u對項目i的預(yù)測評級。該值顯示在矩陣R,中的第u行和第i歹人Pred
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《培養(yǎng)契約精神》課件
- 養(yǎng)老院老人物品寄存制度
- 養(yǎng)老院老人緊急救援人員考核獎懲制度
- 向量的數(shù)量積課件
- 房屋封陽臺協(xié)議書(2篇)
- 《廣汽鄉(xiāng)鎮(zhèn)巡展》課件
- 2025年威海c1貨運從業(yè)資格證模擬考試
- 《學會與父母溝通》課件-圖
- 2024年度物業(yè)維修基金管理合同示范3篇
- 2025年遵義貨運資格證培訓考試題
- GB/T 20774-2006手用1∶50錐度銷子鉸刀
- 餐廳店長工作職責流程及職責
- 最新-白內(nèi)障科普講座課件
- 《男女導尿術(shù)》課件共
- 高中部年級組長崗位職責
- 微整面部美學設(shè)計面部風水設(shè)計課件
- 2023版初中化學跨學科實踐活動(化學)
- 宿舍衛(wèi)生安全情況檢查表
- 建設(shè)集團公文格式平行文模板
- 在逃人員登記樣表
- 稻田養(yǎng)蟹技術(shù)課件
評論
0/150
提交評論