推薦策略產(chǎn)品經(jīng)理必讀系列-第二講推薦系統(tǒng)的架構(gòu)_第1頁(yè)
推薦策略產(chǎn)品經(jīng)理必讀系列-第二講推薦系統(tǒng)的架構(gòu)_第2頁(yè)
推薦策略產(chǎn)品經(jīng)理必讀系列-第二講推薦系統(tǒng)的架構(gòu)_第3頁(yè)
推薦策略產(chǎn)品經(jīng)理必讀系列-第二講推薦系統(tǒng)的架構(gòu)_第4頁(yè)
推薦策略產(chǎn)品經(jīng)理必讀系列-第二講推薦系統(tǒng)的架構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、推薦策略產(chǎn)品經(jīng)理必讀系列第二講推薦系統(tǒng)的架構(gòu)上一篇為大家介紹了作為一個(gè)推薦策略產(chǎn)品必須了解的行業(yè)里發(fā)生的大事以及行業(yè)整體未來(lái)的趨勢(shì),本篇就為大家詳細(xì)介紹推薦系統(tǒng)的架構(gòu),推薦系統(tǒng)是如何把我們感興趣的物料推薦到我們面前的。一、整體架構(gòu)將推薦系統(tǒng)架構(gòu)里面主要的部分整體如上圖,用戶打開(kāi)APP看到為自己推薦的物料,正常都是需要經(jīng)過(guò)5-6個(gè)環(huán)節(jié)。常見(jiàn)的流程從建立物料索引,再到召回、粗排、精排、重排到過(guò)濾層,最終展示在了APP前段,為用戶推薦了感興趣的物料。二、物料索引APP里有哪些物料是可以推薦給用戶,會(huì)有一個(gè)總的物料池,物料池本身存儲(chǔ)在數(shù)據(jù)庫(kù)中。同時(shí)為了查詢(xún)時(shí)更加方便快捷,我們需要提前構(gòu)建好物料索引。尤

2、其是很多召回路是基于一些標(biāo)簽進(jìn)行召回的,更加需要提前構(gòu)建好倒排索引。物料的清洗和索引的構(gòu)建是推薦系統(tǒng)的第一步基礎(chǔ)工作。三、召回層構(gòu)建完物料索引后,推薦系統(tǒng)是如何挑選出用戶感興趣的物料了。推薦算法發(fā)展到現(xiàn)在,我們可以稱(chēng)之為4.0時(shí)代。4.0時(shí)代的推薦算法都是以預(yù)估用戶的點(diǎn)擊率(CTR)為核心,基于用戶對(duì)于每個(gè)物料的預(yù)估點(diǎn)擊率(Predicted-CTR)來(lái)進(jìn)行排序,按照Predicted-CTR值進(jìn)行倒排。以上介紹的是最理想的方式,但是實(shí)際卻無(wú)法執(zhí)行也沒(méi)必要。原因一:無(wú)法實(shí)現(xiàn)物料庫(kù)的量級(jí)太大,比如像淘寶這種平臺(tái)物料幾十億商品,如果用戶的每次請(qǐng)求都去預(yù)估幾十億商品的Predicted-CTR,需要

3、大量的機(jī)器資源,同時(shí)時(shí)延會(huì)非常高。大家打開(kāi)淘寶首頁(yè)可能需要幾十個(gè)小時(shí),且不一定能加載出來(lái)。原因二:沒(méi)有必要幾十億的商品,有很多商品是非常冷門(mén)商品,99%以上的商品和用戶毫無(wú)關(guān)聯(lián),完全沒(méi)有必要如此精細(xì)化去預(yù)估用戶對(duì)于幾十億商品的興趣度。所以推薦系統(tǒng)演變成先通過(guò)召回層初步篩選出用戶可能感興趣的一些物料,比如800個(gè)。然后再進(jìn)入粗排和精排,其他幾十億的物料直接在召回階段就被過(guò)濾了。這樣的架構(gòu)設(shè)計(jì)大大降低了推薦系統(tǒng)的計(jì)算壓力,同時(shí)也不影響推薦系統(tǒng)的整體效果。而召回階段,市面上最先進(jìn)的模式就是針對(duì)不同的用戶進(jìn)行分層,然后不同層級(jí)的用戶使用的召回路數(shù)不一樣,核心都是多路召回,每一路召回返回的物料個(gè)數(shù)以及對(duì)

4、應(yīng)的權(quán)重都是和用戶本身的分層有很大關(guān)系,實(shí)現(xiàn)非常精細(xì)化的用戶和召回路數(shù)的管理。常見(jiàn)的召回方法有基于熱銷(xiāo)商品的召回、基于歷史高點(diǎn)擊商品的召回、用戶歷史看過(guò)商品的召回,還有一些常見(jiàn)的協(xié)同過(guò)濾算法比如Item-CF、User-CF。關(guān)于召回階段常用的策略和算法后面會(huì)有專(zhuān)門(mén)的文章進(jìn)行講解。四、粗排層大家可以看到召回階段會(huì)有非常多的召回策略,那我們?nèi)绾螌⑦@些各路召回的商品匯總在一起進(jìn)行一個(gè)統(tǒng)一排序了。比如熱銷(xiāo)路的召回,召回了Top 100的商品;歷史高點(diǎn)擊的召回,同樣召回Top 100的商品。這兩路召回的商品可能還會(huì)有重疊的。在召回層里,每一路的召回都需要將物料的分?jǐn)?shù)進(jìn)行歸一化。比如說(shuō)熱銷(xiāo)路的召回,如何

5、召回Top 100的商品,首先需要計(jì)算每一個(gè)商品的熱銷(xiāo)分?jǐn)?shù),然后取Top 100的商品。歷史高點(diǎn)擊的召回路也是一樣,并且每一路的分?jǐn)?shù)都需要?dú)w到【0,1】之間,這樣各個(gè)路之間才能比較。同時(shí)不同場(chǎng)景下每一路召回的重要性也完全不一樣,可以再設(shè)置一個(gè)對(duì)應(yīng)的系數(shù)。比如熱銷(xiāo)路召回為0.5,歷史高點(diǎn)擊路召回為0.7,假設(shè)商品A在熱銷(xiāo)路召回分?jǐn)?shù)為0.8,歷史高點(diǎn)擊路召回分?jǐn)?shù)為0.3,那么最終這個(gè)商品的總召回分?jǐn)?shù)為:0.5 X 0.8 + 0.7 X 0.3 = 0.61。粗排層就需要將每一個(gè)召回的商品進(jìn)行上述計(jì)算方式進(jìn)行處理后,匯總得到一個(gè)總的List,然后選擇Top K的商品給到精排層。五、精排層精排層的核

6、心任務(wù)就是預(yù)估用戶對(duì)于召回層返回的Top K商品的Predicted-CTR。召回和粗排只是選擇出了用戶可能感興趣的物料,但是每一個(gè)物料具體的預(yù)估CTR是多少并不知道。精排層就需要基于用戶歷史點(diǎn)擊過(guò)的物料作為正樣本,曝光未點(diǎn)擊的物料作為負(fù)樣本,然后構(gòu)建CTR預(yù)估模型,預(yù)估用戶對(duì)于每一個(gè)物料的Predicted-CTR。在精排層核心要做的幾件事情:數(shù)據(jù)清洗構(gòu)建正負(fù)樣本,選擇合適的排序算法,構(gòu)建特征工程、模型訓(xùn)練與效果評(píng)估。最終基于精排模型預(yù)估出的CTR對(duì)于召回的物料再重新進(jìn)行一次排序。精排模型的預(yù)估是整個(gè)推薦系統(tǒng)中耗時(shí)最多的,因?yàn)樘卣魇謴?fù)雜,特征維度很多。如果針對(duì)幾十億物料全部進(jìn)行CTR預(yù)估,

7、系統(tǒng)直接崩潰,這也是需要先進(jìn)行召回的原因。六、重排層那是不是精排過(guò)的物料,直接按照精排后的順序直接展示在了APP前端了。很多時(shí)候推薦系統(tǒng)仍然有一些其他業(yè)務(wù)規(guī)則進(jìn)行干預(yù)。比如在電商推薦系統(tǒng)里面,就會(huì)有以下的一些策略:1. 類(lèi)目打散對(duì)于給用戶推薦的商品如果類(lèi)目集中度過(guò)高,會(huì)進(jìn)行一定程度的打散。比如精排模型給用戶返回的前10個(gè)商品全部都是鞋子,可能該用戶偏好鞋子,但前10個(gè)商品全部是鞋子此種集中度還是過(guò)高了,重排層就會(huì)將后面其他類(lèi)目的商品插入到這10個(gè)商品中。具體按照類(lèi)目打散的規(guī)則每家不一樣,核心是基于業(yè)務(wù)場(chǎng)景。打散不是目的,目的是為了提升推薦系統(tǒng)的點(diǎn)擊率。2. 不同類(lèi)型物料混合比如淘寶,淘寶推薦場(chǎng)

8、景里面有的內(nèi)容類(lèi)型有:店鋪、活動(dòng)、直播、商品、視頻等等。那這些不同類(lèi)型內(nèi)容之間如何進(jìn)行混合。能否可以出現(xiàn)連續(xù)4個(gè)全部都是直播,或者4個(gè)全部都是視頻。為了降低用戶的審美疲勞,很多時(shí)候針對(duì)不同類(lèi)型的內(nèi)容推薦系統(tǒng)也會(huì)進(jìn)行重新打散。但同樣打散不是目的,目的是為了提升推薦系統(tǒng)的點(diǎn)擊率。3. 全局最優(yōu)重排層還有一個(gè)核心的邏輯就是實(shí)現(xiàn)全局最優(yōu)。精排層是預(yù)估用戶對(duì)于單個(gè)物料的CTR,這是一種局部最優(yōu)的思想。但是用戶在瀏覽時(shí)正常都會(huì)一次性瀏覽多個(gè),怎么樣的物料組合可以實(shí)現(xiàn)全局最優(yōu)而不是局部最優(yōu)。同樣4個(gè)坑位,有可能精排排序在1,3,5,7的四個(gè)物料組合比精排排序在1,2,3,4的四個(gè)物料組合整體CTR更高。總的

9、來(lái)說(shuō)重排層是推薦系統(tǒng)最后一道策略和模型的調(diào)整了。七、過(guò)濾層重排層調(diào)整完的物料順序還會(huì)再進(jìn)行一些業(yè)務(wù)規(guī)則和策略的干預(yù),比如電商領(lǐng)域會(huì)進(jìn)行以下的過(guò)濾:1. 未上架過(guò)濾當(dāng)前已經(jīng)上架的商品不展示在APP前端。2. 缺貨過(guò)濾當(dāng)前已經(jīng)缺貨的商品不展示在APP前端。包括還有同圖過(guò)濾等等策略。過(guò)濾層很多時(shí)候我們會(huì)做在了粗排和精排之間,確保進(jìn)入到精排的物料后續(xù)都是能夠直接在APP前端展示的,這樣后續(xù)的精排和重排層的價(jià)值才更高。原本重排挑選出的最優(yōu)組合,結(jié)果全部在過(guò)濾層被過(guò)濾了,那么整體推薦系統(tǒng)的效果就會(huì)大打折扣。八、APP前端經(jīng)過(guò)過(guò)濾層的物料順序是不會(huì)再發(fā)生變化,但還是有最后一步工作要做,而很多推薦系統(tǒng)的文章都沒(méi)有介紹。就是內(nèi)容樣式和創(chuàng)意。比如電商平臺(tái)里面同樣都是店鋪的內(nèi)容,到底應(yīng)該展示哪一種樣式。大家打開(kāi)淘寶首頁(yè)經(jīng)常會(huì)覺(jué)得花里胡哨,就是因?yàn)閮?nèi)容

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論