京東推薦系統(tǒng)實踐_第1頁
京東推薦系統(tǒng)實踐_第2頁
京東推薦系統(tǒng)實踐_第3頁
京東推薦系統(tǒng)實踐_第4頁
京東推薦系統(tǒng)實踐_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、京東推薦系統(tǒng)實踐打造千人千面的個性化推薦引擎目推薦系統(tǒng)1234京東推薦產(chǎn)品及架構(gòu)通用模型的應用離線 CTR 預測實例實驗與監(jiān)控目推薦系統(tǒng)1234京東推薦產(chǎn)品及架構(gòu)通用模型的應用離線 CTR 預測實例實驗與監(jiān)控京東推薦產(chǎn)品 80+ 推薦產(chǎn)品,包括移動端和 Web 端 20+ 推薦服務,支撐 EDM、廣告、微信端等 遍布用戶網(wǎng)購的各個環(huán)節(jié)推薦系統(tǒng)的價值 挖掘用戶潛在購買需求 縮短用戶到商品的距離 用戶需求不明確時提供參考 滿足用戶的好奇心推薦產(chǎn)品截圖示例不同位置的推薦產(chǎn)品定位不同 單品頁:購買意圖 過渡頁:提高客單價 購物車頁:購物決策 無結(jié)果頁:減少跳出率 訂單完成頁:交叉銷售 關(guān)注推薦:提高轉(zhuǎn)

2、化 我的京東推薦:提高忠誠度 首頁猜你喜歡:吸引用戶京東推薦系統(tǒng)架構(gòu)京東推薦算法優(yōu)化方向 以數(shù)據(jù)分析為工具,提升數(shù)據(jù)的質(zhì)量和覆蓋度,增強對業(yè)務的理解(25%) 測試不同算法在不同數(shù)據(jù)源的效果,提高召回模型的質(zhì)量,增加結(jié)果辨識度(50%) 以用戶反饋為依據(jù),融合不同類型、不同維度據(jù)源,對推薦結(jié)果重排序(15%) 增加數(shù)據(jù)的更新頻率(5%) 其他(5%)推薦系統(tǒng)效果全景圖注:出于公司數(shù)據(jù)發(fā)布安全考慮,已對品類訂單占比數(shù)據(jù)做了隨機變換,僅為演示所用目推薦系統(tǒng)1234京東推薦產(chǎn)品及架構(gòu)通用模型的應用離線 CTR 預測實例實驗與監(jiān)控京東對推薦數(shù)據(jù)的理解用戶行為12345瀏覽點擊 普通點擊 搜索點擊加入購

3、物車(或關(guān)注)購買 訂單 用戶評分基于內(nèi)容 標題 擴展屬性 評論 描述 .典型推薦系統(tǒng)技術(shù)按照數(shù)據(jù)的分類: 協(xié)同過濾、內(nèi)容過濾、社會化過濾按照模型的分類: 基于近鄰的模型、矩陣分解模型、圖模型協(xié)同過濾 I用戶和商品的共現(xiàn)陣:IU1,0,0,0,0,1,0,1,0,0,0,0,1,1,0,0,0,1,0,0,0,0,1,0,0,0,1,0,1,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,1,對于商品 (item) 向量至少有 10+ 的距離計算公式來計算商品間的距離,一般有: Jaccard 距離 (修正)cosine

4、距離 Manhattan 距離 Chebychev 距離 歐 (閔) 式距離 Pearson 相關(guān)系數(shù) Spearman 相關(guān)系數(shù) Kendall 相關(guān)系數(shù) .協(xié)同過濾 II以及不太常見的: simrank Mahalanobis 距離 基于條件概率的 interest Log likelihood ratio Mutual information支持類模型 離線推薦 CTR 預測模型 用戶購買力模型 周期購買商品識別模型(商品識別 + 購買周期) 不良 商品識別模型 基于圖書內(nèi)容的 LDA 模型 用戶行為加權(quán)組合的 SVD、SVD+關(guān)于冷啟動對于“瓜子”我們應該推薦什么12345678910

5、11121314151591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1590_ 鍋巴1590_ 薯片1590_ 花生1591_ 開心果1591_ 花生1591_ 西瓜子1591_ 腰果1595_ 餅干1590_ 豆腐干1592_ 牛肉干1594_ 口香糖1591_ 炒貨1590_ 肉松餅1671_ 衛(wèi)生紙1593_ 大棗1.0000.5960.4430.3180.2740.2650.2350.2300.2

6、270.2260.2060.2040.2030.1720.165周期類商品(部分)作弊和反作弊 用戶行為的復雜 過度 SEO 直接作弊策略: 異常行為降權(quán) 異常用戶直接過濾 點擊流規(guī)則過濾目推薦系統(tǒng)1234京東推薦產(chǎn)品及架構(gòu)通用模型的應用離線 CTR 預測實例實驗與監(jiān)控推薦的 CTR 預測 關(guān)聯(lián)推薦的情境下,根據(jù)給定主商品推出的推薦商品,在用戶瀏覽后被點擊的概率。 可以理解為條件概率 P(Y = 1|X)為什么要預測推薦商品的 CTR?123調(diào)整推薦商品的排序,推斷潛在模式多模型融合的方式發(fā)現(xiàn)影響推薦商品點擊率的重要因素特征表征方法用目標問題所在的特定領(lǐng)域知識或者自動化方法來生成、提取、刪減或

7、組合變化來得到特征。領(lǐng)域經(jīng)驗法 條件關(guān)系(=,!=) 幾何運算 分段及比例 其他自動化技術(shù) PCA, ICA, NMF Linear DiscriminantAnalysis Collaborative Filtering AutoEncoder最優(yōu)子集(Feature selection)的優(yōu)點 提高模型的可解釋性 減少訓練和預測的時間 有效降低過擬合,提升模型的適應能力模型選用的是基于 L1 + L2 正則的 elastic net最優(yōu)子集(Feature selection)的優(yōu)點 提高模型的可解釋性 減少訓練和預測的時間 有效降低過擬合,提升模型的適應能力模型選用的是基于 L1 + L

8、2 正則的 elastic net如何對商品屬性進行描述對商品的形容:品牌詞、中心詞、修飾詞;類目屬性、擴展屬性;基于用戶行為的在商品上的反映: 銷量、PageRank、評論數(shù)、好評度、瀏覽深度 商品的標簽(如時間標簽、地域標簽、性別標簽等)對于商品標簽(以時間差異構(gòu)建的時間 feature 為例):假設(shè) 9:00 - 19:00 為白天(D),19:00 - 9:00 為夜間(N),則在這兩個時間段內(nèi)的用戶購買則構(gòu)成了該商品的時間標簽,該商品標簽的一般性定義為:uDuDMu,i +Mu,iuNMu,i uDuDMu +MuuNMu商品的組合屬性基于單一屬性組合產(chǎn)生的屬性,有以下三種: 相同類

9、屬性的組合:如時序上的銷量(趨勢系數(shù)),銷量的方差 不同類屬性的組合:如商品的展示和點擊組合(如 CTR)、點擊和購買的組合(如 CVR) 推薦主商品和推薦品屬性的組合。比如品牌詞是否一致,價格的比值是否在一定范圍內(nèi)。推薦主商品和推薦品三級類目關(guān)系需要使用兩兩配對的 feature 表征形式。采樣策略1 vs 0部分三級類組合系數(shù)展示12345678910111213141516171819前項產(chǎn)后塑身月子裝嬰兒外出服水壺/水杯寶寶洗浴待產(chǎn)/新生待產(chǎn)/新生嬰兒鞋帽襪扭扭車寶寶零食日常護理奶瓶奶嘴嬰兒內(nèi)衣嬰兒鞋帽襪滑板車拉拉褲奶瓶奶嘴嬰兒尿褲嬰幼奶粉后項孕婦裝孕婦裝羽絨服/棉服洗衣液/皂爬行墊/

10、毯濕巾寶寶護膚防輻射服日常護理鈣鐵鋅/維生素孕媽美容驅(qū)蚊防蚊防輻射服搖鈴/床鈴日常護理嬰幼奶粉吸奶器調(diào)味品水壺/水杯權(quán)重-1.55-1.32-1.28-1.27-1.25-1.17-1.13-1.12-1.04-1.00-0.99-0.97-0.97-0.97-0.87-0.87-0.85-0.84-0.84目推薦系統(tǒng)1234京東推薦產(chǎn)品及架構(gòu)通用模型的應用離線 CTR 預測實例實驗與監(jiān)控實驗配置平臺 配置實時生效 任意百分比流量切換 可使用 random、partition by user 等策略分流 支持版本回溯 有權(quán)限管理體系實驗對比平臺監(jiān)控和報警周期監(jiān)控 按照一周為周期的推薦位指標監(jiān)控,包括 PV、Click、OrderLine 推薦位實驗級別的逐日監(jiān)控 分品類的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論