SDCC機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川V三_第1頁
SDCC機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川V三_第2頁
SDCC機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川V三_第3頁
SDCC機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川V三_第4頁
SDCC機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川V三_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川fuqingchuan@2015-11-213W什么是用戶畫像?為什么要做用戶畫像?如何做用戶畫像?什么是用戶畫像?什么是用戶畫像?什么是用戶畫像?數(shù)據(jù)簽化為什么需要用戶畫像?為什么需要用戶畫像?用戶用戶體驗(yàn)商戶營收提升工程師自動(dòng)化美團(tuán)運(yùn)營效率在對(duì)的時(shí)間獲取對(duì)的服務(wù)!獲取更多的潛在優(yōu)質(zhì)客戶!更精準(zhǔn)高效的活動(dòng)策略制定!數(shù)據(jù)應(yīng)用接口標(biāo)準(zhǔn)化/通用化!如何來做用戶畫像?架構(gòu)算法特征模型實(shí)踐問題架構(gòu)–系統(tǒng)概覽架構(gòu)——細(xì)節(jié)解讀MT

dmspa項(xiàng)目統(tǒng)一特征提取框架動(dòng)機(jī)1.多工程師/多個(gè)模型“自給自足”,特征分散。2.存在人力/計(jì)算資源冗余。實(shí)現(xiàn)1.特征統(tǒng)一提取/集中存儲(chǔ)——大一統(tǒng)特征庫。2.支持no-coding/配置化提特征。效果1.建模周期:

3~4周下降到1~2周。2.人力/計(jì)算冗余減少2倍(估算值)架構(gòu)——細(xì)節(jié)解讀MT

utvs系列項(xiàng)目用戶畫像統(tǒng)一接口多系統(tǒng)項(xiàng)目動(dòng)機(jī)

1.數(shù)據(jù)挖掘成果需要友好統(tǒng)一的輸出接口:

可視化+API實(shí)現(xiàn)

1.用戶標(biāo)簽體系WEB可視化

2.用戶標(biāo)簽索引/實(shí)時(shí)查詢3.報(bào)表自動(dòng)化效果1.成果推廣加速/溝通成本降低

2.傳統(tǒng)用戶問卷調(diào)查報(bào)報(bào)告周期1個(gè)月,utvs系統(tǒng)10分鐘!算法法–用戶戶特特征征需要要做做橫橫跨跨多多個(gè)個(gè)產(chǎn)產(chǎn)品品線線的的特特征征提提取?。?!算法法–用戶戶特特征征體體系系用戶特征體系一級(jí)/業(yè)務(wù)基本團(tuán)購?fù)赓u酒店電影上門……

二級(jí)/行為注冊(cè)登陸瀏覽下單搜索收藏評(píng)論消費(fèi)分享LBS……三級(jí)/時(shí)間年月日周早中晚周末工作日節(jié)假日……+每+最近自由級(jí)/可選品類品牌詞條…MxNxKxL=?特征征膨脹算法法–用戶戶特特征征算法法–用戶戶特特征征算法法–特征征與與效效果果實(shí)實(shí)例例用戶戶職職業(yè)業(yè)標(biāo)標(biāo)簽簽:學(xué)生生身身份份識(shí)識(shí)別別算法法-問題題及及常常用用模模型型實(shí)踐踐-問題題及及常常用用模模型型---實(shí)實(shí)例例模型實(shí)例一項(xiàng)目有車一族標(biāo)簽挖掘需求

1.汽車服務(wù)推廣活動(dòng)需要精準(zhǔn)圈定有車人群降低營銷成本。實(shí)現(xiàn)

1.樣本:?jiǎn)柧碚{(diào)查正樣本+隨機(jī)負(fù)樣本

2.特征:信息增益特征離散化+卡方/信息增益/互信息等特征選擇

3.模型:

try

SVM/MaxEnt/LR

=>

SVM效果1.離線評(píng)測(cè):P93%,R85%

2.線上對(duì)比:推送打開率提升3倍,下單率提升5倍!實(shí)踐踐-問題題及及常常用用模模型型---實(shí)實(shí)例例模型實(shí)例一項(xiàng)目常住地標(biāo)簽挖掘需求

1.決策支持:酒店需要分析用戶下單與地域關(guān)系,決定是否上異地推薦模塊。實(shí)現(xiàn)

1.樣本:?jiǎn)柧碚{(diào)查

2.模型:

try

LR/SVM/RF/GBDT=>

LR3.多個(gè)LR模型組合效果1.離線評(píng)測(cè):P96%,R73%

2.線上對(duì)比:新上異地模塊點(diǎn)擊率超越歷史最佳“名店搶購”1個(gè)百分點(diǎn)!實(shí)踐踐-關(guān)于于算算法法工工程程師師的的段段子子………理想中的算法工程師提出假設(shè)->收集數(shù)據(jù)->訓(xùn)練模型->解釋結(jié)果實(shí)際中的算法工程師提出假設(shè)->收集數(shù)據(jù)->預(yù)處理->預(yù)處理->訓(xùn)練模型->調(diào)試->調(diào)試->重新收集數(shù)據(jù)->預(yù)處理->收集更多數(shù)據(jù)->調(diào)試->調(diào)試->調(diào)試->…>放棄實(shí)踐踐-分享享::那那些些年年踩踩過過的的坑坑………目標(biāo)效果現(xiàn)實(shí)效果分享一數(shù)據(jù)挖掘的天花板實(shí)數(shù)據(jù)本身!ToDo:努力逼近這個(gè)效果而不是較勁!實(shí)踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享二實(shí)際應(yīng)用中特征作用遠(yuǎn)大于模型!ToDo:在深度優(yōu)化模型之前,先榨干數(shù)據(jù)特征的增益吧!特征至少帶來80%+的收益。模型LR

SVM特征瀏覽次數(shù)消費(fèi)頻次下單品類搜索分詞實(shí)踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享三關(guān)于樣本:樣本少/不均衡!ToDo:1)

SVM或TSVM,

2)

under

sampling/over

sampling/SMOTE。不均衡?實(shí)在無樣本:可以考慮隨機(jī)+規(guī)則過濾方法挑樣本!Smote要用到KNN,高維不靠譜!收集樣本才是王道!實(shí)踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享四訓(xùn)練集特征分布和自然待測(cè)數(shù)據(jù)不一致。ToDo:特征如果跟Label有直接關(guān)聯(lián)就不要用了。建模訓(xùn)/測(cè)效果好的離譜自然結(jié)果一塌糊涂實(shí)踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享五不要有把錘子,就把所有的問題當(dāng)釘子。ToDo:多了解模型的優(yōu)缺點(diǎn),選擇合適的模型!考察點(diǎn)分類/回歸/…樣本大小異常點(diǎn)敏感度效果/性能tradeoff容易過擬合?線性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論