




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)在美團(tuán)用戶畫像中的應(yīng)用付晴川fuqingchuan@2015-11-213W什么是用戶畫像?為什么要做用戶畫像?如何做用戶畫像?什么是用戶畫像?什么是用戶畫像?什么是用戶畫像?數(shù)據(jù)簽化為什么需要用戶畫像?為什么需要用戶畫像?用戶用戶體驗商戶營收提升工程師自動化美團(tuán)運營效率在對的時間獲取對的服務(wù)!獲取更多的潛在優(yōu)質(zhì)客戶!更精準(zhǔn)高效的活動策略制定!數(shù)據(jù)應(yīng)用接口標(biāo)準(zhǔn)化/通用化!如何來做用戶畫像?架構(gòu)算法特征模型實踐問題架構(gòu)–系統(tǒng)概覽架構(gòu)——細(xì)節(jié)解讀MT
dmspa項目統(tǒng)一特征提取框架動機(jī)1.多工程師/多個模型“自給自足”,特征分散。2.存在人力/計算資源冗余。實現(xiàn)1.特征統(tǒng)一提取/集中存儲——大一統(tǒng)特征庫。2.支持no-coding/配置化提特征。效果1.建模周期:
3~4周下降到1~2周。2.人力/計算冗余減少2倍(估算值)架構(gòu)——細(xì)節(jié)解讀MT
utvs系列項目用戶畫像統(tǒng)一接口多系統(tǒng)項目動機(jī)
1.數(shù)據(jù)挖掘成果需要友好統(tǒng)一的輸出接口:
可視化+API實現(xiàn)
1.用戶標(biāo)簽體系WEB可視化
2.用戶標(biāo)簽索引/實時查詢3.報表自動化效果1.成果推廣加速/溝通成本降低
2.傳統(tǒng)用戶問卷調(diào)查報報告周期1個月,utvs系統(tǒng)10分鐘!算法–用戶特征需要做橫跨跨多個產(chǎn)品品線的特征征提??!算法–用戶特征體體系用戶特征體系一級/業(yè)務(wù)基本團(tuán)購?fù)赓u酒店電影上門……
二級/行為注冊登陸瀏覽下單搜索收藏評論消費分享LBS……三級/時間年月日周早中晚周末工作日節(jié)假日……+每+最近自由級/可選品類品牌詞條…MxNxKxL=?特征膨脹算法–用戶特征算法–用戶特征算法–特征與效果果實例用戶職業(yè)標(biāo)標(biāo)簽:學(xué)生身份識識別算法-問題及常用用模型實踐-問題及常用用模型---實例模型實例一項目有車一族標(biāo)簽挖掘需求
1.汽車服務(wù)推廣活動需要精準(zhǔn)圈定有車人群降低營銷成本。實現(xiàn)
1.樣本:問卷調(diào)查正樣本+隨機(jī)負(fù)樣本
2.特征:信息增益特征離散化+卡方/信息增益/互信息等特征選擇
3.模型:
try
SVM/MaxEnt/LR
=>
SVM效果1.離線評測:P93%,R85%
2.線上對比:推送打開率提升3倍,下單率提升5倍!實踐-問題及常用用模型---實例模型實例一項目常住地標(biāo)簽挖掘需求
1.決策支持:酒店需要分析用戶下單與地域關(guān)系,決定是否上異地推薦模塊。實現(xiàn)
1.樣本:問卷調(diào)查
2.模型:
try
LR/SVM/RF/GBDT=>
LR3.多個LR模型組合效果1.離線評測:P96%,R73%
2.線上對比:新上異地模塊點擊率超越歷史最佳“名店搶購”1個百分點!實踐-關(guān)于算法工工程師的段段子……理想中的算法工程師提出假設(shè)->收集數(shù)據(jù)->訓(xùn)練模型->解釋結(jié)果實際中的算法工程師提出假設(shè)->收集數(shù)據(jù)->預(yù)處理->預(yù)處理->訓(xùn)練模型->調(diào)試->調(diào)試->重新收集數(shù)據(jù)->預(yù)處理->收集更多數(shù)據(jù)->調(diào)試->調(diào)試->調(diào)試->…>放棄實踐-分享:那些些年踩過的的坑……目標(biāo)效果現(xiàn)實效果分享一數(shù)據(jù)挖掘的天花板實數(shù)據(jù)本身!ToDo:努力逼近這個效果而不是較勁!實踐-分享:那些些年踩過的的坑……分享二實際應(yīng)用中特征作用遠(yuǎn)大于模型!ToDo:在深度優(yōu)化模型之前,先榨干數(shù)據(jù)特征的增益吧!特征至少帶來80%+的收益。模型LR
SVM特征瀏覽次數(shù)消費頻次下單品類搜索分詞實踐-分享:那些些年踩過的的坑……分享三關(guān)于樣本:樣本少/不均衡!ToDo:1)
SVM或TSVM,
2)
under
sampling/over
sampling/SMOTE。不均衡?實在無樣本:可以考慮隨機(jī)+規(guī)則過濾方法挑樣本!Smote要用到KNN,高維不靠譜!收集樣本才是王道!實踐-分享:那些些年踩過的的坑……分享四訓(xùn)練集特征分布和自然待測數(shù)據(jù)不一致。ToDo:特征如果跟Label有直接關(guān)聯(lián)就不要用了。建模訓(xùn)/測效果好的離譜自然結(jié)果一塌糊涂實踐-分享:那些些年踩過的的坑……分享五不要有把錘子,就把所有的問題當(dāng)釘子。ToDo:多了解模型的優(yōu)缺點,選擇合適的模型!考察點分類/回歸/…樣本大小異常點敏感度效果/性能tradeoff容易過擬合?線性/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年濟(jì)寧學(xué)院人才招聘考試真題
- 買車防坑合同范本
- 二零二五年度租賃房屋安全保障與維修責(zé)任協(xié)議
- 二零二五年度數(shù)據(jù)安全與隱私保護(hù)法律服務(wù)合同
- 中國餐飲業(yè)連鎖行業(yè)市場深度研究及投資戰(zhàn)略規(guī)劃報告
- 會展活動項目合同范本
- 2025年度外墻保溫體板綠色認(rèn)證與市場拓展合同
- 2025年度健康醫(yī)療產(chǎn)業(yè)投資合作協(xié)議書范文
- 二零二五年度生物科技合作項目保密合同
- 三人合作建廠協(xié)議合同范本
- 亞??谱o(hù)理建設(shè)思路
- 500-3000總噸船舶大副培訓(xùn)大綱(2021版)
- 公務(wù)員2019年國考《申論》真題及答案(地市級)
- 輪系獲獎?wù)n件
- 小學(xué)三年級下冊體育教案
- 【《蘇泊爾公司存貨管理的優(yōu)化建議分析》13000字論文】
- 2024年車載SoC發(fā)展趨勢及TOP10分析報告-2024-09-零部件
- 伽馬數(shù)據(jù):2024年中國游戲產(chǎn)業(yè)趨勢及潛力分析報告
- 北師大版八年級生物下冊全冊課件(2024年春季版)
- 高一英語完形填空專項訓(xùn)練100(附答案)及解析
- 機(jī)房基礎(chǔ)設(shè)施運行維護(hù)管理標(biāo)準(zhǔn)規(guī)范
評論
0/150
提交評論