機器學(xué)習(xí)在美團:吃喝玩樂中的大數(shù)據(jù)與云計算_第1頁
機器學(xué)習(xí)在美團:吃喝玩樂中的大數(shù)據(jù)與云計算_第2頁
機器學(xué)習(xí)在美團:吃喝玩樂中的大數(shù)據(jù)與云計算_第3頁
機器學(xué)習(xí)在美團:吃喝玩樂中的大數(shù)據(jù)與云計算_第4頁
機器學(xué)習(xí)在美團:吃喝玩樂中的大數(shù)據(jù)與云計算_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、機器學(xué)習(xí)美團 吃喝玩樂中的算法問題 ?O2O行業(yè)及美團簡介 ?機器學(xué)習(xí)在用戶端的應(yīng)用 ?機器學(xué)習(xí)在商戶端的應(yīng)用 ?算法應(yīng)用八大“坑” 概要 背景 算法應(yīng)用 總結(jié) 什么是O2O? O2O (Online to Offl ine) = 本地服務(wù)(LBS) + 線上連接 通過信息流動,減少物理流動 平臺 用戶需求信息結(jié)構(gòu)化 來源:TalkingData及品途網(wǎng) 2014 O2O移動應(yīng)用行業(yè)報告 O2O行業(yè)應(yīng)用圖譜 來源:TalkingData及品途網(wǎng) 2014 O2O移動應(yīng)用行業(yè)報告 外賣 打車 電影票 頻度 門票 酒店 機票 租房 掛號美業(yè) 租車 拼車 家政 垂直 vs.水平(平臺) 什么樣的領(lǐng)域

2、有機會? 用戶獲取成本 vs. 用戶價值 滲透率 團購 買房 微信 刷牙 All That Is Solid Melts into Air. Karl Marx 貓眼電影 國內(nèi)最大的電 影分銷商 美團外賣 國內(nèi)最大的外 賣平臺 美團簡介 美團團購 國內(nèi)最大的本地生 活服務(wù)電商平臺 美團酒店 國內(nèi)第二大酒店 分銷商 消費頻度 vs 行業(yè)深度 O2O vs 網(wǎng)絡(luò)電商 共同:雙邊市場 差異:LocaEon based, 消費距離受限 O2O的特點 市場規(guī)模大、增長速度快 懶人經(jīng)濟:質(zhì)優(yōu)價廉 低價格 高品質(zhì) 低成本 高效率 低毛利 高科技 200 0 1000 800 600 400 1400 120

3、0 2010 2011 2012 2013 2014 2015e 美團網(wǎng)交易額(億元) 2014年12月:美團網(wǎng)擁有1億多活躍移動用戶, 移動端貢獻90%的交易額 80 70 60 50 40 30 20 10 0 2011 2012 2013 2014 美團移動交易占比 移動化 day:1 day:3-3.5 day:5-10 0hr 3hr 6hr 9hr 12hr 15hr 18hr 21hr 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 電影 酒店 美發(fā)/美容/美體 美食 攝影寫真 生活服務(wù) 休閑娛樂 運動健身 所有品類 分品類持券時長 60.00%

4、 4000 3500 3000 2500 2000 1500 1000 500 0 北 廣 天 福 杭 無 合 成 京 州 津 州 州 錫 肥 都 美容美發(fā) 休閑娛樂 生活服務(wù) 運動健身 攝影寫真 電影 酒店 美食 場景化、即時化 分品類持券80%距離 4500 美團持券時長及消費距離 用戶 ? 個性化 ? 場景化 ? 即時化 O2O平臺 商戶 ? 動態(tài)觸達用戶 ? 提供豐富產(chǎn)品 平臺 ? 獲取用戶/商戶 ? 匹配供給需求 傳統(tǒng)模型:邊際收益遞減 平臺模型:雙邊市場的網(wǎng)絡(luò)效應(yīng)=邊際收益遞增 =平臺價值 平臺:用戶端 吸引訪 問/再訪 ? 自然流量 ? 站外廣告 ? 主動推送 促成購 買 ? 信

5、息聚合 ? 用戶行為引導(dǎo) ? 運營拉新 提升多 次訪購 ? 搜索、瀏覽主動 引導(dǎo) ? 個性化推薦 ? 跨品類轉(zhuǎn)新 平臺:商戶端 商機發(fā)現(xiàn) ? 銷售拜訪 路線優(yōu)化 商家入住 及上單 ? 預(yù)測可能入住商戶 ? 自動寫單提高上單效率 運營 ? 風(fēng)控防刷單 ? 銷量預(yù)估 ?O2O及美團介紹 ?機器學(xué)習(xí)在用戶端的應(yīng)用 ?機器學(xué)習(xí)在商戶端的應(yīng)用 ?算法應(yīng)用八大“坑” 概要 背景 算法應(yīng)用 總結(jié) ? 運營拉新 ? 推送引導(dǎo) ? 流量轉(zhuǎn)化 用戶 ? 個性化 ? 場景化 ? 即時化 機器學(xué)習(xí)美團 ? 銷量預(yù)估 ? 電影票房預(yù)估 ? 商戶 ? 動態(tài)觸達用戶 ? 提供豐富產(chǎn)品 平臺 ? 獲取用戶/商戶 ? 匹配供給

6、需求 用戶端:運營拉新 背景:首購-留存,吸引已注冊用戶完成首購 目標(biāo):少花錢,多辦事 用戶端:運營拉新 方法:新用戶畫像 SVM分類 ? 準(zhǔn)確率:75% ? 召回率:68% 效果 ? 拉新單位成本下降35% 單位用戶營銷成本=總花銷/總新客數(shù) ? 總開支節(jié)省30% 選擇對象 ?選擇準(zhǔn) 則優(yōu)化 用戶端:推送引導(dǎo) 背景:對不活躍用戶發(fā)個性化推送消息,提升訪問及購買 目標(biāo):提高用戶轉(zhuǎn)化,減少打擾用戶 方法: 效果:有效降低了對用戶的打擾。 發(fā)出消息 ?目標(biāo):發(fā)出率 ?固定時間拉取改 為靈活推送 ?發(fā)送時機優(yōu)化, 考慮用戶的歷史 聯(lián)網(wǎng)時間,當(dāng)前 位置 發(fā)出率提高100%+ 打開消息 ?目標(biāo):打 開率

7、 ?動態(tài)文案 (todo) 打開率提高21% 瀏覽/購買 ?目標(biāo):轉(zhuǎn)化 率 ?類似推薦的 優(yōu)化方式, 提高訪購率 綜合轉(zhuǎn)化率提高94% 用戶端:流量轉(zhuǎn)化 搜索 瀏覽 推薦 意圖 強度 流量 規(guī)模 用戶偏好 用戶端:流量轉(zhuǎn)化 場景 位置 快速交互 首頁推薦 個性化數(shù)據(jù) 同義詞挖掘 專名識別 新詞識別 user profile 挖 掘 deal/poi profile 挖掘 query/deal 的 topic model 評估框架 模型訓(xùn)練 數(shù)據(jù)清洗 特征抽取 數(shù)據(jù)流 推薦和搜索框架的統(tǒng)一 搜索推薦平臺 Poil化列表瀏覽 人工規(guī)則干預(yù) CTR model 相關(guān)性模型 Query Retriev

8、al 通用數(shù)據(jù) Query補全 排序機制 Action model 業(yè)務(wù)規(guī)則 User Retrieval 關(guān)系數(shù)據(jù) 應(yīng) 用 層 排 序 層 模 型 層 準(zhǔn) 入 層 觸 發(fā) 層 數(shù) 據(jù) 層 Flume Agent Impression Log Order/Click Log Deal DB Control Service Model 1 Model 2 API Online train feature Labeled Data Offline train 服務(wù)架構(gòu)演進 feature monitor 高度可配置 LR SVM API Command 應(yīng) 用 層 模 型 層 選特 擇征 一特 化

9、征 歸 Chi squared Standard Topic Model GBDT Mutual InformaEon MinMax 分級日志 模型評估 基于spark的離線訓(xùn)練平臺 美團搜索 歷史查詢詞 查詢補全 結(jié)果頁 搜索系統(tǒng)實踐 數(shù)據(jù)獲取時效性 清洗提高準(zhǔn)確性 基礎(chǔ)數(shù)據(jù)獲取 查詢引導(dǎo) 同義詞挖掘 團單品類映射 查詢分析 系統(tǒng)架構(gòu)調(diào)整 增加吞吐量 改進協(xié)議 架構(gòu)支撐 特征工程 LR + GBDT 融合效果 重排序 實時品類偏好 實時下單位置 模型在線更新 實時化 分詞/歸一 化 查詢糾錯 語義擴展 意圖識別 查詢分類 緊密度計算 Term賦權(quán) 召回及 排序策略 Query suggest

10、ion 相關(guān)搜索 熱搜詞 ? 用戶查詢自然語言化 ? 檢索基于字面匹配,缺乏語義 擴展 ? 語義漂移 查詢分析 查詢分析面臨的問題 ? 用戶意圖多元化 ? 精確/模糊查詢 ? 領(lǐng)域多:尋找吃喝玩樂,購物,旅 游,住宿 策略類型 及占比 商 家 品 類 商 圈 地 標(biāo) 酒 店 旅 游 商 品 電 影 復(fù)合 意圖 其 他 改進前 12% 8% - 3% - - - 1% - 76% 改進后 21% 17% 7% 5% 6% 2% 1% 4% 9% 28% 意圖識別 搜索意圖歧義示例及解決方案 找門票還是酒店? 通過意圖分類,將“旅 游”意圖的POI排序提前 團單品類細分 品類內(nèi)差異對用戶造成的困擾

11、 “咖啡/酒吧/蛋糕”在后 臺配置為同一個類目下的 品類 通過文本分類拆分子品類, 或者說打標(biāo)簽 人工定義體系+SVM學(xué)習(xí),構(gòu)建覆蓋全面合理的品類類目,更好滿 足用戶精確品類檢索的意圖 美團頻道篩選 groves 頻道篩選實踐 數(shù)據(jù)清洗 在線獲取訓(xùn)練 所需特征 數(shù)據(jù)及特征工程 使用位置信息 引入排序模型 粗排序 新單推薦 使用位置信息 冷啟動 Additive 使用位置 分品類細化 重排序 實時品類偏好 實時下單位置 實時特征更新 實時化 ? ? ? ? poi-user特征 當(dāng)前距離 歷史距離 最近點擊/下單/支付 歷史點擊/下單/支付 ? ? ? ? deal特征 CTR/CVR ? ?

12、? ? CVR 折扣力度 是否新單 是否促銷 deal-user特征 商圈 品類 價格 user特征 ?終端類型 ?地理位置 ?消費水平 ?品類偏好 ? ? ? ? CPR 重排序:特征 poi特征 #評論數(shù) #有圖評論/優(yōu)質(zhì)評論 CTR/CVR/CXR rank Additive Groves 數(shù)值類特征 詳情頁特有特 征 列表頁特有特 征 GBDT LR 重排序:框架 數(shù)據(jù)實時化 ? 預(yù)測結(jié)果隨數(shù)據(jù)更新而變化 ? 2小時銷量數(shù)據(jù) ? 2小時內(nèi)數(shù)據(jù)預(yù)測用戶實時偏好 ? 進入列表頁請求用戶地理位置,下單率提升3% ? 模型天級更新 ? Online learning繼續(xù)嘗試中 美團推薦 其他展

13、位: 搜索無結(jié)果推薦,購買后推薦,評價后推 薦,附近推薦 推薦系統(tǒng)實踐 user/ item cf 相似性調(diào)整 經(jīng)典算法改進 銷量預(yù)估 用戶分群 地理位置偏好 冷啟動 附近熱單 異地瀏覽 時間上下文 上下文篩選 LR GBDT 融合效果 重排序 特征實時化 偏好實時化 算法實時化 實時化 hap:/ 用戶冷啟動 ? 行為少,找不到有意義的相似用戶 ? LocaEon,locaEon,locaEon ? 基于地理位置計算用戶相似性:作為替 補策略,效果一般 ? 瀏覽地附近熱單,作為上下文信息使用 20140609 20140610 20140611 20140612 20140613 20140

14、614 20140615 20140616 20140617 20140618 20140619 20140620 20140621 20140622 20140623 20140624 20140625 20140626 20140627 20140628 20140629 20140630 加入context baseline hot_for_local ? 附近熱單 ? “本地人熱單” ? “本地?zé)釂巍?下單率 瀏覽 推薦 意圖 強度 流量 規(guī)模 用戶端:流量轉(zhuǎn)化 統(tǒng)一框架,快速迭代,經(jīng)驗共享 搜索 商戶端:不僅是算法挑戰(zhàn) 訓(xùn)練數(shù)據(jù)規(guī)模小 標(biāo)注標(biāo)準(zhǔn)復(fù)雜主 觀 單用戶特征不可 用 多團隊合作 挖掘可擴展的特征 采用非線性、魯棒模型 復(fù)雜目標(biāo)進行模型分解 交叉驗證減少噪音 人機結(jié)合提取穩(wěn)定因素 使用用戶統(tǒng)計特征 協(xié)調(diào)各方預(yù)期和利益 團購單銷售額預(yù)估 背景:在線deal數(shù)量眾多,需要關(guān)注deal的質(zhì)量 目標(biāo):評估deal的質(zhì)量 方法: 分解問題 ? 以銷售額來代表質(zhì)量 ? 再分解銷售額 hap:/ 根據(jù)問題特征/模型并迭代 效果: 1.? 訪購率預(yù)測準(zhǔn)確率(R2): 0.8 2.? 價格特征權(quán)重符合產(chǎn)品預(yù)期 挑戰(zhàn): 電影票房預(yù)測 背景:電影票房預(yù)測數(shù)據(jù)可以 指導(dǎo)片方發(fā)行/院線排片 目標(biāo):得到可用票房預(yù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論