版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、唯品會(huì)大數(shù)據(jù)實(shí)踐CONTENT 目錄關(guān)于唯品會(huì)01數(shù)據(jù)平臺(tái)建設(shè)02大數(shù)據(jù)應(yīng)用建設(shè)03一些想法04 數(shù)據(jù)平臺(tái)實(shí)踐 離線計(jì)算分析平臺(tái)演化 實(shí)時(shí)計(jì)算平臺(tái)演化 一些技術(shù)選型和經(jīng)驗(yàn) 數(shù)據(jù)應(yīng)用實(shí)踐 系統(tǒng)開(kāi)發(fā)和運(yùn)營(yíng) 業(yè)務(wù)和產(chǎn)品運(yùn)營(yíng) 惡意用戶識(shí)別/風(fēng)控系統(tǒng) 商品品牌推薦 個(gè)性化排序| 產(chǎn)品| 系統(tǒng)| 算法數(shù)據(jù)儀表盤(pán) 、數(shù)據(jù)魔方、比價(jià)系統(tǒng)、地圖服務(wù)等精準(zhǔn)推薦基礎(chǔ)算法庫(kù)選品、分倉(cāng)與預(yù)調(diào)撥數(shù)據(jù)實(shí)時(shí)接入離線計(jì)算平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)VRC資源管理平臺(tái)運(yùn)維監(jiān)控測(cè)試| 數(shù)據(jù)細(xì)分人群用戶Lookalike唯品會(huì)用戶畫(huà)像唯品會(huì)大數(shù)據(jù)VIP Big Data整體規(guī)劃平臺(tái)服務(wù)數(shù)據(jù)服務(wù)數(shù)坊分析師平臺(tái)對(duì)外服務(wù)VRC開(kāi)發(fā)者平臺(tái)畫(huà)像計(jì)算VRE
2、Sqoop/VDP/Flume/KafkaJob調(diào)度/Yarn調(diào)度運(yùn)維監(jiān)控測(cè)試數(shù)據(jù)產(chǎn)品HIVEPrestoSPARKRHbaseDruidHDFSRedis ClusterVRE實(shí)時(shí)算法預(yù)測(cè)MLLib實(shí)時(shí)訓(xùn)練分析統(tǒng)計(jì)任務(wù)GPStorm自助報(bào)表平臺(tái)應(yīng)用產(chǎn)品服務(wù)接入計(jì)算存儲(chǔ)調(diào)度 系統(tǒng)-大數(shù)據(jù)基礎(chǔ)平臺(tái)規(guī)劃自助取數(shù)平臺(tái)數(shù)據(jù)平臺(tái)的建設(shè) 離線計(jì)算分析平臺(tái)選建設(shè) 混合平臺(tái):Hadoop+Greenplum 遷移策略和計(jì)劃 daily job, hourly job, min job 擴(kuò)容,擴(kuò)容,擴(kuò)容 離線和實(shí)時(shí)的混合 開(kāi)放平臺(tái) 實(shí)時(shí)計(jì)算平臺(tái)的建設(shè) Binlog2Kafka VDP MySQL2Kafka S
3、park vs Storm Redis Challenge 穩(wěn)定性挑戰(zhàn) 開(kāi)放平臺(tái) 碰到的問(wèn)題離線平臺(tái)的演化-12012 年底:CDC調(diào)度+GP10節(jié)點(diǎn) 系統(tǒng)穩(wěn)定2013 Q1:CDC調(diào)度+ETL Gp + Query Gp, Tuning2013 Q2:自有調(diào)度平臺(tái)開(kāi)發(fā) + 自有抽取系統(tǒng)+ Hadoop 流量開(kāi)始遷移 +GP交易數(shù)據(jù) + Query GP2013 Q3:自有調(diào)度平臺(tái)+抽取遷移Hadoop流量遷移結(jié)束(70), 交易數(shù)據(jù)遷移開(kāi)始GP交易數(shù)據(jù)+Query GP核心數(shù)據(jù)小時(shí)級(jí)ETL2013 Q4元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量工具ETL Gp完整遷移開(kāi)始Query GP擴(kuò)容40節(jié)點(diǎn)2014
4、Q1全部ETLHadoop 200 nodes cluster + 40 Ad-Hoc EDW Hybrid node configuration 離線混合平臺(tái)-2Referene: Netflex, LinkedIn, eBayGreenPlum + Hadoop 保護(hù)現(xiàn)有投資 Hadoop 海量數(shù)據(jù)分析 ETL復(fù)雜計(jì)算 權(quán)限打通Greenplum: GP擅長(zhǎng)adhoc query速度快, 分析師適應(yīng) 不足夠scalable 長(zhǎng)期成本Hadoop Massive scalable,但是單個(gè)查詢慢 海量ETL計(jì)算 Web查詢離線開(kāi)放平臺(tái)-3 開(kāi)放平臺(tái) 自助ETL開(kāi)發(fā) 自助報(bào)表開(kāi)發(fā)和展現(xiàn) 自助取
5、數(shù)分析 成本breakdown, change back 性能,實(shí)時(shí),擴(kuò)展性,成本 Presto Druid實(shí)時(shí)計(jì)算系統(tǒng)架構(gòu)采集推薦建模 打點(diǎn)日志binlog消息數(shù)據(jù)實(shí)時(shí)增量抽取計(jì)算模型訓(xùn)練效果反饋Render & Router LayerCandidate Scan LayerCalculate LayerVRC模型訓(xùn)練平臺(tái)Flume/VDP/VMSVRE應(yīng)用開(kāi)發(fā): 任務(wù)配置 可視化編程 Esper EPL平臺(tái)組件: 輸入組件 輸出組件 UDFVRC Portal: 任務(wù)發(fā)布 日志查看 監(jiān)控告警Rule LayerHbase vs Redis 背景: 個(gè)性化user profile,
6、 high QPS, very time sensitive 用戶信用體系user profile ,low QPS, non-critical 用戶實(shí)時(shí)瀏覽,訂單歷史,high tps, high qps 都是海量數(shù)據(jù) 看上去Hbase更加合適, 但是不放心 選擇: Critical 的Redis Non-critical 的Hbase 積累經(jīng)驗(yàn),逐漸往Hbase dual write 其實(shí)Hbase也不便宜,就是scale不動(dòng)系統(tǒng) Redis某種程度上也可以實(shí)現(xiàn)2:38:1111RedisStorm計(jì)算用redis保存中間和結(jié)果數(shù)據(jù) 流量一直增加 大促流量狂漲 計(jì)算復(fù)雜度一直增加 不停拆分
7、。 每次改代碼怎么辦? 逐個(gè)模塊拆分 一開(kāi)始就按模塊寫(xiě)不同instance 一開(kāi)始就Shard Twemproxy 優(yōu)化數(shù)據(jù)結(jié)構(gòu) Pipeline/Batch 不求100%準(zhǔn)確hll log Redis Cluster2:38:1112Challange 實(shí)時(shí)計(jì)算作為平臺(tái) 離線和實(shí)時(shí)的融合 離線向?qū)崟r(shí)的遷移成本應(yīng)用實(shí)踐 業(yè)務(wù)應(yīng)用 運(yùn)營(yíng)分析 幫助公司買(mǎi) 幫助公司賣(mài) 技術(shù)開(kāi)發(fā)和運(yùn)營(yíng) Telescope 業(yè)務(wù)監(jiān)控(storm) Logview/Titan 服務(wù)監(jiān)控(spark) Application logging(Spark) CDN日志分析 (Hive) Site speed分析(storm)
8、 安全審計(jì)分析(impala/storm)大數(shù)據(jù)對(duì)于技術(shù)運(yùn)營(yíng)大數(shù)據(jù)對(duì)于技術(shù)運(yùn)營(yíng)2:38:1115實(shí)時(shí)業(yè)務(wù)監(jiān)控7 現(xiàn)有平臺(tái)訪問(wèn)地址:商品展示登錄注冊(cè)訂單信息代金券信息支付模塊商品展示購(gòu)物車(chē)登錄注冊(cè)訂單信息代金券信息支付模塊FDS探索號(hào)CDNNginx域B2C移動(dòng)端用戶增加數(shù)移動(dòng)端下單數(shù)整體下單數(shù)訂單總金額購(gòu)物車(chē)增加數(shù)購(gòu)物車(chē)內(nèi)貨品數(shù)量業(yè)務(wù)集合域流量集合登錄熱力地圖注冊(cè)熱力地圖訂單熱力地圖購(gòu)物車(chē)訪問(wèn)熱力地圖日志數(shù)據(jù)WTWHeatMap大屏幕2:38:1116實(shí)時(shí)頁(yè)面加載時(shí)間監(jiān)控實(shí)時(shí)PV分布監(jiān)控商業(yè)CDN質(zhì)量分析App Service QualitySpark Streaming, 30 sec mi
9、ni-batch進(jìn)去可以看到每個(gè)pool,每個(gè)服務(wù)器,每個(gè)url的請(qǐng)求次數(shù),響應(yīng)時(shí)間,錯(cuò)誤率,在過(guò)去兩周的各個(gè)維度的統(tǒng)計(jì)數(shù)據(jù)和曲線;可以看到pool之間的互相調(diào)用關(guān)系, 調(diào)用量 全無(wú)入侵,應(yīng)用上線即插即用;Data Service Quality大數(shù)據(jù)大數(shù)據(jù)在在唯品唯品會(huì)特賣(mài)模式的業(yè)務(wù)價(jià)值會(huì)特賣(mài)模式的業(yè)務(wù)價(jià)值大數(shù)據(jù)對(duì)于數(shù)據(jù)化運(yùn)營(yíng)大數(shù)據(jù)對(duì)于數(shù)據(jù)化運(yùn)營(yíng)2:38:1224應(yīng)用于唯品會(huì)全面客戶關(guān)系管理數(shù)據(jù)化運(yùn)營(yíng)-數(shù)據(jù)產(chǎn)品 對(duì)外: 供應(yīng)商:數(shù)據(jù)魔方 對(duì)內(nèi): 高管:手機(jī)數(shù)據(jù)儀表盤(pán),經(jīng)營(yíng)分析 商務(wù):選品,比價(jià) 物流:分倉(cāng),預(yù)調(diào)撥 產(chǎn)品/運(yùn)營(yíng):指導(dǎo)產(chǎn)品分析和決策,經(jīng)營(yíng)分析,效果評(píng)估,產(chǎn)品優(yōu)化 金融:供應(yīng)商貸款
10、, 消費(fèi)者:個(gè)性化推薦,唯品白條 營(yíng)銷:個(gè)性化EDM,個(gè)性化Push,CRM 業(yè)務(wù)安全:風(fēng)控用戶管理及運(yùn)營(yíng) 供應(yīng)商打法一:數(shù)據(jù)從按天更新向?qū)崟r(shí)化轉(zhuǎn)變豐富數(shù)據(jù)可視化交互方式打法二:合規(guī)前提下,開(kāi)放更多數(shù)據(jù)給供應(yīng)商豐富數(shù)據(jù)接口格式及實(shí)時(shí)性打法三:實(shí)時(shí)比價(jià)與價(jià)高告警比價(jià)數(shù)據(jù)與銷售轉(zhuǎn)化率數(shù)據(jù)關(guān)聯(lián)分析數(shù)據(jù)儀表盤(pán)數(shù)據(jù)魔方比價(jià)系統(tǒng) 產(chǎn)品-數(shù)據(jù)產(chǎn)品及服務(wù)PC用戶移動(dòng)用戶AdapterAdapter算法模型1算法模型2算法模型3算法模型4stockdbmsdFlume-kafkaBinlog-kafkaStorm/C+Profile redisItem redisTraining DataBusiness Ru
11、leEPDebug Platformhadoop2:38:1227系統(tǒng)架構(gòu)挑戰(zhàn) 用戶 數(shù)據(jù)稀疏,有效反饋少 長(zhǎng)尾嚴(yán)重 用戶體驗(yàn),50ms返回 ITEM 冷啟動(dòng) 特征難抽取,比如圖片素材 場(chǎng)景 缺少上下文 沒(méi)有明顯意圖,不同于“搜索”28底層數(shù)據(jù)品牌 歷史和實(shí)時(shí)銷售數(shù)據(jù) 價(jià)格,品類,顏色尺碼風(fēng)格,季節(jié) 品牌相似性商品 商品profile的長(zhǎng)期開(kāi)發(fā) 歷史和實(shí)時(shí)商品信息(庫(kù)存,銷售,轉(zhuǎn)化)用戶 用戶點(diǎn)擊瀏覽,購(gòu)物車(chē),購(gòu)買(mǎi),收藏行為 按品類,風(fēng)格,價(jià)位,性別,尺碼 用戶實(shí)時(shí)行為路徑2:38:1229我們走過(guò)的路2:38:1230 2013Q4-2014Q1:基于人群分組和人工排序的個(gè)性化運(yùn)營(yíng)嘗試 人群
12、劃分 首頁(yè)人工排序 列表頁(yè)人工規(guī)則自動(dòng)排序 無(wú)效果。 2014Q2:開(kāi)始有機(jī)會(huì)在小流量新版首頁(yè)嘗試技術(shù)主導(dǎo) 機(jī)器學(xué)習(xí)+業(yè)務(wù)規(guī)則 首頁(yè)動(dòng)態(tài)生成個(gè)性化推薦模塊 首頁(yè)動(dòng)態(tài)生成個(gè)性化排序頁(yè)面 提高了首頁(yè)到列表頁(yè)轉(zhuǎn)化率,降低了跳出率,提高了銷售我們走過(guò)的路 2014 Q3-Now: 首頁(yè)和列表頁(yè)的個(gè)性化排序 機(jī)器學(xué)習(xí)train model Hadoop 生成 user profile/brand profile Storm 計(jì)算實(shí)時(shí)轉(zhuǎn)化銷售數(shù)據(jù),用戶實(shí)時(shí)行為和意圖 實(shí)時(shí)排序首頁(yè)和列表頁(yè) 下一步 更多引入個(gè)性化因子(feature) 細(xì)化user/brand profile ,更多數(shù)據(jù) 引入更多其他算法,
13、做到算法可以靈活替代 不但個(gè)性化排序和推薦,還可以有更多2:38:1231個(gè)性化推薦下一個(gè)階段 實(shí)時(shí),實(shí)時(shí),再實(shí)時(shí) 實(shí)時(shí)計(jì)算商品品牌信息,用戶profile 實(shí)時(shí)推薦 實(shí)時(shí)算法迭代更新 實(shí)時(shí)Abtest verify 個(gè)性化,個(gè)性化,個(gè)性化 移動(dòng)天然是個(gè)個(gè)性化的好場(chǎng)所 更多的個(gè)性化因子 更加全面的數(shù)據(jù):用戶畫(huà)像建設(shè),曝光數(shù)據(jù)的收集個(gè)性化階段性成果PC端 推薦: 10%12% PC銷售占比 首頁(yè)個(gè)性化排序 4%銷售金額提升移動(dòng)端(2014/12) 首頁(yè)個(gè)性化排序 4%銷售金額提升 列表頁(yè)排序優(yōu)化 15%銷售金額提升 Overall: 17%2:38:1233推薦關(guān)鍵點(diǎn)34推薦用戶場(chǎng)景ITEM解決之道35推薦數(shù)據(jù)算法系統(tǒng)一些小結(jié) 技術(shù)選
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 地理學(xué)概述報(bào)告
- 2024年四川省資陽(yáng)市樂(lè)至縣石佛鎮(zhèn)招聘社區(qū)工作者考前自測(cè)高頻考點(diǎn)模擬試題(共500題)含答案
- 2024年公務(wù)員考試甕安縣《行政職業(yè)能力測(cè)驗(yàn)》統(tǒng)考試題含解析
- 習(xí)作:他-了 說(shuō)課稿-2023-2024學(xué)年語(yǔ)文五年級(jí)下冊(cè)統(tǒng)編版
- 2025年金融理財(cái)銷售工作計(jì)劃
- Unit 6 There are four seasons in a year. Lesson 36(說(shuō)課稿)-2024-2025學(xué)年人教精通版英語(yǔ)六年級(jí)上冊(cè)
- 2025年安全環(huán)保工作計(jì)劃范文
- 2025年數(shù)學(xué)教研工作計(jì)劃
- Unit 2 My week (說(shuō)課稿)-2024-2025學(xué)年人教版PEP英語(yǔ)五年級(jí)上冊(cè)
- 2025年教師個(gè)人新學(xué)期工作計(jì)劃范文
- 2024-2025學(xué)年烏魯木齊市數(shù)學(xué)三上期末檢測(cè)試題含解析
- 2025年初級(jí)經(jīng)濟(jì)師之初級(jí)經(jīng)濟(jì)師基礎(chǔ)知識(shí)考試題庫(kù)及完整答案【全優(yōu)】
- 2024年度服裝代言合同:明星代言服裝品牌拍攝廣告協(xié)議
- 五年高考真題(2020-2024)分類匯編 政治 專題19 世界多極化 含解析
- 物業(yè)元宵節(jié)活動(dòng)方案
- ISBAR輔助工具在交班中應(yīng)用
- Module 6 Unit 2 It was amazing.(說(shuō)課稿)-2023-2024學(xué)年外研版(一起)英語(yǔ)五年級(jí)下冊(cè)
- 跑步圖片課件教學(xué)課件
- GB 30254-2024高壓三相籠型異步電動(dòng)機(jī)能效限定值及能效等級(jí)
- 非物質(zhì)文化遺產(chǎn)拓印 課件
- 外協(xié)管理制度
評(píng)論
0/150
提交評(píng)論