




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、物 流 大 數(shù) 據(jù) 處 理物流大數(shù)據(jù)處理采集導(dǎo)入/預(yù)處理統(tǒng)計/分析挖掘1234567 潘 果第1頁淘寶數(shù)據(jù)分析挖掘?qū)嵺`及變革baidu大數(shù)據(jù)分析系統(tǒng)架構(gòu)京東大數(shù)據(jù)實時處理技術(shù)物流大數(shù)據(jù)處理介紹1234目 錄第2頁【推薦】用大數(shù)據(jù)能力找到商品之間關(guān)系第3頁【推薦】用大數(shù)據(jù)能力找到商品之間關(guān)系第4頁你知曉大數(shù)據(jù)在哪些方面有應(yīng)用?第5頁3132架構(gòu)化1950-1970數(shù)字化1970-1990網(wǎng)絡(luò)化1990-+物聯(lián)網(wǎng)大數(shù)據(jù)Something Big is HappeningNOW移動互聯(lián)網(wǎng)云計算4信息技術(shù)革命小周期智慧化第6頁51:1 MarketingNanotargeting和Retargetin
2、g第7頁6第8頁2IBM IBM 多渠道交通控制交易分析智慧醫(yī)療國土安全制造金融電信欺詐和風(fēng)險日志分析搜索質(zhì)量零售:流失、促銷 Copyright Corporation大數(shù)據(jù)在各行各業(yè)都能夠取得應(yīng)用2第9頁4 Copyright CorporationIBM IBM 取得突破性回報了解關(guān)于客戶一切作快速大量地創(chuàng)新產(chǎn)品和風(fēng)險利用工具化資產(chǎn)利用大數(shù)據(jù)能力能夠幫助企業(yè)取得突破性回報利用大數(shù)據(jù)獨有技術(shù)能力可視化和發(fā)覺Hadoop執(zhí)行零延遲操數(shù)據(jù)倉庫流計算文本分析整合和治理多媒體內(nèi)容經(jīng)過分析仸意大數(shù)據(jù)類型交易 / 應(yīng)用數(shù)據(jù)機器數(shù)據(jù)社交媒體數(shù)據(jù)實時偵測欺詐4第10頁11快雜大大數(shù)據(jù)新思維第11頁13多數(shù)
3、據(jù)源集成浮動車GPS:20M/day手機位置信息:18M/day居民調(diào)查:80000戶視頻/圖像數(shù)據(jù)和元數(shù)據(jù):100s of TB/dayGIS數(shù)據(jù)供水系統(tǒng)智能電網(wǎng)睡眠質(zhì)量出租車運行數(shù)據(jù):1M/day交通卡:19M/day高速路收費數(shù)據(jù):0.5M/day社交網(wǎng)絡(luò)情感分析部分?jǐn)?shù)據(jù)起源:BeijingTOCC第12頁12大數(shù)據(jù)新方法學(xué)數(shù)據(jù)極大豐富前提下新分析思維和技術(shù)采樣數(shù)據(jù) 全集數(shù)據(jù)多數(shù)據(jù)源整合基于主觀因果假設(shè) 相關(guān)關(guān)系大數(shù)據(jù)+小算法+上下文+知識積累描述性分析 預(yù)測性和處方性分析實時性 絕對精確性第13頁數(shù)據(jù)數(shù)據(jù)中介服務(wù)生態(tài)系統(tǒng)數(shù)據(jù)擁有者大數(shù)據(jù)數(shù)據(jù)中介數(shù)據(jù)技術(shù)企業(yè) 數(shù)據(jù)產(chǎn)品和服務(wù)16第14頁大
4、數(shù)據(jù)系統(tǒng)設(shè)計權(quán)衡大致量基于采樣查詢實時性流計算批量計算準(zhǔn)確性惰性數(shù)據(jù)即席查詢Little data(個人計算)19城市計算增量計算內(nèi)存計算第15頁案例一:大數(shù)據(jù)分析系統(tǒng)架構(gòu)搭建第16頁baidu數(shù)據(jù)規(guī)模 1001000PB 10100PB/天 千億萬億 百億千億 十億百億/天 十億百億/天 100TB1PB/天數(shù)據(jù)總量數(shù)據(jù)處理量網(wǎng)頁索引更新量請求日志第17頁離線在線離線分析與在線試驗相結(jié)合快速迭代是互聯(lián)網(wǎng)產(chǎn)品主要創(chuàng)新伎倆算法A算法B算法B經(jīng)過反饋來驗證算法優(yōu)劣第18頁搜索引擎迭代5%5%Online LearningA/B test策略機器學(xué)習(xí)平臺FeatureTraining數(shù)據(jù)網(wǎng)頁網(wǎng)頁庫倒
5、排表Data Mining第19頁想法原型系統(tǒng)快速開發(fā)測試產(chǎn)品布署運維開發(fā)框架互聯(lián)網(wǎng)產(chǎn)品迭代A/B測試,連續(xù)優(yōu)化數(shù)據(jù)智能驗證數(shù)據(jù)分析應(yīng)用引擎云測試應(yīng)用引擎第20頁數(shù)據(jù)架構(gòu)技術(shù)互聯(lián)網(wǎng)服務(wù)enable數(shù)據(jù)智能第21頁IT產(chǎn)業(yè)生產(chǎn)力改變607080900010硬件Mainframe軟件PCInternetInf+人+數(shù)據(jù)Cloud迭代本質(zhì)是讓人參加系統(tǒng)進化,而Big Data為迭代指導(dǎo)方向,Infrastructure則加速迭代。軟件+人第22頁互聯(lián)網(wǎng)服務(wù)經(jīng)典技術(shù)特點超大規(guī)??焖俚?3頁數(shù)據(jù)智能軟件基礎(chǔ)架構(gòu)大數(shù)據(jù)數(shù)據(jù)中心、網(wǎng)絡(luò)、服務(wù)器數(shù)據(jù)中心計算云計算技術(shù)體系第24頁DiskFlashPipeK
6、/VFileTable統(tǒng)一存放體系 平衡大容量、高并發(fā)、低延遲 不一樣訪問模式經(jīng)過組合滿足統(tǒng)一訪問與傳輸數(shù)據(jù)訪問層P2PCDN分布式存放第25頁描述能力數(shù)據(jù)流優(yōu)化控制流管理資源分配優(yōu)先級、并發(fā)控制隔離、安全執(zhí)行層模型層MapReduce表示層SQL-like翻譯JoinSelectTop分布式計算BCDA第26頁實時存放與計算kNN查詢平臺向量計算引擎流式數(shù)據(jù)處理引擎PubSub引擎機器學(xué)習(xí)算法平臺OLAP引擎復(fù)雜事件處理引擎分布式數(shù)據(jù)結(jié)構(gòu)超大規(guī)模數(shù)據(jù)倉庫圖查詢平臺實時檢索平臺第27頁向量計算引擎VectorLayoutMap-ShuffleOperators/ CheckpointSIMDP
7、rogram第28頁復(fù)雜事件處理average(price)trigger(?,b,c)filter(b)pattern(a-b-c)condition(func(a,b,c)第29頁流式計算模型windowstepboundtimeM=Stream第30頁目標(biāo) 1000PB 10億維特征訓(xùn)練 100維條件查詢 流式 觸發(fā)式海量高維、多維實時更大、更復(fù)雜、更加快!第31頁數(shù)據(jù)智能分布式存放與計算大規(guī)模人工輔劣標(biāo)注系統(tǒng)人計算向量引擎MachineLearning算法Web Contents流式處理LogsPubSub推薦系統(tǒng)智能交通Apps自勱評定商業(yè)智能決議輔劣第32頁關(guān)于京東第33頁營銷管理
8、供給商管理倉儲管理財務(wù)系統(tǒng)客戶數(shù)據(jù)網(wǎng)站前臺關(guān)于京東 京東擁有覆蓋企業(yè)全部價值鏈穩(wěn)定系統(tǒng),經(jīng)過連續(xù)優(yōu)化打造開放平臺,全方面提升用戶體驗。配送管理第34頁大規(guī)模數(shù)據(jù)處理愈加輕易ETL/企業(yè)數(shù)據(jù)倉庫(Hive/Pig/MR)數(shù)據(jù)挖掘/建模(R、Mahout)搜索和推薦日志存放第35頁“Next Click”運行智能風(fēng)險控制互動分析一些場景需要深入考量MapReduce批量處理=延遲較長無法滿足用戶實時需求調(diào)度開銷較大第36頁批處理與分析近實時分析實時流處理實時性離線準(zhǔn)實時/實時實時處理時間分鐘到小時毫秒到秒連續(xù)不停數(shù)據(jù)量TB-PBGB-TB連續(xù)編程模型MapReduceQueriesDAG用戶分析師
9、/開發(fā)者分析師/開發(fā)者開發(fā)者成本中高高應(yīng)用ETL/數(shù)據(jù)挖掘/預(yù)處理數(shù)據(jù)決議分析/大數(shù)據(jù)包含三部分第37頁服務(wù)模型 性能大數(shù)據(jù)實時處理思索第38頁 模型 海量數(shù)據(jù) 數(shù)據(jù)量大 并發(fā)數(shù)高 多個數(shù)據(jù)源整合 預(yù)定義好數(shù)據(jù)模型 去規(guī)格化 數(shù)據(jù)任務(wù)依賴關(guān)系簡單 推和拉問題 拉比推好大數(shù)據(jù)實時處理思索第39頁 性能 高并發(fā)需求 大容量需求 GBTB 級后臺數(shù)據(jù)處理吞吐 高速度需求 從數(shù)據(jù)產(chǎn)生處處理完成結(jié)果延遲要求到秒級 計算需要在短時間內(nèi)完成 批處理預(yù)算 硬件支持 內(nèi)存、CPU、網(wǎng)絡(luò) 容錯 水平擴展大數(shù)據(jù)實時處理思索第40頁關(guān)聯(lián)獲取價值,維度按需定制互動分析、報表等完成價值交付與其它在線生產(chǎn)系統(tǒng)進行數(shù)據(jù)對接(
10、數(shù)據(jù)反哺)計算即服務(wù)大數(shù)據(jù)實時處理思索 服務(wù)第41頁生產(chǎn)數(shù)據(jù)庫企業(yè)數(shù)據(jù)倉庫大數(shù)據(jù)實時處理架構(gòu)財務(wù)數(shù)據(jù)集市采銷數(shù)據(jù)集市羅盤數(shù)據(jù)集市分析挖掘數(shù)據(jù)集數(shù)據(jù)緩沖區(qū)企業(yè)消息總線流式計算集群實時數(shù)據(jù)同時模型日志系統(tǒng)高速存取集群在線實時計算集群持久 化PUSHPULL/PUSH訂閱ELTELT高速存取集群ETL報表應(yīng)用分析應(yīng)用推薦應(yīng)用.數(shù)據(jù)推送中心近實時分析集群近實時計算實時計算在線服務(wù)離線計算應(yīng)用分布式消息系統(tǒng)緩存集群第42頁日志(用戶行為、)批量同時消息隊列 開源技術(shù)FlumeScribeKafka大數(shù)據(jù)實時處理技術(shù) 數(shù)據(jù)傳輸?shù)?3頁 Apache項目:/ 一個分布式公布/訂閱消息系統(tǒng) 術(shù)語 Topics
11、 消息分組 Brokers 消息存放 Producers 消息生產(chǎn)者 Consumers 消息消費者Kafka第44頁大數(shù)據(jù)實時處理技術(shù) 幾個點SinkAgentAgentStorm等Broker(Topic1)Broker(Topic2)HDFSZookeeper解耦緩沖容錯透明跨數(shù)據(jù)中心數(shù)據(jù)分發(fā)FlumeKafka第45頁HadoopHBaseCassandraMongoDBRedis 數(shù)據(jù)庫Sharding 適當(dāng)就是最好大數(shù)據(jù)實時處理技術(shù) 存放 大容量低速存放 高速存放 KV存放 開源NoSQL數(shù)據(jù)存放第46頁可加計算、不可加計算實時數(shù)據(jù)實時計算實時數(shù)據(jù)計算數(shù)據(jù)實時計算 開源計算框架 S
12、torm Impala 大數(shù)據(jù)實時處理技術(shù) 計算第47頁大數(shù)據(jù)實時分析明細(xì)事實表聚合表1聚合表2聚合表3第48頁 基本概念 Streams(流) 元組序列 Spouts 流源頭 Bolts Functions, Filters, Joins, Aggregations Topologies 優(yōu)點 可擴展、容錯、易用 在內(nèi)存中執(zhí)行流式計算Storm Twitter開源分布式處理框架SpoutsBoltTopologies第49頁 Nimbus 主控節(jié)點,用于任務(wù)分配,集群任務(wù)監(jiān)控等 Zookeeper 集群中協(xié)調(diào),共有數(shù)據(jù)存放(如心跳信息) Supervisor 對應(yīng)一臺物理機,用于開啟work
13、er Worker 工作進程,負(fù)責(zé)開啟task,以及經(jīng)過zeromq進行tuple分發(fā),與接收。 Task 工作線程,任務(wù)處理Storm布署第50頁Storm應(yīng)用模式用戶查詢大數(shù)據(jù)存放數(shù)據(jù)視圖集(批處理)數(shù)據(jù)流HadoopStorm數(shù)據(jù)視圖集(實時處理)數(shù)據(jù)流數(shù)據(jù)視圖集(實時處理)數(shù)據(jù)視圖集(實時處理)第51頁流式計算第52頁流式計算應(yīng)用事件搜集器Storm前段展現(xiàn) 事件驅(qū)動實現(xiàn)第53頁 注意 內(nèi)存泄露 消息堆積 算法模塊拆分流式計算第54頁分析可視化數(shù)據(jù)可視化數(shù)據(jù)反哺計算即服務(wù) 仔細(xì)思索其價值實時統(tǒng)計:最流行廣告CTR預(yù)測ETL:格式轉(zhuǎn)換、重復(fù)值過濾、運行需求:資源調(diào)派大數(shù)據(jù)實時處理技術(shù) 服
14、務(wù)和應(yīng)用 價值展現(xiàn)第55頁 對系統(tǒng)壓力 數(shù)據(jù)量 數(shù)據(jù)展現(xiàn) 數(shù)據(jù)讀寫和傳輸 處理方法 前端和后端解耦 緩存應(yīng)用 JS發(fā)揮前端能力 壓縮 排隊 異步、非阻塞IO模型 線程池 事件驅(qū)動 后端更強勁 數(shù)據(jù)庫集群:分庫、分表、分區(qū) NoSQL數(shù)據(jù)庫:Hbase、MongoDB等數(shù)據(jù)應(yīng)用問題第56頁淘寶數(shù)據(jù)分析挖掘?qū)嵺`及變革第57頁淘寶數(shù)據(jù)四階段 被動響應(yīng)年前 主動變革- 優(yōu)化完善- 引領(lǐng)驅(qū)動-第58頁數(shù)據(jù)系統(tǒng)變遷年前數(shù)據(jù)庫(集群)腳本簡單調(diào)度數(shù)據(jù)報表-Hadoop集群調(diào)度監(jiān)控實時日志傳輸數(shù)據(jù)門戶多維分析-Hadoop集群DXP公有云實時Storm調(diào)度監(jiān)控實時日志傳輸實時數(shù)據(jù)庫同時數(shù)據(jù)門戶自助查詢工具元數(shù)
15、據(jù)管理-數(shù)據(jù)驅(qū)動新模式探索第59頁調(diào)度監(jiān)控業(yè)務(wù)庫(Mysql)Log Server外部數(shù)據(jù)數(shù)據(jù)源數(shù)據(jù)計算平臺數(shù)據(jù)門戶多維自助查詢平臺OpenAPI數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)應(yīng)用數(shù)據(jù)收集DBSyncTTDataXHiveHDFSHbase實時計算StormOceanBase分布式集群量子恒道在云端接入數(shù)據(jù)魔方DXP數(shù)據(jù)交換平臺冷數(shù)據(jù)集群第60頁數(shù)據(jù)應(yīng)用格局第61頁對外數(shù)據(jù)產(chǎn)品 數(shù)據(jù)魔方/淘寶指數(shù)行業(yè)趨勢人群特征成交排行市場細(xì)分 量子恒道銷售分析營銷效果起源分析 搜索排行榜第62頁對外數(shù)據(jù)產(chǎn)品 淘寶時光機/回想感動 排行榜第63頁對外數(shù)據(jù)產(chǎn)品-淘寶指數(shù)第64頁對外數(shù)據(jù)產(chǎn)品-量子恒道第65頁數(shù)據(jù)嵌入產(chǎn)品中 搜
16、索匹配、排序 廣告匹配、排序 推薦 商家后臺數(shù)據(jù) 營銷效果直通車、展示廣告、淘寶客第66頁內(nèi)部數(shù)據(jù)服務(wù) 淘數(shù)據(jù)門戶用戶分析商家云圖活動效果分析例行數(shù)據(jù)報表 在云端低門檻接入分布式集群周活躍用戶1000+第67頁內(nèi)部數(shù)據(jù)服務(wù) 多維數(shù)據(jù)自助查詢平臺數(shù)據(jù)倉庫和索引技術(shù)結(jié)合隨意組合維度秒級返回 日常數(shù)據(jù)需求管理數(shù)據(jù)接口人第68頁數(shù)據(jù)工具 天網(wǎng)調(diào)度 元數(shù)據(jù)管理 數(shù)據(jù)地圖-定位、血緣分析 DataX異源數(shù)據(jù)傳輸 TimeTunnel實時日志傳輸 監(jiān)控報警 生命周期管理第69頁新探索 金融服務(wù)小微企業(yè)貸款個人消費貸款 全網(wǎng)精準(zhǔn)營銷DMP、DSP、AD Exchange、RTB 無線與PC數(shù)據(jù)打通 數(shù)據(jù)交換第70頁一些觀點 數(shù)據(jù)處理是伎倆,數(shù)據(jù)應(yīng)用是根本 云系統(tǒng)運維能力是關(guān)鍵競爭力 整合關(guān)聯(lián)讓數(shù)據(jù)價值指數(shù)級增加 數(shù)據(jù)可視化很主要 想大做小,迭代優(yōu)化 關(guān)于隱私隱私和服務(wù)權(quán)衡控制使用比控制搜集更有效不針對詳細(xì)個體第71頁初識物流物流信息技術(shù)物流信息平臺概念發(fā)展歷程第72頁物流概念(Logistics)起源于二戰(zhàn)軍事(運輸管理、倉儲管理和庫存管理 )物流管理:除運輸外需求預(yù)測、采購、生產(chǎn)計劃、存貨管理、配送與客戶服務(wù)等 第73頁第74頁物流信息技術(shù)條碼技術(shù)射頻技術(shù)第75頁物流信息技術(shù)EDI技術(shù)G
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項11 古詩文閱讀(解析版)
- 2025屆四川省成都市高三第二次診斷考試政治試題(原卷版+解析版)
- 《物聯(lián)網(wǎng)技術(shù)案例教程》課件-第8章46
- 勸學(xué)教學(xué)設(shè)計
- 四海省廣元市蒼溪縣2024-2025學(xué)年九年級上學(xué)期期末質(zhì)量監(jiān)測數(shù)學(xué)試題 (原卷版+解析版)
- 《跨境電商》課件-9.跨境店鋪優(yōu)化
- 《Linux操作系統(tǒng)》課件-1.認(rèn)識Linux(全)
- 景區(qū)開發(fā)石子運輸合同樣本
- 項目協(xié)作與會議記錄會議紀(jì)要
- 廣告行業(yè)廣告投放手冊
- 日本2 課件-2024-2025學(xué)年人教版地理七年級下冊
- TZRIA 002-2024 工業(yè)巡檢四足機器人技術(shù)條件
- 小學(xué)科學(xué)二年級下冊教案(全冊)
- 2025廣東深圳證券交易所人員招聘筆試參考題庫附帶答案詳解
- 2025安徽振含控股集團有限公司招聘8人筆試參考題庫附帶答案詳解
- 河道洪水應(yīng)急響應(yīng)預(yù)案
- 《欣賞與設(shè)計》(教案)2024-2025學(xué)年數(shù)學(xué)六年級下冊 北師大版
- 銀行信貸部門廉政風(fēng)險點及防控措施
- 高一上學(xué)期統(tǒng)編版(2019)必修中外歷史綱要上翻書大賽課件
- 某縣電子政務(wù)信息化服務(wù)平臺項目可行性研究報告管理資料
- 加油站的充電樁建設(shè)與運營
評論
0/150
提交評論