![Spark大數(shù)據(jù)算法平臺(tái)課件_第1頁](http://file4.renrendoc.com/view/f103186d574caabd48ff917a76f0b165/f103186d574caabd48ff917a76f0b1651.gif)
![Spark大數(shù)據(jù)算法平臺(tái)課件_第2頁](http://file4.renrendoc.com/view/f103186d574caabd48ff917a76f0b165/f103186d574caabd48ff917a76f0b1652.gif)
![Spark大數(shù)據(jù)算法平臺(tái)課件_第3頁](http://file4.renrendoc.com/view/f103186d574caabd48ff917a76f0b165/f103186d574caabd48ff917a76f0b1653.gif)
![Spark大數(shù)據(jù)算法平臺(tái)課件_第4頁](http://file4.renrendoc.com/view/f103186d574caabd48ff917a76f0b165/f103186d574caabd48ff917a76f0b1654.gif)
![Spark大數(shù)據(jù)算法平臺(tái)課件_第5頁](http://file4.renrendoc.com/view/f103186d574caabd48ff917a76f0b165/f103186d574caabd48ff917a76f0b1655.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Spark大數(shù)據(jù)算法平臺(tái)第1頁,共33頁。目錄背景介紹算法平臺(tái)的功能算法平臺(tái)的架構(gòu)和實(shí)現(xiàn) 算法平臺(tái)的應(yīng)用算法平臺(tái)未來的方向第2頁,共33頁。平臺(tái)緣起大背景:隨著攜程的業(yè)務(wù)發(fā)展,各個(gè)BU的機(jī)器學(xué)習(xí)的應(yīng)用越來越多,訓(xùn)練 的數(shù)據(jù)集也越來越大,單機(jī)的模型訓(xùn)練方式很難滿足實(shí)際的需要,所以越 來越多的同學(xué)會(huì)考慮使用Spark進(jìn)行訓(xùn)練直接使用Spark進(jìn)行模型訓(xùn)練的難點(diǎn)(特別是對(duì)于非工程背景的數(shù)據(jù)科學(xué) 家):入門時(shí)間較長(zhǎng)環(huán)境設(shè)置麻煩程序調(diào)試?yán)щy關(guān)注太多細(xì)節(jié)獨(dú)立開發(fā),經(jīng)驗(yàn),代碼無法分享第3頁,共33頁。平臺(tái)基本目標(biāo)服務(wù)工程經(jīng)驗(yàn)較少的數(shù)據(jù)科學(xué)家無需編程,模塊拖拽完成模型訓(xùn)練處理流程的構(gòu)建執(zhí)行過程可視化方便地?cái)?shù)據(jù)
2、探索功能覆蓋機(jī)器學(xué)習(xí)應(yīng)用的整個(gè)生命周期覆蓋模型訓(xùn)練,導(dǎo)出,線上服務(wù)整個(gè)機(jī)器學(xué)習(xí)應(yīng)用的生命周期 系統(tǒng)開放,高度可定制簡(jiǎn)便地模塊定制,分享(適合工程能力強(qiáng)的資深用戶)第4頁,共33頁。目錄背景介紹算法平臺(tái)的功能算法平臺(tái)的架構(gòu)和實(shí)現(xiàn) 算法平臺(tái)的應(yīng)用算法平臺(tái)未來的方向第5頁,共33頁。平臺(tái)功能簡(jiǎn)介整個(gè)平臺(tái)由以下4個(gè)功能模塊構(gòu)成:模型訓(xùn)練創(chuàng)建模型訓(xùn)練流程(Pipeline)運(yùn)行和調(diào)試模型訓(xùn)練流程數(shù)據(jù)探索模塊定制(高級(jí))訓(xùn)練結(jié)果導(dǎo)出線上服務(wù)的開發(fā)支持第6頁,共33頁。機(jī)器學(xué)習(xí)Sample Case使用協(xié)同過濾算法進(jìn)行電影推薦(Data from Ne5lex)1.訓(xùn)練數(shù)據(jù)(用戶對(duì)于電影的評(píng)分?jǐn)?shù)據(jù))分流(訓(xùn)
3、練集 / 測(cè)試級(jí) 7:3)模型訓(xùn)練模型檢驗(yàn)第7頁,共33頁。模型訓(xùn)練 流程創(chuàng)建1. 點(diǎn)擊相應(yīng)模塊,拖拽構(gòu)成整個(gè)訓(xùn)練的流程第8頁,共33頁。模型訓(xùn)練 流程創(chuàng)建2. 填寫相關(guān)模塊的參數(shù)第9頁,共33頁。模型訓(xùn)練 模塊詳解模塊分為兩種類型:Transformer 輸入是1或多個(gè)DataFrame,輸出是1或多個(gè)DataFrameModel Trainer - 輸入是1或多個(gè)DataFrame,輸出是一個(gè)Model特殊模塊 Model Transformer 輸入1個(gè)模型, 1或多個(gè)DataFrame,輸出 1或多個(gè)DataFrame第10頁,共33頁。模型訓(xùn)練 - 訓(xùn)練模型的運(yùn)行和調(diào)試第11頁,共3
4、3頁。模型訓(xùn)練 - Scala和Python自定義模塊第12頁,共33頁。模型訓(xùn)練 - 數(shù)據(jù)預(yù)覽對(duì)于每個(gè)模塊輸出的DataFrame,我們都提供了數(shù)據(jù)預(yù)覽和用戶自定義SQL(SparkSQL)查詢的功能第13頁,共33頁。模型訓(xùn)練 - 數(shù)據(jù)探索數(shù)據(jù)繪圖:集成Pandas,matplotlib第14頁,共33頁。模塊定制模塊代碼:一段普通的Spark的代 碼參數(shù)使用特殊的占位符參數(shù)信息自動(dòng)識(shí)別為配 置項(xiàng)* 如果模塊需要保存,則 相關(guān)邏輯必須封裝為 spark.ml包中Transformer 和EsImator的形式第15頁,共33頁。訓(xùn)練結(jié)果的導(dǎo)出導(dǎo)出的訓(xùn)練模型會(huì)保存在HDFS相關(guān)的路徑下第16
5、頁,共33頁。訓(xùn)練結(jié)果的導(dǎo)出查看已經(jīng)保存的模型第17頁,共33頁。線上服務(wù)開發(fā)的支持提供Jar包,用戶只要在maven中 添加依賴,就能夠使用相關(guān)的 API開發(fā)步驟:初始化將輸入數(shù)據(jù)轉(zhuǎn)化為DataFrameLoad起已經(jīng)保存的Transformer和Model按照順序調(diào)用Transform和predict方法第18頁,共33頁。目錄背景介紹算法平臺(tái)的功能算法平臺(tái)的架構(gòu)和實(shí)現(xiàn) 算法平臺(tái)的應(yīng)用算法平臺(tái)未來的方向第19頁,共33頁??傮w架構(gòu)YARN ClusterWeb ServerZeppelin ThriW Serverstartcreate SparkContextstartrunSpark-
6、ReplSparkIMain interpret第20頁,共33頁。總體架構(gòu)2每個(gè)訓(xùn)練任務(wù)(稱為pipeline)會(huì)單獨(dú)起一個(gè)Zeppelin的ThriW Server初始化(Lazy):Web Server調(diào)用Marathon(Mesos)的Res5ul API啟動(dòng)Zepplin ThriW ServerZepplin ThriW Server會(huì)在YARN集群中創(chuàng)建一個(gè)常駐的Spark任務(wù) 執(zhí)行:Web Server中集成了Zeppelin Client,我們先將Pipeline和Module映射成為Zeppelin的Note和Paragraph,然后就會(huì)被提交到Zeppelin的ThriW
7、 Server執(zhí) 行Zeppelin的ThriW Server使用Spark-Repl(Spark的交互界面就是使用這個(gè)實(shí) 現(xiàn)的),將scala的代碼編譯后提交到常駐在YARN集群的Spark任務(wù)中執(zhí)行第21頁,共33頁。執(zhí)行引擎 - Docker負(fù)責(zé)Zeppelin ThriW Server的生命周期的管理執(zhí)行引擎MarathonMesosHM 2Hive / Spark / Hadoop EnvHost MachineContainer1Container2Web ServerAPIAPI第22頁,共33頁。執(zhí)行引擎 - ZeppelinWeb ServerZeppelin ClientZ
8、eppelinThriWServerRemoteInterpreterServerNotebookThriW ServerSparkSQL InterpreterSpark IMainSpark InterpreterPySpark Interpreter將CML Studio的pipeline和module轉(zhuǎn)換為zeppelin的Note和paragraph第23頁,共33頁。技術(shù)選型的考慮選擇Docker和Zeppelin的原因:Mesos提供了方便的資源管理的功能Marathon提供了簡(jiǎn)便的應(yīng)用管理的功能Zeppelin則提供了一個(gè)Spark交互執(zhí)行的引擎由于人力資源的原因,使我們選擇使
9、用開源產(chǎn)品或是在開源項(xiàng)目的基礎(chǔ)上 進(jìn)行2次開發(fā)整體加速了項(xiàng)目的進(jìn)展在二次開發(fā)的過程中鍛煉了團(tuán)隊(duì)的技術(shù)能力第24頁,共33頁。經(jīng)驗(yàn)分享不斷的打磨產(chǎn)品目前的產(chǎn)品形態(tài)經(jīng)過了幾個(gè)不同版本的演化產(chǎn)品的易用性和穩(wěn)定性是它的生命,關(guān)注使用細(xì)節(jié)Example1 最初版本每個(gè)模塊的結(jié)果都會(huì)落地,每個(gè)模塊的輸入輸 出都是需要用戶手動(dòng)填寫的Example2 批量結(jié)果導(dǎo)出的功能在最初的版本中不存在,只提供用 戶手動(dòng)導(dǎo)出單個(gè)模塊的訓(xùn)練結(jié)果的功能Example 3 數(shù)據(jù)探索的功能是根據(jù)用戶的需求加入的第25頁,共33頁。技術(shù)經(jīng)驗(yàn)和踩過的坑技術(shù)經(jīng)驗(yàn)分享(具體技術(shù)點(diǎn))Python代碼模塊的加入:將Input的Datafram
10、e注冊(cè)成為臨時(shí)表Spark資源的釋放:Zeppelin的后端獲取到當(dāng)前Zeppelin ThriW Server的狀 態(tài),如果狀態(tài)超過一定時(shí)間為NO_OP,則關(guān)閉它XGBoost模塊加入過程中的經(jīng)驗(yàn)hcps:/dmlc/xgboost/issues/1276nWorkers的值不能大于可用的核數(shù),否則會(huì)出現(xiàn)Hang住不動(dòng)的情況hcps:/dmlc/xgboost/issues/1284第26頁,共33頁。目錄背景介紹算法平臺(tái)的功能算法平臺(tái)的架構(gòu)和實(shí)現(xiàn) 算法平臺(tái)的應(yīng)用算法平臺(tái)未來的方向第27頁,共33頁。機(jī)票 - 產(chǎn)品智能推薦用戶在攜程上購買機(jī)票后, 攜程會(huì)給他們推薦一些機(jī)票 的附加產(chǎn)品我們根據(jù)
11、用戶歷史的購買行為的 信息用戶畫像的信息航班本身的信息來預(yù)測(cè)用戶購買這些產(chǎn)品的 概率,從而來決定是否默認(rèn) 幫用戶勾選上某些產(chǎn)品第28頁,共33頁。根據(jù)天氣(主要)航班的信息其他信息來預(yù)測(cè)需要的客服人員的 數(shù)量(每周一次)根據(jù)預(yù)測(cè)的客服的需求量 進(jìn)行客服的自動(dòng)排班機(jī)票 - 客服話務(wù)量預(yù)測(cè)第29頁,共33頁。度假 - 刷單行為的識(shí)別 1度假平臺(tái)上零售、代理產(chǎn)品的刷單比較猖獗,據(jù)估計(jì)非自營(yíng)刷單占到訂單 整體的30%左右。這些刷單產(chǎn)生了嚴(yán)重的負(fù)面影響,亟待清理。端全5分好評(píng)評(píng)論無圖評(píng)論均來自PC 點(diǎn)評(píng)時(shí)間均在工作時(shí)間C都有總有差評(píng)評(píng)論帶圖評(píng)論APP、P 點(diǎn)評(píng)時(shí)間分散典典型型刷刷單單全5分好評(píng)評(píng)論均來自PC端評(píng)論無圖點(diǎn)評(píng)時(shí)間均在工作時(shí)間正正常常產(chǎn)產(chǎn)品品總有差評(píng)評(píng)論APP、PC都有評(píng)論帶圖點(diǎn)評(píng)時(shí)間分散第30頁,共33頁。度假 - 刷單行為的識(shí)別 2攜程外網(wǎng)基礎(chǔ)數(shù)據(jù)規(guī)則系統(tǒng)機(jī)器學(xué)習(xí)人工正例人工負(fù) 例刷單懲罰平臺(tái)申訴渠道恢復(fù)銷 量點(diǎn)評(píng)在刷單識(shí)別項(xiàng)目開展初期,通過總 結(jié)業(yè)務(wù)經(jīng)驗(yàn)、對(duì)各維度數(shù)據(jù)進(jìn)行統(tǒng) 計(jì)分析,擬定了一系列規(guī)則來識(shí)別 刷單,取得的一定的進(jìn)展將繁復(fù)的人工規(guī)則設(shè)定、閾值調(diào)節(jié) 工作轉(zhuǎn)化為新特征的整理,并通過 各個(gè)渠道積累正例和反例通過分類(主要使用XgBoost)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年移動(dòng)平板滑輪車項(xiàng)目可行性研究報(bào)告
- 成都2025年四川成都師范學(xué)院招聘高層次人才67人(第一批)筆試歷年參考題庫附帶答案詳解
- 2025年水族產(chǎn)品項(xiàng)目可行性研究報(bào)告
- 2025年顯色皂洗機(jī)項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國(guó)實(shí)心輪胎模具行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年可轉(zhuǎn)位車刀項(xiàng)目可行性研究報(bào)告
- 2025年單回路數(shù)字控制系統(tǒng)項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國(guó)MDF總配線架行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年GSM短消息監(jiān)控系統(tǒng)項(xiàng)目可行性研究報(bào)告
- 2025至2030年中國(guó)陰極保護(hù)電源數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- VDA6.3 基本知識(shí)培訓(xùn)教材
- 萜類天然藥物化學(xué)
- 妊娠合并急性胰腺炎課件
- (全國(guó)通用)三甲人民醫(yī)院診斷證明書請(qǐng)假條模板(廣東佛山)
- 《滅火器維修》GA95-2015(全文)
- 表面工程學(xué)課件-全
- 皮膚科疑難病例討論課件
- 通信系統(tǒng)防雷與接地下篇的知識(shí)
- Q∕GDW 12118.2-2021 人工智能平臺(tái)架構(gòu)及技術(shù)要求 第2部分:算法模型共享應(yīng)用要求
- 管理者完成目標(biāo)的五步19法姜洋講義
- 亳州市污水處理廠工藝設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論