版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中科普開HADOOP大數(shù)據(jù)課程運(yùn)用Hadoop開源技術(shù)
推動(dòng)大數(shù)據(jù)落地大數(shù)據(jù)開源技術(shù)分析EasyHadoop社區(qū)創(chuàng)始人童小軍tongxiaojun@EasyHadoop簡(jiǎn)介EasyHadoop讓大數(shù)據(jù)更簡(jiǎn)單【軟件社區(qū)】起源:一鍵Hadoop安裝腳本。發(fā)展:暴風(fēng),藍(lán)訊,優(yōu)酷,億贊普,人民搜索【聚會(huì)】立足:中小型,可落地的,10-500節(jié)點(diǎn)技術(shù)經(jīng)驗(yàn)分享致力于在中國(guó)推廣和普及Hadoop相關(guān)技術(shù)EasyHadoopOpenSourceCommunity個(gè)人介紹2012年5月2日-第一個(gè)在國(guó)內(nèi)成功通過Cloudera認(rèn)證考試,成為首位在國(guó)內(nèi)獲得美國(guó)Cloudera公司認(rèn)證的ApacheHadoop開發(fā)工程師(ClouderaCertifiedDeveloperforApacheHadoop,CCDH)。作為ApacheHadoop在中國(guó)商業(yè)化的開始的標(biāo)志。被列入Hadoop百度百科,Hadoop大事記中。詳見:/view/908354.htm社區(qū)Hadoop技術(shù)電子出版物EasyHadoop實(shí)戰(zhàn)手冊(cè):Hadoop企業(yè)級(jí)部署實(shí)施指南EasyHive手冊(cè):Hive企業(yè)實(shí)施指南EasyHadoop社區(qū)技術(shù)聚會(huì)成功舉辦了七次Hadoop開發(fā)者活動(dòng)。暴風(fēng)、藍(lán)訊、百度、淘寶、騰訊、阿里巴巴、
人民搜索、億贊普等一線開發(fā)者的分享經(jīng)驗(yàn)。我們?nèi)绾尾拍茏龅母?培訓(xùn)目標(biāo)熟悉HADOOP應(yīng)用背景123了解Hadoop應(yīng)用案例了解Hadoop技術(shù)最佳實(shí)踐培訓(xùn)目錄大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫概述1Hadoop應(yīng)用案例和云平臺(tái)2Hadoop數(shù)據(jù)倉(cāng)庫[python/java]最佳實(shí)踐3數(shù)據(jù)可視化案例4基于數(shù)據(jù)倉(cāng)庫平臺(tái)改造變遷5阿里金融通過大數(shù)據(jù)整合掘金! 阿里金融的信用評(píng)估系統(tǒng)會(huì)自動(dòng)分析小微企業(yè)的數(shù)據(jù),例如企業(yè)通過支付寶,淘寶進(jìn)行的支付數(shù)據(jù),最終算出信用評(píng)估和放貸額度。 截止2011年底,阿里金融對(duì)近30萬家小微企業(yè)進(jìn)行信用評(píng)估。累計(jì)投放96800家,投放貸款154億,壞賬率為交易額的0.76%。阿里金融的實(shí)時(shí)業(yè)務(wù)墻阿里金融的數(shù)據(jù)模型任務(wù)(局部)每個(gè)模型任務(wù)都是面向海量數(shù)據(jù)的大規(guī)模運(yùn)算任務(wù)。天貓/淘寶雙十一191億背后的開源技術(shù)?@dbatools:雙十一一天時(shí)間,支付寶核心數(shù)據(jù)庫集群處理了41億個(gè)事務(wù),執(zhí)行285億次SQL,訪問1931億次內(nèi)存數(shù)據(jù)塊,13億個(gè)物理讀,生成15TB日志。數(shù)據(jù)應(yīng)用開發(fā)平臺(tái)——數(shù)據(jù)工場(chǎng)
Hive報(bào)表需求(淘數(shù)據(jù))Hbase即席查詢(adhoc)數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)產(chǎn)品淘寶數(shù)據(jù)云梯平臺(tái)-產(chǎn)品架構(gòu)實(shí)時(shí)計(jì)算
底層平臺(tái)數(shù)據(jù)開發(fā)平臺(tái)數(shù)據(jù)應(yīng)用是需求驅(qū)動(dòng)技術(shù),技術(shù)帶動(dòng)需求?思考-云計(jì)算技術(shù)有兩極3200臺(tái)主機(jī)Hadoop解決了什么難題?移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù),化整為零,分片處理。本地化計(jì)算,并行IO,降低網(wǎng)絡(luò)通信思考-數(shù)據(jù)分析系統(tǒng)的基本指標(biāo)思考-數(shù)據(jù)分析系統(tǒng)的基本指標(biāo)海量用戶大規(guī)模批量服務(wù)(服務(wù)1.0)
決策邏輯
數(shù)據(jù)庫用戶1邏輯1邏輯N數(shù)據(jù)集編輯人員用戶N
編輯邏輯信息生產(chǎn)者信息消費(fèi)者M(jìn)ysql/Oracle
大數(shù)據(jù)倉(cāng)庫海量用戶大規(guī)模個(gè)性化服務(wù)(服務(wù)2.0)
決策邏輯
大數(shù)據(jù)庫用戶1邏輯1服務(wù)數(shù)據(jù)1用戶N邏輯N服務(wù)數(shù)據(jù)N原始數(shù)據(jù)N挖掘邏輯NHiveHbaseStormHadoop原始數(shù)據(jù)1原始數(shù)據(jù)2信息生產(chǎn)者/消費(fèi)者規(guī)則制定上帝之手本質(zhì):智能組織->智能群體實(shí)時(shí)思考-數(shù)據(jù)分析系統(tǒng)的基本指標(biāo)反饋決策周期!快反饋決策粒度!細(xì)反饋決策準(zhǔn)確性!準(zhǔn)
反饋總體成本!廉價(jià)數(shù)據(jù)統(tǒng)計(jì)/分析是一個(gè)組織
自動(dòng)控制,自學(xué)習(xí),自調(diào)整系統(tǒng)核心組成部分。機(jī)會(huì)成本!想象空間!Hadoop前的數(shù)據(jù)倉(cāng)庫流程反饋決策周期!快?反饋決策粒度!細(xì)?反饋決策準(zhǔn)確性!準(zhǔn)?
反饋總體成本!廉價(jià)?perl,shell,awkHadoop后的數(shù)據(jù)倉(cāng)庫流程反饋決策周期!快?反饋決策粒度!細(xì)?反饋決策準(zhǔn)確性!準(zhǔn)?
反饋總體成本!廉價(jià)?持續(xù)擴(kuò)展成本?Hql,Pig,Mapreduce,工作流
那些用戶需要Hadoop(合)技術(shù)?
案例解析UserCase1(網(wǎng)頁游戲)國(guó)內(nèi)網(wǎng)頁游戲廠商百個(gè)服/網(wǎng)頁游戲,30-50個(gè)庫/服10G用戶數(shù)據(jù)/天/游戲[十幾款游戲]場(chǎng)景:游戲玩家行為分析其他平臺(tái):數(shù)據(jù)無法導(dǎo)出中間數(shù)據(jù)匯總丟棄,無法用戶級(jí)分析UserCase2(智慧交通)用戶:最大城市,交通領(lǐng)域(Citytraffic)場(chǎng)景:車牌記錄[CarLicencePlate],100億[10Billion]/年需求:小時(shí)級(jí)別->優(yōu)化到分鐘級(jí)[Minute]->未來優(yōu)化到秒級(jí)[Seconds]查詢IntelligentTransportationSmarterCities場(chǎng)景:車輛異??焖僮R(shí)別VehicleAbnormal交通安全問題Hadoop技術(shù)其他應(yīng)用領(lǐng)域電信醫(yī)療交通公安航空電力金融搜索社交游戲視頻民生核心基于hadoop的數(shù)據(jù)平臺(tái)總體架構(gòu)Python結(jié)合HadoopStreaming
原理解析MapReduce基本流程實(shí)現(xiàn)distinct一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624使用python實(shí)現(xiàn)distinct/count一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624 importsys forlineinsys.stdin: try: flags=line[1:-2] str=flags+'\t'+'1' printstr exceptException,e: printe#!/usr/bin/pythonimportsysres={} forlineinsys.stdin:try:flags=line[:-1].split('\t')iflen(flags)!=2:continuefield_key=flags[0]ifres.has_key(field_key)==False:res[field_key]=[0]res[field_key][0]=1exceptException,e:passforkeyinres:printkey
(distinct\count)--map(distinct)--red#!/usr/bin/pythonimportsyslastuid=""num=1forlineinsys.stdin:uid,count=line[:-1].split('\t')iflastuid=="":lastuid=uidiflastuid!=uid:num+=1lastuid=uidprintnum
(count的優(yōu)化實(shí)現(xiàn))--reduce基于PythonMapReduceStreaming快速并行編程一、單機(jī)測(cè)試 headtest.log|pythonmap.py|pythonred.py一、將文件上傳到集群 /bin/hadoop fs-copyFromLocaltest.log/hdfs/三、運(yùn)行mapred/bin/hadoopjarcontrib/streaming/hadoop-streaming-.jar-file/path/map.py-file/path/red.py-mappermap.py
-reducerred.py-input /path/test.log-output/path/通過界面查看任務(wù)狀態(tài)Python快速構(gòu)建數(shù)據(jù)分析模塊ComETL軟件地址:/zhuyeqing/ComETL1.支持簡(jiǎn)單工作流2.支持自動(dòng)恢復(fù)3.支持自定義驅(qū)動(dòng)4.支持HiveMysqlMapReduce等模式作者:趙修湘極少的代碼量,幾萬行吧!類似系統(tǒng)SqoopDataXOozieComEtl配置樣例etl_op={"run_mode":'day',"delay_hours":2,"jobs":[{"job_name":"job1","analysis":[{'etl_class_name':'ExtractionEtl','step_name':'mysql_e_1','db_type':'hive','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_save_type':'SimpleOutput',"sql_assemble":'SimpleAssemble','sql':'select*fromtest.a2limit30',},],"transform":[{'etl_class_name':'TransformEtl','step_name':'transform1','data_source':[{"job_name":"job1","step_name":'mysql_e_1','data_field':''},],'data_transform_type':'SimpleTransform',},],"loading":[{'etl_class_name':'LoadingEtl','step_name':'load1','data_source':{"job_name":"job1","step_name":'transform1'},'db_type':'mysql','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_load_type':'SplitLoad','data_field':'a|b'},]}}Pig內(nèi)嵌JPython實(shí)現(xiàn)PageRank算法JPython+pig代碼實(shí)現(xiàn)演示/julienledem/Pig-scripting-examples/blob/其他PythonMapReduce框架Pydoop-PythonAPIforHadoopMapReduceandHDFS/docs/Happy-/p/happy/datafu-Pig算法庫linkedin/linkedin/datafu總體數(shù)據(jù)規(guī)模總空間150T以上,
每日新增數(shù)據(jù)0.5T20+服務(wù)器的Hadoop/hive計(jì)算平臺(tái)單個(gè)任務(wù)優(yōu)化從7個(gè)小時(shí)到1個(gè)小時(shí)每日Hive查詢1200+每天處理3000+作業(yè)任務(wù)每天處理10T+數(shù)據(jù)集群資源利用率Page
46Hadoop集群監(jiān)控Cacti默認(rèn)Cacti模板太少
增加模板
我們的模板
磁盤IO
內(nèi)存詳情
單個(gè)內(nèi)核使用
CPU總和及IOWait
JMX支持監(jiān)控Hadoop
HAProxy+Hive網(wǎng)絡(luò)拓?fù)銺ueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高可用集群數(shù)據(jù)平臺(tái)技術(shù)路線發(fā)展PythonHadoop最佳實(shí)踐通過TornadoNginx接受日志通過Scribe同步數(shù)據(jù)使用Python編寫加載和清洗腳本使用ComEtl通過Hive做ETL參考HappyEtl,Pydoop編寫PythonStreaming使用CronHub做定時(shí)調(diào)度使用phpHiveAdmin提供自助查詢使用Mysql存儲(chǔ)中間結(jié)果通過Tornado+highcharts/gnuplot提供報(bào)表展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控集群整體構(gòu)建在Hadoop+Hive+pig基礎(chǔ)平臺(tái)之上。參加EasyHadoop聚會(huì)學(xué)習(xí)使用EasyHadoop管理集群HadoopJAVA數(shù)據(jù)最佳實(shí)踐通過
Nginx+tomcat接受日志通過Scribe,Flume-Ng同步數(shù)據(jù)使用Jython編寫加載和清洗腳本使用Sqoop,DataX通過Hive做ETL參考JavaMapReduceAPI編寫程序使用CronHub做定時(shí)調(diào)度使用phpHiveAdmin+hive+haproxy提供自助查詢使用Mysql/Oracle存儲(chǔ)中間結(jié)果通過Spring+struts+highcharts/gnuplot/JFreeChart提供報(bào)表展現(xiàn)使用Python+NagiosCactiGanglia監(jiān)控集群整體構(gòu)建在Hadoop+Hive+Pig基礎(chǔ)平臺(tái)之上。參加EasyHadoop聚會(huì)學(xué)習(xí)使用ClouderaManager管理集群基于云平臺(tái)構(gòu)建的集群性能?HDCluster:80Core,180GHZ,10TB20*AliyunStandardCCloudServer4GRAM,4Core*2.26GHz500GBHadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->Hadoop用EasyHadoop安裝和管理節(jié)點(diǎn)啟動(dòng)100個(gè)Map生成100億數(shù)據(jù)通過100個(gè)Map用Perl隨機(jī)生成數(shù)據(jù)準(zhǔn)備,1kw,1億,10億,100億,100GB數(shù)據(jù)集通過Hive創(chuàng)建測(cè)試庫表結(jié)構(gòu)使用phpHiveadmin+HQL查詢返回結(jié)果PhpHiveAdmin界面查詢SELECTidFROM
Tablewhereidlike'%JA-sq%';
(模糊匹配查詢出ID帶JA-sq的車牌號(hào))1億數(shù)據(jù),并行5Map進(jìn)程,144w/s掃描速度,69s返回10億數(shù)據(jù),并行46Map進(jìn)程,800w/s掃描速度,117s返回100億數(shù)據(jù),并行453Map進(jìn)程,5400w/s掃描速度,3分鐘返回,基本滿足需求。SELECTid,COUNT(*)FROMTable
GROUP
BYid
(對(duì)每個(gè)車牌號(hào)分組歸并,并求出現(xiàn)次數(shù))1億數(shù)據(jù),并行5Map進(jìn)程,2Reduce進(jìn)程,104w/s處理速度,96s返回10億數(shù)據(jù),并行46Map進(jìn)程,13Reduce進(jìn)程,230w/s處理速度,7分鐘返回100億數(shù)據(jù),并行453Map進(jìn)程,121Reduce進(jìn)程,500w/s處理速度,54分鐘返回。Hadoop預(yù)算解析
其他方案的成本對(duì)比!投入成本
(10TB預(yù)算)IOE(IBM+Oracle+EMC)時(shí)代(x)kw+
自建Hadoop集群(20*4w+4w)=80w+
使用云主機(jī)構(gòu)建Hadoop[2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師讀書分享會(huì)方案
- 綠色建筑設(shè)計(jì)方案
- 建筑垃圾處理法律法規(guī)遵循方案
- 燃?xì)馄髽I(yè)財(cái)務(wù)風(fēng)險(xiǎn)管理問題探析
- 普通話書寫規(guī)范培訓(xùn)方案
- 幼教機(jī)構(gòu)安全教育培訓(xùn)制度
- 《員工福利協(xié)議》
- 科技公司內(nèi)部控制整改方案
- 面粉行業(yè)可持續(xù)發(fā)展策略方案
- 科技公司疫情防控隔離方案
- 2023-2024學(xué)年北京市清華附中朝陽學(xué)校七年級(jí)(上)期中數(shù)學(xué)試卷【含解析】
- 北京三甲中醫(yī)疼痛科合作方案
- 《夏天里的成長(zhǎng)》語文教學(xué)PPT課件(6篇)
- 液壓技術(shù)與氣動(dòng)技術(shù)課程設(shè)計(jì)
- 部編版小學(xué)語文四年級(jí)上冊(cè)習(xí)作七《寫信》PPT教學(xué)講座課件
- EN10130-2006冷成形用低碳鋼冷軋鋼板和鋼帶交貨技術(shù)條件
- 山東省產(chǎn)前篩查與診斷管理辦法實(shí)施細(xì)則
- 機(jī)械基礎(chǔ)軸上零件軸向固定公開課課件
- 管線工程測(cè)量施工方案(雨污分流管網(wǎng)工程)
- 醫(yī)院基本建設(shè)存在的問題及對(duì)策
- 農(nóng)機(jī)修理工培訓(xùn)大綱
評(píng)論
0/150
提交評(píng)論