版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2015-7-31大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具操作管理手冊(cè)|作者:尹標(biāo)平大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具1 概述31.1 技術(shù)體系31.2 基本概念41.3 整體架構(gòu)51.3.1 管理節(jié)點(diǎn)51.3.2 數(shù)據(jù)節(jié)點(diǎn)62 作業(yè)指令72.1 指令概述72.1.1 操作指令72.1.2 執(zhí)行作業(yè)指令類型 92.2 作業(yè)指令詳解102.2.1 刪除hdfs目錄/文件指令 102.2.2 停止數(shù)據(jù)源指令112.2.3 作業(yè)任務(wù)重新調(diào)度指令 112.2.4 執(zhí)行作業(yè)指令123 作業(yè)監(jiān)控513.1 監(jiān)控功能概述513.2 監(jiān)控詳解523.2.1 查看所有作業(yè)清單 523.2.2 查看當(dāng)前管理節(jié)點(diǎn)信息和所有數(shù)據(jù)處理節(jié)點(diǎn)信息 53
2、3.2.3 查看作業(yè)的定義533.2.4 查看作業(yè)任務(wù)統(tǒng)計(jì)概況 533.2.5 查看作業(yè)在每個(gè)數(shù)據(jù)處理節(jié)點(diǎn)上的任務(wù)統(tǒng)計(jì)概況 543.2.6 查看作業(yè)分配在每個(gè)數(shù)據(jù)處理節(jié)點(diǎn)上的作業(yè)任務(wù)執(zhí)行狀態(tài) 553.2.7 查看作業(yè)歷史記錄 554 數(shù)據(jù)庫說明564.1 表及表結(jié)構(gòu)564.2 內(nèi)置數(shù)據(jù)源和作業(yè)數(shù)據(jù)源 575 版本發(fā)布及部署運(yùn)行 585.1 工程說明585.1.1 bigdata 工程585.1.2 bigdatamonitor監(jiān)控管理工程585.2 構(gòu)建版本595.2.1 Bigdata 工程構(gòu)建595.2.2 bigdatamonitor工程構(gòu)建605.3 依賴環(huán)境615.4 配置和部署運(yùn)行
3、615.4.1 配置635.4.2 部署705.4.3 運(yùn)行711概述大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具實(shí)現(xiàn)db到hdfs數(shù)據(jù)導(dǎo)入功能,提供高效的分布式并行處理能力,可以采用數(shù)據(jù)庫分區(qū)、按字段分區(qū)、分頁方式并行批處理抽取db數(shù)據(jù)到hdfs文件系統(tǒng)中,能有效解決按字段分區(qū)數(shù)據(jù)導(dǎo)致各分區(qū)數(shù)據(jù)不均勻?qū)е伦鳂I(yè) 負(fù)載不均衡的問題。數(shù)據(jù)處理服務(wù)器為每個(gè)作業(yè)分配獨(dú)立的作業(yè)任務(wù)處理工作線程和任務(wù)執(zhí)行隊(duì)列,作業(yè)之間互不干擾靈活的作業(yè)任務(wù)處理模式:可以增量方式執(zhí)行作業(yè)任務(wù),作業(yè)可以停止后重新執(zhí)行,重新執(zhí)行時(shí)只需執(zhí)行未完成的作業(yè)任務(wù),也可以全部重新執(zhí)行所有作業(yè)任務(wù);當(dāng)停止作業(yè)后,可以在原有作業(yè)切分的基礎(chǔ)進(jìn)一步切分出子任務(wù),然后
4、再重新執(zhí)行作業(yè),提升系統(tǒng)處理數(shù)據(jù)效率。采用異步事件驅(qū)動(dòng)模式來管理和分發(fā)作業(yè)指令、采集作業(yè)狀態(tài)數(shù)據(jù)。通過管理監(jiān)控端,可以實(shí)時(shí)監(jiān)控作業(yè)在各個(gè)數(shù)據(jù)處理節(jié)點(diǎn)作業(yè)任務(wù)的實(shí)時(shí)運(yùn)行狀態(tài), 查看作業(yè)的歷史執(zhí)行狀態(tài),方便地實(shí)現(xiàn)提交新的作業(yè)、重新執(zhí)行作業(yè)、停止正在執(zhí) 行的作業(yè)、清除作業(yè)執(zhí)行監(jiān)控?cái)?shù)據(jù)、同步作業(yè)任務(wù)執(zhí)行狀態(tài)等操作1.1 技術(shù)體系Bboss ioc :輕量級(jí)ioc容器,ioc擴(kuò)展屬性配置語法Bboss持久層:高效數(shù)據(jù)查詢行處理器,靈活動(dòng)態(tài)數(shù)據(jù)源管理(連接池?cái)?shù)據(jù)源/非連接池?cái)?shù)據(jù)源),表分區(qū)信息查詢等,動(dòng)態(tài)創(chuàng)建作業(yè)配置表和作業(yè)監(jiān)控記錄表Bboss分布式事件框架:基于JGroups,提供異步分布式事件驅(qū)動(dòng)模型
5、,動(dòng)態(tài)管理作業(yè)節(jié)點(diǎn)(服務(wù)節(jié)點(diǎn)和數(shù)據(jù)處理節(jié)點(diǎn)),包括作業(yè)節(jié)點(diǎn)的動(dòng)態(tài)加入、動(dòng)態(tài)離開等;在管理 節(jié)點(diǎn)、數(shù)據(jù)處理節(jié)點(diǎn)之間分發(fā)和接收各種作業(yè)處理指令事件Bboss mvc :實(shí)現(xiàn)監(jiān)控管理應(yīng)用模塊,在監(jiān)控服務(wù)節(jié)點(diǎn)中,通過mvc容器啟動(dòng)監(jiān)聽器啟動(dòng)作業(yè)管理節(jié)點(diǎn)Bboss序列化組件:用來將作業(yè)監(jiān)控?cái)?shù)據(jù)序列化存儲(chǔ)到sqllite中的作業(yè)監(jiān)控表,同時(shí)在查看作業(yè)執(zhí)行歷史時(shí)將序列化存儲(chǔ)的作業(yè)監(jiān)控?cái)?shù)據(jù)還原為對(duì)象狀態(tài)的監(jiān)控對(duì)象,便于界面展示Bboss標(biāo)簽庫,jquery 等:實(shí)現(xiàn)監(jiān)控管理應(yīng)用的視圖層Hadoop Hdfs 客戶端:用來連接 hadoop hdfs 文件系統(tǒng)Sqllite :在監(jiān)控節(jié)點(diǎn)中保存作業(yè)配置,保存作業(yè)
6、執(zhí)行狀態(tài)數(shù)據(jù)Jetty :運(yùn)行監(jiān)控管理應(yīng)用模塊的web應(yīng)用容器Bboss應(yīng)用執(zhí)行容器:用來啟動(dòng)作業(yè)管理監(jiān)控應(yīng)用、作業(yè)數(shù)據(jù)處理應(yīng)用、啟動(dòng) jetty容 器1.2 基本概念指令:可以在管理節(jié)點(diǎn)上或者數(shù)據(jù)處理節(jié)點(diǎn)執(zhí)行的一系列操作,比如數(shù)據(jù)抽取操作、停止數(shù)據(jù)源操作、刪除hdfs文件操作等等作業(yè):一個(gè)完整的數(shù)據(jù)抽取指令, 比如表數(shù)據(jù)抽取到hdfs作業(yè)等,停止數(shù)據(jù)源作業(yè)指令等, 一個(gè)作業(yè)可以被分解為做個(gè)作業(yè)任務(wù),然后交個(gè)數(shù)據(jù)處理節(jié)點(diǎn)執(zhí)行。數(shù)據(jù)處理節(jié)點(diǎn)會(huì)給每個(gè)作業(yè)分配獨(dú)立的作業(yè)任務(wù)處理隊(duì)列和作業(yè)工作線程,作業(yè)之間互不干擾;處理隊(duì)列長度和工作線程數(shù)可以在作業(yè)定義中進(jìn)行配置(可以根據(jù)作業(yè)對(duì)應(yīng)的數(shù)據(jù)量級(jí)別、服務(wù)器
7、資源配置以 及數(shù)據(jù)庫并發(fā)處理能力進(jìn)行靈活配置)作業(yè)任務(wù):由作業(yè)分解而成,將由數(shù)據(jù)處理節(jié)點(diǎn)中的分配給對(duì)應(yīng)作業(yè)的工作線程處理執(zhí)行,如果對(duì)應(yīng)的作業(yè)沒有空閑的作業(yè)線程,則將作業(yè)任務(wù)加入作業(yè)對(duì)應(yīng)的工作隊(duì)列,如果作業(yè)工作隊(duì)列也滿了,則阻塞等待直到有空閑的作業(yè)隊(duì)列或者作業(yè)工作線程。管理節(jié)點(diǎn):管理、監(jiān)控、調(diào)度作業(yè)的服務(wù)器數(shù)據(jù)處理節(jié)點(diǎn):處理和執(zhí)行作業(yè)任務(wù)的服務(wù)器數(shù)據(jù)塊號(hào):作業(yè)抽取的海量數(shù)據(jù)會(huì)按照表字段分區(qū)或者表分區(qū)切分成不同的數(shù)據(jù)塊, 每個(gè)數(shù) 據(jù)塊分配一個(gè)唯一塊號(hào), 表字段分區(qū)對(duì)應(yīng)數(shù)據(jù)塊可以進(jìn)一步進(jìn)行二次切分成多個(gè)子塊, 以便 數(shù)據(jù)抽取任務(wù)更加均勻地分配到各個(gè)作業(yè)節(jié)點(diǎn)上執(zhí)行, 提升抽取效率和速度,表分區(qū)數(shù)據(jù)塊
8、不能進(jìn)行二次切分。1.3 整體架構(gòu)服務(wù)器類型分為管理節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)兩種,它們之間通過分布式事件框架通訊,彼此之間又具備獨(dú)立性,一個(gè)節(jié)點(diǎn)失效不會(huì)影響其他節(jié)點(diǎn)作業(yè)任務(wù)的執(zhí)行。1.3.1管理節(jié)點(diǎn)數(shù)量:只有一臺(tái),作用:執(zhí)行所有作業(yè)指令的入口,監(jiān)控所有數(shù)據(jù)節(jié)點(diǎn)作業(yè)狀態(tài)(正常、異常、運(yùn)行、等待、終止、完成等)和進(jìn)展情況(數(shù)據(jù)任務(wù)處理狀態(tài),成功數(shù)據(jù)行數(shù),異常數(shù)據(jù)行數(shù),總的記錄行數(shù)等 等),管理節(jié)點(diǎn)也可以作為數(shù)據(jù)節(jié)點(diǎn)。分解作業(yè)任務(wù),根據(jù)作業(yè)定義,將作業(yè)分解成多個(gè)任務(wù), 然后將作業(yè)任務(wù)均勻地分配給數(shù)據(jù) 處理節(jié)點(diǎn)執(zhí)行調(diào)度任務(wù),根據(jù)數(shù)據(jù)處理節(jié)點(diǎn)作業(yè)任務(wù)執(zhí)行情況,將任務(wù)繁忙的作業(yè)任務(wù)調(diào)配到相對(duì)較空閑的作業(yè)數(shù)據(jù)處理節(jié)點(diǎn)
9、【開發(fā)中】停止作業(yè)任務(wù),在作業(yè)執(zhí)行過程中可以停止正在執(zhí)行的作業(yè)重新執(zhí)行已經(jīng)完成的作業(yè)或者重新執(zhí)行修改了配置的作業(yè)管理hdfs文件:刪除hdfs文件和目錄管理作業(yè)使用的數(shù)據(jù)源:停止不需要的數(shù)據(jù)源,或者作業(yè)數(shù)據(jù)源參數(shù)修改調(diào)整后,為了加載新的配置而停止數(shù)據(jù)源采集作業(yè)狀態(tài)數(shù)據(jù)源: 通過異步事件機(jī)制,采集分布在每個(gè)數(shù)據(jù)處理節(jié)點(diǎn)上的作業(yè)任務(wù)執(zhí)行 狀態(tài)數(shù)據(jù),包括:作業(yè)執(zhí)行狀態(tài)、作業(yè)任務(wù)執(zhí)行狀態(tài)、數(shù)據(jù)抽取進(jìn)度、異常情況、已經(jīng)完成 作業(yè)任務(wù)清單、未完成作業(yè)任務(wù)清單、失敗作業(yè)任務(wù)清單132數(shù)據(jù)節(jié)點(diǎn)數(shù)量:1n臺(tái)作用:接收并處理管理節(jié)點(diǎn)分派的作業(yè)任務(wù),為每個(gè)作業(yè)分配獨(dú)立的工作處理線程池和工作隊(duì)列處理管理節(jié)點(diǎn)提交的作業(yè)
10、監(jiān)控指令,將各個(gè)作業(yè)的實(shí)施處理情況以異步事件方式返回給管理節(jié)點(diǎn)6 / 74I寫小電II三數(shù)據(jù)節(jié)點(diǎn)WfTlhlolf 業(yè) Vt序1!數(shù)思誹聳布兒弔切分任爵數(shù)據(jù)節(jié)點(diǎn)惟業(yè)址覽工作刪 /I忤1師數(shù)齬節(jié)什業(yè)址遅工杵她 JT柞啊fMg咧卅普ft譚:懺樽 XL柞訛列ft業(yè)訃墮丄卄庚程 /工 rnu2作業(yè)指令2.1 指令概述2.1.1操作指令執(zhí)行作業(yè)指令停止作業(yè)指令同步作業(yè)狀態(tài)指令提交新作業(yè)指令記錄作業(yè)狀態(tài)查看作業(yè)歷史記錄指令執(zhí)行的窗口如下:7 / 74未執(zhí)行作業(yè)窗口lUhMrHMuWBHI M Ml8 / 74# / 74hAjEHjiniFruJI-lrajrl !_* hk的知 _ Blata aiH
11、lUkhK*L Wwn “M 51 和打轉(zhuǎn)如 j!*ll苗H JMHl vdWMJUWIn.Mp I Hipwrt HILM.IWFM- ri eqwMHaiM-rR Hr_w3uHB4ilu4_ArE qiLVin_ML Mmfc.Hi3 4U It“伽 tum jita 柑 qrf kaip mIiB me#T4- hurMwi 4#mwi w fanp.iiKn mmt-*:I Xjtfar hz.l:皿”3 |f *ajflrvA Hl HmIM8ri.wsi=w*rU I*#, cnw Or*rllhri.uduir二i3dE: :1 few dulW4w3ifAM-血aE:-Pdt
12、r fjjiLCL IE 4I-59JX lLw E_fli.TO:_3iaiKiiLSIl9Mi_ulJI憂 M44MOQM-wAHM- Q 切*WHU t WHMiil-ll#! IH1M I i S-eXtt ”L 曲Uh出I呂 ql E* E3丄狙列買4- KKb?r*-i!iJ|Ub?1lTR- EupBEVt-Jin1 |*?*ilrts- tvm-vHMi-iZMZ正在執(zhí)行作業(yè)的窗口:# / 74# / 74# / 74# / 74執(zhí)行完畢作業(yè)窗口:# / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具,lap 94Jll H *i I I r I |II血,IdlrilGKhbVmIvl W 4m
13、baJ-llliaiy lElffiUI耳MiHInjM|biULai jrbkrH tt|_-iwip_ii53_wtu,tfT-_l,ur_1 iJf I也加 L i-h ito-l. fa 2皿帥EhlH權(quán)非1|“ “*札魚 I札 Ltnnc- ili_T2ir d3px-3,EC-iE73nA2?JLr fLi4I *m 4juldwn_swirwBjpqivtl9cipneHiMJW袖詛|爵lb 弭曲*I *大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具222停止數(shù)據(jù)源指令指令說明停止數(shù)據(jù)源,調(diào)整數(shù)據(jù)庫參數(shù)后使用這個(gè)指令來讓參數(shù)生效指令參數(shù)參數(shù)描述默認(rèn)值是否必填Name作業(yè)唯一名稱無必填stopdb nam
14、es數(shù)據(jù)源名稱,多個(gè)數(shù)據(jù)源用逗號(hào)分隔無必填使用實(shí)例223作業(yè)任務(wù)重新調(diào)度指令將指定作業(yè)節(jié)點(diǎn)上正在執(zhí)行的作業(yè)的所有未執(zhí)行作業(yè)任務(wù)重新調(diào)配到其他空閑的節(jié)點(diǎn)上運(yùn)行,以便提升作業(yè)處理效率,充分利用節(jié)點(diǎn)空閑資源。如果reassig ntaskNode 對(duì)應(yīng)的節(jié)點(diǎn)以及因?yàn)楫愅猱惓jP(guān)閉停止,則由管理節(jié)點(diǎn)將該節(jié)點(diǎn)對(duì)應(yīng)的作業(yè)正在執(zhí)行的作業(yè)任務(wù)、未執(zhí)行的作業(yè)、正在等待的作業(yè)任務(wù)全部調(diào)配到其他有效作業(yè)數(shù)據(jù)處理節(jié)點(diǎn)執(zhí)行。指令樣例:vproperty n ame=reassig netasksreassig ntaskNode=csxbpmts02v-ap-3782reassig ntaskJob name=test/
15、224執(zhí)行作業(yè)指令2.241 單任務(wù)作業(yè)指令指令說明一個(gè)作業(yè)只對(duì)應(yīng)一個(gè)任務(wù),適用于數(shù)據(jù)量比較小的表數(shù)據(jù)抽取到hdfs,可以通過target屬性指定將作業(yè)提交給對(duì)應(yīng)的數(shù)據(jù)處理節(jié)點(diǎn)來,不指定target則交個(gè)管理作業(yè)節(jié)點(diǎn)來執(zhí)行(前提是管理節(jié)點(diǎn)也作為數(shù)據(jù)處理節(jié)點(diǎn))或者數(shù)據(jù)處理節(jié)點(diǎn)指令參數(shù)參數(shù)描述默認(rèn)值是否必填Name作業(yè)唯一名稱無必填Dbn ame數(shù)據(jù)源名稱,多個(gè)數(shù)據(jù)源用逗號(hào)分隔無必填Driver數(shù)據(jù)庫驅(qū)動(dòng)程序,部署時(shí)必須要將對(duì)于數(shù)據(jù)無必填庫的驅(qū)動(dòng)程序jar文件放到應(yīng)用的lib目錄中Dburl對(duì)應(yīng)數(shù)據(jù)庫的jdbc連接地址Dbuser數(shù)據(jù)庫賬號(hào)名稱dbpassword數(shù)據(jù)庫賬號(hào)訪問口令validate
16、sql連接池校驗(yàn)sql,非連接池模式不需要指定Usepool標(biāo)識(shí)數(shù)據(jù)源是否采用連接池,默認(rèn)為true ,true可選true采用,false不采用,在作業(yè)任務(wù)數(shù)數(shù)量比較少,則可以設(shè)置為false,作業(yè)任務(wù)比較多的情況下,可以采用連接池,重用連接hdfsserverHdfs服務(wù)器地址hdfsdatadir作業(yè)數(shù)據(jù)保存到hdfs服務(wù)器的文件夾目錄table name指疋數(shù)據(jù)庫表名稱可選querystateme nt指定查詢語句,如果指定了查詢語句,則無需指定表名稱可選filebase name作業(yè)數(shù)據(jù)文件的基本文件名前綴Schema數(shù)據(jù)庫schema名稱,oracle表空間查詢時(shí),必須指定可選Pk
17、n ame表字段分區(qū)查詢字段名稱可選Colu mns指定要查詢的字段名稱列表,多個(gè)用逗號(hào)分隔Si ngle單任務(wù)作業(yè)標(biāo)識(shí),true單任務(wù),false多任務(wù)false可選rowsperfile每個(gè)文件存儲(chǔ)的記錄條數(shù),指定了 rowsperfile 屬性,則會(huì)將文件切分為多個(gè)文 件保存到hdfs中,每個(gè)文件最多存儲(chǔ) rowsperfile指定記錄條數(shù)0可選startfileNostartfileNo在指定了 rowsperfile 情況下起作用,從指定的文件號(hào)開始抽取數(shù)據(jù),忽略之前的文件號(hào)對(duì)應(yīng)的數(shù)據(jù)記錄可選target指定單任務(wù)作業(yè)的數(shù)據(jù)節(jié)點(diǎn),可以指定也可 以不指定,如果指定的話,則在指定的數(shù)據(jù)可
18、選大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具作業(yè)節(jié)點(diǎn)上執(zhí)行,如果不指定如果管理節(jié)點(diǎn) 作為數(shù)據(jù)節(jié)點(diǎn)則直接在管理節(jié)點(diǎn)上執(zhí)行,否 則任意挑選一個(gè)作業(yè)節(jié)點(diǎn)執(zhí)行DatatypeHdfs文件存儲(chǔ)記錄數(shù)據(jù)格式,text : #分隔 子段及子段值,json : json格式存儲(chǔ)作業(yè)數(shù) 據(jù)clearhdfsfiles執(zhí)行作業(yè)任務(wù)時(shí),是否刪除所有已經(jīng)生成的文件,true刪除false不刪除false可選使用實(shí)例見示例清單大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具示例一將表中數(shù)據(jù)生成一個(gè)hdfs文件16 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具vproperty name=qzj_Sany_vehicle dbname=qzjdriver=oracle.jdbc.
19、driver.OracleDriverdburl=jdbc:oracle:thi n: /10.16.1.12:1521/iemdbuser=SANY dbpassword=qzjiem#EDC2011 validatesq匸select 1 fromdualusepoo匸false hdfsserver=hdfs:/10.0.15.40:9000hdfsdatadir=/m2m/data05/com monfilebase name=Sa ny_vehicletable name=Sa ny_vehiclesin gle=truetarget=BPIT-10006673-2810dataty
20、pe=text /示例二對(duì)文件安裝行數(shù)進(jìn)行切分成多個(gè)文件:示例三對(duì)文件安裝行數(shù)進(jìn)行切分成多個(gè)文件,并指定起始抽取文件號(hào)(適用于停止后從停止文件號(hào)對(duì)應(yīng)的文件繼續(xù)抽取數(shù)據(jù))2.242 按字段分區(qū)作業(yè)指令指令說明抽取表數(shù)據(jù)到hdfs中,按照給定的表字段值進(jìn)行字段值范圍分區(qū),抽取完畢后如果對(duì)應(yīng)的分區(qū)文件沒有包含數(shù)據(jù)則會(huì)將對(duì)應(yīng)的 文件刪除hdfs指令參數(shù)參數(shù)描述默認(rèn)值是否必填n ame作業(yè)唯一名稱無必填dbn ame作業(yè)數(shù)據(jù)源名稱,根據(jù)數(shù)據(jù)庫配置動(dòng)態(tài)生成數(shù)據(jù)源,如果 usepool為true則數(shù)據(jù) 源采用連接池管理db連接,否則直連數(shù)據(jù)(連接使用完畢后自動(dòng)釋放db連接),dbn ame不能命名為:big
21、data_c onf,bigdata_co nf是內(nèi)置數(shù)據(jù)源的名稱。無必填driver數(shù)據(jù)庫驅(qū)動(dòng)程序,部署時(shí)必須要將對(duì)于數(shù)據(jù)庫的驅(qū)動(dòng)程序jar文件放到應(yīng)用的lib目錄中無必填dburl對(duì)應(yīng)數(shù)據(jù)庫的jdbc連接地址dbuser數(shù)據(jù)庫賬號(hào)名稱dbpassword數(shù)據(jù)庫賬號(hào)訪問口令validatesql連接池校驗(yàn)sql,非連接池模式不需要指定usepool標(biāo)識(shí)數(shù)據(jù)源是否采用連接池,默認(rèn)為 true ,true采用,false不采用,在作業(yè) 任務(wù)數(shù)數(shù)量比較少,則可以設(shè)置為false,作業(yè)任務(wù)比較多的情況下,可以采用連接 池,重用連接true可選hdfsserverHdfs服務(wù)器地址必填hdfsdata
22、dir作業(yè)數(shù)據(jù)保存到hdfs服務(wù)器的文件夾目錄必填table name指疋數(shù)據(jù)庫表名稱可選querystateme nt手動(dòng)指定查詢sql 語句,可以可選limitstateme nt屬性來確定數(shù)據(jù)的查詢范圍,也可以直接指定startid 和endid 來指定數(shù)據(jù)查詢范圍,也可以同時(shí)指定表名,然后根據(jù)表來獲取數(shù)據(jù)的查詢范圍。querystateme nt屬性和table name 屬性任意設(shè)置一個(gè)即可limitstatement指定數(shù)據(jù)查詢的分區(qū)字段的起點(diǎn)和終點(diǎn),可選大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具佃/ 74不指定的話會(huì)根據(jù)表名稱自動(dòng)生成,形式如下:selectmin (t.st_pid)asstart
23、id,max(t.st_pid)asen didfromiss.is_static_often_20131211 tfilebase name作業(yè)數(shù)據(jù)文件的基本文件名前綴schema數(shù)據(jù)庫schema名稱,oracle 表空間查詢時(shí),必須指定可選pkn ame表字段分區(qū)對(duì)應(yīng)的字段colu mns指定要查詢的字段名稱列表,多個(gè)用逗號(hào)分隔,不指定時(shí)查詢表所有字段a ?可選gen eworkthreads指定數(shù)據(jù)處理節(jié)點(diǎn)給作業(yè)分配的工作線程 數(shù)20可選genqueques指定數(shù)據(jù)處理節(jié)點(diǎn)給作業(yè)分配的工作等待隊(duì)列長度5可選genq uequetimewait指定作業(yè)工作等待隊(duì)列等待超時(shí)時(shí)間,單位:秒1
24、0秒可選datatypeHdfs文件存儲(chǔ)記錄數(shù)據(jù)格式,text : #分 隔字段及字段值,json : json格式存儲(chǔ)作 業(yè)數(shù)據(jù)Json可選clearhdfsfiles執(zhí)行作業(yè)前是否刪除存放作業(yè)數(shù)據(jù)文件的false可選大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具h(yuǎn)dfs文件目錄,true刪除,false不刪除usepartiti on是否參與表分區(qū)抽取數(shù)據(jù),true采用,false不采用false可選blocks指定只抽取塊號(hào)對(duì)應(yīng)的表分區(qū)的數(shù)據(jù),多個(gè)用逗號(hào)分隔可選excludeblocks指定要排除的表分區(qū)對(duì)應(yīng)的塊號(hào),多個(gè)用 逗號(hào)分隔可選startid指定數(shù)據(jù)抽取對(duì)應(yīng)分區(qū)字段的起始值,也 就是符合條件的取小值,這
25、樣不需要工具 自動(dòng)去查詢最小范圍值可選en did指定數(shù)據(jù)抽取對(duì)應(yīng)分區(qū)字段的最大值,也 就是符合條件的最大值,這樣不需要工具 自動(dòng)去查詢最大范圍值可選errorrowslimit作業(yè)任務(wù)最大允許錯(cuò)誤行數(shù),如果超過這個(gè) 錯(cuò)誤行數(shù),則強(qiáng)制終止作業(yè)執(zhí)行,-1出現(xiàn)異 常不終止直到任務(wù)執(zhí)行兀畢,0表示只要行發(fā)生錯(cuò)誤及終止對(duì)應(yīng)作業(yè)任務(wù)執(zhí)行,大于 0時(shí),對(duì)作業(yè)任務(wù)錯(cuò)誤記錄行數(shù)進(jìn)行計(jì)數(shù), 當(dāng)達(dá)到指定的最大允許錯(cuò)誤行數(shù)時(shí),終止作 業(yè)執(zhí)行-1可選subblocks在第一次分塊的基礎(chǔ)上,將已有塊進(jìn)一步切true可選大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具分成成subblocks 對(duì)應(yīng)的子塊,使得任務(wù)的切分更加合理,數(shù)據(jù)分布更加均勻地
26、分布到各個(gè)塊中datablocks指定按字段分區(qū)需要切分的分區(qū)個(gè)數(shù),這個(gè) 參數(shù)很重要,管理節(jié)點(diǎn)會(huì)根據(jù)分區(qū)的起始位 置(startid )和終止位置(endid ),將期間 的數(shù)據(jù)平均分為datablocks指定的塊數(shù),按字段分區(qū)時(shí)必填每個(gè)塊分配唯一的塊號(hào),然后管理節(jié)點(diǎn)再將這些塊轉(zhuǎn)換為作業(yè)任務(wù),平均分發(fā)給每個(gè)數(shù)據(jù)處理節(jié)點(diǎn)進(jìn)行處理。usepag ine標(biāo)識(shí)按數(shù)據(jù)庫分頁模式進(jìn)行分區(qū),不建議使用,true采用分頁模式 false不采用分頁模式false可選clearhdfsfiles執(zhí)行作業(yè)任務(wù)時(shí),是否刪除所有已經(jīng)生成的文件,true刪除false不刪除false可選使用實(shí)例見后續(xù)實(shí)例清單大數(shù)據(jù)平臺(tái)數(shù)
27、據(jù)抽取工具示例一基本按表字段分區(qū)作業(yè)指令按主鍵分區(qū)作業(yè)自動(dòng)查詢分區(qū)范圍(startid和endid ),比較慢的數(shù)據(jù)庫耗時(shí)比較長21 / 7422 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具vproperty name=hx20111212_20120331 dbn ame=hx243 driver=oracle.jdbc.driver.OracleDriver dburl=jdbc:oracle:thi n: /10.11.16.243:1521/ISS dbuser=HXdbpassword=edcr9637_ validatesql=select 1 from dual usepool=true h
28、dfsserver=hdfs:/10.0.15.40:9000 hdfsdatadir=/m2m/data04/hx20111212_20120331 table name=is_static_20111212_20120331 filebase name=is_staticschema=ISSpk name=ST_PIDcolu mn s=datablocks=10000gen eworkthreads=10genqueques=5genq uequetimewait=10datatype=text clearhdfsfiles=trueerrorrowslimit=023 / 74大數(shù)據(jù)平
29、臺(tái)數(shù)據(jù)抽取工具/24 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具示例二按主鍵分區(qū)作業(yè)指定分區(qū)范圍(startid和endid )25 / 74e- hx20111212 20120331大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具dbn ame=hx243 driver-oracle.jdbc.driver.OracleDriver dburl-jdbc:oracle:thi n: /10.11.16.243:1521/ISS dbuser-HXdbpassword=edcr9637_validatesql-select 1 from dualusepool-true hdfsserver-hdfs:/10.0.15.40:9
30、000 hdfsdatadir-/m2m/data04/hx20111212_20120331 table name-is_static_20111212_20120331 filebase name-is_staticschema-ISSpkn ame-ST_PIDcolu mn s-datablocks-10000gen eworkthreads-10genqueques-5genq uequetimewait-10datatype-text/clearhdfsfiles-true startid-323404849 en did-30039753017 errorrowslimit-02
31、6 / 74Errorrowslimit 為0表示不允許岀現(xiàn)錯(cuò)誤行,一旦岀現(xiàn)就結(jié)束對(duì)應(yīng)作業(yè)任務(wù)的執(zhí)行大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具示例三只抽取blocks對(duì)應(yīng)塊號(hào)的作業(yè)指令27 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具vproperty name=hx20111212_20120331dbn ame=hx243 driver=oracle.jdbc.driver.OracleDriver dburl=jdbc:oracle:thi n: /10.11.16.243:1521/ISS dbuser=HXdbpassword=edcr9637_validatesql=select 1 from dual usepo
32、ol=true hdfsserver=hdfs:/10.0.15.40:9000 hdfsdatadir=/m2m/data04/hx20111212_20120331 table name=is_static_20111212_20120331 filebase name=is_staticschema=ISSpk name=ST_PIDcolu mn s=datablocks=10000 gen eworkthreads=10genqueques=5genq uequetimewait=10datatype=textclearhdfsfiles=trueusepagi ne=false s
33、tartid=323404849en did=30039753017errorrowslimit=0 blocks=6,828 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具/指定子塊號(hào)29 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具vproperty name=hx20111212_20120331 dbn ame=hx243 driver=oracle.jdbc.driver.OracleDriver dburl=jdbc:oracle:thi n: /10.11.16.243:1521/ISS dbuser=HXdbpassword=edcr9637_ validatesql=select 1 from dual
34、usepool=true hdfsserver=hdfs:/10.0.15.40:9000 hdfsdatadir=/m2m/data04/hx20111212_20120331 table name=is_static_20111212_20120331 filebase name=is_staticschema=ISSpk name=ST_PIDcolu mn s=datablocks=10000gen eworkthreads=10genqueques=5genq uequetimewait=10datatype=textclearhdfsfiles=trueusepagi ne=fal
35、se startid=32340484930 / 74大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具en did=30039753017errorrowslimit=0blocks=6.2,8.310 ” /31 / 74# / 74示例四 排除要執(zhí)行的數(shù)據(jù)塊指定子塊vproperty n ame=testdbn ame=test1driver=oracle.jdbc.driver.OracleDriverdburl=jdbc:oracle:thi n: /10.0.15.51:1521/orcldbuser=testpdp1dbpassword=testpdp1validatesq匸select 1 from du
36、alusepoo匸truehdfsserver=hdfs:/10.0.15.40:9000hdfsdatadir=/m2m/data04/testtable name=testbigdatafilebase name=testbigdataschema=testpdp1 pkn ame=tid大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具colu mn s= datablocks=100 gen eworkthreads=30 genqueques=5 gen quequetimewait=10 datatype=textexcludeblocks=6.0,8.0subblocks=2/不指定子塊:vproperty
37、 n ame=testdbn ame=test1driver=oracle.jdbc.driver.OracleDriverdburl=jdbc:oracle:thi n: /10.0.15.51:1521/orcldbuser=testpdp1dbpassword=testpdp1validatesq匸select 1 from dual usepool=truepkn ame=tidhdfsserver=hdfs:/10.0.15.40:9000 hdfsdatadir=/m2m/data04/test大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具table name=testbigdatafilebase na
38、me=testbigdata schema=testpdp1 pkn ame=tid colu mn s= datablocks=100 gen eworkthreads=30 genqueques=5gen quequetimewait=10 datatype=text excludeblocks=6,8/示例五指定查詢語句的指令指定了查詢范圍的指令:或者vproperty name=hx20131211 dbn ame=hx243driver=oracle.jdbc.driver.OracleDriverdburl=jdbc:oracle:thi n: 10.11.16.243:1521/
39、ISSdbuser=HX dbpassword=edcr9637_ validatesql=select 1 from dualusepool=truehdfsserver=hdfs:/10.0.15.40:9000hdfsdatadir=/m2m/data04/hx20131211filebase name=is_staticschema=ISS pkn ame=ST_PID colu mn s= gen eworkthreads=20genq ueques=5genq uequetimewait=10table name=is_static_often_20131211 usepartit
40、i on= false大數(shù)據(jù)平臺(tái)數(shù)據(jù)抽取工具limitstateme nt=selectmi n(t.st_pid) as startid, max(t.st_pid) asen didfromiss.is_static_often_20131211 tdatatype=text /2.243 按表分區(qū)作業(yè)指令指令說明抽取表分區(qū)包含的數(shù)據(jù)到hdfs中,抽取完畢后如果對(duì)應(yīng)的分區(qū)文件沒有包含數(shù)據(jù)則會(huì)將對(duì)應(yīng)的hdfs文件刪除指令參數(shù)參數(shù)描述默認(rèn)值是否必填n ame作業(yè)唯一名稱無必填dbn ame作業(yè)數(shù)據(jù)源名稱,根據(jù)數(shù)據(jù)庫配置動(dòng)態(tài)生成數(shù)據(jù)源,如果 usepool為true則數(shù)據(jù) 源采用連接池管理 db連接,否則直連數(shù) 據(jù)(連接使用完畢后自動(dòng)釋放db連接),dbn ame不能命名為:bigdata_c onf,bigdata_co nf是內(nèi)置數(shù)據(jù)源的名稱。無必填driver數(shù)據(jù)庫驅(qū)動(dòng)程序,部署時(shí)必須要將對(duì)于數(shù)據(jù)庫的驅(qū)動(dòng)程序jar文件放到應(yīng)用的lib目錄中無必填dburl對(duì)應(yīng)數(shù)據(jù)庫的jdbc連接地址dbuser數(shù)據(jù)庫賬號(hào)名稱dbpassword數(shù)據(jù)庫賬號(hào)訪問口令validatesql連接池校驗(yàn)sql,非連接池模式不需要指疋usepool標(biāo)識(shí)數(shù)據(jù)源是否采用連接池,默認(rèn)為true可選true , true采用,false不采用,在作業(yè)任務(wù)數(shù)數(shù)量比較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度門店合伙人激勵(lì)機(jī)制服務(wù)合同4篇
- 2025年度二零二五農(nóng)行個(gè)人二手房交易貸款合同2篇
- 2025年度綠色建筑節(jié)能改造工程合同(二零二五版)4篇
- 二零二五年度商業(yè)門面租賃合同范本-@-1
- 2025年度綠色生態(tài)餐廳檔口租賃合同樣本4篇
- 2025年度城市軌道交通鋼管材料供應(yīng)與承包合同協(xié)議書范本
- 2025版南海區(qū)創(chuàng)新創(chuàng)業(yè)人才居住就業(yè)支持合同4篇
- 2025版門面租賃合同消防安全及責(zé)任承擔(dān)4篇
- 二零二五年度外賣送餐服務(wù)合同書(含增值服務(wù))
- 二零二五年度年薪制工資與員工晉升合同模板
- 衛(wèi)生服務(wù)個(gè)人基本信息表
- 醫(yī)學(xué)脂質(zhì)的構(gòu)成功能及分析專題課件
- 高技能人才培養(yǎng)的策略創(chuàng)新與實(shí)踐路徑
- 廣東省湛江市廉江市2023-2024學(xué)年八年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 2024年湖北省知名中小學(xué)教聯(lián)體聯(lián)盟中考語文一模試卷
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 生物 含解析
- 交叉口同向可變車道動(dòng)態(tài)控制與信號(hào)配時(shí)優(yōu)化研究
- 燃?xì)庑袠I(yè)有限空間作業(yè)安全管理制度
- 數(shù)列練習(xí)題(含答案)基礎(chǔ)知識(shí)點(diǎn)
- 人教版(2024新版)七年級(jí)上冊(cè)英語期中+期末學(xué)業(yè)質(zhì)量測試卷 2套(含答案)
- 通用電子嘉賓禮薄
評(píng)論
0/150
提交評(píng)論