ETL-開源ETL工具-KETTLE-介紹課件_第1頁
ETL-開源ETL工具-KETTLE-介紹課件_第2頁
ETL-開源ETL工具-KETTLE-介紹課件_第3頁
ETL-開源ETL工具-KETTLE-介紹課件_第4頁
ETL-開源ETL工具-KETTLE-介紹課件_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

北京久其軟件股份有限公司2009年2月6日久其通用數(shù)據(jù)管理平臺ETL開源工具介紹北京久其軟件股份有限公司2009年2月6日久其通用數(shù)據(jù)管理平1北京久其軟件股份有限公司2009年2月6日

Kettle介紹北京久其軟件股份有限公司2009年2月6日Kettle介紹2

Kettle介紹Kettle是一個開源的ETL工具,包括了4個部分。

Chef——任務(wù)(job)設(shè)計工具(GUI方式)

Kitchen——任務(wù)(job)執(zhí)行器(命令行方式)

Spoon——轉(zhuǎn)換(transform)設(shè)計工具(GUI方式)

Span——轉(zhuǎn)換(transform)執(zhí)行器(命令行方式)目前的版本已經(jīng)看不到Chef的影子了,因為在Spoon

里面包含了設(shè)計Job的功能??磥鞬ettle是將設(shè)計 工具全部集成在了Spoon上面。而Spoon也包括了

Job和Transform的執(zhí)行功能。北京久其軟件股份有限公司2009年2月6日 Kettle介紹北京久其軟件股份有限公司2009年2月6日3北京久其軟件股份有限公司2009年2月6日

使用前的準備工作運行環(huán)境:JDK1.5或更高下載安裝:可訪問去下載最 新版本。 運行程序:Spoon.bat運行Spoon程序,包括了轉(zhuǎn)換 和任務(wù)的設(shè)計和執(zhí)行。Spoon.sh是Linux

等平臺的運行命令。 資料庫:存儲定義的轉(zhuǎn)換和任務(wù)的數(shù)據(jù)庫連接。北京久其軟件股份有限公司2009年2月6日 使用前的準備工4

關(guān)于資料庫

Kettle存儲轉(zhuǎn)換和任務(wù)有兩種方式,一是利用xml存儲成文件,二是直接存儲到數(shù)據(jù)庫,也就是Kettle的資料庫中。 在啟動Spoon后,首先會彈出資料庫的選擇界面,在這個界面中可以選擇要使用的資料庫,也可以創(chuàng)建或修改資料庫。當然也可以選擇不使用資料庫。 選擇了資料庫后,轉(zhuǎn)移和任務(wù)將會被存儲到數(shù)據(jù)庫中。如果選擇不使用資料庫,則需要通過文件的方式對轉(zhuǎn)換和任務(wù)進行讀取和保存。北京久其軟件股份有限公司2009年2月6日 關(guān)于資料庫北京久其軟件股份有限公司2009年2月6日5北京久其軟件股份有限公司2009年2月6日北京久其軟件股份有限公司2009年2月6日6定義

轉(zhuǎn)換定義北京久其軟件股份有限公司2009年2月6日1.Value:Value是行的一部分,并且是包含以下類型的的數(shù)據(jù):Strings、floatingpointNumbers、unlimitedprecisionBigNumbers、Integers、Dates、或者Boolean。2.Row:一行包含0個或者多個Values。3.OutputStream:一個OutputStream是離開一個步驟時的行的堆棧。4.InputStream:一個InputStream是進入一個步驟時的行的堆棧。5.Step:轉(zhuǎn)換的一個步驟,可以是一個Stream或是其他元素。6.Hop:一個Hop代表兩個步驟之間的一個或者多個數(shù)據(jù)流。一個Hop總是代表著一個步驟的輸出流和一個步驟的輸入流。7.Note:一個Note是一個轉(zhuǎn)換附加的文本注釋信息。定義轉(zhuǎn)換定義北京久其軟件股份有限公司2009年2月6日1.7定義

任務(wù)定義北京久其軟件股份有限公司2009年2月6日1.JobEntry:一個JobEntry是一個任務(wù)的一部分,它執(zhí)行某些內(nèi)容。2.Hop:一個Hop代表兩個步驟之間的一個或者多個數(shù)據(jù)流。一個Hop總是代表著兩個JobEntry之間的連接,并且能夠被原始的JobEntry設(shè)置,無條件執(zhí)行下一個JobEntry,直到執(zhí)行成功或者失敗。3.Note:一個Note是一個任務(wù)附加的文本注釋信息。定義任務(wù)定義北京久其軟件股份有限公司2009年2月6日1.8北京久其軟件股份有限公司2009年2月6日

數(shù)據(jù)庫連接Kettle支持目前主流的大多數(shù)數(shù)據(jù)庫。在程序中可能用到數(shù)據(jù)庫連接的地方有資料庫,以及轉(zhuǎn)換的輸入輸出流。北京久其軟件股份有限公司2009年2月6日 數(shù)據(jù)庫連接9

數(shù)據(jù)庫連接Kettle支持對數(shù)據(jù)庫連接的可視化操作,即為數(shù)據(jù)庫瀏覽器,可以通過圖形界面的方式瀏覽大多數(shù)異構(gòu)數(shù)據(jù)源。北京久其軟件股份有限公司2009年2月6日 數(shù)據(jù)庫連接北京久其軟件股份有限公司2009年2月6日10數(shù)據(jù)庫連接

Previewfirst100rowsof[table](顯示表最開始的100行)Previewfirst…rowsof[table](根據(jù)你輸入的行數(shù)展示表)Numberofrowsof[table](顯示表的行數(shù))Showlayoutofthetable(顯示表結(jié)構(gòu))GenerateDDL(生成該表的DDL語句)GenerateDDLforotherconnection(在其它的數(shù)據(jù)庫連接中生成該表的DDL語句)OpenSQLfor[table](在SQL編輯器中生成讀取該表的SQL語法)Truncatetable[table]:(生成“Truncatetable”的語句)

北京久其軟件股份有限公司2009年2月6日數(shù)據(jù)庫連接Previewfirst100rowso11

數(shù)據(jù)庫連接Kettle自帶了一個SQL編輯器,用于對SQL語句的編輯,提供了語法變色功能。用于直接利用SQL語句修改數(shù)據(jù)庫以及在轉(zhuǎn)換中執(zhí)行SQL語句提供編輯功能。北京久其軟件股份有限公司2009年2月6日 數(shù)據(jù)庫連接北京久其軟件股份有限公司2009年2月6日12

變量變量分為:

環(huán)境變量Kettle變量變量的使用:

${VARIABLE}(UNIX)%%VARIABLE%%(WINDOWS)

北京久其軟件股份有限公司2009年2月6日 變量環(huán)境變量變量的使用:${VARIABLE}(UN13轉(zhuǎn)換

在新建菜單中點擊Transformation新建一個轉(zhuǎn)換在設(shè)計面板上單擊右鍵,選擇TransformationSetting彈出轉(zhuǎn)換選項通過拖拽的方式選擇相應(yīng)的Steps和Hops。按SHIFT建立連接兩個步驟的Hop。設(shè)計各個步驟及連接。點擊面板上方的運行按鈕可以運行該轉(zhuǎn)換。點擊面板上方的調(diào)試按鈕可以對轉(zhuǎn)換進行調(diào)試。點擊驗證按鈕可以對轉(zhuǎn)換進行驗證。

北京久其軟件股份有限公司2009年2月6日轉(zhuǎn)換在新建菜單中點擊Transformation新建一個轉(zhuǎn)14北京久其軟件股份有限公司2009年2月6日

轉(zhuǎn)換當某個Step連接了多個Hop的時候,會涉及到數(shù)據(jù)的分發(fā)和復(fù)制的概念。

分發(fā):即將數(shù)據(jù)按行分別 根據(jù)連接的順序發(fā)送到下 一個Step中。 復(fù)制:是將數(shù)據(jù)復(fù)制后 同時發(fā)送到后續(xù)的Step

中。由于后續(xù)的Step是 由不同的線程完成的, 所以到達最后步驟的行 的順序也可能不同。北京久其軟件股份有限公司2009年2月6日 轉(zhuǎn)換15步驟-Input

TableInput北京久其軟件股份有限公司2009年2月6日步驟-InputTableInput北京久其軟件股份有16步驟-Input

TextfileInput文本輸入北京久其軟件股份有限公司2009年2月6日步驟-InputTextfileInput文本輸17步驟-Input

Excel輸入Xml輸入Xbase輸入文件反序列化輸入獲取系統(tǒng)信息獲取文件名……北京久其軟件股份有限公司2009年2月6日步驟-InputExcel輸入……北京久其軟件股份有限18步驟-Output

TableOutput表輸出北京久其軟件股份有限公司2009年2月6日步驟-OutputTableOutput表輸出北京19步驟-Output

TextFileOutput文本文件輸出北京久其軟件股份有限公司2009年2月6日步驟-OutputTextFileOutput文20步驟-Output

Excel輸出Xml輸出序列化文件輸出SQL文件輸出刪除插入/更新更新

屬性文件輸出…….北京久其軟件股份有限公司2009年2月6日步驟-OutputExcel輸出屬性文件輸出北京21步驟-Lookup

Databaselookup數(shù)據(jù)庫查詢

在數(shù)據(jù)庫中查找值Streamlookup流查詢

在不同源頭中查找值,數(shù)據(jù)首先讀入內(nèi)存中。CallDBprocedure調(diào)用數(shù)據(jù)庫存儲過程

HTTP客戶端

WebService查詢

Tableexist表是否存在

Fileexist文件是否存在…….北京久其軟件股份有限公司2009年2月6日步驟-LookupDatabaselookup數(shù)據(jù)22步驟-Transform

SelectValues選擇值

一般用于選擇字段,重命名字段和指定字段的長度或精度FilterRows過濾記錄SortRows排序記錄AddSequence增加序列GroupBy分組SplitFields字段分割NullIf設(shè)置空值Calculator計算器

北京久其軟件股份有限公司2009年2月6日步驟-TransformSelectValues選23Field1Field2Field3TargetABC1ABC2DEF3DEF4Field1Field2Field3Target1Target2ABC12DEF34步驟-Transform

AddConstants增加常量

增加常量到數(shù)據(jù)流中RowNormaliser行轉(zhuǎn)列RowDenormaliser列轉(zhuǎn)行RowFlattener扁平化北京久其軟件股份有限公司2009年2月6日Field1Field2Field3TargetABC1AB24步驟-Transform

ValueMapper值映射將指定的值映射為另一值CloneRows克隆行Dummy空步驟什么也不做的步驟Switch/Case條件切換JavaScript腳本北京久其軟件股份有限公司2009年2月6日步驟-TransformValueMapper值映25

Job任務(wù),控制整個流程,可以包括若干個轉(zhuǎn)換,同時附 加著其他的操作。北京久其軟件股份有限公司2009年2月6日 Job北京久其軟件股份有限公司2009年2月6日26JobEntry

Start開始任務(wù)開始執(zhí)行的起點。編輯該實體彈出編輯對話框,包括了對任務(wù)的時間調(diào)度選項。Dummy空任務(wù)AbortJob終止任務(wù)Job任務(wù)中包含任務(wù),子任務(wù)Transformation轉(zhuǎn)換,已經(jīng)定義過的數(shù)據(jù)轉(zhuǎn)換。

北京久其軟件股份有限公司2009年2月6日JobEntryStart開始2009年2月6日27JobEntry

Shell使用Shell任務(wù)條目在任務(wù)運行的主機上執(zhí)行一段Shell腳本。SQL執(zhí)行一段SQL腳本JavaScript執(zhí)行一段JavaScript腳本Mail發(fā)送郵件FTP從FTP服務(wù)器上獲取文件XML包括了XML驗證等功能

北京久其軟件股份有限公司2009年2月6日JobEntryShell2009年2月6日28JobEntry

FileManagement文件管理使得任務(wù)可以對文件系統(tǒng)進行操作,具體的操作包括創(chuàng)建、刪除文件,判斷文件是否存在,移動、壓縮、對比文件等。Condition條件判斷文件、數(shù)據(jù)表,字段是否存在。

北京久其軟件股份有限公司2009年2月6日JobEntryFileMa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論