LCAM評估決策系統(tǒng) ETL簡單開發(fā)培訓(xùn)過程示例_第1頁
LCAM評估決策系統(tǒng) ETL簡單開發(fā)培訓(xùn)過程示例_第2頁
LCAM評估決策系統(tǒng) ETL簡單開發(fā)培訓(xùn)過程示例_第3頁
LCAM評估決策系統(tǒng) ETL簡單開發(fā)培訓(xùn)過程示例_第4頁
LCAM評估決策系統(tǒng) ETL簡單開發(fā)培訓(xùn)過程示例_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

LCAM評估決策系統(tǒng)ETL培訓(xùn)資料_V1.02011年7月4日星期一北京曹毅什么是ETL。ETL,Extraction-Transformation-Loading的縮寫,中文名稱為數(shù)據(jù)提取、轉(zhuǎn)換和加載。ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。常用的ETL工具有:OWB(OracleWarehouseBuilder)、ODI(OracleDataIntegrator)、InformaticaPowerCenter、AICloudETL、DataStage、RepositoryExplorer、Beeload、Kettle、DataSpider。國網(wǎng)ETL工具InformaticaPowerCenter。目前國網(wǎng)購買并統(tǒng)一使用的ETL工具是Informatica公司的PowerCenter8.1.1版。Informatica公司將PowerCenter定義為高度可擴(kuò)展的、高度可用的、高性能的數(shù)據(jù)集成平臺。PowerCenter主要包含兩個部分,Server和Client。Server是實(shí)際執(zhí)行數(shù)據(jù)抽取任務(wù)的運(yùn)行環(huán)境。Client是設(shè)計(jì)數(shù)據(jù)流向、數(shù)據(jù)轉(zhuǎn)換方式、任務(wù)執(zhí)行方式的工具。LCAM評估決策系統(tǒng)PowerCenter實(shí)施需要了解的情況。一般來說,各個項(xiàng)目實(shí)施現(xiàn)場的數(shù)據(jù)中心都應(yīng)該有安裝了PowerCenter服務(wù)器端的專門的ETL服務(wù)器。所以首先我們需要與數(shù)據(jù)中心確認(rèn)數(shù)據(jù)中心是否有單獨(dú)的ETL服務(wù)器,或者其他項(xiàng)目組是否有用到PowerCenter的(用到了SybaseIQ數(shù)據(jù)倉庫的項(xiàng)目一般都會用到PowerCenter,北京LCAM評估決策系統(tǒng)項(xiàng)目組的PowerCenter就是跟北京IAS項(xiàng)目組共用SybaseIQ和PowerCenter的服務(wù)器),如果有我們就申請使用這個服務(wù)器。數(shù)據(jù)中心也應(yīng)該有專門的做ETL的人員,我們應(yīng)該盡量申請讓這些人員來幫助我們進(jìn)行ETL的工作。共用一個PowerCenter服務(wù)器有兩種比較常見的模式,第一種是建立我們自己的知識庫,然后在自己的知識庫中建立文件夾、映射(Mapping)、工作流(Workflow)等,詳見“InformaticaPowerCenter服務(wù)器的配置“及以后的內(nèi)容;第二種是共用一個知識庫服務(wù)(repositoryservice,知識庫服務(wù),類似Eclipse等IDE工具的項(xiàng)目或工程的概念),在這個知識庫下建立我們的文件夾,在這個文件夾下建立映射(Mapping)、工作流(Workflow)等,詳見“InformaticaPowerCenter客戶端的安裝“及以后的內(nèi)容。如果數(shù)據(jù)中心沒有現(xiàn)成的ETL服務(wù)器就需要我們自己搭建服務(wù)器,服務(wù)器的操作系統(tǒng)盡量選擇Windows(易于配置ODBC數(shù)據(jù)源)。InformaticaPowerCenter服務(wù)器端的安裝。運(yùn)行解壓后文件夾的pc811_windows32\install.exe。(安裝需要java運(yùn)行時)。選擇server等待安裝準(zhǔn)備歡迎界面,點(diǎn)擊Next繼續(xù)這一步要選擇授權(quán)文件,選擇解壓開的pc811_windows32\key\EP-HUNAN_Linux32.key,點(diǎn)擊Next繼續(xù)。這里顯示安裝的要求,點(diǎn)擊Next繼續(xù)。這一步的安裝設(shè)置選擇Custom,點(diǎn)擊Next繼續(xù)。這一步選擇要安裝的組件,只需要選擇安裝PowerCenterServices。點(diǎn)擊Next繼續(xù)。這一步選擇安裝類型,選擇全新安裝。點(diǎn)擊Next繼續(xù)。選擇安裝的目錄,點(diǎn)擊Next繼續(xù)。安裝總結(jié),點(diǎn)擊Install進(jìn)行安裝。域(Domain)設(shè)置,選擇創(chuàng)建新的域,點(diǎn)擊Next繼續(xù)。PowerCenter的域(domain)信息存儲在關(guān)系型數(shù)據(jù)庫中,這里使用Oracle數(shù)據(jù)庫,需要先在數(shù)據(jù)庫中創(chuàng)建用戶并賦予權(quán)限,北京使用的用戶是MW_ETL_DOMAIN,需要賦予connect、resource、createanyview、unlimitedtablespace的權(quán)限。在這個頁面中填寫存儲域信息的數(shù)據(jù)庫與用戶的相關(guān)信息。點(diǎn)擊TestConnection測試連接。顯示連接通過后,點(diǎn)擊OK。點(diǎn)擊Next繼續(xù)。這一步設(shè)置域的信息,域的密碼是登陸web版管理控制臺的密碼,這里設(shè)置為admin.在這里不勾選創(chuàng)建知識庫服務(wù),后面在管理控制臺中創(chuàng)建。點(diǎn)擊Next繼續(xù)。這一步選擇安裝InformaticaPowerCenter服務(wù)的操作系統(tǒng)用戶,這里我選擇使用當(dāng)前用戶。點(diǎn)擊Next繼續(xù)。這一步顯示安裝總結(jié),點(diǎn)擊Done完成安裝。安裝完以后在所有程序中可以發(fā)現(xiàn)PowerCenter的相關(guān)文件夾,LaunchAdminConsole是打開管理控制臺的快捷方式,StartInformaticaServices是啟動PowerCenter服務(wù)的快捷方式,StopInformaticaServices是停止PowerCenter服務(wù)的快捷方式。InformaticaPowerCenter服務(wù)器的配置。登錄PowerCenter管理控制臺(Administration)Console。點(diǎn)擊LaunchAdminConsole打開PowerCenterWeb管理控制臺。輸入域管理用戶名和密碼,點(diǎn)擊login登錄。創(chuàng)建知識庫服務(wù)(RepositoryService)。在左側(cè)的Domain視圖中點(diǎn)擊Creat按鈕。選擇知識庫服務(wù)ResositoryService。在這個頁面填寫知識庫服務(wù)的相關(guān)信息。知識庫名稱我這里填寫的是LCAM。License選擇安裝時使用的License。PrimaryNode選擇本機(jī)節(jié)點(diǎn)。PowerCenter知識庫的相關(guān)信息也儲存在關(guān)系型數(shù)據(jù)庫中,這里使用Oracle數(shù)據(jù)庫,需要先在數(shù)據(jù)庫中創(chuàng)建用戶并賦予權(quán)限,北京使用的用戶是MW_ETL_REP,需要賦予connect、resource、createanyview、unlimitedtablespace的權(quán)限。DatabaseType選擇Oracle。CodePage選擇MSWindowsSimplifiedChinese,supersetofGB2312-80,EUCencoding。在安裝PowerCenter的服務(wù)器上需要安裝Oracle的客戶端,并在NetManager中配置MW_ETL_REP用戶所在服務(wù)器的TNS服務(wù)命名,ConnectString填寫的LCAM就是已經(jīng)配置好的TNS服務(wù)命名。CreationMode選擇Createnewrepositorycontent。點(diǎn)擊Create創(chuàng)建知識庫。這里顯示創(chuàng)建知識庫服務(wù)的日志,點(diǎn)擊close關(guān)閉。可以在左側(cè)的Domain瀏覽器中查看到LCAM知識庫服務(wù),點(diǎn)擊可以查看到該知識庫服務(wù)的狀態(tài)和配置信息。創(chuàng)建集成服務(wù)(IntergrationService)。IntergrationService(集成服務(wù))是運(yùn)行工作流和會話session的應(yīng)用程序服務(wù)。在左側(cè)的Domain瀏覽器中點(diǎn)擊Create按鈕,選擇IntergrationService(集成服務(wù))。ServiceName這里填寫的是LCAM_IS。License選擇安裝時使用的License。Assign選擇Nodes。PrimaryNode選擇本機(jī)的節(jié)點(diǎn)。DomainforAssociatedRepositoryService選擇當(dāng)前的域。AssociatedRepositoryService選擇上一步創(chuàng)建的知識庫服務(wù)。RepositoryUserName一定要填寫Administrator,注意A要大寫(應(yīng)該是可以隨意填寫用戶名和密碼的,但是在實(shí)際安裝過程中使用administrator都會創(chuàng)建不成功,目前也不清楚為什么會這樣)。RepositoryPassword我們也使用的是Administrator。DataMovementMode選擇Unicode。點(diǎn)擊Create創(chuàng)建集成服務(wù)。這一步制定節(jié)點(diǎn)的CodePage,選擇MSWindowsSimplifiedChinese,supersetofGB2312-80,EUCencoding。勾選EnabletheIntegrationServiceaftercreation,點(diǎn)擊OK。在左側(cè)的Domain瀏覽器中可以看到上一步建立的LCAM_IS集成服務(wù)。這樣PowerCenter服務(wù)器的配置就基本結(jié)束,點(diǎn)擊logout推出管理控制臺。InformaticaPowerCenter客戶端的安裝。安裝PowerCenter客戶端,運(yùn)行pc811_windows32\install.exe。選擇Client。歡迎信息,點(diǎn)擊Next繼續(xù)。安裝要求,點(diǎn)擊Next繼續(xù)。(如果服務(wù)器上沒有.NETFramework則需要先安裝1.1以上的版本)選擇Custom安裝設(shè)置,點(diǎn)擊Next繼續(xù)。選則安裝組件,PowerCenterClient,點(diǎn)擊Next繼續(xù)。選擇安裝目錄,點(diǎn)擊Next繼續(xù)。預(yù)安裝總結(jié),點(diǎn)擊Install開始安裝。安裝總結(jié),點(diǎn)擊Next繼續(xù)。點(diǎn)擊Done完成安裝。完成客戶端的安裝以后,在程序中可以發(fā)現(xiàn)四個客戶端,PowerCenterDesigner是用來建立映射(Mapping)。PowerCenterRepositoryManager用來管理知識庫(Repository),建立文件夾。PowerCenterWorkflowManager用來建立和管理工作流(Wrokflow)。PowerCenterWorkflowMonitor用來監(jiān)控工作流的運(yùn)行狀況。InformaticaPowerCenter客戶端的配置和使用。首先我們打開PowerCenterRepositoryManager。由于我這里服務(wù)器和客戶端安裝在同一臺機(jī)器上,所以可以直接看到已經(jīng)建好的知識庫。配置域和知識庫相關(guān)信息。如果是只安裝了客戶端,就要自己配置域相關(guān)信息。點(diǎn)擊Repository菜單,選擇ConfigureDomains子菜單,打開ConfigureDomains窗口。點(diǎn)擊Addanewdomain按鈕。DomainName填寫PowerCenter服務(wù)器域名稱(默認(rèn)是Domain_<PowerCenter服務(wù)器計(jì)算機(jī)名>),GatewayHost填寫PowerCenter服務(wù)器計(jì)算機(jī)名或者ip,Gatewayport填寫PowerCenter服務(wù)器端口號(默認(rèn)是6001),并在C:\WINDOWS\system32\drivers\etc\hosts文件中添加PowerCenter的服務(wù)器IP和服務(wù)器計(jì)算機(jī)名。點(diǎn)擊OK添加域。選擇相應(yīng)的域,并勾選上想要連接的知識庫,點(diǎn)擊OK。在知識庫瀏覽窗口中就能找到剛才自己添加的知識庫了,這里可以添加不同域的多個不同名稱的知識庫。連接知識庫。在知識庫瀏覽窗口中雙擊自己要連結(jié)的知識庫,打開知識庫連結(jié)窗口。Username輸入在創(chuàng)建集成服務(wù)的時候設(shè)置的用戶名Administrator(注意A是大寫的),Password輸入創(chuàng)建集成服務(wù)的時候設(shè)置的密碼,這里也是Administrator。點(diǎn)擊Connect連結(jié)知識庫。創(chuàng)建文件夾(Folder)。文件夾是用來組織Mapping和Workflow的結(jié)構(gòu)。點(diǎn)擊Folder菜單,選擇Create子菜單,打開CreateFolder窗口。Name輸入要創(chuàng)建的文件夾的名稱,我這里用的是LCAM,點(diǎn)擊確定創(chuàng)建。提示創(chuàng)建成功,點(diǎn)擊確定??梢栽谧髠?cè)的知識庫瀏覽器窗口看到創(chuàng)建好的文件夾。導(dǎo)入源(Source)。在文件夾建立好之后就應(yīng)該導(dǎo)入源(Source)和目標(biāo)(Target)為建立定義數(shù)據(jù)流向的映射(Mapping)做準(zhǔn)備。首先點(diǎn)擊打開InformaticaPowerCenterDesigner。點(diǎn)擊Sources菜單,選擇ImportfromDatabase子菜單,打開ImportTable窗口。InformaticaPowerCenter導(dǎo)入表結(jié)構(gòu)使用的是ODBC的方式,所以要先配置ODBC數(shù)據(jù)源。點(diǎn)擊按鈕打開ODBC數(shù)據(jù)源管理的窗口。點(diǎn)擊系統(tǒng)DSN選項(xiàng)卡。點(diǎn)擊添加按鈕打開創(chuàng)建新數(shù)據(jù)源向?qū)?。選擇OracleinOraClient10g_home1。(InformaticaPowerCenter客戶端所在的機(jī)器必須要安裝Oracle客戶端并在NetManager中配置好TNS服務(wù)命名才能通過導(dǎo)入數(shù)據(jù)庫表的方式來建立源。)點(diǎn)擊完成。DataSourceName填寫ODBC數(shù)據(jù)源的名稱,我這里用的是DCODS,TNSServiceName選擇或填寫已經(jīng)在NetManager中配置好的TNS服務(wù)命名,UserID填寫要使用的用戶名,點(diǎn)擊OK確定。點(diǎn)擊確定。在ImportTables窗體中的ODBCdatasource下拉框中選擇要導(dǎo)入的數(shù)據(jù)源。Username填寫導(dǎo)入操作使用的用戶名,OwnerName填寫導(dǎo)入的表所屬的用戶,Password填寫導(dǎo)入操作使用的用戶密碼。點(diǎn)擊Connect。在左下的Selecttables面板中可以看到可以導(dǎo)入的表,點(diǎn)擊Selectall,點(diǎn)擊OK確定導(dǎo)入。在左側(cè)的知識庫瀏覽器的源中可以看到已經(jīng)導(dǎo)入的表。點(diǎn)擊Repository菜單的Save子菜單保存導(dǎo)入的源到知識庫中。導(dǎo)入目標(biāo)(Target)。點(diǎn)擊Tools菜單的TargetDesigner子菜單切換到Target設(shè)計(jì)視圖。點(diǎn)擊Targets菜單的ImportfromDatabase子菜單,打開ImportTables窗口。先配置ODBC數(shù)據(jù)源。點(diǎn)擊按鈕打開ODBC數(shù)據(jù)源管理的窗口。點(diǎn)擊系統(tǒng)DSN切換到系統(tǒng)DSN選項(xiàng)卡。點(diǎn)擊添加按鈕打開創(chuàng)建新數(shù)據(jù)源向?qū)?。選擇AdaptiveServerIQ。(同樣需要在客戶端所在的機(jī)器上安裝SybaseIQ的客戶端)點(diǎn)擊完成。Datasourcename填寫ODBC數(shù)據(jù)源名稱。點(diǎn)擊Login切換到Login選項(xiàng)卡。選擇SupplyuserIDandpassword,UserID輸入SybaseIQ數(shù)據(jù)庫用戶名,Password輸入SybaseIQ數(shù)據(jù)庫用戶密碼,勾選Encryptpassword。點(diǎn)擊Database切換到Database選項(xiàng)卡。Servername填寫SybaseIQ數(shù)據(jù)庫的實(shí)例名。點(diǎn)擊Network切換到Network選項(xiàng)卡。勾選上TCP/IP項(xiàng),按照host=<SybaseIQ服務(wù)器IP地址>;port=<SybaseIQ服務(wù)器端口號>的格式填寫該項(xiàng)的內(nèi)容。點(diǎn)擊確定。點(diǎn)擊確定,返回ImportTables窗口。ODBCdatasource下拉項(xiàng)選擇剛才創(chuàng)建好的數(shù)據(jù)源,Username填寫導(dǎo)入操作的用戶名,Ownername填寫要導(dǎo)入的表所屬的用戶,Password填寫導(dǎo)入操作的用戶密碼,點(diǎn)擊Connect。選擇要導(dǎo)入的表點(diǎn)擊OK導(dǎo)入??梢栽谧髠?cè)的知識庫瀏覽器中看到導(dǎo)入的目標(biāo)(Targets)。創(chuàng)建映射(Mapping)。映射Mapping是用來定義數(shù)據(jù)流從源(Source)流向目標(biāo)(Target)這個過程中的數(shù)據(jù)變換方式的。點(diǎn)擊Tools菜單的MappingDesigner子菜單切換到MappingDesigner視圖。點(diǎn)擊Mappings菜單的Create子菜單創(chuàng)建一個新的映射。填寫映射的名稱,一般命名規(guī)律是M_<表名>。從左側(cè)的知識庫瀏覽窗口中將源表和目標(biāo)表都拖到Mapping設(shè)計(jì)窗口中。右鍵單擊空白處,在彈出的上下文菜單中選擇Autolink。在ToTransformations中選擇目標(biāo)表,點(diǎn)擊OK。PowerCenter會自動將同名的列做對應(yīng)。從源表中某一列中取出的數(shù)據(jù)將會插入目標(biāo)表中同名的列。如果是全表數(shù)據(jù)抽取,那么一個最簡單的映射就做好了。點(diǎn)擊Repository菜單的Save子菜單保存創(chuàng)建好的映射到知識庫中。配置關(guān)系型數(shù)據(jù)庫連接(RelationalConnection)。關(guān)系型數(shù)據(jù)庫連接為源或者目標(biāo)指定一個數(shù)據(jù)庫連接。點(diǎn)擊切換到PowerCenterWorkflowManager。點(diǎn)擊Connections菜單的Relational子菜單打開RelationalConnectionBrowser窗口。點(diǎn)擊New新建RelationalConnection。選擇Oracle,點(diǎn)擊OK。Name填寫RelationalConnection的名字,UserName填寫進(jìn)行數(shù)據(jù)抽取時所用的用戶名,Password填寫進(jìn)行數(shù)據(jù)抽取時所用的用戶密碼。因?yàn)楣ぷ髁魇窃赑owerCenter服務(wù)器端運(yùn)行的,所以PowerCenter服務(wù)器端也需要安裝Oracle的客戶端并在NetManager中配置TNS服務(wù)命名,這里的ConnectString就是在NetManager中配置的TNS服務(wù)命名。CodePage選擇MSWindowsSimplifiedChinese,點(diǎn)擊OK創(chuàng)建。還需要創(chuàng)建SybaseIQ的數(shù)據(jù)庫連接。點(diǎn)擊Connections菜單的Relational子菜單打開RelationalConnectionBrowser窗口。點(diǎn)擊New新建RelationalConnection。選擇ODBC,點(diǎn)擊OK。這里不能選擇下面的Sybase,因?yàn)橄旅娴腟ybase是SybaseASE數(shù)據(jù)庫,不是SybaseIQ數(shù)據(jù)倉庫,他們是兩個產(chǎn)品。SybaseASE是SybaseSQLServer(就是當(dāng)年被Microsoft購買了源代碼,發(fā)展出MicrosoftSQLServer的那個)的直系子孫,SybaseIQ是后來Sybase公司通過收購獲得的基于列存儲的關(guān)系型數(shù)據(jù)倉庫。Name填寫RelationalConnection的名字,UserName填寫進(jìn)行數(shù)據(jù)抽取時所用的用戶名,Password填寫進(jìn)行數(shù)據(jù)抽取時所用的用戶密碼。因?yàn)楣ぷ髁魇窃赑owerCenter服務(wù)器端運(yùn)行的,所以PowerCenter服務(wù)器端也需要安裝SybaseIQ的客戶端并在ODBC中配置數(shù)據(jù)源,這里的ConnectString就是在ODBC中配置的數(shù)據(jù)源的名稱,關(guān)于SybaseIQ數(shù)據(jù)源如何配置,請參照“導(dǎo)入目標(biāo)(Target)“一節(jié)。CodePage選擇MSWindowsSimplifiedChinese,點(diǎn)擊OK創(chuàng)建。創(chuàng)建工作流(Workflow)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論