版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——ETL架構(gòu)師面試題轉(zhuǎn)載ETL架構(gòu)師面試題
1.WhatisalogicaldatamappingandwhatdoesitmeantotheETLteam?什么是規(guī)律數(shù)據(jù)映射?它對ETL項目組的作用是什么?答:
規(guī)律數(shù)據(jù)映射(LogicalDataMap)用來描述源系統(tǒng)的數(shù)據(jù)定義、目標數(shù)據(jù)倉庫的模型以及將源系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)倉庫中需要做操作和處理方式的說明文檔,尋常以表格或Excel的格式保存如下的信息:目標表名:目標列名:
目標表類型:注明是事實表、維度表或支架維度表。SCD類型:對于維度表而言。
源數(shù)據(jù)庫名:源數(shù)據(jù)庫的實例名,或者連接字符串。源表名:源列名:
轉(zhuǎn)換方法:需要對源數(shù)據(jù)做的操作,如Sum(amount)等。
規(guī)律數(shù)據(jù)映射應(yīng)當貫穿數(shù)據(jù)遷移項目的始終,在其中說明白數(shù)據(jù)遷移中的ETL策略。在進行物理數(shù)據(jù)映射前進行規(guī)律數(shù)據(jù)映射對ETL項目組是重要的,它起著元數(shù)據(jù)的作用。項目中最好選擇能生成規(guī)律數(shù)據(jù)映射的數(shù)據(jù)遷移工具。
2.Whataretheprimarygoalsofthedatadiscoveryphaseofthedatawarehouseproject?在數(shù)據(jù)倉庫項目中,數(shù)據(jù)摸索階段的主要目的是什么?答:
在規(guī)律數(shù)據(jù)映射進行之前,需要首先對所有的源系統(tǒng)進行分析。對源系統(tǒng)的分析尋常包括兩個階段,一個是數(shù)據(jù)摸索階段(DataDiscoveryPhase),另一個是異常數(shù)據(jù)檢測階段。數(shù)據(jù)摸索階段包括以下內(nèi)容:
1.收集所有的源系統(tǒng)的文檔、數(shù)據(jù)字典等內(nèi)容。
2.收集源系統(tǒng)的使用狀況,如誰在用、每天多少人用、占多少存儲空間等內(nèi)容。3.判斷出數(shù)據(jù)的起始來源(System-of-Record)。
4.通過數(shù)據(jù)概況(DataProfiling)來對源系統(tǒng)的數(shù)據(jù)關(guān)系進行分析。
數(shù)據(jù)摸索階段的主要目的是理解源系統(tǒng)的狀況,為后續(xù)的數(shù)據(jù)建模和規(guī)律數(shù)據(jù)映射打下堅實的基礎(chǔ)。
3.Howisthesystem-of-recorddetermined?如何確定起始來源數(shù)據(jù)?答:
這個問題的關(guān)鍵是理解什么是System-of-Record。System-of-Record和數(shù)據(jù)倉庫領(lǐng)域內(nèi)的其他好多概念一樣,不同的人對它有不同的定義。在Kimball的體系中,System-of-Record是指最初產(chǎn)生數(shù)據(jù)的地方,即數(shù)據(jù)的起始來源。在較大的企業(yè)內(nèi),數(shù)據(jù)會被冗余的保存在不同的地方,在數(shù)據(jù)的遷移過程中,會出現(xiàn)修改、清洗等操作,導致與數(shù)據(jù)的起始來源產(chǎn)生不同。
起始來源數(shù)據(jù)對數(shù)據(jù)倉庫的建立有著十分重要的作用,特別是對產(chǎn)生一致性維度來說。我們從起始來源數(shù)據(jù)的越下游開始建立數(shù)據(jù)倉庫,我們遇到垃圾數(shù)據(jù)的風險就會越大。
Architecture
4.WhatarethefourbasicDataFlowstepsofanETLprocess?在ETL過程中四個基本的過程分別是什么?答:
Kimball數(shù)據(jù)倉庫構(gòu)建方法中,ETL的過程和傳統(tǒng)的實現(xiàn)方法有一些不同,主要分為四個階段,分別是抽?。╡xtract)、清洗(clean)、一致性處理(comform)和交付(delivery),簡稱為ECCD。1.抽取階段的主要任務(wù)是:讀取源系統(tǒng)的數(shù)據(jù)模型。連接并訪問源系統(tǒng)的數(shù)據(jù)。變化數(shù)據(jù)捕獲。抽取數(shù)據(jù)到數(shù)據(jù)準備區(qū)。2.清洗階段的主要任務(wù)是:清洗并增補列的屬性。清洗并增補數(shù)據(jù)結(jié)構(gòu)。清洗并增補數(shù)據(jù)規(guī)則。增補繁雜的業(yè)務(wù)規(guī)則。建立元數(shù)據(jù)庫描述數(shù)據(jù)質(zhì)量。將清洗后的數(shù)據(jù)保存到數(shù)據(jù)準備區(qū)。3.一致性處理階段的主要任務(wù)是:
一致性處理業(yè)務(wù)標簽,即維度表中的描述屬性。一致性處理業(yè)務(wù)度量及性能指標,尋常是事實表中的事實。去除重復數(shù)據(jù)。國際化處理。
將一致性處理后的數(shù)據(jù)保存到數(shù)據(jù)準備區(qū)。4.交付階段的主要任務(wù)是:
加載星型的和經(jīng)過雪花處理的維度表數(shù)據(jù)。產(chǎn)生日期維度。加載退化維度。加載子維度。
加載1、2、3型的緩慢變化維度。處理遲到的維度和遲到的事實。加載多值維度。
加載有繁雜層級結(jié)構(gòu)的維度。加載文才能實到維度表。處理事實表的代理鍵。加載三個基本類型的事實表數(shù)據(jù)。加載和更新聚集。
將處理好的數(shù)據(jù)加載到數(shù)據(jù)倉庫。
從這個任務(wù)列表中可以看出,ETL的過程和數(shù)據(jù)倉庫建模的過程結(jié)合的十分緊湊。換句話說,ETL系統(tǒng)的設(shè)計應(yīng)當和目標表的設(shè)計同時開始。尋常來說,數(shù)據(jù)倉庫架構(gòu)師和ETL系統(tǒng)設(shè)計師是同一個人。
5.Whatarethepermissibledatastructuresforthedatastagingarea?Brieflydescribetheprosandconsofeach.
在數(shù)據(jù)準備區(qū)中允許使用的數(shù)據(jù)結(jié)構(gòu)有哪些?各有什么優(yōu)缺點?答:
1.固定格式的文本文件。(FlatFile)
FlatFile指的是一種保存在系統(tǒng)上的一種文本文件格式,它以類似數(shù)據(jù)庫的表的方式用行和列來保存數(shù)據(jù)。這種文件格式經(jīng)常用來進行數(shù)據(jù)交換。用于保存數(shù)據(jù)不太適合。2.XML數(shù)據(jù)集。
多用于數(shù)據(jù)交換,用戶保存數(shù)據(jù)不太適合。3.關(guān)系數(shù)據(jù)庫的表。保存數(shù)據(jù)的較理想選擇。4.獨立的數(shù)據(jù)庫表。
獨立的數(shù)據(jù)庫表一般指建立的表和其他表沒有外鍵約束關(guān)系。這樣的表多用于數(shù)據(jù)處理。5.三范式或者關(guān)系型模型。6.非關(guān)系型數(shù)據(jù)源。
非關(guān)系型數(shù)據(jù)源一般包括COBOLcopybooks、VSAM文件、Flat文件、Spreadsheets等。7.維度模型。
8.原子事實表和聚集事實表。9.代理鍵查找表。
6.WhenshoulddatabesettodiskforsafekeepingduringtheETL?簡述ETL過程中哪個步驟應(yīng)當出于安全的考慮將數(shù)據(jù)寫到磁盤上?答:
Staging的意思就是將數(shù)據(jù)寫到磁盤上。出于安全及ETL能便利重新開始,在數(shù)據(jù)準備區(qū)(StagingArea)中的每個步驟中都應(yīng)當將數(shù)據(jù)寫到磁盤上,即生成文本文件或者將建立關(guān)系表保存數(shù)據(jù),而不應(yīng)當以數(shù)據(jù)不落地方式直接進行ETL。
例如,在數(shù)據(jù)抽取階段,我們需要連接到源系統(tǒng),為了對源系統(tǒng)的影響盡量小,我們需要將抽取的數(shù)據(jù)保存成文本文件或者放入數(shù)據(jù)準備區(qū)的表中,這樣,當ETL過程出現(xiàn)錯誤而失敗時,我們就可以從這些文本文件開始ETL,而不需要再次影響源系統(tǒng)。Extract
7.Describetechniquesforextractingfromheterogeneousdatasources.簡述異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取技術(shù)。
答:在數(shù)據(jù)倉庫項目中,需要抽取的數(shù)據(jù)經(jīng)常來自不同的數(shù)據(jù)源,它們的規(guī)律結(jié)構(gòu)和物理結(jié)構(gòu)都可能不同,即稱之為異構(gòu)數(shù)據(jù)源。
在對異構(gòu)數(shù)據(jù)源進行整合抽取時,我們需要做的事情依次是標識出所有的源系統(tǒng),對源系統(tǒng)進行概況分析,定義數(shù)據(jù)匹配規(guī)律,建立篩選規(guī)則,生成一致性維度。
對于源數(shù)據(jù)的操作系統(tǒng)平臺和數(shù)據(jù)平臺各不一致的狀況,我們需要根據(jù)實際狀況來確定如何進行數(shù)據(jù)抽取,尋常的方法有建立ODBC連接、定義接口文件、建立DBLINK等方法。
8.WhatisthebestapproachforhandlingERPsourcedata?從ERP源系統(tǒng)中抽取數(shù)據(jù)最好的方法是什么?
答:ERP系統(tǒng)的產(chǎn)生是為了解決企業(yè)內(nèi)異構(gòu)數(shù)據(jù)的整合。這個問題也是數(shù)據(jù)倉庫系統(tǒng)面臨的主要問題。ERP的解決方案是將企業(yè)內(nèi)的各個應(yīng)用(包括銷售、會計、人力資源、庫存和產(chǎn)品等)建立在一致的平臺和一致的應(yīng)用框架下,即在應(yīng)用操作層將企業(yè)內(nèi)的數(shù)據(jù)進行了一致性處理。而數(shù)據(jù)倉庫是在應(yīng)用操作層之上建立一致性的規(guī)則并進行一致性處理。目前比較流行的ERP系統(tǒng)有SAP、PeopleSoft、Oracle、Baan和J.D.EDwards(大部分沒接觸過)。
假使企業(yè)內(nèi)只有一套ERP系統(tǒng),那么數(shù)據(jù)就已經(jīng)是一致的了,為數(shù)據(jù)抽取提供了便利。假使企業(yè)內(nèi)除了ERP外還有其他系統(tǒng),則數(shù)據(jù)抽取會變得繁雜。由于目前的ERP系統(tǒng)的數(shù)據(jù)模型都十分繁雜,可能有幾百幾千個表,并且較難理解。直接在ERP系統(tǒng)上建立數(shù)據(jù)捕獲和抽取是十分繁雜的。最好的方法是購買能針對ERP系統(tǒng)數(shù)據(jù)抽取提供功能的ETL工具,將ERP內(nèi)部的繁雜性留給ETL廠商處理。
9.ExplaintheprosandconsofcommunicatingwithdatabasesnativelyversusODBC.簡述直接連接數(shù)據(jù)庫和使用ODBC連接數(shù)據(jù)庫進行通訊的優(yōu)缺點。
答:尋常連接數(shù)據(jù)庫的方式分為兩類,一類是直接連接,另一類是通過ODBC連接。
直接連接的方式主要是通過COBOL、PL/SQL、Transact-SQL等方式連接數(shù)據(jù)庫。這種方式的優(yōu)點是運行性能高,可以使用DBMS提供的一些特別功能。缺點是通用性差。
ODBC是為windows應(yīng)用程序訪問數(shù)據(jù)庫提供的一組接口。ODBC的優(yōu)點是靈活性,通過改變驅(qū)動和連接方式可以使用不同的數(shù)據(jù)庫。ODBC方式的缺點是性能差。使用ODBC連接方式實現(xiàn)ETL的話,在ETL程序和至少要有兩層,分別是ODBCManager層和ODBCDriver層。另外,使用ODBC方式不能使用DBMS提供的一些特別的功能。
10.Describethreechangedatacapture(CDC)practicesandtheprosandconsofeach.簡述出三種變化數(shù)據(jù)捕獲技術(shù)及其優(yōu)缺點。答:
變化數(shù)據(jù)捕獲(CDC)技術(shù)是ETL工作中的重點和難點,尋常需要在增量抽取時完成。實現(xiàn)變化數(shù)據(jù)捕獲時最理想的是找到源系統(tǒng)的DBA。假使不能找到,就需要ETL項目組自己進行檢測數(shù)據(jù)的變化。下面是一些常用的技術(shù)。1.采用審計列
審計列指表中如“添加日期〞、“修改日期〞、“修改人〞等信息的字段。應(yīng)用程序在對該表的數(shù)據(jù)進行操作時,同時更新這些字段,或者建立觸發(fā)器來更新這些字段。采用這種方式進行變化數(shù)據(jù)捕獲的優(yōu)點是便利,簡單實現(xiàn)。缺點是假使操作型系統(tǒng)沒有相應(yīng)的審計字段,需要改變已有的操作型系統(tǒng)的數(shù)據(jù)結(jié)構(gòu),以保證獲取過程涉及的每張表都有審計字段。2.數(shù)據(jù)庫日志
DBMS日志獲取是一種通過DBMS提供的日志系統(tǒng)來獲得變化的數(shù)據(jù)。它的優(yōu)點是對數(shù)據(jù)庫或訪問數(shù)據(jù)庫的操作系統(tǒng)的影響最小。缺點是要求DBMS支持,并且對日志記錄的格式十分了解。
3.全表掃描
全表掃描或者全表導出文件后進行掃描對比也可以進行變化數(shù)據(jù)捕獲,特別是捕獲刪除的數(shù)據(jù)時。這種方法的優(yōu)點是,思路明了,適應(yīng)面廣,缺點是效率比較差。
DataQuality
11.Whatarethefourbroadcategoriesofdataqualitychecks?Provideanimplementationtechniqueforeach.
數(shù)據(jù)質(zhì)量檢查的四大類是什么?為每類提供一種實現(xiàn)技術(shù)。
答:數(shù)據(jù)質(zhì)量檢查是ETL工作中十分重要的一步,主要關(guān)注一下四個方面。1.正確性檢查(Corret)
檢查數(shù)據(jù)值及其描述是否真實的反映了客觀事務(wù)。例如地址的描述是否完全。2.明確性檢查(Unambiguous)
檢查數(shù)據(jù)值及其描述是否只有一個意思或者只有一個解釋。例如地名一致的兩個縣需要加區(qū)分方法。3.一致性檢查(Consistent)
檢查數(shù)據(jù)值及其描述是否統(tǒng)一的采用固定的約定符號來表示。例如幣別中人民幣用'CNY'。4.完全性檢查(Complete)
完全性有兩個需要檢查的地方,一個是檢查字段的數(shù)據(jù)值及其描述是否完全。例如檢查是否有空值。另一個是檢查記錄的合計值是否完全,有沒有遺忘某些條件。
12.AtwhichstageoftheETLshoulddatabeprofiled?簡述應(yīng)當在ETL的哪個步驟來實現(xiàn)概況分析?
答:數(shù)據(jù)概況分析是對源數(shù)據(jù)內(nèi)容的概況進行分析,應(yīng)當在項目的開始后盡早完成,它會對設(shè)計和實現(xiàn)有很大的影響。在完成需求收集后就應(yīng)當馬上開始數(shù)據(jù)概況分析。
數(shù)據(jù)概況分析不光是對源系統(tǒng)的數(shù)據(jù)概況的定量描述,而且為ETL系統(tǒng)中需要建立的錯誤事件事實表(ErrorEventTable)和審計維度表(AuditDimension)打下基礎(chǔ),為其提供數(shù)據(jù)。
13.Whatarethee
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度餐飲行業(yè)食品安全標準承包協(xié)議3篇
- 二零二五年度新材料研發(fā)廠房租賃及產(chǎn)業(yè)轉(zhuǎn)化服務(wù)協(xié)議3篇
- 二零二五年度企業(yè)園區(qū)冬季清雪及道路維護合同2篇
- 二零二五年度電梯門套智能化控制系統(tǒng)集成合同3篇
- 2025年中國氯化酮市場調(diào)查研究報告
- 2025年中國冷裱膜高光相紙市場調(diào)查研究報告
- 基于AI的切片安全檢測技術(shù)-深度研究
- 情感化空間設(shè)計策略-深度研究
- 2025至2031年中國痔瘡寧栓行業(yè)投資前景及策略咨詢研究報告
- 傳統(tǒng)文化記憶與鄉(xiāng)村振興-深度研究
- 《縣域腫瘤防治中心評估標準》
- 做好八件事快樂過寒假-2024-2025學年上學期中學寒假家長會課件-2024-2025學年高中主題班會課件
- (八省聯(lián)考)云南省2025年普通高校招生適應(yīng)性測試 物理試卷(含答案解析)
- 調(diào)解行業(yè)可行性分析報告
- 科創(chuàng)板知識題庫試題及答案
- 《血管活性藥物靜脈輸注護理》團體標準解讀
- 護理急性支氣管炎
- NGS二代測序培訓
- GB/T 15934-2024電器附件電線組件和互連電線組件
- 營銷人員薪酬考核方案
- 2024年版的企業(yè)績效評價標準
評論
0/150
提交評論