數(shù)據(jù)預處理習題庫2020_第1頁
數(shù)據(jù)預處理習題庫2020_第2頁
數(shù)據(jù)預處理習題庫2020_第3頁
數(shù)據(jù)預處理習題庫2020_第4頁
數(shù)據(jù)預處理習題庫2020_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單項選擇題(每小題2分,共30分)1.影響數(shù)據(jù)質(zhì)量問題的因素有哪些?()A.準確性、完整性、一致性 B.相關(guān)性、時效性 C.可信性、可解釋性 D.以上都是 2.假設(shè)有這么一組排序后的數(shù)據(jù):4,8,15,21,21,24,25,28,34,劃分為等頻的箱:箱1:4,8,15;箱2:21,21,24;箱3:25,28,34,要求:箱1用平均值,箱2用中位值,箱3用箱邊界三種方法來光滑噪聲數(shù)據(jù),下面哪個選項是正確的?()A.9,9,9;22,22,22;25,25,34 B.8,8,8;22,22,22;25,25,34C.9,9,9;21,21,21;25,25,34 D.4,4,15;21,21,21;25,25,253.下面有關(guān)轉(zhuǎn)換描述錯誤的是?()A.轉(zhuǎn)換是ETL解決方案中最主要的部分,主要負責處理抽取、轉(zhuǎn)換、加載各階段對數(shù)據(jù)行的各種操作B.轉(zhuǎn)換中的步驟通過跳來連接,定義了一個單向通道C.轉(zhuǎn)換中的跳傳遞的是一個結(jié)果對象 D.轉(zhuǎn)換中的圖形化組件被稱為步驟 4.下面哪一項不是屬于數(shù)據(jù)歸約的策略?()A.維歸約 B.數(shù)量歸約 C.數(shù)據(jù)壓縮 D.屬性構(gòu)造5.下面有關(guān)步驟描述錯誤的是?()A.步驟需要有一個唯一的名字 B.步驟之間通過跳進行數(shù)據(jù)行的單向傳輸C.大多數(shù)的步驟都可以有多個輸出跳 D.可以影子復制 6.基于CDC的數(shù)據(jù)變更有兩種:侵入性和非侵入性的。下面哪一項是屬于非侵入性的?()A.基于源數(shù)據(jù)的CDC B.基于日志的CDC C.基于觸發(fā)器的CDC D.基于快照的CDC7.下面哪一項描述的正確?()A.拆分字段和拆分字段成多行是一樣的 B.合并字段是拆分字段的逆運算C.拆分字段步驟支持正則表達式 D.使用拆分字段成多行步驟,被拆分的字段將不復存在8.以下說法錯誤的是?()A.主成分分析、屬性子集選擇為維歸約方法。B.直方圖、聚類、抽樣和數(shù)據(jù)立方體聚集為數(shù)量歸約方法。C.用于規(guī)約的時間可以超過或抵消在規(guī)約后的數(shù)據(jù)上挖掘節(jié)省的時間。D.數(shù)據(jù)集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,這有助于提高其后挖掘過程的準確性和速度。9.下列說法不正確的是?()A數(shù)據(jù)集成時一般會用到數(shù)據(jù)倉庫B.業(yè)務(wù)鍵通常來源于業(yè)務(wù)系統(tǒng)C.事實表加載前,先加載維表 D.雪花模型的各個維表之間沒有依賴關(guān)系10.以下說法錯誤的是?()A.可能通過pymysql.connect(host,user,password,database)連接到mysql數(shù)據(jù)庫B.cursor.execute(sql)執(zhí)行SQL語句 C.cursor.fetchall()獲取一行執(zhí)行結(jié)果D.若改變了數(shù)據(jù)庫里的數(shù)據(jù),需要調(diào)用commit()來提交11.轉(zhuǎn)換創(chuàng)建并保存后的文件后綴名是?()A.ktr B.kjb C.kbj D.krt12.下列合并多個數(shù)據(jù)集說法錯誤的是?()A.pandas.merge基于一個或多個鍵連接多個DataFrame中的行B.pandas.concat按行或按列將不同的對象疊加到一起C.pandas.merge默認的合并操作使用的是innerjoin,通過傳遞how參數(shù)修改為outerjoinD.concat函數(shù)的axis參數(shù)值為0,表示沿著橫軸串接,生成一個新的Series對象13.以下說法錯誤的是?()A.去除重復數(shù)據(jù)時若需要保留最后一個值需要keep=’last’參數(shù) B.調(diào)用duplicated方法可以對重復數(shù)據(jù)去除C.使用去除重復數(shù)據(jù)步驟必須先排序 D.Kettle提供了去除不完全重復數(shù)據(jù)的步驟14.有關(guān)Kettle設(shè)計原則說法不正確的是?()A.易于開發(fā) B.運行狀態(tài)透明化C.只映射需要的字段 D.命名必須用漢字或英文15.以下說法錯誤的是?()A.一個作業(yè)包含一個或多個作業(yè)項 B.作業(yè)項可以是轉(zhuǎn)換也可以是作業(yè)C.作業(yè)執(zhí)行順序是由跳和每個作業(yè)執(zhí)行結(jié)果來決定的 D.作業(yè)和轉(zhuǎn)換都可以并行執(zhí)行16.下列有關(guān)變量的說法錯誤的是?()A.系統(tǒng)變量包括Java虛擬機和Kettle的內(nèi)部變量B.可以使用perties文件來設(shè)置變量C.可以使用${變量}或%%變量%%來調(diào)用變量 D.作業(yè)中的每個作業(yè)項中都可以使用所有的變量17.在數(shù)據(jù)預處理階段,數(shù)據(jù)類型被統(tǒng)一,使得挖掘過程可能更有效,挖掘的模式可能更容易理解,這個過程被稱為?()A.數(shù)據(jù)清理 B.數(shù)據(jù)集成 C.數(shù)據(jù)規(guī)約 D.數(shù)據(jù)變換18.以下說法正確的是?()A.事實表中,數(shù)據(jù)粒度很細,這類通常是事務(wù)型事實表 B.周期快照事實表,通常是匯總的數(shù)據(jù)C.累積快照事實表,數(shù)據(jù)生成后,后續(xù)經(jīng)常有變化 D.以上都正確19.下面有關(guān)SQL說法不正確的是?()A.刪除表可用drop B.修改表結(jié)構(gòu)可用updateC.增加數(shù)據(jù)可用insertinto D.切換數(shù)據(jù)庫可用use20.下列關(guān)于為什么要做數(shù)據(jù)清理描述錯誤的是?()A. 數(shù)據(jù)有錯誤 B.數(shù)據(jù)量太大 C.數(shù)據(jù)有缺失 D.數(shù)據(jù)有重復21.下面有關(guān)Kettle中連接關(guān)系型數(shù)據(jù)庫的說法不正確的是?()A.“數(shù)據(jù)庫連接”窗口中連接名稱必須在作業(yè)或轉(zhuǎn)換范圍內(nèi)唯一的名稱B.可以在“選項”中設(shè)置編碼格式 C.主機名稱、用戶名和密碼均不可使用變量D.端口號一般是選中的數(shù)據(jù)庫服務(wù)器的默認端口號22.下列關(guān)于描述正確的是?()A.字符串剪切步驟的功能相對單一,就是根據(jù)設(shè)置的剪切位置對輸入的字段剪切B.字符串操作支持正則表達式C.字符串替換支持大小寫的轉(zhuǎn)換D.字符串操作不支持數(shù)字的提取23.下面有關(guān)參照表描述錯誤的是?()A.外部的參照數(shù)據(jù)里的信息是完整的、標準的,也稱這些參照數(shù)據(jù)為主數(shù)據(jù)B.大部分的主數(shù)據(jù)都是可以免費下載的C.使用參照表可以校驗數(shù)據(jù)的準確性D.使用參照表可以使數(shù)據(jù)一致24.下列有關(guān)變量的說法錯誤的是?()A.系統(tǒng)變量包括Java虛擬機和Kettle的內(nèi)部變量B.可以使用perties文件來設(shè)置變量C.可在“設(shè)置變量”中設(shè)置作業(yè)項的屬性 D.變量一旦設(shè)置將不可以修改填空題數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。它主要由(1)和(2)組成。Pandas是一個Python的開源庫,提供了高性能且易于使用的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)分析工具。提供了兩種主要數(shù)據(jù)結(jié)構(gòu)(3)和(4),其中,(5)用于處理一維數(shù)據(jù),(6)用于處理二維數(shù)據(jù)。SQL語言的用戶對join操作很熟悉,它用于合并數(shù)據(jù)集,按照一個或多個特定的鍵來連接相關(guān)的行。在關(guān)系型數(shù)據(jù)庫中,連接操作處于中心的位置。pandas提供了(7)函數(shù),可以對數(shù)據(jù)集進行類似數(shù)據(jù)庫連接的操作。維度表有兩個典型的模型,其中(8)模型加載時不分先后順序,而(9)是在前一個模型的基礎(chǔ)上擴展面來的。可調(diào)用DataFrame的(10)方法返回一個布爾型(11),用以提示各行是否是重復行。一個作業(yè)包括一個或多個作業(yè)項,這些作業(yè)項以某種順序來執(zhí)行。作業(yè)執(zhí)行順序由作業(yè)項之間的(12)和每個作業(yè)項的(13)來決定。所謂數(shù)據(jù)清理,就是試圖檢測和去除數(shù)據(jù)集中的(14)和(15),處理遺漏數(shù)據(jù),去除空白數(shù)據(jù)域和知識背景下的白噪聲,解決數(shù)據(jù)的(16)、唯一性問題,從而達到提高數(shù)據(jù)質(zhì)量的目的。(17)作業(yè)項是一個特殊的作業(yè)項,一個作業(yè)必須而且只能定義一個。數(shù)列為[5,5,8,15,12,15],使用z-score方法映射后為[(18),(19),(20),(21),(22),(23)](注,均值為10,標準差為:4.243)星型模型中,維度表通過(24)和事實表的外鍵的關(guān)聯(lián)。Kettle作業(yè)的監(jiān)控方式有兩種,其中(25)是對運行過程的信息反饋,(26)是通知管理員作業(yè)的執(zhí)行情況。判斷題1.Pandas是一個Python開源庫,提供了高性能且易于使用的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)分析工具。 ()2.Kettle提供了大量的數(shù)據(jù)清洗步驟,沒有必要再使用腳本組件來做數(shù)據(jù)清理。()3.數(shù)據(jù)預處理的數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約流程并不是完全分開的,在某種場景下是可以一起使用的。()4.Kettle作業(yè)的監(jiān)控方式有兩種,即日志和郵件。 ()5.緩慢變化維,主要分為三種,其中類型2當前最新數(shù)據(jù)會覆蓋舊數(shù)據(jù)。()6.concat函數(shù)的axis參數(shù)取值為0,表示行的串接,生成一個新的Series對象,如果傳遞axis=1,表示列的串接,結(jié)果得到一個新的DataFrame對象。 ()7.Kettle中,參照數(shù)據(jù)流到流查詢步驟對應(yīng)的跳上會出現(xiàn)一個“i"標識。()8.merge默認執(zhí)行的是類似于SQL中的outerjoin操作。()9.緩慢變化維只有三種類型。()10.業(yè)務(wù)鍵和代理鍵都通過ETL生成。項目中,我們要確保業(yè)務(wù)鍵的唯一性。 ()11.Kettle中,作業(yè)中的跳有三種類型,分別是無條件的,結(jié)果為真,結(jié)果為假。 ()12.Series對象的index可以通過賦值來改變。 ()13.作業(yè)項可以有影子拷貝,這樣可以把作業(yè)項放在多個不同的位置。這些影子拷貝里的信息都是相同的,編輯了一個拷貝,其他拷貝也隨之修改。()14.Kettle支持自定義腳本開發(fā)。()15.在一個作業(yè)中,START作業(yè)項可以多次出現(xiàn)。 ()16.Kettle中的步驟不可并行執(zhí)行的。()簡答題簡述星型模型和雪花模型的特點。列舉至少五個在數(shù)據(jù)清理中處理缺失值的方法。什么是CDC?列出CDC操作的常見方法,并標明是否是侵入性的。數(shù)據(jù)預處理的大體流程是什么?應(yīng)用題兩個DataFrame實例:df1=DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})df2=DataFrame({'key':['a','b','d'],'data2':range(3)})求pd.merge(df1,df2)的結(jié)果?s1=Series([0,1],index=['a','b'])s2=Series([2,3,4],index=[

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論