數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(2014年工碩)答案_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(2014年工碩)答案_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(2014年工碩)答案_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(2014年工碩)答案_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(2014年工碩)答案_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 課程名稱(chēng):數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘滿(mǎn)分分值:100考試日期:2014-03-16姓名:學(xué)號(hào):I.選擇題,為每個(gè)問(wèn)題選擇最合適的答案(15X3%=45%)數(shù)據(jù)倉(cāng)庫(kù)是為_(kāi)(A)_服務(wù)的。A)決策B)查詢(xún)C)統(tǒng)計(jì)D)匯總數(shù)據(jù)倉(cāng)庫(kù)上的業(yè)務(wù)處理稱(chēng)作_(A)_OA)聯(lián)機(jī)事務(wù)處理B)聯(lián)機(jī)分析處理C)聯(lián)機(jī)輸入處理D)聯(lián)機(jī)查詢(xún)處理在自然演化體系結(jié)構(gòu)中,關(guān)于導(dǎo)致數(shù)據(jù)缺乏可信性的原因的說(shuō)法哪個(gè)不正確?(D)A)數(shù)據(jù)無(wú)時(shí)基B)抽取程序的算法有差異C)抽取的層次不同D)缺乏集成性下面哪項(xiàng)關(guān)于OLTP與OLAP訪(fǎng)問(wèn)特點(diǎn)的說(shuō)法是不正確的(B)A)OLTP和OLAP對(duì)于響應(yīng)時(shí)間的要求都高B)OLTP訪(fǎng)問(wèn)頻率高,OLAP訪(fǎng)問(wèn)頻率低

2、C)OLAP訪(fǎng)問(wèn)大量的歷史,執(zhí)行大量統(tǒng)計(jì)操作D)OLTP數(shù)據(jù)處理具有并發(fā)性數(shù)據(jù)倉(cāng)庫(kù)中的多維模型最常用的是哪種?(B)A)雪花模型B)星型模型C)E-R模型D)事實(shí)星座模型關(guān)于星型模型中的表的說(shuō)法正確的是?(B)A)代碼表和維表B)事實(shí)表和維表C)事實(shí)表和參照表D)維表和參照表下面關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的說(shuō)法錯(cuò)誤的是?(A)A)數(shù)據(jù)越詳細(xì),粒度越小,層次級(jí)別就越高。B)在估計(jì)直接存儲(chǔ)設(shè)備數(shù)時(shí),如數(shù)據(jù)超過(guò)1000萬(wàn)行必須強(qiáng)制采取雙重粒度級(jí)。C)數(shù)據(jù)倉(cāng)庫(kù)大部分分析是針對(duì)被壓縮的、存取效率高的輕度級(jí)數(shù)據(jù)進(jìn)行的。D)數(shù)據(jù)分割便于數(shù)據(jù)的重構(gòu)、重組和恢復(fù),以提高創(chuàng)建索引和順序掃描的效率。下面關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存

3、儲(chǔ)方式的說(shuō)法哪個(gè)是不正確的?(B)A)虛擬存儲(chǔ)方式中,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)仍然在源數(shù)據(jù)中。B)星型模式下的維表規(guī)范化的,而雪花模式下的不需要規(guī)范化C)在查詢(xún)效率方面,星型模式效率更高D)在事實(shí)星座模式中有多個(gè)事實(shí)表,且它們共享相同的維表下面關(guān)于星型模型的說(shuō)法哪個(gè)是不正確的?(C)A)有一個(gè)包含大量數(shù)據(jù)的事實(shí)表B)有一組小的附屬表,稱(chēng)為維表,每維一個(gè)。C)事實(shí)表的每個(gè)字段都是事實(shí)度量字段D)事實(shí)中每條元組都含有指向各個(gè)維表的外鍵和度量數(shù)據(jù)。下面關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加的說(shuō)法哪個(gè)是不正確的?A)時(shí)標(biāo)法需要為記錄數(shù)據(jù)增加一個(gè)時(shí)間標(biāo)志(C)B)前后映像文件方法需要掃描整個(gè)數(shù)據(jù)庫(kù),占用較多資源,對(duì)性能有較大影響

4、C)DELTA不需要掃描整個(gè)數(shù)據(jù)庫(kù),效率較高,應(yīng)用普遍D)日志文件法也不需要掃描整個(gè)數(shù)據(jù)庫(kù),是固有機(jī)制。假設(shè)收入屬性的最小與最大分別是10000和90000,現(xiàn)在想把當(dāng)前值30000映射到區(qū)間0,1,若采用最大最小數(shù)據(jù)規(guī)范方法,計(jì)算結(jié)果是多少?(B)A)0.25B)0.375C)0.125D)0.5下面關(guān)于維的概念哪個(gè)是不正確的?(C)A)維是人們觀(guān)察數(shù)據(jù)的特定角度。B)維的層次性是由觀(guān)察數(shù)據(jù)細(xì)致程度不同造成的。C)“某年某月某日”是時(shí)間維的層次。D)“月、季、年”是時(shí)間維的層次。下面關(guān)于OLAP的數(shù)據(jù)模型的說(shuō)法哪個(gè)是不正確的?(D)A)MOLAP基于多維數(shù)據(jù)庫(kù)B)MOLAP表現(xiàn)為“超立方”結(jié)

5、構(gòu),采用類(lèi)似于多維數(shù)組的結(jié)構(gòu)C)ROLAP基于關(guān)系數(shù)據(jù)庫(kù)D)ROLAP是一個(gè)平面結(jié)構(gòu),用關(guān)系數(shù)據(jù)庫(kù)表示多維數(shù)據(jù)時(shí),采用雪花模型。數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)應(yīng)用周期可分為三個(gè)階段,下列哪項(xiàng)不是其中某個(gè)階段?(B)A)規(guī)劃分析階段B)體系結(jié)構(gòu)設(shè)計(jì)階段C)設(shè)計(jì)實(shí)施階段D)使用維護(hù)階段哪項(xiàng)不屬于概念模型(E-R)到邏輯模型(星型模型)所做的工作?(C)A)確定數(shù)據(jù)匯總水平B)設(shè)計(jì)事實(shí)表與維表C)調(diào)整數(shù)據(jù)表結(jié)構(gòu)保持?jǐn)?shù)據(jù)完整性D)創(chuàng)建事實(shí)表與維表之間的關(guān)系II.簡(jiǎn)答題(任選5題,5X5%=25%)在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的,描述處理該問(wèn)題的方法?(至少給出5種不同的方法)答:(1)忽略元組(2)

6、人工填寫(xiě)空缺值(3)使用一個(gè)全局常量填充空缺值(4)使用屬性的平均值填充空缺值(5)使用與給定元組屬同一類(lèi)的所有樣本的平均值(6)使用最可能的值填充空缺值簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)基本特征?答:四個(gè)基本特征為:(1)面向主題操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。(2)集成的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。(3)相對(duì)穩(wěn)定的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,

7、一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。(4)反映歷史變化數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。簡(jiǎn)述輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)的過(guò)程?答:(1)確定用戶(hù)需求:確定終端用戶(hù)的需要,為數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)建立模型。(2)設(shè)計(jì)和建立數(shù)據(jù)庫(kù):設(shè)計(jì)和建立數(shù)據(jù)庫(kù)是成功地創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)關(guān)鍵步驟。數(shù)據(jù)倉(cāng)庫(kù)常常使用星型模式和雪花型模式來(lái)存儲(chǔ)數(shù)據(jù),作為OLAP工具管理的合計(jì)基礎(chǔ),以便盡可能快地響應(yīng)復(fù)雜查詢(xún)。提取

8、和加載數(shù)據(jù):提取和加載數(shù)據(jù)的進(jìn)程如下:校驗(yàn)經(jīng)營(yíng)系統(tǒng)中的數(shù)據(jù);從經(jīng)營(yíng)系統(tǒng)中提取數(shù)據(jù);凈化數(shù)據(jù);把數(shù)據(jù)轉(zhuǎn)換和遷移到數(shù)據(jù)倉(cāng)庫(kù)中簡(jiǎn)述數(shù)據(jù)庫(kù)數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的異同?答:數(shù)據(jù)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上也是由數(shù)據(jù)庫(kù)的很多表組成的。需要把存放大量操作性業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫(kù)經(jīng)過(guò)篩選、抽取、歸納、統(tǒng)計(jì)、轉(zhuǎn)換到一個(gè)新的數(shù)據(jù)庫(kù)中。然后再進(jìn)行數(shù)據(jù)展現(xiàn)。區(qū)別:(1)數(shù)據(jù)庫(kù)只存放在當(dāng)前值,數(shù)據(jù)倉(cāng)庫(kù)存放歷史值;數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)是動(dòng)態(tài)變化的,只要有業(yè)務(wù)發(fā)生,數(shù)據(jù)就會(huì)被更新,而數(shù)據(jù)倉(cāng)庫(kù)則是靜態(tài)的歷史數(shù)據(jù),只能定期添加、刷新;數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,有各種結(jié)構(gòu)以適合業(yè)務(wù)處理系統(tǒng)的需要,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)則相對(duì)簡(jiǎn)單;數(shù)據(jù)庫(kù)

9、中數(shù)據(jù)訪(fǎng)問(wèn)頻率較高,但訪(fǎng)問(wèn)量較少,而數(shù)據(jù)倉(cāng)庫(kù)的訪(fǎng)問(wèn)頻率低但訪(fǎng)問(wèn)量卻很高;數(shù)據(jù)庫(kù)中數(shù)據(jù)的目標(biāo)是面向業(yè)務(wù)處理人員的,為業(yè)務(wù)處理人員提供信息處理的支持,而數(shù)據(jù)倉(cāng)庫(kù)則是面向高層管理人員的,為其提供決策支持;數(shù)據(jù)庫(kù)在訪(fǎng)問(wèn)數(shù)據(jù)時(shí)要求響應(yīng)速度快,其響應(yīng)時(shí)間一般在幾秒內(nèi),而數(shù)據(jù)倉(cāng)庫(kù)的響應(yīng)時(shí)間則可長(zhǎng)達(dá)數(shù)幾小時(shí)序列模式挖掘中什么是最大序列?并請(qǐng)舉例說(shuō)明。答:兩個(gè)序列A=和B=%4.九,如果存在整數(shù)i1i2_in且a1包含于打,a2包含于bi2,,an包含于bin,則稱(chēng)序列a包含于序列b。在一個(gè)序列集中如果序列s不包含于任何其它序列中,則稱(chēng)序列s為最大的。比如序列(3)(4,5)(8)包含于序列(7)(3,8)(9

10、)(4,5,6)(8),因?yàn)?3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。但是序列(3)(5)不包含于(3,5),反之亦然。前者表示項(xiàng)3和項(xiàng)5是先后購(gòu)買(mǎi)的,而后者則表示項(xiàng)3和項(xiàng)5是同時(shí)購(gòu)買(mǎi)的,這就是區(qū)別所在。6.簡(jiǎn)述CRISP_DM模型?答:CRISP-DM模型為一個(gè)KDD工程提供了一個(gè)完整的過(guò)程描述.該模型將一個(gè)KDD工程分為6個(gè)不同的,但順序并非完全不變的階段.businessunderstanding:即商業(yè)理解.在第一個(gè)階段我們必須從商業(yè)的角度上面了解項(xiàng)目的要求和最終目的是什么.并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來(lái).dataunderstandi

11、ng:數(shù)據(jù)的理解以及收集,對(duì)可用的數(shù)據(jù)進(jìn)行評(píng)估.datapreparation:數(shù)據(jù)的準(zhǔn)備,對(duì)可用的原始數(shù)據(jù)進(jìn)行一系列的組織以及清洗,使之達(dá)到建模需求.modeling:即應(yīng)用數(shù)據(jù)挖掘工具建立模型.Revaluation:對(duì)建立的模型進(jìn)行評(píng)估,重點(diǎn)具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的.(6)deployment:部署,即將其發(fā)現(xiàn)的結(jié)果以及過(guò)程組織成為可讀文本形式.(數(shù)據(jù)挖掘報(bào)告)7至少列舉出3個(gè)適用于分類(lèi)算法的模型評(píng)價(jià)指標(biāo),并闡述其含義?答:1)正確率(accuracy)正確率是我們最常見(jiàn)的評(píng)價(jià)指標(biāo),accuracy=(TP+TN)/(P+N),就是被分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來(lái)

12、說(shuō),正確率越高,分類(lèi)器越好;錯(cuò)誤率(errorrate)錯(cuò)誤率則與正確率相反,描述被分類(lèi)器錯(cuò)分的比例,errorrate=(FP+FN)/(P+N),對(duì)某一個(gè)實(shí)例來(lái)說(shuō),分對(duì)與分錯(cuò)是互斥事件,所以accuracy=1-errorrate;靈敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分對(duì)的比例,衡量了分類(lèi)器對(duì)正例的識(shí)別能力;特效度(specificity)specificity=TN/N,表示的是所有負(fù)例中被分對(duì)的比例,衡量了分類(lèi)器對(duì)負(fù)例的識(shí)別能力8.OLAP中數(shù)據(jù)立方體物化的目的是什么?分幾類(lèi)?物化是主要考慮的因素有哪些?答:數(shù)據(jù)立方體有利于多維數(shù)據(jù)的聯(lián)機(jī)分析處

13、理,使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀(guān)察成為可能。方體的選擇分為三類(lèi):不物化,即不預(yù)先計(jì)算任何“非基本”方體;全物化:預(yù)先計(jì)算所有的方體;部分物化:在整個(gè)可能的方體集中,有選擇地物化一個(gè)適當(dāng)?shù)淖蛹???紤]的因素有三個(gè):(1)確定要物化的方體子集(2)利用查詢(xún)處理時(shí)物化的方體(3)在裝入和刷新時(shí),有效地更新物化的方體。 (5%) III.設(shè)計(jì)題(3X10%=30%)1、假設(shè)數(shù)據(jù)倉(cāng)庫(kù)包含三個(gè)維time、doctor和patient,兩個(gè)度量count和charge,其中charge是醫(yī)生對(duì)一位病人的一次診治的收費(fèi)。A)列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式1%B)使用(A)列舉的模式之一,畫(huà)出上面數(shù)據(jù)倉(cāng)庫(kù)的模式圖

14、3%C)由基本方體day,doctor,patient開(kāi)始,為列出2010年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?3%D)為得到相同的結(jié)果,寫(xiě)一個(gè)SQL查詢(xún)。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式如下:feeday,month,year,doctor,hospital,patient,count,charge3%答:A)星型模式、雪花模式、或事實(shí)星座模式B)星型模型模式圖timeclimensioutabledoctotrlimensioubleriinekeytimekeydooctoiiddaydoctoriddoctorUdinedayoiweek/paiieinidphonedmo

15、nthaddissquaiter/!chargesexyear/comitfacttablepatientdiineusioutnblepatietnidsex-desciiptiunaddress上卷(Roll-up)操作,時(shí)間維的概念分層向上攀升,從day攀升到y(tǒng)ear.切片(Slice)操作,fortime=2004.上卷(Roll-up)操作:維規(guī)約,對(duì)patient維進(jìn)行規(guī)約。patientfromindividualpatienttoall.2、假定下面的表從面向?qū)傩缘臍w納導(dǎo)出。類(lèi)出生地人數(shù)程序員江蘇180其它120銷(xiāo)售員江蘇20其它80a)將該表轉(zhuǎn)換成顯示相關(guān)t-權(quán)和d-權(quán)的交叉

16、表(5%)b)將類(lèi)“程序員”轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如VXProgrammer(X)o(birth_place(X)=江蘇A.)t:x%,d:y%.v(.)(t:w%,d:z%3、假設(shè)數(shù)據(jù)集D含有9個(gè)數(shù)據(jù)對(duì)象(用2維空間的點(diǎn)表示):A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),C2(9,6),C3(2,2)123123123采用k-均值方法進(jìn)行聚類(lèi),距離函數(shù)采用歐幾里德距離,取k=3,假設(shè)初始的三個(gè)簇質(zhì)心為ai,bi,和q,求:(1)第一次循環(huán)結(jié)束時(shí)的三個(gè)簇的質(zhì)心。(5%)(2)最后求得的三個(gè)簇。5%解:(1)第一次循

17、環(huán):d2(A1,A1)=(3-3)2+(2-2)2=0d2(A1,B1)=(3-9)2+(2-5)2=45d2(A1,C1)=(3-2)2+(2-6)2=17因?yàn)閐2(Al,Al)最小,所以,A1-A1d2(A2,A1)=(3-3)2+(9-2)2=49d2(A2,Bl)=(3-9)2+(9-5)2=60d2(A2,Cl)=(3-2)2+(9-6)2=l0因?yàn)閐2(A2,Cl)最小,所以,A2-C1d2(A3,Al)=(8-3)2+(6-2)2=4ld2(A3,Bl)=(8-9)2+(6-5)2=2d2(A3,Cl)=(8-2)2+(6-6)2=36因?yàn)閐2(A3,Bl)最小,所以,A3-B1

18、d2(Bl,Al)=(9-3)2+(5-2)2=45d2(Bl,Bl)=(9-9)2+(5-5)2=0d2(Bl,Cl)=(9-2)2+(5-6)2=50因?yàn)閐2(Bl,Bl)最小,所以,B1-B1d2(B2,Al)=(2-3)2+(4-2)2=5d2(B2,Bl)=(2-9)2+(4-5)2=50d2(B2,Cl)=(2-2)2+(4-6)2=4因?yàn)閐2(B2,Cl)最小,所以,B2-C1d2(B3,Al)=(3-3)2+(l0-2)2=64d2(B3,Bl)=(3-9)2+(l0-5)2=6ld2(B3,C1)=(3-2)2+(10-6)2=17因?yàn)閐2(B3,Cl)最小,所以,B3-C1d2(C1,A1)=(2-3)2+(6-2)2=17d2(Cl,Bl)=(2-9)2+(6-5)2=50d2(Cl,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論