數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘考試試題_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘考試試題_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘考試試題_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘考試試題_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘考試試題_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余2頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、填空題(15分)1.數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)分別是面向主題、集成、相對(duì)穩(wěn)定、反映歷史變化。技術(shù)2.元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3.0LA P技術(shù)多維分析過(guò)程中,多維分析操作包括切片切塊鉆取、旋轉(zhuǎn)等?!爸行暮洼椛洹奔軜?gòu),其中企4.基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)常常被稱為業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是中心,源數(shù)據(jù)系統(tǒng)和數(shù)據(jù)集市在輸入和輸出范圍的兩端。5.0DS實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫(kù),也叫運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)。二、多項(xiàng)選擇題(10分)6.在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括(

2、ACD )A分類 B關(guān)聯(lián)估值預(yù)言7. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程中,ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取B數(shù)據(jù)轉(zhuǎn)換C數(shù)據(jù)加載D數(shù)據(jù)稽核8. 數(shù)據(jù)分類的評(píng)價(jià)準(zhǔn)則包括(ABCD )A精確度 B 查全率和查準(zhǔn)率 C F-Measure D幾何均值9. 層次聚類方法包括(BC )A劃分聚類方法 B凝聚型層次聚類方法C分解型層次聚類方法D基于密度聚類方法10. 貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是(A DA網(wǎng)絡(luò)結(jié)構(gòu) B先驗(yàn)概率C后驗(yàn)概率D 條件概率表三、計(jì)算題(30 分)其中每一條事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的項(xiàng)目,11. 一個(gè)食品連鎖店每周的事務(wù)記錄如下表所示,定sup min=40% conf m

3、in=40%使用ApWri算法計(jì)算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫(kù)掃描時(shí)的候選集和大項(xiàng)目集。(15分)事務(wù)項(xiàng)目事務(wù)項(xiàng)目T1面包、果凍、花生醬T4啤酒、面包T2面包、花生醬T5啤酒、牛奶T3面包、牛奶、花生醬解:(1)由1=面包、果凍、花生醬、牛奶、啤酒的所有項(xiàng)目直接產(chǎn)生1-候選Ci,計(jì)算其支持度,取出支 持度小于SUp的項(xiàng)集,形成1-頻繁集L1,如下表所示:項(xiàng)集C1支持度項(xiàng)集L1支持度面包4/5面包4/5花生醬3/5花生醬3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5 組合連接L1中的各項(xiàng)目,產(chǎn)生 2-候選集C2,計(jì)算其支持度,取出支持度小于sup的項(xiàng)集,形成2-頻繁集L2,如下表所示:項(xiàng)集G支

4、持度項(xiàng)集L2支持度面包、花生醬3/5面包、花生醬3/5至此,所有頻繁集都被找到,算法結(jié)束,所以,confidence (面包宀花生醬) = (4/5 ) / (3/5 ) =4/3> conf confidence (花生醬宀面包) = (3/5 ) / (4/5 ) =3/4> conf min所以,關(guān)聯(lián)規(guī)則面包 T花生醬、花生醬 T面包均是強(qiáng)關(guān)聯(lián)規(guī)則。12.給定以下數(shù)據(jù)集(2, 4, 10,歐式距離計(jì)算。(15分)12,15, 3,21),進(jìn)行K-Means聚類,設(shè)定聚類數(shù)為 2個(gè),相似度按照解:(1)從數(shù)據(jù)集X中隨機(jī)地選擇題可知k=2,則可設(shè) m=2, m=4:k個(gè)數(shù)據(jù)樣本作

5、為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別,由(2 )對(duì)于X中的任意數(shù)據(jù)樣本 xm最近的初始代表點(diǎn)所表示的類別中:當(dāng)(Kxmvtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離m=2時(shí),樣本(2 , 4, 10, 12, 15, 3, 21)距離該代表點(diǎn)的距離分別為 2,8,10,13,1,19。當(dāng) m=4 時(shí),樣本(2,4,10,12,15, 3, 21)距離該代表點(diǎn)的距離分別為-2 , 6, 8, 11, -1 , 17。最小距離是1或者-1將該元素放入m=2的聚類中,則該聚類為(2,3),另一個(gè)聚類 m=4為(4,10,12,15,21)。(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于

6、每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的 新的代表點(diǎn),由此得到 k個(gè)均值代表點(diǎn):m=2.5 , m=12 :(4)對(duì)于X中的任意數(shù)據(jù)樣本xm (1<xm<total ),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,最近的初始代表點(diǎn)所表示的類別中:當(dāng)m=2.5時(shí),樣本(2 , 4, 10, 12, 15, 3,離分別為-0.5 , 0.5 , 1.5 , 7.5 , 9.5 , 12.5 , 18.5。并且將它劃分到距離21)距離該代表點(diǎn)的距當(dāng)m=12時(shí),樣本(2,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-10,-9,-8,2, 3, 9。最小距離是1.5將該元

7、素放入 m=2.5的聚類中,則該聚類為(2, 3, 4),另一個(gè)聚類 m=12為(10, 12,15, 21)。(5)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的類型新的代表點(diǎn),由此得到 k個(gè)均值代表點(diǎn):m=3, m2=14.5 :(6)對(duì)于X中的任意數(shù)據(jù)樣本xm( 1<xm<total ),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離 最近的初始代表點(diǎn)所表示的類別中:當(dāng)m=3時(shí),樣本(2 , 4, 10, 12, 15, 3, 21)距離該代表點(diǎn)的距離分別為-1 ,1 , 7, 9, 12, 18,0當(dāng) m=i4.5-4.5 , -

8、2.5,0.5 , 6.5。時(shí),樣本(2 , 4, 10, 12, 15, 3, 21)距離該代表點(diǎn)的距離分別為-12.58 , -11.5 , -10.5 ,最小距離是0.5將該元素放入 m=3的聚類中,則該聚類為(2 , 3, 4),另一個(gè)聚類 =14.5為(10, 12,15, 21)。至此,各個(gè)聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)。四. 設(shè)計(jì)題(45分)13.按照題目給定的3個(gè)數(shù)據(jù)文件,任選一個(gè)建立數(shù)據(jù)流圖,要求至少包括記錄選項(xiàng)、字段選項(xiàng)、圖形結(jié)點(diǎn) 各一個(gè)。任選關(guān)聯(lián)規(guī)則Ap riori算法、中的一個(gè)進(jìn)行挖掘,并給出數(shù)據(jù)流圖。貝葉斯網(wǎng)絡(luò)、K-Means聚類、決策樹(shù) C5

9、.0 ( C4.5)算法、神經(jīng)網(wǎng)絡(luò)(10 分)<3>q h urn(10 分)14.對(duì)以上數(shù)據(jù)流圖中使用的每個(gè)結(jié)點(diǎn)做一簡(jiǎn)短說(shuō)明。選擇:age>25.過(guò)濾:過(guò)濾后的字段。Region,tenure,age,marital,churn.類型抉失檢查方向Q region tenure ageO maritalO churn及瑾 歹冶a 禱?f畫 Q范圍 爐范圍i Soo、輸入、輸入I、輸入輸入 ©輸出,對(duì)于執(zhí)行結(jié)果太多的,可節(jié)選部15.給出以上數(shù)據(jù)流圖中模型的執(zhí)行結(jié)果(生成模型完全展開(kāi)后的數(shù)據(jù)) 分結(jié)果。(10分)I I 二(N":t:> 士Mil町 F*

10、 M_叭dWx帚|_Wk士AT:7 T Fi 口 T 己=INS mBW <0.7-03 n(n 6f" ( L-z* I < U . A *3 > tu»niru» c NP E3P iWLp f 曰 3or-» UN-I O O ->&.>-ns £13-: 1=1了 -ItizWSra U C 峙 N-T ON trncriTf I f n ; t& r I *j re- C mw 3e / r= LJiui » cm - 護(hù)£-» kh tSGySP* m 口匸

11、< 曰口q&曰 nLn 0 I 耳 I < U _ Cl J tb_r| |4 M ._r C Z3 片 T?r& rti cr-i L1 一1 o 口-41 i=Pi_iij u t >13.1 ly 5TIEIt 冃 I < -I ri t& r I *_j r& c 3 e - -t e >r = lJIui » C 1 一 1 Q O *(15 分)16.對(duì)以上模型生成的結(jié)果做一簡(jiǎn)要的分析,包括算法采用的基本原理、數(shù)學(xué)模型、算法步驟等。答: k-means聚類算法基本原理:將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),算法的 主要思想是通過(guò)迭代過(guò)程把數(shù)據(jù)劃分為不同的類別,使得評(píng)價(jià)聚集類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生 成的每個(gè)聚集類的緊湊,類間獨(dú)立。操作步驟: 輸入:數(shù)據(jù)集,其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個(gè)數(shù) 輸出:(1 )從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別(2)對(duì)于X中的任意數(shù)據(jù)樣本xm( Ivxmvtotal ),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離 最近的初始代表

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論