![數(shù)據(jù)倉庫習(xí)題集_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/26/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec4/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec41.gif)
![數(shù)據(jù)倉庫習(xí)題集_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/26/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec4/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec42.gif)
![數(shù)據(jù)倉庫習(xí)題集_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/26/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec4/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec43.gif)
![數(shù)據(jù)倉庫習(xí)題集_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/26/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec4/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec44.gif)
![數(shù)據(jù)倉庫習(xí)題集_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/26/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec4/c8aa89ec-80a5-4e0a-a6e8-d920e6d4cec45.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、一、選擇填空.數(shù)據(jù)倉庫的特點(diǎn)分別是 面向主題 、 集成 、 相對(duì)穩(wěn)定 、反映歷史變化。、粒度是對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多。維度可以根據(jù)其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括( )A 分類 B 關(guān)聯(lián) C 估值 D 預(yù)言數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括()A 數(shù)據(jù)抽取 B 數(shù)據(jù)轉(zhuǎn)換 C 數(shù)據(jù)加載 D 數(shù)據(jù)稽核數(shù)據(jù)分類的評(píng)價(jià)準(zhǔn)則包括( ABCD )A 精確度 B 查全率和查準(zhǔn)率 C
2、F-Measure D 幾何均值層次聚類方法包括( BC )A 劃分聚類方法 B 凝聚型層次聚類方法 C 分解型層次聚類方法 D 基于密度聚類方法貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是( A D )A 網(wǎng)絡(luò)結(jié)構(gòu) B 先驗(yàn)概率 C 后驗(yàn)概率 D 條件概率表置信度(confidence)是衡量興趣度度量( A )的指標(biāo)。A、簡潔性B、確定性C.、實(shí)用性D、新穎性關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是: (C)A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡單的事務(wù).C. OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容
3、比較簡單且重復(fù)率高.D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對(duì)的用戶是相同的簡單地將數(shù)據(jù)對(duì)象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)象恰在一個(gè)子集中,這種聚類類型稱作( B ) A、層次聚類 B、劃分聚類 C、非互斥聚類 D、模糊聚類將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C) A. 頻繁模式挖掘 B. 分類和預(yù)測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘?yàn)閿?shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則6.在數(shù)據(jù)挖
4、掘的分析方法中,直接數(shù)據(jù)挖掘包括( )A 分類 B 關(guān)聯(lián) C 估值 D 預(yù)言7.數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括()A 數(shù)據(jù)抽取 B 數(shù)據(jù)轉(zhuǎn)換 C 數(shù)據(jù)加載 D 數(shù)據(jù)稽核8.數(shù)據(jù)分類的評(píng)價(jià)準(zhǔn)則包括( ABCD )A 精確度 B 查全率和查準(zhǔn)率 C F-Measure D 幾何均值9.層次聚類方法包括( BC )A 劃分聚類方法 B 凝聚型層次聚類方法 C 分解型層次聚類方法 D 基于密度聚類方法10.貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是( A D )A 網(wǎng)絡(luò)結(jié)構(gòu) B 先驗(yàn)概率 C 后驗(yàn)概率 D 條件概率表二、判斷題1. 數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成
5、描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。 (對(duì))2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。(對(duì))3. 圖挖掘技術(shù)在社會(huì)網(wǎng)絡(luò)分析中扮演了重要的角色。(對(duì))4. 模式為對(duì)數(shù)據(jù)集的全局性總結(jié),它對(duì)整個(gè)測量空間的每一點(diǎn)做出描述;模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。(錯(cuò))5. 尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。(錯(cuò))6. 離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或者值。(對(duì))7. 離散屬性總是具有有限個(gè)值。(錯(cuò))8. 噪聲和偽像是數(shù)據(jù)錯(cuò)誤這一相同表述的兩種叫法。(錯(cuò))9. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(對(duì))10. 特征提取技術(shù)并不依
6、賴于特定的領(lǐng)域。(錯(cuò))11. 序列數(shù)據(jù)沒有時(shí)間戳。(對(duì))12. 定量屬性可以是整數(shù)值或者是連續(xù)值。(對(duì))13. 可視化技術(shù)對(duì)于分析的數(shù)據(jù)類型通常不是專用性的。(錯(cuò))14. DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(對(duì))15. OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。 (對(duì))16. 商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計(jì)上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商務(wù)之上,一旦系統(tǒng)設(shè)計(jì)完畢,其程序和規(guī)則不會(huì)輕易改變;而前者則是一個(gè)學(xué)習(xí)型系統(tǒng),能自動(dòng)適應(yīng)商務(wù)不斷變化的要求。 (對(duì))17. 數(shù)據(jù)倉庫中間層OLAP服務(wù)
7、器只能采用關(guān)系型OLAP (錯(cuò))18數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等四個(gè)部分. (錯(cuò))19. Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個(gè)屬性,它在驗(yàn)證用戶提出的假設(shè)過程中提取信息. (錯(cuò))21. 關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。(錯(cuò))22. 利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)(對(duì))。23. 先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。(錯(cuò)24. 如果規(guī)則 不滿足置信度閾值,則形如 的規(guī)則一定也不滿足置信度閾值,其中 是X的子集。(對(duì))25. 具有較高的支持度的項(xiàng)集具有較高的置
8、信度。(錯(cuò))26. 聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對(duì)象類。 (錯(cuò))27. 分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對(duì))28. 對(duì)于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對(duì)分類結(jié)果沒有影響。 (對(duì))29. Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。 (錯(cuò))30.分類模型的誤差大致分為兩種:訓(xùn)練誤差(training error)和泛化誤差(generalization
9、 error). (對(duì))31. 在決策樹中,隨著樹中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。 (錯(cuò))32. SVM是這樣一個(gè)分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimal margin classifier) (錯(cuò))33. 在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。(錯(cuò))34. 聚類分析可以看作是一種非監(jiān)督的分類。(對(duì))35. K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。(錯(cuò)36. 給定由兩次運(yùn)行K均值產(chǎn)生的兩個(gè)不同的簇集,誤差的平方和最大的那
10、個(gè)應(yīng)該被視為較優(yōu)。(錯(cuò))37. 基于鄰近度的離群點(diǎn)檢測方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。(對(duì))38. 如果一個(gè)對(duì)象不強(qiáng)屬于任何簇,那么該對(duì)象是基于聚類的離群點(diǎn)。(對(duì))39. 從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近的簇,這是一種分裂的層次聚類方法。(錯(cuò))40. DBSCAN是相對(duì)抗噪聲的,并且能夠處理任意形狀和大小的簇。(對(duì))三、計(jì)算題1.一個(gè)食品連鎖店每周的事務(wù)記錄如下表所示,其中每一條事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的項(xiàng)目,假定supmin=40%,confmin=40%,使用Apriori算法計(jì)算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫掃描時(shí)的候選集和大項(xiàng)目集。(15分)事務(wù)項(xiàng)目事務(wù)項(xiàng)目 T1
11、T2 T3面包、果凍、花生醬面包、花生醬面包、牛奶、花生醬 T4 T5啤酒、面包啤酒、牛奶解:(1)由I=面包、果凍、花生醬、牛奶、啤酒的所有項(xiàng)目直接產(chǎn)生1-候選C1,計(jì)算其支持度,取出支持度小于supmin的項(xiàng)集,形成1-頻繁集L1,如下表所示:項(xiàng)集C1 支持度 項(xiàng)集L1 支持度面包 花生醬 牛奶 啤酒 4/53/52/52/5面包 花生醬 牛奶 啤酒 4/5 3/5 2/5 2/5(2)組合連接L1中的各項(xiàng)目,產(chǎn)生2-候選集C2,計(jì)算其支持度,取出支持度小于supmin的項(xiàng)集,形成2-頻繁集L2,如下表所示:項(xiàng)集C2 支持度 項(xiàng)集L2支持度面包、花生醬 3/5面包、花生醬 3/5至此,所有
12、頻繁集都被找到,算法結(jié)束,所以,confidence(面包花生醬)=(4/5)/(3/5)=4/3> confmin confidence( 花生醬面包)=(3/5)/(4/5)=3/4> confmin所以,關(guān)聯(lián)規(guī)則面包花生醬、 花生醬面包均是強(qiáng)關(guān)聯(lián)規(guī)則。2.給定以下數(shù)據(jù)集(2 ,4,10,12,15,3,21),進(jìn)行K-Means聚類,設(shè)定聚類數(shù)為2個(gè),相似度按照歐式距離計(jì)算。(15分)解:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別,由題可知k=2,則可設(shè)m1=2,m2=4:(2)對(duì)于X中的任意數(shù)據(jù)樣本xm(1<xm<to
13、tal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=2時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為2,8,10,13,1,19。當(dāng)m2=4時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-2,6,8,11,-1,17。最小距離是1或者-1將該元素放入m1=2的聚類中,則該聚類為(2,3),另一個(gè)聚類m2=4為(4,10,12,15,21)。(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn):m1=2.5,m2=12:(4
14、)對(duì)于X中的任意數(shù)據(jù)樣本xm(1<xm<total),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=2.5時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-0.5,0.5,1.5,7.5,9.5,12.5,18.5。當(dāng)m2=12時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-10,-9,-8,2,3,9。最小距離是1.5將該元素放入m1=2.5的聚類中,則該聚類為(2,3,4),另一個(gè)聚類m2=12為(10,12,15,21)。(5)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣
15、本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn):m1=3, m2=14.5:(6)對(duì)于X中的任意數(shù)據(jù)樣本xm(1<xm<total),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=3時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-1,1,7,9,12,18,。當(dāng)m2=14.5時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。最小距離是0.5將該元素放入m1=3的聚類中,則該聚類為(2,3,4),另一個(gè)聚
16、類m2=14.5為(10,12,15,21)。至此,各個(gè)聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)。3. K均值算法的過程為:1: 選擇K個(gè)點(diǎn)作為初始質(zhì)點(diǎn)。2: repeat3: 每個(gè)點(diǎn)指派到最近的質(zhì)心,形成K個(gè)簇。4. 重新計(jì)算每個(gè)簇的質(zhì)心、5. until質(zhì)心不發(fā)生變化。 例題: A1,B1,C作為初始質(zhì)點(diǎn),距離函數(shù)是Euclidean函數(shù),指派點(diǎn)到最近的質(zhì)心,方法為計(jì)算其他點(diǎn)到質(zhì)點(diǎn)的歐幾里得距離。計(jì)算距離如下:A1-A2 :dist=(2-2)2 +(5-10)2=25;A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10
17、)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dist=(2-1)2+(5-2)2=10 C1-A3:dist=(8-1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist
18、=(6-1)2+(4-2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58其他五個(gè)結(jié)點(diǎn)選擇與其最近的質(zhì)心,三個(gè)簇分別為:B1,C2,B3,B2,A3C1,A2A1計(jì)算這三個(gè)簇的質(zhì)心:B1,C2,B3,B2,A3的質(zhì)心為:((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,6);C1,A2的質(zhì)心為:(2+1)/2,(5+2)/2)即為(1.5,3.5);A1的質(zhì)心為(2,10)。(a)在第一次循環(huán)執(zhí)行后的三個(gè)簇中心分別為(6,6),(1.5,3.5),(2,10)重新指派各個(gè)對(duì)象到離其最近的質(zhì)心,與上面方面相同,形成的三個(gè)簇為A3,B1,B2,B3,C1,A2,A1
19、,C2三個(gè)簇的質(zhì)心分別為(6.5,5.25),(1.5,3.5),(3,9.5);重新指派各個(gè)對(duì)象到離其最近的質(zhì)心, 形成的三個(gè)簇為:A3,B2,B3C1,A2 A1,B1,C2三個(gè)簇的質(zhì)心分別為:(7,4.3),(1.5,3.5),(3.67,9);重新指派各個(gè)對(duì)象到離其最近的質(zhì)心, 形成的三個(gè)簇為: A3,B2,B3C1,A2 A1,B1,C2三個(gè)簇的質(zhì)心分別為:(7,4.3),(1.5,3.5),(3.67,9);至此質(zhì)心不發(fā)生變化;(b)最后三個(gè)簇即為A3,B2,B3C1,A2 A1,B1,C2;4 考慮下面的由Big-University的學(xué)生數(shù)據(jù)庫挖掘的關(guān)聯(lián)規(guī)則major(X,”s
20、cience”) Þ status(X,”undergrad”) (1) 假定學(xué)校的學(xué)生人數(shù)(即,任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學(xué),64%的學(xué)生注冊本科學(xué)位課程,70%的學(xué)生主修科學(xué)(science)。(a) 計(jì)算規(guī)則(1)的支持度和置信度。(b) 考慮下面的規(guī)則major(X,”biology”) Þ status(X,”undergrad”) 17%,80% (2)假定主攻科學(xué)的學(xué)生30%專業(yè)為biology。與規(guī)則(1)對(duì)比,你認(rèn)為規(guī)則(2)新穎嗎?解釋你的結(jié)論。(1)對(duì)于形如“A B”的關(guān)聯(lián)規(guī)則,支持度定義為support(A B)
21、= 包含A和B的元組數(shù)/元組總數(shù);規(guī)則(1)的支持度計(jì)算如下:主修科學(xué)(science) 且未注冊本科學(xué)位課程的學(xué)生人數(shù)為:5000*70%-5000*64%*56%=1708;元組總數(shù)為5000;支持度為:1708/5000=34.16%對(duì)于形如“A B”的關(guān)聯(lián)規(guī)則,置信度定義為:confidence(A B)= 包含A和B的元組數(shù)/包含的A元組數(shù) 規(guī)則(1)的置信度計(jì)算如下: 主修科學(xué)(science) 且未注冊本科學(xué)位課程的學(xué)生人數(shù)為:5000*70%-5000*64%*56%=1708;主修科學(xué)的人數(shù)為:5000*70%=3500 置信度為:1708/3500=48.8%(2)假定主攻
22、科學(xué)的學(xué)生30%專業(yè)為biology:我們可以猜測下面的規(guī)則major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度應(yīng)為34.16%*30%=10.238%,48.8%,而題目中給出的major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度應(yīng)為17%,80%,與我們由規(guī)則(1)推測出來的相差較大,所以規(guī)則(2)并不是冗余的,是新穎的。下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,年齡“3135”表示31到35的之間。對(duì)于給定的行,count表示department, status,
23、age和salary在該行上具有給定值的元組數(shù)。(老師給的大題第三題中文版)departmentstatusagesalarycountsalessalessalessystemssystemssystemssystemsmarketingmarketingsecretarysecretaryseniorjuniorjuniorjuniorseniorjuniorseniorseniorjuniorseniorjunior31.3526.3031.3521.2531.3526.3041.4536.4031.3546.5026.3046K.50K26K.30K31K.35K46K.50K66K.
24、70K46K.50K66K.70K46K.50K41K.45K36K.40K26K.30K3040402053310446設(shè)status是類標(biāo)號(hào)屬性。(a) 你將如何修改基本決策樹算法,以便考慮每個(gè)廣義數(shù)據(jù)元組 (即,每一行) 的count?基本的決策樹算法應(yīng)作如下修改,以考慮到每個(gè)廣義數(shù)據(jù)元組(即,每一行) 的count: 每個(gè)元組的count必須綜合考慮屬性的選擇測量計(jì)算(假如信息獲取):考慮count來決定元組中最普遍的分類。(b) 使用你修改過的算法,構(gòu)造給定數(shù)據(jù)的決策樹。 (c)給定一個(gè)數(shù)據(jù)元組,它在屬性department, age和salary上的值分別為“systems”, “
25、2630 ”和“4650K”。該元組status的樸素貝葉斯分類結(jié)果是什么?依題意,希望分類的元組為X=(department=systems,age=26-30,salary=46k-50k),我們需要最大化P X|Ci P Ci ,i=1,2。每個(gè)類的先驗(yàn)概率P Ci 可以根據(jù)訓(xùn)練元組計(jì)算: P(status=senior)=52/165=0.315 P(status=junior)=113/165=0.685 為了計(jì)算P X|Ci P Ci ,i=1,2,計(jì)算下面的條件概率 P(department=systems|status=senior)=8/52=0.154 P(departme
26、nt=systems|status=junior)=23/113=0.204 P(age=26-30|status=senior)=1/(52+6)=0.017 /使用拉普拉斯校準(zhǔn) P(status=26-30|status=junior)=49/113=0.434 P(salary=46k-50k|status=senior)=40/52=0.769 P(salary=46k-50k|status=junior)=23/113=0.204 使用上面的概率得到: P(X|status=senior) =P(department=systems|status=senior)*P(age=26-3
27、0|status=senior)*P(salary=46k-50k|status=senior) =0.154*0.017*0.769 =0.002 P(X|status=junior) =P(department=systems|status=junior)*P(age=26-30|status=junior)*P(salary=46k-50k|status=junior) =0.204*0.434*0.204 =0.018 為了發(fā)現(xiàn)最大化P X|Ci P Ci 的類,計(jì)算 P(X|status=senior)P(status=senior)=0.002*0.315=0.00063 P(X|
28、status=junior) P(status=junior)=0.018*0.685=0.01233 因此,對(duì)于元組X,樸素貝葉斯分類器預(yù)測元組X的類為status=junior。解一:設(shè)元組的各個(gè)屬性之間相互獨(dú)立,所以先求每個(gè)屬性的類條件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113;P(46K-50K|junior)=(20+3)/113=23/113; X=(department=system,age=2630,salary=46K50K); P(X|juni
29、or)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)=23×49×23/1133=25921/1442897=0.01796;P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52; X=(department=system,age=2630,salary=46K50K); P(X|senior)=P(systems|senior)P(26-30|senior)P(46K
30、-50K|senior)=0; P(junior)=113/165=0.68; P(senior)=52/165=0.32; P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);所以:樸素貝葉斯分類器將 X 分到 junior 類。解二:設(shè)元組的各屬性之間不獨(dú)立,其聯(lián)合概率不能寫成份量相乘的形式。所以已知:X=(department=system,age=2630,salary=46K50K),元組總數(shù)為:30+40+40+20+5+3+3+10+4+4+6=165。先驗(yàn)概率:當(dāng) status
31、=senior 時(shí),元組總數(shù)為:30+5+3+10+4=52,P(senior)=52/165=0.32; 當(dāng) status=junior 時(shí) , 元 組 總 數(shù) 為 : 40+40+20+3+4+6=113 ,P(junior)=113/165=0.68;因?yàn)?status=senior 狀態(tài)沒有對(duì)應(yīng)的 age=2630 區(qū)間,所以:P(X|senior)=0;因?yàn)?status=junior 狀態(tài)對(duì)應(yīng)的 partment=systems、age=2630 區(qū)間的總元組數(shù)為:3,所以:P(X|junior)=3/113;因?yàn)椋篜(X|junior)P(junior)=3/113×1
32、13/1650.018>0=P(X|senior)P(senior);所以:樸素貝葉斯分類器將 X 分到 junior 類。四、簡答論述題三種規(guī)范化方法:(1)最小最大規(guī)范化(min-max規(guī)范化):對(duì)原始數(shù)據(jù)進(jìn)行線性變換,將原始數(shù)據(jù)映射到一個(gè)指定的區(qū)間。 (2)z-score規(guī)范化(零均值規(guī)范化):將某組數(shù)據(jù)的值基于它的均值和標(biāo)準(zhǔn)差規(guī)范化,是其規(guī)范化后的均值為0方差為1。 ,其中 是均值, 是標(biāo)準(zhǔn)差(3)小數(shù)定標(biāo)規(guī)范化:通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化。 k-means聚類算法基本原理:將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),算法的主要思想是通過迭代過程把數(shù)據(jù)劃分為
33、不同的類別,使得評(píng)價(jià)聚集類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個(gè)聚集類的緊湊,類間獨(dú)立。操作步驟:輸入:數(shù)據(jù)集,其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個(gè)數(shù)K輸出:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別(2)對(duì)于X中的任意數(shù)據(jù)樣本xm(1<xm<total),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn)(4)對(duì)于X中的任意數(shù)據(jù)樣本xm(1<xm<tot
34、al),計(jì)算它與k個(gè)均值代表點(diǎn)的距離,并且將它劃分到距離最近的均值代表點(diǎn)所表示的類別中(5)重復(fù)3.4,直到各個(gè)聚類不再發(fā)生變化為止。即誤差平方和準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)1、數(shù)據(jù)倉庫的組成?P2數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求有哪幾個(gè)方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性3、數(shù)據(jù)倉庫在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7數(shù)據(jù)倉庫面對(duì)的是大量數(shù)據(jù)的存儲(chǔ)與管理并行處理針對(duì)決策支持查詢的優(yōu)化支持多維分析的查詢模式
35、4、常見的聚類算法可以分為幾類?P132基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法 等。5、一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器、前端工具與應(yīng)用6、數(shù)據(jù)倉庫常見的存儲(chǔ)優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、數(shù)據(jù)倉庫發(fā)展演變的5個(gè)階段?P20以報(bào)表為主以分析為主以預(yù)測模型為主以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉庫、自動(dòng)決策應(yīng)用為主8、ID3算法主要存在的缺點(diǎn)?P116(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較
36、多的屬性,在有些情況下這類屬性可能不會(huì)提供太多有價(jià)值的信息。(2)ID3算法只能對(duì)描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。9、簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的10、簡述分類器設(shè)計(jì)階段包含的3個(gè)過程。劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測試11、什么是數(shù)據(jù)清洗?數(shù)據(jù)清洗是一種使用模式識(shí)別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級(jí)原始數(shù)據(jù)質(zhì)量的技術(shù)。13、利用信息包圖設(shè)計(jì)數(shù)據(jù)倉庫概念模型需要確定的三方面內(nèi)容。P57確定指標(biāo),確定維度
37、,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P12815、什么是技術(shù)元數(shù)據(jù),主要包含的內(nèi)容?P29技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:lDW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù)集市的位置和內(nèi)容等l業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式l匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定義的查詢和報(bào)告。l 由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制)16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容?P2
38、9業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,主要包括:l使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名l訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源l系統(tǒng)提供的分析方法及公式和報(bào)表的信息。18、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36l SQL命令(如Insert或Update)l 由DW供應(yīng)商或第三方提供專門的加載工具l 由DW管理員編寫自定義程序19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度P37l 維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時(shí)間維或產(chǎn)品維l 維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)類別屬性(如時(shí)間維包括年、季度、月等)l 維屬性:是維的一個(gè)取值,是數(shù)據(jù)線在某維中位置的描述。l 粒度:DW中數(shù)據(jù)綜合程度高低的一個(gè)衡量。粒度低,細(xì)節(jié)程度高,回答查詢的種類多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代診斷技術(shù)在老年腎臟疾病中的應(yīng)用研究
- 粵人版地理七年級(jí)上冊《第一節(jié) 世界的人口》聽課評(píng)課記錄2
- 電商巨頭如何通過網(wǎng)路直打造全新的購物體驗(yàn)研究報(bào)告
- 現(xiàn)代企業(yè)匯報(bào)中的信息整合與呈現(xiàn)
- 現(xiàn)代平面設(shè)計(jì)在醫(yī)療領(lǐng)域的應(yīng)用前景
- 環(huán)境科學(xué)教育在城市青少年中的推廣
- 電信行業(yè)中基于大數(shù)據(jù)的用戶行為分析與服務(wù)優(yōu)化決策工具
- 【基礎(chǔ)卷】同步分層練習(xí):五年級(jí)下冊語文第14課《刷子李》(含答案)
- 2025年度城市排水系統(tǒng)改造升級(jí)施工合同
- 2025年度智能制造結(jié)對(duì)共建協(xié)議書模板匯編
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 暖通空調(diào)(陸亞俊編)課件
- 工藝評(píng)審報(bào)告
- 中國滑雪運(yùn)動(dòng)安全規(guī)范
- 畢業(yè)論文-基于51單片機(jī)的智能LED照明燈的設(shè)計(jì)
- 酒廠食品召回制度
- DG-TJ 08-2343-2020 大型物流建筑消防設(shè)計(jì)標(biāo)準(zhǔn)
- 中職數(shù)學(xué)基礎(chǔ)模塊上冊第一章《集合》單元檢測試習(xí)題及參考答案
- 化學(xué)魯科版必修一期末復(fù)習(xí)98頁P(yáng)PT課件
- 《農(nóng)產(chǎn)品質(zhì)量安全檢測》PPT課件
評(píng)論
0/150
提交評(píng)論