數(shù)據(jù)挖掘考試習題_第1頁
數(shù)據(jù)挖掘考試習題_第2頁
數(shù)據(jù)挖掘考試習題_第3頁
數(shù)據(jù)挖掘考試習題_第4頁
數(shù)據(jù)挖掘考試習題_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、歡迎閱讀數(shù)據(jù)挖掘考試題一.選擇題1 .當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?()A.分類B.聚類C.關(guān)聯(lián)分析D.主成分分析2 .()將兩個簇的鄰近度定義為不同簇的所有點對鄰近度的平均值,它是一種凝聚層次聚類技術(shù)。A.MIN(單鏈)B.MAX(全鏈)C.組平均D.Ward方法3 .數(shù)據(jù)挖掘的經(jīng)典案例”啤酒與尿布試驗”最主要是應(yīng)用了()數(shù)據(jù)挖掘方法。A分類B預(yù)測C關(guān)聯(lián)規(guī)則分析D聚類4 .關(guān)于K均值和DBSCAN的比較,以下說法不正確的是().,A.K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B.K均值使用簇的基于原型的概念,DBS

2、CAN使用基于密度的概念。C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D.K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇5 .下列關(guān)于Ward'sMethod說法錯誤的是:()A.對噪聲點和離群點敏感度比較小B.擅長處理球狀的簇C.對于Ward方法,兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差D.當兩個點之間的鄰近度取它們之間距離的平方時,Ward方法與組平均非常相似6.下列關(guān)于層次聚類存在的問題說法正確的是:()A.具有全局優(yōu)化目標函數(shù)B.GroupAverage擅長處理球狀的簇C.可以處理不同大小

3、簇的能力D.Max對噪聲點和離群點很敏感7 .下列關(guān)于凝聚層次聚類的說法中,說法錯誤的事:()A.一旦兩個簇合并,該操作就不能撤銷8 .算法的終止條件是僅剩下一個簇C.空間復(fù)雜度為O(m2)D.具有全局優(yōu)化目標函數(shù)歡迎閱讀8 .規(guī)則牛奶,尿布啤酒的支持度和置信度分別為:()TID項集1面包,牛奶2面包,尿布,啤酒,雞蛋3牛奶,尿布,啤酒,可樂4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可樂9 .下列()是屬于分裂層次聚類的方法。A.MinB.MaxC.GroupAverageD.MST10 .對下圖數(shù)據(jù)進行凝聚聚類操作,簇間相似度使用MAX計算,第二步是哪兩個簇合并:()A.在3和l,2合并B

4、.3和4,5合并C.2,3和4,5合并D.2,3和4,5形成簇和3合并二.填空題:1 .屬性包括的四種類型:、。2 .是兩個簇的鄰近度定義為不同簇的所有點對鄰近度的平均值。3 .基本凝聚層次聚類算法空間復(fù)雜度,時間復(fù)雜度,如果某個簇到其他所有簇的距離存放在一個有序表或堆中,層次聚類所需要的時間復(fù)雜度將為。4 .聚類中,定義簇間的相似度的方法有(寫出四個):、。5 .層次聚類技術(shù)是第二類重要的聚類方法。兩種層次聚類的基本方法:、。6 .組平均是一種界于和之間的折中方法。7 .相似度矩陣可以用相識度表示還可以用表示。8 .全鏈在處理大小不同的簇時,可能使破裂,并且偏好。9 .單鏈技術(shù)擅長于處理,但

5、對和很敏感。10 .聚類分析可以看做是一種的分類。(有監(jiān)督、無監(jiān)督)三.判斷題1 .從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。()2 .數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。()3 .在聚類分析當中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。()4 .當兩個點之間的鄰近度取它們之間距離的平方時,Ward方法與組平均非常相似。()5 .DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。()6 .屬性的性質(zhì)不必與用來度量他的值的性質(zhì)相同。()歡迎閱讀7 .全鏈對噪聲點和離群點很敏感。()8 .對于非對稱的屬性,只

6、有非零值才是重要的。()9 .K均值可以很好的處理不同密度的數(shù)據(jù)。()10 .單鏈技術(shù)擅長處理橢圓形狀的簇。()四.綜合題1 .何為層次聚類?它用哪兩種圖表示?2 .兩種層次聚類的基本方法?兩種方法的定義?3 .分別寫出Min、Max和組平均的優(yōu)缺點?4.寫出基本凝聚層次聚類的算法?5.由下圖已給出的距離矩陣,將Max用于6個點樣本數(shù)據(jù)集,畫出層次聚類的樹狀圖?P1P2P3P4P5P6P10.00:0.24:0.220.370.34.0.23P20.240.000.140.200.130.25P30.220.140.000.150.280.11P40.37r0.20r0.150.000.291

7、0.22:P50.340.130.280.290.000.39P60.230.250.110.220.390.00考試題+答案一.選擇題1 .當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關(guān)聯(lián)分析D.主成分分析2 .(C)將兩個簇的鄰近度定義為不同簇的所有點對鄰近度的平均值,它是一種凝聚層次聚類技術(shù)。A.MIN(單鏈)B.MAX(全鏈)C.組平均D.Ward方法3 .數(shù)據(jù)挖掘的經(jīng)典案例”啤酒與尿布試驗”最主要是應(yīng)用了(C)數(shù)據(jù)挖掘方法。A分類B預(yù)測C關(guān)聯(lián)規(guī)則分析D聚類4 .關(guān)于K均值和DBSCAN的比較,以下說法不正確的是(A)

8、A.K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D.K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇5 .下列關(guān)于Ward'sMethod說法錯誤的是:(C)A.對噪聲點和離群點敏感度比較小歡迎閱讀B.擅長處理球狀的簇C.對于Ward方法,兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差D.當兩個點之間的鄰近度取它們之間距離的平方時,Ward方法與組平均非常相似7 .下列關(guān)于層次

9、聚類存在的問題說法正確的是:(B)A具有全局優(yōu)化目標函數(shù)8 .GroupAverage擅長處理球狀的簇C.可以處理不同大小簇的能力D.Max對噪聲點和離群點很敏感7 .下列關(guān)于凝聚層次聚類的說法中,說法錯誤的事:(D)A.一旦兩個簇合并,該操作就不能撤銷8 .算法的終止條件是僅剩下一個簇C.空間復(fù)雜度為O(m2)D.具有全局優(yōu)化目標函數(shù)8 .規(guī)則牛奶,尿布一啤酒的支持度和置信度分別為:(C)TID項集1面包,牛奶2面包,尿布,啤酒,雞蛋3牛奶,尿布,啤酒,可樂4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可樂9 .下列(D)是屬于分裂層次聚類的方法。A.MinB.MaxC.GroupAverag

10、eD.MST10 .對下圖數(shù)據(jù)進行凝聚聚類操作,簇間相似度使用MAX計算,第二步是哪兩個簇合并:(B)A.在3和l,2合并:B.3和4,5合并C.2,3和4,5合并D.2,3和4,5形成簇和3合并二.填空題:1 .屬性包括的四種類型:標稱、住數(shù)、區(qū)回、比至。2 .組平均是兩個簇的鄰近度定義為不同簇的所有點對鄰近度的平均值。3 .基本凝聚層次聚類算法空間復(fù)雜度O(m2),時間復(fù)雜度O(m3),如果某個簇到其他所有簇的距離存放在一個有序表或堆中,層次聚類所需要的時間復(fù)雜度將為O(m2logm)。歡迎閱讀4 .聚類中,定義簇間的相似度的方法有(寫出四個):MIN(單鏈)、MAX(全鏈)、組平均、Wa

11、rd方法。5 .層次聚類技術(shù)是第二類重要的聚類方法。兩種層次聚類的基本方法:凝聚層次聚類、分裂層次聚類。6 .組平均是一種界于單鏈和全鏈之間的折中方法。7 .相似度矩陣可以用相識度表示還可以用距離表示。8 .全鏈在處理大小不同的簇時,可能使大的簇破裂、并且偏好球形。9 .單鏈技術(shù)擅長于處理非橢圓形狀的簇但對噪聲點和離群點很敏感。10 .聚類分析可以看做是一種無監(jiān)督的分類。(有監(jiān)督、無監(jiān)督)三.判斷題:1 .從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。(X)2 .數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。(附3 .在聚類分析當中,簇內(nèi)的

12、相似性越大,簇間的差別越大,聚類的效果就越差。(X)_.14 .當兩個點之間的鄰近度取它們之間距離的平方時,Ward方法與組平均非常相似。(.5 .DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。(/6 .屬性的性質(zhì)不必與用來度量他的值的性質(zhì)相同。(V)7 .全鏈對噪聲點和離群點很敏感。(X)8 .對于非對稱的屬性,只有非零值才是重要的。(V)9 .K均值可以很好的處理不同密度的數(shù)據(jù)。(X)II10 .單鏈技術(shù)擅長處理橢圓形狀的簇。(X)四.綜合題1 .何為層次聚類?它用哪兩種圖表示??層次聚類為嵌套簇的聚集,組成一棵層次數(shù)。兩種主要圖的表示:樹狀圖和嵌套簇圖。2 .兩種層次聚類的

13、基本方法?兩種方法的定義?凝聚層次聚類和分裂層次聚類凝聚的:從點作為個體簇開始,每一步合并兩個最接近的簇。分裂的:從包含所有點的某個簇開始,每一步分裂一個簇,直到僅剩下單點簇。3.分別寫出Min、Max和組平均的優(yōu)缺點?定義方優(yōu)點缺點式歡迎閱讀Min能處理非橢圓形狀對噪聲和離群點很敏感Max對噪聲點和離群點敏感度較小1 .當處理簇大小/、同時,較大的簇容易破裂2 .偏好處理球狀的簇組平均對噪聲點和離群點敏感度較小偏好處理球狀的簇4 .寫出基本凝聚層次聚類的算法?算法步驟:(1)計算鄰近度矩陣(2)Repeat(3)合并最鄰近的兩個簇(4)更新鄰近度矩陣,以反映新的簇與原來的簇之間的鄰近度(5)

14、Until僅剩下一個簇5 .由下圖已給出的距離矩陣,將Max用于6個點樣本數(shù)據(jù)集,畫出層次聚類的樹狀圖?P1P2P3P4P5P6P10.000.24r0.220.370.3410.231P20.240.000.140.200.130.25P30.220.14:0.000.150.280.11P40.370.20r0.150.000.290.22P50.340.130.280.290.000.39P60.230.250.110.220.390.00這是告訴你的計算過程,現(xiàn)在不要寫了。P3和P6最近所以36結(jié)合,P2和P5較近,所以25結(jié)合,現(xiàn)在是3,6、2,5、1和4,Dist(3,6,4)=max(dist(3,4),dist(6,4)=max(0.15,0.22)=0.22Dist(3,6,2,5)=max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max(0.14,0.25,0.28,0.39)=0.39Dist(3,6,1)=max(dist(3,1),dist(6,1)=max(0.22,0.23)=0.23所以3,6和4結(jié)合?,F(xiàn)在還剩3,6,4、2,5和1Dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dis

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論