工程碩士《數(shù)據(jù)挖掘》考試試卷課案_第1頁(yè)
工程碩士《數(shù)據(jù)挖掘》考試試卷課案_第2頁(yè)
工程碩士《數(shù)據(jù)挖掘》考試試卷課案_第3頁(yè)
工程碩士《數(shù)據(jù)挖掘》考試試卷課案_第4頁(yè)
工程碩士《數(shù)據(jù)挖掘》考試試卷課案_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)挖掘》考試試題、單項(xiàng)選擇題(本大題共20小題,每小題1分,共20分)在每小題列出的四個(gè)備選項(xiàng)中選擇一項(xiàng)符合題目要求的,請(qǐng)將其代碼填寫在題后的括號(hào)內(nèi)。錯(cuò)選、多選或未選均無(wú)分。下列選項(xiàng)中哪個(gè)不屬于在線事務(wù)處理(OLTP)業(yè)務(wù)是()A、在線分析處理(OLAP) B、決策支持(DS)C、數(shù)據(jù)挖掘(DM) D、數(shù)據(jù)采集為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問(wèn)題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?( )A、探索性數(shù)據(jù)分析 B、建模描述C、預(yù)測(cè)建模 D、尋找模式和規(guī)則3.模式按實(shí)際應(yīng)用分類時(shí),下列哪個(gè)不包含在內(nèi)()A、描述模式B、關(guān)聯(lián)模式 C、聚類模式D、序列模式4.下列那個(gè)不是聚類分析的常用方法()A、特征聚類 B、CF樹C、決策樹D、隨機(jī)搜索聚類法5.高層數(shù)據(jù)模型應(yīng)該哪種表示方法()A、E-R圖 B、物理數(shù)據(jù)模型C、邏輯數(shù)據(jù)模型D、低層數(shù)據(jù)類型下列哪個(gè)不是星形圖的邏輯實(shí)體()A、指標(biāo)B、維度C、詳細(xì)類別 D、關(guān)系下列哪個(gè)不是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的完善工作()A、改正性維護(hù) B、完善性維護(hù) C、預(yù)防性維護(hù) D、應(yīng)用維護(hù)8.以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)?( )(a) 警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。(b) 描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A.Precision,RecallB.Recall,PrecisionC.Precision,ROC D.Recall,ROC9.下列哪個(gè)不是包中包含的集合()A、步驟集合B、連接集合C、局部變量集合D、任務(wù)集合下列哪個(gè)不屬于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的階段()A、設(shè)想階段B、規(guī)劃階段C、開發(fā)階段 D、實(shí)施階段下列哪個(gè)不屬于數(shù)據(jù)挖掘的過(guò)程()A、評(píng)價(jià)階段 B、鞏固和運(yùn)用階段 C、挖掘階段 D、維護(hù)階段TOC\o"1-5"\h\z12.用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?( )A、根據(jù)內(nèi)容檢索B、建模描述C、預(yù)測(cè)建模 D、尋找模式和規(guī)則假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)?( )A、第一個(gè)8、第二個(gè)C、第三個(gè) D、第四個(gè)只有非零值才重要的二元屬性被稱作:( )A計(jì)數(shù)屬性B離散屬性 C非對(duì)稱的二元屬性 D對(duì)稱屬性下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:( )A特征提取 B特征修改 C映射數(shù)據(jù)到新的空間 D特征構(gòu)造16.數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是( )數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照;數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:( )粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別;數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高;數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高;粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量.數(shù)據(jù)挖掘算法以( )形式來(lái)組織數(shù)據(jù).A行B列C記錄D表格企業(yè)成功實(shí)施數(shù)據(jù)挖掘,需要以下( )知識(shí)或技術(shù)A預(yù)先的規(guī)劃 B對(duì)商業(yè)文體的理解C綜合商業(yè)知識(shí)和技能 D都需要.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?( )A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類 C.分類 D.自然語(yǔ)言處理二、簡(jiǎn)答題(本大題共4小題,每小題10分,共40分).解釋說(shuō)明概念分層與數(shù)據(jù)泛化。答:數(shù)據(jù)泛化是一個(gè)從相對(duì)低層概念到更高層概念且對(duì)數(shù)據(jù)庫(kù)中與任務(wù)相關(guān)的大量數(shù)據(jù)進(jìn)行抽象概述的一個(gè)分析過(guò)程。

.聚類分析方法是什么?答:聚類通過(guò)把目標(biāo)數(shù)據(jù)放入少數(shù)相對(duì)同源的組或“類”(cluster)里。分析表達(dá)數(shù)據(jù),(1)通過(guò)一系列的檢測(cè)將待測(cè)的一組基因的變異標(biāo)準(zhǔn)化,然后成對(duì)比較線性協(xié)方差。(2)通過(guò)把用最緊密關(guān)聯(lián)的譜來(lái)放基因進(jìn)行樣本聚類,例如用簡(jiǎn)單的層級(jí)聚類(hierarchicalclustering)方法。這種聚類亦可擴(kuò)展到每個(gè)實(shí)驗(yàn)樣本,利用一組基因總的線性相關(guān)進(jìn)行聚類。(3)多維等級(jí)分析(multidimensionalscalinganalysis,MDS)是「一種在二維Euclidean"距離”中顯示實(shí)驗(yàn)樣本相關(guān)的大約程度。(4)K-means方法聚類,通過(guò)重復(fù)再分配類成員來(lái)使“類”內(nèi)分散度最小化的方法。.面向?qū)傩詺w納的基本算法的四個(gè)步驟答:首先使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化(通過(guò)屬性刪除或者屬性概化)。聚集通過(guò)合并相等的廣義元組,并累計(jì)他們相應(yīng)的技術(shù)值進(jìn)行。這壓縮了概化后的數(shù)據(jù)集合。結(jié)果廣義關(guān)系可以映射到不同形式,如圖表或規(guī)則,提供用戶。.孤立點(diǎn)分析是什么?答:孤立點(diǎn)是指數(shù)據(jù)集中那些小模式數(shù)據(jù),它可能是度量或執(zhí)行錯(cuò)誤所導(dǎo)致的,也可能是固有數(shù)據(jù)變異性的結(jié)果。Hawkins給出了其本質(zhì)性定義:孤立點(diǎn)是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。一般的孤立點(diǎn)挖掘中存在兩個(gè)基本任務(wù):一是在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為不一致的;二是找到一個(gè)有效的方法來(lái)挖掘這樣的孤立點(diǎn)。目前已有的傳統(tǒng)的孤立點(diǎn)挖掘算法主要包括四類算法基于統(tǒng)計(jì)的方法,基于距離的方法,基于密度的方法,基于偏離的方法和基于聚類的挖掘算法。既然通撾點(diǎn)的悍在蘊(yùn)含丁一些既要的隘鼻信0.那玄,如*4肥斑苴京挖羯出來(lái)井跚以分析荷帝鴕T為更有效地挖也挪立點(diǎn),晰究者們椎菊權(quán)堂.中#在四不向雹既開找丁許暮孤立4掄期r吧大做上有成下低英施安.曲的控掘方某于統(tǒng)計(jì)李方準(zhǔn),暴于畫高的方性,幕于陶高的奔法、高俺牲據(jù)的就立點(diǎn)探潮,基:于)《則的#翼或立點(diǎn)推抿方搖卬買于害度啊抓立點(diǎn)挖到方法.爵賣握立由的挖糖方話部有*待別蛹用的疝囹.也者一迎的卜陷利限制.電丁攜市前掘立由段睨方諺是m已卻敷爵地的戚率分布及釜敦土如正擊分布'均值.標(biāo)準(zhǔn)船).用不一敢tt樓北確定風(fēng)立盅及苴個(gè)敷,誼沖寺濟(jì)適用于敗更敷抿,不埴用于商嗟浪排?.搗期數(shù)翳用竹矣敷常的投拙.*i于韁H?站廈立點(diǎn)橙瀾JS用主葺湖在件斯計(jì)姓售域,這浪里是H3為忌藺職宣切道敷樞的分布特征.因此BtFtt制丁它的應(yīng)用花匹■雄于偏離皙提史點(diǎn)控掘方注是知道敵崗特性迭威吾適的相弁度函敏.共40分)個(gè)個(gè)方法的特點(diǎn)三通過(guò)共40分)個(gè)個(gè)方法的特點(diǎn)*、項(xiàng)弗野好財(cái)映裁-個(gè)M中的咐.第二25.請(qǐng)下面洋雷件排桃干座fl的拓立是抱握方法,祖割通國(guó)壽拈桂堡的搜據(jù)方法欒引發(fā)大察的抓立點(diǎn)推轍的思號(hào)+數(shù)據(jù)挖掘統(tǒng)計(jì)分析操作指引在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的計(jì)劃才能保LE資料采礦有條不紊的實(shí)施并取得成功。雖然我們把各個(gè)步驟按順序排列,但要注意數(shù)據(jù)挖掘過(guò)程并不是線性的,要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析資料”時(shí)你可能覺得在"建衣數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)”時(shí)做的不夠好,要往里州添加一些新的資料等等.數(shù)據(jù)挖掘過(guò)程主要包括以下幾個(gè)方面,1、 定義商業(yè)問(wèn)題2、 建立數(shù)據(jù)挖掘庫(kù)3、 分析數(shù)據(jù)4、 準(zhǔn)備數(shù)據(jù)5、 建立一模型6、 模型評(píng)價(jià)7、 模型實(shí)施其流程如下圖所示!26.數(shù)據(jù)挖掘項(xiàng)目是一項(xiàng)系統(tǒng)工程,它作為從數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)知識(shí)的過(guò)程,仍然需要來(lái)自不同領(lǐng)域?qū)<夜餐瑓⑴c知識(shí)發(fā)現(xiàn)的全部過(guò)程。請(qǐng)說(shuō)明數(shù)據(jù)挖掘人員環(huán)境。答:1.主題領(lǐng)域?qū)<遥豪斫馍虡I(yè)問(wèn)題。這需要大數(shù)據(jù)科學(xué)家和行業(yè)專業(yè),以及客戶的業(yè)務(wù)專家一起來(lái)明確問(wèn)題。這是整個(gè)大數(shù)據(jù)挖掘中最關(guān)鍵的一步。如果不理解業(yè)務(wù)就貿(mào)然開做,最后的項(xiàng)目一定是失敗的。2.數(shù)據(jù)專家/數(shù)據(jù)分析專家:分析數(shù)據(jù)。當(dāng)明確了業(yè)務(wù)問(wèn)題之后,我們就需要去分析數(shù)據(jù),看看到底哪些數(shù)據(jù)能夠支撐我們的業(yè)務(wù),用哪些數(shù)據(jù)去解決問(wèn)題。在這個(gè)階段,我們可能發(fā)現(xiàn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論