數(shù)據(jù)挖掘試題-答案版

上傳人：新*** IP屬地：河北上傳時間：2024-05-08 格式：PDF 頁數(shù)：23 大?。?.03MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩18頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘試題-答案版

一、填空題

1.Web挖掘可分為Web內(nèi)容、web結(jié)構(gòu)和web用法

3大類。

2.數(shù)據(jù)倉庫需要統(tǒng)一數(shù)據(jù)源，包括統(tǒng)一、統(tǒng)一、統(tǒng)一和統(tǒng)一

數(shù)據(jù)特征4個方面。

3.數(shù)據(jù)分割通常按時間、地理位置、業(yè)務類型、以

及組合方法進行。

4.噪聲數(shù)據(jù)處理的方法主要有分類、聚類和回

歸。

5.數(shù)值歸約的常用方法有直方圖、聚類、抽

樣、立方體聚集和對數(shù)模型等。

6.評價關(guān)聯(lián)規(guī)則的2個主要指標是支持度和置信

7.多維數(shù)據(jù)集通常采用星型或雪花型架構(gòu),以事實

表為中心，連接多個維度表。

8.決策樹是用對象屬性作為結(jié)點,用對象值作為分

支的樹結(jié)構(gòu)。

9.關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。

10.BP神經(jīng)網(wǎng)絡的作用函數(shù)通常為區(qū)間的。

n.數(shù)據(jù)挖掘的過程主要包括確定業(yè)務對象、數(shù)據(jù)準備、

數(shù)據(jù)挖掘、結(jié)果分析及知識同化等幾個步驟。

12.數(shù)據(jù)挖掘技術(shù)主要涉及、和3個技術(shù)領(lǐng)域。

13.數(shù)據(jù)挖掘的主要功能包括概念描述、關(guān)聯(lián)分析、

分類與預測、聚類分析、趨勢分析、孤立點分析和偏差分

析7個方面。

14.人工神經(jīng)網(wǎng)絡具有和等特點，其結(jié)構(gòu)模型包括、和自組織

網(wǎng)絡3種。

15.數(shù)據(jù)倉庫數(shù)據(jù)的4個基本特征是面向主題、

集成、非易失、隨時間變化。

16.數(shù)據(jù)倉庫的數(shù)據(jù)通常劃分為。分、DWD、

DWS和ADS等幾個級別。原始數(shù)據(jù)層（0DS）、明細數(shù)據(jù)層

（DWD）、服務數(shù)據(jù)層（DWS）、數(shù)據(jù)應用層（ADS）

17.數(shù)據(jù)預處理的主要內(nèi)容（方法）包括數(shù)據(jù)清理、數(shù)據(jù)

集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等。

18.平滑分箱數(shù)據(jù)的方法主要有平均值、邊界值和

中值。

19.數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型主要有廣義知識、分類型知

識、關(guān)聯(lián)型知識、預測型知識和偏差型知識五種。

20.OLAP的數(shù)據(jù)組織方式主要有星型和雪花型兩種。

21.常見的OLAP多維數(shù)據(jù)分析包括鉆取、切片、

切塊和旋轉(zhuǎn)等操作。

22.傳統(tǒng)的決策支持系統(tǒng)是以和驅(qū)動，而新決策支持系統(tǒng)則是

以、建立在和技術(shù)之上。

23.SQLServer2000的OLAP組件叫，OLAP操作窗口叫。

24.BP神經(jīng)網(wǎng)絡由輸入、輸出以及一或多個隱含

結(jié)點組成。

25.遺傳算法包括選擇、交叉、變異3個基本算

子。

26.聚類分析的數(shù)據(jù)通常可分為區(qū)間標度變量、二元變

量、標稱型、比例標度、序數(shù)型以及混合類型等。

27.聚類分析中最常用的距離計算公式有歐氏距離、曼

哈頓距離、明考斯距離等。

28.基于劃分的聚類算法有K均值和K中心點。

29.Clementine的工作流通常由、和等節(jié)點連接而成。

30.簡單地說，數(shù)據(jù)挖掘就是從數(shù)據(jù)中挖掘知識的過

程。

31.數(shù)據(jù)挖掘相關(guān)的名稱還有、、等。

二、判斷題

()1.數(shù)據(jù)倉庫的數(shù)據(jù)量越大，其應用價值也越大。F

()2.啤酒與尿布的故事是聚類分析的典型實例。F

()3.等深分箱法使每個箱子的記錄個數(shù)相同。T

()4.數(shù)據(jù)倉庫“粒度”越細，記錄數(shù)越少。F

()5.數(shù)據(jù)立方體由3維構(gòu)成，Z軸表示事實數(shù)據(jù)。F

()6.決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。F

()7.ID3算法是決策樹方法的早期代表。T

()8.C4.5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。F

()9.回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。F

()10.人工神經(jīng)網(wǎng)絡特別適合解決多參數(shù)大復雜度問題。T

()11.概念關(guān)系分析是文本挖掘所獨有的。F

()12.可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量。F

()13.孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而

丟棄。T

()14.SQLServer2000不提供關(guān)聯(lián)規(guī)則挖掘算法。F

()15.Clementine是IBM公司的專業(yè)級數(shù)據(jù)挖掘軟件。

()16.決策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。F

()17.數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù)，從來不需要更新。T

()18.等寬分箱法使每個箱子的取值區(qū)間相同。F

()19.數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術(shù)之一。F

()20.數(shù)據(jù)立方體的其中一維用于記錄事實數(shù)據(jù)。T

()21.決策樹通常用于分類與預測。T

()22.Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。T

()23.支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標。T

()24.SQLServer2000集成了OLAP,但不具有數(shù)據(jù)挖掘

功能。F

()25.人工神經(jīng)網(wǎng)絡常用于分類與預測。F

三、名詞解釋

1.數(shù)據(jù)倉庫：是一種新的數(shù)據(jù)處理體系結(jié)構(gòu)，是面向主題

的、集成的、不可更新的（穩(wěn)定性）、隨時間不斷變化（不同時間）

的數(shù)據(jù)集合，為企業(yè)決策支持系統(tǒng)提供所需的集成信息。

2.孤立點：指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型

不一致的異常數(shù)據(jù)。

3.OLAP：OLAP是在OLTP的基礎上發(fā)展起來的，以數(shù)據(jù)倉庫為

基礎的數(shù)據(jù)分析處理，是共享多維信息的快速分析，是被專門設

計用于支持復雜的分析操作，側(cè)重對分析人員和高層管理人員的

決策支持。

4.粒度：指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度

的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時影響

數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。

5.數(shù)據(jù)規(guī)范化：指將數(shù)據(jù)按比例縮放（如更換大單位），使之

落入一個特定的區(qū)域（如0—1）以提高數(shù)據(jù)挖掘效率的方法。規(guī)

范化的常用方法有：最大一最小規(guī)范化、零一均值規(guī)范化、小數(shù)

定標規(guī)范化。

6.關(guān)聯(lián)知識：是反映一個事件和其他事件之間依賴或相互關(guān)

聯(lián)的知識。如果兩項或多項屬性之間存在關(guān)聯(lián)，那么其中一項的

屬性值就可以依據(jù)其他屬性值進行預測。

7.數(shù)據(jù)挖掘：從大量的、不完全的、有噪聲的、模糊的、隨

機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛

在有用的信息和知識的過程。

8.OLTP：OLTP為聯(lián)機事務處理的縮寫，OLAP是聯(lián)機分析處理

的縮寫。前者是以數(shù)據(jù)庫為基礎的，面對的是操作人員和低層管

理人員，對基本數(shù)據(jù)進行查詢和增、冊I］、改等處理。

9.ROLAP：是基于關(guān)系數(shù)據(jù)庫存儲方式的，在這種結(jié)構(gòu)中，多

維數(shù)據(jù)被映像成二維關(guān)系表，通常采用星型或雪花型架構(gòu)，由一

個事實表和多個維度表構(gòu)成。

10.MOLAP：是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu)，由

許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成，并帶有高度壓縮的

索引及指針結(jié)構(gòu)，通過直接偏移計算進行存取。

H.數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘

算法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。

12.廣義知識：通過對大量數(shù)據(jù)的歸納、概括和抽象，提煉出

帶有普遍性的、概括性的描述統(tǒng)計的知識。

13.預測型知識：是根據(jù)時間序列型數(shù)據(jù)，由歷史的和當前的

數(shù)據(jù)去推測未來的數(shù)據(jù)，也可以認為是以時間為關(guān)鍵屬性的關(guān)聯(lián)

知識。

14.偏差型知識：是對差異和極端特例的描述，用于揭示事物

偏離常規(guī)的異?，F(xiàn)象，如標準類外的特例，數(shù)據(jù)聚類外的離群值

等。

15.遺傳算法：是一種優(yōu)化搜索算法，它首先產(chǎn)生一個初始可

行解群體，然后對這個群體通過模擬生物進化的選擇、交叉、變

異等遺傳操作遺傳到下一代群體，并最終達到全局最優(yōu)。

16.聚類：是將物理或抽象對象的集合分組成為多個類或簇

(cluster)的過程，使得在同一個簇中的對象之間具有較高的相似

度，而不同簇中的對象差別較大。

17.決策樹：是用樣本的屬性作為結(jié)點，用屬性的取值作為分

支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法，可用于對新樣本進

行分類。

18.相異度矩陣：是聚類分析中用于表示各對象之間相異度的

一種矩陣，n個對象的相異度矩陣是一個nn維的單模矩陣，其對

角線元素均為0,對角線兩側(cè)元素的值相同。

19.頻繁項集：指滿足最小支持度的項集，是挖掘關(guān)聯(lián)規(guī)則的

基本條件之一。

20.支持度：規(guī)則A-B的支持度指的是所有事件中A與B同

地發(fā)生的的概率，即P(AUB),是AB同時發(fā)生的次數(shù)與事件總次

數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量。

21.可信度：規(guī)則A-B的可信度指的是包含A項集的同時也

包含B項集的條件概率P(BA),是AB同時發(fā)生的次數(shù)與A發(fā)生的

所有次數(shù)之比?？尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準確度的衡量。

22.關(guān)聯(lián)規(guī)則：同時滿足最小支持度閾值和最小可信度閾值的

規(guī)則稱之為關(guān)聯(lián)規(guī)則。

四、綜合題

1.何謂數(shù)據(jù)挖掘？它有哪些方面的功能?

從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，

提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息

和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分

析、數(shù)據(jù)融合、決策支持等。

數(shù)據(jù)挖掘的功能包括：概念描述、關(guān)聯(lián)分析、分類與預測、

聚類分析、趨勢分析、孤立點分析以及偏差分析等。

2.何謂數(shù)據(jù)倉庫？為什么要建立數(shù)據(jù)倉庫？

數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu)，是面向主題的、集

成的、不可更新的（穩(wěn)定性）、隨時間不斷變化（不同時間）的數(shù)據(jù)

集合，為企業(yè)決策支持系統(tǒng)提供所需的集成信息。

建立數(shù)據(jù)倉庫的目的有3個：

一是為了解決企業(yè)決策分析中的系統(tǒng)響應問題，數(shù)據(jù)倉庫能

提供比傳統(tǒng)事務數(shù)據(jù)庫更快的大規(guī)模決策分析的響應速度。

二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全

面的、正確的集成數(shù)據(jù)，這是傳統(tǒng)事務數(shù)據(jù)庫不能直接提供的。

三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向

專業(yè)用戶而非一般業(yè)務員，需要使用專業(yè)的分析工具，對分析結(jié)

果還要以商業(yè)智能的方式進行表現(xiàn)，這是事務數(shù)據(jù)庫不能提供

的。

3.列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。

操作型數(shù)據(jù)分析型數(shù)據(jù)

當前的、細節(jié)的歷史的、綜合的

面向應用、事務驅(qū)動面向分析、分析驅(qū)動

頻繁增、冊IJ、改幾乎不更新，定期追加

操作需求事先知道分析需求事先不知道

生命周期符合SDLC完全不同的生命周期

對性能要求高對性能要求寬松

一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大

支持日常事務操作支持管理決策需求

4.何謂OLTP和OLAP?它們的主要異同有哪些？

OLTP即聯(lián)機事務處理，是以傳統(tǒng)數(shù)據(jù)庫為基礎、面向操作人

員和低層管理人員、對基本數(shù)據(jù)進行查詢和增、冊人改等的日常

事務處理。OLAP即聯(lián)機分析處理，是在OLTP基礎上發(fā)展起來的、

以數(shù)據(jù)倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企

業(yè)決策支持服務。

OLTP和OLAP的主要區(qū)別如下表:

OLTPOLAP

數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)

細節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)

當前數(shù)據(jù)歷史數(shù)據(jù)

經(jīng)常更新不更新，但周期性刷新

一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大

對響應時間要求高響應時間合理

用戶數(shù)量大用戶數(shù)據(jù)相對較少

面向操作人員，支持日常操作面向決策人員，支持管理需要

面向應用，事務驅(qū)動面向分析，分析驅(qū)動

5.何謂粒度？它對數(shù)據(jù)倉庫有什么影響？按粒度組織數(shù)據(jù)的

方式有哪些？

粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的

級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時影響數(shù)

據(jù)倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數(shù)據(jù)的方式主

要有：

1簡單堆積結(jié)構(gòu)

2輪轉(zhuǎn)綜合結(jié)構(gòu)

3簡單直接結(jié)構(gòu)

4連續(xù)結(jié)構(gòu)

6.簡述數(shù)據(jù)倉庫設計的三級模型及其基本內(nèi)容。

概念模型設計是在較高的抽象層次上的設計，其主要內(nèi)容包

括：界定系統(tǒng)邊界和確定主要的主題域。

邏輯模型設計的主要內(nèi)容包括：分析主題域、確定粒度層次

劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。

物理數(shù)據(jù)模型設計的主要內(nèi)容包括：確定數(shù)據(jù)存儲結(jié)構(gòu)、確

定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)

據(jù)模型設計時主要考慮的因素有：I/O存取時間、空間利用率和維

護代價等。

提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立

數(shù)據(jù)序列、引入冗余、生成導出數(shù)據(jù)、建立廣義索引等。

7.在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預處理？

原始業(yè)務數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫，它們的結(jié)構(gòu)和規(guī)

則可能是不同的，這將導致原始數(shù)據(jù)非常的雜亂、不可用，即使

在同一個數(shù)據(jù)庫中，也可能存在重復的和不完整的數(shù)據(jù)信息，為

了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求，提高效率和得到清晰的

結(jié)果，必須進行數(shù)據(jù)的預處理。

為數(shù)據(jù)挖掘算法提供完整、干凈、準確、有針對性的數(shù)據(jù)，

減少算法的計算量，提高挖掘效率和準確程度。

8.簡述數(shù)據(jù)預處理方法和內(nèi)容。

1數(shù)據(jù)清洗：包括填充空缺值，識別孤立點，去掉噪聲和無關(guān)

數(shù)據(jù)。

2數(shù)據(jù)集成：將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致

的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突

問題和冗余問題等。

3數(shù)據(jù)變換：將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括

對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化，還可能需要進行屬性的重

構(gòu)。

4數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算

法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。

9.簡述數(shù)據(jù)清理的基本內(nèi)容。

1盡可能賦予屬性名和屬性值明確的含義；

2統(tǒng)一多數(shù)據(jù)源的屬性值編碼；

3去除無用的惟一屬性或鍵值（如自動增長的id）；

4去除重復屬性（在某些分析中，年齡和出生日期可能就是重

復的屬性，但在某些時候它們可能又是同時需要的）

5去除可忽略字段（大部分為空值的屬性一般是沒有什么價值

的，如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果）

6合理選擇關(guān)聯(lián)字段（對于多個關(guān)聯(lián)性較強的屬性，重復無

益，只需選擇其中的部分用于數(shù)據(jù)挖掘即可，如價格、數(shù)據(jù)、金

額）

7去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。

10.簡述處理空缺值的方法。

1忽略該記錄;

2去掉屬性;

3手工填寫空缺值；

4使用默認值；

5使用屬性平均值；

6使用同類樣本平均值；

7預測最可能的值。

H.常見的分箱方法有哪些？數(shù)據(jù)平滑處理的方法有哪些？

分箱的方法主要有：

1統(tǒng)一權(quán)重法（又稱等深分箱法）

2統(tǒng)一區(qū)間法（又稱等寬分箱法）

3最小焙法

4自定義區(qū)間法

數(shù)據(jù)平滑的方法主要有：平均值法、邊界值法和中值法。

12.何謂數(shù)據(jù)規(guī)范化？規(guī)范化的方法有哪些？寫出對應的變換

公式。

將數(shù)據(jù)按比例縮放(如更換大單位)，使之落入一個特定的區(qū)

域(如0.0?1.0),稱為規(guī)范化。規(guī)范化的常用方法有：

(1)最大一最小規(guī)范化：

(2)零一均值規(guī)范化：

(3)小數(shù)定標規(guī)范化：x=Xo/lO"

13.數(shù)據(jù)歸約的方法有哪些？為什么要進行維歸約？

1數(shù)據(jù)立方體聚集

2維歸約

3數(shù)據(jù)壓縮

4數(shù)值壓縮

5離散化和概念分層

維歸約可以去掉不重要的屬性，減少數(shù)據(jù)立方體的維數(shù)，從

而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量，提高挖掘效率。

14.何謂聚類？它與分類有什么異同？

聚類是將物理或抽象對象的集合分組成為多個類或簇

(cluster)的過程，使得在同一個簇中的對象之間具有較高的相似

度，而不同簇中的對象差別較大。

聚類與分類不同，聚類要劃分的類是未知的，分類則可按已

知規(guī)則進行；聚類是一種無指導學習，它不依賴預先定義的類和

帶類標號的訓練實例，屬于觀察式學習，分類則屬于有指導的學

習，是示例式學習。

15.舉例說明聚類分析的典型應用。

①商業(yè)：幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶

群，并且用不同的購買模式描述不同客戶群的特征。

②生物學：推導植物或動物的分類，對基于進行分類，獲得

對種群中固有結(jié)構(gòu)的認識。

③WEB文檔分類

④其他：如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定；各類保險投

保人的分組；一個城市中不同類型、價值、地理位置房子的分組

等。

⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預處理：即先進行

聚類，然后再進行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)

簡化技術(shù)，它把基于相似數(shù)據(jù)特征的變量或個案組合在一起。

16.聚類分析中常見的數(shù)據(jù)類型有哪些？何謂相異度矩陣？它

有什么特點？

常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變

量、標稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所

有對象兩兩之間相異度的矩陣，為一個nn維的單模矩陣。其特點

是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示：

d(2,l)0

d(3,l)d(3,2)0

d(n,l)d(n,2)..........0

17.分類知識的發(fā)現(xiàn)方法主要有哪些？分類過程通常包括哪兩

個步驟？

分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神

經(jīng)網(wǎng)絡法、粗糙集法和遺傳算法。分類的過程包括2步：首先在

已知訓練數(shù)據(jù)集上，根據(jù)屬性特征，為每一種類別找到一個合理

的描述或模型，即分類規(guī)則；然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。

18.什么是決策樹？如何用決策樹進行分類？

決策樹是用樣本的屬性作為結(jié)點，用屬性的取值作為分支的

樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和歸納

而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹

的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最

大的屬性。決策樹的葉結(jié)點是樣本的類別值。

決策樹用于對新樣本的分類，即通過決策樹對新樣本屬性值

的測試，從樹的根結(jié)點開始，按照樣本屬性的取值，逐漸沿著決

策樹向下，直到樹的葉結(jié)點，該葉結(jié)點表示的類別就是新樣本的

類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。

19.簡述ID3算法的基本思想及其主算法的基本步驟。

首先找出最有判別力的因素，然后把數(shù)據(jù)分成多個子集，每

個子集又選擇最有判別力的因素進一步劃分，一直進行到所有子

集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹，可以用它

來對新的樣例進行分類。

主算法包括如下幾步：

①從訓練集中隨機選擇一個既含正例又含反例的子集（稱為窗

口）；

②用“建樹算法”對當前窗口形成一棵決策樹；

③對訓練集（窗口除外）中例子用所得決策樹進行類別判定，

找出錯判的例子；

④若存在錯判的例子，把它們插入窗口，重復步驟②，否則

結(jié)束。

20.簡述ID3算法的基本思想及其建樹算法的基本步驟。

首先找出最有判別力的因素，然后把數(shù)據(jù)分成多個子集，每

個子集又選擇最有判別力的因素進一步劃分，一直進行到所有子

集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹;可以用它

來對新的樣例進行分類。

建樹算法的具體步驟如下：

①對當前例子集合，計算各特征的互信息;

②選擇互信息最大的特征Ak；

③把在Ak處取值相同的例子歸于同一子集，Ak取幾個值就得

幾個子集；

④對既含正例又含反例的子集，遞歸調(diào)用建樹算法；

⑤若子集僅含正例或反例，對應分枝標上P或N,返回調(diào)用

處。

21.設某事務項集構(gòu)成如下表，填空完成其中支持度和置信度

的計算。

事務ID項集L2支持度％規(guī)則置信度％

T1A,DA,B33.3AfB50

T2D,EA,C33.3CfA60

T3A,C,EA,D44.4AfD66.7

T4A,B,D,EB,D33.3BfD75

T5A,B,CC,D33.3CfD60

T6A,B,DD,E33.3DfE43

T7A,C,D??????

T8C,D,E

T9B,C,D

22.從信息處理角度看，神經(jīng)元具有哪些基本特征？寫

出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義。

基本特征：①多輸入、單輸出；②突觸兼有興奮和抑制兩種

性能；③可時間加權(quán)和空間加權(quán)；④可產(chǎn)生脈沖；⑤脈沖可進行

傳遞；⑥非線性，有閾值。

M-P方程：

S尸/

-e

)

,W“是神經(jīng)元之間的連接強度，

是閾值，f(x)是階梯函數(shù)。

23.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點？

1遺傳算法為群體搜索，有利于尋找到全局最優(yōu)解;

2遺傳算法采用高效有方向的隨機搜索，搜索效率高；

3遺傳算法處理的對象是個體而不是參變量，具有廣泛的應用

領(lǐng)域；

4遺傳算法使用適應值信息評估個體，不需要導數(shù)或其他輔助

信息，運算速度快，適應性好；

5遺傳算法具有隱含并行性，具有更高的運行效率。

24.寫出非對稱二元變量相異度計算公式（即jaccard系數(shù)）,

并計算下表中各對象間的相異度。

測試項目

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘試題-答案版

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘試題-答案版

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔