2023年數(shù)據(jù)挖掘考試題庫

上傳人：翰*** IP屬地：江蘇上傳時間：2023-02-05 格式：DOC 頁數(shù)：14 大小：120KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

填空題Wｅｂ挖掘可分為、和３大類。數(shù)據(jù)倉庫需要統(tǒng)一數(shù)據(jù)源，涉及統(tǒng)一、統(tǒng)一、統(tǒng)一和統(tǒng)一數(shù)據(jù)特性4個方面。數(shù)據(jù)分割通常準(zhǔn)時間、、、以及組合方法進(jìn)行。噪聲數(shù)據(jù)解決的方法重要有、和。數(shù)值歸約的常用方法有、、、和對數(shù)模型等。評價關(guān)聯(lián)規(guī)則的２個重要指標(biāo)是和。多維數(shù)據(jù)集通常采用或雪花型架構(gòu),以表為中心,連接多個表。決策樹是用作為結(jié)點(diǎn),用作為分支的樹結(jié)構(gòu)。關(guān)聯(lián)可分為簡樸關(guān)聯(lián)、和。ＢＰ神經(jīng)網(wǎng)絡(luò)的作用函數(shù)通常為區(qū)間的。數(shù)據(jù)挖掘的過程重要涉及擬定業(yè)務(wù)對象、、、及知識同化等幾個環(huán)節(jié)。數(shù)據(jù)挖掘技術(shù)重要涉及、和3個技術(shù)領(lǐng)域。數(shù)據(jù)挖掘的重要功能涉及、、、、趨勢分析、孤立點(diǎn)分析和偏差分析７個方面。人工神經(jīng)網(wǎng)絡(luò)具有和等特點(diǎn)，其結(jié)構(gòu)模型涉及、和自組織網(wǎng)絡(luò)3種。數(shù)據(jù)倉庫數(shù)據(jù)的4個基本特性是、、非易失、隨時間變化。數(shù)據(jù)倉庫的數(shù)據(jù)通常劃分為、、和等幾個級別。數(shù)據(jù)預(yù)解決的重要內(nèi)容(方法）涉及、、和數(shù)據(jù)歸約等。平滑分箱數(shù)據(jù)的方法重要有、和。數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型重要有廣義知識、、、和偏差型知識五種。OLAP的數(shù)據(jù)組織方式重要有和兩種。常見的ＯＬAP多維數(shù)據(jù)分析涉及、、和旋轉(zhuǎn)等操作。傳統(tǒng)的決策支持系統(tǒng)是以和驅(qū)動，而新決策支持系統(tǒng)則是以、建立在和技術(shù)之上。OＬAP的數(shù)據(jù)組織方式重要有和2種。SQＬSeｒｖer202３的OLＡＰ組件叫,ＯＬＡＰ操作窗口叫。ＢＰ神經(jīng)網(wǎng)絡(luò)由、以及一或多個結(jié)點(diǎn)組成。遺傳算法涉及、、3個基本算子。聚類分析的數(shù)據(jù)通?？煞譃閰^(qū)間標(biāo)度變量、、、、序數(shù)型以及混合類型等。聚類分析中最常用的距離計(jì)算公式有、、等。基于劃分的聚類算法有和。Cｌｅmentine的工作流通常由、和等節(jié)點(diǎn)連接而成。簡樸地說，數(shù)據(jù)挖掘就是從中挖掘的過程。數(shù)據(jù)挖掘相關(guān)的名稱尚有、、等。判斷題數(shù)據(jù)倉庫的數(shù)據(jù)量越大,其應(yīng)用價值也越大。啤酒與尿布的故事是聚類分析的典型實(shí)例。等深分箱法使每個箱子的記錄個數(shù)相同。數(shù)據(jù)倉庫“粒度”越細(xì)，記錄數(shù)越少。數(shù)據(jù)立方體由3維構(gòu)成,Z軸表達(dá)事實(shí)數(shù)據(jù)。決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。ＩＤ3算法是決策樹方法的初期代表。C4.5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法?；貧w分析通常用于挖掘關(guān)聯(lián)規(guī)則。人工神經(jīng)網(wǎng)絡(luò)特別適合解決多參數(shù)大復(fù)雜度問題。概念關(guān)系分析是文本挖掘所獨(dú)有的?？尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。孤立點(diǎn)在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。SQLSeｒver202３不提供關(guān)聯(lián)規(guī)則挖掘算法。Ｃｌemｅｎtiｎｅ是IBM公司的專業(yè)級數(shù)據(jù)挖掘軟件。決策樹方法特別適合于解決數(shù)值型數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù)，歷來不需要更新。等寬分箱法使每個箱子的取值區(qū)間相同。數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術(shù)之一。數(shù)據(jù)立方體的其中一維用于記錄事實(shí)數(shù)據(jù)。決策樹通常用于分類與預(yù)測。Ａpriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。支持度是衡量關(guān)聯(lián)規(guī)則重要性的一個指標(biāo)。SＱＬSeｒver2０２3集成了OLAP，但不具有數(shù)據(jù)挖掘功能。人工神經(jīng)網(wǎng)絡(luò)常用于分類與預(yù)測。名詞解釋數(shù)據(jù)倉庫：是一種新的數(shù)據(jù)解決體系結(jié)構(gòu),是面向主題的、集成的、不可更新的（穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合，為公司決策支持系統(tǒng)提供所需的集成信息。孤立點(diǎn)：指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。OＬAP：ＯLＡP是在ＯＬTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析解決，是共享多維信息的快速分析，是被專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支持。粒度:指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合限度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)限度。數(shù)據(jù)規(guī)范化：指將數(shù)據(jù)按比例縮放（如更換大單位)，使之落入一個特定的區(qū)域（如0-1)以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大－最小規(guī)范化、零－均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。關(guān)聯(lián)知識：是反映一個事件和其他事件之間依賴或互相關(guān)聯(lián)的知識。假如兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。數(shù)據(jù)挖掘：從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。ＯLTＰ:OLＴP為聯(lián)機(jī)事務(wù)解決的縮寫,OLAP是聯(lián)機(jī)分析解決的縮寫。前者是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員，對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等解決。ROＬＡP:是基于關(guān)系數(shù)據(jù)庫存儲方式的，在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表，通常采用星型或雪花型架構(gòu)，由一個事實(shí)表和多個維度表構(gòu)成。MＯＬAＰ:是基于類似于“超立方”塊的OLAＰ存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu)，通過直接偏移計(jì)算進(jìn)行存取。數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并且可以得到和原始數(shù)據(jù)相同的分析結(jié)果。廣義知識：通過對大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、概括性的描述記錄的知識。預(yù)測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù)，也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。偏差型知識：是對差異和極端特例的描述，用于揭示事物偏離常規(guī)的異常現(xiàn)象，如標(biāo)準(zhǔn)類外的特例，數(shù)據(jù)聚類外的離群值等。遺傳算法：是一種優(yōu)化搜索算法,它一方面產(chǎn)生一個初始可行解群體,然后對這個群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一代群體，并最終達(dá)成全局最優(yōu)。聚類：是將物理或抽象對象的集合分組成為多個類或簇(clusｔer)的過程，使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。決策樹：是用樣本的屬性作為結(jié)點(diǎn)，用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法，可用于對新樣本進(jìn)行分類。相異度矩陣:是聚類分析中用于表達(dá)各對象之間相異度的一種矩陣，n個對象的相異度矩陣是一個nn維的單模矩陣,其對角線元素均為0，對角線兩側(cè)元素的值相同。頻繁項(xiàng)集：指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。支持度：規(guī)則A→B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P（A∪B)，是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量?？尚哦龋阂?guī)則A→B的可信度指的是包含A項(xiàng)集的同時也包含Ｂ項(xiàng)集的條件概率Ｐ(Ｂ|A）,是AＢ同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比?？尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。關(guān)聯(lián)規(guī)則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。綜合題何謂數(shù)據(jù)挖掘?它有哪些方面的功能？從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能涉及：概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點(diǎn)分析以及偏差分析等。何謂數(shù)據(jù)倉庫？為什么要建立數(shù)據(jù)倉庫？數(shù)據(jù)倉庫是一種新的數(shù)據(jù)解決體系結(jié)構(gòu)，是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化（不同時間)的數(shù)據(jù)集合,為公司決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉庫的目的有３個：一是為了解決公司決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、對的的集成數(shù)據(jù)，這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作規(guī)定。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員，需要使用專業(yè)的分析工具，對分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的重要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當(dāng)前的、細(xì)節(jié)的歷史的、綜合的面向應(yīng)用、事務(wù)驅(qū)動面向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLＣ完全不同的生命周期對性能規(guī)定高對性能規(guī)定寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持平常事務(wù)操作支持管理決策需求何謂OLTＰ和OＬAＰ？它們的重要異同有哪些？OLTP即聯(lián)機(jī)事務(wù)解決，是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的平常事務(wù)解決。ＯＬAP即聯(lián)機(jī)分析解決,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為公司決策支持服務(wù)。OLTP和OLAP的重要區(qū)別如下表：OＬTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新，但周期性刷新一次性解決的數(shù)據(jù)量小一次解決的數(shù)據(jù)量大對響應(yīng)時間規(guī)定高響應(yīng)時間合理用戶數(shù)量大用戶數(shù)據(jù)相對較少面向操作人員,支持平常操作面向決策人員,支持管理需要面向應(yīng)用，事務(wù)驅(qū)動面向分析,分析驅(qū)動何謂粒度?它對數(shù)據(jù)倉庫有什么影響？按粒度組織數(shù)據(jù)的方式有哪些？粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合限度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)限度。按粒度組織數(shù)據(jù)的方式重要有：簡樸堆積結(jié)構(gòu)輪轉(zhuǎn)綜合結(jié)構(gòu)簡樸直接結(jié)構(gòu)連續(xù)結(jié)構(gòu)簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級模型及其基本內(nèi)容。概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì),其重要內(nèi)容涉及：界定系統(tǒng)邊界和擬定重要的主題域。邏輯模型設(shè)計(jì)的重要內(nèi)容涉及：分析主題域、擬定粒度層次劃分、擬定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計(jì)的重要內(nèi)容涉及：擬定數(shù)據(jù)存儲結(jié)構(gòu)、擬定數(shù)據(jù)存放位置、擬定存儲分派以及擬定索引策略等。在物理數(shù)據(jù)模型設(shè)計(jì)時重要考慮的因素有：I/O存取時間、空間運(yùn)用率和維護(hù)代價等。提高性能的重要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進(jìn)行預(yù)解決?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫，它們的結(jié)構(gòu)和規(guī)則也許是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中，也也許存在反復(fù)的和不完整的數(shù)據(jù)信息，為了使這些數(shù)據(jù)可以符合數(shù)據(jù)挖掘的規(guī)定，提高效率和得到清楚的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)解決。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對性的數(shù)據(jù)，減少算法的計(jì)算量,提高挖掘效率和準(zhǔn)確限度。簡述數(shù)據(jù)預(yù)解決方法和內(nèi)容。數(shù)據(jù)清洗：涉及填充空缺值，辨認(rèn)孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換：將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。涉及對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還也許需要進(jìn)行屬性的重構(gòu)。數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且可以得到和原始數(shù)據(jù)相同的分析結(jié)果。簡述數(shù)據(jù)清理的基本內(nèi)容。盡也許賦予屬性名和屬性值明確的含義；統(tǒng)一多數(shù)據(jù)源的屬性值編碼;去除無用的惟一屬性或鍵值(如自動增長的ｉｄ)；去除反復(fù)屬性（在某些分析中，年齡和出生日期也許就是反復(fù)的屬性,但在某些時候它們也許又是同時需要的）去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,假如不去除也許導(dǎo)致錯誤的數(shù)據(jù)挖掘結(jié)果)合理選擇關(guān)聯(lián)字段(對于多個關(guān)聯(lián)性較強(qiáng)的屬性,反復(fù)無益,只需選擇其中的部分用于數(shù)據(jù)挖掘即可，如價格、數(shù)據(jù)、金額)去掉數(shù)據(jù)中的噪音、填充空值、丟失值和解決不一致數(shù)據(jù)。簡述解決空缺值的方法。忽略該記錄；去掉屬性;手工填寫空缺值;使用默認(rèn)值;使用屬性平均值；使用同類樣本平均值;預(yù)測最也許的值。常見的分箱方法有哪些？數(shù)據(jù)平滑解決的方法有哪些?分箱的方法重要有:統(tǒng)一權(quán)重法(又稱等深分箱法)統(tǒng)一區(qū)間法（又稱等寬分箱法)最小熵法自定義區(qū)間法數(shù)據(jù)平滑的方法重要有：平均值法、邊界值法和中值法。何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些？寫出相應(yīng)的變換公式。將數(shù)據(jù)按比例縮放（如更換大單位),使之落入一個特定的區(qū)域(如0.0～1.0），稱為規(guī)范化。規(guī)范化的常用方法有：最大-最小規(guī)范化:零－均值規(guī)范化:小數(shù)定標(biāo)規(guī)范化:x＝x0/10α數(shù)據(jù)歸約的方法有哪些?為什么要進(jìn)行維歸約？數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉不重要的屬性，減少數(shù)據(jù)立方體的維數(shù)，從而減少數(shù)據(jù)挖掘解決的數(shù)據(jù)量,提高挖掘效率。何謂聚類？它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇（ｃｌusteｒ)的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進(jìn)行；聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實(shí)例，屬于觀測式學(xué)習(xí)，分類則屬于有指導(dǎo)的學(xué)習(xí)，是示例式學(xué)習(xí)。舉例說明聚類分析的典型應(yīng)用。①商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式描述不同客戶群的特性。②生物學(xué):推導(dǎo)植物或動物的分類，對基于進(jìn)行分類，獲得對種群中固有結(jié)構(gòu)的結(jié)識。③WEB文檔分類④其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)的擬定；各類保險(xiǎn)投保人的分組;一個城市中不同類型、價值、地理位置房子的分組等。⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)解決：即先進(jìn)行聚類,然后再進(jìn)行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡化技術(shù)，它把基于相似數(shù)據(jù)特性的變量或個案組合在一起。聚類分析中常見的數(shù)據(jù)類型有哪些？何謂相異度矩陣？它有什么特點(diǎn)？常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣，為一個nn維的單模矩陣。其特點(diǎn)是d(ｉ,ｊ)=ｄ(ｊ,i），d(i,i)＝0,d(j,ｊ)=0。如下所示:分類知識的發(fā)現(xiàn)方法重要有哪些？分類過程通常涉及哪兩個環(huán)節(jié)?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程涉及2步：一方面在已知訓(xùn)練數(shù)據(jù)集上，根據(jù)屬性特性，為每一種類別找到一個合理的描述或模型,即分類規(guī)則；然后根據(jù)規(guī)則對新數(shù)據(jù)進(jìn)行分類。什么是決策樹？如何用決策樹進(jìn)行分類？決策樹是用樣本的屬性作為結(jié)點(diǎn)，用屬性的取值作為分支的樹結(jié)構(gòu)。它是運(yùn)用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對新樣本的分類，即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點(diǎn)開始,按照樣本屬性的取值，逐漸沿著決策樹向下，直到樹的葉結(jié)點(diǎn)，該葉結(jié)點(diǎn)表達(dá)的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。簡述IＤ3算法的基本思想及其主算法的基本環(huán)節(jié)。一方面找出最有判別力的因素,然后把數(shù)據(jù)提成多個子集，每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。主算法涉及如下幾步：①從訓(xùn)練集中隨機(jī)選擇一個既含正例又含反例的子集（稱為窗口)；②用“建樹算法”對當(dāng)前窗口形成一棵決策樹；③對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別鑒定，找犯錯判的例子;④若存在錯判的例子,把它們插入窗口，反復(fù)環(huán)節(jié)②，否則結(jié)束。簡述ID３算法的基本思想及其建樹算法的基本環(huán)節(jié)。一方面找出最有判別力的因素,然后把數(shù)據(jù)提成多個子集，每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹，可以用它來對新的樣例進(jìn)行分類。建樹算法的具體環(huán)節(jié)如下:①對當(dāng)前例子集合,計(jì)算各特性的互信息；②選擇互信息最大的特性Ａk;③把在Ak處取值相同的例子歸于同一子集，Aｋ取幾個值就得幾個子集；④對既含正例又含反例的子集,遞歸調(diào)用建樹算法；⑤若子集僅含正例或反例，相應(yīng)分枝標(biāo)上P或Ｎ,返回調(diào)用處。設(shè)某事務(wù)項(xiàng)集構(gòu)成如下表,填空完畢其中支持度和置信度的計(jì)算。事務(wù)ＩD項(xiàng)集L2支持度%規(guī)則置信度%T1A,DA,B33.3A→B５0Ｔ2Ｄ,EA,C33.３C→A60T3A,Ｃ,ＥA，D4４．４Ａ→D６6.7T4A,B,Ｄ，EB，D３3．3Ｂ→D７5T5A,B，ＣC,D33.3C→D60Ｔ6A,B,DD，E33．3D→E43T7A,C，Ｄ……Ｔ8Ｃ,D,ET9B,C,D?從信息解決角度看,神經(jīng)元具有哪些基本特性？寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義?；咎匦裕孩俣噍斎?、單輸出；②突觸兼有興奮和克制兩種性能；③可時間加權(quán)和空間加權(quán)；④可產(chǎn)生脈沖;⑤脈沖可進(jìn)行傳遞;⑥非線性,有閾值。M-Ｐ方程:,Wij是神經(jīng)元之間的連接強(qiáng)度,是閾值,ｆ（x)是階梯函數(shù)。遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點(diǎn)?遺傳算法為群體搜索,有助于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機(jī)搜索，搜索效率高；遺傳算法解決的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體，不需要導(dǎo)數(shù)或其他輔助信息,運(yùn)算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運(yùn)營效率。寫出非對稱二元變量相異度計(jì)算公式(即jaccard系數(shù)),并計(jì)算下表中各對象間的相異度。測試項(xiàng)目對象tｅsｔ-1ｔest-2tesｔ-3ｔest-4tｅｓt-５teｓt-6ＯBJ1YNPNNNOBＪ2YＮPNＰNＯBJ3NYNYNN…簡述K－平均算法的輸入、輸出及聚類過程(

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023年數(shù)據(jù)挖掘考試題庫

文檔簡介

溫馨提示

最新文檔

評論

2023年數(shù)據(jù)挖掘考試題庫

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔