汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)

上傳人：j*** IP屬地：天津上傳時(shí)間：2022-09-15 格式：DOCX 頁(yè)數(shù)：13 大?。?2.68KB 積分：15 舉報(bào) 版權(quán)申訴

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第2頁(yè)

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第3頁(yè)

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第4頁(yè)

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第5頁(yè)

已閱讀5頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、汕頭大學(xué)2019數(shù)據(jù)挖掘期末復(fù)習(xí)資料（浩軍老師班）考試范圍：數(shù)據(jù)預(yù)處理、數(shù)據(jù)關(guān)聯(lián)分析、分類與預(yù)測(cè)、SVM、K-MEANS、聚類考試題型：簡(jiǎn)答題，復(fù)習(xí)請(qǐng)以實(shí)驗(yàn)相關(guān)內(nèi)容為主數(shù)據(jù)挖掘課程的主要內(nèi)容：數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法關(guān)聯(lián)分析數(shù)據(jù)挖掘算法分類與預(yù)測(cè)數(shù)據(jù)挖掘算法聚類分析一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘概念：從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)，是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)（機(jī)器學(xué)習(xí)）的綜合。數(shù)據(jù)挖掘定義：數(shù)據(jù)挖掘（DataMining）就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)的特征：大容

2、量、含噪音（不完全、不正確）、異質(zhì)數(shù)據(jù)（多種數(shù)據(jù)類型混合的數(shù)據(jù)源，來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子）數(shù)據(jù)挖掘有哪些步驟確定預(yù)測(cè)目標(biāo)統(tǒng)計(jì)數(shù)據(jù)特征根據(jù)數(shù)據(jù)特征進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用數(shù)據(jù)挖掘模型（分類、聚類、關(guān)聯(lián)分析、離群點(diǎn)挖掘、標(biāo)記等）分析模型的準(zhǔn)確率找出影響模型準(zhǔn)確率的因素，回到第3步迭代直到模型足夠完美。二、數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理有哪些步驟1.數(shù)據(jù)清理2.數(shù)據(jù)集成3.數(shù)據(jù)歸約4.數(shù)據(jù)變換與數(shù)據(jù)離散化為什么要進(jìn)行數(shù)據(jù)預(yù)處理現(xiàn)實(shí)世界的數(shù)據(jù)是不完整的、含有噪聲的、不一致的、冗余的。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。1）現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。2）數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量，從而有

3、助于提高其后的挖掘過(guò)程的精度和性能。3）高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù)，因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程的重要步驟。數(shù)據(jù)的質(zhì)量涉及的三個(gè)要素是準(zhǔn)確性，完整性和一致性。現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的不完整的不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改善數(shù)據(jù)的質(zhì)量。如何填充數(shù)據(jù)中存在的缺失值1.忽略元組（刪除）2.使用一個(gè)全局常量填充空缺值（例如NULL）3.使用屬性的平均值、眾數(shù)、中位數(shù)來(lái)填充空缺值4.人工填充空缺值數(shù)據(jù)清理補(bǔ)充缺失的屬性值：使用屬性的中心度量（如均值或者中位數(shù)或者眾數(shù)（頻率度量出現(xiàn)單峰）填充缺失值。使用最可能的值填充缺失值（可以用回歸，使用貝葉斯形式化方法）光滑數(shù)據(jù)，去掉噪聲：噪聲是被測(cè)量的變量的

4、隨機(jī)誤差或者方差。數(shù)據(jù)光滑的技術(shù)：分箱法，把有序的數(shù)據(jù)數(shù)量等頻地分到箱子中，可以用箱的均值光滑，用箱的邊界值光滑，用箱的中位數(shù)光滑。數(shù)據(jù)集成將數(shù)據(jù)由多個(gè)數(shù)據(jù)源合并成一個(gè)一致的數(shù)據(jù)存儲(chǔ)，如數(shù)據(jù)倉(cāng)庫(kù)（集成多個(gè)數(shù)據(jù)庫(kù)）。數(shù)據(jù)歸約可以通過(guò)如聚集、刪除冗余特征或者聚類來(lái)降低數(shù)據(jù)的規(guī)模。（得到數(shù)據(jù)的簡(jiǎn)化表示）簡(jiǎn)化數(shù)據(jù)、但產(chǎn)生相同或者相似的結(jié)果通過(guò)選擇替代的、“較小的”數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。數(shù)據(jù)變換（例如，規(guī)范化,離散化）可以把數(shù)據(jù)壓縮到較小的區(qū)間，如到。這可以提高涉及距離度量的挖掘算法的準(zhǔn)確率和效率。規(guī)范化和聚集數(shù)據(jù)最小-最大規(guī)范化最小-最大規(guī)范化：將原始數(shù)據(jù)v經(jīng)線性變換，映射到區(qū)間new_minA,

5、new_maxA選擇區(qū)間，找到數(shù)據(jù)最大值和最小值，進(jìn)行區(qū)間規(guī)范化.v-viinA.、v=（new_higxa一new_附+new_mmamaxA-miriA-例如:irKome的最大，最小值分別為9000,2000,則將它的值映射到01時(shí)，若income的值6800規(guī)范后為：（6800-2000）/（9000-2000）*（1-0）+0=0.686離群點(diǎn)可能影響規(guī)范化零族規(guī)范化z-score規(guī)范化（零均值規(guī)范化）：屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化。對(duì)離群點(diǎn)不敏感vPv=aA離散化：通俗的說(shuō)，離散化是在不改變數(shù)據(jù)相對(duì)大小的條件下，對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的縮小。概念解釋離群點(diǎn)：與數(shù)據(jù)的一般行為或模型

6、不一致的數(shù)據(jù)對(duì)象數(shù)據(jù)錯(cuò)誤不可避免數(shù)據(jù)輸入和獲取過(guò)程出現(xiàn)的錯(cuò)誤數(shù)據(jù)集成表現(xiàn)出來(lái)的錯(cuò)誤數(shù)據(jù)傳輸過(guò)程所引入的錯(cuò)誤分箱：通過(guò)考察數(shù)據(jù)的“近鄰”（周圍的值）來(lái)光滑有序數(shù)據(jù)的值。局部光滑?；貧w：（線性回歸，多元線性回歸）用一個(gè)函數(shù)（回歸函數(shù)）擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。聚類：將類似的值聚集為簇?？梢宰R(shí)別并刪除離群點(diǎn)、解決數(shù)據(jù)的不一致基本描述數(shù)據(jù)匯總的圖形顯示（數(shù)據(jù)排序后使用）盒圖（需要先將數(shù)據(jù)進(jìn)行有序排列）：盒圖可以用五數(shù)概括（上下四分位數(shù)、中位數(shù)、上下邊緣）四分位數(shù)是3個(gè)值，把排序的數(shù)據(jù)集分成4個(gè)相等的部分。盒的端點(diǎn)一般在四分位數(shù)上，使得盒的長(zhǎng)度是四分位數(shù)的極差I(lǐng)QR（上四分位數(shù)75%，下四分位數(shù)25%）中位數(shù)

7、用盒內(nèi)的線標(biāo)記。盒外兩條虛線（稱為胡須）延伸到最小和最大的觀測(cè)值（上邊緣、下邊緣）。超過(guò)過(guò)四分位數(shù)*IQR時(shí)，單獨(dú)畫出離群點(diǎn)，否則讓胡須擴(kuò)展到它們。直方圖：通常讓一個(gè)桶代表給定屬性的一個(gè)連續(xù)值域。概括給定屬性分布的圖形方法，每個(gè)矩形等寬。分位數(shù)圖：是一種觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效的方法。分位數(shù)-分位數(shù)圖可以查看一個(gè)分布到另外一個(gè)分布是否有漂移（確定間隔）散布圖（散點(diǎn)圖）：是一種觀察雙變量數(shù)據(jù)的有用的方法，用于觀察點(diǎn)簇和離群點(diǎn)，或考察相關(guān)聯(lián)系的可能性。確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或者趨勢(shì)的有效圖形之一。兩個(gè)變量屬性的三個(gè)關(guān)系可以從散點(diǎn)圖上看出來(lái)：正相關(guān)、負(fù)相關(guān)、不相關(guān)。分布式度

8、量、代數(shù)度量、整體度量的概念1）分布式度量：可以通過(guò)如下方法計(jì)算度量（即函數(shù)）：將數(shù)據(jù)集劃分成較小的子集，計(jì)算每個(gè)子集的度量，然后合并計(jì)算結(jié)果，得到原（整個(gè)）數(shù)據(jù)集的度量值。sum（）、count()、min()、max()2）代數(shù)度量：可以通過(guò)應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量（平均數(shù)sum/count）3）整體度量：必須對(duì)整個(gè)數(shù)據(jù)集計(jì)算的度量。例如：中位數(shù)、眾數(shù)三、數(shù)據(jù)關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘（AssociationRuleMining）是數(shù)據(jù)挖掘中最活躍的研究?jī)?nèi)容之一。一個(gè)典型的關(guān)聯(lián)規(guī)則的例子：70%購(gòu)買了牛奶的顧客將傾向于同時(shí)購(gòu)買面包。發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則可以為市場(chǎng)預(yù)測(cè)、決策和策

9、劃等方面提供依據(jù)。技術(shù)用語(yǔ)解釋：頻繁模式是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式（如項(xiàng)集、子序列、子結(jié)構(gòu)）頻繁項(xiàng)集：例如，頻繁地同時(shí)出現(xiàn)在交易數(shù)據(jù)集中的商品項(xiàng)目（如牛奶與面包）的集合是頻繁項(xiàng)集。序列模式：例如，先買PC，然后是數(shù)碼相機(jī)，再后是內(nèi)存卡，如果它頻繁地出現(xiàn)在歷史數(shù)據(jù)庫(kù)中，則稱它為一個(gè)頻繁的序列模式。子結(jié)構(gòu)：一個(gè)子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式，如子圖、子樹(shù)或者子格，它可能與項(xiàng)集或者子序列結(jié)合在一起。如果一個(gè)子結(jié)構(gòu)頻繁地出現(xiàn)，則稱它為頻繁的結(jié)構(gòu)模式。關(guān)聯(lián)規(guī)則中的支持度和置信度規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量。它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。Computer=antivirus_sof

10、twaresupport=2%;confidence=60%表示所分析的所有事物的2%顯示計(jì)算機(jī)和殺毒軟件被同時(shí)購(gòu)買，置信度60%意味購(gòu)買計(jì)算機(jī)的顧客60%也購(gòu)買了殺毒軟件。支持度（項(xiàng)集X在交易集中出現(xiàn)的概率）交易號(hào)IIO顧客購(gòu)買商tillItemsT1IirradcrcmmilktrsiT2breadcreanimilk13cakemilkT4mlIkteaT3breadcakemilkTfibreadleaT7tetrmilkEcdTSbreadtea19breadcreaminilkteaT10breadmilktea例如：對(duì)干2-項(xiàng)集X=bread,milk7它出現(xiàn)在T“島T帥Tg和T

11、|0l1tsupport(X)=5/L0=05；：可信度(置信度)關(guān)聯(lián)規(guī)則的可信度(Confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比：confidence(XnY)=嘶曲丫)support(X)關(guān)聯(lián)規(guī)則的可信度反映了如果交易中包含X,則交易中同時(shí)出現(xiàn)Y的概率。例如：關(guān)聯(lián)規(guī)則R：breadmilk的可信度為confidence(R)=11support(bread,milk)/support(bread)二=5/7。項(xiàng)目與項(xiàng)集設(shè)I=i,i,，i是由m個(gè)不同項(xiàng)目構(gòu)成的集合，其中的每個(gè)i(k=1,2,12mkm)被稱為一個(gè)項(xiàng)目(Item)。例如：在超市的關(guān)聯(lián)規(guī)則挖掘中，項(xiàng)目就是顧客購(gòu)

12、買的各種商品，如：bread,milk等。項(xiàng)目的集合I被稱為項(xiàng)目集合(Itemset),簡(jiǎn)稱項(xiàng)集。I中元素個(gè)數(shù)稱為項(xiàng)集的長(zhǎng)度；例如：超市出售6種商品，即：項(xiàng)集I中包含6個(gè)項(xiàng)目，貝的長(zhǎng)度為6。長(zhǎng)度為k的項(xiàng)集稱為k-項(xiàng)集(k-Itemset)。例如：對(duì)于項(xiàng)集cake,milk，可稱為2-項(xiàng)集。項(xiàng)集的最小支持度與頻繁集用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的項(xiàng)集必須滿足的最小支持度的閾值，稱為項(xiàng)集的最小支持度(MinimumSupport)，記為sup。min從統(tǒng)計(jì)意義上講，它表示用戶關(guān)心的關(guān)聯(lián)規(guī)則必須滿足的最低重要性。只有滿足最小支持度的項(xiàng)集才能產(chǎn)生關(guān)聯(lián)規(guī)則。支持度大于或等于sup的項(xiàng)集稱為頻繁項(xiàng)集，簡(jiǎn)稱頻繁集，反之則

13、稱為非頻繁min集。通常，k-項(xiàng)集如果滿足sup，可稱為k-頻繁集，記作L。mink強(qiáng)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的最小支持度(MinimumSupport)表示關(guān)聯(lián)規(guī)則需要滿足的最低支持度，記為sup。min關(guān)聯(lián)規(guī)則的最小可信度(MinimumConfidence)表示關(guān)聯(lián)規(guī)則需要滿足的最低可信度，記為conf。min如果關(guān)聯(lián)規(guī)則同時(shí)滿足如下兩個(gè)條件：support(XY)supminconfidence(XY)confmin稱關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則，否則稱為弱關(guān)聯(lián)規(guī)則。在挖掘關(guān)聯(lián)規(guī)則時(shí)，產(chǎn)生的關(guān)聯(lián)規(guī)則要經(jīng)過(guò)sup和conf的衡量，篩選出來(lái)的minmin強(qiáng)關(guān)聯(lián)規(guī)則才能用于指導(dǎo)決策。關(guān)聯(lián)規(guī)則的挖掘：經(jīng)典算法

14、：Apriori算法關(guān)聯(lián)規(guī)則挖掘包含以下兩個(gè)步驟：首先，找出所有頻繁集；其次，由頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法通過(guò)多次掃描數(shù)據(jù)集，找出所有頻繁集，然后用這些頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則Apriori算法通過(guò)迭代來(lái)窮舉出數(shù)據(jù)集中的所有頻繁集。AprioriApriori算法示例(supmin=2次)10扎C.ID20B.C,E30A,B.C.E40B,EDatabaseTDBA210扎C.ID20B.C,E30A,B.C.E40B,EDatabaseTDBA2B3C31E31stscanA.CB.C2B.C.rItemset卜B1A.C2A.E1(B.C2B.r3忙W22聞scan扎頁(yè)陽(yáng)當(dāng)?。?/p>

15、c7t）屮心二I辭上It&msetsupIB.CF|2|3rdscan匸算法過(guò)程:輸入數(shù)據(jù)集D,最小支持度閾值SUPmin首先，產(chǎn)生1-頻繁集氣；其次，在氣上通過(guò)連接和修剪產(chǎn)生2-頻繁集L2；依次類推，可在鼻上通過(guò)連接和修剪產(chǎn)生（k+1）-頻繁集Lk1；kk+1最后，直到無(wú)法產(chǎn)生新的頻繁集為止。連接：只相差一個(gè)項(xiàng)目的兩個(gè)項(xiàng)集才能進(jìn)行連接（集合“并”操作）。例如：由L生成C的過(guò)程中，L中的A,C和B,C只相差一個(gè)項(xiàng)目，因此它們232可以連接生成A,B,C。但是，L中的A,C和B,E無(wú)法進(jìn)行連接。2修剪：去除子集不是頻繁集的項(xiàng)集。Apriori算法的性質(zhì)：頻繁集的所有非空子集也一定是頻繁的。例如：

16、雖然L中的A,C和B,C可以連接生成A,B,C，但是由于A,B,C的子2集A,B不是頻繁集（不在L2中），因此，需要從C3中刪除A,B,C。描述算法過(guò)程：輸入：數(shù)據(jù)集D，最小支持度閾值sup。min2.K=13.產(chǎn)生CK:K-候選頻繁集根據(jù)最小支持度篩選K-候選頻繁集生成LK:K-頻繁集循環(huán)23步驟，直到無(wú)法生成新的頻繁集為止輸出可以產(chǎn)生關(guān)聯(lián)規(guī)則的所有頻繁集L。Apriori的挑戰(zhàn)與改進(jìn)思路挑戰(zhàn)多遍事務(wù)數(shù)據(jù)庫(kù)掃描候選頻繁項(xiàng)集的數(shù)目巨大候選項(xiàng)集的計(jì)數(shù)工作量較大改進(jìn)Apriori:思路減少事務(wù)數(shù)據(jù)庫(kù)掃描次數(shù)減少候選項(xiàng)集數(shù)目有效支持候選項(xiàng)集的計(jì)數(shù)提高Apriori的有效性基于散列的技術(shù)事務(wù)壓縮劃分抽

17、樣動(dòng)態(tài)項(xiàng)集技術(shù)四、數(shù)據(jù)分類與預(yù)測(cè)分類有那些方法，優(yōu)缺點(diǎn)判定樹(shù)歸納分類（缺失數(shù)據(jù)敏感）-優(yōu)點(diǎn)：決策樹(shù)易于理解和解釋能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。如果給定一個(gè)觀察的模型，那么根據(jù)所產(chǎn)生的決策樹(shù)很容易推出相應(yīng)的邏輯表達(dá)式。-缺點(diǎn)：一、對(duì)于那些各類別樣本數(shù)量不一致的數(shù)據(jù)，在決策樹(shù)當(dāng)中，信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。二、決策樹(shù)處理缺失數(shù)據(jù)時(shí)的困難。三、過(guò)度擬合問(wèn)題的出現(xiàn)。四、忽略數(shù)據(jù)集中屬性之間的相關(guān)性。樸素貝葉斯分類：（缺失數(shù)據(jù)不敏感）-優(yōu)點(diǎn)：易于實(shí)現(xiàn),對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單，常用于文本分類。小規(guī)模數(shù)據(jù)表現(xiàn)好.-缺點(diǎn)：

18、需要知道先驗(yàn)概率，很多時(shí)候先驗(yàn)概率基于假設(shè)，假設(shè)類條件獨(dú)立假設(shè)不一定總是成立。樸素貝葉斯分類無(wú)法對(duì)屬性之間的依賴關(guān)系建模。人工神經(jīng)網(wǎng)絡(luò)分類（缺失數(shù)據(jù)不敏感）-優(yōu)點(diǎn)：分類的準(zhǔn)確度高,并行分布處理能力強(qiáng)，分布存儲(chǔ)及學(xué)習(xí)能力強(qiáng)，對(duì)噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯(cuò)能力，能充分逼近復(fù)雜的非線性關(guān)系，具備聯(lián)想記憶的功能等。缺點(diǎn)：神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)。不能觀察之間的學(xué)習(xí)過(guò)程，輸出結(jié)果難以解釋，會(huì)影響到結(jié)果的可信度和可接受程度；學(xué)習(xí)時(shí)間過(guò)長(zhǎng)，甚至可能達(dá)不到學(xué)習(xí)的目的。SVM支持向量機(jī)（缺失數(shù)據(jù)敏感）SVM的優(yōu)點(diǎn)：一、可以解決小樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題。二、可以提高泛化性能。三、可以解決高維問(wèn)題。四、可以解決非線

19、性問(wèn)題。五、可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題。SVM的缺點(diǎn)：一、對(duì)缺失數(shù)據(jù)敏感。二、對(duì)非線性問(wèn)題沒(méi)有通用解決方案，必須謹(jǐn)慎選擇Kernelfunction來(lái)處理。遺傳算法的優(yōu)點(diǎn)：一、與問(wèn)題領(lǐng)域無(wú)關(guān)切快速隨機(jī)的搜索能力。二、搜索從群體出發(fā)，具有潛在的并行性，可以進(jìn)行多個(gè)個(gè)體的同時(shí)比較，魯棒性好三、搜索使用評(píng)價(jià)函數(shù)啟發(fā)，過(guò)程簡(jiǎn)單。四、使用概率機(jī)制進(jìn)行迭代，具有隨機(jī)性。五、具有可擴(kuò)展性，容易與其他算法結(jié)合。遺傳算法的缺點(diǎn)：一、遺傳算法的編程實(shí)現(xiàn)比較復(fù)雜,首先需要對(duì)問(wèn)題進(jìn)行編碼,找到最優(yōu)解之后還需要對(duì)問(wèn)題進(jìn)行解碼,二、另外三個(gè)算子的實(shí)現(xiàn)也有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的選擇嚴(yán)重影響

20、解的品質(zhì),而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗(yàn).沒(méi)有能夠及時(shí)利用網(wǎng)絡(luò)的反饋信息,故算法的搜索速度比較慢，要得要較精確的解需要較多的訓(xùn)練時(shí)間。三、算法對(duì)初始種群的選擇有一定的依賴性，能夠結(jié)合一些啟發(fā)算法進(jìn)行改進(jìn)。K-最臨近分類KNN優(yōu)點(diǎn)簡(jiǎn)單好用，容易理解，精度高，理論成熟，既可以用來(lái)做分類也可以用來(lái)做回歸；可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù)；訓(xùn)練時(shí)間復(fù)雜度為0(n)；無(wú)數(shù)據(jù)輸入假定；對(duì)異常值不敏感。缺點(diǎn)：計(jì)算復(fù)雜性高；空間復(fù)雜性高；樣本不平衡問(wèn)題(即有些類別的樣本數(shù)量很多，而其它樣本的數(shù)量很少)；一般數(shù)值很大的時(shí)候不用這個(gè)，計(jì)算量太大。但是單個(gè)樣本又不能太少，否則容易發(fā)生誤分。最大的缺點(diǎn)是無(wú)法給出數(shù)據(jù)

21、的內(nèi)在含義。聚類分析有哪些方法它們的優(yōu)缺點(diǎn)是什么k-means：是一種典型的劃分聚類算法，它用一個(gè)聚類的中心來(lái)代表一個(gè)簇，即在迭代過(guò)程中選擇的聚點(diǎn)不一定是聚類中的一個(gè)點(diǎn)，該算法只能處理數(shù)值型數(shù)據(jù)。優(yōu)點(diǎn)：k均值聚類法快速高效，特別是大量數(shù)據(jù)時(shí)，準(zhǔn)確性高一些,但是需要你自己指定聚類的類別數(shù)量均值漂移聚類高斯混合模型最大期望聚類什么是分類、什么是預(yù)測(cè)分類預(yù)測(cè)類標(biāo)識(shí)（離散的）基于帶類標(biāo)識(shí)的數(shù)據(jù)構(gòu)建分類模型，然后使用分類模型對(duì)未知類標(biāo)識(shí)的數(shù)據(jù)分類預(yù)測(cè)對(duì)連續(xù)值函數(shù)建模，即預(yù)測(cè)未知或丟失的值分類個(gè)兩步的過(guò)程建立模型：描述數(shù)據(jù)中的類每個(gè)元組/樣本都屬于由其類標(biāo)識(shí)所確定的類用于構(gòu)建模型的數(shù)據(jù)集被稱為訓(xùn)練數(shù)據(jù)集模型的表現(xiàn)形式有分類規(guī)則，判定樹(shù)，和數(shù)學(xué)公式使用模型進(jìn)行分類：將未知類標(biāo)識(shí)的數(shù)據(jù)分類評(píng)估模型的預(yù)測(cè)準(zhǔn)確率將模型預(yù)測(cè)的測(cè)試樣本的類與測(cè)試樣本的類標(biāo)識(shí)進(jìn)行比較模型的預(yù)測(cè)準(zhǔn)確率等于被模型正確分類的測(cè)試樣本在測(cè)試數(shù)據(jù)集中所占的比例測(cè)試數(shù)據(jù)集

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔