汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第1頁(yè)
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第2頁(yè)
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第3頁(yè)
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第4頁(yè)
汕頭大學(xué)數(shù)據(jù)挖掘期末復(fù)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、汕頭大學(xué)2019數(shù)據(jù)挖掘期末復(fù)習(xí)資料(浩軍老師班)考試范圍:數(shù)據(jù)預(yù)處理、數(shù)據(jù)關(guān)聯(lián)分析、分類與預(yù)測(cè)、SVM、K-MEANS、聚類考試題型:簡(jiǎn)答題,復(fù)習(xí)請(qǐng)以實(shí)驗(yàn)相關(guān)內(nèi)容為主數(shù)據(jù)挖掘課程的主要內(nèi)容:數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法關(guān)聯(lián)分析數(shù)據(jù)挖掘算法分類與預(yù)測(cè)數(shù)據(jù)挖掘算法聚類分析一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘概念:從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)(機(jī)器學(xué)習(xí))的綜合。數(shù)據(jù)挖掘定義:數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)的特征:大容

2、量、含噪音(不完全、不正確)、異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)數(shù)據(jù)挖掘有哪些步驟確定預(yù)測(cè)目標(biāo)統(tǒng)計(jì)數(shù)據(jù)特征根據(jù)數(shù)據(jù)特征進(jìn)行數(shù)據(jù)預(yù)處理應(yīng)用數(shù)據(jù)挖掘模型(分類、聚類、關(guān)聯(lián)分析、離群點(diǎn)挖掘、標(biāo)記等)分析模型的準(zhǔn)確率找出影響模型準(zhǔn)確率的因素,回到第3步迭代直到模型足夠完美。二、數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理有哪些步驟1.數(shù)據(jù)清理2.數(shù)據(jù)集成3.數(shù)據(jù)歸約4.數(shù)據(jù)變換與數(shù)據(jù)離散化為什么要進(jìn)行數(shù)據(jù)預(yù)處理現(xiàn)實(shí)世界的數(shù)據(jù)是不完整的、含有噪聲的、不一致的、冗余的。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。1)現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。2)數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有

3、助于提高其后的挖掘過(guò)程的精度和性能。3)高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程的重要步驟。數(shù)據(jù)的質(zhì)量涉及的三個(gè)要素是準(zhǔn)確性,完整性和一致性。現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的不完整的不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改善數(shù)據(jù)的質(zhì)量。如何填充數(shù)據(jù)中存在的缺失值1.忽略元組(刪除)2.使用一個(gè)全局常量填充空缺值(例如NULL)3.使用屬性的平均值、眾數(shù)、中位數(shù)來(lái)填充空缺值4.人工填充空缺值數(shù)據(jù)清理補(bǔ)充缺失的屬性值:使用屬性的中心度量(如均值或者中位數(shù)或者眾數(shù)(頻率度量出現(xiàn)單峰)填充缺失值。使用最可能的值填充缺失值(可以用回歸,使用貝葉斯形式化方法)光滑數(shù)據(jù),去掉噪聲:噪聲是被測(cè)量的變量的

4、隨機(jī)誤差或者方差。數(shù)據(jù)光滑的技術(shù):分箱法,把有序的數(shù)據(jù)數(shù)量等頻地分到箱子中,可以用箱的均值光滑,用箱的邊界值光滑,用箱的中位數(shù)光滑。數(shù)據(jù)集成將數(shù)據(jù)由多個(gè)數(shù)據(jù)源合并成一個(gè)一致的數(shù)據(jù)存儲(chǔ),如數(shù)據(jù)倉(cāng)庫(kù)(集成多個(gè)數(shù)據(jù)庫(kù))。數(shù)據(jù)歸約可以通過(guò)如聚集、刪除冗余特征或者聚類來(lái)降低數(shù)據(jù)的規(guī)模。(得到數(shù)據(jù)的簡(jiǎn)化表示)簡(jiǎn)化數(shù)據(jù)、但產(chǎn)生相同或者相似的結(jié)果通過(guò)選擇替代的、“較小的”數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。數(shù)據(jù)變換(例如,規(guī)范化,離散化)可以把數(shù)據(jù)壓縮到較小的區(qū)間,如到。這可以提高涉及距離度量的挖掘算法的準(zhǔn)確率和效率。規(guī)范化和聚集數(shù)據(jù)最小-最大規(guī)范化最小-最大規(guī)范化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間new_minA,

5、new_maxA選擇區(qū)間,找到數(shù)據(jù)最大值和最小值,進(jìn)行區(qū)間規(guī)范化.v-viinA.、v=(new_higxa一new_附+new_mmamaxA-miriA-例如:irKome的最大,最小值分別為9000,2000,則將它的值映射到01時(shí),若income的值6800規(guī)范后為:(6800-2000)/(9000-2000)*(1-0)+0=0.686離群點(diǎn)可能影響規(guī)范化零族規(guī)范化z-score規(guī)范化(零均值規(guī)范化):屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化。對(duì)離群點(diǎn)不敏感vPv=aA離散化:通俗的說(shuō),離散化是在不改變數(shù)據(jù)相對(duì)大小的條件下,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的縮小。概念解釋離群點(diǎn):與數(shù)據(jù)的一般行為或模型

6、不一致的數(shù)據(jù)對(duì)象數(shù)據(jù)錯(cuò)誤不可避免數(shù)據(jù)輸入和獲取過(guò)程出現(xiàn)的錯(cuò)誤數(shù)據(jù)集成表現(xiàn)出來(lái)的錯(cuò)誤數(shù)據(jù)傳輸過(guò)程所引入的錯(cuò)誤分箱:通過(guò)考察數(shù)據(jù)的“近鄰”(周圍的值)來(lái)光滑有序數(shù)據(jù)的值。局部光滑?;貧w:(線性回歸,多元線性回歸)用一個(gè)函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。聚類:將類似的值聚集為簇??梢宰R(shí)別并刪除離群點(diǎn)、解決數(shù)據(jù)的不一致基本描述數(shù)據(jù)匯總的圖形顯示(數(shù)據(jù)排序后使用)盒圖(需要先將數(shù)據(jù)進(jìn)行有序排列):盒圖可以用五數(shù)概括(上下四分位數(shù)、中位數(shù)、上下邊緣)四分位數(shù)是3個(gè)值,把排序的數(shù)據(jù)集分成4個(gè)相等的部分。盒的端點(diǎn)一般在四分位數(shù)上,使得盒的長(zhǎng)度是四分位數(shù)的極差I(lǐng)QR(上四分位數(shù)75%,下四分位數(shù)25%)中位數(shù)

7、用盒內(nèi)的線標(biāo)記。盒外兩條虛線(稱為胡須)延伸到最小和最大的觀測(cè)值(上邊緣、下邊緣)。超過(guò)過(guò)四分位數(shù)*IQR時(shí),單獨(dú)畫出離群點(diǎn),否則讓胡須擴(kuò)展到它們。直方圖:通常讓一個(gè)桶代表給定屬性的一個(gè)連續(xù)值域。概括給定屬性分布的圖形方法,每個(gè)矩形等寬。分位數(shù)圖:是一種觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效的方法。分位數(shù)-分位數(shù)圖可以查看一個(gè)分布到另外一個(gè)分布是否有漂移(確定間隔)散布圖(散點(diǎn)圖):是一種觀察雙變量數(shù)據(jù)的有用的方法,用于觀察點(diǎn)簇和離群點(diǎn),或考察相關(guān)聯(lián)系的可能性。確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或者趨勢(shì)的有效圖形之一。兩個(gè)變量屬性的三個(gè)關(guān)系可以從散點(diǎn)圖上看出來(lái):正相關(guān)、負(fù)相關(guān)、不相關(guān)。分布式度

8、量、代數(shù)度量、整體度量的概念1)分布式度量:可以通過(guò)如下方法計(jì)算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原(整個(gè))數(shù)據(jù)集的度量值。sum()、count()、min()、max()2)代數(shù)度量:可以通過(guò)應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量(平均數(shù)sum/count)3)整體度量:必須對(duì)整個(gè)數(shù)據(jù)集計(jì)算的度量。例如:中位數(shù)、眾數(shù)三、數(shù)據(jù)關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘(AssociationRuleMining)是數(shù)據(jù)挖掘中最活躍的研究?jī)?nèi)容之一。一個(gè)典型的關(guān)聯(lián)規(guī)則的例子:70%購(gòu)買了牛奶的顧客將傾向于同時(shí)購(gòu)買面包。發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則可以為市場(chǎng)預(yù)測(cè)、決策和策

9、劃等方面提供依據(jù)。技術(shù)用語(yǔ)解釋:頻繁模式是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項(xiàng)集、子序列、子結(jié)構(gòu))頻繁項(xiàng)集:例如,頻繁地同時(shí)出現(xiàn)在交易數(shù)據(jù)集中的商品項(xiàng)目(如牛奶與面包)的集合是頻繁項(xiàng)集。序列模式:例如,先買PC,然后是數(shù)碼相機(jī),再后是內(nèi)存卡,如果它頻繁地出現(xiàn)在歷史數(shù)據(jù)庫(kù)中,則稱它為一個(gè)頻繁的序列模式。子結(jié)構(gòu):一個(gè)子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式,如子圖、子樹(shù)或者子格,它可能與項(xiàng)集或者子序列結(jié)合在一起。如果一個(gè)子結(jié)構(gòu)頻繁地出現(xiàn),則稱它為頻繁的結(jié)構(gòu)模式。關(guān)聯(lián)規(guī)則中的支持度和置信度規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量。它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。Computer=antivirus_sof

10、twaresupport=2%;confidence=60%表示所分析的所有事物的2%顯示計(jì)算機(jī)和殺毒軟件被同時(shí)購(gòu)買,置信度60%意味購(gòu)買計(jì)算機(jī)的顧客60%也購(gòu)買了殺毒軟件。支持度(項(xiàng)集X在交易集中出現(xiàn)的概率)交易號(hào)IIO顧客購(gòu)買商tillItemsT1IirradcrcmmilktrsiT2breadcreanimilk13cakemilkT4mlIkteaT3breadcakemilkTfibreadleaT7tetrmilkEcdTSbreadtea19breadcreaminilkteaT10breadmilktea例如:對(duì)干2-項(xiàng)集X=bread,milk7它出現(xiàn)在T“島T帥Tg和T

11、|0l1tsupport(X)=5/L0=05;:可信度(置信度)關(guān)聯(lián)規(guī)則的可信度(Confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比:confidence(XnY)=嘶曲丫)support(X)關(guān)聯(lián)規(guī)則的可信度反映了如果交易中包含X,則交易中同時(shí)出現(xiàn)Y的概率。例如:關(guān)聯(lián)規(guī)則R:breadmilk的可信度為confidence(R)=11support(bread,milk)/support(bread)二=5/7。項(xiàng)目與項(xiàng)集設(shè)I=i,i,,i是由m個(gè)不同項(xiàng)目構(gòu)成的集合,其中的每個(gè)i(k=1,2,12mkm)被稱為一個(gè)項(xiàng)目(Item)。例如:在超市的關(guān)聯(lián)規(guī)則挖掘中,項(xiàng)目就是顧客購(gòu)

12、買的各種商品,如:bread,milk等。項(xiàng)目的集合I被稱為項(xiàng)目集合(Itemset),簡(jiǎn)稱項(xiàng)集。I中元素個(gè)數(shù)稱為項(xiàng)集的長(zhǎng)度;例如:超市出售6種商品,即:項(xiàng)集I中包含6個(gè)項(xiàng)目,貝的長(zhǎng)度為6。長(zhǎng)度為k的項(xiàng)集稱為k-項(xiàng)集(k-Itemset)。例如:對(duì)于項(xiàng)集cake,milk,可稱為2-項(xiàng)集。項(xiàng)集的最小支持度與頻繁集用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的項(xiàng)集必須滿足的最小支持度的閾值,稱為項(xiàng)集的最小支持度(MinimumSupport),記為sup。min從統(tǒng)計(jì)意義上講,它表示用戶關(guān)心的關(guān)聯(lián)規(guī)則必須滿足的最低重要性。只有滿足最小支持度的項(xiàng)集才能產(chǎn)生關(guān)聯(lián)規(guī)則。支持度大于或等于sup的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻繁集,反之則

13、稱為非頻繁min集。通常,k-項(xiàng)集如果滿足sup,可稱為k-頻繁集,記作L。mink強(qiáng)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的最小支持度(MinimumSupport)表示關(guān)聯(lián)規(guī)則需要滿足的最低支持度,記為sup。min關(guān)聯(lián)規(guī)則的最小可信度(MinimumConfidence)表示關(guān)聯(lián)規(guī)則需要滿足的最低可信度,記為conf。min如果關(guān)聯(lián)規(guī)則同時(shí)滿足如下兩個(gè)條件:support(XY)supminconfidence(XY)confmin稱關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則,否則稱為弱關(guān)聯(lián)規(guī)則。在挖掘關(guān)聯(lián)規(guī)則時(shí),產(chǎn)生的關(guān)聯(lián)規(guī)則要經(jīng)過(guò)sup和conf的衡量,篩選出來(lái)的minmin強(qiáng)關(guān)聯(lián)規(guī)則才能用于指導(dǎo)決策。關(guān)聯(lián)規(guī)則的挖掘:經(jīng)典算法

14、:Apriori算法關(guān)聯(lián)規(guī)則挖掘包含以下兩個(gè)步驟:首先,找出所有頻繁集;其次,由頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法通過(guò)多次掃描數(shù)據(jù)集,找出所有頻繁集,然后用這些頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則Apriori算法通過(guò)迭代來(lái)窮舉出數(shù)據(jù)集中的所有頻繁集。AprioriApriori算法示例(supmin=2次)10扎C.ID20B.C,E30A,B.C.E40B,EDatabaseTDBA210扎C.ID20B.C,E30A,B.C.E40B,EDatabaseTDBA2B3C31E31stscanA.CB.C2B.C.rItemset卜B1A.C2A.E1(B.C2B.r3忙W22聞scan扎頁(yè)陽(yáng)當(dāng)?。?/p>

15、c7t)屮心二I辭上It&msetsupIB.CF|2|3rdscan匸算法過(guò)程:輸入數(shù)據(jù)集D,最小支持度閾值SUPmin首先,產(chǎn)生1-頻繁集氣;其次,在氣上通過(guò)連接和修剪產(chǎn)生2-頻繁集L2;依次類推,可在鼻上通過(guò)連接和修剪產(chǎn)生(k+1)-頻繁集Lk1;kk+1最后,直到無(wú)法產(chǎn)生新的頻繁集為止。連接:只相差一個(gè)項(xiàng)目的兩個(gè)項(xiàng)集才能進(jìn)行連接(集合“并”操作)。例如:由L生成C的過(guò)程中,L中的A,C和B,C只相差一個(gè)項(xiàng)目,因此它們232可以連接生成A,B,C。但是,L中的A,C和B,E無(wú)法進(jìn)行連接。2修剪:去除子集不是頻繁集的項(xiàng)集。Apriori算法的性質(zhì):頻繁集的所有非空子集也一定是頻繁的。例如:

16、雖然L中的A,C和B,C可以連接生成A,B,C,但是由于A,B,C的子2集A,B不是頻繁集(不在L2中),因此,需要從C3中刪除A,B,C。描述算法過(guò)程:輸入:數(shù)據(jù)集D,最小支持度閾值sup。min2.K=13.產(chǎn)生CK:K-候選頻繁集根據(jù)最小支持度篩選K-候選頻繁集生成LK:K-頻繁集循環(huán)23步驟,直到無(wú)法生成新的頻繁集為止輸出可以產(chǎn)生關(guān)聯(lián)規(guī)則的所有頻繁集L。Apriori的挑戰(zhàn)與改進(jìn)思路挑戰(zhàn)多遍事務(wù)數(shù)據(jù)庫(kù)掃描候選頻繁項(xiàng)集的數(shù)目巨大候選項(xiàng)集的計(jì)數(shù)工作量較大改進(jìn)Apriori:思路減少事務(wù)數(shù)據(jù)庫(kù)掃描次數(shù)減少候選項(xiàng)集數(shù)目有效支持候選項(xiàng)集的計(jì)數(shù)提高Apriori的有效性基于散列的技術(shù)事務(wù)壓縮劃分抽

17、樣動(dòng)態(tài)項(xiàng)集技術(shù)四、數(shù)據(jù)分類與預(yù)測(cè)分類有那些方法,優(yōu)缺點(diǎn)判定樹(shù)歸納分類(缺失數(shù)據(jù)敏感)-優(yōu)點(diǎn):決策樹(shù)易于理解和解釋能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹(shù)很容易推出相應(yīng)的邏輯表達(dá)式。-缺點(diǎn):一、對(duì)于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹(shù)當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。二、決策樹(shù)處理缺失數(shù)據(jù)時(shí)的困難。三、過(guò)度擬合問(wèn)題的出現(xiàn)。四、忽略數(shù)據(jù)集中屬性之間的相關(guān)性。樸素貝葉斯分類:(缺失數(shù)據(jù)不敏感)-優(yōu)點(diǎn):易于實(shí)現(xiàn),對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單,常用于文本分類。小規(guī)模數(shù)據(jù)表現(xiàn)好.-缺點(diǎn):

18、需要知道先驗(yàn)概率,很多時(shí)候先驗(yàn)概率基于假設(shè),假設(shè)類條件獨(dú)立假設(shè)不一定總是成立。樸素貝葉斯分類無(wú)法對(duì)屬性之間的依賴關(guān)系建模。人工神經(jīng)網(wǎng)絡(luò)分類(缺失數(shù)據(jù)不敏感)-優(yōu)點(diǎn):分類的準(zhǔn)確度高,并行分布處理能力強(qiáng),分布存儲(chǔ)及學(xué)習(xí)能力強(qiáng),對(duì)噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯(cuò)能力,能充分逼近復(fù)雜的非線性關(guān)系,具備聯(lián)想記憶的功能等。缺點(diǎn):神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)。不能觀察之間的學(xué)習(xí)過(guò)程,輸出結(jié)果難以解釋,會(huì)影響到結(jié)果的可信度和可接受程度;學(xué)習(xí)時(shí)間過(guò)長(zhǎng),甚至可能達(dá)不到學(xué)習(xí)的目的。SVM支持向量機(jī)(缺失數(shù)據(jù)敏感)SVM的優(yōu)點(diǎn):一、可以解決小樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題。二、可以提高泛化性能。三、可以解決高維問(wèn)題。四、可以解決非線

19、性問(wèn)題。五、可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題。SVM的缺點(diǎn):一、對(duì)缺失數(shù)據(jù)敏感。二、對(duì)非線性問(wèn)題沒(méi)有通用解決方案,必須謹(jǐn)慎選擇Kernelfunction來(lái)處理。遺傳算法的優(yōu)點(diǎn):一、與問(wèn)題領(lǐng)域無(wú)關(guān)切快速隨機(jī)的搜索能力。二、搜索從群體出發(fā),具有潛在的并行性,可以進(jìn)行多個(gè)個(gè)體的同時(shí)比較,魯棒性好三、搜索使用評(píng)價(jià)函數(shù)啟發(fā),過(guò)程簡(jiǎn)單。四、使用概率機(jī)制進(jìn)行迭代,具有隨機(jī)性。五、具有可擴(kuò)展性,容易與其他算法結(jié)合。遺傳算法的缺點(diǎn):一、遺傳算法的編程實(shí)現(xiàn)比較復(fù)雜,首先需要對(duì)問(wèn)題進(jìn)行編碼,找到最優(yōu)解之后還需要對(duì)問(wèn)題進(jìn)行解碼,二、另外三個(gè)算子的實(shí)現(xiàn)也有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的選擇嚴(yán)重影響

20、解的品質(zhì),而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗(yàn).沒(méi)有能夠及時(shí)利用網(wǎng)絡(luò)的反饋信息,故算法的搜索速度比較慢,要得要較精確的解需要較多的訓(xùn)練時(shí)間。三、算法對(duì)初始種群的選擇有一定的依賴性,能夠結(jié)合一些啟發(fā)算法進(jìn)行改進(jìn)。K-最臨近分類KNN優(yōu)點(diǎn)簡(jiǎn)單好用,容易理解,精度高,理論成熟,既可以用來(lái)做分類也可以用來(lái)做回歸;可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù);訓(xùn)練時(shí)間復(fù)雜度為0(n);無(wú)數(shù)據(jù)輸入假定;對(duì)異常值不敏感。缺點(diǎn):計(jì)算復(fù)雜性高;空間復(fù)雜性高;樣本不平衡問(wèn)題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);一般數(shù)值很大的時(shí)候不用這個(gè),計(jì)算量太大。但是單個(gè)樣本又不能太少,否則容易發(fā)生誤分。最大的缺點(diǎn)是無(wú)法給出數(shù)據(jù)

21、的內(nèi)在含義。聚類分析有哪些方法它們的優(yōu)缺點(diǎn)是什么k-means:是一種典型的劃分聚類算法,它用一個(gè)聚類的中心來(lái)代表一個(gè)簇,即在迭代過(guò)程中選擇的聚點(diǎn)不一定是聚類中的一個(gè)點(diǎn),該算法只能處理數(shù)值型數(shù)據(jù)。優(yōu)點(diǎn):k均值聚類法快速高效,特別是大量數(shù)據(jù)時(shí),準(zhǔn)確性高一些,但是需要你自己指定聚類的類別數(shù)量均值漂移聚類高斯混合模型最大期望聚類什么是分類、什么是預(yù)測(cè)分類預(yù)測(cè)類標(biāo)識(shí)(離散的)基于帶類標(biāo)識(shí)的數(shù)據(jù)構(gòu)建分類模型,然后使用分類模型對(duì)未知類標(biāo)識(shí)的數(shù)據(jù)分類預(yù)測(cè)對(duì)連續(xù)值函數(shù)建模,即預(yù)測(cè)未知或丟失的值分類個(gè)兩步的過(guò)程建立模型:描述數(shù)據(jù)中的類每個(gè)元組/樣本都屬于由其類標(biāo)識(shí)所確定的類用于構(gòu)建模型的數(shù)據(jù)集被稱為訓(xùn)練數(shù)據(jù)集模型的表現(xiàn)形式有分類規(guī)則,判定樹(shù),和數(shù)學(xué)公式使用模型進(jìn)行分類:將未知類標(biāo)識(shí)的數(shù)據(jù)分類評(píng)估模型的預(yù)測(cè)準(zhǔn)確率將模型預(yù)測(cè)的測(cè)試樣本的類與測(cè)試樣本的類標(biāo)識(shí)進(jìn)行比較模型的預(yù)測(cè)準(zhǔn)確率等于被模型正確分類的測(cè)試樣本在測(cè)試數(shù)據(jù)集中所占的比例測(cè)試數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論