Python數(shù)據(jù)挖掘與機器學習第2版 課件 魏偉一 第 9 章 神經(jīng)網(wǎng)絡(luò)與深度學習;第 10 章 離群點檢測_第1頁
Python數(shù)據(jù)挖掘與機器學習第2版 課件 魏偉一 第 9 章 神經(jīng)網(wǎng)絡(luò)與深度學習;第 10 章 離群點檢測_第2頁
Python數(shù)據(jù)挖掘與機器學習第2版 課件 魏偉一 第 9 章 神經(jīng)網(wǎng)絡(luò)與深度學習;第 10 章 離群點檢測_第3頁
Python數(shù)據(jù)挖掘與機器學習第2版 課件 魏偉一 第 9 章 神經(jīng)網(wǎng)絡(luò)與深度學習;第 10 章 離群點檢測_第4頁
Python數(shù)據(jù)挖掘與機器學習第2版 課件 魏偉一 第 9 章 神經(jīng)網(wǎng)絡(luò)與深度學習;第 10 章 離群點檢測_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Python數(shù)據(jù)挖掘與機器學習第9章神經(jīng)網(wǎng)絡(luò)與深度學習第8章聚類本章內(nèi)容神經(jīng)網(wǎng)絡(luò)基礎(chǔ)BP神經(jīng)網(wǎng)絡(luò)深度學習10十一月20242第

9章神經(jīng)網(wǎng)絡(luò)與深度學習3神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)最早由心理學家和神經(jīng)學家開創(chuàng),旨在尋求開發(fā)和檢驗神經(jīng)的計算模擬。它是由具有適應(yīng)性的簡單單元組成的廣泛并行互連的網(wǎng)絡(luò),它的組織能模擬生物神經(jīng)系統(tǒng)對真實世界物體所作出的交互反應(yīng)。今天的“神經(jīng)網(wǎng)絡(luò)”已是一個相當大的、多學科交叉的學科領(lǐng)域。神經(jīng)網(wǎng)絡(luò)可以用于分類(預測給定元組的類標號)和數(shù)值預測(預測連續(xù)值輸出)等。人工神經(jīng)元(簡稱神經(jīng)元)是神經(jīng)網(wǎng)絡(luò)的基本組成單元,它是對生物神經(jīng)元的模擬、抽象和簡化?,F(xiàn)代神經(jīng)生物學的研究表明,生物神經(jīng)元是由細胞體、樹突和軸突組成的。通常一個神經(jīng)元包含一個細胞體和一條軸突,但有一個至多個樹突。

7.1.1神經(jīng)元4生物神經(jīng)元第9章神經(jīng)網(wǎng)絡(luò)與深度學習5

1神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)中最基本的成分是神經(jīng)元(Neuron)模型。生物神經(jīng)網(wǎng)絡(luò)中的每個神經(jīng)元彼此互連,當它“興奮”時,就會向相連的神經(jīng)元發(fā)送化學物質(zhì),從而改變這些神經(jīng)元內(nèi)的電位。如果某神經(jīng)元的電位超過一個閾值,它就會被激活,即“興奮”起來,向其他神經(jīng)元發(fā)送化學物質(zhì)。1943年,美國心理學家麥卡洛克(McCulloch)和數(shù)學家皮特斯(Pitts)按照生物神經(jīng)元的結(jié)構(gòu)和工作原理建立了M-P模型。第9章神經(jīng)網(wǎng)絡(luò)與深度學習61神經(jīng)元模型在M-P模型中,為了使得建模更加簡單,以便于進行形式化表達,忽略時間整合作用、不應(yīng)期等復雜因素,并把神經(jīng)元的突觸時延和強度當成常數(shù)。

第9章神經(jīng)網(wǎng)絡(luò)與深度學習7第9章神經(jīng)網(wǎng)絡(luò)與深度學習8由于累加性,對全部輸入信號進行累加整合,相當于生物神經(jīng)元中的膜電位,其值為:第9章神經(jīng)網(wǎng)絡(luò)與深度學習9第9章神經(jīng)網(wǎng)絡(luò)與深度學習2感知機與多層網(wǎng)絡(luò)感知器(Perceptron)由兩層神經(jīng)元組成,如圖9-3所示。這個結(jié)構(gòu)非常簡單,它其實就是輸入輸出兩層神經(jīng)元之間的簡單連接。10十一月202410第9章神經(jīng)網(wǎng)絡(luò)與深度學習10十一月202411感知機(Perceptron)1957年由Rosenblatt提出,是神經(jīng)網(wǎng)絡(luò)與支持向量機的基礎(chǔ);輸入為特征向量,輸出為實例的類別,取+1和-1;感知機對應(yīng)于輸入空間中將實例劃分為正負兩類的超平面,屬于判別模型;導入基于誤分類的損失函數(shù);利用梯度下降法對損失函數(shù)進行極小化;感知機學習算法具有簡單而易于實現(xiàn)的優(yōu)點,分為原始形式和對偶形式。

7.1.1神經(jīng)元12第9章神經(jīng)網(wǎng)絡(luò)與深度學習

7.1.1神經(jīng)元13步數(shù)操作123重復第2步,直到?jīng)]有誤分類點第9章神經(jīng)網(wǎng)絡(luò)與深度學習用神經(jīng)網(wǎng)絡(luò)來模擬邏輯代數(shù)中的異或運算7.1.2神經(jīng)網(wǎng)絡(luò)14第9章神經(jīng)網(wǎng)絡(luò)與深度學習用神經(jīng)網(wǎng)絡(luò)來模擬邏輯代數(shù)中的異或運算代表異或運算的點是線性不可分的,因此無法用感知機模擬,此時可以將三個分布模擬與非、或和與運算的感知機連接在一起,共同完成異或運算。7.1.2神經(jīng)網(wǎng)絡(luò)15第9章神經(jīng)網(wǎng)絡(luò)與深度學習神經(jīng)元模型在神經(jīng)網(wǎng)絡(luò)中的畫法單個神經(jīng)元只能劃分線性可分的二分類點。如果將神經(jīng)元連接成神經(jīng)網(wǎng)絡(luò),則處理能力會大為增強,這也是神經(jīng)網(wǎng)絡(luò)得到廣泛應(yīng)用的原因。7.1.2神經(jīng)網(wǎng)絡(luò)16第9章神經(jīng)網(wǎng)絡(luò)與深度學習第9章神經(jīng)網(wǎng)絡(luò)與深度學習要解決非線性可分問題需要使用多層感知器(多層網(wǎng)絡(luò))來解決。多層感知機(MultilayerPerceptron,MLP)除了輸入輸出層,中間可以有多個隱層。最簡單的MLP只含一個隱層,即三層的結(jié)構(gòu)。更一般的,常見的神經(jīng)網(wǎng)絡(luò)是形如圖9.4所示的機構(gòu)這樣的網(wǎng)絡(luò)結(jié)構(gòu)通常稱為多層前饋神經(jīng)網(wǎng)絡(luò)(Multi-layerFeedforwardNeuralNetworks)。10十一月202417第9章神經(jīng)網(wǎng)絡(luò)與深度學習2BP神經(jīng)網(wǎng)絡(luò)多層網(wǎng)絡(luò)的學習能力比單層感知機強很多,要訓練多層網(wǎng)絡(luò),簡單的感知機學習規(guī)則顯然不夠,需要更強大的學習算法。誤差逆?zhèn)鞑ィ‥rrorBackPropagation)算法就是學習算法中的杰出代表?,F(xiàn)實任務(wù)中使用神經(jīng)網(wǎng)絡(luò)時,大多是使用BP算法進行訓練。需要注意的是,BP算法不僅可以用于多層前饋神經(jīng)網(wǎng)絡(luò),還可以用于其他類型的神經(jīng)網(wǎng)絡(luò)。通常說BP網(wǎng)絡(luò)時,常指利用BP算法訓練的多層前饋神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)可以用于分類(預測給定元組的類標號)和數(shù)值預測(預測連續(xù)值輸出)等。10十一月202418第9章神經(jīng)網(wǎng)絡(luò)與深度學習多層前饋神經(jīng)網(wǎng)絡(luò)由一個輸入層、一個或多個隱層和一個輸出層組成,如圖9-5所示。它利用后向傳播算法迭代地學習用于元組類標號預測的一組權(quán)重。10十一月202419第9章神經(jīng)網(wǎng)絡(luò)與深度學習后向傳播算法后向傳播通過迭代地處理訓練元組數(shù)據(jù)集,把每個元組的網(wǎng)絡(luò)預測與實際已知的目標值相比較進行學習。對于每個訓練樣本,修改權(quán)重使得網(wǎng)絡(luò)預測和實際目標值之間的均方誤差最小。這種修改“后向”進行,即由輸出層,經(jīng)由每個隱層到第一個隱藏層。BP算法的主要思想是把訓練過程分為兩個階段:1.第一階段(正向傳播過程)10十一月202420第9章神經(jīng)網(wǎng)絡(luò)與深度學習2.第二階段(反向傳播過程)若在輸出層不能得到期望的輸出值,那么逐層遞歸地計算實際輸出與期望輸出的差值,以便根據(jù)差值調(diào)節(jié)權(quán)值。BP算法基于梯度下降(GradientDescent)策略,以目標的負梯度方向?qū)?shù)進行調(diào)整。10十一月202421第9章神經(jīng)網(wǎng)絡(luò)與深度學習10十一月202422第9章神經(jīng)網(wǎng)絡(luò)與深度學習10十一月202423第9章神經(jīng)網(wǎng)絡(luò)與深度學習10十一月202424第9章神經(jīng)網(wǎng)絡(luò)與深度學習10十一月202425第9章神經(jīng)網(wǎng)絡(luò)與深度學習【例9-1】利用后向傳播算法學習的樣本計算。圖9.6給出了一個多層前饋神經(jīng)網(wǎng)絡(luò),令學習率為0.9,第一個訓練元組為X={1,0,1},類標號Y=1。計算每個單元的凈輸入和輸出。10十一月202426第9章神經(jīng)網(wǎng)絡(luò)與深度學習(1)隨機初始化參數(shù)值如表9.1中的數(shù)值。(2)根據(jù)BP算法中的前饋過程,計算凈輸入和輸出的值,結(jié)果如表9.2所示。(3)計算每個結(jié)點的誤差,結(jié)果見表9.3。(4)更新權(quán)重和偏倚,結(jié)果見表9.4。10十一月202427第9章神經(jīng)網(wǎng)絡(luò)與深度學習10十一月202428BP神經(jīng)網(wǎng)絡(luò)具有簡單易行、計算量小和并行性強的有點,但也存在學習效率低、收斂速度慢等問題。BP神經(jīng)網(wǎng)絡(luò)具體有點和缺點如表9-2所示。表9-2BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點優(yōu)點缺點(1)BP算法根據(jù)預設(shè)參數(shù)的更新規(guī)則不斷調(diào)整網(wǎng)絡(luò)中的參數(shù),能夠自適應(yīng)自主學習;(2)BP神經(jīng)網(wǎng)絡(luò)具有很強的非線性映射能力;(3)誤差的反向傳播所采用的鏈式法則具有嚴謹?shù)耐茖н^程;(4)BP算法具有很強的泛化能力。(1)BP神經(jīng)網(wǎng)絡(luò)參數(shù)眾多,每次迭代要更新眾多數(shù)量的參數(shù),故收斂速度較慢;(2)網(wǎng)絡(luò)中隱層節(jié)點數(shù)目設(shè)定沒有明確的準則,只能通過實驗根據(jù)網(wǎng)絡(luò)誤差確定最終隱含層節(jié)點個數(shù);(3)BP算法是一種快速的梯度下降算法,但對初始參數(shù)敏感且容易陷入局部極小值。3深度學習理論上來說,參數(shù)越多的模型復雜度越高、容量越大,這意味著它能完成更復雜的學習任務(wù)。但一般情形下,復雜模型的訓練效率低,易陷入過擬合。隨著云計算、大數(shù)據(jù)時代的到來,計算能力的大幅提高可以緩解訓練的低效性,訓練數(shù)據(jù)的大幅增加可以降低過擬合風險。因此,以深度學習(DeepLearning,DL)為代表的復雜模型受到了關(guān)注。10十一月2024293深度學習深度學習是機器學習領(lǐng)域中一個新的研究方向。它使機器模仿視聽和思考等人類的活動,解決了很多復雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進步。深度學習是一類模式分析方法的統(tǒng)稱,就具體研究內(nèi)容而言,主要涉及三類方法:(1)基于卷積運算的神經(jīng)網(wǎng)絡(luò)系統(tǒng),即卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)。(2)基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡(luò),包括自編碼(AutoEncoder)以及近年來受到廣泛關(guān)注的稀疏編碼兩類(SparseCoding)。(3)以多層自編碼神經(jīng)網(wǎng)絡(luò)的方式進行預訓練,進而結(jié)合鑒別信息進一步優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的深度置信網(wǎng)絡(luò)(DBN)。10十一月2024303深度學習常用的深度學習算法常見的深度學習算法主要包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和生成對抗神經(jīng)網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)等。這些算法是深度學習的基礎(chǔ)算法,在各種深度學習相關(guān)系統(tǒng)中均有不同程度的應(yīng)用。10十一月2024313深度學習1.卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)是第一個被成功訓練的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),具有較強的容錯、自學習及并行處理能力。CNN最初是為識別二維圖像形狀而設(shè)計的多層感知器,局部聯(lián)結(jié)和權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),降低神經(jīng)網(wǎng)絡(luò)模型的復雜度,減少權(quán)值數(shù)量,使網(wǎng)絡(luò)對于輸入具備一定的不變性。經(jīng)典的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9-7所示。10十一月2024323深度學習經(jīng)典的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)包括了輸入層、卷積層、池化層、全連接層和輸出層。(1)輸入層(2)卷積層(3)池化層(4)全連接層(5)輸出層10十一月2024333深度學習循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一類以序列數(shù)據(jù)為輸入,在序列的演進方向進行遞歸且所有結(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(luò)(RecursiveNeuralNetwork)。之所以是“循環(huán)”,是因為其中隱含層結(jié)點的輸出不僅取決于當前輸入值,還與上一次的輸入相關(guān),即結(jié)點的輸出可以指向自身,進行循環(huán)遞歸運算,在處理時間序列相關(guān)的場景時效果明顯,在分析語音、視頻、天氣預報、股票走勢預測等方面具有突出優(yōu)勢。10十一月2024343深度學習生成對抗網(wǎng)絡(luò)生成式對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)是一種深度學習模型,是近年來復雜分布上無監(jiān)督學習最具前景的方法之一。它解決的問題是從現(xiàn)有樣本中學習并創(chuàng)建出新的樣本,按照人類對事物的學習過程,逐漸總結(jié)規(guī)律,而并非使用大量數(shù)據(jù)訓練,所以在新的任務(wù)處理中,只需要少量的標記樣本就可以訓練出高效的分類器。GAN網(wǎng)絡(luò)模型通過生成模型(GenerativeModel)和判別模型(DiscriminativeModel)的互相博弈學習產(chǎn)生相當好的輸出。10十一月202435本章小結(jié)神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡單單元組成的廣泛并行互連的網(wǎng)絡(luò),它的組織能模擬生物神經(jīng)系統(tǒng)會真實世界物體所作出的交互反應(yīng)

。在機器學習中談?wù)撋窠?jīng)網(wǎng)絡(luò)時一般指的是“神經(jīng)網(wǎng)絡(luò)學習”。感知機感知器的概念類似于大腦基本處理單元神經(jīng)元的工作原理。感知器具有許多輸入(通常稱為特征),這些輸入被饋送到產(chǎn)生一個二元輸出的線性單元中。因此,感知器可用于解決二元分類問題,其中樣本將被識別為屬于預定義的兩個類之一。BP算法基于梯度下降策略,以目標的負梯度方向?qū)W(wǎng)絡(luò)參數(shù)進行調(diào)整?,F(xiàn)實任務(wù)中使用神經(jīng)網(wǎng)絡(luò)時,大多是使用BP算法進行訓練。BP算法不僅可以用于多層前饋神經(jīng)網(wǎng)絡(luò),還可以用于其他類型的神經(jīng)網(wǎng)絡(luò)。通常所說的BP網(wǎng)絡(luò)指利用BP算法訓練的多層前饋神經(jīng)網(wǎng)絡(luò)。10十一月202436深度學習的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,含多個隱藏層的多層感知器就是一種深度學習結(jié)構(gòu)。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。研究深度學習的動機在于建立模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本等。卷積神經(jīng)網(wǎng)絡(luò)是針對二維數(shù)據(jù)設(shè)計的一種模擬“局部感受野”的局部連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它引入卷積運算實現(xiàn)局部連接和權(quán)值共享的特征提取,引入池化操作實現(xiàn)低功耗計算和高級特征提取。網(wǎng)絡(luò)構(gòu)造通過多次卷積和池化過程形成深度網(wǎng)絡(luò),網(wǎng)絡(luò)的訓練含有“權(quán)共享”和“稀疏”的特點,學習過程類似于BP算法。10十一月202437本章小結(jié)Python數(shù)據(jù)挖掘與機器學習第10章離群點檢測第10章離群點檢測本章內(nèi)容離群點概述離群點檢測sklearn中的異常值檢測方法10十一月2024391離群點概述40數(shù)據(jù)庫中的數(shù)據(jù)由于各種原因常常會包含一些異常記錄,對這些異常記錄的檢測和解釋有很重要的意義。異常檢測目前在入侵檢測、工業(yè)損毀檢測、金融欺詐、股票分析、醫(yī)療處理等領(lǐng)域都有著比較好的實際應(yīng)用效果。異常檢測的實質(zhì)是尋找觀測值和參照值之間有意義的偏差。離群點檢測是異常檢測中最常用的方法之一,是為了檢測出那些與正常數(shù)據(jù)行為或特征屬性差別較大的異常數(shù)據(jù)或行為。1離群點概述41離群點的概念離群點(Outlier)是指顯著偏離一般水平的觀測對象。離群點檢測(或稱異常檢測)是找出不同于預期對象行為的過程。離群點的本質(zhì)仍然是數(shù)據(jù)對象,但它與其他對象又顯著差異,又被稱為異常值。1離群點概述42離群點不同于噪聲數(shù)據(jù)。噪聲是指被觀測數(shù)據(jù)的隨機誤差或方差,觀測值是真實數(shù)據(jù)與噪聲的混合。而離群點屬于觀測值,既可能是真實數(shù)據(jù)產(chǎn)生,也有可能由噪聲帶來。離群點的產(chǎn)生主要有以下原因:1.第一類離群值是總體固有變異性的極端表現(xiàn),這類離群值與樣本中其余觀測值屬于同一總體。2.第二類離群值是由于試驗條件和試驗方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測、記錄、計算中的失誤,這類離群值與樣本中其余觀測值不屬于同一總體。1離群點概述43離群點的類型:全局離群點、條件離群點和集體離群點。1.全局離群點當一個數(shù)據(jù)對象明顯地偏離了數(shù)據(jù)集中絕大多數(shù)對象時,該數(shù)據(jù)對象就是全局離群點(GlobalOutlier)。全局離群點有時也稱為點異常,是最簡單的一類離群點。如圖10-1中區(qū)域R中的點,它們顯著偏離數(shù)據(jù)集的絕大多數(shù)的數(shù)據(jù)對象,因此屬于全局離群點。1離群點概述44離群點的類型:全局離群點、條件離群點和集體離群點。2.條件離群點與全局離群點不同,當且僅當在某種特定情境下,一個數(shù)據(jù)對象顯著地偏離數(shù)據(jù)集中的其他對象時,該數(shù)據(jù)對象被稱為條件離群點(ContextualOutlier)。一般地,在情境離群點檢測中所考慮對象的屬性劃分為條件屬性和行為屬性。條件屬性是指數(shù)據(jù)對象的定義中定義情境的屬性。行為屬性指數(shù)據(jù)對象中定義對象特征的屬性。1離群點概述45離群點的類型:全局離群點、條件離群點和集體離群點。3.集體離群點當數(shù)據(jù)集中的一些數(shù)據(jù)對象顯著地偏離整個數(shù)據(jù)集時,該集合形成集體離群點(CollectionOutlier)。不同于全局或條件離群點,在集體離群點檢測中,除了考慮個體對象的行為,還要考慮集體的行為。1離群點概述46離群點檢測的挑戰(zhàn):1.正常對象和離群點的有效建模2.針對應(yīng)用的離群點檢測3.在離群點檢測中處理噪聲4.可理解性2離群點的檢測離群點的檢測方法很多,每種方法在檢測時都會對正常數(shù)據(jù)對象或離群點作出假設(shè),從所做假設(shè)的角度,離群點檢測方法可以分為基于統(tǒng)計學的離群點檢測、基于近鄰的離群點檢測、基于聚類以及基于分類的離群點檢測。10十一月2024472離群點的檢測基于統(tǒng)計學的離群點檢測在基于統(tǒng)計學的離群點檢測方法中,假設(shè)數(shù)據(jù)集中的正常數(shù)據(jù)對象由一個統(tǒng)計模型產(chǎn)生,如果某數(shù)據(jù)不符合該統(tǒng)計模型,則該數(shù)據(jù)對象是離群點。在基于統(tǒng)計的離群點檢測過程中,一般先設(shè)定數(shù)據(jù)集的分布模型,如正態(tài)分布、泊松分布和二項式分布等,然后根據(jù)模型進行不和諧檢驗以發(fā)現(xiàn)離群點。不和諧檢驗中需要樣本空間數(shù)據(jù)集的參數(shù)知識、分布的參數(shù)知識以及期望的離群點數(shù)目。10十一月2024482離群點的檢測基于統(tǒng)計學的離群點檢測【例10-1】假設(shè)某類數(shù)據(jù)總體服從正態(tài)分布,現(xiàn)有部分數(shù)據(jù){6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12},基于統(tǒng)計方法檢測離群點。10十一月2024492離群點的檢測2基于鄰近性的離群點檢測給定特征空間中的數(shù)據(jù)對象集,可以使用距離度量對象之間的相似性。直觀地,遠離其他大多數(shù)對象的數(shù)據(jù)對象被視為離群點?;卩徑缘姆椒俣x群點對象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對象與其近鄰之間的鄰近性?;卩徑偷碾x群點檢測方法有基于距離的和基于密度的方法。10十一月2024502離群點的檢測

基于鄰近性的離群點檢測(1)

基于距離的離群點檢測方法在基于距離的離群點檢測方法中,離群點就是遠離大部分對象的點,即與數(shù)據(jù)集中的大多數(shù)對象的距離都大于某個給定閾值的點?;诰嚯x的檢測方法考慮的是對象給定半徑的鄰域。如果在某個對象的鄰域內(nèi)沒有足夠的其他的點,則稱此對象為離群點?;诰嚯x的離群點方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。10十一月2024512離群點的檢測

基于鄰近性的離群點檢測(1)

基于距離的離群點檢測方法基于距離的離群點方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。下面簡要介紹嵌套-循環(huán)算法。10十一月2024522離群點的檢測

基于鄰近性的離群點檢測(2)

基于密度的離群點檢測方法基于密度的離群點檢測方法考慮的是對象與它近鄰的密度。如果一個對象的密度相對于它的近鄰低得多,則被視為離群點。最有代表性的基于密度的離群點檢測方法是基于局部離群點離群因子的離群點檢測方法。局部離群因子(LocalOutlierFactor,LOF)會給數(shù)據(jù)集中的每個點計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。10十一月2024532離群點的檢測

基于鄰近性的離群點檢測(2)

基于密度的離群點檢測方法局部離群因子(LocalOutlierFactor,LOF)會給數(shù)據(jù)集中的每個點計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠大于1,則認為是離群因子,接近于1,則是正常點。對于任何給定的數(shù)據(jù)點,局部離群因子算法計算的離群度等于數(shù)據(jù)點p的k近鄰集合的平均局部數(shù)據(jù)密度與數(shù)據(jù)點自身局部數(shù)據(jù)密度的比值。10十一月2024542離群點的檢測3基于聚類的離群點檢測離群點與簇的概念高度相關(guān),因此,可以通過考察對象與簇之間的關(guān)系檢測離群點。直觀地,離群點是一個屬于小的偏遠簇或者不屬于任何簇的數(shù)據(jù)對象?;诰垲惖碾x群點檢測方法分為兩個階段,首先對數(shù)據(jù)進行聚類,然后計算對象或簇的離群因子,將離群因子大的對象或稀疏簇中的對象判定為離群點。對于基于原型的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論