離群點檢測(基于距離)實驗報告

上傳人：q*** IP屬地：湖北上傳時間：2022-07-01 格式：DOCX 頁數(shù)：16 大?。?03.49KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、題目離群點檢測(基于距離)學(xué)生姓名學(xué)生學(xué)號專業(yè)班級指導(dǎo)教師2015-1-17實驗四離群點檢測(基于距離)此實驗是在實驗三的基礎(chǔ)上，修改完成。實驗算法與上次相同，但增加了離群點檢測。離群點檢測方法為：在聚類完成之后，計算簇中的點到各自簇心的距離。當簇中的一點到簇心的距離大于該簇的平均距離與1.5倍標準差的和時，則認為該點為離群點，即閥值平均距離與1.5倍標準差的和。一、實驗?zāi)康?. 深刻理解離群點，了解離群點檢測的一般方法；2. 掌握基于距離的離群點檢測算法；3. 鍛煉分析問題、解決問題的思維，提高動手實踐的能力。二、背景知識異常對象被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。常見的異

2、常成因：數(shù)據(jù)來源于不同的類（異常對象來自于一個與大多數(shù)數(shù)據(jù)對象源（類）不同的源（類）的思想），自然變異，以及數(shù)據(jù)測量或收集誤差。異常檢測的方法：（1）基于模型的技術(shù)：首先建立一個數(shù)據(jù)模型，異常是那些同模型不能完美擬合的對象；如果模型是簇的集合，則異常是不顯著屬于任何簇的對象；在使用回歸模型時，異常是相對遠離預(yù)測值的對象；（2）基于鄰近度的技術(shù)：通?？梢栽趯ο笾g定義鄰近性度量，異常對象是那些遠離其他對象的對象；（3）基于密度的技術(shù)：僅當一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。三、實驗要求改寫一種簡單的半監(jiān)督方法，用于離群點檢測。使用一種你熟悉的程序設(shè)計語言，如C+或Jav

3、a，實現(xiàn)該方法，并在兩種不同的數(shù)據(jù)集上進行討論（1）只有一些被標記的正常對象；（2）只有一些被標記的離群點實例。四、實驗環(huán)境Win7 旗艦版 + Visual Studio 2012語言：C+五、算法描述K-means算法是很典型的基于距離的聚類算法，采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。該算法認為簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。1、算法思路K-means算法先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離，把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類

4、。一旦全部對象都被分配了，每個聚類的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。終止條件可以是以下任何一個：1)沒有（或最小數(shù)目）對象被重新分配給不同的聚類。2)沒有（或最小數(shù)目）聚類中心再發(fā)生變化。3)誤差平方和局部最小。2、算法步驟a. 從數(shù)據(jù)集中隨機挑K個數(shù)據(jù)當簇心； b. 對數(shù)據(jù)中的所有點求到這K個簇心的距離，假如點Pi離簇心Si最近，那么Pi屬于Si對應(yīng)的簇；c. 根據(jù)每個簇的數(shù)據(jù)，更新簇心，使得簇心位于簇的中心；d. 重復(fù)步驟e和步驟f，直到簇心不再移動（或其他條件，如前后兩次距離和不超過特定值），繼續(xù)下一步；e. 計算每個簇的正常半徑，即閥

5、值（此程序閥值為每個簇的平均距離與1.5倍標準差之和）；f. 從每個簇中，找出大于閥值的點，即離群點。六、數(shù)據(jù)結(jié)構(gòu)Node類，定義了二維空間中的一個點，pos_x,pos_y三成員變量分別為x，y，軸的值，且為double型。Node類作為基本數(shù)據(jù)結(jié)構(gòu)，使用在KMean類里。KMean類封裝了一系列成員變量和函數(shù)，實現(xiàn)了KMean算法。具體成員變量和函數(shù)詳細說明如下：class KMeanprivate:int cluster_num;/生成的簇的數(shù)量。vector<Node> mean_nodes;/均值點vector<Node> data;/所有的數(shù)據(jù)點vecto

6、r<Node>* clusters;/簇,key為簇的下標，value為該簇中所有點int count;/記錄迭代次數(shù)vector<Node>* cutData;double* radio;/初始化函數(shù)（首先隨即生成代表點）void Init_Means();/聚類過程，將空間中的點分到不同的簇中void ClusterProcess();/獲取當前結(jié)點的簇下標int getIndexOfCluster(vector<Node> means, Node active);/獲取每個點到各自簇中心的距離和double getSumOfDist(vector<

7、;Node>* clusters, vector<Node> mean_nodes);/生成均值Node getMeans(int cluster_index);/獲取兩個點之間的距離double getDistance(Node active,Node other);public:/構(gòu)造函數(shù)，c_num為簇個數(shù)，node_vector為原始數(shù)據(jù)KMean(int c_num,vector<Node> node_vector);KMean();/找出離群點只要距離大于平均距離+標準差，則視為離群點void cut();/顯示剪枝結(jié)果void showCutRes

8、ult();程序代碼圖注：代碼圖中相關(guān)函數(shù)的說明見KMean類的方法說明。七、程序截圖隨機生成50個數(shù)據(jù)，隨機選取4個簇心，如上圖所示。經(jīng)過聚類，簇1、簇2的中心已改變，算出的閥值、檢測到的離群點如上圖所示。簇3、簇4聚類后，正常點和離群點如圖所示。八、實驗總結(jié)實驗程序，是在聚類完成之后，基于距離篩選出了離群點。在數(shù)據(jù)挖掘過程中，將離群點數(shù)據(jù)丟棄，更有利于分析獲取有用的數(shù)據(jù)。從實驗結(jié)果看，部分離群點的距離遠大于正常距離，丟棄這些數(shù)據(jù)，避免無效數(shù)據(jù)干擾，顯得非常有意義。九、附件1. 程序源碼main.cpp主程序入口#include <iostream>#include <

9、;vector>#include "k-mean.h"#include <ctime>using namespace std;/輸入數(shù)據(jù)void input(vector<Node>& vecData,int num);int main()srand(int) time(0);vector<Node> data;int num,k;cout << "請依次輸入數(shù)據(jù)量、聚類個數(shù)(數(shù)據(jù)隨機產(chǎn)生)n"cin >> num >> k;input(data,num);KMean

10、kmean(k,data);kmean.cut();kmean.showCutResult();system("pause");return 0;void input(vector<Node>& vecData,int num)for(int i =0;i<num;i+)Node node;node.pos_x = (rand() % 5000 );node.pos_y = (rand() % 5000 );vecData.push_back(node);k-mean.hkmean類和Node類聲明/k-mean.h#pragma once#inc

11、lude <vector>using namespace std;/空間點的定義class Nodepublic:double pos_x;double pos_y;Node()pos_x = 0.0;pos_y = 0.0;friend bool operator < (const Node& first,const Node& second)/對x軸的比較if(first.pos_x < second.pos_x)return true;else if (first.pos_x > second.pos_x)return false;/對y軸的

12、比較else if(first.pos_y < second.pos_y)return true;elsereturn false; friend bool operator = (const Node& first,const Node& second)if(first.pos_x = second.pos_x && first.pos_y = second.pos_y)return true;elsereturn false;class KMeanprivate:int cluster_num;/生成的簇的數(shù)量。vector<Node> m

13、ean_nodes;/均值點vector<Node> data;/所有的數(shù)據(jù)點vector<Node>* clusters;/簇,key為簇的下標，value為該簇中所有點int count;/記錄迭代次數(shù)vector<Node>* cutData;double* radio;/初始化函數(shù)（首先隨即生成代表點）void Init_Means();/聚類過程，將空間中的點分到不同的簇中void ClusterProcess();/獲取當前結(jié)點的簇下標int getIndexOfCluster(vector<Node> means, Node act

14、ive);/獲取每個點到各自簇中心的距離和double getSumOfDist(vector<Node>* clusters, vector<Node> mean_nodes);/生成均值Node getMeans(int cluster_index);/獲取兩個點之間的距離double getDistance(Node active,Node other);public:/構(gòu)造函數(shù)，c_num為簇個數(shù)，node_vector為原始數(shù)據(jù)KMean(int c_num,vector<Node> node_vector);KMean();/找出離群點只要距離

15、大于平均距離+標準差，則視為離群點void cut();/顯示剪枝結(jié)果void showCutResult();k-mean.cppkmean類的成員函數(shù)具體定義#include "k-mean.h"#include <vector>#include <ctime>#include <cstdlib>#include <algorithm>#include <cmath>#include <iostream>#include <iomanip>using namespace std;KMea

16、n:KMean(int c_num,vector<Node> node_vector)cluster_num = c_num;data = node_vector;clusters = new vector<Node>cluster_num;cutData = new vector<Node>cluster_num;radio = new doublecluster_num;Init_Means();ClusterProcess();/進行聚類過程KMean:KMean()delete clusters;delete cutData;delete radio

17、;void KMean:Init_Means()/初始化函數(shù)（首先隨即生成代表點）int num = data.size();srand(int)time(0);for(int i =0 ;i<cluster_num;)int pos = rand()%num;bool insert_flag = true;/首先判斷選中的點是否是中心點for(unsigned int j = 0;j< mean_nodes.size();j+)if(mean_nodesj = datapos)insert_flag = false;break;if(insert_flag )mean_nodes

18、.push_back(datapos);i+;cout.setf(ios:fixed);cout << setprecision(1);cout << "隨機產(chǎn)生的數(shù)據(jù)如下：n"for (int i = 0; i < num; i+)cout << "(" << datai.pos_x << ", " << datai.pos_y << ")tt"cout << "n隨機產(chǎn)生的" <<

19、; cluster_num << "個簇中心如下：n"for (int i = 0; i < cluster_num; i+)cout << "(" << mean_nodesi.pos_x << ", " << mean_nodesi.pos_y << ")t"cout << endl << endl;void KMean:ClusterProcess()/聚類過程，將空間中的點分到不同的簇中/下面是聚類過程in

20、t i;double newVar = 3,oldVar = -1; /新舊距離和dofor(i = 0;i < data.size();i+) /找到每個點當前最近的中心點，并放進對應(yīng)的簇int index = getIndexOfCluster(mean_nodes,datai);clustersindex.push_back(datai);for (i = 0; i < cluster_num;i+) /更新每個簇的中心點mean_nodesi = getMeans(i); /獲取簇中心oldVar = newVar;count +;newVar = getSumOfDist

21、(clusters,mean_nodes);if(abs(newVar - oldVar) >= 1)for (int i = 0; i < cluster_num; i+)clustersi.clear();while(abs(newVar - oldVar) >= 1);/當前后兩次距離和相差不大時，則認為達到分類要求double KMean:getDistance(Node active,Node other)return sqrt(pow(active.pos_x-other.pos_x),2) + pow(active.pos_y - other.pos_y),2)

22、;Node KMean:getMeans(int cluster_index)/求出簇中所有點的均值Node tmpNode;int num = clusterscluster_index.size();for( int j = 0;j < num;j+)tmpNode.pos_x += clusterscluster_indexj.pos_x;tmpNode.pos_y += clusterscluster_indexj.pos_y;tmpNode.pos_x = tmpNode.pos_x/num;tmpNode.pos_y = tmpNode.pos_y/num;return tm

23、pNode;int KMean:getIndexOfCluster(vector<Node> means, Node active)/獲取當前結(jié)點的簇下標int num = means.size();int index = 0;double tmpDist,minDist = getDistance(means0,active);for (int i = 0; i < num; i+)tmpDist = getDistance(meansi,active);if (tmpDist < minDist)minDist = tmpDist;index = i;return

24、index;double KMean:getSumOfDist(vector<Node>* clusters, vector<Node> mean_nodes)double sum = 0;int m_size = mean_nodes.size();int c_size;for (int i = 0; i < m_size; i+)c_size = clustersi.size();for (int j = 0; j < c_size; j+)sum += getDistance(mean_nodesi,clustersij);return sum;voi

25、d KMean:cut()double avgDist;for (int i = 0; i < cluster_num; i+)double sum = 0;int c_size = clustersi.size();for (int j = 0; j < c_size; j+) /計算每個簇的平均值sum += getDistance(mean_nodesi,clustersij);avgDist = sum/c_size;/計算每個簇的正常半徑：平均值+標準差sum = 0;for (int j = 0; j < c_size; j+)double d = getDist

26、ance(mean_nodesi,clustersij) - avgDist;sum += pow(d,2);radioi = 1.5*sqrt(sum/c_size) + avgDist;for (int j = 0; j < clustersi.size(); j+)double d = getDistance(mean_nodesi,clustersij);if(d > radioi)vector<Node>:iterator it = clustersi.begin();for (int k = 0; k < j; k+, it+)cutDatai.push_back(*it);clustersi.erase(it);void KMean:showCutResult()cout << "nn*離群檢測結(jié)果*"cout << "n*離群點基于距離進

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

離群點檢測(基于距離)實驗報告

文檔簡介

溫馨提示

最新文檔

評論

離群點檢測(基于距離)實驗報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔