版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)理論與技術(shù)讀書報(bào)告 -K最近鄰分類算法指導(dǎo)老師 : 陳 莉 學(xué)生姓名 : 李陽帆 學(xué) 號 : 201531467 專 業(yè) : 計(jì)算機(jī)技術(shù) 日 期 : 2016年8月31日 摘 要 數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)廣泛研究的知識領(lǐng)域,是將人工智能技術(shù)和數(shù)據(jù)庫技術(shù)緊密結(jié)合,讓計(jì)算機(jī)幫助人們從龐大的數(shù)據(jù)中智能地、自動地提取出有價值的知識模式,以滿足人們不同應(yīng)用的需要。K 近鄰算法(KNN)是基于統(tǒng)計(jì)的分類方法,是大數(shù)據(jù)理論與分析的分類算法中比較常用的一種方法。該算法具有直觀、無需先驗(yàn)統(tǒng)計(jì)知識、無師學(xué)習(xí)等特點(diǎn),目前已經(jīng)成為數(shù)據(jù)挖掘技術(shù)的理論和應(yīng)用研究方法之一。本文主要研究了 K 近鄰分類算法,首先簡要地
2、介紹了數(shù)據(jù)挖掘中的各種分類算法,詳細(xì)地闡述了K 近鄰算法的基本原理和應(yīng)用領(lǐng)域,最后在matlab環(huán)境里仿真實(shí)現(xiàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行分析,提出了改進(jìn)的方法。 關(guān)鍵詞:K 近鄰,聚類算法,權(quán)重,復(fù)雜度,準(zhǔn)確度 1.引言12.研究目的與意義13.算法思想24.算法實(shí)現(xiàn)24.1 參數(shù)設(shè)置24.2數(shù)據(jù)集24.3實(shí)驗(yàn)步驟34.4實(shí)驗(yàn)結(jié)果與分析35.總結(jié)與反思4附件161.引言隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,人工智能領(lǐng)域的一個分支機(jī)器學(xué)習(xí)的研究自 20 世紀(jì) 50 年代開始以來也取得了很大進(jìn)展。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Kn
3、owledge Discovery in Databases,簡記 KDD)的產(chǎn)生,也稱作數(shù)據(jù)挖掘(Data Ming,簡記 DM)。 數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果。信息技術(shù)的發(fā)展大致可以描述為如下的過程:初期的是簡單的數(shù)據(jù)收集和數(shù)據(jù)庫的構(gòu)造;后來發(fā)展到對數(shù)據(jù)的管理,包括:數(shù)據(jù)存儲、檢索以及數(shù)據(jù)庫事務(wù)處理;再后來發(fā)展到對數(shù)據(jù)的分析和理解,這時候出現(xiàn)了數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是涉及數(shù)據(jù)庫和人工智能等學(xué)科的一門當(dāng)前相當(dāng)活躍的研究領(lǐng)域。 數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)廣泛研究的知識領(lǐng)域,是將人工智能技術(shù)和數(shù)據(jù)庫技術(shù)緊密結(jié)合,讓計(jì)算機(jī)幫助人們從龐大的數(shù)據(jù)中智能地、自動地抽取出有價值的知識模式
4、,以滿足人們不同應(yīng)用的需要1。目前,數(shù)據(jù)挖掘已經(jīng)成為一個具有迫切實(shí)現(xiàn)需要的很有前途的熱點(diǎn)研究課題。2.研究目的與意義近鄰方法是在一組歷史數(shù)據(jù)記錄中尋找一個或者若干個與當(dāng)前記錄最相似的歷史紀(jì)錄的已知特征值來預(yù)測當(dāng)前記錄的未知或遺失特征值14。近鄰方法是數(shù)據(jù)挖掘分類算法中比較常用的一種方法。K 近鄰算法(簡稱 KNN)是基于統(tǒng)計(jì)的分類方法15。KNN 分類算法根據(jù)待識樣本在特征空間中 K 個最近鄰樣本中的多數(shù)樣本的類別來進(jìn)行分類,因此具有直觀、無需先驗(yàn)統(tǒng)計(jì)知識、無師學(xué)習(xí)等特點(diǎn),從而成為非參數(shù)分類的一種重要方法。 大多數(shù)分類方法是基于向量空間模型的。當(dāng)前在分類方法中,對任意兩個向量:x=和存在 3
5、種最通用的距離度量:歐氏距離、余弦距離16和內(nèi)積17。有兩種常用的分類策略:一種是計(jì)算待分類向量到所有訓(xùn)練集中的向量間的距離:如 K 近鄰選擇K個距離最小的向量然后進(jìn)行綜合,以決定其類別。另一種是用訓(xùn)練集中的向量構(gòu)成類別向量,僅計(jì)算待分類向量到所有類別向量的距離,選擇一個距離最小的類別向量決定類別的歸屬。很明顯,距離計(jì)算在分類中起關(guān)鍵作用。由于以上 3 種距離度量不涉及向量的特征之間的關(guān)系,這使得距離的計(jì)算不精確,從而影響分類的效果。3.算法思想K最近鄰(K-Nearest Neighbor,KNN)算法,是著名的模式識別統(tǒng)計(jì)學(xué)方法,在機(jī)器學(xué)習(xí)分類算法中占有相當(dāng)大的地位。它是一個理論上比較成熟
6、的方法。既是最簡單的機(jī)器學(xué)習(xí)算法之一,也是基于實(shí)例的學(xué)習(xí)方法中最基本的,又是最好的文本分類算法之一。其基本思想是:假設(shè)每一個類包含多個樣本數(shù)據(jù),而且每個數(shù)據(jù)都有一個唯一的類標(biāo)記表示這些樣本是屬于哪一個分類, KNN就是計(jì)算每個樣本數(shù)據(jù)到待分類數(shù)據(jù)的距離,如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。K-最臨近分類方法存放所有的訓(xùn)練樣本,在接受待分類的新樣本之前不需構(gòu)造模型,并且直到新的(未標(biāo)記的)樣本需要分類時才建立分類。K-最臨近分類基于類比學(xué)習(xí)
7、,其訓(xùn)練樣本由N維數(shù)值屬性描述,每個樣本代表N維空間的一個點(diǎn)。這樣,所有訓(xùn)練樣本都存放在N維模式空間中。給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的K個訓(xùn)練樣本。這K個訓(xùn)練樣本是未知樣本的K個“近鄰”?!芭R近性”又稱為相異度(Dissimilarity),由歐幾里德距離定義,其中兩個點(diǎn) X(x1,x2,xn)和Y(y1,y2,yn)的歐幾里德距離是:未知樣本被分配到K個最臨近者中最公共的類。在最簡單的情況下,也就是當(dāng)K=1時,未知樣本被指定到模式空間中與之最臨近的訓(xùn)練樣本的類。4.算法實(shí)現(xiàn)4.1 參數(shù)設(shè)置K值的設(shè)定K值設(shè)置過小會降低分類精度;若設(shè)置過大,且測試樣本屬于訓(xùn)
8、練集中包含數(shù)據(jù)較少的類,則會增加噪聲,降低分類效果。通常,K值的設(shè)定采用交叉檢驗(yàn)的方式(以K=1為基準(zhǔn)),通過查找相關(guān)資料,K一般低于訓(xùn)練樣本數(shù)的平方根,本實(shí)驗(yàn)中的訓(xùn)練樣本數(shù)為100個,因此選取k=7。4.2數(shù)據(jù)集本文的實(shí)驗(yàn)數(shù)據(jù)采用軟木塞的數(shù)據(jù)集,軟木塞的樣本可分為三類,分別用1,2,3代表,共150個樣本,我們選取其中的100個樣本為訓(xùn)練集,其余的50個樣本為測試集。每個樣本均包含10維特征,由于用10維特征計(jì)算量太大,本實(shí)驗(yàn)的目的主要是明白K-最近鄰算法的思想,重點(diǎn)不在計(jì)算,因此我們選取其中的兩個屬性作為本實(shí)驗(yàn)的數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)的部分截圖如圖1所示。圖1.部分實(shí)驗(yàn)數(shù)據(jù) 4.3實(shí)驗(yàn)步驟第一步,
9、初始化距離為最大值。第二步,計(jì)算未知樣本和每個訓(xùn)練樣本的距離dist。第三步,得到目前K個最臨近樣本中的最大距離maxdist。第四步,如果dist小于maxdist,則將該訓(xùn)練樣本作為K-最近鄰樣本。第五步,重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的距離都算完。第六步,統(tǒng)計(jì)K-最近鄰樣本中每個類標(biāo)號出現(xiàn)的次數(shù)。第七步,選擇出現(xiàn)頻率最大的類標(biāo)號作為未知樣本的類標(biāo)號。4.4實(shí)驗(yàn)結(jié)果與分析按照上述實(shí)驗(yàn)步驟,在matlab中仿真實(shí)現(xiàn)k-近鄰分類算法的結(jié)果如下圖2所示,圖中的第一列數(shù)據(jù)表示樣本編號,第二列和第三列表示軟如塞數(shù)據(jù)的兩位特征的值,第三列的數(shù)字表示本實(shí)驗(yàn)的分類結(jié)果圖,第四列表示樣本實(shí)際
10、所屬類別。圖3中列出了詳細(xì)錯誤信息。第一行和第一列表示樣本類別,第i行第j列的元素表示第i類樣本被分為第j類樣本的個數(shù)(2i,j4),第五列表示每類樣本分類錯誤總數(shù),第六列表示錯誤率。由圖中數(shù)據(jù)易得,本實(shí)驗(yàn)的平均正確率為86.7%。 圖2.7-最近鄰分類結(jié)果圖圖3.錯誤統(tǒng)計(jì)圖KNN方法雖然從原理上也依賴于極限定理,但在類別決策時,只與極少量的相鄰樣本有關(guān)。因此,采用這種方法可以較好地避免樣本的不平衡問題。另外,由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。 該方法的不足之處是計(jì)算量較
11、大,因?yàn)閷γ恳粋€待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個最近鄰點(diǎn)。目前常用的解決方法是事先對已知樣本點(diǎn)進(jìn)行剪輯,事先去除對分類作用不大的樣本。該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。5.總結(jié)與反思模式分類在現(xiàn)實(shí)領(lǐng)域有著非常廣泛的應(yīng)用。K近鄰算法是模式分類算法中一類常用的算法。本文針對傳統(tǒng)的 KNN 算法的不足之處,提出了兩點(diǎn)改進(jìn)措施。 1.針對 KNN 算法的計(jì)算量大、速度慢的缺點(diǎn),對訓(xùn)練數(shù)據(jù)采用了預(yù)處理的方法。首先采用某一聚類方法對訓(xùn)練數(shù)據(jù)進(jìn)行分類,然后再與K近鄰方法相結(jié)合來判斷待測樣本的類別?,F(xiàn)有的方法都是經(jīng)
12、過聚類之后確定類別,按一定的規(guī)則挑選出來具有代表性的數(shù)據(jù)。然后再將這些挑選出來的數(shù)據(jù)作為訓(xùn)練樣本。但這類方法能去除的數(shù)據(jù)非常有限,因此對計(jì)算量大的改進(jìn)不大,而本文提出的新的算法:在聚類之后,首先計(jì)算出來各個類別的中心,然后只需要考慮待測樣本和聚類中心的距離就可以。然后再根據(jù)最終得到的距離的大小判斷該點(diǎn)所屬的類別。通過實(shí)例驗(yàn)證表明,該方法在算法的時間復(fù)雜度方面有一定的改進(jìn)。 2.關(guān)于準(zhǔn)確度的問題,我們主要是舍棄了原來常用的歐式距離的計(jì)算公式,主要考慮了屬性對分類的影響,在歐式距離的計(jì)算中引入了權(quán)值。盡管權(quán)值的確定在一定程度上增加了計(jì)算時間的代價,但是從改進(jìn)分類準(zhǔn)確率上來說仍然是必要的,尤其是在數(shù)
13、據(jù)中無關(guān)屬性比較多,傳統(tǒng)的分類算法誤差較大的情況下學(xué)習(xí)特征權(quán)值尤其適用。權(quán)值的確定也已經(jīng)有了不少的方法,如可以通過神經(jīng)網(wǎng)絡(luò)來確定權(quán)值等。本文從訓(xùn)練樣本出發(fā),逐一統(tǒng)計(jì)計(jì)算每一個屬性對分類結(jié)果的影響,根據(jù)影響的大小來確定權(quán)值。通過實(shí)例驗(yàn)證,可知這種方法得到的權(quán)值和其他常用的方法相比,在分類準(zhǔn)確度方面有一定的提高。 參考文獻(xiàn)1鄧箴,包宏.用模擬退火改進(jìn)的 KNN 分類算法J計(jì)算機(jī)與應(yīng)用化學(xué),2010,27(3):3033072郭躬德,黃杰,陳黎飛.基于 KNN 模型的增量學(xué)習(xí)算法J模式識別與人工智能,2010,23( 5):7017073黃杰,郭躬德,陳黎飛.增量 KNN 模型的修剪策略研究J小型微
14、型計(jì)算機(jī)系統(tǒng),2011,5(5):8458494李歡,焦建民簡化的粒子群優(yōu)化快速 KNN 分類算法J計(jì)算機(jī)工程與應(yīng)用,2008,44( 32): 57595王曉曄,王正歐K最近鄰分類技術(shù)的改進(jìn)算法J電子與信息學(xué)報(bào),2005,27(3):4874916Guo Gongde,Wang Hui,Bell D,et al Using KNN model for automatic text categorizationJ.Soft Computing-A Fusion of Foundation, Methodologies and Application,2006,10(5):4234307余小鵬,
15、周德翼一種自適應(yīng)k最近鄰算法的研究J計(jì)算機(jī)應(yīng)用研究,2006(2): 7072附件1:源代碼 KNN.m% KNN.m K-最近鄰分類算法%A=xlsread('E:上課機(jī)器學(xué)習(xí)模式識別課件數(shù)據(jù)CORK_STOPPERS.xls',2);f=zeros(150,5);f(:,1:2)=A(1:150,3:4);f1=A(1:50,3:4);f2=A(51:100,3:4);f3=A(101:150,3:4); cls=zeros(150,10);for i=1:150 for j=1:150 cls(i,j)=norm(f(i,1:2)-f(j,1:2); endend %對計(jì)
16、算出的每個樣本和其他150個樣本(包括自己)的距離排序,選K=10array=zeros(300,11);for ii=1:150 value,index=sort(cls(ii,:); array(2*ii-1,:)=value(1:11); array(2*ii,:)=index(1:11);end %對每個樣本分類for ii=1:150 a11=length(find(array(2*ii,:)<50); a12=length(find(array(2*ii,:)>50&array(2*ii,:)<100); a13=length(find(array(2*ii,:)>100&array(2*ii,:)<150); if(max(max(a11,a12),a13)=a11) f(ii,3)=1; else if(max(max(a11,a12),a13)=a12) f(ii,3)=2; else f(ii,3)=3; end end end %錯誤計(jì)算error=zeros(3,5);for i=1:50 if(f(i,3)=2) error(1,2)=error(1,2)+1; end if(f(i,3)=3) error(1,3)=error(1,3)+1; end if(f(50+i,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東水利電力職業(yè)技術(shù)學(xué)院《微波技術(shù)與天線》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東生態(tài)工程職業(yè)學(xué)院《教育活動設(shè)計(jì)與應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東青年職業(yè)學(xué)院《設(shè)計(jì)制造綜合實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東女子職業(yè)技術(shù)學(xué)院《功能高分子材料概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東南華工商職業(yè)學(xué)院《基礎(chǔ)俄語四外方》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東梅州職業(yè)技術(shù)學(xué)院《第二外語日語(二)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東嶺南職業(yè)技術(shù)學(xué)院《藥品生產(chǎn)質(zhì)里管理工程》2023-2024學(xué)年第一學(xué)期期末試卷
- 大學(xué)信息技術(shù)基礎(chǔ)福建農(nóng)林大學(xué)學(xué)習(xí)通測試及答案
- 幼兒園中班心理健康教育工作總結(jié)
- 《結(jié)直腸癌早篩早治》課件
- 2024時事政治考試100題及參考答案
- 醫(yī)療廢物轉(zhuǎn)移實(shí)施方案
- (賽斯資料)健康之道(全本)
- 工程師個人年終總結(jié)
- 汽車常識課件教學(xué)課件
- 【學(xué)易金卷】2023-2024學(xué)年四年級數(shù)學(xué)上冊期末全真模擬提高卷(三)(A4版)(北師大版)
- GB 17353-2024摩托車和輕便摩托車防盜裝置
- 學(xué)校膳食管理委員會工作制度和職責(zé)
- 房租收條格式(3篇)
- 期末試卷(試題)2024-2025學(xué)年培智生活語文二年級上冊
- 2024秋期國家開放大學(xué)本科《中國當(dāng)代文學(xué)專題》一平臺在線形考(形考任務(wù)一至六)試題及答案
評論
0/150
提交評論