電子商務-愛情片or動作片knn算法_第1頁
電子商務-愛情片or動作片knn算法_第2頁
電子商務-愛情片or動作片knn算法_第3頁
電子商務-愛情片or動作片knn算法_第4頁
電子商務-愛情片or動作片knn算法_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

內(nèi)容提要問題提出:愛情片or動作片KNN算法問題求解:愛情片or動作片總結(jié)與練習問題提出:愛情片or動作片問題提出愛情片vs

動作片問題提出:愛情片or動作片問題提出景愛情片動作片問題提出:愛情片or動作片問題提出鏡頭次數(shù)vs

打斗場景次數(shù)名稱打斗次數(shù)次數(shù)類型California

Man3104RomanceHe’s

Not

Really

into

Dudes2100RomanceBeautiful

Woman181RomanceKevin

Longblade10110ActionRobo

Slayer

3000995ActionAmped

II982Action?1890Unknown問題提出:愛情片or動作片200問題提出鏡頭次數(shù)vs

打斗場景次數(shù)1200204060打斗場景次數(shù)80100120KNN(K最近鄰)算法KNN算法KNN(K-Nearest

Neighbor,K最近鄰)算法基于實例的學習方法數(shù)據(jù)挖掘十大經(jīng)典算法之一著名的模式識別統(tǒng)計學方法之一最好的文本分類算法之一KNN算法KNN算法基本思想如果一個實例在特征空間

中的K個最相似(即特征空間中最近鄰)的實例中的

大多數(shù)屬于某一個類別,

則該實例也屬于這個類別。所選擇的鄰居都是已經(jīng)正

確分類的實例。少數(shù)服從多數(shù)KNN算法KNN算法基本思想算法分析:算法原理:設有N個樣本分布到c個類為1,…,i,…c,每類有Ni個樣本,i=1…c。在全部樣本中找出k個最近距離的近鄰,k個近鄰分布于c個類中的數(shù)目用ki表示。k近鄰的判別函數(shù)為:gi

(x)

ki

,KNN算法KNN算法基本思想算法分析:決策規(guī)則:如果g

j

(x)

a為x

j,那么決策如右圖示例中:k1=4,k2=0,k3=1,所以j=1,。ix

1KNN算法KNN算法主要因素實例集實例x表示為特征向量<a1(x),a2(x),...,an(x)>其中ar(x)表示實例x的第r個屬性值。例如:人<

,身高,體重><30,

175,

140>,黃藥師<78,

170,

120>KNN算法KNN算法主要因素距離或相似的衡量(Euclidean)距離【歐式距離】計算曼哈頓(Manhattan)距離、切比(Chebyshev)距離、明

(Minkowsky)距離等KNN算法KNN算法主要因素K的大小K太?。悍诸惤Y(jié)果易受噪聲點影響K太大:近鄰中又可能包含太多的其他類別的點K值可采用交叉檢驗來確定經(jīng)驗規(guī)則:K一般低于訓練樣本數(shù)的平方根KNN算法KNN算法描述計算出樣本數(shù)據(jù)和待分類數(shù)據(jù)的距離為待分類數(shù)據(jù)選擇K個與其距離最小的樣本統(tǒng)計出K個樣本中大多數(shù)樣本所屬的分類判別:確定待分類數(shù)據(jù)所屬的分類KNN算法KNN算法實現(xiàn):偽代碼1

搜索k近鄰的算法:kNN(A[n],k)23

#輸入:A[n]為N個訓練樣本在空間中的坐標,k為近鄰數(shù)4

#輸出:x所屬的類別56

取A[1]~A[k]作為x的初始近鄰,計算與測試樣本x間的歐式距離d(x,A[i]),i=1,2,.....,k;7

按d(x,

A[i])升序排序8

取最遠樣本距離D=max{d(x,a[j])

|

j=1,2,...,k}910

for(i=k+1;i<=n;i++)#繼續(xù)計算剩下的n-k個數(shù)據(jù)的歐氏距離111213計算A[i]與x間的距離d(x,A[i])if(d(x,A[i]))<Dthen

用A[i]代替最遠樣本#將后面計算的數(shù)據(jù)直接進行即可14最后的K個數(shù)據(jù)是有大小順序的,再進行K個樣本的統(tǒng)計即可計算前k個樣本A[i](i=1,2,..,k)所屬類別的概率具有最大概率的類別即為樣本x的類問題求解:愛情片or動作片問題求解距離計算(歐式距離)2ba11

bK值選取按照經(jīng)驗規(guī)則選取K值k

6

2問題求解:愛情片or動作片問題求解計算結(jié)果名稱類別與未知

的距離California

ManRomance20.5He’s

Not

Really

into

DudesRomance18.7Beautiful

WomanRomance19.2Kevin

LongbladeAction115.3Robo

Slayer

3000Action117.4Amped

IIAction118.9問題求解:愛情片or動作片問題求解分類決策(判別)K=2No1:

18.7

--

He’s

Not

Really

into

Dudes

RomanceNo2:

19.2

--

Beautiful

Woman

--

Romance名稱打斗次數(shù)次數(shù)類型?1890Romance總結(jié)與練習總結(jié)優(yōu)點:易于理解,易于實現(xiàn),無需訓練精度高,對個別異常值不敏感缺點:計算量較大,空間開銷較大總結(jié)與練習擴展學習利用KNN算法改進的配對效果(MachineLearning

in

Action《機器學習實戰(zhàn)》)-總結(jié)與練習練習編程實現(xiàn)KNN算法,處理品質(zhì)數(shù)據(jù)。

的品

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論