《計算機視覺》課件-第5章圖像分類

上傳人：1*** IP屬地：廣東上傳時間：2025-02-18 格式：PPTX 頁數(shù)：49 大?。?.65MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩44頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第5章圖像分類5目錄5.1K-最近鄰分類5.25.3樸素貝葉斯分類SVM分類5.4分類器預(yù)測結(jié)果評價計算機視覺

計算機視覺

圖像分類：計算機視覺的核心任務(wù)

（假設(shè)給定的離散標(biāo)簽集）{狗，貓，卡車，飛機，…}cat計算機視覺

問題：語義間隔貓的圖像寬度為248像素，高度為400像素，并具有紅綠藍三個顏色通道（通常稱為RGB）。因此，圖像由248×400×3個數(shù)字組成或總共297600個數(shù)字，每個數(shù)字是一個從0（黑色）到255（白色）的整數(shù)。圖像分類的任務(wù)是將這接近30萬個數(shù)字變成一個單一的標(biāo)簽，如“貓（cat）”。計算機視覺

圖像識別的難點挑戰(zhàn)：視角變化挑戰(zhàn)：光照的變化計算機視覺

挑戰(zhàn)：變形挑戰(zhàn)：遮擋計算機視覺

挑戰(zhàn)：背景混亂挑戰(zhàn)：組內(nèi)變異計算機視覺

傳統(tǒng)的圖像分類通過特征描述來完成，比如識別一只貓，就是提取貓的輪廓，尖尖的就是兩個耳朵，長的是尾巴，四肢和毛發(fā)等都有對應(yīng)的特征。但是，如果出現(xiàn)了遮擋，變形，光照等的變化，那么這些識別貓的規(guī)則可能就不起作用了。計算機視覺

為了克服傳統(tǒng)方法在圖像分類問題上的弊端，采用數(shù)據(jù)驅(qū)動的方法可以更好地讓計算機理解圖像的內(nèi)容。用大量貓的圖像訓(xùn)練出一個可以自動分類的函數(shù)，給這個訓(xùn)練好的函數(shù)輸入未知的圖像，然后輸出一個標(biāo)簽（也就是圖像的分類是什么，是貓還是狗）。使用兩個函數(shù)，一個訓(xùn)練函數(shù)，一個預(yù)測函數(shù)。訓(xùn)練函數(shù)接收圖像和圖像所屬的分類（也就是標(biāo)簽），經(jīng)過訓(xùn)練后返回一個模型；預(yù)測函數(shù)接收訓(xùn)練好的模型和待分類的圖像，經(jīng)過運算返回預(yù)測的分類標(biāo)簽。圖像分類流程如下：輸入：輸入是包含N個圖像的集合，每個圖像的標(biāo)簽是K種分類標(biāo)簽中的一種，這個集合稱為訓(xùn)練集。學(xué)習(xí)：這一步的任務(wù)是使用訓(xùn)練集來學(xué)習(xí)每個類的特征是什么，該步驟也稱為訓(xùn)練分類器或者學(xué)習(xí)一個模型。評價：讓分類器來預(yù)測它未曾見過的圖像的分類標(biāo)簽，把分類器預(yù)測的標(biāo)簽和圖像真實的分類標(biāo)簽對比，并以此來評價分類器的質(zhì)量。計算機視覺

5.1K-NN分類法5.1.1最近鄰分類法最鄰近分類思想：將測試圖像和訓(xùn)練集中每一幅圖像做比較，然后將它認為最相似的那個訓(xùn)練集圖像的標(biāo)簽賦給測試圖像。距離越遠，代表圖像之間的相似度越低；距離越近，代表兩幅圖像越相似。我們?nèi)绾伪容^圖像？距離度量是多少？計算機視覺

1.L1距離也是曼哈頓（Manhattan）距離2.L2距離也叫歐式（Euclidean）距離計算出L1距離為456，L2距離為162.11。計算機視覺

5.1.2K最近鄰分類法K-NN分類思想：計算圖像A與訓(xùn)練集中所有圖像之間的距離，取出與該圖像距離最近的k幅圖像，然后統(tǒng)計這k幅圖像中所屬比例最大的分類，則圖像A屬于該分類。通俗地講，如果與圖像A距離最近的幾幅圖像都是狗，那么圖像A的類別標(biāo)簽也是狗。K-NN圖像分類算法流程如下：(1)計算當(dāng)前測試圖像與訓(xùn)練集中所有圖像之間的距離；(2)按照距離遞增次序排序；

(3)選取與當(dāng)前測試圖像距離最近的k幅圖像；

(4)統(tǒng)計前k幅圖的分類，即計算這k幅圖所在類別的出現(xiàn)頻率；

(5)將前k幅圖像中出現(xiàn)頻率最高的類別作為當(dāng)前測試圖像的預(yù)測分類。計算機視覺

示例數(shù)據(jù)集：CIFAR-1010個標(biāo)簽50000張訓(xùn)練圖像，每個圖像都很?。?2x3210000張測試圖像。計算機視覺

將每個測試圖像（第一列），與訓(xùn)練集中每一幅圖像做比較，根據(jù)像素距離計算出最近的10張圖片（行是最近鄰的示例）。統(tǒng)計這10幅圖所在類別的出現(xiàn)頻率，將出現(xiàn)頻率最高的類別作為當(dāng)前測試圖像的預(yù)測分類.K-NN中如何k值？計算機視覺

K值是試出來的。首先將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)：當(dāng)整個訓(xùn)練數(shù)據(jù)被我們用來訓(xùn)練并且k=1時，整個訓(xùn)練數(shù)據(jù)的準確率都是100%的，這樣沒辦法看出我們算法的表現(xiàn)能力，所以我們要將訓(xùn)練數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)與驗證數(shù)據(jù)，并且只訓(xùn)練訓(xùn)練數(shù)據(jù)，在驗證數(shù)據(jù)上進行驗證，以了解我們訓(xùn)練數(shù)據(jù)的算法泛化能力（準確率）：計算機視覺

驗證數(shù)據(jù)用于調(diào)整超參數(shù)再進一步，我們可以將訓(xùn)練數(shù)據(jù)分為x份，使每一份數(shù)據(jù)都做一次驗證數(shù)據(jù)，這樣我們就得到了x個準確率，取其中的平均值，就得到了當(dāng)k取任意值時的準確率如何，這樣再選擇準確率最高時的k值，就得到了一個表現(xiàn)最為良好的算法：注意：在超參數(shù)調(diào)優(yōu)的過程中決不能使用測試集來進行調(diào)優(yōu)，因為這樣會使模型對測試集過擬合，降低模型的泛化能力。所以測試數(shù)據(jù)集只能使用一次，即在訓(xùn)練完成后評價最終模型時使用。計算機視覺

圖是使用5-foldcross-validation，取不同的k值時，得到的accuracy曲線(因為是5-foldcross-validation，所以在每個k值上有5個取值，通常取其均值作為此時的準確度)（似乎k~=7最適合此數(shù)據(jù)）計算機視覺

5.2貝葉斯分類器樸素貝葉斯分類（NaiveBayesClassifier）發(fā)源于古典數(shù)學(xué)理論，利用Bayes定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性，選擇其中可能性最大的一個類別作為該樣本的最終類別。在樸素貝葉斯分類模型中，它將為每一個類別的特征向量建立服從正態(tài)分布的函數(shù)，給定訓(xùn)練數(shù)據(jù)，算法將會估計每一個類別的向量均值和方差矩陣，然后根據(jù)這些進行預(yù)測計算機視覺

計算機視覺

5.2.4樸素貝葉斯分類分類模型定義如下：該算法的特點為：如果沒有很多數(shù)據(jù)，該模型會比很多復(fù)雜的模型獲得更好的性能，因為復(fù)雜的模型用了太多假設(shè)，以致產(chǎn)生欠擬合計算機視覺

計算機視覺

5.2.5樸素貝葉斯分類實例：檢測SNS社區(qū)中不真實賬號下面討論一個使用樸素貝葉斯分類解決實際問題的例子，為了簡單起見，對例子中的數(shù)據(jù)做了適當(dāng)?shù)暮喕?。問題是這樣的，對于SNS社區(qū)來說，不真實賬號（使用虛假身份或用戶的小號）是一個普遍存在的問題，作為SNS社區(qū)的運營商，希望可以檢測出這些不真實賬號，從而在一些運營分析報告中避免這些賬號的干擾，亦可以加強對SNS社區(qū)的了解與監(jiān)管。如果通過純?nèi)斯z測，需要耗費大量的人力，效率也十分低下，如能引入自動檢測機制，必將大大提升工作效率。這個問題說白了，就是要將社區(qū)中所有賬號在真實賬號和不真實賬號兩個類別上進行分類，下面我們一步一步實現(xiàn)這個過程。計算機視覺

計算機視覺

5.3SVM分類器例子：假設(shè)有一堆蘋果，需要將蘋果分成兩部分，一部分又大又好看，賣的貴一點，另一部分又小又不好看，賣的便宜點。實心圓表示又小又不好看的蘋果，空心圓表示又大又好看的蘋果。從圖中可以看出，兩類蘋果中間有個明顯的分界，SVM研究的是求一個能夠?qū)⑸厦鎯刹糠滞耆_分開的分界線計算機視覺

對于人類而言，這兩部分蘋果之間的分界是顯而易見的，但對于計算機而言，怎么確定這兩部分蘋果的

分類界線，或者說計算機通過什么標(biāo)準來確定劃分的直線。

直觀上，可以看出分類界線A和B將數(shù)據(jù)集完全分開了，C分割后還存在誤分類點。對于SVM來說，需要找到一個最優(yōu)的直線。SVM將誤分類的點數(shù)作為評判標(biāo)準，誤分類點越多，分類直線性能越差，誤分類點為零，就是一條好的分類直線。A和B兩條分類界線都沒有誤分類點，那么，哪一條線是最優(yōu)分類界線呢？計算機視覺

假設(shè)有多個二維向量：每個二維向量在x1-x2平面坐標(biāo)系中表現(xiàn)為一個點，分類的目標(biāo)是使用一條直線把這些點分成兩類，從圖中可以看出，兩類中距離最近的點分別為Xi和Xj，因此要尋找的分割直線在Xi和Xj的中間，即Xi和Xj到直線的距離都為d，當(dāng)d取得最大值的時候，這條直線就是要找的分類界線。計算機視覺

在x1-x2坐標(biāo)系中，直線的一般表達式為寫成向量形式：根據(jù)點到直線的距離公式，點Xi和Xj到分類直線d的距離為：由于d是最短距離，對于所有點均滿足：尋找最優(yōu)分類直線的問題就等效轉(zhuǎn)換為求解d的最大值計算機視覺

SVM需要尋找一個最優(yōu)的決策邊界，也叫分類超平面，使之距離兩個類別中最近的樣本最遠。圖中有3個點到?jīng)Q策邊界距離相同，這3個點叫做支持向量（SupportVector）。平行于決策邊界的兩條直線之間的距離（2d）稱為margin(間隔)，SVM的目的是要最大化margin。上述的分類模型為HardMarginSVM計算機視覺

分類問題最理想的狀態(tài)是樣本在向量空間中都是線性可分的，這樣可以清晰無誤地把它們分隔成不同的類別——采用線性可分硬間隔SVM。當(dāng)存在噪點的時候，可以容忍少數(shù)不能被正確劃分的樣本，只要大多數(shù)線性可分就好——采用線性軟間隔SVM樣本點出現(xiàn)混肴的情況樣本交錯的情況計算機視覺

分類問題非線性的時候，該如何劃分？基本思想是將低緯空間的數(shù)據(jù)通過映射轉(zhuǎn)換到一個新的高維空間，然后在高維空間中求解分類超平面計算機視覺

下圖將二維空間的樣本數(shù)據(jù)轉(zhuǎn)化到三維空間，這樣樣本就線性可分了。從圖中可以直觀地看到：盒子中的小球（實心球和空心球），從盒子上面看，無法用一個平面分割；但是從盒子的側(cè)面看就可以用一個平面將兩種小球分開了。這種思想就是將特征轉(zhuǎn)換到另外一個空間（可能與原空間的維度相同或者升維），可將線性不可分問題轉(zhuǎn)變?yōu)榫€性可分問題。計算機視覺

5.3.3多類SVM損失

計算機視覺

要識別一個物體屬于哪一種類別（假設(shè)10類），我們需要將輸入圖片(假設(shè)圖片為32x32x3的數(shù)組，一共3072個數(shù)字)，通過包含權(quán)重參數(shù)的線性變換，得到10種類別所得到的分數(shù)，使得在它的標(biāo)簽下的類別得到很高的分數(shù)，其他類別表現(xiàn)很低的分數(shù)。我們所要學(xué)習(xí)的就是這個線性變換的函數(shù)，或者準確說學(xué)習(xí)w的權(quán)重值，一般我們要在學(xué)習(xí)中加入一個偏置參數(shù)b，以讓圖片在分類時對它屬于的標(biāo)簽有更大的偏置：計算機視覺

例子：假設(shè)輸入的灰度圖僅有4個像素，待分類別有3個（Cat、Ship，Car），那么分類器就有三個分類模型。因為貓得到的分數(shù)不是很高，所以這并不是一個很好的分類器，需要重新設(shè)置w與b如何判斷分類模型性能的優(yōu)劣呢，這里需要引入損失函數(shù)Loss來定量評估，并且根據(jù)Loss的大小來調(diào)整權(quán)重值。計算機視覺

損失函數(shù)用來度量給定分類器的預(yù)測值與真實值的不一致程度，預(yù)測值與真實標(biāo)簽之間的差異越大，損失函數(shù)值就越大，反之則越小。損失函數(shù)的輸出可以作為反饋信息對分類器參數(shù)進行調(diào)整，進而優(yōu)化模型，提升分類器的分類效果。損失函數(shù)定義：xi表示樣本中第i張圖像，N為樣本個數(shù)，f(xi,W)為分類器對xi的類別預(yù)測值，yi為樣本xi的真實類別標(biāo)簽，，Li為xi的損失，L為數(shù)據(jù)集損失。

第i個樣本的折頁損失（Hingeloss）定義如下：Sij表示第i個樣本xi在第j類別的預(yù)測分數(shù)；表示第i個樣本的真實類別預(yù)測分數(shù)計算機視覺

表示SVM在正確分類上的得分始終比不正確分類上的得分高出一個邊界值通常意思是如正確類別的得分比不正確類別的得分高出1分，就沒有損失，否則，就會產(chǎn)生損失。計算機視覺

3個類別各有一個訓(xùn)練樣本，采用

多類分類器對3個樣本的打分如下：支持向量機對于數(shù)據(jù)集的損失為：計算機視覺

假設(shè)找到了一個W，使得L=0。這個W是獨一無二的嗎？兩個線分類器如果W

能夠正確分類所有樣本，那么會有很多相似的W，比如

都能正確分類樣本，因此W不是唯一的。為了減輕模型的復(fù)雜度，引入正則化懲罰項

目的是通過向特定的權(quán)重添加偏好，對其他的不添加，以此來消除模糊性，還可以防止過擬合。計算機視覺

常用的正則化懲罰項有L1和L2范數(shù)。L1范數(shù)L2范數(shù)帶有正則化項的損失函數(shù)如下：展開式：為超參數(shù)，來控制正則化的強度損失函數(shù)就由兩部分組成：數(shù)據(jù)損失（dataloss），即所有樣例的的平均損失Li?，以及正則化損失（regularizationloss）。正則化是為了權(quán)衡訓(xùn)練損失和用于測試集的泛化損失計算機視覺

計算機視覺

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《計算機視覺》課件-第5章圖像分類

文檔簡介

溫馨提示

最新文檔

評論

《計算機視覺》課件-第5章 圖像分類

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《計算機視覺》課件-第5章圖像分類