《計算機視覺》課件-第4章圖像特征提取

上傳人：1*** IP屬地：廣東上傳時間：2025-02-18 格式：PPTX 頁數(shù)：37 大?。?.67MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第4章特征提取4目錄4.1HOG特征4.24.3SIFT特征哈希特征4.1HOG特征HOG即方向梯度直方圖（HistogramofOrientedGradient），HOG特征是一種在計算機視覺和圖像處理中用于物體檢測的特征描述子，即用圖像梯度信息來識別物體。它通過對圖像的每個單元進行梯度方向直方圖計算來構(gòu)成特征向量。HOG特征結(jié)合SVM分類器已被廣泛應(yīng)用于圖像識別中，思路就是用提取出的HOG特征訓練分類器。其優(yōu)點是對于目標相同但大小、方向不同的圖像，可以利用相同的HOG特征模式來檢測，而不管目標的位置和呈現(xiàn)方式。HOG特征在行人檢測應(yīng)用中獲得了極大的成功，由于HOG是在圖像的局部方格單元上操作，所以它對圖像的幾何和光學形變都能保持很好的不變性，只要行人大體上能夠保持直立的姿勢，可以容許行人有一些細微的肢體動作，這些細微的動作可以被忽略而不影響檢測效果。HOG特征提取步驟

步驟4：將圖像劃分成若干個單元cells，例如每個cell為8x8像素。步驟5：統(tǒng)計每個cell的梯度直方圖，即可形成每個cell的描述子。假設(shè)采用9個bin的直方圖來統(tǒng)計這8*8個像素的梯度信息，其中，9個bin的向量代表的是角度0,20,40,60.....160（不考慮方向的正負）。也就是將cell的梯度方向0-360度分成9個方向塊需要注意的是，如果有一個角度在160-180度之間，這里不考慮方向的正負，角度0和180度可用同一個bin表示，角度為165度，梯度值為85，要把梯度值按照比例放到0和160的bin里面去。把這8*8的cell里所有像素點的梯度值分別累加到9個bin里面去，就構(gòu)建了一個9-bin的直方圖步驟6：將幾個cell組成一個block（例如3x3個cell/block），一個block內(nèi)所有cell的特征描述子串聯(lián)起來便得到該block的HOG特征描述子。計算block的時候，是把整張圖像遍歷一遍的過程，窗口移動步長可以設(shè)定為1個cell。步驟7：將圖像內(nèi)所有block的HOG特征描述子串聯(lián)起來就可以得到該圖像的HOG特征描述子，這個就是最終可供分類使用的特征向量。例子：64x128的圖像而言，每8x8個像素組成一個cell，每2x2個cell組成一個block，總共有多少個特征？因為每個cell有9個特征，所以每個塊內(nèi)有4x9=36個特征，以1個cell為步長，那么，水平方向?qū)⒂?個掃描窗口，垂直方向?qū)⒂?5個掃描窗口。也就是說，64x128的圖像，總共有36x7x15=3780個特征。4.2SIFT特征SIFT（ScaleInvariantFeatureTransform）即尺度不變特征變換，是一種基于尺度空間的、對圖像縮放、旋轉(zhuǎn)甚至仿射變換保持不變性的圖像局部特征描述算子。SIFT算子最早由D.G.Lowe于1999年提出,并于2004年完善。SIFT算法具有以下優(yōu)點:（1）SIFT特征是圖像局部特征，基于物體上的一些局部外觀的興趣點而與圖像的大小和旋轉(zhuǎn)無關(guān)，對于光線、噪聲、視角改變的容忍度相當高。（2）獨特性，SIFT特征高度顯著而且相對容易提取，適用于在海量特征數(shù)據(jù)中進行快速、準確的匹配。使用SIFT特征描述對于部分物體遮擋的檢測率也相當高。（3）多量性，即使是很少幾個物體也可以產(chǎn)生大量的SIFT特征。（4）高速性，經(jīng)優(yōu)化的SIFT匹配算法甚至可以達到實時性。（5）可擴展性，可以很方便地與其他形式的特征向量進行聯(lián)合。SIFT算法實現(xiàn)SIFT算法的實質(zhì)是在不同的尺度空間上查找關(guān)鍵點(特征點)，并計算出關(guān)鍵點的方向。算法主要包括以下幾個步驟：步驟1：尺度空間的極值檢測，搜索所有尺度空間上的圖像，通過高斯微分函數(shù)來識別潛在的對尺度不變的興趣點。步驟2：特征點定位，在每個候選位置上，通過擬合模型來確定位置尺度，關(guān)鍵點的選取依據(jù)它們的穩(wěn)定程度。步驟3：特征方向賦值，基于圖像局部梯度方向，分配給每個關(guān)鍵點位置一個或多個方向，后續(xù)的所有操作都是對于關(guān)鍵點的方向、尺度和位置進行變換，從而提供這些特征的不變性。步驟4：特征點描述，在每個特征點的鄰域內(nèi)，在選定的尺度上測量圖像的局部梯度，這些梯度被變換成一種表示，這種表示允許比較大的局部形狀的形變和光照變換。1DoG尺度空間構(gòu)造

(1)尺度左邊為sigma=1尺度下的圖像,中間為sigma=3尺度下的圖像,右邊為sigma=5的圖像，尺度越大，圖像越模糊圖像金字塔能夠很好的顯示圖像多尺度空間的特征，SIFT算法中的圖像金字塔共有o組，每組有S層，下一組的圖像由上一組圖像降采樣得到。為原圖的1/2.(2)圖像金字塔(3)高斯金字塔構(gòu)建為了能夠檢測到不同尺度下的特征點，對于一幅圖像I，建立其高斯尺度金字塔。金字塔由若干組（Octave）構(gòu)成，每組都是“復(fù)合”結(jié)構(gòu)，又由若干層（Interval）不同尺度的圖像組成。

前面已經(jīng)有了高斯金字塔和DoG算子，根據(jù)下圖可以進一步計算高斯差分金字塔。在高斯尺度金字塔中，每組包含6層圖像，經(jīng)過高斯差分之后每組為5層圖像。(3)高斯差分金字塔圖像差分運算就是對兩個圖像做一個相減的運算，尋找兩幅圖像不一樣的地方。一種非常簡單的圖像特征提取方法,就是用原始圖像減去經(jīng)過高斯模糊后的圖像，能夠得到特征信息。從信號理論的角度來講，模糊后的圖像保留的是低頻信息，原始圖像減去低頻信息留下高頻信息。

中間的檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應(yīng)的9×2個點共26個點比較，以確保在尺度空間和二維圖像空間都檢測到極值點。

一個點如果在DoG尺度空間本層以及上下兩層的26個鄰域中是最大值或最小值，就認為該點是圖像在該尺度下的一個特征點。（1）粗略尋找2關(guān)鍵點搜索與定位由于DoG值對噪聲和邊緣較敏感，因此，在上面DoG尺度空間中檢測到的局部極值點還需要進一步檢驗才能精確定位為特征點。（2）細化尋找第一步：尋找極值并去除較小的極值對關(guān)鍵點進行3D二次函數(shù)擬合，然后求擬合函數(shù)的極值點，作為真正的極值點。

（3）消除邊緣噪聲

（3）消除邊緣噪聲3方向賦值

前面已經(jīng)獲取了特征關(guān)鍵點的位置、尺度和方向參數(shù)，這些特征點已經(jīng)對上述參數(shù)的變化保持了不變性。下一步，就是要生成一種能夠描述這些特征的描述子。

4關(guān)鍵點描述子生成（2）旋轉(zhuǎn)主方向?qū)⒆鴺溯S旋轉(zhuǎn)為關(guān)鍵點的方向，以確保旋轉(zhuǎn)不變性那么旋轉(zhuǎn)角度后的新坐標為：

（3）生成描述子

16*16鄰域的sift特征點

5SIFT特征匹配兩幅圖中，給出了SIFT特征匹配的實例，可以看出，兩幅圖中，貓耳的方向是不同的，采用SIFT特征可成功匹配。由此可見，SIFT具有旋轉(zhuǎn)不變性。Hash算法是在工程領(lǐng)域中度量兩張圖像相似度最常用的算法之一。Hash算法通過獲取圖像的Hash值，比較兩張圖像Hash值的漢明（HammingDistance）距離來度量圖像是否相似。兩張圖像越相似，其Hash值的漢明距離越小。Hash算法可分為三種，分別是平均哈希算法（aHash）、感知哈希算法（pHash）和差異哈希算法（dHash）。下面將對這三種算法進行詳細介紹。4.3哈希特征1平均哈希算法（aHash）4.3.1平均哈希算法（aHash）

實例：圖像aHash值的計算過程17110413112612616013999147105119153208153147571519910716217519440159144101124531764355159136112127791375615617515041213771087314520710647116691521341329792581298913620448771011111010011110100111011010100110101011101000110000111000101100計算灰度圖所有像素的均值a=121.33,將上述矩陣中大于或等于a的元素置為1,小于a的元素置為0,可得右圖。將右圖所示矩陣向量化，可得Lena圖的aHash為：1011111010011110100111011010100110101011101000110000111000101100。（5）計算漢明距離：得到aHash值后，就可以比較兩張圖像的aHash值之間的漢明距離，通常認為漢明距離小于10的一組圖像為相似圖像。Lena原圖的aHash值：1011111010011110100111011010100110101011101000110000111000101100

Lena噪聲圖的aHash值：1011111000011110100111011010100110101011101000110000111000101100

Barbara圖的aHash值：1010010100101001011110010111111010100110001100000110010100000110

Lena原圖和噪聲圖aHash值之間的漢明距離：1

Lena原圖和Barbara圖aHash值之間的漢明距離：35(a)Lena原圖(b)加入噪聲的Lena圖(c)Barbara圖感知哈希算法是基于DCT（離散余弦變換）來得到圖片的hash值，其算法步驟為：（1）縮放圖像：將圖像大小統(tǒng)一縮放為32x32共1024個像素點。（2）圖像灰度化：將縮放后的標準圖像轉(zhuǎn)為灰度圖像。（3）DCT變換：對灰度圖像做離散余弦變換，得到對應(yīng)的32×32數(shù)據(jù)矩陣。（4）縮小DCT：取上一步32×32數(shù)據(jù)矩陣左上角的8×8子區(qū)域G來替代整幅圖像，這部分呈現(xiàn)了圖片中的最低頻率。（5）計算像素均值：對8×8矩陣G,計算其所有元素的平均值，假設(shè)其值為a。（6）計算pHash值：遍歷G中的每個像素，如果第i行j列元素G(i,j)≥a，則置G(i,j)為1，否則，置G(i,j)為0。最后將二值圖像G中的數(shù)字從左到右、從上到下串聯(lián)得到該圖像的pHash值。4.3.2感知哈希算法（pHash）圖4-24轉(zhuǎn)為灰度32x32尺寸的Lena圖

圖4-25灰度32x32尺寸Lena圖對應(yīng)的DCT矩陣3986.47-352.86-60.88322.99252.51-137.13-46.1598.56199.56246.97-201.16-96.91-67.84100.645.87-70.2116.61112.02-184.25255.63-166.83306.29-7.56-43.01-51.16-80.41227.87-167.7149.93102.74-200.51103.2-100.8785.7981.3663.94-20.6954.382.1951.77-3.67-11.41173.816.96-151-60.1794.61182.74120.74-75.7159.83-42.14-55.932.69121.23-111.63101.36-87.32-55.2572.51-23.0935.0527.51-112.26DCT矩陣左上角8x8區(qū)域子矩陣為所有元素的均值a=77.351001100111000100010101000010010101100000001000111000001010000000矩陣中大于或等于a的元素置為1,小于a的元素置為0Lena圖的pHash為：1001100111000100010101000010010101100000001000111000001010000000Lenna(origin).png1001100111000100010101000010010101100000001000111000001010000000

Lenna(nosie).png10011000010001000101001010010100010001001000110000001000000000

Barbara.png1100110111000001000000010011010001110000110000000100110010100010

HanmingLenna(origin)vsLenna(noise)9

HanmingLenna(origin)vsBarbara24圖4-26pHash算法圖片相似度實驗pHash能區(qū)別相似圖片和差異大的圖像。3差異哈希算法（dHash）4.3.3差異哈希算法（dHash）

圖4-27轉(zhuǎn)為灰度9x8尺寸的Lena圖-201-203982-7-12-89-1-883-3030511162015-9213-73-142-2-52-6134-72-4579-3-1490-178-1421379-58129-232453119-37-6-5413-1115-15-112-1419-5534-9-19-61-2416710313012612416115313414710411016520615414145146961181681761841921611489613376189111501591439872110117661291561291077293125521501931384920170149105151212101431478314

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《計算機視覺》課件-第4章圖像特征提取

文檔簡介

溫馨提示

最新文檔

評論

《計算機視覺》課件-第4章 圖像特征提取

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《計算機視覺》課件-第4章圖像特征提取