形狀描述與識別_第1頁
形狀描述與識別_第2頁
形狀描述與識別_第3頁
形狀描述與識別_第4頁
形狀描述與識別_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第8章形狀描述與識別描述形狀特征參數(shù)的方法主要有兩類:基于區(qū)域的特征參數(shù)和基于邊界的特征參數(shù)。8.1區(qū)域描述參數(shù)區(qū)域特征參數(shù)主要是通過區(qū)域內(nèi)的所有像素點的集合來獲得對形狀特征參數(shù)的描述。這些參數(shù)可以是幾何參數(shù),也可以是密度參數(shù),還可以是區(qū)域的二維變換(如傅立葉變換和小波變換)系數(shù)或能量譜 等。對于形狀特征的描述,人們已提出了許多方法,比較典型的有不變矩法、傅立葉描述子、邊緣直方 圖法、小波重要系數(shù)法、小波輪廓表示法、幾何參數(shù)法等。1.基于區(qū)域的不變矩對于二維連續(xù)函數(shù)f x, y,其 p q階矩定義為mpq =日三xpyqf (X, y)dxdyp,q =0,1,2,川川(8-3)根據(jù)唯一性定理

2、說明,如果f x, y分段連續(xù),且只在xy平面的有限部分有非0值,則所有各階矩皆存在,并且矩序列mpq唯一地由f x, y所確定。反之,mpq也唯一地確定了f x,y。f x, y的中心矩可表示如下:I = . (x-x)p(y-y)q f (x,y)dxdy-OD式中x二空,y且m00moo對于數(shù)字圖像,用求和代替積分:ipq 八、(xx)p(y y)qf(x,y)x ympq二二 xpyqf (x, y)x y零階矩m。二二f (x, y)為f x,y的均值,對于二值圖像即為區(qū)域的面積。x y(8-4)(8-5)(8-6)mi。= v J xf (x, y), m0i = v yf (x,

3、 y)除以零階矩 m0 后得:x yx y- mi0x =m00 miy 是圖像的重m00心坐標。中心矩是反映圖像相對于重心分布的度量。例如,20和02分別表示圖像圍繞通過重心的垂直和水平軸線的慣性矩;30和03可以度量圖像對于垂直和水平軸線的對稱性等。、物體的矩形度(物體形狀和矩利用不變矩可以計算出物體的圓形度(物體形狀和圓的接近程度)形的接近程度)、物體的水平和垂直對稱性、物體的主軸方向、扁度等。Hu.M.K118禾U用二階和三階規(guī)格化中心矩導(dǎo)出了7個不隨平移、旋轉(zhuǎn)、等比縮放變化的矩組,稱7個不變矩:= 20 022 22 = ( 20 -02) 4 113=(30-312)2(03321

4、)2: =( 312)2(021)2譏=(30 -3 12)( 30 - 12)(30 * J -3( 0 川(321-03)(21*03)3(3012)2一(03J譏=(20 一 02)( 30 12)2一( 03 *21)2 V n( 30,12)( 03,21)7 =(321一03)(30*12)(30 *12)2 一 3(00.8 )和塊形;根據(jù)內(nèi)角在135 , 225內(nèi)的比率分為弧邊形(比率80%)和直邊形(多邊形);在弧邊形中,根據(jù)圓形度識別圓(圓形度0.9), 再根據(jù)歐拉數(shù)(環(huán)形的歐拉數(shù)為0)識別環(huán)形;對其它弧邊形,利用BP神經(jīng)網(wǎng)絡(luò)識別橢圓、扇形、拱形、月牙形、葫蘆形和蘑菇形;余

5、者視為任意弧邊形,簡稱弧邊形;在多邊形中,根據(jù)形狀的凹凸度 將其分為凸多邊形和凹多邊形(凹凸度0.8)識別正方形和矩形,再根據(jù)扁度區(qū)分正方形和矩形(扁度0.2 );對其它凸多邊形,利用BP神經(jīng)網(wǎng)絡(luò)識別三角形、梯形、平行四邊形、菱形;在余下的凸多邊形中,利用頂點數(shù)識別四邊形、五邊形和六邊形,其它 作為任意凸多邊形;在凹多邊形中,利用BP神經(jīng)網(wǎng)絡(luò)識別丁字形、十字形、五角星形、北極星形,余者作為任意凹多邊形。任意凸多邊形和任意凹多邊形都簡稱多邊形。2 利用BP神經(jīng)網(wǎng)絡(luò)識別形狀BP神經(jīng)網(wǎng)絡(luò)目前廣泛應(yīng)用于模糊模式識別中。利用三層BP神經(jīng)網(wǎng)絡(luò)識別形狀,選取32個形狀參數(shù)(包括 20個等邊長模歸一化傅里葉描

6、述子、7個不變距、圓形度、凹凸度、扁度、球形度、矩形度)作為描述圖像主體形狀的特征向量。為了便于神經(jīng)網(wǎng)絡(luò)學習,對32個參數(shù)歸一化,取值范圍限制在0,1內(nèi)。對于條形、圓形、環(huán)形、矩形、正方形、四邊形、五邊形、六邊形各取60個實驗樣本,對于橢圓形、扇形、拱形、月牙形、蘑菇形、葫蘆形、心形、三角形、平行四邊形、菱形、梯形、丁字形、十字 形、五角星形、北極星形,訓(xùn)練樣本取40個,測試樣本取20個,另外選取任意弧邊形、任意凸邊形、任意凹邊形各60個作為干擾項。根據(jù)圖8-10所示的形狀分類,利用單個形狀參數(shù)分類,實驗結(jié)果如表8-3。表8-3:利用單個形狀參數(shù)對14種簡單形狀分類的正確率和準確率形狀條形塊形

7、弧邊形多邊形凸多邊形凹多邊形Accuracy( %)929681869492Precision (%)959488839295形狀圓形環(huán)行矩形正方形四邊形五邊形六邊形Accuracy ( %)92929496989794Precision (%)90909594989895利用三層BP神經(jīng)網(wǎng)絡(luò)(隱含層采用對數(shù)Sigmoid傳遞函數(shù),節(jié)點數(shù)分別為14、8、8,輸出層采用線性傳遞函數(shù)),對弧邊形、凸多邊形、凹多邊形進行模糊分類,實驗結(jié)果如表8-4,8-5,8-6。表8-4 :利用BP網(wǎng)絡(luò)對7種弧邊形分類的正確率和準確率形狀橢圓形扇形拱形月牙形蘑菇形葫蘆形心形Accuracy (%)80798885

8、848586Precision (%)80808785828284表8-5 :利用BP網(wǎng)絡(luò)對4種凸多邊形分類的正確率和準確率形狀三角形平行四邊形菱形梯形Accuracy (%)80878481Precision (%)79888085表8-6:利用BP網(wǎng)絡(luò)對4正確率和準確率種凹多邊形分類的形狀丁字形十字形五角星形北極星形Accuracy (%)84818681Precision (%)80839078從實驗結(jié)果 單個形狀參數(shù)直接 高。對于難以用簡上看,采用簡單的 識別,準確性比較 單的形狀參數(shù)識別,采用BP神經(jīng)網(wǎng)絡(luò)模糊分類,在分類數(shù)較多時,分類的準確性明顯下降??紤]物體形狀的復(fù)雜性和 多樣性,

9、要提高形狀識別的準確性,還需選取更多的訓(xùn)練樣本,并尋求新的分類方法,如采用SVM進行形狀多類分類等。8.3.3主體識別圖象的主體識別就是根據(jù)圖象中的主體的視覺特征和先驗知識(知識庫)以及有關(guān)圖象的主題和 內(nèi)容將其識別出來,用概念(主體名)表示,如下圖。圖像中主體的識別對理解圖像的內(nèi)容和語義具有重要意義,但由于物體在圖像中投影的復(fù)雜性,加之圖像分割的困難性,圖象中主體識別一直是困難而又重要的工作。目前,利用物體在圖像中投影的視覺特征和先驗知識識別物體的效果還不理想2,還需要借助其它信息提高識別率,如Web圖像的相關(guān)文本、圖象的分類目錄等。 從圖像的相關(guān)文本中提取圖像中可能包含的物體名詞、視覺特征

10、名詞或形容詞可以作為圖象中主體識別的重要參考依據(jù)。下面闡述基于圖像主體知識庫,利用圖像的相關(guān)文本和視覺特征識別圖像主體的一種方法。1圖像主體的特征表示與文本提取圖像的主體指圖像中突出表現(xiàn)的物體,在圖像中占據(jù)較大的面積或特定的位置,并與背景存在較大的反差。圖像主體的視覺特征主要包括顏色、形狀、姿態(tài)、紋理、位置、大小、方向等,如圖2。圖像主體知識庫即在一定的知識領(lǐng)域內(nèi)根據(jù)人們對圖像主體的認識,列出圖像主體必須具有和可能具有的視覺特征和特征值,主要是顏色、紋理和形狀特征。表示形式為:Attribute = ai, a? , a3,。其中a=?或特征值,?表示不確定或未知值(缺省時即為此值)。特征值可

11、以用數(shù)值或文字表示,如顏色可以用顏色名或顏色的 RGB值表示。ai, a? , a3,表示a的“人(與)”、“ V (或)”邏輯范式, 其中“人”表示 “同時具有”,“V”表示“可以具有其中若干項(單選時只能具有其中一項)”。例如,圖像主體“虎”的屬性表示為:圖像主體=虎,顏色(Color)= (土黃人黑)V (白人黑),形狀(shape)=? V長,姿態(tài)(Attitude )=? V站V臥V奔跑V跳躍, 紋理(Texture )=條紋。表示圖像中“虎” 的顏色必須是土黃和黑或白和黑(白虎),形狀是長或不確定,姿態(tài)是站、臥、奔跑、跳躍或不確定,主體形狀圖主體姿態(tài)主體紋理主體位置主體大小主體顏色

12、主體方向圖1圖像內(nèi)容的層次結(jié)構(gòu)紋理必須是條紋。圖2圖像主體的視覺屬性在WW網(wǎng)頁中,與圖像有關(guān)的文本主要有圖像文件名、圖像周圍的說明文字、圖像的標簽、圖像所在網(wǎng)頁的標題、圖像鏈接的網(wǎng)頁標題、圖像的URL圖像所在網(wǎng)頁的 URL和圖像鏈接的URL等同。在這些文本中可能包括描述圖像主體名稱和視覺特征的關(guān)鍵詞。為了提取這些關(guān)鍵詞, 需要根據(jù)應(yīng)用領(lǐng)域建立圖像主體名詞典和主體視覺特征詞典。圖像主體名詞典列出圖像的主體名稱(名詞),本文實驗中建立了面向自然風景和動物的240個主體名詞典。主體視覺特征詞典列出描述圖像主體視覺特征的中文用 詞(名詞或形容詞),包括262個顏色詞(對應(yīng) RGB直)、82個形狀詞、1

13、8個紋理詞、15個姿態(tài)詞、11 個位置詞和8個方向詞。將圖像文件名中包含的主體名、相關(guān)文本中至少兩中文本包含的主體名以及圖像周圍的說明文字中出現(xiàn)頻率最高的3個主體名提取出來。將主體名中包含的視覺特征詞和主體名前有“的”字,而“的” 字前的視覺特征詞以及在包含圖像主體名的句子中由圖像主體知識庫列出的圖像主體可能具有的視覺 特征詞提取出來。2 圖像分割與圖象主體提取從圖象中提取面積最大的區(qū)域作為圖像的主體區(qū)域。3 圖像主體的視覺特征識別(1) 顏色提取提取主體區(qū)域的5個主色調(diào),用RGB直表示。(2) 形狀識別將主體區(qū)域的形狀識別出來。(3) 紋理識別將主體區(qū)域的紋理識別出來。4 基于知識的圖像主體

14、識別利用圖像分割得到的圖像主體與從 WW中提取的圖像主體名沒有直接的對應(yīng)關(guān)系, 需要根據(jù)圖 像主體知識庫和兩者的視覺特征對圖像主體進行識別。將圖像分割得到的圖像主體、WW中提取的圖像主體和圖像主體知識庫中的圖像主體分別記為I、n、川,然后按如下方法操作:(1) 根據(jù)n名,在圖像主體知識庫中找到川,將兩者整合,用n的確定的特征值取代川的與 或邏輯形式的特征值,記為w。(2) 計算I與w的每個特征的相似度。在圖像主體知識庫中,特征值一般用與或邏輯式表示。首先定義兩個與或邏輯式之間的相似度。設(shè)一個特征的與或邏輯式為* 另一個為a2。若 門,a豈2毛J匕則兩者的相似度定義為 你)平如那心)若昇叮則兩者

15、的相似度定義為5(心円翻如2)。j 士s(v 1i, V2j)為兩個特征值之間的相似度。?與任何特征值的相似度為定義0.5。對于形狀和紋理特征值,相似度定義為兩個特征值中相同詞的比例數(shù)。對于顏色特征,首先利用顏色詞典將W的顏色詞轉(zhuǎn)換成RGB直,然后利用(3)式計算兩種顏色之間的距離 d,再利用下式將其轉(zhuǎn)換成相似度 s。1(4)當d=c0時s=0.5。do可作為相似與否的判斷閾值。(3) 計算 I 與W 的總相似度s( I , W ) = s c( I , w ) s s( I , w) s t( I , w ),其中 sc( I , W )、3Ss( I , w )、st( I ,w )分別為

16、顏色、形狀、紋理的相似度。若 s( I ,w )小于0.5,則認為I與w無 關(guān),為I取名?1、?2、(表示未知主體名),否則在w中尋找 s( I ,w )的最大值,用最相似的w 的名稱為I命名,表示識別出圖像主體I。(4) 計算圖像主體的識別率和識別正確率。假設(shè)Xi為I的集合,Xn為n的集合。圖像主體的識別率 =|X I Xn |/|X 11 ,圖像主體的識別正確率入=#(X I -Xn)/|X I -Xn|,其中|X i |表示Xi中I的數(shù)量(本文中取 5), |X I楓|表示Xi中能夠識別的I的數(shù)量,#(X IrXn )表示Xi中正確識別的I的數(shù)量。5.實驗結(jié)果與分析 借助Google的圖

17、像搜索功能,用關(guān)鍵詞“自然風光”搜索并下載了1200幅中文網(wǎng)頁中的圖片。禾U用2中的方法,提取每幅圖像中可能的主體名和主體特征詞。提取的主體名中約28%與圖像中的主體相關(guān),并能夠提取12%勺視覺特征詞。結(jié)合圖像分析,利用5中的方法識別圖像主體,在“自然風光”類圖像中,山、水、花、草、樹、天空等重要主體的識別率和識別正確率如下表:圖像主體山水花草樹天空圖像數(shù)566756586545識別率42%38%43%44%24%45%正確率72%51%71%75%67%68%圖像主體識別率比較低的主要原因是文本中缺少對應(yīng)的主體名。在文本中含有圖像包含的主體名時,即使文本中對應(yīng)的視覺特征詞很少,利用圖像主體知

18、識庫仍能達到較高的識別正確率達(平均75% )。本文提出的圖像主體識別方法,對面向?qū)ο蟮膱D像檢索具有重要意義,即使文本中沒有圖像的主體名時,識別圖像主體的視覺特征對基于語義的圖像檢索也有積極的作用。8.4利用Hough變換識別直線圖表和人造物中通常包括較多的直線,通過直線檢測,根據(jù)圖像中直線邊緣的比率可 以大致區(qū)分繪畫和圖表、自然物和人造物照片。直線檢測的最常用方法是Hough變換。在圖像的二值邊緣圖中,過邊緣點(x,y)的直線可以寫為:y 二 x tg 丁 b其中B是方向角,b是截距。令Q=bcosr,上式變換為:= y cos v - xsin對p B分別在0,冗和卜L,L范圍內(nèi)量化(L是圖像的對角線長度),量化間隔為?(a)(b)(c)(d)圖8-4 (a)圖像邊緣(b)利用Hough變換檢測出的直線邊緣? p=0.02匕統(tǒng)計所有邊緣點(x, y),做出p B的直方圖,將直方圖值大于一定閾值(本 文取L的30%)的p B取出,作為檢測出的直線邊緣參數(shù)。計算每個邊緣點到該直線邊 緣的距離,將小于一定閾值(如取 3 個像素)的邊緣點作為檢測出的直線邊緣保留下來, 如圖 8-4。參考文獻Ballard D H, Brown C M.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論