![數(shù)字圖像課程設計報告_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/3/056e68a7-1c13-4a2d-ada6-855d79412fc9/056e68a7-1c13-4a2d-ada6-855d79412fc91.gif)
![數(shù)字圖像課程設計報告_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/3/056e68a7-1c13-4a2d-ada6-855d79412fc9/056e68a7-1c13-4a2d-ada6-855d79412fc92.gif)
![數(shù)字圖像課程設計報告_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/3/056e68a7-1c13-4a2d-ada6-855d79412fc9/056e68a7-1c13-4a2d-ada6-855d79412fc93.gif)
![數(shù)字圖像課程設計報告_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/3/056e68a7-1c13-4a2d-ada6-855d79412fc9/056e68a7-1c13-4a2d-ada6-855d79412fc94.gif)
![數(shù)字圖像課程設計報告_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/3/056e68a7-1c13-4a2d-ada6-855d79412fc9/056e68a7-1c13-4a2d-ada6-855d79412fc95.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)字圖像處理課程設計報告手寫阿拉伯數(shù)字的識別1、課程設計目的1)、 提高分析問題、解決問題的能力,進一步鞏固數(shù)字圖像處理系統(tǒng)中的基本原理與方法。2)、 掌握文獻檢索的方法與技巧。3)、 熟悉掌握一門計算機語言,可以進行數(shù)字圖像的應用處理的開發(fā)設計。2、方法綜述 字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機手寫方面技術已趨向成熟,并推出了很多應用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯數(shù)字及少量特殊符號組成的各種編號和統(tǒng)計數(shù)據(jù),如:郵政編碼、統(tǒng)計報表、財務報表、銀行票據(jù)等等,處理這類信息的核心技術是手
2、寫數(shù)字識別。本次實驗是對手寫的阿拉伯數(shù)字進行識別,主要步驟包括預處理模塊(其中用到圖像分割方法),特征提取和利用人工神經網絡(具體運用bp神經網絡方法)進行數(shù)字的識別。2.1圖像分割:圖像分割就是把圖像分成若干個特定的、具有獨特性質的區(qū)域并提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟?,F(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。2.1.1基于閾值的分割方法 灰度閾值分割1法是一種最常用的并行區(qū)域技術,它是圖像分割中應用數(shù)量最多的一類。閾值分割方法實際上是輸入圖像f到輸出圖像g的如下變換: 其中,t為
3、閾值,對于物體的圖像元素g(i,j)=l,對于背景的圖像元素g(i,j)=0。 由此可見,閾值分割算法的關鍵是確定閾值,如果能確定一個合適的閾值就可準確地將圖像分割開來。閾值確定后,將閾值與像素點的灰度值比較和像素分割可對各像素并行地進行,分割的結果直接給出圖像區(qū)域。閾值分割的優(yōu)點是計算簡單、運算效率較高、速度快。在重視運算效率的應用場合(如用于硬件實現(xiàn)),它得到了廣泛應用。人們發(fā)展了各種各樣的閾值處理技術,包括全局閾值、自適應閾值、最佳閾值等等。2.1.2基于邊緣的分割方法圖像分割的一種重要途徑是通過邊緣檢測,即檢測灰度級或者結構具有突變的地方,表明一個區(qū)域的終結,也是另一個區(qū)域開始的地方。
4、這種不連續(xù)性稱為邊緣。不同的圖像灰度不同,邊界處一般有明顯的邊緣,利用此特征可以分割圖像。圖像中邊緣處像素的灰度值不連續(xù),這種不連續(xù)性可通過求導數(shù)來檢測到。對于階躍狀邊緣,其位置對應一階導數(shù)的極值點,對應二階導數(shù)的過零點(零交叉點)。因此常用微分算子進行邊緣檢測。常用的一階微分算子有roberts算子、prewitt算子和sobel算子,二階微分算子有l(wèi)aplace算子和kirsh算子等。在實際中各種微分算子常用小區(qū)域模板來表示,微分運算是利用模板和圖像卷積來實現(xiàn)。這些算子對噪聲敏感,只適合于噪聲較小不太復雜的圖像。由于邊緣和噪聲都是灰度不連續(xù)點,在頻域均為高頻分量,直接采用微分運算難以克服噪
5、聲的影響。因此用微分算子檢測邊緣前要對圖像進行平滑濾波。2.1.3基于小波變換的分割方法小波變換是近年來得到了廣泛應用的數(shù)學工具,它在時域和頻域都具有良好的局部化性質,而且小波變換具有多尺度特性,能夠在不同尺度上對信號進行分析,因此在圖像處理和分析等許多方面得到應用。基于小波變換的閾值圖像分割方法的基本思想是首先由二進小波變換將圖像的直方圖分解為不同層次的小波系數(shù),然后依據(jù)給定的分割準則和小波系數(shù)選擇閾值門限,最后利用閾值標出圖像分割的區(qū)域。整個分割過程是從粗到細,有尺度變化來控制,即起始分割由粗略的l2(r)子空間上投影的直方圖來實現(xiàn),如果分割不理想,則利用直方圖在精細的子空間上的小波系數(shù)逐
6、步細化圖像分割。分割算法的計算饋與圖像尺寸大小呈線性變化。2.2特征提取特征提取是計算機視覺和圖像處理中的一個概念。它指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。特征提取的結果是把圖像上的點分為不同的子集,這些子集往往屬于孤立的點、連續(xù)的曲線或者連續(xù)的區(qū)域。2.2.1結構特征提取方法采用結構特征提取對字符進行結構分析從而達到識別的目的,是一種非常直觀的方法,其思想與人認字的原理有點相象,但又有所不同。其基本思想是:字符可以逐級分解成部件、筆劃乃至筆段,識別時可以自底向上,由象素得到筆段,由筆段結合成筆劃,由筆劃構成部件,由部件組成字符,逐級分析字符圖象的結構,根據(jù)各元素
7、的屬性、數(shù)量及其相互關系,便可以判定待識字符。目前研究較成熟,效果比較好的是基于筆劃和基于筆段分析的手寫體字符識別。2.2.2統(tǒng)計特征提取方法 從統(tǒng)計模式識別的觀點來看,字符識別實際上是一個模式分類問題,人對自然物體的識別,是建立在對該物體進行學習、特征分析的基礎上的,計算機模式識別的過程與人的識別過程有著相識的地方。實際上就是一種通過學習或者其它方法,形成一個一記憶知識庫,進行模式識別時,清晰地表達出一種從物體到記憶知識庫的映像,從而得到識別結果。人在進行物體識別時,是利用大腦中通過學習形成的記憶庫,對識別的物體進行一種黑箱式的映像,從記憶庫中找出相匹配的類別。計算機要把人類識別物體時的這種
8、黑箱式的映像表達出來,一般是由兩個步驟來完成的:第一步,以適當?shù)奶卣鱽砻枋鑫矬w,即由xi、f(xi)的映像;第二步,計算機執(zhí)行某種運算完成由f(xi)*c(x)二x的映像。2.2.3紋理特征提取方法紋理特征和顏色特征類似,它也是一種整體性的特征近些年來,對紋理分析方法的各種理論或方法在紋理特征提取中的應用已經基本成形,和把紋理特征提取方法歸納為類,即結構方法、信號處理方法、幾何方法、模型方法和統(tǒng)計方法這種分類方法被大多學者采納灰度共生矩陣()是被廣泛應用的紋理提取算法,是分析圖像的基礎,它運用統(tǒng)計學中的概率來反映圖像灰度有關方向和間隔等整體信息2.3.識別的方法 本次實驗采用人工神經網絡的方法
9、進行識別,人工神經網絡(artificia neural network)至今還沒有一個比較科學和權威的定義。有一種定義是:“人工神經網絡是生理學上的真實人腦神經網絡的結構和功能,以及若干基本特征的某種理論抽象,簡化和模擬而構成的一種信息處理系統(tǒng)?!睆南到y(tǒng)觀點看,人工神經網絡是由大量神經元通過極其豐富和完善的聯(lián)接而成的,模擬大腦的基本特性的自適應非線性動態(tài)系統(tǒng)。神經元之間的連接方式不同,神經網絡的結構形態(tài)也就不同。具體的生理學上的定義本文不再展開贅述。2.3.1 bp神經網絡神經網絡的應用已經滲透到各個領域中,包括金融、股票預測,自動控制,機器人,模式識別,計算機視覺和圖像處理,信號處理等等,
10、其中軟件模擬的bp網絡是應用最多、最成功的網絡。本次課程設計是基于bp神經網絡對手寫阿拉伯數(shù)字進行識別,故下文介紹關于bp神經網絡的概念。 bp(back propagation)網絡又叫誤差反向傳播網絡,是由美國加利福尼亞大學的pdp小組提出的一種神經網絡算法,實現(xiàn)了minsky和papert認為不能實現(xiàn)的多層網絡的設想。bp算法的基本思想是,學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經各隱藏層逐層處理后,傳向輸出層。若輸出層的實際輸出與期望的輸出(教師信號)不符,則轉入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱藏層向輸入層反傳,并
11、將誤差分攤給各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權值的依據(jù)。這種信號正向傳播與誤差反向傳播的各層權值調整過程,是周而復始地進行的。權值不斷調整的過程,也就是網絡的學習訓練過程。此過程一直進行到網絡輸出的誤差減少到可接受到的程度,或進行到預先設定的學習次數(shù)為準。 2.3.2bp網絡的優(yōu)缺點 bp網絡的算法是最著名的多層前向網絡訓練算法,盡管存在收斂速度慢,局部極值等缺點,但可通過各種改進措施來提高它的收斂速度,克服局部極值現(xiàn)象。而bp網絡算法的優(yōu)點也是顯而易見的,它具有簡單,易行,計算量小,并行性強等特點,目前仍是許多數(shù)字識別的優(yōu)選算法。3、實驗結果與分析 3.
12、1系統(tǒng)的流程圖 基于bp神經網絡的手寫體數(shù)字識別系統(tǒng)大致可以分為輸入、預處理、特征提取、bp神經網絡識別4個部分。輸入包括數(shù)字樣本集掃描輸入和待識別數(shù)字輸入,先用數(shù)字樣本集掃描輸入圖像經預處理后特征提取的特征向量來訓練神經網絡,再用訓練好的神經網絡來識別待識別數(shù)字。預處理部分包括二值化、分割,再對預處理后二值點陣圖像進行特征提取。最后將所提取的特征量輸入訓練好的神經網絡進行識別,輸出識別結果?;赽p神經網絡的手寫體數(shù)字識別系統(tǒng)的結構及流程如圖2所示。 開始讀入需要識別數(shù)字的圖像將圖像轉化為灰度圖像將灰度圖像轉化為二值圖像圖像分割預處理模塊特征提取進行數(shù)字的識別圖2:手寫阿拉伯數(shù)字識別系統(tǒng)的流
13、程圖3.2預處理模塊由于掃描輸入的圖像一般為rgb格式,預處理首先需要將其轉化為二值化的圖像,即只包含“0”、“1”的矩陣形式。先將原始圖像轉化為灰度圖像, 通過函數(shù)rgb2gray來實現(xiàn),再通過函數(shù)im2bw轉化為二值圖像,然后對二值化后的圖像進行分割處理,本實驗采用基于字符連通域的分割。由于對數(shù)字的書寫有一定要求,兩個字符之間不能出現(xiàn)連筆的情況,因此可以對二值圖像各個分離部分進行標注來分割字符,用函數(shù)bwlabel來實現(xiàn)。用函數(shù)regionprops來度量圖像區(qū)域屬性, 包括屬性boundingbox( 表示各標注區(qū)域的最小矩形) 和centroid(表示各區(qū)域的質心)。通過對各個區(qū)域標注
14、及各個區(qū)域起點坐標和區(qū)域范圍(包括寬度和高度)的確定來截取字符, 所用函數(shù)為imcrop,最后調用函數(shù)imresize對圖像進行歸一化處理。通過歸一化以消除各數(shù)字在位置和大小上的差異,從而提高識別的準確率。歸一化處理后的字符便可進行特征向量提取。部分程序代碼如下所示:function img = edu_imgpreprocess(i)igray = rgb2gray(i);ibw = im2bw(igray,graythresh(igray);%將圖像轉化為二值圖像function bw2 = edu_imgcrop(bw)% 對圖像進行裁剪(crop the image to the ed
15、ge)bw2=imcrop(bw,x1,y1,(x2-x1),(y2-y1); x1=1;y1=1;x2=x2temp;y2=y2temp;圖1:原始的圖像 圖2:進行預處理之后的過程和圖像3.3特征提?。和ㄟ^粗網格方法來提取特征,粗網格特征是一組注重字符圖像整體的分布特征,此種特征對噪聲具有極強的抑制能力。首先對分割后的字符歸一化為7050的點陣,然后將此矩陣等分為75的網格,接著依次統(tǒng)計每一個網格內黑像素點(即“1”)的個數(shù),得到一個以數(shù)字表示的75維的網格特征,將75維特征矩陣轉變?yōu)橐痪S特征,最后對其進行歸一化操作。特征提取的是預處理之后圖像上的像素點,然后送入到預設和訓練好的bp神經網
16、絡進行識別。如圖3所示,黑色的小點為所定義的7*5的網格特征,圖中較明顯的黑色點為所提取的特征、圖3:對4進行特征提取相關代碼:function lett = edu_imgresize(bw2)% this function will take the cropped binary image and change it to 5 x 7% character representation in single vector. bw_7050=imresize(bw2,70,50);%重新定義尺寸%粗網格的特征提取方法for cnt=1:7 for cnt2=1:5 atemp=sum(bw_
17、7050(cnt*10-9:cnt*10),(cnt2*10-9:cnt2*10); lett(cnt-1)*5+cnt2)=sum(atemp); endend lett=(100-lett)/100);%特征向量的歸一化lett=lett圖4:實驗中對7進行特征提取所得到的圖像3.4數(shù)字的識別本實驗采用bp網絡的方法進行數(shù)字的識別,bp網絡的基本結構如圖5所示,網絡由不同層次的節(jié)點集合組成,每一層節(jié)點的輸出送到下一層節(jié)點。這些輸出值由于連接權不同而被放大、衰減或抑制。除了輸入層外,每一節(jié)點的輸入為前一節(jié)點輸出值的加權和。每一節(jié)點的激勵輸出值由節(jié)點輸入、激勵函數(shù)及閉值決定。圖5:bp網絡模型
18、bp網絡的學習算法使用梯度搜索技術,以期望網絡的實際輸出與期望輸出的均方差最小。網絡的學習是一種在誤差反向轉播的同時修正的過程。學習過程應包括兩個階段:前向計算階段和反向調整階段。在具體的實驗過程中采用三層bp神經網絡來實現(xiàn)。通過實驗測試設定隱含層神經元數(shù)目為10,所以只需分類10個數(shù)字,設定輸出層神經元數(shù)目為10。隱含層神經元的傳遞函數(shù)采用s型對數(shù)函數(shù)logsig, 輸出層神經元傳遞函數(shù)也采用s 型對數(shù)函數(shù)logsig,此神經網絡的訓練函數(shù)采用trainlm,性能函數(shù)采用sse,訓練步數(shù)最長設為5000,性能目標設為0.01。通過訓練好的神經網絡能對需要識別的數(shù)字進行識別。具體的代碼如下所示
19、:function net = edu_createnn(p,t)%創(chuàng)建神經網絡alphabet = p;targets = t;r,q = size(alphabet);s2,q = size(targets);s1 = 10;s2=10;net = newff(minmax(alphabet),s1 s2,logsig logsig,trainlm);net.lw2,1 = net.lw2,1*0.01;net.b2 = net.b2*0.01;net.performfcn = sse; net.trainparam.goal = 0.01; net.trainparam.show = 2
20、0; net.trainparam.epochs = 5000; net.trainparam.mc = 0.95; p = alphabet;t = targets;net,tr = train(net,p,t); 圖6:gui界面及實驗結果3.5實驗分析在本次課程實驗中我對0到9這10個手寫的數(shù)字進行識別,在實驗過程中,發(fā)現(xiàn)該系統(tǒng)沒辦法達到百分之百的準確率,進行多次程序的調試這個問題仍然沒辦法得到改進。例如該系統(tǒng)有時會將8識別為1,將7識別為3,或者將7識別為2,但是對于4,5,6這三個數(shù),識別的準確率能達到百分之百。存在錯誤的原因可能是在特征提取時一些手寫的數(shù)字在7*5這個模版中體現(xiàn)的不
21、夠獨一性,可以提高特征提取的維數(shù),比如改成16*16模版進行提取,這樣可能可以提高識別的準確率。還有一個原因可能是網絡結構過于簡單,本次實驗采用了傳統(tǒng)的bp網絡對樣本進行了分類,要適應各種變體是比較困難和不穩(wěn)定的。在實際的應用中,可以采用多種方法改進bp網絡的分類性能。比如說,對bp算法進行改進,組建多級bp網絡,構建集成型神經網絡,將支持向量機和bp網絡結合等。實驗中通過0-9這10個數(shù)字進行比對的具體準確率,如下表所示:數(shù)字樣本個數(shù)識別個數(shù)錯識個數(shù)準確率11010990%21010880%3101099%4101010100%5101010100%6101010100%71010880%81010990%91010990%0101010100%5、課程設計總結與體會 通過本次的課程設計使得我對手寫阿拉伯數(shù)字識別系統(tǒng)的設計和運行有了深入的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 健身訓練合同范例
- 產品聯(lián)名定制合同范例
- 人力公司墊資合同范例
- 冰瓶購銷合同范例
- 臨時供貨款合同范例
- 創(chuàng)業(yè)投資咨詢合同范例
- 共用圍墻建筑合同范例
- 買汽車訂金合同范本
- 上海住宅消防工程合同范例
- 公路物流運輸標準合同范例
- 2025年方大萍安鋼鐵招聘筆試參考題庫含答案解析
- 《高原紅細胞增多癥血液稀釋療法護理操作規(guī)程》
- 2025年電力工程施工企業(yè)發(fā)展戰(zhàn)略和經營計劃
- 年終抖音運營述職報告
- 汽車維修店加盟協(xié)議書細則
- 2024東莞市勞動局制定的勞動合同范本
- AQ6111-2023個體防護裝備安全管理規(guī)范
- 2023版押品考試題庫必考點含答案
- 空氣能熱泵安裝示意圖
- 最新《工會基礎知識》試題庫及答案1000題【完美打印版】
- 辦公家具項目實施方案、供貨方案
評論
0/150
提交評論