




已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
畢業(yè)設計說明書手寫體數(shù)字識別的軟件設計電子與計算機科學技術學院學生姓名: 學號: 計算機科學與技術專業(yè)學 院: 專 業(yè): 指導教師: 2009年 6月手寫體數(shù)字識別的軟件設計 摘 要手寫體數(shù)字識別是利用機器或計算機自動辨認手寫體阿拉伯數(shù)字的一種技術,是光學字符識別技術的一個分支。由于阿拉伯數(shù)字的世界通用性,并且數(shù)字的識別和處理也常常是一些自動化系統(tǒng)的核心和關鍵,所以對手寫體數(shù)字識別研究通用性強,且意義重大。本文主要的研究的工作集中在圖像預處理和選擇合適的特征向量,并實現(xiàn)一個完整手寫體數(shù)字識別系統(tǒng)。本文中對幾種常見的二值化算法進行比較,并最終選擇基于梯度的二值化算法;在本文中,提出了一種方法來解決結構點檢測的傳統(tǒng)方法的缺陷。另外本文還提出將一般用來直接識別字符的凸凹特征作為字符的特征向量之一。通過對NIST的數(shù)據(jù)進行測試,實驗數(shù)據(jù)表明本文設計的數(shù)字識別系統(tǒng)對手寫體數(shù)字識別具有較高的識別率。關鍵詞:手寫體數(shù)字識別,特征向量,二值化算法,凸凹特征The Software Design of Handwritten Numeral Recognition AbstractThe handwritten numeral recognition is a technology, which auto recognizes the handwriting Arabian numeral via machines or computers, and a special field in the Optical Character Recognition technology. Then handwritten numeral recognition research is greatly general-purpose and significative, because of the universal Arabic numerals. On the same score, the handwritten numeral, recognition technologies are playing an important role in a number of automatization systems.In this paper, the main study focused on image pre-processing and selection of appropriate feature vectors, and to realize a complete system of handwritten numeral recognition. There are several common comparisons of binarization algorithm in this article, and choose the gradient-based binarization algorithm finally; and objecting to the defection of traditional methods of structural point detection, a solution to the problem was put up in this article. In addition, this paper also raises the convex-concave feature as one of the character feature vectors.Through the NIST test data, experimental data shows that the digital identification system designed for handwritten numeral recognition has a high recognition rate.Keywords: Handwritten numeral recognition, Character feature vectors, Binarization algorithm, Convex-concave feature目 錄1 緒論11.1 字符識別概述11.2 手寫數(shù)字識別的意義和應用前景21.3 字符識別的研究與發(fā)展31.4 手寫數(shù)字識別的難點31.5 國內外研究現(xiàn)狀41.6 手寫體數(shù)字識別系統(tǒng)概述51.7 本文內容安排62 手寫體數(shù)字識別中預處理技術82.1 平滑去噪82.2 二值化102.3 歸一化162.4 傾斜校正202.5 細化223 手寫體數(shù)字識別中串切分技術253.1 切分方法概述253.2 手寫數(shù)字串常用方法簡介253.2.1 投影法的直線切分253.2.2 滴水算法263.2.3 動態(tài)規(guī)劃算法263.2.4 滑動窗口法263.2.5 多模具切分法263.3 本文手寫數(shù)字串切分方法介紹274 手寫體數(shù)字識別中特征值提取技術294.1 特征提取概述294.2 手寫體字符特征提取方法概述304.3 手寫體數(shù)字識別中的結構特征提取324.3.1 結構點特征324.3.2 穿越密度特征344.3.3 投影特征354.4 手寫體數(shù)字識別中的統(tǒng)計特征提取364.4.1 重心矩特征364.4.2 粗網(wǎng)格特征364.4.3 水平、垂直投影特征374.4.4 環(huán)凸凹特征384.4.5 全局Kirsh邊緣方向特征395 人工神經(jīng)網(wǎng)絡分類器415.1 人工神經(jīng)網(wǎng)絡概述415.2 BP神經(jīng)網(wǎng)絡概述425.3 本文的神經(jīng)網(wǎng)絡結構設計446 系統(tǒng)實現(xiàn)與結果分析476.1 系統(tǒng)實現(xiàn)476.1.1 系統(tǒng)實現(xiàn)環(huán)境476.1.2 系統(tǒng)處理過程圖476.2 結果分析487 結束語50附錄:NIST樣本庫的文件結構51參 考 文 獻52致 謝541 緒論1.1 字符識別概述光學字符識別(Optical Character Recognition,簡稱OCR)是20世紀20年逐步發(fā)展起來的一門自動化技術,是圖像處理與模式識別領域的一個重要分支1。其目的就是通過掃描、攝像等光學輸入方式將漢字報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,將圖形、表格的圖像進行保存,再利用文字識別技術將圖像內的文字或表格中的資料一律變成計算機能識別的文字,以便于計算機的管理維護。它能夠減少存儲容量、通訊交流的信息、循環(huán)利用已識別出的文字以及節(jié)省因鍵盤輸入而浪費的人力、物力、財力和時間。手寫數(shù)字識別(Handwritten Numeral Recognition,簡稱HNR)是OCR的一個分支,它的任務是把手寫阿拉伯數(shù)字(如0,1,2,9)通過非鍵盤方式輸入到計算機中,以便作進一步的處理和應用,給計算機建立視覺系統(tǒng),自動辨識人用筆寫在紙(介質)上的數(shù)字。它屬于模式識別、人工智能的一個重要分支,涉及到模式識別和圖像處理、人工智能、統(tǒng)計決策理論、模糊數(shù)學、組合數(shù)學、信息論、計算機等學科;同時也涉及心理學等,是介于基礎研究與應用研究之間的一門綜合性的技術2,在辦公室、機器翻譯等方面具有重大實用意義。手寫體數(shù)字的識別是人們研究較為深入的一個領域。文字識別作為計算機技術的一個領域在許多的環(huán)境當中都有著非常廣泛的應用。文字識別是新一代智能計算機接口的重要組成部分。近二十年來,國內外對各種字符進行了廣泛深入的研究,研究出了許多非常有效的識別算法,與此同時用于各種字符識別的應用軟件也越來越豐富。 字符識別可以分為兩個大類,文字識別和數(shù)字識別。數(shù)字識別又可以分為手寫體數(shù)字識別和印刷體數(shù)字識別,而對于手寫體數(shù)字識別可分為聯(lián)機手寫體數(shù)字和脫機手寫體數(shù)字的識別。當今手寫體數(shù)字識別是人們研究的一個熱點,而且手寫體數(shù)字識別的技術相對于以前已經(jīng)有了較大的提高。國內專門做識別技術成果比較好的是漢王公司,該公司的識別軟件對各種字符識別率已經(jīng)很不錯。相對于聯(lián)機手寫體數(shù)字識別技術,脫機手寫體數(shù)字識別技術識別率相對要低,而且在生活實際應用得到很多應用(例如:手機手寫輸入,手寫板等都是基于聯(lián)機識別)。由于聯(lián)機識別相對于脫機識別能夠獲取更多的信息,其除了獲取了圖片信息外,計算機還可以通過與計算機相連的手寫輸入設備獲得輸入字符筆劃的順序、筆劃的方向以及字符的形狀。因此一般的聯(lián)機識別要比脫機識別的識別率要高。所以聯(lián)機識別的已經(jīng)投入使用,但是對于脫機識別由于其技術限制,以至其到現(xiàn)在還沒有大范圍的應用。雖然脫機手寫體數(shù)字識別難度較大,識別率較低,但是比起聯(lián)機手寫體數(shù)字識別來說,脫機手寫體數(shù)字識別不要求書寫者在特定的輸入設備上書寫,它可以與平常一樣書寫,所以脫機手寫體數(shù)字識別的應用更為廣泛,如郵政編碼、統(tǒng)計報表、財務報表、銀行票據(jù)、學生成績、車牌號碼等。一旦脫機手寫體數(shù)字的研究取得成功,滿足實用需求,并投入應用,將產(chǎn)生巨大的社會效益。1.2 手寫數(shù)字識別的意義和應用前景對手寫體數(shù)字的識別研究不僅有著重大的現(xiàn)實意義而且還有十分廣闊的應用前景。當今經(jīng)濟的發(fā)展,金融市場化進程的日益加快,票據(jù)業(yè)務發(fā)展很快,票據(jù)數(shù)量也與日俱增。其中個人憑證,支票,發(fā)票,進賬單等等票據(jù)均需要處理大量的信息。而目前,票據(jù)錄入仍然依賴人工處理方式,因而使得票據(jù)管理工作也相對落后。如果通過手寫體字符識別技術來實現(xiàn)信息的自動錄入,無疑將會有效解決傳統(tǒng)人工處理方式中存在的工作量大、成本高、效率低、時效性差等問題。此外,手寫數(shù)字識別應用領域還有:1) 手寫數(shù)字識別被應用在大規(guī)模數(shù)據(jù)統(tǒng)計中。例如:人口普查、成績單錄入、行業(yè)年檢、財務報表錄入等應用中。2) 手寫數(shù)字識別被應用在財務、稅務、金融領域應用。隨著我國經(jīng)濟的快速發(fā)展,每天會有大量的財務、稅務、支票等需要處理。3) 手寫數(shù)字識別被應用到郵件分揀系統(tǒng)中3。由上可見,對手寫體數(shù)字識別有著很高的實用價值,除此之外,手寫體數(shù)字識別作為模式識別領域的一個重要問題,也有著重要的理論價值:1) 阿拉伯數(shù)字是唯一的被世界各國通用的符號,對于手寫體數(shù)字識別的研究基本上與文化背景無關,這樣就為世界各國研究者提供了一個供大家共同探討技術的平臺,研究并比較各種算法的優(yōu)缺點。2) 由于手寫體數(shù)字識別的類別少,有助于作深入分析與驗證一些新的理論。這方面最明顯的例子是人工神經(jīng)網(wǎng)絡(ANN)。很多ANN模型和算法都是以手寫體數(shù)字識別作為實驗測試平臺,驗證其理論的有效性,評價各種方法各自的優(yōu)缺點。3) 盡管人們對手寫體數(shù)字識別已經(jīng)從事了很長時間的研究,并取得了一定的成果,但是到目前為止,機器識別本領與人的認知能力相比,還是有很大的差距。4) 手寫體數(shù)字識別的方法很容易被推廣到其它相關問題上,比如英文字母識別、漢字識別等等。1.3 字符識別的研究與發(fā)展字符識別的最早能追溯到1890年一項幫助盲人閱讀裝置的發(fā)明專利。1929年,有德國人Tausheck首先正式提出OCR概念,并取得了OCR專利權,四年后美國人Handel也取得了同樣的專利權4。但真正OCR是在本世紀50年代隨著計算機的出現(xiàn)而到來的。在字符識別大發(fā)展時期(1990年后),許多研究者對字符識別進行了探索與研究,當時提出許多新的有效識別工具,其中人工神經(jīng)網(wǎng)絡(Artificial Neural Network ,ANN)5,支持向量機(Support Vector Machine)6,7,隱馬爾科夫模型(Hidden Markov Model,HMM)8等,而這些識別工具至今仍然是研究的熱點。1) 在人工神經(jīng)網(wǎng)絡識別方法中,模式類的描述方法一般還是特征向量,只是在分類時,利用了神經(jīng)網(wǎng)絡的自動學習和記憶功能,通過對樣本的訓練建立起記憶,然后將未知樣本作為輸入讓神經(jīng)網(wǎng)絡“回憶”出該樣本所屬的類別。2) 支持向量機是Vapnik 等人根據(jù)統(tǒng)計學理論提出的一種新型機器學習方法。由于其出色的學習性能,該技術已成為機器學習界的研究熱點,并在很多領域都得到了成功的應用,如人臉識別、手寫體數(shù)字識別、文本自動分類等。3) 隱馬爾科夫模型是一類基于馬爾科夫隨機過程的統(tǒng)計模型9。隱馬爾科夫模型對于隨機信號具有很強的學習和建模能力,因此在語音識別中取得了很大的成功。從上世紀90年代開始,一些研究者已經(jīng)將隱馬爾科夫模型引入到了圖像處理、識別和分析中來。1.4 手寫數(shù)字識別的難點雖然,人們對字符識別的研究有百余年,并在字符識別取得了可喜的成績(其漢字識別也越來越多的應用到實際應用中),然而字符識別的一個分支數(shù)字識別的研究卻離實際應用還有一定差距。這是因為,在一般情況下,當涉及到數(shù)字識別時,人們往往要求識別系統(tǒng)有很高的識別精度(又稱可靠性)10,特別是有關金融的數(shù)字識別時,如支票中填寫的金額部分,更是如此。因此針對這類問題,就要求手寫數(shù)字識別系統(tǒng)具有高可靠性和高識別率??偨Y數(shù)字識別的難點主要在于以下幾方面:1) 阿拉伯數(shù)字的字型信息量很小,不同數(shù)字寫法字形相差又不大,使得準確區(qū)分某些數(shù)字相當困難11。2) 數(shù)字雖然只用10種,而且筆畫簡單,但書寫上帶有明顯的地域特性,同一數(shù)字寫法千差萬別,不同地域的人寫法也不相同,所以很難做到兼顧各種寫法的極高識別率的通用型數(shù)字識別系統(tǒng)12。3) 在實際應用中,對數(shù)字的單字識別正確率的要求要比文字要苛刻得多。這是因為,文字組合一般都存在上下文關系,但數(shù)字組合存在極少的或沒有上下文關系,所以每個孤立數(shù)字的識別都至關重要13。而且數(shù)字識別經(jīng)常涉及到財務、金融領域,其嚴格性更是不言而喻的。因此,對手寫數(shù)字識別系統(tǒng)的要求不僅僅是單純的高正確率,更重要的是極低的誤識率。4) 由于脫機手寫數(shù)字的輸入只是簡單的一幅圖像,它不像聯(lián)機輸入那樣可以從物理輸入設備上獲得字符筆畫的順序信息14,因此脫機手寫數(shù)字識別是一個更有挑戰(zhàn)性的問題。1.5 國內外研究現(xiàn)狀手寫體數(shù)字識別在學科上屬于模式識別和人工智能的范疇。在過去的數(shù)十年中,研究者提出了許多識別方法,目前手寫體數(shù)字識別方法可以分為兩類:基于結構特征的方法和基于統(tǒng)計特征的方法15。通過幾十年來各國研究學者得對數(shù)字識別的研究,國內外在手寫識別上也取得了一定的成就。在我國郵電部第三研究所,以信函分揀為目的,識別書寫在信封上的郵政編碼。其它用傳統(tǒng)方法進行識別研究的有中國科學院自動化研究所,該所對手寫體數(shù)字識別的研究歷史幾乎有20年了,在他們新近的報告中,利用以有限狀態(tài)自動機為主的識別途徑識別1100個手寫體數(shù)字,識別率達95.2%,拒識4%,誤識0.2%,上海交通大學基于壓縮字結構特征的手寫體數(shù)字識別算法選取了12600個樣本組成訓練集,6000個樣本組成測試集,用BP網(wǎng)絡進行分類,識別正確率為97.58%,誤識率為1.04%,拒識率為1.38%。 德國E9的Friedhelm Schwenker采用SV-RBF40對手寫體數(shù)字進行識別,測試樣本10000個,識別正確率為98.56%。清華大學采用SVM對金融票據(jù)中的手寫體數(shù)字進行識別,測試樣本20000個,識別率約為92%。然而以上提到的系統(tǒng),要么對書寫的正規(guī)程度有要求,要么其測試樣本和訓練樣本出于同一批人之手??傊话愕南到y(tǒng)對書寫人員限制較多,或者對書寫的正規(guī)程度有要求,或者對書寫位置有要求,或者對所用筆、紙有要求,例如對稅務報表的識別就要求用規(guī)定的字型書寫數(shù)字,并且對書寫的位置有要求,而真正的無限制手寫體數(shù)字的識別的研究還有待進一步提高。1.6 手寫體數(shù)字識別系統(tǒng)概述不同的識別系統(tǒng),在具體處理一幅待識別圖像時,處理的步驟可能并不完全相同。但是就一般情況看,一個完整的OCR識別系統(tǒng)可分為:原始圖像獲取,預處理,特征抽取,分類識別和判別處理等模塊。(見圖1.1)。 原始圖像獲取預處理特征提取分類識別判別處理識別結果圖1.1 常見數(shù)字識別系統(tǒng)框架1) 預處理階段在獲取原始數(shù)字圖像過程中,由于光照、背景紋理、鏡頭分辨率、拍攝角度等原因,難免會造成圖像失真并帶有噪聲。由于這些噪聲的影響,如果對獲取得到的數(shù)字圖像進行直接處理的話通常不能得到滿意的結果,因此在獲取原始數(shù)字圖像后,需要對圖像進行預處理。對于字符識別的預處理過程一般包括:濾波去噪、二值化、字符切分、圖像校正、歸一化處理。經(jīng)過預處理后的圖片不僅能夠有效濾除噪聲,并且能夠將不同的大小、傾斜角度的字符進行歸一化到一個固定大小,對大量數(shù)據(jù)進行壓縮處理。預處理階段在該系統(tǒng)中是一個很重要的階段。預處理效果的好壞會直接影響到整個系統(tǒng)的性能。具體方法可以詳見第二章。2) 特征提取階段由于原始數(shù)字圖像數(shù)據(jù)量大,冗余信息較多,一般不進行直接識別,而是進行提取有效特征數(shù)據(jù)、壓縮數(shù)據(jù),然后再進行識別。換句話說特征提取是為了去除圖像信息中對分類沒有幫助的部分,將圖像信息集中到幾個有代表性的特征上來的過程。特征值的提取一般包括:筆畫、拓撲點、結構突變點、投影形狀、點(端點、連點、三叉點、四叉點、垂直交點,水平交點等)、弧、連通區(qū)域、凸凹形狀、環(huán)、字符整體輪廓、檢查必要的基元是否存在、不可有的基元是否出現(xiàn)等特征。3) 分類識別階段分類識別是數(shù)字識別的關鍵步驟之一,它是指分類器依據(jù)特征提取階段抽取的特征,就送入分類器中做最后的字符分類識別。該環(huán)節(jié)現(xiàn)在普遍采用的是基于神經(jīng)網(wǎng)絡和模板匹配兩種模式??紤]到神經(jīng)網(wǎng)絡能夠很好的容忍字符的形狀變換、噪聲的影響。因此,在分類其中,我們將提取到的特征值輸入到已經(jīng)訓練好的神經(jīng)網(wǎng)絡中進行分類識別。4) 判別處理階段當分類完成后,為了保持系統(tǒng)的識別性能,通常需要對識別結果作一次判別處理,認為該結果是否被接收還是拒絕。這個階段可以根據(jù)具體的應用來設計不同的判別決策。例如,在金融數(shù)字的識別中,要求錯誤識別率相當高,那么在判別處理時嚴格限制接收條件就可以降低識別的錯誤率。1.7 本文內容安排我們主要目標是對有噪聲、一定約束書寫條件下的脫機手寫體數(shù)字串的切割和識別算法進行一些探討性研究,以期提高其準確性,獲得更高的可靠性。我們將對原始獲取的數(shù)字圖像(以及模擬一個簡單的寫字板)進行識別。本文內容上總體安排為七章。第一章主要是對OCR和手寫體數(shù)字識別作簡單的介紹。介紹內容有:OCR及手寫體數(shù)字識別的歷史及現(xiàn)狀;手寫體數(shù)字識別的意義和難點;數(shù)字串識別系統(tǒng)的整體描述以及本文的研究內容。第二章:主要是研究手寫體數(shù)字識別中的預處理技術。本文采用預處理有濾波去噪,閾值分割,歸一化,細化等技術,該章節(jié)對其進行詳細分析。同時本章針對幾種閾值分割進行比較,分析其各自的優(yōu)缺點。第三章:主要研究的是手寫體數(shù)字識別中的切分技術。本章將對當前無約束手寫體數(shù)字串的切分技術進行概述,最后詳細介紹本文采用的手寫體數(shù)字串的切分方法。第四章:主要研究的是手寫體數(shù)字識別中的特征值提取技術。在特征值提取模塊中,需要根據(jù)特征表達方式或者特征提取技術的不同,選用不同的預處理技術。比如對于關鍵點特征的提取,則需要使用字符的外輪廓、骨架信息。由于單一的特征對數(shù)字的描述有一定的局限性,因此本文將采用多特征組合的特征向量作為字符的描述特征值來識別數(shù)字。本章將詳細介紹這些相關的特征值的提取步驟。另外本章中對傳統(tǒng)的細化算法提出了一種的改進方法。第五章:主要簡單介紹神經(jīng)網(wǎng)絡分類識別器實現(xiàn)原理。初步介紹本文采用的BP神經(jīng)網(wǎng)絡,并給出本文采用的學習算法和訓練算法。第六章:介紹了本文實現(xiàn)的系統(tǒng)的開發(fā)和運行環(huán)境,以及系統(tǒng)的處理過程圖,并通過對NIST的圖像數(shù)據(jù)庫進行測試,給出相關實驗數(shù)據(jù)。第七章:對整個論文的研究和工作進行了總結并指出了進一步的研究方向。2 手寫體數(shù)字識別中預處理技術預處理對于一個良好的識別系統(tǒng)不僅是一個必不可少的環(huán)節(jié),而且是至關重要的。如果預處理處理得不夠理想,會從很大程度上降低整個系統(tǒng)的識別率。一般手寫體數(shù)字識別而言,預處理包括很多部分,如平滑、去噪、二值化、歸一化、細化、形狀校正、去各種類印章、背景底紋等等。由于本文主要不是針對類似于票據(jù)識別中的這種具有各種背景底色或者印章之類的數(shù)字識別,本文主要研究的是在紙(無底紋、印章等)上寫的手寫體數(shù)字進行識別。因此本文就省去了去除類印章、背景底紋等的這些操作。2.1 平滑去噪數(shù)字圖像的噪聲主要來源于圖像的獲?。〝?shù)字化過程)。圖像傳感器的工作情況受各種因素的影響,如圖像獲取中的環(huán)境條件和傳感元器件自身的質量。例如,使用CCD攝像機獲取的圖像,光照強度和傳感器溫度是造成圖像中產(chǎn)生大量噪聲的主要因素。除此之外對于有些傳感元器件的自身質量,如手機自帶的照相設備一般分辨率較低,在獲取數(shù)字圖像時會產(chǎn)生斑點噪聲。噪聲對于圖像的預處理非常重要,它會影響圖像處理的輸入、采集、處理各個環(huán)節(jié)和識別結果的全過程。特別是圖像的輸入、采集的噪聲是十分關鍵的問題。如果輸入不良伴有較大的噪聲,濾波去噪后不能達到理想效果,將必然的嚴重影響處理的全過程以至最后的識別結果。噪聲去除已經(jīng)成為圖像處理極其重要的步驟,然而現(xiàn)在還沒有一個通用的濾波去噪方法對所有的圖片適用,一般的圖像預處理必須根據(jù)實際情況選擇不同濾波去噪方法進行比較,最后得出最佳的濾波去噪方法。濾波去噪的方法可以簡單分為兩類:頻域濾波和空間域濾波。頻域濾波一般采用的方法是將空間圖像采用快速傅里葉變換轉換成頻域信息,然后再采用信號處理的濾波方法進行濾波(一般采用的有阻濾波器、帶通濾波器、陷波濾波器、最佳陷波濾波器等),濾波處理后再通過傅里葉逆變換進行逆變換成空間圖像信息,從而達到濾波效果。但是由于頻域濾波需要頻域轉換后再采用濾波器濾波,其實現(xiàn)起來較為復雜,效率也相對較低,而空間域濾波方法速度較快、實現(xiàn)簡單、效果很好,因此現(xiàn)在很多研究者中都采用空間域濾波方法對數(shù)字圖像進行濾波。對于空間域濾波算法中最常用的是平滑濾波去噪法,其主要思想為在圖像空間中借助模板對圖像進行領域操作,用平均運算方法去除突然變化的點從而濾掉一定的噪聲。輸出圖像的每一個像素的取值都是根據(jù)模板對輸入像素相應領域內的像素值進行計算得到的。常見的平滑去噪方法有:nn中值濾波器,高斯濾波器等等。中值濾波是較為經(jīng)典的一個空間域濾波算法,該算法是將一個nn大小的模板從上到下從左到右在圖像上進行移動,在對所移到的各個像素上,使用模板中所有的像素灰度值的中間值取代當前像素的灰度值: (式2.1)中值濾波器常見的有33和55大小的模板。圖2.1是33的中值濾波器。圖中M點像素的灰度等于其領域內9個(A0A7,M)像素灰度值的中間值。A3A2A1A4MA0A5A6A7圖2.1 33的中值濾波器模板示意圖圖2.2是采用33的中值濾波器對帶有噪聲的圖片進行濾波后的效果。 a) 含有噪聲的圖像b) 用33的中值濾波后的圖像圖2.2 中值濾波中值濾波對于很多種隨機噪聲,它都有良好的去噪能力,且在相同尺寸下比起線性平滑濾波器引起的模糊較少。中值濾波器尤其對單級或雙極脈沖噪聲非常有效。但是本文在對圖片進行二值化處理中,后期將采用基于梯度的二值化處理,在梯度二值化處理中需要采用拉普拉斯變換提取邊緣特征,而拉普拉斯變換對噪聲特別敏感,因此我將會采用高斯濾波器對圖像進行濾波,然后再采用高斯拉普拉斯提取邊緣信息。因此,需要簡單介紹一下空間域的高斯平滑濾波器。圖像的高斯平滑濾波器,其濾波器的模板設計是根據(jù)高斯函數(shù)的最佳逼近的二項式展開的系數(shù)來決定。根據(jù)高斯函數(shù)的可分離性可以得到,二維高斯濾波器能用2個一維高斯濾波器逐次卷積來實現(xiàn),一個沿水平方向,一個沿垂直方向。因此高斯平滑濾波器與圖像簡單平滑不同的是,它在對領域內像素灰度進行平均時,給與了不同位置的像素不同的權值。常見的高斯模板(33)如圖2.3所示,模板上越靠近領域中心的位置,其權值越高,如此安排權值的意義在于用此模板進行圖像平滑時,在對圖像細節(jié)進行模糊的同時,可以更多的保留圖像總體的灰度分布特征。121242121圖2.3 33高斯模板高斯濾波器相對簡單平滑濾波器的效率較低(需要額外乘法運算),在離散型雜點的消除方面,高斯平滑的效果并不理想。然而在保留圖像的總體特征上,高斯濾波器表現(xiàn)了很好的性能。2.2 二值化二值圖像是指整幅圖像頁面內僅有黑(像素值為0),白(像素值為1)的二值圖像。一般的文字識別的文字圖像、進行指紋識別的指紋圖像,大多數(shù)都需要將灰度圖像轉化成二值圖像。在數(shù)字圖像處理中,二值化占有非常重要的地位。這是因為,一方面類似于字符、指紋、工程圖等圖像本身就是二值的。另一方面,在某些情況下即使圖像本身是有灰度的,也將其轉換成二值圖像再處理。這樣在圖像處理系統(tǒng)中,可以減少圖像信息并提高處理速度。圖像的二值化有幾種類型,其中主要的有基于灰度分布的二值化,也有基于梯度信息的二值化?;诨叶确植嫉亩祷幚硪话闶峭ㄟ^設定閾值,把它變?yōu)閮H用二值表示前景和背景顏色的圖像。圖像的二值化可以根據(jù)下面的閾值來處理:假設一幅原始圖像的像素值p(i,j)的取值范圍為0,m,那么設有其閾值為T=t,0t e)- f)- g)-d)順序顯示了本文算法在進行閾值分割的中逐步處理的效果圖(其中e)由Step4產(chǎn)生的三級圖像,圖像中只包含有灰、白、黑三種顏色,黑色表示Step5中被標記0的像素,灰色表示被標記為2的像素,白色則表示被標記為1的像素)。2.3 歸一化對于字符識別來說,歸一化是一個很重要的預處理因素。由于人們在書寫、設備使用焦距不同等原因可以導致獲取后的數(shù)字圖像字符的大小不一。對于大小不一的字符圖像,處理起來很不方便,因此在通常情況下,在對字符進行預處理的時候,我們必須將單個字符進行歸一化處理。歸一化處理一般的是將單字符圖像進行歸一化到固定的大小的數(shù)字圖像,例如本文采用的歸一化后的數(shù)字圖像大小為2020。進過歸一化處理后,一般的能夠將大的字符圖像信息進行縮小到固定大小的數(shù)字圖像,這樣在提高識別率的同時也能提高處理的效率。歸一化算法有:線性歸一化、非線性歸一化和矩歸一化。這些方法早已在字符識別中被采用。本文采用矩歸一化算法對單字符圖像進行歸一化處理。為了能更加容易的進行特征提取和分類,歸一化后的圖像平面(標準平面的)x/y軸的大小是固定的(本文采用20/20)。然而,在縱橫比歸一化中,標準平面未必總能填滿。依靠縱橫比,歸一化后的圖像位于平面的中央且有一個方向是填滿的。設標準平面為正方形(變長用L表示)。則歸一化后的圖形寬度與高度分別用W2和H2表示,則縱橫比定義如下: (式2.8)a) 原始圖像b) 采用根據(jù)一維直方圖自動閥值分割效果 c) 采用基于OTSU的二維最大類間方差閾值分割的改進算法分割效果d) 采用本文的二值化算法進行閥值分割的最終效果(由g)圖進行線、點濾波后的結果)e) 采用本文的二值化算法之三級圖像(由a)圖像進行處理) g) 采用本文的二值化算法之縱向掃面(由e)圖像進行處理然后與f)圖結合)f) 采用本文的二值化算法之橫向掃描(由e)圖像進行處理) 圖2.9 三種不同二值化算法的比較和本文二值化算法的處理步驟效果圖。如果歸一化后的圖像填滿了一個方向,則Max(W2,H2)=L。在矩的歸一化中,圖像的重心(式2.9所示為圖像重心計算公式)與標準平面的中心是重合的。此時可能導致歸一化后的圖像并不總是一個方向填滿,而且有可能超出。本文采取的處理方法是,將有超出部分將其截去。設圖像的中心為P(xc,yc),則圖像重心計算如下: (式2.9)其中,設圖像的標準平面中心為Q(,),則有: (式2.10)設原圖像的長寬分別為:W1和H1,那么如果,表示縱橫比,通過下面公式定義: (式2.11)那么設(x,y),(,)分別表示原圖像的坐標和歸一化后圖像的坐標,那么則有: (式2.12)因此由式2.12就可以將任意字符圖像的大小轉化成固定的圖像大小。由式2.11可知,按式2.12進行歸一化后的圖像的高和寬均被填滿。這就會導致一個問題:歸一化后的字符的形狀可能會與原來有很大的差別。最為典型的是數(shù)字1,如果采用上方法進行歸一化處理之后,將會將整個圖像填滿,這時字符圖形嚴重的變形了。而如果保持原圖縱橫比的話,將能夠較好的保持字符形狀,也就是將式2.11改為式2.13: (式2.13)圖2.10是采用式2.13進行歸一化處理的效果。 a) 原圖像1c) 原圖像1歸一化后結果b) 原圖像2 d) 原圖像2歸一化后結果圖2.10 采用2.13式進行歸一化的結果由圖2.10可見,對于書寫長寬規(guī)范的字符,采用保持原圖縱橫比能很好的進行歸一化(如圖2.10中a)圖的歸一化結果),然而,如果在書寫過程中,字符長寬差距較大(如圖2.10中b)圖的歸一化結果),就可能導致原有的環(huán)形被填充了,因此為了解決這種問題,本文提出的解決方法是,將式2.11修改為式2.14。 (式2.14)圖2.11顯示了采用式2.14對圖2.10中b)圖進行歸一化處理的效果。另外,在本文中,考慮到一般的由于原始圖像的大小比標準平面的大小要大,因此在進行歸一化后,一般不會產(chǎn)生斷裂現(xiàn)象,另外加上插值擬合算法的需要一定的計算時間,因此本文不對歸一化后的圖像進行插值擬合。 圖2.11 采用式2.14的歸一化的結果a) 原圖b) 歸一化后的效果2.4 傾斜校正在預處理的中,傾斜校正也是一個很重要的一個步驟。由于在人們書寫過程中,會有一定的傾斜(傾斜度一般在 0o45o),如果不對字符圖形進行矯正處理,就會影響后期的特征值提取,最終會影響系統(tǒng)的識別率。傾斜校正的手寫體數(shù)字的圖像主要有兩種:一種是數(shù)字間完全沒有限制的,可以連筆,即整體傾斜矯正;另外一種是數(shù)字間彼此孤立的,沒有任何聯(lián)系,即單字符傾斜矯正。由于本文在進行傾斜矯正時針對已經(jīng)切分好的單個字符,因此本文所采用的傾斜矯正算法是單字符傾斜矯正。本文采用的傾斜算法主要采用的是文獻18的算法。很多傾斜矯正算法都是基于“當圖像傾斜度最小時,圖像的高寬比將達到最大”這一特點。本文采用的算法也是基于這一規(guī)律。在簡單描述算法之前,先做這樣的規(guī)定:圖像中某點旋轉方向為順時針時,角度為正,為逆時針時,角度為負。旋轉中心定在圖像的幾何中心處。那么對任意給定的圖像中的像素點(x0,y0),旋轉中心分別進行順時針和逆時針旋轉的方式如圖2.12所示,圖中(x1,y1)和(x2,y2)分別表示的是(x0,y0)順。逆時針旋轉角度后到達的點。旋轉前坐標為(x0,y0),r表示坐標點離原點的距離,則有: 圖2.12 點順時針,逆時針旋轉示意圖那么旋轉后的坐標(x1,y1)、(x2,y2)分別為:順時針旋轉角度:逆時針旋轉角度:以上的旋轉方法就是該算法對手寫體數(shù)字的位圖圖像進行傾斜矯正時所要用到的,下面是傾斜矯正的具體算法:1) 先設置初始旋轉角度為15o,初始位圖圖像B為活動位圖。2) 如果旋轉角度 1o,轉到3)。3) 設定活動位圖為B0,求出B0的高度h0、寬度w0并求出兩者的比值。將B0的所有像素點利用上面的方法分別進行順、逆時針旋轉角度,得到的圖像賦值為B1、B2,并求出B1高度h1、寬度w1、比值和B2高度h2、寬度w2、比值。4) 求出、中最大的一個,將它所對應的位圖圖像賦值為活動位圖B0。并把旋轉角度做改變:。由上算法進行逐步求解最接近的近似取得的最佳的傾斜角度,并自動矯正數(shù)字圖像。如圖2.13是經(jīng)過歸一化并傾斜矯正的效果。 b) 經(jīng)過歸一化并傾斜矯正的圖像a) 原圖圖2.13 歸一化并傾斜矯正效果2.5 細化字符細化是通過一定的處理算法將字符重要的像素點保留下來,去除無關緊要的點,得到字符筆劃骨架的技術。對字符識別而言,字符圖像上的各個像素點對識別率的貢獻并不一樣,細化處理能極大的消除字符圖像中的冗余點,使計算機在分析處理、識別時不受筆劃粗細的影響,快速的接觸到本質內容,減少運算量,從而縮短識別的時間。字符圖像細化結果的好壞將直接影響到字符特征提取的準確與否(尤其是一些結構特征的提?。?,最終影響到整個字符識別系統(tǒng)的識別率,因而字符細化已成為字符識別系統(tǒng)中極為重要的環(huán)節(jié)之一。在圖像分析中,形狀信息是十分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 視覺設計與制作 課件 項目3.1-1 認識色彩基礎
- 食品安全監(jiān)管職責培訓
- 心血管疾病的觀察與護理
- 化妝培訓課件
- 護理人員行為規(guī)范與職業(yè)素養(yǎng)
- 中醫(yī)院遷建項目運營管理方案
- 扶貧互助社培訓
- 2025年益陽網(wǎng)絡預約出租車考試題庫
- 肩關節(jié)半脫位護理措施
- 護理沙龍活動分享策劃案
- 2024年馬鞍山含山縣招聘高中教師筆試真題
- 高中數(shù)學第九、十章統(tǒng)計與概率章節(jié)測試卷-2024-2025學年高一下學期數(shù)學人教A版(2019)必修第二冊
- 【真題】五年級下學期數(shù)學期末試卷(含解析)四川省成都市高新技術產(chǎn)業(yè)開發(fā)區(qū)2023-2024學年
- 種植質量安全管理制度
- 2025至2030中國大型發(fā)電機行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 中國歌劇舞劇院管理制度
- 2025年爐外精煉工職業(yè)技能理論知識考試題庫(含答案)
- 外墻真石漆修補方案(3篇)
- 2025至2030中國海洋石油行業(yè)市場發(fā)展分析及競爭格局與投資發(fā)展報告
- 2025年安徽省中考數(shù)學試卷真題(含標準答案)
- 2025至2030年中國高純氧化鎂行業(yè)市場運行格局及前景戰(zhàn)略分析報告
評論
0/150
提交評論