手寫體數(shù)字識別方法的研究與實現(xiàn)_第1頁
手寫體數(shù)字識別方法的研究與實現(xiàn)_第2頁
手寫體數(shù)字識別方法的研究與實現(xiàn)_第3頁
手寫體數(shù)字識別方法的研究與實現(xiàn)_第4頁
手寫體數(shù)字識別方法的研究與實現(xiàn)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、手寫體數(shù)字識別方法的研究與實現(xiàn)摘要1 引言手寫體數(shù)字識別是文字識別中的一個研究課題,是多年來的研究熱點,也是模式識別領(lǐng)域中最成功的應(yīng)用之一。由于識別類型較少,在實際生活中有深遠的應(yīng)用需求,一直得到廣泛的重視。近年來隨著計算機技術(shù)和數(shù)字圖像處理技術(shù)的飛速發(fā)展,數(shù)字識別在電子商務(wù)、機器自動輸入等場合已經(jīng)獲得成功的實際應(yīng)用。盡管人們對手寫數(shù)字的研究己從事了很長時間的研究,并己取得了很多成果,但到目前為止,機器的識別本領(lǐng)還無法與人的認知能力相比,這仍是一個有難度的開放問題,所以對手寫數(shù)字識別的進一步研究,尋求如何更高效更準確更節(jié)能地實現(xiàn)手寫數(shù)字的自動錄入和識別的解決方案對提高經(jīng)濟效益、推動社會發(fā)展都有

2、深遠的意義。近年來, 人工神經(jīng)網(wǎng)技術(shù)發(fā)展十分迅速, 它具有模擬人類部分形象思維的能力, 為模式識別開辟了新的途徑, 成了模擬人工智能的一種重要方法,特別是它的信息并行分布式處理能力和自學習功能等顯著優(yōu)點, 更是激起了人們對它的極大的興趣。BP(Back Propagation)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中一種,是1986年由Rumelhart和McCelland為首的科學家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡(luò),可以很好地解決非線性問題,在函數(shù)逼近、模式識別和數(shù)據(jù)壓縮等方面都有很廣泛的應(yīng)用。我們在認真地研究了神經(jīng)網(wǎng)絡(luò)的基本原理和機制的基礎(chǔ)上, 結(jié)合手寫體數(shù)字識別這一具體課題, 提出了用BP神經(jīng)

3、網(wǎng)絡(luò)方法來實現(xiàn)手寫體數(shù)字識別的方案。2 手寫體數(shù)字識別概述2.1 手寫數(shù)字識別簡述模式識別是六十年代初迅速發(fā)展起來的一門學科。由于它研究的是如何用機器來實現(xiàn)人及某些動物對事物的學習、識別和判斷能力,因而受到了很多科技領(lǐng)域研究人員的注意,成為人工智能研究的一個重要方面。字符識別是模式識別的一個傳統(tǒng)研究領(lǐng)域。從50年代開始,許多的研究者就在這一研究領(lǐng)域開展了廣泛的探索,并為模式識別的發(fā)展產(chǎn)生了積極的影響。手寫體數(shù)字識別是多年來的研究熱點也是字符識別中的一個特別問題。手寫體數(shù)字識別在特定的環(huán)境下,如郵政編碼自動識別系統(tǒng),稅表和銀行支票自動處理系統(tǒng)等一般情況。當涉及到數(shù)字識別時,人們往往要求識別器有很

4、高的識別可靠性,特別是有關(guān)金額的數(shù)字識別時,如支票中填寫的金額部分,更是如此。因此針對這類問題的處理系統(tǒng)設(shè)計的關(guān)鍵環(huán)節(jié)之一就是設(shè)計出高可靠性和高識別率的手寫體數(shù)字識別方法。這個領(lǐng)域取得了飛速的發(fā)展,部分是由于更好的學習算法,部分是由于更優(yōu)良的訓練集。美國國家科學學會(NIST)建立了一個包含60000個經(jīng)過標注的數(shù)字的數(shù)據(jù)庫,它已經(jīng)成為對新的學習算法進行比較的性能測試標準。然而可以說還沒有哪個手寫體數(shù)字識別器達到完美的識別效果。在過去的數(shù)十年中,研究者們提出了許許多多的識別方法,按使用的特征不同,這些方法可以分為兩類:基于結(jié)構(gòu)特征的方法和基于統(tǒng)計特征的方法。統(tǒng)計特征通常包括點密度的測量、矩、特

5、征區(qū)域等。結(jié)構(gòu)特征通常包括園、端點、交叉點、筆劃、輪廓等,一般來說,兩類特征各有優(yōu)勢。例如,使用統(tǒng)計特征的分類器易于訓練,而且對于使用統(tǒng)計特征的分類器,在給定的訓練集上能夠得到相對較高的識別率;而結(jié)構(gòu)特征的主要優(yōu)點之一是能描述字符的結(jié)構(gòu),在識別過程中能有效地結(jié)合幾何和結(jié)構(gòu)的知識,因此能夠得到可靠性較高的識別結(jié)果。本文針對手寫數(shù)字識別選用BP神經(jīng)網(wǎng)絡(luò)這種基于傳統(tǒng)統(tǒng)計學基礎(chǔ)上的分類方法,用于分割和識別,并取得了較好的識別效果。2.2 手寫數(shù)字識別的一般過程手寫體數(shù)字識別的過程如圖2-1所示,一般分為預(yù)處理、特征提取、數(shù)字串的分割、分類器、等模塊。原始圖像是通過光電掃描儀,CCD器件或電子傳真機等獲

6、得的二維圖像信號。預(yù)處理包括對原始圖像的去噪、傾斜校正或各種濾波處理。手寫體數(shù)字具有隨意性,其字符大小、字間距、字內(nèi)距變化很大,分割難度較大。手寫數(shù)字串的分割是其中最重要的環(huán)節(jié),是制約識別率的瓶頸所在。去噪是預(yù)處理中極重要的環(huán)節(jié)。系統(tǒng)面對的是從實際環(huán)境中切分出的字符圖像,可能有粘連的邊框、隨機的墨點、切分不正確引入的其他字符筆劃等使前景點增加的噪聲,還可能有斷線等使背景增加的噪聲,目前適應(yīng)各種環(huán)境的通用去噪算法還不成熟。預(yù)處理中的規(guī)格化也不僅僅是同比例的放縮,它不僅要保持拓撲不變,更要最大限度地突出所取特征。在眾多應(yīng)用環(huán)境中,特征提取、分類器、多分類器集成是整個識別系統(tǒng)的核心。大體上來說特征可

7、以分為結(jié)構(gòu)特征和統(tǒng)計特征兩類。由于分類器的選擇取決于所提取的特征,因此相應(yīng)的識別方法便有結(jié)構(gòu)方法和統(tǒng)計方法??傊瑥氖謱戵w數(shù)字識別原理可見,手寫體數(shù)字識別技術(shù)主要包括以下幾點:1)圖像預(yù)處理,包括彩色圖像轉(zhuǎn)成灰度圖像、二值化,歸一化,濾除干擾噪聲等;2)基于數(shù)字圖像的特征選擇和提取;3)數(shù)字串的分割;4)模式分類識別。其中,第二和第四部分是手寫數(shù)字識別的重點,直接關(guān)系到識別的準確率和效率,也是本論文研究的重點所在。圖2-1 識別流程2.3 手寫數(shù)字識別的一般方法及比較手寫數(shù)字識別在學科上屬于模式識別和人工智能的范疇。在過去的四十年中,人們提出了很多辦法獲取手寫字符的關(guān)鍵特征,提出了許多識別方法

8、和識別技術(shù)。這些手段分兩大類:全局分析和結(jié)構(gòu)分析。多年的研究實踐表明,對于完全沒有限制的手寫數(shù)字,幾乎可以肯定:沒有一種簡單的方案能達到很高的識別率和識別精度,因此,最近這方面的努力向著更為成熟、復雜、綜合的方向發(fā)展。研究工作者努力把新的知識運用到預(yù)處理,特征提取,分類當中。近年來,人工智能中專家系統(tǒng)方法、人工神經(jīng)網(wǎng)絡(luò)方法已應(yīng)用于手寫數(shù)字識別。在手寫數(shù)字識別的研究中,神經(jīng)網(wǎng)絡(luò)技術(shù)和多種方法的綜合是值得重視的方向。針對模式特征的不同選擇及其判別決策方法的不同,可將模式識別方法大致分為5大類這5種識別方法均可實現(xiàn)手寫數(shù)字識別,但它們特點不同,必須根據(jù)條件進行選擇。(1)統(tǒng)計模式法這是以同類模式具有

9、相同屬性為基礎(chǔ)的識別方法。用來描述事物屬性的參量叫做待征,它可以通過模式的多個樣本的測量值統(tǒng)計分析后按一定準則來提取。例如:在手寫數(shù)字識別系統(tǒng)中,我們可以把每個數(shù)字的圖形分為若干個小方塊(圖),然后統(tǒng)計每一小方塊中的黑像素構(gòu)成一個多維特征矢量,作為該數(shù)字的特征。必須注意的是:在選擇特征時,用于各類模式的特征應(yīng)該把同類模式的各個樣本聚集在一起,而使不同類模式的樣本盡量分開,以保證識別系統(tǒng)能具有足夠高的識別率。(2)句法結(jié)構(gòu)方法在形式語言和自動機的基礎(chǔ)上產(chǎn)生了句法結(jié)構(gòu)這一方法。其基本原理是:對每一個模式都用一個句法來表示,而對一個待識別的未知樣本,通過抽取該樣本的基元來構(gòu)造該樣本的句子,然后分析此

10、句子滿足什么樣的句法,從而推斷出他該屬于哪個模式類。這種方法的優(yōu)點是它能反映模式的結(jié)構(gòu)特征,而且對模式的結(jié)構(gòu)特征變換不敏感,因此比較適合聯(lián)機識別。但是由于抽取字符的基元比較困難,因而不是特別適合用于脫機識別,同時這一方法的理論基礎(chǔ)還不可靠,抗干擾能力比較弱。(3)邏輯特征法就是其特征的選擇對一類模式識別問題來說是獨一無二的,即在一類問題中只有1個模式具有某1種(或某1組合的)邏輯特征,此方法律立了關(guān)于知識表示及組織,目標搜索及匹配的完整體系;對需通過眾多規(guī)則的推理達到識別目標的問題,有很好的效果,但當樣品有缺損,背景不清晰,規(guī)則不明確甚至有歧義時,效果不好。(4)模糊模式方法就是在模式識別過程

11、中引入了模糊集的概念,由于隸屬度函數(shù)作為樣品與模板相似程度的量度,故能反映整體的、主要的特性,模糊模式有相當不勻稱的抗干擾與畸變,從而允許樣品有相當程度的干擾與畸變,但準確合理的隸屬度函數(shù)往往難以建立。目前有學者在研究,并將其引入神經(jīng)網(wǎng)絡(luò)方法形成模糊神經(jīng)網(wǎng)絡(luò)識別系統(tǒng)。(5)神經(jīng)網(wǎng)絡(luò)方法就是使用人工神經(jīng)網(wǎng)絡(luò)方法實現(xiàn)模式識別。可處理某些環(huán)境信息十分復雜,背景知識不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變。神經(jīng)網(wǎng)絡(luò)方法的缺點是其模型在不斷豐富完善中,目前能識別的模式類不夠多,神經(jīng)網(wǎng)絡(luò)方法允許樣品有較大的缺損和畸變,其運行速度快,自適應(yīng)性能好,具有較高的分辨率。上述幾種識別方法各有特點。

12、結(jié)構(gòu)法比較直觀,能較好反映事物的結(jié)構(gòu)特性:問題是基元的提取很不容易,各基元的關(guān)系也比較復雜,抗干擾性能也較差。統(tǒng)計法用計算機來抽取特征,比較方便,抗干擾性能強;缺點是沒有充分利用模式的結(jié)構(gòu)特性。神經(jīng)網(wǎng)絡(luò)方法由于處理的并行性,可以快速同時處理大容量的數(shù)據(jù),工作時具有高速度和潛在超高速,并且,網(wǎng)絡(luò)的最終輸出是由所有神經(jīng)元共同作用的結(jié)果,一個神經(jīng)元的錯誤對整體的影響很小,所以其容錯性也非常的好?;谝陨系目紤],本文的手寫數(shù)字識別采用了神經(jīng)網(wǎng)絡(luò)的方法。3 圖像預(yù)處理與特征提取手寫體圖像數(shù)據(jù)在沒有進行一定的圖像預(yù)處理和特征提取之前,不能立即應(yīng)用到程序中進行神經(jīng)網(wǎng)絡(luò)訓練和字符識別工作。從圖像處理角度來說,

13、手寫體的字符識別對字符是不是有顏色是不關(guān)心的,而對此圖像的清晰度是很關(guān)心的。所以在圖像進行一系列的圖像處理工作是很有必要的。圖像的預(yù)處理是正確、有效提取圖像特征的基礎(chǔ),有效的圖像特征作為網(wǎng)絡(luò)的輸入值才能進行正確的神經(jīng)網(wǎng)絡(luò)訓練和最終得到正確、有效的網(wǎng)絡(luò)權(quán)重。3.1 數(shù)字圖像預(yù)處理3.1.1 灰度化處理彩色圖像包含了大量的顏色信息,不但在存儲上開銷很大,在處理上也會降低系統(tǒng)的執(zhí)行速度,因此在對圖像進行識別等處理中經(jīng)常將彩色圖像轉(zhuǎn)變?yōu)榛叶葓D像,以加快處理速度。由彩色轉(zhuǎn)換為灰度的過程稱為灰度化處理。灰度圖像就是只有強度信息而沒有顏色信息的圖像,存儲灰度圖像只需要一個數(shù)據(jù)矩陣,矩陣每個元素表示對應(yīng)位置像

14、素的灰度值。彩色圖像的像素色為RGB(R,G,B),灰度圖像的像素色為RGB(r,r,r) ,R,G,B可由彩色圖像的顏色分解獲得。而R,G,B的取值范圍是0-255,所以灰度的級別只有256級?;叶然奶幚矸椒ㄖ饕腥缦氯N:最大值法、平均值法和加權(quán)平均值法。本文用到的加權(quán)平均值法來處理,即更換每個像素的顏色索引(即按照灰度映射表換成灰度值)。權(quán)重選擇參數(shù)為:紅:0.299綠:0.587藍:0.114例如某像素點顏色對應(yīng)的灰度值計算公式為:系統(tǒng)輸入的源圖像支持3通道或者4通道圖像,支持Format24bppRgb, format32bppRgb, Format32bppArgb和Format

15、8bppIndex這4種像素格式。3.1.2 二值化處理二值圖像是指整幅圖像畫面內(nèi)僅黑、白二值的圖像。在數(shù)字圖像處理中,二值圖像占有非常重要的地位。在實際的識別系統(tǒng)中,進行圖像二值變換的關(guān)鍵是要確定合適的閾值,使得字符與背景能夠分割開來,二值變換的結(jié)果圖像必須要具備良好的保形性,不丟掉有用的形狀信息,不會產(chǎn)生額外的空缺等等。采用二值圖像進行處理,能大大地提高處理效率。二值化的關(guān)鍵在于閾值的選取,閾值的選取方法主要有三類:全局閾值法、局部閾值法、動態(tài)閾值法。全局閥值二值化方法是根據(jù)圖像的直方圖或灰度的空間分布確定一個閥值,并根據(jù)該閥值實現(xiàn)灰度圖像到二值化圖像的轉(zhuǎn)化。全局閥值方法的優(yōu)點在于算法簡單

16、,對于目標和背景明顯分離、直方圖分布呈雙峰的圖像效果良好,但對輸入圖像量化噪聲或不均勻光照等情況抵抗能力差,應(yīng)用受到極大限制。局部閥值法則是由像素灰度值和像素周圍點局部灰度特性來確定像素的閥值的。Bernsen算法是典型的局部閥值方法,非均勻光照條件等情況雖然影響整體圖像的灰度分布卻不影響局部的圖像性質(zhì),局部閥值法也存在缺點和問題,如實現(xiàn)速度慢、不能保證字符筆劃連通性、以及容易出現(xiàn)偽影現(xiàn)象等。動態(tài)閥值法的閥值選擇不僅取決于該像素灰度值以及它周圍像素的灰度值,而且還和該像素的坐標位置有關(guān),由于充分考慮了每個像素鄰域的特征,能更好的突出背景和目標的邊界,使相距很近的兩條線不會產(chǎn)生粘連現(xiàn)象。在圖像分

17、割二值化中,自動閩值選取問題是圖像分割的關(guān)鍵所在。事實證明,閩值的選擇的恰當與否對分割的效果起著決定性的作用。本文采用全局閾值的方法,實現(xiàn)將圖像二值化的功能。如果某個像素的值大于等于閾值,該像素置為白色;否則置為黑色。系統(tǒng)程序目前僅支持8bpp灰度圖像的轉(zhuǎn)換,閾值介于0255之間,程序中取220。3.1.3 去離散噪聲原始圖像可能夾帶了噪聲,去噪聲是圖像處理中常用的手法。通常去噪用濾波的方法,比如中值濾波、均值濾波,本文中去除離散噪聲點采用中值濾波的方法。中值濾波法是一種非線性平滑技術(shù),它將每一象素點的灰度值設(shè)置為該點某鄰域窗口內(nèi)的所有象素點灰度值的中值,讓周圍的像素值接近的真實值,從而消除孤

18、立的噪聲點。3.1.4 字符分割在識別時系統(tǒng)只能根據(jù)每個字符的特征來進行判斷,為了最終能準確識別手寫體數(shù)字,必須將單個字符從處理后的圖像中逐個提取分離出來。具體做法是將圖像中待識別的字符逐個分離出來并返回存放各個字符的位置信息的鏈表。當把圖像分割完成后,從一定意義上來說便是形成了不同的小圖,每一張小圖就是一個數(shù)字,才能對這些小圖進行尺寸大小一致的調(diào)整。3.1.5 細化3.2 圖像特征提取特征提取是字符識別中的一個重要組成部分,是模式識別的核心之一。經(jīng)過預(yù)處理后,根據(jù)識別方法的要求抽取圖像特征,作為識別的依據(jù)。一般而言,選擇的特征一方面要求能夠足夠代表這個圖像模式,另一方面要求它們的數(shù)量盡可能少

19、,這樣能有效地進行分類和較小的計算量。特征提取的好壞會直接影響其識別的分類效果,進而影響識別率,因此特征選擇是模式識別的關(guān)鍵。但是,目前還沒有一個有效的、一般的抽取、選擇特征的方法。抽取、選擇特征的方法都是面對問題的,因此針對不同的識別問題往往有不止一種的抽取、選擇特征的方法。本文特征提取的首要任務(wù)是要確定細化后圖像的那些特征點作為圖像的特征,這里只提取圖像的結(jié)構(gòu)特征作為網(wǎng)絡(luò)輸入值。其中結(jié)構(gòu)特征有九個,包括豎直中線交點數(shù)、豎直1/3處交點數(shù)、豎直2/3處交點數(shù)、水平1/5處交點數(shù)、水平4/5處交點數(shù)、右拐點數(shù)、左拐點數(shù)、上端點數(shù)、下端點數(shù)。結(jié)構(gòu)特征的選擇與提取算法如下述。對經(jīng)過預(yù)處理的圖像進行

20、分割,分別在圖像的水平區(qū)域1/3、1/2、2/3處設(shè)置3條豎線,在圖像的豎直區(qū)域1/3、2/3處設(shè)置2條水平線,分別計算直線與圖像數(shù)字筆段的交點數(shù),求得前五個特征值。如下左圖所示:再分別提取圖像的左拐點數(shù)與右拐點數(shù),如上右圖所示。以1/3豎交點數(shù)為例,提取交點數(shù)特征的算法如下:1) 按從上到下,從左到右的順序掃描預(yù)處理后圖像并選擇第一個像素點P;2) 如果P點為黑像素點則選擇下一個像素點,若該像素點為白色則對交點數(shù)加1,若還是黑像素點則繼續(xù)選擇下一個像素點,如此循環(huán)直到該行(列)像素點被遍歷完。其他交點數(shù)的提取與上述算法類似。以提取左拐點數(shù)為例,提取拐點數(shù)特征的算法如下:1) 按從上到下,從左

21、到右的順序掃描預(yù)處理后圖像并選擇黑像素點P;2) 查看它右下點是否為黑像素點,如果不是則轉(zhuǎn),否則查看右下點其正下的點,直到新點不是黑像素點,再查看此新點的正左點是否為黑像素點,如果是黑像素點,則這就是一個左拐點。當然由于細化工作的不太確定性,也有可能是此新點的左上角點是黑像素點,那么這也可以看成一個非嚴格意義上的左拐點。再以圖像的上1/3處的水平分割線為界,計算圖像的上端點數(shù),以圖像的下1/3處的水平分割線為界,計算圖像的下端點數(shù)。提取端點數(shù)特征的算法如下:1) 從上到下,從左到右的順序掃描預(yù)處理后圖像并選擇黑像素點P;2) 計算像素P的8鄰域之和N;3) 若N=1,則像素P為端點,如果端點位

22、于圖像的上1/3內(nèi),則上端點計數(shù)器加一;如果端點位于圖像的下1/3內(nèi),則下端點計數(shù)器加一;4) 重復步驟1-3,直到遍歷整個圖像。通過以上方法對數(shù)字圖像的結(jié)構(gòu)特征進行提取,得到9個數(shù)字特征,這9個特征組成一個特征向量,這個特征向量將作為神經(jīng)網(wǎng)絡(luò)的輸入值。該向量的排列如下:DATA= 豎直中線交點數(shù),豎直1/3處交點數(shù),豎直2/3處交點數(shù),水平1/5處交點數(shù),水平4/5處交點數(shù),左拐點數(shù),右拐點數(shù),上端點數(shù),下端點數(shù)4 BP神經(jīng)網(wǎng)絡(luò)算法4.1 誤差反傳算法原理BP算法的基本思想是,學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層。若輸出層的實際輸出與期望的輸出(教師信號)不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分攤給

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論