印刷體漢字識別及其MATLAB實(shí)現(xiàn)

上傳人：d*** IP屬地：天津上傳時間：2022-04-22 格式：DOCX 頁數(shù)：24 大小：77.66KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩19頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、印刷體漢字的識別及其MATLA取現(xiàn)0.漢字識別研究的意義漢字已有數(shù)千年的歷史，是中華民族文化的重要結(jié)晶，閃爍著中國人民智慧的光芒。同時也是世界上使用人數(shù)最多和數(shù)量最多的文字之一?，F(xiàn)如今，漢字印刷材料的數(shù)量大大增加，一些專業(yè)單位所接觸的印刷材料更是浩如煙海，信息量均是爆炸性增長。然而，漢字是非字母化、非拼音化的文字，因此，如何將漢字快速高效地輸入計算機(jī)，是信息處理的一個關(guān)鍵問題，也是關(guān)系到計算機(jī)技術(shù)能否在我國真正普及的關(guān)鍵問題，更是傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵問題。而且隨著勞動力價格的升高，利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。因此，對于大量已有的文檔資料，漢字自動識別輸入就成

2、為了最佳的選擇。因此，漢字識別技術(shù)也越來越受到人們的重視。漢字識別是一門多學(xué)科綜合的研究課題，它不僅與人工智能的研究有關(guān)，而且與數(shù)字信號處理、圖像處理、信息論、計算機(jī)科學(xué)、幾何學(xué)、統(tǒng)計學(xué)、語言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策論等都有著千絲萬縷的聯(lián)系。一方面各學(xué)科的發(fā)展給它的研究提供了工具；另一方面，它的研究與發(fā)展也必將促進(jìn)各學(xué)科的發(fā)展。因而有著重要的實(shí)用價值和理論意義。1.印刷體漢字識別的研究印刷體漢字識別技術(shù)的發(fā)展歷程計算機(jī)技術(shù)的快速發(fā)展和普及，為文字識別技術(shù)應(yīng)運(yùn)而生提供了必備條件。加上人們對信息社會發(fā)展的要求越來越高，文字識別技術(shù)的快速發(fā)展可想而知。印刷體文字的識別可以說很早就成為人們的夢想。印

3、刷體漢字的識別最早可以追溯到60年代，但都是西方國家進(jìn)行的研究。我國對印刷體漢字識別的研究始于70年代末80年代初。同國外相比，我國的印刷體漢字識別研究起步較晚。從80年代開始，漢字ORC的研究開發(fā)一直受到國家重視，經(jīng)過科研人員十多年的辛勤努力，印刷體漢字識別技術(shù)的發(fā)展和應(yīng)用，有了長足進(jìn)步。印刷體漢字識別的原理分析及算法研究漢字識別實(shí)質(zhì)是解決文字的分類問題，一般通過特征辨別及特征匹配的方法來實(shí)現(xiàn)。目前漢字識別技術(shù)按照識別的漢字不同可以分為印刷體漢字識別和手寫體漢字識別。印刷體漢字識別從識別字體上可分為單體印刷體漢字識別與多體印刷體漢字識別。印刷體漢字識別的流程如圖1-1所示：圖1-1漢字識別流

4、程框圖印刷在紙張上的漢字，通過用掃描儀掃描或者數(shù)碼相機(jī)拍攝等光學(xué)方式輸入后得到灰度圖像(Grayscaleimage或者二值圖像(Binaryimage)，然后利用各種模式識別算法對漢字圖像進(jìn)行分析，提取漢字的特征，與標(biāo)準(zhǔn)漢字進(jìn)行匹配判別，從而達(dá)到識別漢字的目的。印刷體漢字識別技術(shù)主要包括預(yù)處理、特征提取、匹配識別和后處理等步驟。1.2.1 預(yù)處理在對原始圖像進(jìn)行識別處理之前，盡可能將干擾因素影響降低，是非常有必要的，也就是要先對原始采樣信號進(jìn)行預(yù)處理。預(yù)處理通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等。(1)版面分析它是指對印刷體文檔圖像進(jìn)行分析，提取出文本、

5、圖像圖形、表格等區(qū)域，并確定其邏輯關(guān)系，并將相應(yīng)的文本塊連接在一起。(2)二值化將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理，二值化的主要目的是將漢字從圖像中分離出來。通常的方法為先確定像素的閾值，比較像素值和閾值的大小，從而確定為1或0,這個二值化閾值的選取較為關(guān)鍵。(3)傾斜校正通過輸入設(shè)備獲得的圖像不可避免地會發(fā)生傾斜，這會給后面的行字分割、文字識別等圖像處理與分析帶來困難，因此，在漢字識別系統(tǒng)中，傾斜校正是圖像預(yù)處理的重要部分。傾斜校正的核心在于如何檢測出圖像的傾斜角。(4)漢字切分漢字切分的目的是利用字與字之間、行與行之間的空隙，將單個漢字從整個圖像中分離出來

6、。漢字的切分分為行切分和字切分9。(5)歸一化歸一化也稱規(guī)格化，它是把文字尺寸變換成統(tǒng)一大小，糾正文字位置(平移)，文字筆畫粗細(xì)變換等文字圖像的規(guī)格化處理，并只對文字圖像進(jìn)行投影。(6)平滑對數(shù)字圖像進(jìn)行平滑，目的是去處孤立的噪聲干擾，以平滑筆畫邊緣。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過一個低通濾波器，去除高頻分量，保留低頻分量。(7)細(xì)化細(xì)化處理是將二值化文字點(diǎn)陣逐層剝?nèi)ポ喞吘壣系狞c(diǎn)，變成筆畫寬度只有一個比特的文字骨架圖形。細(xì)化處理的目的是搜索圖像的骨架，去除圖像上多余的像素，從而在不改變圖像主要特征的前提下，減少圖像的信息量。1.2.2 漢字特征提取預(yù)處理的最終目的是為了更加方便、準(zhǔn)確

7、地進(jìn)行漢字的特征提取，從而提高漢字識別率。對于漢字，具特征大致分為兩類，包括結(jié)構(gòu)特征和統(tǒng)計特征，至今總數(shù)已經(jīng)不下百種。要做到有的放矢，就需要研究已有的獲得良好效果的各種漢字特征，分析它們的優(yōu)點(diǎn)、缺點(diǎn)和適用環(huán)境。如下列出常用的一些的漢字結(jié)構(gòu)特征和漢字統(tǒng)計特征。1 .結(jié)構(gòu)特征(1)抽取筆畫法抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點(diǎn)進(jìn)行識別，它利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識別，在印刷體和脫機(jī)手寫識別中，由于筆畫提取的困難，結(jié)果不是很理想。(2)松弛匹配法松弛匹配法是一種基于全局特征的匹配方法，它對輸入漢字作多邊近似，抽取邊界線段，將這些邊界線段組成臨近線段表，然后用松弛匹配操作，完成邊與邊的匹配

8、。這種方法利用彈性吸收漢字的變形，一個字只用一個樣本。(3)非線性匹配法非線性匹配法是由Tsukumo等提出的，用以解決字形的位移、筆畫的變形等現(xiàn)象。此方法試圖克服從圖形中正確抽取筆畫的困難，以提高正確判別的能力。2 .統(tǒng)計特征(1)筆畫復(fù)雜性(ComplexityIndex:)筆畫復(fù)雜性指數(shù)是指文字筆畫的線段密度，其定義如下：CXLy/x(1-1)CyLx/y(1-2)式(1-1)和(1-2)中Cx、Cy橫向和縱向的筆畫復(fù)雜性指數(shù)；Lx、Ly橫向和縱向的文字線段總長度；x、y橫向和縱向質(zhì)心二次矩的平方根；Cx、Cy分別反應(yīng)了橫向和縱向的筆畫復(fù)雜性，橫多的Cx大，豎多的Cy大。筆畫復(fù)雜性指數(shù)與

9、漢字的位移無關(guān)，受字體和字號的影響較小，但易受筆畫斷裂和粘連的影響，且其分類能力較差，常與另一種粗分類方法“四邊碼”連用。(2)四邊碼(Four-sideCode四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶，計算其中的文字圖像素點(diǎn)數(shù)，并將它分成四級，構(gòu)成一個四元組。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息，而且邊框部分筆畫一般較少，不易粘連，抗干擾能力強(qiáng)，但對漢字的位移和旋轉(zhuǎn)比較敏感，與筆畫復(fù)雜性指數(shù)正好形成互補(bǔ)。(3)特征點(diǎn)特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn)(筆畫)、白點(diǎn)(背景)作為特征來區(qū)分不同的字符。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)，漢字的背景也含有一定的區(qū)別于其它

10、漢字的信息，選擇若干背景點(diǎn)作為特征點(diǎn)，有利于提高系統(tǒng)的抗干擾能力。其特點(diǎn)是能夠大大壓縮特征庫的容量，對于內(nèi)部筆畫粘連字符，其識別的適應(yīng)性較強(qiáng)、直觀性好，但不易表示為矢量形式，匹配難度大，不適合作為粗分類的特征。(4)筆段特征漢字是由筆畫組成的，而筆畫又由筆段組成，筆段可近似為一定方向、長度和寬度的矩形段。利用筆段與筆段之間的關(guān)系組成特征對漢字進(jìn)行識別，受字體和字號的影響小，對于多體漢字的識別獲得了良好效果。其缺點(diǎn)是筆段的提取會較為困難，匹配的難度大，抗內(nèi)部筆畫斷裂或者粘連能力差。1.2.3漢字識別分類1.相關(guān)匹配這是一種統(tǒng)計識別方法，它通過在特征空間中計算輸入特征向量與各模板向量之間的距離進(jìn)行

11、分類判決。(2)文法分析文法分析的基本思想是將輸入的漢字看作是一個語句或符號用，將識別問題轉(zhuǎn)化為判斷輸入的語句是否屬于某種語言，即句子是否符合某種語言的語法約束條件。(3)松弛匹配無論是相關(guān)匹配還是文法分析，都要求輸入特征向量和模板特征向量的各分量之間具有確切的對應(yīng)關(guān)系，然而在結(jié)構(gòu)分析中，往往事先難以確定兩者各分量間的對應(yīng)關(guān)系，此時可以采用松弛匹配法。松(4)人工神經(jīng)網(wǎng)絡(luò)漢字識別是一個非?；钴S的分支，不斷有新的方法涌現(xiàn)出來，為漢字識別的研究注入新的活力，其中基于人工神經(jīng)網(wǎng)絡(luò)的識別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個領(lǐng)域，并在模式識別、智能控制、計算機(jī)視覺、自適應(yīng)濾波和

12、信號處理、非線性優(yōu)化、自動目標(biāo)識別，連續(xù)語音識別、聲納信號的處理、知識處理、傳感技術(shù)與機(jī)器人、生物等領(lǐng)域都有廣泛地應(yīng)用。1.2.4后處理后處理就是利用相關(guān)算法對識別后的漢字文本或者初級識別結(jié)果做進(jìn)一步的處理，糾正誤識的漢字，給出拒識的漢字，確定模棱兩可的漢字。漢字識別的后處理方法12'13從用戶的參與程度來說，可分為三類：手工處理，交互式處理和計算機(jī)自動處理。以下對各種常用的后處理方法做簡單的介紹。(1)簡單的詞匹配簡單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度，給識別后文本中的拒識字提供一個“最佳”的候選字，其關(guān)鍵是建立漢語詞條數(shù)據(jù)庫。(2)綜合詞匹配綜合詞匹配方法，就是

13、綜合利用初級識別結(jié)果和字的上下文關(guān)系及詞的使用頻度，來決定最后的識別結(jié)果。這種方法實(shí)際上己把識別過程和后處理過程融為一體了。(3)詞法分析語言是語音和意義的結(jié)合體。語素是最小的語言單位。無論是詞還是短語，都有其構(gòu)成規(guī)則，利用這些規(guī)則，將它們分類。另外，不同的應(yīng)用背景，也有不同的分類結(jié)果。(4)句法、語義分析語句無論是從結(jié)構(gòu)上，還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則。所以利用語義句法的方法，在初級識別結(jié)果的基礎(chǔ)上，在利用詞法分析進(jìn)行匹配之后或匹配的同時，再進(jìn)行句法分析和語義分析，從而確定要識別的漢字。(5)人工神經(jīng)元網(wǎng)絡(luò)利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識別后處理可以采取兩種方

14、式。一種是把識別過程和后處理過程分開，網(wǎng)絡(luò)的輸入是初級識別結(jié)果的短語或者句子，其中包含不確定的漢字(或拒識的漢字),通過網(wǎng)絡(luò)的運(yùn)行，最終確定這些字。另一種方法是把識別過程和后處理過程綜合在一起，初級識別給出的結(jié)果是每一個待識漢字的前幾個候選字和每一候選字與待識字之間的相似度。然后，把這些候選字以及與之相連的相似度輸入網(wǎng)絡(luò)，通過網(wǎng)絡(luò)的并行作用，找到最符合漢語語法和語義組合關(guān)系的詞或句子，從而確定出要識別的漢字。印刷體漢字識別技術(shù)分析1.3.1 結(jié)構(gòu)模式識別方法漢字的數(shù)量巨大，結(jié)構(gòu)復(fù)雜，但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律140從筆畫上講，漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫，還有

15、提挑、撇點(diǎn)、橫捺等七種變形筆畫。從部件上講，部件是有特殊的筆畫組合而成，故部件也是一定的。換而言之，漢字圖形具有豐富的有規(guī)律可循的結(jié)構(gòu)信息，可以設(shè)法提取含有這些信息的結(jié)構(gòu)特征和組字規(guī)律，將它們作為漢字識別的依據(jù)。這就是結(jié)構(gòu)模式識別。結(jié)構(gòu)模式識別理論在20世紀(jì)70年代初形成，是早期漢字識別研究的主要方法。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征，如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個基元組合，再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。通常抽取筆段或基本筆畫作為基元，由這些基元組合及其相互關(guān)系完全可以精確地對漢字加以描述，最后利用形式語言及自動機(jī)理論進(jìn)行文法推斷,即識別。結(jié)構(gòu)

16、模式識別方法的主要優(yōu)點(diǎn)在于對字體變化的適應(yīng)性強(qiáng)，區(qū)分相似字能力強(qiáng)；缺點(diǎn)是抗干擾能力差，從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難，匹配過程復(fù)雜。因此，有人采用漢字輪廓結(jié)構(gòu)信息作為特征，但這一方案需要進(jìn)行松弛迭代匹配，耗時太長，而且對于筆畫較模糊的漢字圖像，抽取輪廓會遇到極大困難。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來描述漢字，但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫的粘連與斷裂等影響?？傊畣渭儾捎媒Y(jié)構(gòu)模式識別方法的脫機(jī)手寫漢字識別系統(tǒng)，識別率較低。1.3.2 統(tǒng)計模式識別方法統(tǒng)計模式識別方法是用概率統(tǒng)計模型提取待識別漢字的特征向量，然后根據(jù)決策函數(shù)進(jìn)行分類，識別就是判別待識漢字的特征向量屬于哪

17、一類。常用的判別準(zhǔn)則是距離準(zhǔn)則和類似度準(zhǔn)則，典型的統(tǒng)計模式識別方法有最小距離分類、最鄰近分類等。1 .最小距離分類最小距離分類器(Minimum-DistanceClassifier)是以漢字與特征空間模型點(diǎn)之間的距離作為分類準(zhǔn)則，它有著圖3-2所描述的結(jié)才其中，x是輸入特征向量，他將被分配到C個類別中的某一個類k(k1,2,C)，這些類有各自的典型模式mk表示。ml圖1-2最小距離分類器系統(tǒng)圖2 .最鄰近分類最鄰近法的思想是對于C個類別i(i1,2,C)，每類有標(biāo)明類別的樣本Ni個(i1,2,C)。規(guī)定i的判別函數(shù)如式(1-1)所示。其中xj的角標(biāo)i表示i類，k表示類個樣本中的第k個gi(x

18、)minxxk,k1,2,6(1-3)gj(x)mingi(i),i1,2,C,(1-4)若式(1-2)成立,則決策xjo即對未知樣本x,比較x與N個已知類別的樣本之間的歐式距離并決策x與離它最近的樣本同類。常用的漢字統(tǒng)計模式識別方法包括：(1)模板匹配(2)利用變換特征的方法(3)筆畫方向特征(4)外圍特征(5)特征點(diǎn)特征隨著漢字識別技術(shù)的發(fā)展，已經(jīng)有越來越多的統(tǒng)計特征出現(xiàn)。但幾乎每種特征都不是完美的，都要在特殊條件下施加一些特殊的處理。2.系統(tǒng)的實(shí)現(xiàn)與仿真系統(tǒng)的實(shí)現(xiàn)印刷品上的漢字輸入，經(jīng)過預(yù)處理后，對照標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分，用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí)，形成初始的特征庫后再進(jìn)行大量樣本的學(xué)習(xí)，建

19、立實(shí)用的特征庫。系統(tǒng)在識別過程中可進(jìn)行自學(xué)習(xí)。取標(biāo)準(zhǔn)漢字，對每一個漢字計算面積。所有按面積由小到大排列，建立每一漢字與其國標(biāo)碼的指針。對神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值，選取大量標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò)，反復(fù)修改權(quán)值，直至與面積序號對應(yīng)的輸出為有效，并建立每一輸出與面積特征庫之間的連接關(guān)系。以后隨著學(xué)習(xí)過程的進(jìn)行，將建立動態(tài)調(diào)整面積特征庫及其與神經(jīng)網(wǎng)絡(luò)之間的對應(yīng)關(guān)系。系統(tǒng)共包括5個子功能模塊(見圖2-1)。卬刷體漢字識別冬統(tǒng)圖2-1系統(tǒng)模塊圖收字圖像可預(yù)處理片漢字訊別一識別結(jié)果圖2-2系統(tǒng)流程框圖特征匹配系統(tǒng)的工作流程如圖2-2所示，文件首先由文件管理器加載。送人圖像處理模塊，經(jīng)二值化轉(zhuǎn)灰度，均值濾波，二值化，

20、行字切分等圖像預(yù)處理操作后。得到待識文字的點(diǎn)陣，漢字識別模塊從點(diǎn)陣中提取識別特征，通過十三點(diǎn)特征提取,精確匹配得出識別結(jié)果。系統(tǒng)的仿真此次采用MATLAB進(jìn)行系統(tǒng)仿真（Matlab仿真程序見附錄1）,其中學(xué)習(xí)功能使用sim函數(shù)實(shí)現(xiàn)，特征提取用十三點(diǎn)特征提取法。y=sim（net,P_test）；%用訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)計算數(shù)據(jù)的第P_test行；其中net是SIMULINK的模型名（神經(jīng)網(wǎng)絡(luò)的對象見附錄2）;P_test是外部輸入向量。十三點(diǎn)特征提取法：首先把字符平均分成8份，統(tǒng)計每一份內(nèi)黑色像素點(diǎn)的個數(shù)作為8個特征,然后統(tǒng)計水平方向中間兩列和豎直方向中間兩列的黑色像素點(diǎn)的個數(shù)作為4個特征，最后

21、統(tǒng)計所有黑色像素點(diǎn)的個數(shù)作為第13個特征。也就是說，畫4道線,統(tǒng)計穿過的黑色像素的數(shù)目?？梢缘玫?個特征。最后，將字符圖像的全部黑色像素的數(shù)目的總和作為一個特征。十三點(diǎn)特征提取法有著極好的適應(yīng)性，但是由于特征點(diǎn)的數(shù)目太少所以在樣本訓(xùn)練的時候比較難收斂。系統(tǒng)首先對標(biāo)準(zhǔn)圖像（見圖2-3）進(jìn)行識別，識別過程中轉(zhuǎn)灰度（見圖2-4）,均值濾（見圖2-5）,二值化（見圖2-6）,波識別結(jié)果見圖（2-7）。匣囪圖國盅匡盞吠壬合.nnHI盈團(tuán)盔因圖2-3標(biāo)準(zhǔn)圖像國FT團(tuán)g1*0：gss田圖2-4標(biāo)準(zhǔn)圖像轉(zhuǎn)灰度圖像Bl洛lS會標(biāo)IS)liftWl2ETFFI區(qū)圖2-5標(biāo)準(zhǔn)圖像均值濾波圖像匣囪圖國盅匡盞固監(jiān)盂盒團(tuán)

22、盈團(tuán)盔因圖2-6標(biāo)準(zhǔn)圖像二值化圖像irm1.jpgim2.jpgiEjpgmi4jpg51Pqin*.jpgim7jpg'mtl.jnH匣國圖國盅匡盞固img.jpgjpgim11Jpgim12.jpgimia.jpgimlijpg后15曬imlG.jpgllArrm1盒團(tuán)盈團(tuán)盔因圖2-7標(biāo)準(zhǔn)圖像識別結(jié)果通過對標(biāo)準(zhǔn)圖像識別學(xué)習(xí)訓(xùn)練，然后對輸入亂序圖像（見圖2-8）進(jìn)行識別，過程中轉(zhuǎn)灰度（見圖2-9）,均值濾波（見圖2-10）,二值化（見圖2-11）,識別結(jié)果（見圖2-12）?？鴪F(tuán)盞圖盒國匣因匡固盅盈盂監(jiān)SH圖2-8亂序圖像徐團(tuán)盞圖盒國匣因匡固盅盈盂監(jiān)圖2-9亂序圖像轉(zhuǎn)灰度圖像盒國圍盅盈

23、盂儂圖2-10亂序圖像均值濾波圖像盔團(tuán)盞圖盒國匣因匡同盅矗盂蚱阿國圖2-11亂序圖像二值化圖像imljpgirrt3jpg"4J明e£.pqimBjpyim7.jpgm口P。盔團(tuán)盞圖盒國匣因imSJPfl<m10JpgELj”im12Jpgim13Jpgim14JpalrTl16JP9lm16-JP9匡固盅盈盂監(jiān)團(tuán)囪圖2-12亂序圖像識別結(jié)果由以上實(shí)驗(yàn)結(jié)果可以看出，當(dāng)輸入標(biāo)準(zhǔn)圖像，經(jīng)過轉(zhuǎn)灰度，均值濾波，二值化，識別輸出。然后，輸入亂序圖像在經(jīng)過轉(zhuǎn)灰度，均值濾波，二值化，特征提取，匹配識別后，系統(tǒng)能夠?qū)y序圖像中的圖像識別輸出。說明系統(tǒng)基本實(shí)現(xiàn)預(yù)先設(shè)想的功能，能夠在學(xué)習(xí)

24、標(biāo)準(zhǔn)圖像識別后建立標(biāo)準(zhǔn)庫，并根據(jù)標(biāo)準(zhǔn)字庫與以后輸入的圖像進(jìn)行匹配識別輸出。但由于系統(tǒng)比較簡單，實(shí)現(xiàn)的功能也比較單一，要想實(shí)現(xiàn)較完備功能還需進(jìn)一步完善。%亂序圖像識別：loadbp;G=imread(”);讀取I=rgb2gray(G);%轉(zhuǎn)灰度圖象B1=filter2(fspecial('average',3),I)/255;%以3,3為模板均值濾波%均值濾波d=im2bw(B1,;%二值k1=1;k2=1;s=sum(d');j=2;a=1;c=1m,n=size(d');whiles(j)=mj=j+1;3.附錄附錄1k1=j;whiles(j)=m&

25、;&j<=n-1j=j+1;endk2=j-1;d=d(k1:k2),:);%行分割m,n=size(d);k1=1;k2=1;s=sum(d);j=2;a=1;c=1fora=1:16whiles(j)=mj=j+1;endk1=j;whiles(j)=m&&j<=n-1endj=j+1;endy=sim(net,P_test');k2=j-1;%列分割ifc=1b1=d(:,(k1:k2);imwrite(b1,'');t1=tezhengtiqu(b1);P_test=t1'y=sim(net,P_test);word=

26、jieguoxianshi(y)end%第3個字符ifc=4b4=d(:,(k1:k2);imwrite(b4,'');t4=tezhengtiqu(b4);P_test=t4;%用訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)計算數(shù)據(jù)的y=sim(net,P_test');word=jieguoxianshi(y)end%第4個字符ifc=5b5=d(:,(k1:k2);imwrite(b5,'');t5=tezhengtiqu(b5);P_test=t5;y=sim(net,P_test');word=jieguoxianshi(y)end%第5個字符ifc=6b6=d

27、(:,(k1:k2);imwrite(b6,'');t6=tezhengtiqu(b6);P_test=t6;y=sim(net,P_test');word=jieguoxianshi(y)end%第6個字符ifc=7第P_test行word=jieguoxianshi(y)end%第1個字符ifc=2b2=d(:,(k1:k2);imwrite(b2,'');t2=tezhengtiqu(b2);%用十三點(diǎn)特征提取法提取特征P_test=t2;y=sim(net,P_test');%用訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)計算數(shù)據(jù)的%第P_test行word=ji

28、eguoxianshi(y)end%第2個字符ifc=3b3=d(:,(k1:k2);imwrite(b3,'');t3=tezhengtiqu(b3);P_test=t3;b7=d(:,(k1:k2);imwrite(b7,'');t7=tezhengtiqu(b7);P_test=t7;y=sim(net,P_test');word=jieguoxianshi(y)end%第7個字符ifc=8b8=d(:,(k1:k2);imwrite(b8,'');t8=tezhengtiqu(b8);P_test=t8;y=sim(net,P_t

29、est');word=jieguoxianshi(y)end%第8個字符ifc=9b9=d(:,(k1:k2);imwrite(b9,'');t9=tezhengtiqu(b9);P_test=t9;y=sim(net,P_test');word=jieguoxianshi(y)end%第9個字符ifc=10b10=d(:,(k1:k2);imwrite(b10,'');t10=tezhengtiqu(b10);P_test=t10;y=sim(net,P_test');word=jieguoxianshi(y)end%第10個字符ifc

30、=11b11=d(:,(k1:k2);imwrite(b11,'');t11=tezhengtiqu(b11);P_test=t11;y=sim(net,P_test');word=jieguoxianshi(y)end%第11個字符ifc=12b12=d(:,(k1:k2);imwrite(b12,'');t12=tezhengtiqu(b12);P_test=t12;y=sim(net,P_test');word=jieguoxianshi(y)end%第12個字符ifc=13b13=d(:,(k1:k2);imwrite(b13,'

31、');t13=tezhengtiqu(b13);P_test=t13;y=sim(net,P_test');word=jieguoxianshi(y)end%第13個字符ifc=14b14=d(:,(k1:k2);imwrite(b14,'');t14=tezhengtiqu(b14);P_test=t14;y=sim(net,P_test');word=jieguoxianshi(y)end%第14個字符ifc=15b15=d(:,(k1:k2);imwrite(b15,'');t15=tezhengtiqu(b15);P_test=t

32、15;y=sim(net,P_test');word=jieguoxianshi(y)end%第15個字符ifc=16b16=d(:,(k1:k2);imwrite(b16,'');t16=tezhengtiqu(b16);P_test=t16;y=sim(net,P_test');word=jieguoxianshi(y)end%第16個字符c=c+1;endsubplot(2,8,1),imshow(");subplot(2,8,2),imshow('');subplot(2,8,3),imshow(");subplot(

33、2,8,4),imshow('');subplot(2,8,5),imshow('');subplot(2,8,6),imshow('');subplot(2,8,7),imshow('');subplot(2,8,8),imshow('');subplot(2,8,9),imshow(");subplot(2,8,10),imshow('');subplot(2,8,11),imshow('');subplot(2,8,12),imshow('');sub

34、plot(2,8,13),imshow('');subplot(2,8,14),imshow('');subplot(2,8,15),imshow('');subplot(2,8,16),imshow('');%標(biāo)準(zhǔn)圖像識別：loadfbp;G=imread('');%讀取I=rgb2gray(G);%轉(zhuǎn)灰度圖象B1=filter2(fspecial('average',3),I)/255;%均值濾波d=im2bw(B1,;%二值imshow(d);k1=1;k2=1;s=sum(d');j

35、=2;a=1;c=1m,n=size(d');whiles(j)=mj=j+1;endk1=j;whiles(j)=m&&j<=n-1j=j+1;endk2=j-1;ifc=3b3=d(:,(k1:k2);imwrite(b3,'');t3=tezhengtiqu(b3);P_test=t3;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第3個字符ifc=4b4=d(:,(k1:k2);imwrite(b4,");t4=tezhengtiqu(b4);P_test=t4;y=sim(

36、net,P_test');word=fbmjieguoxianshi(y)end%第4個字符ifc=5b5=d(:,(k1:k2);imwrite(b5,");t5=tezhengtiqu(b5);P_test=t5;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第5個字符ifc=6b6=d(:,(k1:k2);imwrite(b6,");t6=tezhengtiqu(b6);P_test=t6;d=d(k1:k2),:);%行分割m,n=size(d);k1=1;k2=1;s=sum(d)；j=2;a=1;c

37、=1fora=1:16whiles(j)=mj=j+1;endk1=j;whiles(j)=m&&j<=n-1j=j+1;endk2=j-1;%列分割ifc=1b1=d(:,(k1:k2);imwrite(b1,'');t1=tezhengtiqu(b1);P_test=t1'y=sim(net,P_test);word=fbmjieguoxianshi(y)end%第1個字符ifc=2b2=d(:,(k1:k2);imwrite(b2,'');t2=tezhengtiqu(b2);P_test=t2;y=sim(net,P_tes

38、t');word=fbmjieguoxianshi(y)end%第2個字符y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第6個字符ifc=7b7=d(:,(k1:k2);imwrite(b7,'');t7=tezhengtiqu(b7);P_test=t7;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第7個字符ifc=8b8=d(:,(k1:k2);imwrite(b8,'');t8=tezhengtiqu(b8);P_test=t8;y=s

39、im(net,P_test');word=fbmjieguoxianshi(y)end%第8個字符ifc=9b9=d(:,(k1:k2);imwrite(b9,'');t9=tezhengtiqu(b9);P_test=t9;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第9個字符ifc=10b10=d(:,(k1:k2);imwrite(b10,'');t10=tezhengtiqu(b10);P_test=t10;y=sim(net,P_test');word=fbmjieguoxian

40、shi(y)end%第10個字符ifc=11b11=d(:,(k1:k2);imwrite(b11,'');t11=tezhengtiqu(b11);P_test=t11;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第11個字符ifc=12b12=d(:,(k1:k2);imwrite(b12,'');t12=tezhengtiqu(b12);P_test=t12;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第12個字符ifc=13b13=d(:,

41、(k1:k2);imwrite(b13,'');t13=tezhengtiqu(b13);P_test=t13;y=sim(net,P_test');word=fbmjieguoxianshi(y)subplot(2,8,1),imshow(");end%第13個字符ifc=14b14=d(:,(k1:k2);imwrite(b14,'');t14=tezhengtiqu(b14);P_test=t14;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第14個字符ifc=15b15=d(:,

42、(k1:k2);imwrite(b15,'');t15=tezhengtiqu(b15);P_test=t15;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第15個字符ifc=16b16=d(:,(k1:k2);imwrite(b16,'');t16=tezhengtiqu(b16);P_test=t16;y=sim(net,P_test');word=fbmjieguoxianshi(y)end%第16個字符c=c+1;endsubplot(2,8,2),imshow('');s

43、ubplot(2,8,3),imshow('');subplot(2,8,4),imshow('');subplot(2,8,5),imshow('');subplot(2,8,6),imshow('');subplot(2,8,7),imshow('');subplot(2,8,8),imshow('');subplot(2,8,9),imshow('');subplot(2,8,10),imshow('');subplot(2,8,11),imshow('

44、');subplot(2,8,12),imshow('');subplot(2,8,13),imshow('');subplot(2,8,14),imshow('');subplot(2,8,15),imshow('');subplot(2,8,16),imshow('');%標(biāo)準(zhǔn)圖像識別結(jié)果顯示：functionword=jieguoxianshi(y)%顯示結(jié)果的函數(shù)y=round(y(1),round(y(2),round(y(3),round(y(4),round(y(5),round(y(6),r

45、ound(y(7),round(y(8),round(y(9),round(y(10),round(y(11),round(y(12),round(y(13),round(y(14),round(y(15),round(y(16);C,I=max(y);ifI=16word='匣'；elseifI=15word='囪'；elseifI=14word='圖'；elseifI=13word='國'；elseifI=12word='盅'；elseifI=11word='匡'；elseifI=10word=

46、'盞'elseifI=9word='固'；elseifI=8word='監(jiān)'；elseifI=7word='盂'；elseifI=6word='盒'；elseifI=5word='團(tuán)'；elseifI=4word='盈'；elseifI=3word='Hl'elseifI=2word='盔'elseifI=1word='因'；end%亂序圖像識別結(jié)果顯示functionword=jieguoxianshi(y)%顯示結(jié)果的函數(shù)y=rou

47、nd(y(1),round(y(2),round(y(3),round(y(4);ify=0,0,0,0word='匣'；elseify=0,0,0,1,word='囪'；elseify=0,0,1,0word='圖'；elseify=0,0,1,1word='國'；elseify=0,1,0,0word='盅'；elseify=0,1,0,1word='匡'；elseify=0,1,1,0word='盞'elseify=0,1,1,1word='固'；elseify

48、=1,0,0,0word='監(jiān)'；elseify=1,0,0,1word='盂'；elseify=1,0,1,0word='盒'；elseify=1,0,1,1word='團(tuán)'；elseify=1,1,0,0word='盈'；elseify=1,1,0,1word='W;elseify=1,1,1,0word='盔'elseify=1,1,1,1word='因'；end%特征提?。篺unctionPN=moshishibie(d)%特征提取函數(shù)%通過13點(diǎn)特征提取法提取特征%d為已處理圖象m,n=size(d);k1=1;fori=1:m/4f

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

印刷體漢字識別及其MATLAB實(shí)現(xiàn)

文檔簡介

溫馨提示

最新文檔

評論

印刷體漢字識別及其MATLAB實(shí)現(xiàn)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔