![印刷體漢字識別技術(shù)研究PPT_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea601.gif)
![印刷體漢字識別技術(shù)研究PPT_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea602.gif)
![印刷體漢字識別技術(shù)研究PPT_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea603.gif)
![印刷體漢字識別技術(shù)研究PPT_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea604.gif)
![印刷體漢字識別技術(shù)研究PPT_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/15/1ade62c6-35df-404f-bfbb-f5b5410fea60/1ade62c6-35df-404f-bfbb-f5b5410fea605.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、印刷體漢字識別技術(shù)的研究0910321220 沈佳駿指導(dǎo)教師:陳嵐印刷體漢字識別技術(shù)的研究背景 印刷體漢字識別技術(shù)是一種高速、自動(dòng)的信息錄入手段,成為未來計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。漢字識別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理。實(shí)際生活中,大量的書信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),隨著勞動(dòng)力價(jià)格的升高,利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。人們要求有一種能將文字信息高速、自動(dòng)輸入計(jì)算機(jī)的方法,于是印刷體漢字識別技術(shù)便應(yīng)運(yùn)而生。印刷體漢字識別技術(shù)存在的難點(diǎn)(1)類別較大(2)結(jié)構(gòu)
2、復(fù)雜(3)相似字多 漢字的以上幾個(gè)特點(diǎn)就決定了沒有單一的一種特征就可以完成對漢字的識別,因此如何有效的選取各種特征,有效的進(jìn)行組合,使它們在匹配速度和識別率上都能滿足實(shí)際需求就成為整個(gè)系統(tǒng)的關(guān)鍵。印刷體漢字識別的流程簡介 該系統(tǒng)由輸入設(shè)備、漢字識別模塊和計(jì)算機(jī)硬、軟件三部分組成。核心部分是漢字識別模塊部分,印刷體漢字識別的過程主要過程包括預(yù)處理、版面分析理解、文本行字切分、特征提取、漢字識別、識別后處理。印刷體漢字識別流程圖 系統(tǒng)的Matlab仿真 系統(tǒng)的分析 系統(tǒng)的實(shí)現(xiàn) 系統(tǒng)性能的進(jìn)一步驗(yàn)證 仿真結(jié)果分析系統(tǒng)的分析 本設(shè)計(jì)要實(shí)現(xiàn)的是一個(gè)能識別三十二個(gè)印刷體漢字的識別系統(tǒng)。由于字庫容量較小,因
3、此本設(shè)計(jì)對系統(tǒng)的預(yù)期識別率指標(biāo)定為100%。 印刷體漢字識別系統(tǒng)采用的是十三點(diǎn)特征提取法和神經(jīng)網(wǎng)絡(luò)識別相結(jié)合的原理。十三點(diǎn)特征提取法負(fù)責(zé)提取漢字中的特征點(diǎn),形成一個(gè)1X13的向量,作為神經(jīng)網(wǎng)絡(luò)的輸入,我們可以實(shí)現(xiàn)一個(gè)標(biāo)準(zhǔn)庫神經(jīng)網(wǎng)絡(luò),由于不同的漢字對應(yīng)的特征向量不同,當(dāng)輸入相應(yīng)的特征向量就輸出對應(yīng)的漢字。 待識別文件首先由文件管理器加載。送入圖像管理模塊,經(jīng)二值化,轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識別文字的點(diǎn)陣,漢字識別模塊從點(diǎn)陣中提取識別特征,通過十三點(diǎn)特征提取,精確匹配識別結(jié)果。系統(tǒng)的工作流程如圖所示。 印刷體漢字識別工作流程圖系統(tǒng)的實(shí)現(xiàn) 特征提取 BP神經(jīng)網(wǎng)絡(luò)的
4、建立 BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 系統(tǒng)的仿真 十三點(diǎn)特征所產(chǎn)生的數(shù)據(jù)形成一個(gè)矢量作為神經(jīng)網(wǎng)絡(luò)的輸入,此數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識別過程(十三點(diǎn)特征提取的程序見參考附錄1)。十三點(diǎn)特征提取分塊特征提取BP神經(jīng)網(wǎng)絡(luò)的建立神經(jīng)網(wǎng)絡(luò)輸出向量中的元素個(gè)數(shù)由我們的標(biāo)準(zhǔn)庫中字符的個(gè)數(shù)確定,由于所要建立的標(biāo)準(zhǔn)庫字符的個(gè)數(shù)是32,并且因?yàn)橛?jì)算機(jī)語言只能識別0和1這二個(gè)值,所以神經(jīng)網(wǎng)絡(luò)輸出向量中最少有5個(gè)元素才能搭配出32個(gè)不同的數(shù)值。神經(jīng)網(wǎng)絡(luò)的建立可以參見以下程序:net=newff(minmax(P),50,40,5,tansig,tansig,tansig,traingd); 其中P是神經(jīng)網(wǎng)絡(luò)的輸入向量,tansi
5、g,tansig,tansig是包含每層用到的傳遞函數(shù)名稱的細(xì)胞數(shù)組。traingd是用到的訓(xùn)練函數(shù)的名稱。神經(jīng)網(wǎng)絡(luò)建立后,需要對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。訓(xùn)練參數(shù)如下所示: net.trainParam.show=100; %每100顯示1次 net.trainParam.Ir=0.005; %設(shè)置學(xué)習(xí)速率 net.trainParam.epochs=30000; %設(shè)置訓(xùn)練次數(shù) net.trainParam.goal=0; %設(shè)置性能函數(shù) net=train(net,P,T); %訓(xùn)練BP網(wǎng)絡(luò) save zmn123 net %保存文件名為 zmn123BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 神經(jīng)網(wǎng)絡(luò)建立
6、后,需要對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以產(chǎn)生標(biāo)準(zhǔn)庫。下圖(圖4.2.2)是輸出向量為五個(gè)元素和輸入向量為三十二個(gè)元素的BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差,最終訓(xùn)練誤差是0.00447779。五輸出元素系統(tǒng)的訓(xùn)練誤差曲線系統(tǒng)的仿真 系統(tǒng)首先對標(biāo)準(zhǔn)圖像(見圖4.2.3)進(jìn)行識別,運(yùn)行程序后處理過程分別進(jìn)行轉(zhuǎn)灰度(見圖4.2.4),均值濾波(見圖4.2.5),二值化(見圖4.2.6),經(jīng)行列切分后得到處理結(jié)果(見圖4.2.7),最后在命令窗口輸出識別結(jié)果(見圖4.2.8)。圖4.2.3 標(biāo)準(zhǔn)圖像圖4.2.4 標(biāo)準(zhǔn)轉(zhuǎn)灰度圖像圖4.2.5 標(biāo)準(zhǔn)均值濾波圖像圖4.2.6 標(biāo)準(zhǔn)二值化圖像圖4.2.7 標(biāo)準(zhǔn)圖像處理結(jié)果圖4.2.8
7、標(biāo)準(zhǔn)圖像識別結(jié)果 基于這個(gè)已建立的標(biāo)準(zhǔn)庫,我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)經(jīng)過自學(xué)習(xí)后對標(biāo)準(zhǔn)圖像中漢字的識別率是100%,系統(tǒng)的技術(shù)指標(biāo)符合我們的預(yù)期。通過對標(biāo)準(zhǔn)圖像識別學(xué)習(xí)訓(xùn)練,然后再對輸入亂序圖像(見4.2.9)進(jìn)行識別,運(yùn)行程序后識別過程中分別進(jìn)行轉(zhuǎn)灰度(見圖4.2.10),均值濾波(見圖4.2.11),二值化(見圖4.2.12),經(jīng)行列切分后得到處理結(jié)果(見圖4.2.13),最后在命令窗口輸出識別結(jié)果(見圖4.2.14)。圖4.2.9 亂序圖像圖4.2.4 亂序轉(zhuǎn)灰度圖像圖4.2.11 亂序均值濾波圖像圖4.2.12 亂序二值化圖像圖4.2.13 亂序圖像處理結(jié)果圖 4.2
8、.14 亂序圖像識別結(jié)果 基于這個(gè)已建立的標(biāo)準(zhǔn)庫,我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)對亂序圖像的漢字也能100%識別,初步驗(yàn)證了本系統(tǒng)具有一定高度的識別率。系統(tǒng)性能的進(jìn)一步驗(yàn)證 但由于本系統(tǒng)設(shè)定的字庫容量較小僅為三十二個(gè)字,即使以上漢字都能夠一一識別也并不能完全證明本系統(tǒng)具有較高的識別率。因此,為了進(jìn)一步驗(yàn)證本系統(tǒng)的性能,下面我們將采用一組總數(shù)32個(gè)字的相似字圖片讓系統(tǒng)對其進(jìn)行識別,標(biāo)準(zhǔn)庫的建立及識別過程同第一組漢字圖片的識別方法。相似字標(biāo)準(zhǔn)及亂序圖片如下所示 相似字標(biāo)準(zhǔn)圖片相似字亂序圖片圖4.2.27 相似字亂序圖像識別結(jié)果 我們通過Matlab程序仿真結(jié)果得知,此系統(tǒng)對相似字亂序
9、圖像的漢字也能100%識別,進(jìn)一步證明了本系統(tǒng)具有卓越的性能。仿真結(jié)果分析 經(jīng)過兩組圖像的仿真結(jié)果可以看出,系統(tǒng)能夠在學(xué)習(xí)標(biāo)準(zhǔn)圖像識別后建立標(biāo)準(zhǔn)庫,并根據(jù)標(biāo)準(zhǔn)字庫與以后的輸入圖像進(jìn)行匹配識別輸出,說明系統(tǒng)基本實(shí)現(xiàn)預(yù)先設(shè)想的功能,本系統(tǒng)采用的算法有一定的實(shí)用價(jià)值。但本系統(tǒng)仍有一些技術(shù)薄弱環(huán)節(jié)可繼續(xù)改進(jìn),一是程序的自動(dòng)適應(yīng)能力還不強(qiáng),往往只能識別有限的幾種標(biāo)準(zhǔn)印刷字體。其原因是在二值化與均值濾波時(shí)選取的參數(shù)不能適應(yīng)像素值的變化等;二是由于字庫的局限性,只能識別預(yù)先設(shè)定的三十二個(gè)漢字,僅能用來進(jìn)行實(shí)驗(yàn)原理的驗(yàn)證而不能投入到日常使用。因此在拓展字庫的同時(shí)如何提高參數(shù)的適應(yīng)性,即如何提高識別的自動(dòng)適應(yīng)能力,仍是漢字識別領(lǐng)域急需改進(jìn)的難點(diǎn)問題。未來展望我認(rèn)為未來的漢字識別技術(shù)將著重突破于以下幾個(gè)方面: (1)進(jìn)一步提高漢字識別率。 (2)提高版面的自動(dòng)分析能力。(3)系統(tǒng)能適用于各種應(yīng)用環(huán)境。(4)發(fā)展Intrnet上的網(wǎng)絡(luò)版版。 致謝 在這里,我首先要由衷地感謝我的論文指導(dǎo)老師陳嵐教授對我的悉心指導(dǎo)。在整個(gè)畢業(yè)課題的設(shè)計(jì)以及論文的撰寫過程中,她對我悉心指導(dǎo)、嚴(yán)格要求、熱情鼓勵(lì)并給予我極大的支持和具有啟發(fā)性的建議,使得我的畢業(yè)設(shè)計(jì)得以順利的完成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國防軍事訓(xùn)練合作合同范本
- 玉溪2025年云南玉溪市第二幼兒園龍湖園區(qū)招聘編制外人員筆試歷年參考題庫附帶答案詳解
- 漯河2024年河南漯河市沙澧河建設(shè)運(yùn)行保障中心人才引進(jìn)5人筆試歷年參考題庫附帶答案詳解
- 湖南2025年湖南農(nóng)業(yè)大學(xué)招聘58人筆試歷年參考題庫附帶答案詳解
- 河南2025年河南省醫(yī)學(xué)科學(xué)院電生理研究所招聘20人筆試歷年參考題庫附帶答案詳解
- 池州2024年安徽池州學(xué)院招聘事業(yè)編制黨政管理崗筆試歷年參考題庫附帶答案詳解
- 杭州浙江杭州市臨平區(qū)沾橋中學(xué)招聘2024學(xué)年第二學(xué)期臨時(shí)聘用教師筆試歷年參考題庫附帶答案詳解
- 2025年中國塑料鏈條市場調(diào)查研究報(bào)告
- 2025年金融查詢機(jī)外殼項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國非離子表面活性劑行業(yè)投資前景及策略咨詢研究報(bào)告
- 勞動(dòng)感悟800字作文30篇
- 尚書全文及譯文
- 華師大版初中數(shù)學(xué)中考總復(fù)習(xí)全套課件
- 動(dòng)物外科與產(chǎn)科
- 上下樓梯安全我知道安全教育課件
- 市級臨床重點(diǎn)專科申報(bào)書
- 手術(shù)風(fēng)險(xiǎn)及醫(yī)療意外險(xiǎn)告知流程
- 綜合實(shí)踐活動(dòng)六年級下冊 飲料與健康課件 (共16張PPT)
- 《醫(yī)院重點(diǎn)??平ㄔO(shè)專項(xiàng)資金管理辦法》
- 最新短視頻運(yùn)營績效考核表KPI(優(yōu)選.)
- 設(shè)備基礎(chǔ)隔振設(shè)計(jì)探討
評論
0/150
提交評論