計算機(jī)技術(shù)在手寫體漢字識別方面的應(yīng)用及發(fā)展趨勢_第1頁
計算機(jī)技術(shù)在手寫體漢字識別方面的應(yīng)用及發(fā)展趨勢_第2頁
計算機(jī)技術(shù)在手寫體漢字識別方面的應(yīng)用及發(fā)展趨勢_第3頁
計算機(jī)技術(shù)在手寫體漢字識別方面的應(yīng)用及發(fā)展趨勢_第4頁
免費預(yù)覽已結(jié)束,剩余3頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 計算機(jī)技術(shù)在手寫體漢字識別方面的應(yīng)用及發(fā)展趨勢 陳擎國摘 要 隨著計算機(jī)技術(shù)以及大數(shù)據(jù)時代的到來,大眾將在越來越多的方面需要手寫體漢字識別技術(shù)產(chǎn)品。這意味著手寫體漢字識別技術(shù)的市場空間將變得更加廣闊。手寫體漢字識別技術(shù)主要分為聯(lián)機(jī)手寫體漢字識別技術(shù)與脫機(jī)手寫體漢字識別技術(shù)。其中,聯(lián)機(jī)手寫體漢字識別技術(shù)已較為成熟。文章對手寫體漢字識別技術(shù)發(fā)展歷程、基本原理、脫機(jī)手寫體漢字識別技術(shù)識別準(zhǔn)確率較低、反應(yīng)時間長等問題,以及手寫體漢字識別技術(shù)的未來發(fā)展方向做了研究及展望。關(guān)鍵詞 手寫漢字;漢字識別;脫機(jī)識別;光學(xué)字符識別中圖分類號 g2 文獻(xiàn)標(biāo)識碼 a 文章編號 1674-6708(2018)220-

2、0001-03隨著計算機(jī)科學(xué)技術(shù)的發(fā)展以及大數(shù)據(jù)時代的到來,傳統(tǒng)的紙質(zhì)文獻(xiàn)將越來越多地需要被轉(zhuǎn)化為電子文檔儲存在計算機(jī)中。例如:將紙質(zhì)的會議記錄拍攝成圖像,將其快速地轉(zhuǎn)化為能夠在計算機(jī)內(nèi)儲存與加工的電子文檔;將文獻(xiàn)古籍以圖片或掃描件的形式快速轉(zhuǎn)換為電子文檔進(jìn)行保存等。這將勢必需要完善目前的漢字手寫體識別方面的技術(shù),并提升其識別的準(zhǔn)確率以及減少其對較大訓(xùn)練樣本及硬件運行內(nèi)存的依賴。1 手寫體漢字識別技術(shù)的發(fā)展歷程隨著計算機(jī)技術(shù)的發(fā)展,漢字識別技術(shù)已經(jīng)逐漸融入人們的日常生活中,并將在經(jīng)濟(jì)、教育等領(lǐng)域發(fā)揮越來越重要的作用。漢字識別技術(shù),主要基于光學(xué)字符識別技術(shù)(optical character r

3、ecognition),以識別對象為標(biāo)準(zhǔn),可分為印刷體漢字識別與手寫體漢字識別技術(shù);以輸入方式為標(biāo)準(zhǔn),可分為聯(lián)機(jī)漢字識別與脫機(jī)漢字識別。手寫體漢字識別技術(shù),源于印刷體漢字識別技術(shù),從20世紀(jì)六七十年代開始,大致可分為3個時期:理論探索期、快速發(fā)展期、深入發(fā)展期。1.1 理論探索期(20世紀(jì)60年代70年代)自1946年世界上第一臺電子計算機(jī)在美國出現(xiàn)后,人們除了將計算機(jī)用于復(fù)雜計算外,還將其應(yīng)用于文檔的處理與保存。由于電子文檔擁有效率高、易于儲存、容量大等特點,一經(jīng)問世便受到科學(xué)家們的廣泛重視與研究。因為英文字母數(shù)量較少、筆畫簡單,在計算機(jī)識別中遇到的困難較小。而漢字?jǐn)?shù)量大、筆畫繁雜、形近字較

4、多,給予這一時代的科學(xué)家不小的困難。在這一階段,主要是歐美大型計算機(jī)企業(yè)以及中國國內(nèi)一些高校、研究所進(jìn)行初步的理論探索。例如:在1966年,casey r與nagy g首次發(fā)表關(guān)于印刷體漢字識別的文章,提出計算機(jī)識別漢字的理論基礎(chǔ)以及需要解決的技術(shù)難題。清華大學(xué)、南開大學(xué)、北京大學(xué)等高校開始進(jìn)行對規(guī)則且有限的漢字識別進(jìn)行研究。這個時期進(jìn)行的探索,盡管較為粗淺,但其為之后印刷體及手寫體漢字識別奠定了理論基礎(chǔ)、發(fā)現(xiàn)并定位了亟待解決的問題。1.2 快速發(fā)展期(20世紀(jì)80年代至21世紀(jì)初)到了20世紀(jì)80年代,漢字識別技術(shù)有了一定發(fā)展。印刷體漢字識別技術(shù)逐漸發(fā)展并最終成熟。科學(xué)家們通過模仿人類視覺識

5、別的過程,采用統(tǒng)計模式識別方法,通過逼近取值的算法來提取漢字,解決了印刷體漢字識別中漢字結(jié)構(gòu)與筆畫提取困難的難題,也為手寫體漢字識別提供了思路與方法。在這個階段,一些實用性高、錯誤率低的印刷體漢字識別軟件問世。例如:ibm公司的ocr技術(shù)已經(jīng)趨于成熟;20世紀(jì)90年代,清華大學(xué)研發(fā)的th-ocr產(chǎn)品率先實現(xiàn)了中英文混排識別;漢王公司的漢王ocr憑借識別率高等優(yōu)勢,在2000年達(dá)到世界領(lǐng)先水平。80年代中國發(fā)布了gb 2312-80國家標(biāo)準(zhǔn)字符庫,國外計算機(jī)公司也建立了相應(yīng)字符庫。這對漢字識別的發(fā)展起到極大的推動作用。而在20世紀(jì)80年代,手寫體漢字識別技術(shù)才剛剛起步,僅作為印刷體漢字識別產(chǎn)品的

6、附加功能,識別率低,實用性不強(qiáng)。但至21世紀(jì)初,聯(lián)機(jī)手寫體漢字識別技術(shù)由于可通過筆畫的先后順序進(jìn)行識別,發(fā)展已經(jīng)較為完善,也有多種實用的聯(lián)機(jī)手寫體漢字識別產(chǎn)品面世。然而,脫機(jī)手寫體識別技術(shù)仍處于萌芽階段。1.3 深入探索期(21世紀(jì)初至今)在21世紀(jì)初期,印刷體漢字識別技術(shù)已經(jīng)完善的背景下,越來越多的學(xué)者將目光投向了脫機(jī)手寫體漢字識別技術(shù),并構(gòu)建出基本識別流程,針對漢字分類提出了多種方法。主要分類方法分為:統(tǒng)計模式識別與結(jié)構(gòu)模式識別。這兩種方法各有利弊,但實用性尚為欠缺。近幾年隨著人工智能的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)、多分類器聚合等方法也相繼被提出。近年來,騰訊云ocr推出手寫體漢字識別服務(wù);百度、科

7、大訊飛等互聯(lián)網(wǎng)企業(yè)也推出了手寫體漢字識別產(chǎn)品。但是,真正有效實用的脫機(jī)手寫體漢字識別技術(shù)仍然需要科學(xué)家們繼續(xù)深入探索。2 手寫體漢字識別基本原理目前,計算機(jī)對手寫體漢字進(jìn)行識別分為兩種類別:聯(lián)機(jī)手寫體漢字識別與脫機(jī)手寫體漢字識別。盡管聯(lián)機(jī)識別時有筆順可進(jìn)行輔助參考,但兩種類別的基本原理大致相同,均分為:樣本輸入、預(yù)處理、特征提取、分類識別、末處理等五大流程(參見圖1)。2.1 樣本輸入樣本輸入,指的是將所需識別的漢字通過拍攝圖片、掃描等手段,轉(zhuǎn)換為計算機(jī)所能識別的圖像。在聯(lián)機(jī)手寫體漢字識別中,不僅要將相應(yīng)的圖像信息輸入電腦,也需把對應(yīng)的筆畫順序輸入電腦,以作為分類識別時的輔助參考。由于缺少相應(yīng)

8、的筆畫順序作為輔助判斷的工具,脫機(jī)手寫體漢字識別在下列步驟中的識別速度與準(zhǔn)確率目前均不及聯(lián)機(jī)手寫體漢字識別。2.2 預(yù)處理預(yù)處理,指的是計算機(jī)對輸入的圖像通過二值化、去噪等手段,降低圖片的維度,通過扭轉(zhuǎn)校正等方法,初步規(guī)范漢字圖像,繼而對圖像進(jìn)行切分,切分出單一的漢字,以便于對漢字的特征提取并降低識別的錯誤率。其中:二值化指的是,對圖片進(jìn)行灰度處理,將圖片轉(zhuǎn)換為黑白色,并用坐標(biāo)的方式標(biāo)記各個像素點,從而簡化計算機(jī)對漢字特征提取的難度,降低出錯率。去噪指的是,對圖像中的孤立點、孤立的筆畫、污點等進(jìn)行去除,以簡化識別難度,降低對cpu的使用率,降低對計算機(jī)硬件的要求。扭轉(zhuǎn)校正是指:將歪斜扭曲的筆畫

9、變化成整齊規(guī)則的標(biāo)準(zhǔn)筆畫,或?qū)⒉煌煮w、風(fēng)格的文字統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)字體,從而降低分類識別的難度。2.3 特征提取特征提取,指的是計算機(jī)對漢字中能夠體現(xiàn)出差異的特有信息進(jìn)行提取,例如:提取漢字的偏旁部首、筆畫的離散程度等。目前,特征提取方法主要分為兩種:提取結(jié)構(gòu)特征與提取統(tǒng)計模式特征。提取結(jié)構(gòu)特征是指:提取漢字結(jié)構(gòu)中的特殊結(jié)構(gòu),如:部首、框架等,并記錄提取的信息以供分類識別使用。該方法的優(yōu)點是易識別形近字,對不同字體的識別能力較強(qiáng)。但是,此方法對預(yù)處理要求較高,若預(yù)處理的圖像中出現(xiàn)斷裂、連筆等影響因素,此方法的提取成功率將會下降。而提取統(tǒng)計模式特征指的是:對樣本的坐標(biāo)進(jìn)行數(shù)學(xué)變換,利用傅里葉變換、

10、gabor變換等數(shù)學(xué)方法,再結(jié)合正態(tài)分布等統(tǒng)計方法來提取漢字特征。這種方法對預(yù)處理要求較低,但識別形近字、不同字體漢字的能力較弱。2.4 分類識別分類識別是指:利用上一步所提取的漢字特征信息,在計算機(jī)的字符庫中進(jìn)行檢索比對,檢索出相似程度最高的漢字作為輸出結(jié)果。這種檢索比對的方法被稱為分類識別方法。目前,漢字的主流分類識別方法有基于結(jié)構(gòu)的識別方法、基于統(tǒng)計模式的識別方法、神經(jīng)網(wǎng)絡(luò)識別法、貝葉斯決策法與支持向量機(jī)法等。其中神經(jīng)網(wǎng)絡(luò)識別法與支持向量機(jī)法是時下的熱點研究方向。各種分類方法適用不同的情形,有他們各自的優(yōu)缺點,例如基于結(jié)構(gòu)的識別方法中,隱馬爾科夫模型是其中的典型,該方法成功率較高,在中小

11、字符集的識別中成功率較高,但在識別大字符集方面識別率較低。而支持向量機(jī)法,擁有識別率較高,適應(yīng)訓(xùn)練字符集較小情況等優(yōu)勢,復(fù)雜程度高,對大字符集的識別時間較長。2.5 末處理在分類識別給出結(jié)果后,需要計算機(jī)通過解析句式結(jié)構(gòu)來驗證對漢字識別的正確與否。此時,聯(lián)機(jī)手寫體漢字識別還可以通過筆畫順序來輔助驗證。若驗證通過,則輸出識別結(jié)果;若驗證未通過,如:出現(xiàn)識別亂碼或語意等嚴(yán)重不符時,則反饋給分類識別環(huán)節(jié)重新進(jìn)行識別。末處理能夠顯著降低識別的錯誤率。目前,科學(xué)家也在試圖用增加末處理的環(huán)節(jié)等手段來提高手寫體漢字識別的準(zhǔn)確率。3 手寫體漢字識別技術(shù)的短板及發(fā)展趨勢近年來,聯(lián)機(jī)手寫體漢字識別由于擁有可以運用

12、筆畫順序來輔助識別的優(yōu)勢,發(fā)展比脫機(jī)手寫體漢字識別技術(shù)較快。目前,市場上已經(jīng)有為數(shù)眾多的聯(lián)機(jī)漢字識別產(chǎn)品供大眾使用。即使目前已有脫機(jī)手寫體漢字識別技術(shù)產(chǎn)品問世,我們也無法忽視脫機(jī)手寫體漢字識別技術(shù)中仍然存在的問題。下面將大致說明脫機(jī)手寫體漢字識別技術(shù)存在的缺陷。3.1 識別準(zhǔn)確率較低脫機(jī)手寫體漢字識別技術(shù)由于只能夠通過輸入的圖像進(jìn)行分析,受字體風(fēng)格、連筆、缺損、污點、扭曲等因素影響較大,給予預(yù)處理及特征提取步驟不小的困難。這也導(dǎo)致了在一開始的兩步中極易出現(xiàn)錯誤,從而導(dǎo)致后面分類識別環(huán)節(jié)中的錯誤,降低了識別準(zhǔn)確率。3.2 反應(yīng)時間長,對計算機(jī)硬件要求高脫機(jī)手寫體漢字識別技術(shù)由于缺乏筆畫作為輔助參

13、考,一個漢字往往有幾個,甚至幾十個、上百個相似的漢字。因此在分類識別環(huán)節(jié)中,相應(yīng)的算法較為復(fù)雜,檢索比對的耗時較長,從而拖慢了整個流程的反應(yīng)時間。這也使得該技術(shù)對計算機(jī)硬件的要求較高,特別是對cpu的要求較高,并且增加能耗,浪費資源。3.3 分類識別方法的適應(yīng)性較差盡管目前某些分類識別方法在某一方面的識別準(zhǔn)確率、反應(yīng)時間表現(xiàn)均比較出色,但或多或少都存在著不足之處。例如:隱馬爾科夫模型在中小字符集的識別中成功率較高,但在識別大字符集方面識別率較低;貝葉斯決策法識別正確率較高,但其需要的樣本量較大,計算較為復(fù)雜,同時對硬件的要求也比較高;神經(jīng)網(wǎng)絡(luò)識別法在小字符集識別方面表現(xiàn)優(yōu)異,但若將大字符集拆分

14、成小字符集來識別,又會造成響應(yīng)時間過長等問題。雖然脫機(jī)手寫體漢字識別技術(shù)仍需進(jìn)一步完善,市場上產(chǎn)品較少,用戶反饋不佳。但脫機(jī)手寫體漢字識別技術(shù)依然存在著較大的應(yīng)用市場空間。隨著科學(xué)家們對相應(yīng)技術(shù)的進(jìn)一步改進(jìn),手寫識別領(lǐng)域出現(xiàn)了許多新的發(fā)展方向。1)利用多種方法進(jìn)行漢字切分。通過運用多種方法對圖像中的漢字進(jìn)行切分,能夠有效地減少后面步驟中的反應(yīng)時間與識別錯誤率,降低對計算機(jī)硬件的需求,從而提升脫機(jī)手寫體漢字識別技術(shù)的實用性。2)將多種分類方法并行??茖W(xué)家們認(rèn)為,如果將多種分類器并行使用、取長補(bǔ)短,將會大大提高脫機(jī)手寫體漢字識別技術(shù)的識別準(zhǔn)確率,以達(dá)到用戶滿意的程度。3)延長末處理流程。一些學(xué)者指

15、出,通過延長末處理流程,如增加利用語意等語法因素在末處理步驟中進(jìn)行查證,能夠進(jìn)一步提升脫機(jī)手寫體漢字識別技術(shù)的識別準(zhǔn)確率,同時也不會對計算機(jī)硬件提出更高的要求。4 結(jié)論文章對手寫體漢字識別技術(shù)的發(fā)展歷程、基本原理及未來發(fā)展的趨勢進(jìn)行了概述與展望。能夠看出,近年來,聯(lián)機(jī)手寫體漢字識別技術(shù)已經(jīng)逐漸完善,市場上也出現(xiàn)較多的聯(lián)機(jī)手寫體漢字識別產(chǎn)品。脫機(jī)手寫體漢字識別技術(shù)從無到有?;驹硪草^為清晰。但是,脫機(jī)手寫體漢字識別技術(shù)仍不完善,存在著識別準(zhǔn)確率較低、反應(yīng)時間長、計算復(fù)雜、對硬件要求高等缺陷,制成的產(chǎn)品詬病頗多。在不斷研究的同時,科學(xué)家們開始嘗試運用多種方法對漢字進(jìn)行切分、將多種分類方法并行、增加末處理環(huán)節(jié)流程等方法,從而使這項技術(shù)能夠

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論