圖像魔術(shù)師文檔賞析

上傳人：f*** IP屬地：山東上傳時(shí)間：2025-02-18 格式：DOCX 頁數(shù)：6 大?。?0.37KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

圖像魔術(shù)師●漢字OCR發(fā)展沿革我國使用漢字的歷史源遠(yuǎn)流長，漢字的識別遠(yuǎn)比數(shù)字、西文要棘手，主要體現(xiàn)在以下三個(gè)方面。1.數(shù)量龐大2.結(jié)構(gòu)復(fù)雜漢字的結(jié)構(gòu)性很強(qiáng)。漢字可以看作是部件的組合，稱之為偏旁、部首或字根，是筆畫的有意義的組合。筆畫和部首的排列組合，構(gòu)成了結(jié)構(gòu)異常復(fù)雜的漢字。3.相似字多很多漢字之間差別很小，有些僅表現(xiàn)為某一個(gè)筆畫位置或形態(tài)的微小變化。這些漢字即使由人來識別也容易出錯(cuò)，機(jī)器識別的難度可想而知?！駛鹘y(tǒng)漢字OCR原理目前現(xiàn)存大量傳統(tǒng)漢字OCR軟件的技術(shù)線路如下圖所示。1.文件管理通過掃描儀、手機(jī)、相機(jī)等儀器采集需要識別的文字圖片。2.圖像增強(qiáng)圖像增強(qiáng)即是對圖像的成像進(jìn)行修正，特別是手機(jī)、相機(jī)拍攝的圖片，如果不進(jìn)行修正，將極大地影響文字識別率。處理過程包括灰度化、二值化、幾何變換（透視、扭曲、旋轉(zhuǎn)等）、畸變校正、圖像增強(qiáng)和光線校正、圖像平滑、行字切分等。（1）灰度化我們得到的文字圖片大多是彩色的，無疑會有很多干擾信息，對文字識別很不利。通過灰度化處理，將原本由三維描述的像素點(diǎn)映射為一維描述的像素點(diǎn)，可以排除多余的干擾。（2）二值化所謂二值化，就是把灰度值圖像信號轉(zhuǎn)化為只有黑和白的二值圖像信號，將漢字從圖像中分離出來。通常先確定像素的閾值，然后用像素的值和閾值比較，確定這個(gè)像素點(diǎn)為1或0。如果閾值太小，保留的信息過多，許多無用信息就會干擾以后的處理;如果閾值太大，則會丟失正常的信息，最終使得文字信息不完整，無法準(zhǔn)確識別。（3）行字切分傳統(tǒng)OCR主要采用模式匹配來進(jìn)行漢字識別，所以要將圖像中的文字首先切分成行（列），再將單個(gè)漢字摳出來，以和模式庫中的文字進(jìn)行比對。3.漢字識別漢字識別的關(guān)鍵是建立一個(gè)科學(xué)的特征庫，通過圖像預(yù)處理后，提取出漢字的特征，再和特征庫進(jìn)行比對，匹配上就完成了漢字的識別。漢字有哪些特征可供提取呢？（1）結(jié)構(gòu)特征結(jié)構(gòu)特征包括抽取筆畫法和松弛匹配法。抽取筆畫法是利用漢字的結(jié)構(gòu)信息來進(jìn)行漢字的聯(lián)機(jī)識別;松弛匹配法是基于全局特征的匹配方法，抽取邊界線段，將這些邊界線段組成臨近線段表，然后用松弛匹配操作，完成邊與邊的匹配。（2）統(tǒng)計(jì)特征①特征點(diǎn)：主要是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn)、白點(diǎn)作為特征來區(qū)分不同的字符。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)。這個(gè)方法能壓縮特征庫的容量，識別的適應(yīng)性強(qiáng)、直觀性好。②筆段特征：漢字筆畫由筆段組成，筆段可以看作是一定方向、長度和寬度的矩形段。利用筆段之間的關(guān)系組成特征對漢字進(jìn)行識別，對多體漢字的識別效果較好。當(dāng)然，漢字的多樣性和圖像的不同特點(diǎn)決定了在漢字識別過程中，提取特征要根據(jù)實(shí)際情況來選擇或者組合幾個(gè)特征，以達(dá)到更好的效果。目前的OCR都無法達(dá)到百分之百正確識別，通常識別完以后，都要提供一些方法對文字進(jìn)行編輯修改。一般OCR軟件都會提供對照修改或自動修改功能。對照修改就是觀察識別錯(cuò)誤的文字，將光標(biāo)定位到錯(cuò)誤處，界面會同時(shí)顯示對應(yīng)的圖像位置，從而根據(jù)圖像來修改文字。自動修改則是基于語義理解，結(jié)合上下文信息進(jìn)行校正。語義理解是人工智能領(lǐng)域一個(gè)亟待突破的難點(diǎn)，目前的自動修改還只能作為一個(gè)參考來使用。通過編輯的文字最終可以導(dǎo)出到文本文件（TXT）或RTF文檔中。如果只需要文字進(jìn)行排版，可以導(dǎo)出到文本文件中，如果想保留更多的格式信息，則RTF文檔是一個(gè)不錯(cuò)的選擇，從而可以在Word等軟件中進(jìn)一步編輯。●PC機(jī)實(shí)用OCR軟件指南隨著人工智能技術(shù)在OCR領(lǐng)域的普及，深度學(xué)習(xí)使得OCR從傳統(tǒng)的印刷體光學(xué)字符識別走向了場景文字識別。一些開源小軟件通過調(diào)用互聯(lián)網(wǎng)大公司提供的接口提供OCR服務(wù)，能非常方便地解決某些領(lǐng)域的難題。1.漢王PDFOCR漢王集團(tuán)除了OCR搭上了人工智能的快車，在手寫識別、自然語言識別、人臉及生物特征識別等方面也得到了很大的發(fā)展。OCR方面，除了印刷體字符識別外，還在手寫體字符識別、自然場景拍照識別、公式字符識別、復(fù)雜表格識別、卡片識別、票據(jù)識別等方面具有一定的優(yōu)勢。如果我們需要把大量紙質(zhì)文件數(shù)字化，漢王PDFOCR還是非常快捷方便的。①輸入：點(diǎn)擊“文件”菜單，可以直接打開圖像文件，或者選擇聯(lián)機(jī)的掃描儀掃描紙質(zhì)文件。③版面分析：在“識別”菜單下有“版面分析”功能（快捷鍵F5），對圖像中的文字進(jìn)行切片。如果識別有錯(cuò)誤，可以手工拖動紅框進(jìn)行修改。如果版面比較復(fù)雜，可以點(diǎn)擊選中相應(yīng)的板塊，在“識別-修改欄屬性”中設(shè)置相應(yīng)的欄目為圖像、表格、橫排、豎排，為接下來的文字識別提供更好的識別率。④文字識別：單擊菜單“識別-開始識別”（快捷鍵F8），就會在中間欄顯示識別結(jié)果，速度很快。⑥輸出：點(diǎn)擊“輸出-到指定格式文件”，有TXT、RTF、HTML、XLS四種格式可以選。如果要保留原來的排版，輸出成RTF格式，然后就可以用Word打開，繼續(xù)完成排版工作。比較遺憾的是，雖然版式能大體保留下來，但每一行文字會作為一個(gè)段落?？梢赃x中一個(gè)自然段，通過Word的“替換”功能（組合鍵Ctrl+H），在“查找內(nèi)容”輸入“^p”（或在下面的“特殊格式”中選中“段落標(biāo)記”，會自動輸入“^p”），讓“替換為”留空，單擊“全部替換”，就會把本段中多余的換行去掉。漢王PDFOCR雖然較長時(shí)間沒有更新，但還是能滿足大量掃描文件識別的要求，如教材的數(shù)字化等。同時(shí)，軟件還提供直接打開PDF文件，并能直接將文字化的PDF轉(zhuǎn)化為RTF文件的功能，除了每行后會有一個(gè)段落標(biāo)記外基本上能比較完美地復(fù)原PDF文檔的版式。2.天若OCR天若OCR是一款開源軟件，它本身并不具備OCR功能，而是通過調(diào)用各大OCR公司提供的接口來進(jìn)行文字識別。因?yàn)橐{(diào)用網(wǎng)絡(luò)上提供的接口才能識別文字，所以它必須聯(lián)網(wǎng)才能工作。它的最大用處是將計(jì)算機(jī)屏幕上能顯示的文字識別出來，而不管這些文字是真正的文字（如各種網(wǎng)文、文庫）還是圖片、PDF文檔，只要屏幕上能顯示，都可以將其變?yōu)榭删庉嫷奈淖?。天若OCR軟件非常簡潔，啟動后只有一個(gè)浮動工具欄和一個(gè)類似空白記事本的界面。按“F4”鍵（或單擊浮動工具欄的“T”），鼠標(biāo)變成一個(gè)“十”字，右下將放大鼠標(biāo)所在位置的圖像。按下鼠標(biāo)左鍵，拖動鼠標(biāo)選中需要識別的文字，松開鼠標(biāo)以后，識別結(jié)果就出現(xiàn)在主界面中，可以進(jìn)一步修改。最后點(diǎn)擊“docx”按鈕，就能將文字導(dǎo)出到一個(gè)Word文檔中，印刷體的識別率幾乎達(dá)到百分之百。和漢王等傳統(tǒng)OCR軟件相比，天若能準(zhǔn)確進(jìn)行段落識別，再也不會在每行后面多出一個(gè)段落標(biāo)記。它的缺點(diǎn)是對排版格式保留得不是很好，不適合于紙質(zhì)文檔數(shù)字化。有了這款軟件，我們可以解決幾個(gè)主要問題：①復(fù)制某些不方便復(fù)制的文檔。我們在網(wǎng)上找到某些有用的文字時(shí)，經(jīng)常被限制復(fù)制，需要注冊會員、VIP等。有了這款軟件，可以輕松完成復(fù)制文字任務(wù)。②PDF轉(zhuǎn)文字。微軟Office2013以后的版本都支持編輯PDF，可很多計(jì)算機(jī)還停留在Office2007甚至Office2003的版本。通過這款軟件，不管是文字還是圖片格式的PDF文檔，都可以輕松轉(zhuǎn)換成可編輯文本。③圖片文字識別。這個(gè)是OCR軟件的基本功能，可以直接打開圖片進(jìn)行識別。④表格、公式、豎排文本等復(fù)雜文本識別。復(fù)雜文本識別需調(diào)用收費(fèi)接口或?qū)Ｓ媒涌冢枰螺d天若

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

圖像魔術(shù)師文檔賞析

文檔簡介

溫馨提示

最新文檔

評論

圖像魔術(shù)師文檔賞析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔