下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、淺析漢字識(shí)別技術(shù)在檔案管理工作中的應(yīng)用 漢字識(shí)別技術(shù)(簡稱ocr)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。 一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值 漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面: 一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供 豐富的數(shù)據(jù)源。 首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的 重要?dú)v史,對(duì)我國現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用 價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù)
2、,或者說都只是固定在紙質(zhì)載體上的死信息。既 使通過掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案 信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來看,每年接收的檔案中仍然會(huì)有相 當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦?,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值 就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù) 據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。 另一方面,提供了一種新的檔 案目錄數(shù)據(jù)的錄入方式。 應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許 多種,而且日趨簡便快捷,已是年輕
3、人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需 要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng) 比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門 建立檔案目錄信息數(shù)據(jù)庫的因素之一。ocr軟件為我們提供了一條新的途徑。它通過“拖拉 ”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相 應(yīng)字段中去,簡單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或 調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一
4、條前所未有的途徑。而且 ,如果利用ocr軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像 和文本等,效果就此較理想了。 二、漢字識(shí)別后生成的文本數(shù)據(jù)的屬性問題。 原始性是檔案的基本屬性。漢字識(shí)別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙 質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、識(shí)別、校對(duì)、修改等工序后形成的復(fù)制加工品, 因此不具有檔案的原始性。 知識(shí)性是檔案的又一個(gè)屬性。漢字識(shí)別后生成的文本數(shù)據(jù)如果不計(jì)算人工校對(duì)后仍然可能存 在的微小誤差,應(yīng)該說具有與檔案原件同等的內(nèi)容,因此具有檔案的知識(shí)性。 漢字識(shí)別后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特殊的物理方式重新記錄在特殊的載體之上
5、, 比以文字的方式記錄在紙質(zhì)載體之上更具有便于傳遞、接收、存儲(chǔ)、利用以及不磨損、不丟 失等屬性。因此具有更強(qiáng)的信息性。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁 漢字識(shí)別后生成的文本數(shù)據(jù)應(yīng)該說,它是一種新型的檔案一次信息的復(fù)制品或編研開發(fā)成果 。但作為一種新型的復(fù)制品或編研開發(fā)成果,因其生成的目的不同,又具有兩種不同的屬性 :當(dāng)以提供利用為目的通過漢字識(shí)別建立文本數(shù)據(jù)庫時(shí),其文本數(shù)據(jù)具有類似于匯編類檔案 編研成
6、果的屬性;當(dāng)以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機(jī)構(gòu)沿革、文件匯編等 為目的進(jìn)行漢字識(shí)別時(shí),其文本數(shù)據(jù)不僅具有類似于檔案編研成果的屬性,而且具有檔案原 始性的基本屬性,因?yàn)樗鼈兪怯∷⑵坊虺霭嫖锏谋驹葱畔ⅰ?由此可見,漢字識(shí)別后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案屬性的新型檔案信息。 三、漢字識(shí)別技術(shù)的應(yīng)用方式</p· 上一頁· 1· 2· 3· 4· 5· 下一頁 漢字識(shí)別技術(shù)在檔案管理工作中的應(yīng)用,根據(jù)其目前的技術(shù)水平
7、主要適用于近幾十年來印刷 漢字檔案內(nèi)容的識(shí)別,圖像、文本數(shù)據(jù)的形成、存儲(chǔ)和目錄數(shù)據(jù)的錄入等項(xiàng)工作。主要的應(yīng) 用方式有: (一)利用者閱讀紙質(zhì)檔案的內(nèi)容之后,對(duì)其所需要的內(nèi)容進(jìn)行掃描和漢字識(shí)別,或打印出統(tǒng) 一格式的利用摘錄,或直接提供文本拷貝。 這種利用方式的優(yōu)點(diǎn)主要有: 1方便用戶,可減少信息利用過程中的重復(fù)勞動(dòng); 2不給檔 案人員增加建庫的工作負(fù)擔(dān); 3節(jié)省建庫所
8、需的經(jīng)費(fèi)開支。其缺點(diǎn)主要有: 1不能為全文 檢索提供數(shù)據(jù),實(shí)現(xiàn)深層次開發(fā)檔案信息資源的目的; 2存在對(duì)同一檔案內(nèi)容重復(fù)進(jìn)行掃 描和漢字識(shí)別的可能性。 (二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫建設(shè)的一條新路,能夠使更多的人員從事輸入工作,但輸入速度不甚理想,而且成本費(fèi)用相對(duì)較高。 (三)掃描、保存圖像并提供利用,只針對(duì)利用者需要的圖像內(nèi)容進(jìn)行漢字識(shí)別等利用服務(wù)。
9、0; 這種方式必須在已有文件目錄的前提下使用。其優(yōu)點(diǎn)主要有:1具有提供原件和提高信息 利用效率的雙重優(yōu)勢(shì);2檔案人員不承擔(dān)漢字識(shí)別后生成的文本數(shù)據(jù)的維護(hù)工作。其缺點(diǎn) 主要有:1同第一種利用方式的缺點(diǎn)。2漢字識(shí)別技術(shù)要求圖像的光學(xué)分辨率較高,一般為3000dpi,而一般圖像的分辨率僅為150dpi,因此所需的存儲(chǔ)空間較大,約是一般圖像的2 、3倍,那么,所需的存儲(chǔ)成本也要高得多。這種高代價(jià)的圖像存儲(chǔ)僅用來滿足用戶利用識(shí) 別的需要似乎有點(diǎn)得不償失。因此低分辨率的圖像也能進(jìn)行漢字識(shí)別,只是識(shí)別率相對(duì)較低 而已。我們也曾做過對(duì)比實(shí)驗(yàn),同一頁印刷質(zhì)量良好的b5紙型文件約500字,以300dpi進(jìn)行掃描,
10、識(shí)別率為100%;以150dpi進(jìn)行掃描,識(shí)別率為99.4%(誤識(shí)3字)。這對(duì)于一般用戶而言無所謂的。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁 (四)建立文本數(shù)據(jù)庫。這種方式也應(yīng)在已有文件目錄的條件下使用。其優(yōu)點(diǎn)主要有: 1節(jié)省存儲(chǔ)空間和存儲(chǔ)成本。仍以一頁b5型紙約500漢字的文件為例,以文本方式存儲(chǔ)約需1000字節(jié);以圖像方式存儲(chǔ)約需25000字節(jié)。因此,同量漢字的文本方式存儲(chǔ)比圖像方式存儲(chǔ)成本低得多。 2為全文檢索提供數(shù)據(jù),能夠?qū)崿F(xiàn)深層次開發(fā)利用檔案信息資源的目的。 其缺點(diǎn)主要有: 1建立文本數(shù)據(jù)庫的工作量較大。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)社會(huì)工作發(fā)展-第1篇-洞察分析
- 藥物代謝途徑解析-第2篇-洞察分析
- 遠(yuǎn)程醫(yī)療平臺(tái)優(yōu)化-洞察分析
- 魚類養(yǎng)殖廢棄物處理-洞察分析
- 羽毛微觀結(jié)構(gòu)分析-洞察分析
- 碳交易市場(chǎng)資本流動(dòng)-洞察分析
- 水質(zhì)惡化預(yù)警系統(tǒng)構(gòu)建-洞察分析
- 溫室環(huán)境友好型技術(shù)-洞察分析
- 網(wǎng)絡(luò)安全與文檔加密策略-洞察分析
- 《工會(huì)管理》課件
- 工行個(gè)人小額貸款合同樣本
- 江西省萍鄉(xiāng)市2023-2024學(xué)年高一上學(xué)期期末考試數(shù)學(xué)試題(解析版)
- Unit 5 Here and now Section B project 說課稿 2024-2025學(xué)年人教版(2024)七年級(jí)英語下冊(cè)標(biāo)簽標(biāo)題
- 2024-2025學(xué)年上學(xué)期深圳初中地理七年級(jí)期末模擬卷1
- 2025屆西藏自治區(qū)拉薩市北京實(shí)驗(yàn)中學(xué)高考數(shù)學(xué)五模試卷含解析
- 2025年中國科學(xué)技術(shù)大學(xué)自主招生個(gè)人陳述自薦信范文
- 學(xué)校2025元旦假期安全教育宣傳課件
- 2024年版母公司控股協(xié)議2篇
- GB/T 44757-2024鈦及鈦合金陽極氧化膜
- 2024年地理知識(shí)競(jìng)賽試題200題及答案
- 肝衰竭診治指南(2024年版)解讀
評(píng)論
0/150
提交評(píng)論