




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
TOC\o"1-5"\h\z(三)數(shù)字化加工部分 2需求分析與總結(jié) 2參考的國家標準及技術(shù)規(guī)范 2數(shù)字化加工實施細則 3\o"CurrentDocument"本項的掃描加工流程 3\o"CurrentDocument"生產(chǎn)流程有以下幾個主要的步驟組成: 4\o"CurrentDocument"檔案整理 5\o"CurrentDocument"著錄標引 6\o"CurrentDocument"紙件掃描 7\o"CurrentDocument"圖像處理 8\o"CurrentDocument"質(zhì)量檢驗 10\o"CurrentDocument"檔案還原裝訂 10\o"CurrentDocument"數(shù)據(jù)存儲與備份 12\o"CurrentDocument"檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無縫掛接 12項目所采用的OCR處理技術(shù)介紹 12\o"CurrentDocument". OCR(光學(xué)字符識別)技術(shù) 12.所采用的OCR及雙層PDF生產(chǎn)流程 13\o"CurrentDocument". 生產(chǎn)流程邏輯示意圖 14XXXXXX檔案數(shù)字化服務(wù)特點 15\o"CurrentDocument". 自動化程度高 15\o"CurrentDocument". 標準化程度高 15\o"CurrentDocument". 嚴格的質(zhì)量控制 15\o"CurrentDocument". 文檔安全性高 15\o"CurrentDocument". 標準的格式 15\o"CurrentDocument". 方便存儲與管理 16(三)數(shù)字化加工部分需求分析與總結(jié)此次項目是將中國煙草總公司XXXXXX省公司及所屬11個市煙草公司的約183萬頁紙質(zhì)檔案進行數(shù)字化加工并將成品數(shù)據(jù)掛接到檔案管理系統(tǒng)中,紙質(zhì)檔案的折分整理、掃描與圖像處理、數(shù)據(jù)的掛接與光盤備份都將嚴格按照國家檔案局相關(guān)標準及XXXXXX省檔案局相關(guān)規(guī)定,結(jié)合XXXXXX煙草檔案現(xiàn)狀定制加工技術(shù)規(guī)范與生產(chǎn)加工流程。。據(jù)上述現(xiàn)狀,具體人員安排,項目實施周期,采用標準及實施細則如下。參考的國家標準及技術(shù)規(guī)范《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T31—2005)《連續(xù)色調(diào)靜態(tài)圖像的數(shù)字壓縮及編碼》(GB/T17235.1-1998)《電子文件歸檔與管理規(guī)范》(GB/T18894-2002)《中央檔案館接收檔案的標準》《XXXXXX省檔案接收和收集管理相關(guān)規(guī)定《歸檔文件整理規(guī)則》(DA/T22-2000)《檔案著錄規(guī)則》(da/t18-1999)《無酸檔案卷皮卷盒用紙及紙板》(DA/T24-2000)《檔案修裱技術(shù)規(guī)范》(DA/T25-2000)《XXXXXXXXXXXX檔案數(shù)字化技術(shù)規(guī)范》《XXXXXX煙草檔案數(shù)字化技術(shù)規(guī)范》6.3.6.3.數(shù)字化加工實施細則本項的掃描加工流程梢集原件整理coco棍卷>r檔案還原H檔案管理系址GD刻錄機分解檔全校對頁號質(zhì)楂系統(tǒng)工人腰餐檢則曳像掃描和處稗,校也全面質(zhì)量祗M梢集原件整理coco棍卷>r檔案還原H檔案管理系址GD刻錄機分解檔全校對頁號質(zhì)楂系統(tǒng)工人腰餐檢則曳像掃描和處稗,校也全面質(zhì)量祗M生產(chǎn)流程有以下幾個主要的步驟組成:紙質(zhì)檔案的整理從檔案室進行檔案提卷,并記錄提卷的內(nèi)容,接著拆卷,并進行去污、平整化,并依據(jù)檔案紙張的大小和厚薄分類。檔案的整理工作主要是為了以后檔案的掃描做準備。掃描及圖像處理根據(jù)不同檔案紙張的大小和厚薄,選擇不同的掃描儀,較為規(guī)整的選擇快速掃描儀,較薄、較厚和不規(guī)整的用平板掃描儀,這樣既能達到保護檔案(高速掃描儀會發(fā)生卷紙,損壞檔案)的目的,也能提高檔案數(shù)字化加工的速度。查重查漏在掃描的過程中,難免會發(fā)生重復(fù)掃描和漏掃的現(xiàn)象,人工的再次校對能夠發(fā)現(xiàn)檔案數(shù)字化過程中出現(xiàn)的情況,并即使糾正。數(shù)據(jù)項錄入依據(jù)檔案著錄規(guī)范或者依據(jù)客戶檔案的實際著錄項,錄入標題、責(zé)任者、歸檔時間、檔號等各種信息。質(zhì)量檢測對掃描圖像和著錄的標引數(shù)據(jù)進行檢驗,圖像主要是檢驗其掃描和凈化處理質(zhì)量,數(shù)據(jù)項的質(zhì)量檢測主要是檢測其錄入正確率。檔案還原完成檔案數(shù)字化后,要把原先的檔案原件還原成原樣。檔案整理檔案交接檔案按年度、案卷提檔,提檔時數(shù)字化實施方的提卷人員對每卷的所有頁面進行統(tǒng)一的編號,全卷所有文件頁號編寫完成后,再依據(jù)XXXXXX煙草的要求抽出不需要掃描的文件頁,然后再次按序編寫需要掃描的文件頁號,頁號編寫完成后,按實際文件頁數(shù)填寫詳細的紙質(zhì)檔案交按清單,并由雙方主管人員簽字。檔案拆分檔案拆分前要對檔案進行統(tǒng)一的編號,編制總頁號后,要從中選中需要掃描的頁面。再一次編制所需掃描的頁號,兩個頁號需用鉛筆的顏色或位置區(qū)分,以確保檔案還原時能夠清楚區(qū)別和核時頁數(shù)。目錄數(shù)據(jù)準備按照《檔案著錄規(guī)則》(DA/T18)等的要求,規(guī)范檔案中的目錄內(nèi)容。包括確定檔案目錄的著錄項、字段長度和內(nèi)容要求。如有錯誤或不規(guī)范的案卷題名、文件名、責(zé)任者、起止頁號和頁數(shù)等,應(yīng)進行修改。拆除裝訂在不去除裝訂物情況下,影響掃描工作進行的檔案,應(yīng)拆除裝訂物。拆除裝訂物時應(yīng)注意保護檔案不受損害。區(qū)分掃描件和非掃描件按要求把同一案卷中的掃描件和非掃描件區(qū)分開。普發(fā)性文件區(qū)分的原則是:無關(guān)和重份的文件要剔除,有正式件的文件可以不掃描原稿。頁面修整破損嚴重、無法直接進行掃描的檔案,應(yīng)先進行技術(shù)修復(fù),折皺不平影響掃描質(zhì)量的原件應(yīng)先進行相應(yīng)處理(壓平或熨平等)后再進行掃描。檔案整理登記制作并填寫紙質(zhì)檔案數(shù)字化加工過程交接登記表單,詳細記錄檔案整理后每份文件的起始頁號和頁數(shù)。著錄標引標引著錄標引著錄為了方便查閱與管理,打印制作檔案目錄及檔案封面,對文字錄入的準確性要求較高,但要錄的文本域并不是完全統(tǒng)一的在某一頁面上,一些文本域要在多個文件中選擇,所以錄入時需要相關(guān)學(xué)部專家進行指導(dǎo),確保文本域錄入的準確率。對所需錄入的文本進行標引、或?qū)Σ煌悇e的檔案錄入特征制作相應(yīng)的《文字錄入工作說明書》,供錄入員和校對人員參考。錄入方式由于文本類型不一,有印刷體、手寫體、有表格內(nèi)的也有表格外的文本信息,所以采用手工錄入和OCR(光學(xué)字符識別)軟件相結(jié)合的方式錄入。即手寫體或不清晰的印刷體采用手工錄入,較規(guī)整的印刷體采用OCR技術(shù)的錄入方式。校對方式校對以軟件校對和打印輸出對比校對相結(jié)合的方式,即對手工錄入和OCR自動錄入的文本打印輸出進行對比校對的一校、二校、抽查校對,確保索引信息達到出版質(zhì)量萬分之一以下。紙件掃描原件的掃描與存儲格式完全按照國家檔案管理的統(tǒng)一標準和XXXXXX煙草的相關(guān)要求掃描。掃描人員按照《掃描與處理工作說明書》的要求,填寫移交清單(此移交清單是檔案拆分人員和掃描人員共同填寫)并簽字領(lǐng)取并進行紙件掃描。掃描圖像使用先進的圖像掃描處理軟件(快圖像系統(tǒng)),掃描人員可根據(jù)原稿質(zhì)量,對系統(tǒng)進行定義,如自動傾斜校正、自動去污、自動分文件等批處理功能。在由系統(tǒng)自動處理功能的同時,掃描人員根據(jù)原件的實際情況做相應(yīng)的調(diào)整,如超大頁面的處理、紙張顏色深淺及薄厚的處理、掃描時可根據(jù)不同原件的情況,調(diào)整圖像的分辨率、閥值、明亮度以及掃描方式和掃描速度,確保在掃描圖像質(zhì)量清晰的情況下,使原件完好無損。圖像的分辨率正常情況下為300dpi,如遇字間距和行行距過密、原件本身是復(fù)印件等字跡不清楚的情況,可適當(dāng)增加掃描的分辨率但要保正圖像清晰的同時,又不影響遠程查詢和游覽的速度。掃描方式根據(jù)檔案幅面的大?。ˋ4、A3、A0等)選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀(如工程圖紙可采用0號圖紙掃描儀)進行掃描。大幅面檔案可采用大幅面數(shù)碼平臺,或者縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設(shè)備等進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。紙張狀況較差,以及過薄、過軟或超厚的檔案,應(yīng)采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。掃描色彩模式掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案.可采用黑白二值模式進行掃描。頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,可以采用灰度模式掃描。頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進行掃描。掃描分辨率掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準。采用黑白二值、灰度、彩色幾種模式對檔案進行掃描時,其分辨率一般均選擇大于或等于200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當(dāng)提高分辨率。需要進行OCR漢字識別的檔案,掃描分辨率建議選擇大于或等于300dpi。掃描登記認真填寫紙質(zhì)檔案數(shù)字化轉(zhuǎn)換過程交接登記表單,登記掃描的頁數(shù),核對每份文件的實際掃描頁數(shù)與檔案整理時填寫的文件頁數(shù)是否一致,不一致時應(yīng)注明具體原因和處理方法。圖像處理XXXXXXXXXXXX檔案數(shù)字化工廠采用自動化處理和人工處理相結(jié)合的方式,確保圖像質(zhì)量的完美。通過校對系統(tǒng)對圖像進行校對,確保圖像順序正確、去斑點、校驗。,在校對時發(fā)現(xiàn)不合格圖像及時返回前一工序進行改正。污漬、黑邊、偏斜處理數(shù)字化加工系統(tǒng)會根據(jù)原件質(zhì)量的好壞對污漬的情況進行自動輕度、中度、高度去污,對紙質(zhì)變質(zhì)或掃描時的黑邊完全自動清除、自動進行偏斜校正處理。系統(tǒng)支持局部去污、并能對不能夠自動處理的頁面進行單頁多次修正。圖像處理人員在發(fā)現(xiàn)掃描不合格的文件,進行登記后交掃描人員處理,雙方簽字確認后的表單留存?zhèn)洳?。使因掃描造成的不合格圖像機時返回上一生產(chǎn)流程。6.9.6.2.6.9.6.2.全文字面的掃描密度圖像處理人員在進行處理前,掃描人員會根據(jù)不同原件的情況,提高圖像掃描的分辨率、閥值、明亮度以及掃描方式,如遇字間距和行行距過密、原件本身是復(fù)印件等字跡不清楚的情況,對手寫過密的要對圖像進行細致的修正,確保各書寫工具寫出的不同顏色、深淺的文字及圖像信息清晰可辯。粘帖頁與表格對粘帖頁面的處理先用XXXXXX數(shù)字化加工軟件系統(tǒng)進行自動處理,在掃描的時消除粘帖重疊的曲線,不能自動處理的放大后人工處理。對字跡與表格線顏色深淺不一在掃描時進行細微調(diào)整后,圖像處理時再進行局部調(diào)整。以確保數(shù)字檔案的可閱讀性。一般性文本流程圖提高圖像掃描的分辨率,調(diào)整閥值、明亮度以及掃描方式,采用局部處理技術(shù)對圖像進行修正。以確保數(shù)字檔案游覽時辨認流程圖的流程線。插圖頁面處理檔案中有插圖的要在掃描時對提高分辨率及相應(yīng)調(diào)整,圖文混排的頁面不做拆分,在保持原始頁面信息的同時使圖像清晰可辯。照片頁的處理根據(jù)黑白或彩色圖像對頁面進行調(diào)整,對特殊照片的處理,必要時采用專業(yè)的圖像處理軟件進行處理,確保照片的清晰度。存儲格式與頁面空間分辨率:200dpi圖像格式:TIFF、JPG儲存空間:B5或A4,20-30KB/頁質(zhì)量檢驗對掃描處理完成后的圖像頁進行檢驗,對檔案拆分、掃描、修正、去污、文本流程圖的處理、插圖、照片的處理以及文本和圖像頁的匹配進行檢驗等質(zhì)量進行全面檢驗。對文本域錄入與文本錄入域的標引、文件的頁號及頁數(shù)進行對比,對掃描前的圖像頁的標引與掃描后的圖像頁的編號與頁數(shù)進行對比,發(fā)現(xiàn)不合格的登記清單并退回上一流程重新處理。檔案還原裝訂檔案整理工作嚴格按照中央檔案館進館標準規(guī)定的相關(guān)標準和XXXXXX煙草的實際情況進行有序的整理,XXXXXXXXXXXX檔案數(shù)字化中心安排專人負責(zé)案卷合并與整理。原件合并把掃描時挑出的頁面插入到原來的頁面位置中去,將掃描時展開的超大頁面還原到掃描前的原樣,把數(shù)字化中挑出的不要的多余頁面提出。全卷整理將每卷文件按形成的時間、順序、文件類別進行整理。編寫頁號按重新整理頁面上按順序統(tǒng)一的編寫頁號。6.9.8.4.6.9.8.4.案卷目錄和卷內(nèi)目錄按順序?qū)⒁粋€項目文件的合并到一卷中,并按中央檔案館進館標準和XXXXXX煙草特有字段組成案卷目錄和卷內(nèi)目錄。打印案卷封面和卷內(nèi)目錄對案卷目錄和卷內(nèi)目錄與卷內(nèi)文件進行匹配后打印案卷目錄和卷內(nèi)目錄以備裝訂使用。裝訂嚴格按照中央檔案館進館標準和XXXXXX煙草的要求將每卷檔案的封面、卷內(nèi)目錄、卷內(nèi)文件、左下角對齊打成三孔一線裝訂還原檔案。案卷分盒按年度、案卷、類別、機構(gòu)等有規(guī)則地按順序裝入定制的檔案盒。打印裝箱單按年度、箱號、盒號、卷號、總頁數(shù)打印裝箱清單?;虬礄n案檔案館的要求制作打印裝箱單。按順序裝箱按箱子編號、年度、箱內(nèi)盒數(shù)、案卷數(shù)與總頁數(shù)裝箱,參照國家檔案館的要求結(jié)合XXXXXX煙草的實際情況按序裝箱。編制目錄(年度目錄)制作出XXXXXX煙草檔案裝箱目錄,合并各箱清單,統(tǒng)一編制頁碼,形成裝箱目錄,并按通用格式存儲裝箱目錄的電子文件,以便檢索與查找,或按檔案館進館要求編制。數(shù)據(jù)存儲與備份在生產(chǎn)過程中,XXXXXX掃描加工中心是一個基于網(wǎng)絡(luò)化流程化生產(chǎn)管理系統(tǒng),我們在掃描的同時就同時產(chǎn)生兩份備原始圖像數(shù)據(jù)的備份數(shù)據(jù)。在經(jīng)過生產(chǎn)系統(tǒng)質(zhì)量驗收合格的電子文件后,我們將把掃描的成品數(shù)據(jù)與XXXXXX煙草的檔案管理系統(tǒng)掛接,將按規(guī)則生產(chǎn)原始圖像光盤及具備單盤檢索的數(shù)據(jù)光盤。檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無縫掛接文本域錄入和掃描處理檢驗后的圖像成品,按年度進行文字圖像與系統(tǒng)的掛接,不需手工掛接即可實現(xiàn)文本與圖像頁與系統(tǒng)的掛接。掛接到XXXXXX煙草檔案管理系統(tǒng)中后,進行再次的成品驗收,對各種使用習(xí)慣逐頁進行檢驗,驗收合格后移交到由XXXXXX煙草專家組成的驗收小組驗收。確保完美無縫掛接因為XXXXXX煙草檔案管理系統(tǒng)是采用XXXXXX軟件的檔案管理軟件系統(tǒng),XXXXXX檔案掃描加工系統(tǒng)和XXXXXX檔案管理系統(tǒng)可以實現(xiàn)自動批量掛接,無需人工干預(yù)即可實施目錄數(shù)據(jù)與原文電子數(shù)據(jù)的無縫掛接。項目所采用的OCR處理技術(shù)介紹.OCR(光學(xué)字符識別)技術(shù)OCR是英文OpticalCharacterRecognition的縮寫,中文意思就是通過光學(xué)技術(shù)對文字進行識別。OCR概念的產(chǎn)生是在1929年,德國的科學(xué)家Tausheck首先提出了OCR的概念,并且申請了專利。幾年后,美國科學(xué)家Handel也提出了利用技術(shù)對文字進行識別的想法。但這種夢想直到計算機的誕生才變成了現(xiàn)實。
現(xiàn)在這一技術(shù)已經(jīng)由計算機來實現(xiàn),OCR的意思就演變成為利用光學(xué)技術(shù)對文字和字符進行掃描識別,轉(zhuǎn)化成計算機內(nèi)碼。. 所采用的OCR及雙層PDF生產(chǎn)流程6.10.2.1.識別模塊具有超強的識別核心.可以識別簡、繁體漢字2萬多,識別的語言包括中文簡、繁體、英文、日文、韓文,自動版面分析能力大大增強最大限度減少手工操作量。'曲6.10.2.1.識別模塊具有超強的識別核心.可以識別簡、繁體漢字2萬多,識別的語言包括中文簡、繁體、英文、日文、韓文,自動版面分析能力大大增強最大限度減少手工操作量。'曲6.10.2.2.縱向校對模塊可以將成百上千張圖像一起校對6.10.2.2.縱向校對模塊可以將成百上千張圖像一起校對將識別成同一個字的圖像集中在一個窗口內(nèi),先標記錯誤,再自動與橫校進行合并,后統(tǒng)一改正,校對工作量減少80%,錯誤率可控制在萬分之一。6.10.2.2.1.版面恢復(fù)模塊通過版面恢復(fù)編輯器,可以將原始圖像的所有信息恢復(fù)過來。比如:字體、顏色、花邊”二^工:.二一朝
6.10.2.2.1.版面恢復(fù)模塊通過版面恢復(fù)編輯器,可以將原始圖像的所有信息恢復(fù)過來。比如:字體、顏色、花邊”二^工:.二一朝
廿?用;'■蛻/;上雁。秋泊豆北?■」=一-1n:”二? 『l,千?——.麗i麗麗麗?京善嫉金■、.會呼記廿二必求第三行蕨追口生4I11??4皿?…J”.]等。6.10.2.3.雙層PDF生成模塊可直接在程序中進行后臺PDF處理,無需在Acrobat中生成,方便而快捷??梢赃x擇生成多種PDF格式:雙層PDF文檔包括圖文混排的PDF、圖在文上的PDF、圖在文下的PDF等。6.10.2.4.自動處理模塊可以實現(xiàn)圖像文件到PDF文件的自動轉(zhuǎn)換,生成的PDF文件能夠?qū)崿F(xiàn)全文檢索,可以復(fù)制貼貼,也可以對某個指定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)之間電子合同范本
- 鋁合金門合同范本
- 贊助合同范本
- 樁檢測服務(wù)合同范本
- 2025《物業(yè)管理合同》范本
- 眾籌擔(dān)保合同范本
- 2025建筑工程中介服務(wù)合同范文
- 2025年廣東體育職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))歷年真題考點含答案解析
- 2025年川南幼兒師范高等專科學(xué)校高職單招職業(yè)適應(yīng)性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年山東藝術(shù)設(shè)計職業(yè)學(xué)院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 醉里乾坤大壺中日月長-初中語文九年級第六單元名著導(dǎo)讀《水滸傳》整本書閱讀精讀研討課 公開課一等獎創(chuàng)新教學(xué)設(shè)計
- 小學(xué)綜合實踐活動《我的問卷我設(shè)計-綜合實踐方法指導(dǎo)課》課件
- DL∕T 5767-2018 電網(wǎng)技術(shù)改造工程工程量清單計價規(guī)范
- 03D201-4 10kV及以下變壓器室布置及變配電所常用設(shè)備構(gòu)件安裝
- 基于plc的步進電機控制系統(tǒng)設(shè)計
- 衛(wèi)生統(tǒng)計學(xué)題庫+答案
- 帕金森病-課件
- MOOC 通信原理-南京郵電大學(xué) 中國大學(xué)慕課答案
- 煙道改造居民同意協(xié)議書
- 2023年《房屋建筑學(xué)》考試復(fù)習(xí)題庫大全(含答案)
- 征地拆遷培訓(xùn)班課件
評論
0/150
提交評論