版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)字資源的加工與驗收數(shù)字資源質檢部業(yè)務培訓2010-10-8數(shù)字資源的加工與驗收數(shù)字資源質檢部業(yè)務培訓1數(shù)字資源的加工與驗收數(shù)字資源的定義數(shù)字資源的分類圖像數(shù)字資源的加工流程圖像數(shù)字資源的驗收內容圖像數(shù)字資源的驗收方法圖像驗收常見問題及注意事項數(shù)字資源的加工與驗收數(shù)字資源的定義2數(shù)字資源的定義數(shù)字資源是文獻信息的表現(xiàn)形式之一,是將計算機技術、通信技術及多媒體技術相互融合而形成的以數(shù)字形式發(fā)布、存取、利用的信息資源總和。商業(yè)化的數(shù)據(jù)庫、機構或個人建立的數(shù)據(jù)庫、各種網(wǎng)絡免費資源等都屬于數(shù)字資源。同印刷型文獻相比,數(shù)字資源類型更為豐富。數(shù)字資源的定義數(shù)字資源是文獻信息的表現(xiàn)形式之一,是將計算機技3數(shù)字資源的分類從數(shù)據(jù)的組織形式上看,有數(shù)據(jù)庫、電子期刊、電子圖書、網(wǎng)頁、多媒體資料等類型。數(shù)字資源的分類從數(shù)據(jù)的組織形式上看,有數(shù)據(jù)庫、電子期刊、電子4各類數(shù)字資源的存儲方式數(shù)據(jù)庫:Access、SQLServer、MYSQL、Oracle等;電子期刊與圖書:TXT、TIFF、JPG、PDF等;網(wǎng)頁:JPG、HTML、MHT等;多媒體資料:AVI、WAV、MP3等。各類數(shù)字資源的存儲方式數(shù)據(jù)庫:Access、SQLServ5圖像數(shù)字資源的加工流程圖像數(shù)字資源加工是指運用圖像掃描與處理,文字、圖像的識別以及數(shù)字化初始信息的各種在加工技術,將大量已存在的,以不同形式和載體存儲的信息資料,如文件、圖片等轉化為能夠用計算機處理的數(shù)字化信息。圖像數(shù)字資源的加工流程圖像數(shù)字資源加工是指運用圖像掃描與處理6圖像的基本特征參數(shù)像素:是構成圖像的最小單位,一般用若干不同色彩的像素排列而組成的矩陣來表示數(shù)字圖像。圖像分辨率:指每英寸圖像的像素數(shù)。分辨率越高,圖像與清晰。色彩模式:指圖像顏色的成像模式。常見的有RGB模式、CMYK模式。圖像的基本特征參數(shù)像素:是構成圖像的最小單位,一般用若干不同7圖像的基本特征參數(shù)色彩深度:又稱位深或色深。反映圖像中色彩的最大表現(xiàn)數(shù)量。常見的有2色、8色、256色、真24位、真32位等。壓縮方式:分為有損壓縮和無損壓縮,以是否去掉圖像的細節(jié)和顏色來區(qū)分。常見壓縮方式有RLE、LZW、JEPG、CCITT等。圖像的基本特征參數(shù)色彩深度:又稱位深或色深。反映圖像中色彩的8常見圖像的格式TIFF
TIFF是一種比較靈活的圖像格式,文件擴展名為TIF或TIFF。該格式支持多種色彩位,同時支持RGB、CMYK等多種色彩模式,支持多平臺。TIFF文件可以是不壓縮的,文件體積較大,也可以是壓縮的,支持RAW、RLE、LZW、JPEG、CCITT3組和4組等多種壓縮方式。常見圖像的格式TIFF9常見圖像的格式JPGJPEG圖片以24位顏色存儲單個圖像。JPEG是與平臺無關的格式,支持最高級別的壓縮,不過,這種壓縮是有損耗的??梢蕴岣呋蚪档蚃PEG文件壓縮的級別。但是,文件大小是以圖像質量為代價的。常見圖像的格式JPG10常見圖像的格式PDFPDF是一種電子文件格式。這種文件格式與操作系統(tǒng)平臺無關。PDF文件使用了工業(yè)標準的壓縮算法,易于傳輸與儲存。常見圖像的格式PDF11加工流程圖加工流程圖12圖書掃描階段掃描圖像的基本要求存儲方式:無壓縮TIFF格式;色彩深度:灰度8位,彩色24位;黑白與灰度頁面必須用灰度位深掃描;圖像分辨率:300DPI,小于5號字體用400DPI;同一冊書,尺寸一致(有超大頁的特殊情況);不允許有污點、歪斜、黑邊、不完整的情況。圖書掃描階段掃描圖像的基本要求13圖書掃描階段高掃:對圖書進行拆裝后,使用高速掃描儀自動進行快速掃描。優(yōu)點:速度快,支持雙面掃描,300DPI無壓縮圖像約140-180頁/分鐘;缺點:掃描過程中容易造成漏頁、重頁、頁順序錯誤等問題。圖書掃描階段高掃:對圖書進行拆裝后,使用高速掃描儀自動進行快14圖書掃描階段平掃:不對圖書進行拆裝,直接將圖書平鋪掃描。優(yōu)點:不破壞原書;缺點:掃描速度慢,機器掃描約2-5秒/頁。由于人工干預較多,易造成各種圖像錯誤。圖書掃描階段平掃:不對圖書進行拆裝,直接將圖書平鋪掃描。15圖像整合階段文件夾命名
圖像命名規(guī)則:由數(shù)字和下劃線組成。例:文獻語種(中文)流水號:01090012_66加工年(2009)
大流水號0012_66其存儲路徑:\01090012\66\圖像整合階段文件夾命名16圖像整合階段圖像命名(1)文件名后綴為小寫字母;文件名格式為:大寫字母+5位數(shù)字+_00+后綴名;例:B00002_00.tif;(2)大寫字母的含義 A:封面: 指圖書封面正反兩頁;博士論文較特殊,會有3頁A的情況。
B:目錄前前附頁: 指圖書目錄頁與封面之間的頁面;
圖像整合階段圖像命名17圖像整合階段C:目錄頁:圖書的目錄頁;D:目錄后前附頁:
圖書的正文與目錄頁之間的頁面;T:正文:正文內容; 注意:正文頁的數(shù)字編號要與頁碼一致; Y:后附頁:封底與正文之間的內容;Z:封底:圖書封底;圖像整合階段C:目錄頁:圖書的目錄頁;18圖像整合階段插頁
一般出現(xiàn)在正文頁中。該頁的上下兩頁頁碼連續(xù),且該頁的位置正確。插頁的命名
在上一頁圖像命名基礎上,將最后的“_00”改為“_01”,例如T00056_01.tif,如果有多頁插頁,數(shù)字依此類推。圖像整合階段插頁19圖像處理階段一般采用PHOTOSHOP軟件人工修改統(tǒng)一尺寸去污漬、黑邊糾正傾斜檢查并修改掃描顏色圖像處理階段一般采用PHOTOSHOP軟件人工修改20文字識別階段OCR文字識別
指對圖像上的內容進行識別,把圖像上的文字內容轉換為文本格式的過程,所有識別后的內容保存在.txt格式的文本文件中。進行文字識別的原因普通圖書、論文、基藏本等文獻只需對目錄頁內容進行識別,主要為掛接到網(wǎng)站方便讀者的檢索;無法打出的文字用“〓”表示。并保存相應文字部分的圖像到該書文件夾下的“〓”文件夾。盲人圖書、手機閱讀等項目,需要對全文進行識別,盲人圖書是為了方便盲人閱讀,手機文獻是為了縮小發(fā)布文件的體積。文字識別階段OCR文字識別21數(shù)據(jù)整合階段什么是元數(shù)據(jù)描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù);一般分為描述性元數(shù)據(jù)、結構性元數(shù)據(jù)、技術性元數(shù)據(jù)等等。 例如:一本書的名字、頁數(shù)、內容、掃描方式、目錄結構、尺寸、掃描方式等等。一本圖書在數(shù)字化加工前只有對該紙質文獻的描述,數(shù)字化加工后,需要對該資源補充新的描述信息。數(shù)據(jù)整合階段什么是元數(shù)據(jù)22數(shù)據(jù)整合階段圖書的元數(shù)據(jù)保存在MDB格式的數(shù)據(jù)庫中。該數(shù)據(jù)庫包含以下7個表格。Book表:主要包含圖書的名稱,編號,作者等信息。Catalog表:包含每冊圖書的目錄信息,頁碼、絕對頁碼、屬性等信息;abstract表(論文)或Copyright表(圖書):摘要頁的起始頁與頁數(shù)信息或版權頁起始頁信息;Inset表:插頁信息Lostpage表:缺頁信息數(shù)據(jù)整合階段圖書的元數(shù)據(jù)保存在MDB格式的數(shù)據(jù)庫中。該數(shù)據(jù)庫23數(shù)據(jù)整合階段struct表:圖書結構信息,包含封面、前附頁、目錄頁、正文、后附頁、封底的頁數(shù)及起始頁碼等信息;process表:加工信息,包含灰度、彩色圖像數(shù)量,壓縮方式,數(shù)據(jù)位置等信息數(shù)據(jù)整合階段struct表:圖書結構信息,包含封面、前附頁、24TIFF數(shù)據(jù)備份、通查階段將圖像與數(shù)據(jù)庫合并后,備份到移動硬盤中。每塊硬盤一個數(shù)據(jù)庫,儲存該硬盤中所有圖書的信息。對整體數(shù)據(jù)進行冊數(shù)、頁數(shù)、各項技術參數(shù)等內容的核查。TIFF數(shù)據(jù)備份、通查階段將圖像與數(shù)據(jù)庫合并后,備份到移動硬25PDF轉換、備份、通查階段將所有TIFF數(shù)據(jù)轉換為PDF數(shù)據(jù);PDF文件采用JEPG2000壓縮方式壓縮;每個PDF文件容量不允許超過規(guī)定大?。辉跀?shù)據(jù)庫中追加壓縮因子、容量等信息。PDF轉換、備份、通查階段將所有TIFF數(shù)據(jù)轉換為PDF數(shù)據(jù)26光盤刻錄、通查階段將所有圖像刻錄在DVD光盤上;每張光盤包含一個readme.txt文件,里面填寫該張光盤的內容與圖像頁數(shù);光盤中不允許包含其它無關文件。光盤刻錄、通查階段將所有圖像刻錄在DVD光盤上;27圖像數(shù)字資源的驗收內容數(shù)據(jù)驗收采取抽樣檢驗,抽檢樣本數(shù)不低于送檢數(shù)據(jù)的42%(中文保存本為100%)。驗收人員隨機抽選。各種標引、說明文件的文字、符號、版式、位置和文件名稱準確,其綜合錯誤率不超過0.3‰。圖像數(shù)據(jù)掃描方式、掃描規(guī)格、文件格式、文件命名、圖像處理、壓縮方式等符合要求,其綜合錯誤率不超過1‰。圖像數(shù)字資源的驗收內容數(shù)據(jù)驗收采取抽樣檢驗,抽檢樣本數(shù)不低于28圖像數(shù)字資源的驗收內容成品數(shù)據(jù)備份數(shù)量、保存介質命名、數(shù)據(jù)存放方式、數(shù)據(jù)內容符合規(guī)范要求,且各類型保存介質內無壞死文件、不準攜帶病毒,錯誤率為0。送檢數(shù)據(jù)內容與《中文圖書驗收數(shù)據(jù)提交單》相互匹配,各種格式數(shù)據(jù)和文檔一一對應,不可夾雜無關文件。達到驗收標準的數(shù)據(jù)視為合格,合格范圍內檢查出的問題進行修正;未達到驗收標準的數(shù)據(jù)由加工單位重新對進行數(shù)據(jù)的檢查、修改、重掃等返工工作。圖像數(shù)字資源的驗收內容成品數(shù)據(jù)備份數(shù)量、保存介質命名、數(shù)據(jù)存29對象數(shù)據(jù)的驗收存儲路徑;文件是否能否打開,有無多余文件、壞死文件;圖像命名(“T”類文件名要求與印刷頁碼一致);圖像掃描(分辨率、圖像尺寸、文件大小,壓縮方式);圖像質量(清晰、去污、歪斜、切字、漏字);圖像連續(xù)(重掃、漏掃、錯頁、顛倒);圖像頁數(shù)(與bookinfo、process表核對);灰度頁數(shù)、彩色頁數(shù)(與process表核對);對象數(shù)據(jù)的驗收存儲路徑;30元數(shù)據(jù)的驗收book表檢查內容: 對照book_id,與封面頁圖像核對,是否為同一本書;copyright或abstract表檢查內容: 版權頁或中英文摘要位置;catalog表檢查內容: 要求逐條核對標引文字、鏈接和屬性; “〓”的內容在該圖書文件夾內的“〓”文件夾下保存; 抽檢圖書的目錄條數(shù)、目錄字數(shù)元數(shù)據(jù)的驗收book表檢查內容:31元數(shù)據(jù)的驗收inset表和lostpage表檢查內容: 抽檢圖書插頁或缺頁是否正確標引,包括插頁命名、插頁標引頁號(前一頁的印刷頁碼)、頁位置、頁數(shù)struct表檢查內容: 抽檢圖書各部分的頁數(shù);起始頁碼(印刷頁碼);各部分頁數(shù)相加是否與總文件數(shù)一致process表檢查內容:抽檢圖書各種數(shù)量統(tǒng)計(grey_num、col_num、tif_num);存儲量統(tǒng)計(tif_mb、pdf_mb與圖像核對);技術指標(dpi與圖像核對);元數(shù)據(jù)的驗收inset表和lostpage表檢查內容:32圖像數(shù)字資源的驗收方法《數(shù)字資源質檢系統(tǒng)》
是一套基于ORACLE數(shù)據(jù)庫開發(fā)的大型數(shù)字資源驗收平臺。能夠輔助使用者快速的對數(shù)字資源的元數(shù)據(jù)與對象數(shù)據(jù)進行驗收。圖像數(shù)字資源的驗收方法《數(shù)字資源質檢系統(tǒng)》33《數(shù)字資源質檢系統(tǒng)》使用方法及驗收流程核對圖書名稱是否與驗收圖書相同;核查數(shù)據(jù)庫目錄標引中的章節(jié)序號、章節(jié)名、作者、頁碼是否與圖書目錄中標注相同;如遇到“〓”字符,核對是否有對應的“〓”圖像;核查數(shù)據(jù)庫目錄標引中目錄的絕對頁碼是否正確;核查圖像所有圖否清晰,圖像命名是否正確,如遇到缺頁、插頁問題,核查插頁、缺頁信息表;核查圖書的結構信息,包括封面、目錄前前附頁、目錄頁、前附后前附頁、正文頁、后附頁、封底的數(shù)量,起始頁頁碼等信息;中文圖書、保存本核查版權頁是否正確;博士論文核查摘要起始頁、頁數(shù)、摘要內容是否正確;《數(shù)字資源質檢系統(tǒng)》使用方法及驗收流程34圖書驗收中的常見問題TIFF圖像目錄文字識別錯誤目錄絕對頁碼標引錯誤正文頁圖像名稱與頁碼不對應圖像掃描顏色錯誤圖像不清晰圖書驗收中的常見問題TIFF圖像35圖書驗收中的常見問題PDF圖像文件容量超過規(guī)定大小文件壓縮過度導致圖像不清晰PDF文件數(shù)量與該批TIFF文件數(shù)量不一致圖像傾斜,超過半行算傾斜圖書驗收中的常見問題PDF圖像36圖書驗收中的常見問題TIFF、PDF光盤光盤文件損壞光盤不可讀光盤編號標注錯誤光盤readme文件內容標注錯誤圖書驗收中的常見問題TIFF、PDF光盤37圖像驗收中的特殊情況一冊書中附加另一冊書,兩冊書共用一個ID處理辦法:貼有條碼的圖書正常處理,掃描圖像并進行標引;附加的習題集、外文版等圖書只做圖像掃描,不進行標引,并把掃描圖像存放于本ID目錄下的“附加”文件夾內目錄中章節(jié)名過長章節(jié)名在100字以內的內容需進行標引,100字以外的內容用“…”代替圖像驗收中的特殊情況一冊書中附加另一冊書,兩冊書共用一個ID38圖像驗收中的特殊情況當目錄印刷錯誤時
處理方法:可盡量改正。目錄中有說明文字處理辦法:說明文字不錄入正反面圖書處理辦法:從有磁條的方向依次錄入,正文頁命名可與頁碼不對應。圖像驗收中的特殊情況當目錄印刷錯誤時39圖像驗收中的特殊情況目錄在正文后面的圖像按C命名;目錄中的文字,超過150個字以外的內容用……代替;目錄中一條內容對應多個頁碼(例:章節(jié)名………12-20),在數(shù)據(jù)庫中的絕對頁碼位置只標注打一個出現(xiàn)的頁碼;圖像驗收中的特殊情況目錄在正文后面的圖像按C命名;40謝謝數(shù)字資源加工與驗收課件41數(shù)字資源的加工與驗收數(shù)字資源質檢部業(yè)務培訓2010-10-8數(shù)字資源的加工與驗收數(shù)字資源質檢部業(yè)務培訓42數(shù)字資源的加工與驗收數(shù)字資源的定義數(shù)字資源的分類圖像數(shù)字資源的加工流程圖像數(shù)字資源的驗收內容圖像數(shù)字資源的驗收方法圖像驗收常見問題及注意事項數(shù)字資源的加工與驗收數(shù)字資源的定義43數(shù)字資源的定義數(shù)字資源是文獻信息的表現(xiàn)形式之一,是將計算機技術、通信技術及多媒體技術相互融合而形成的以數(shù)字形式發(fā)布、存取、利用的信息資源總和。商業(yè)化的數(shù)據(jù)庫、機構或個人建立的數(shù)據(jù)庫、各種網(wǎng)絡免費資源等都屬于數(shù)字資源。同印刷型文獻相比,數(shù)字資源類型更為豐富。數(shù)字資源的定義數(shù)字資源是文獻信息的表現(xiàn)形式之一,是將計算機技44數(shù)字資源的分類從數(shù)據(jù)的組織形式上看,有數(shù)據(jù)庫、電子期刊、電子圖書、網(wǎng)頁、多媒體資料等類型。數(shù)字資源的分類從數(shù)據(jù)的組織形式上看,有數(shù)據(jù)庫、電子期刊、電子45各類數(shù)字資源的存儲方式數(shù)據(jù)庫:Access、SQLServer、MYSQL、Oracle等;電子期刊與圖書:TXT、TIFF、JPG、PDF等;網(wǎng)頁:JPG、HTML、MHT等;多媒體資料:AVI、WAV、MP3等。各類數(shù)字資源的存儲方式數(shù)據(jù)庫:Access、SQLServ46圖像數(shù)字資源的加工流程圖像數(shù)字資源加工是指運用圖像掃描與處理,文字、圖像的識別以及數(shù)字化初始信息的各種在加工技術,將大量已存在的,以不同形式和載體存儲的信息資料,如文件、圖片等轉化為能夠用計算機處理的數(shù)字化信息。圖像數(shù)字資源的加工流程圖像數(shù)字資源加工是指運用圖像掃描與處理47圖像的基本特征參數(shù)像素:是構成圖像的最小單位,一般用若干不同色彩的像素排列而組成的矩陣來表示數(shù)字圖像。圖像分辨率:指每英寸圖像的像素數(shù)。分辨率越高,圖像與清晰。色彩模式:指圖像顏色的成像模式。常見的有RGB模式、CMYK模式。圖像的基本特征參數(shù)像素:是構成圖像的最小單位,一般用若干不同48圖像的基本特征參數(shù)色彩深度:又稱位深或色深。反映圖像中色彩的最大表現(xiàn)數(shù)量。常見的有2色、8色、256色、真24位、真32位等。壓縮方式:分為有損壓縮和無損壓縮,以是否去掉圖像的細節(jié)和顏色來區(qū)分。常見壓縮方式有RLE、LZW、JEPG、CCITT等。圖像的基本特征參數(shù)色彩深度:又稱位深或色深。反映圖像中色彩的49常見圖像的格式TIFF
TIFF是一種比較靈活的圖像格式,文件擴展名為TIF或TIFF。該格式支持多種色彩位,同時支持RGB、CMYK等多種色彩模式,支持多平臺。TIFF文件可以是不壓縮的,文件體積較大,也可以是壓縮的,支持RAW、RLE、LZW、JPEG、CCITT3組和4組等多種壓縮方式。常見圖像的格式TIFF50常見圖像的格式JPGJPEG圖片以24位顏色存儲單個圖像。JPEG是與平臺無關的格式,支持最高級別的壓縮,不過,這種壓縮是有損耗的。可以提高或降低JPEG文件壓縮的級別。但是,文件大小是以圖像質量為代價的。常見圖像的格式JPG51常見圖像的格式PDFPDF是一種電子文件格式。這種文件格式與操作系統(tǒng)平臺無關。PDF文件使用了工業(yè)標準的壓縮算法,易于傳輸與儲存。常見圖像的格式PDF52加工流程圖加工流程圖53圖書掃描階段掃描圖像的基本要求存儲方式:無壓縮TIFF格式;色彩深度:灰度8位,彩色24位;黑白與灰度頁面必須用灰度位深掃描;圖像分辨率:300DPI,小于5號字體用400DPI;同一冊書,尺寸一致(有超大頁的特殊情況);不允許有污點、歪斜、黑邊、不完整的情況。圖書掃描階段掃描圖像的基本要求54圖書掃描階段高掃:對圖書進行拆裝后,使用高速掃描儀自動進行快速掃描。優(yōu)點:速度快,支持雙面掃描,300DPI無壓縮圖像約140-180頁/分鐘;缺點:掃描過程中容易造成漏頁、重頁、頁順序錯誤等問題。圖書掃描階段高掃:對圖書進行拆裝后,使用高速掃描儀自動進行快55圖書掃描階段平掃:不對圖書進行拆裝,直接將圖書平鋪掃描。優(yōu)點:不破壞原書;缺點:掃描速度慢,機器掃描約2-5秒/頁。由于人工干預較多,易造成各種圖像錯誤。圖書掃描階段平掃:不對圖書進行拆裝,直接將圖書平鋪掃描。56圖像整合階段文件夾命名
圖像命名規(guī)則:由數(shù)字和下劃線組成。例:文獻語種(中文)流水號:01090012_66加工年(2009)
大流水號0012_66其存儲路徑:\01090012\66\圖像整合階段文件夾命名57圖像整合階段圖像命名(1)文件名后綴為小寫字母;文件名格式為:大寫字母+5位數(shù)字+_00+后綴名;例:B00002_00.tif;(2)大寫字母的含義 A:封面: 指圖書封面正反兩頁;博士論文較特殊,會有3頁A的情況。
B:目錄前前附頁: 指圖書目錄頁與封面之間的頁面;
圖像整合階段圖像命名58圖像整合階段C:目錄頁:圖書的目錄頁;D:目錄后前附頁:
圖書的正文與目錄頁之間的頁面;T:正文:正文內容; 注意:正文頁的數(shù)字編號要與頁碼一致; Y:后附頁:封底與正文之間的內容;Z:封底:圖書封底;圖像整合階段C:目錄頁:圖書的目錄頁;59圖像整合階段插頁
一般出現(xiàn)在正文頁中。該頁的上下兩頁頁碼連續(xù),且該頁的位置正確。插頁的命名
在上一頁圖像命名基礎上,將最后的“_00”改為“_01”,例如T00056_01.tif,如果有多頁插頁,數(shù)字依此類推。圖像整合階段插頁60圖像處理階段一般采用PHOTOSHOP軟件人工修改統(tǒng)一尺寸去污漬、黑邊糾正傾斜檢查并修改掃描顏色圖像處理階段一般采用PHOTOSHOP軟件人工修改61文字識別階段OCR文字識別
指對圖像上的內容進行識別,把圖像上的文字內容轉換為文本格式的過程,所有識別后的內容保存在.txt格式的文本文件中。進行文字識別的原因普通圖書、論文、基藏本等文獻只需對目錄頁內容進行識別,主要為掛接到網(wǎng)站方便讀者的檢索;無法打出的文字用“〓”表示。并保存相應文字部分的圖像到該書文件夾下的“〓”文件夾。盲人圖書、手機閱讀等項目,需要對全文進行識別,盲人圖書是為了方便盲人閱讀,手機文獻是為了縮小發(fā)布文件的體積。文字識別階段OCR文字識別62數(shù)據(jù)整合階段什么是元數(shù)據(jù)描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù);一般分為描述性元數(shù)據(jù)、結構性元數(shù)據(jù)、技術性元數(shù)據(jù)等等。 例如:一本書的名字、頁數(shù)、內容、掃描方式、目錄結構、尺寸、掃描方式等等。一本圖書在數(shù)字化加工前只有對該紙質文獻的描述,數(shù)字化加工后,需要對該資源補充新的描述信息。數(shù)據(jù)整合階段什么是元數(shù)據(jù)63數(shù)據(jù)整合階段圖書的元數(shù)據(jù)保存在MDB格式的數(shù)據(jù)庫中。該數(shù)據(jù)庫包含以下7個表格。Book表:主要包含圖書的名稱,編號,作者等信息。Catalog表:包含每冊圖書的目錄信息,頁碼、絕對頁碼、屬性等信息;abstract表(論文)或Copyright表(圖書):摘要頁的起始頁與頁數(shù)信息或版權頁起始頁信息;Inset表:插頁信息Lostpage表:缺頁信息數(shù)據(jù)整合階段圖書的元數(shù)據(jù)保存在MDB格式的數(shù)據(jù)庫中。該數(shù)據(jù)庫64數(shù)據(jù)整合階段struct表:圖書結構信息,包含封面、前附頁、目錄頁、正文、后附頁、封底的頁數(shù)及起始頁碼等信息;process表:加工信息,包含灰度、彩色圖像數(shù)量,壓縮方式,數(shù)據(jù)位置等信息數(shù)據(jù)整合階段struct表:圖書結構信息,包含封面、前附頁、65TIFF數(shù)據(jù)備份、通查階段將圖像與數(shù)據(jù)庫合并后,備份到移動硬盤中。每塊硬盤一個數(shù)據(jù)庫,儲存該硬盤中所有圖書的信息。對整體數(shù)據(jù)進行冊數(shù)、頁數(shù)、各項技術參數(shù)等內容的核查。TIFF數(shù)據(jù)備份、通查階段將圖像與數(shù)據(jù)庫合并后,備份到移動硬66PDF轉換、備份、通查階段將所有TIFF數(shù)據(jù)轉換為PDF數(shù)據(jù);PDF文件采用JEPG2000壓縮方式壓縮;每個PDF文件容量不允許超過規(guī)定大小;在數(shù)據(jù)庫中追加壓縮因子、容量等信息。PDF轉換、備份、通查階段將所有TIFF數(shù)據(jù)轉換為PDF數(shù)據(jù)67光盤刻錄、通查階段將所有圖像刻錄在DVD光盤上;每張光盤包含一個readme.txt文件,里面填寫該張光盤的內容與圖像頁數(shù);光盤中不允許包含其它無關文件。光盤刻錄、通查階段將所有圖像刻錄在DVD光盤上;68圖像數(shù)字資源的驗收內容數(shù)據(jù)驗收采取抽樣檢驗,抽檢樣本數(shù)不低于送檢數(shù)據(jù)的42%(中文保存本為100%)。驗收人員隨機抽選。各種標引、說明文件的文字、符號、版式、位置和文件名稱準確,其綜合錯誤率不超過0.3‰。圖像數(shù)據(jù)掃描方式、掃描規(guī)格、文件格式、文件命名、圖像處理、壓縮方式等符合要求,其綜合錯誤率不超過1‰。圖像數(shù)字資源的驗收內容數(shù)據(jù)驗收采取抽樣檢驗,抽檢樣本數(shù)不低于69圖像數(shù)字資源的驗收內容成品數(shù)據(jù)備份數(shù)量、保存介質命名、數(shù)據(jù)存放方式、數(shù)據(jù)內容符合規(guī)范要求,且各類型保存介質內無壞死文件、不準攜帶病毒,錯誤率為0。送檢數(shù)據(jù)內容與《中文圖書驗收數(shù)據(jù)提交單》相互匹配,各種格式數(shù)據(jù)和文檔一一對應,不可夾雜無關文件。達到驗收標準的數(shù)據(jù)視為合格,合格范圍內檢查出的問題進行修正;未達到驗收標準的數(shù)據(jù)由加工單位重新對進行數(shù)據(jù)的檢查、修改、重掃等返工工作。圖像數(shù)字資源的驗收內容成品數(shù)據(jù)備份數(shù)量、保存介質命名、數(shù)據(jù)存70對象數(shù)據(jù)的驗收存儲路徑;文件是否能否打開,有無多余文件、壞死文件;圖像命名(“T”類文件名要求與印刷頁碼一致);圖像掃描(分辨率、圖像尺寸、文件大小,壓縮方式);圖像質量(清晰、去污、歪斜、切字、漏字);圖像連續(xù)(重掃、漏掃、錯頁、顛倒);圖像頁數(shù)(與bookinfo、process表核對);灰度頁數(shù)、彩色頁數(shù)(與process表核對);對象數(shù)據(jù)的驗收存儲路徑;71元數(shù)據(jù)的驗收book表檢查內容: 對照book_id,與封面頁圖像核對,是否為同一本書;copyright或abstract表檢查內容: 版權頁或中英文摘要位置;catalog表檢查內容: 要求逐條核對標引文字、鏈接和屬性; “〓”的內容在該圖書文件夾內的“〓”文件夾下保存; 抽檢圖書的目錄條數(shù)、目錄字數(shù)元數(shù)據(jù)的驗收book表檢查內容:72元數(shù)據(jù)的驗收inset表和lostpage表檢查內容: 抽檢圖書插頁或缺頁是否正確標引,包括插頁命名、插頁標引頁號(前一頁的印刷頁碼)、頁位置、頁數(shù)struct表檢查內容: 抽檢圖書各部分的頁數(shù);起始頁碼(印刷頁碼);各部分頁數(shù)相加是否與總文件數(shù)一致process表檢查內容:抽檢圖書各種數(shù)量統(tǒng)計(grey_num、col_num、tif_num);存儲量統(tǒng)計(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年舞蹈表演藝術人才培養(yǎng)機構合同模板2篇
- 2024年餐館廚師勞動合同3篇
- 2025年度網(wǎng)絡安全監(jiān)測合同范本共十七項安全防護措施3篇
- 2024年限期土地開發(fā)承包協(xié)議
- 1《義務教育數(shù)學課程標準(2022年版)》自測卷
- 2024年采購合作合同范本一
- 2024年節(jié)能打印機銷售及售后服務合同3篇
- 2025年度住宅防盜門個性化定制合同3篇
- 2024年珠海房產(chǎn)買賣合同3篇
- 2025年度船舶建造項目股權轉讓與工程監(jiān)理合同3篇
- 2024年08月云南省農(nóng)村信用社秋季校園招考750名工作人員筆試歷年參考題庫附帶答案詳解
- 2024年股東股權繼承轉讓協(xié)議3篇
- 2024-2025學年江蘇省南京市高二上冊期末數(shù)學檢測試卷(含解析)
- 2025年中央歌劇院畢業(yè)生公開招聘11人歷年高頻重點提升(共500題)附帶答案詳解
- 北京市高校課件 開天辟地的大事變 中國近代史綱要 教學課件
- 監(jiān)事會年度工作計劃
- 2024中國近海生態(tài)分區(qū)
- 山東省濟南市2023-2024學年高一上學期1月期末考試化學試題(解析版)
- 北師大版五年級數(shù)學下冊第3單元第1課時分數(shù)乘法(一)課件
- 四川省名校2025屆高三第二次模擬考試英語試卷含解析
- 2024-2030年中國汽車保險杠行業(yè)市場發(fā)展現(xiàn)狀及前景趨勢分析報告
評論
0/150
提交評論