數(shù)字出版概論 課件 第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第1頁
數(shù)字出版概論 課件 第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第2頁
數(shù)字出版概論 課件 第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第3頁
數(shù)字出版概論 課件 第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第4頁
數(shù)字出版概論 課件 第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第六章數(shù)字內(nèi)容加工、管理技術(shù)本章學習要點●掌握數(shù)字內(nèi)容加工與管理工作內(nèi)容;●了解數(shù)字內(nèi)容加工技術(shù)及其應用狀況;●了解數(shù)字內(nèi)容管理技術(shù)及其應用狀況。第一節(jié)數(shù)字內(nèi)容加工與管理概述數(shù)字內(nèi)容加工與管理是數(shù)字出版的基礎工作。數(shù)字內(nèi)容加工即按照一定規(guī)范,將數(shù)字內(nèi)容進行統(tǒng)一生產(chǎn)、制作、修改、拆分、整合,以滿足用戶的使用目的或達到行業(yè)常用標準水平的過程。數(shù)字內(nèi)容管理即將數(shù)字內(nèi)容按照一定的邏輯組織方式,進行收集、整理、存貯、利用的過程。數(shù)字內(nèi)容加工一般要通過系列軟件加以實現(xiàn),如OCR軟件、格式轉(zhuǎn)換軟件等;數(shù)字內(nèi)容管理一般依托一個大型的資源管理系統(tǒng),如知識庫、數(shù)據(jù)庫系統(tǒng)等。第二節(jié)數(shù)字內(nèi)容加工技術(shù)數(shù)字內(nèi)容加工技術(shù)包含三種類型:版面理解技術(shù)、編輯工具集和XML編輯工具集。而在一些數(shù)字出版實踐中,經(jīng)常根據(jù)復雜程度將數(shù)字內(nèi)容加工技術(shù)分為初加工深加工兩種類型。國家數(shù)字復合出版系統(tǒng)工程的相關技術(shù)可以看作一種理論性技術(shù),而初加工與深加工技術(shù)可以看作一種操作技術(shù)。一、國家數(shù)字復合出版系統(tǒng)工程的內(nèi)容加工技術(shù)二、數(shù)字出版實踐中常用的相關技術(shù)三、數(shù)字內(nèi)容加工技術(shù)的作用一、國家數(shù)字復合出版系統(tǒng)工程的內(nèi)容加工技術(shù)國家數(shù)字復合出版系統(tǒng)工程可以理解為一種理論性、通用性的技術(shù)。首先,版面理解技術(shù),主要指文檔資產(chǎn)結(jié)構(gòu)化整理工作;其次,編輯工具集,主要為作者和編輯提供一組專業(yè)化的內(nèi)容編輯工具;最后,XML編輯工具集,主要用于圖書、期刊和新聞文稿的XML格式轉(zhuǎn)換和編輯處理過程,包括Word或Excel文件轉(zhuǎn)換為XML文件之前的整理工作、XML轉(zhuǎn)換工作、轉(zhuǎn)換后的XML整理工作和XML編輯工作。在實際應用中,內(nèi)容加工技術(shù)也可以分為以下八種類型:一是文檔編輯工具類二是輔助翻譯工具類三是文件格式轉(zhuǎn)換工具類四是缺字補字管理工具類五是特征抽取與檢查工具類六是水印處理工具類七是版面理解技術(shù)類八是自動標引工具類二、數(shù)字出版實踐中常用的相關技術(shù)(一)OCR技術(shù)OCR技術(shù)主要利用光學技術(shù)和計算機技術(shù),通過檢測印刷體字符每個像素的亮、暗模式,將其轉(zhuǎn)換成一個黑白圖像的文件,然后再使用識別手段將黑白圖像文件轉(zhuǎn)換成計算機可以識別的文字。其工業(yè)化流程主要包括六個方面:1文件掃描和圖像處理(一)OCR技術(shù)1文件掃描和圖像處理首先是掃描前的文件整理環(huán)節(jié)。對紙質(zhì)文件逐頁檢查并把影響掃描的污損、粘連等問題頁處理好。如果文件可以拆分掃描則要將文件拆分好,并在掃描結(jié)束后重新裝訂。接著是文件掃描環(huán)節(jié)。目前的快速掃描技術(shù)可以每秒鐘完成50頁A4紙的掃描工作。掃描后的圖片一般會按照設定格式存在規(guī)定存儲設備中,圖片的像素要求一般在300dpi以上。文件掃描常用的圖像格式有TIF、JPEG、PNG等,目前較為通用的是無損壓縮的TIF格式。掃描完成后是圖像處理環(huán)節(jié)。這一環(huán)節(jié)的主要工作是對掃描后的圖像去臟、糾偏,調(diào)整版心,使圖像更適合閱讀和識別。圖像處理環(huán)節(jié)可以使用通用圖像處理軟件(Photoshop、InDesign、AI等)或?qū)iT工具軟件。(一)OCR技術(shù)2版面分析圖像處理后的數(shù)據(jù)在進行OCR識別前需要進行版面分析。版面分析就是標記各類內(nèi)容區(qū)域并確定其屬性的過程。例如,橫排文本區(qū)、豎排文本區(qū)、公式區(qū)、表格區(qū)和圖像區(qū)等。OCR識別引擎會根據(jù)區(qū)域的屬性識別需要識別的區(qū)域,而公式、分子式等不易識別區(qū)域就會以圖片的方式存儲并應用。版面分析使用專門軟件工具處理,可以自動處理,也可以手動處理。(一)OCR技術(shù)3

OCR識別OCR識別是指把圖像中的文字、符號等轉(zhuǎn)化為計算機編碼的過程。現(xiàn)代OCR識別技術(shù)已經(jīng)可以處理多語種混排、多字體混排、簡繁體混排和表格等復雜的文本類型,同時識別率可達到95%以上。在紙質(zhì)圖書加工系統(tǒng)中,一般都會采用多個識別技術(shù)方案同時識別,再對識別結(jié)果進行智能比較,以提高識別率。OCR識別過程是全自動批量處理的。OCR識別后的文本還會有較多的編碼錯誤和格式錯誤,需要人工校對和修改。校對分為橫向校對和縱向校對。(一)OCR技術(shù)4縱向校對縱向校對是將文件中的每個字符逐個切分成小圖形,并將程序認為相同的圖形逐一排列。當我們打開這一工序的界面時,屏幕顯示的都是同樣的字符。但在其中會含有一些相似的字符,如漢字中的“土”和“士”,英文中的“X”與“x”等。這就要求操作人員對照原圖形文件。如果是程序轉(zhuǎn)換錯誤,要根據(jù)圖像加以改正,從而保持與原文一致。由于同一屏幕出現(xiàn)的是同一個字符,因此,如有不同,操作人員極易發(fā)現(xiàn)并加以改正。經(jīng)過這道工序,可基本完成錯字符的校對修改。(一)OCR技術(shù)5橫向校對橫向校對采用類似傳統(tǒng)的人工校對方法,即通過人工逐字逐句地將識別結(jié)果與原始圖像進行比對,找到錯誤的地方并修改?;谇暗拦ば颍v向校對)的工作,橫向校對工作是將轉(zhuǎn)換后的文本文件對照原文件,在版式上加以修正。要求操作時,現(xiàn)有文件盡量保持原版式。操作界面分為上下兩個部分:上半部分是已經(jīng)轉(zhuǎn)換完成、需要校對的文本文件,下半部分則是用來對照的原文件的掃描圖像。在上半部分我們同時可以看到一行底色略深的文字,它與下面緊挨的一行內(nèi)容相同。這是在程序設計時,將當前校對一行的圖像剪切提取,擺放在正在校對一行的上面,便于操作員比照校對,相當于紙件校對的折校。(一)OCR技術(shù)6文審與校驗最后要對數(shù)字化的文件進行文審校驗,根據(jù)質(zhì)檢標準調(diào)整數(shù)據(jù)的格式,改正之前未能發(fā)現(xiàn)的錯誤,差錯率一般要求控制在萬分之三以內(nèi)。OCR技術(shù)能夠提供基礎的TXT文件,然后再根據(jù)客戶要求,進行深加工,形成最終數(shù)據(jù)文件。OCR技術(shù)對應國家數(shù)字復合出版系統(tǒng)工程中的版面理解技術(shù),是對版面理解技術(shù)的深化。多核心(多重)OCR技術(shù)則進一步提高了識別效率。多核心OCR技術(shù)即利用多個不同OCR系統(tǒng)進行文字識別處理,然后將多個系統(tǒng)的文字識別結(jié)果進行比對。通常,經(jīng)三個系統(tǒng)識別一致的文件,文字差錯率不超過十萬分之一,因此不需要進行人工校對。這樣,多核心的比對過濾掉了大量有錯誤的文字,大大提高了識別和校對效率。(二)XML技術(shù)1

XML概念XML(ExtensibleMarkupLanguage),即可擴展標記語言。標記指計算機所能理解的信息符號,可以用來標記數(shù)據(jù)和定義數(shù)據(jù)類型。通過此種標記,計算機可以處理包含各種信息的文本等。(二)XML技術(shù)2

XML發(fā)展XML是從標準通用標記語言(SGML)演化而來的。SGML是一種在Web出現(xiàn)之前就早已存在的用標記來描述文檔資料的通用語言。由于SGML比較復雜,人們推出了HTML。隨著Web應用的不斷深入,HTML也難以適應技術(shù)發(fā)展需要。于是Web標準化組織W3C建議使用一種精簡的SGML版本——XML。XML與SGML一樣,是一個用來定義其他語言的元語言。與SGML相比,XML開放性強,簡單易懂,是一門既無標簽集也無語法的新一代標記語言。(二)XML技術(shù)3

XML功能(1)XML可以從HTML中分離數(shù)據(jù),即能夠在HTML文件之外將數(shù)據(jù)存儲在XML文檔中,這樣可以使開發(fā)者集中精力使用HTML做好數(shù)據(jù)的顯示和布局工作,并確保數(shù)據(jù)改動時不會導致HTML文件也需要改動,從而方便維護頁面。(2)XML可用于數(shù)據(jù)共享。(3)XML可應用于B2B商業(yè)模式中,例如在網(wǎng)絡中交換金融信息。(4)XML可以充分利用數(shù)據(jù)。(5)XML可以用于創(chuàng)建新的語言。比如,WAP和WML語言都由XML發(fā)展而來。(二)XML技術(shù)4XML編輯加工的流程對XML的編輯加工即內(nèi)容結(jié)構(gòu)化加工。首先,根據(jù)不同類型圖書的知識體系特點,通過自動分析和人機交互兩種方式對圖書資源進行元數(shù)據(jù)標引。然后,按照圖書目錄拆分章節(jié)內(nèi)容,包括章節(jié)下的文本段落、圖片、表格、公式等內(nèi)容。最后,將標引和拆分完后生成的數(shù)據(jù)導出為XML、PDF、EPUB、Word等文檔格式。圖書的XML加工流程如下:(1)安裝編輯加工軟件;(2)分析文件;(3)制作;(4)設置目錄級別;(5)元數(shù)據(jù)提取;(6)導出XML;(7)使用XML編輯器檢查文件;(8)使用DTD/Schema校驗XML結(jié)構(gòu)規(guī)范。(二)XML技術(shù)5

XML數(shù)字出版標準按照2014年國家新聞出版廣電總局數(shù)字出版司發(fā)布的《圖書數(shù)字資源內(nèi)容標引規(guī)則》,結(jié)合圖書的結(jié)構(gòu)建立DTD/Schema。DTD(DocumentTypeDefinition)是一種定義標記語言的語言,它可以定義XML文件使用的標記、屬性和實體以及它們之間的嵌套關系。DTD相當于XML的法律性文件,如果不滿足DTD文件的約束,就不能稱為一個有效的XML文件。(二)XML技術(shù)6

XML數(shù)據(jù)轉(zhuǎn)換一個基于XML的內(nèi)容深加工系統(tǒng),包含了內(nèi)容預處理、格式轉(zhuǎn)換、內(nèi)容校驗等環(huán)節(jié)。內(nèi)容前期處理以兼容多種源文件格式的內(nèi)容預處理系統(tǒng)為核心。該系統(tǒng)采用轉(zhuǎn)換模板配置的方式,以滿足不同項目對各類排版文件前期預處理的轉(zhuǎn)換要求。數(shù)據(jù)成品轉(zhuǎn)換以兼容多項目標準的多格式數(shù)字內(nèi)容制作系統(tǒng)為核心。該系統(tǒng)采用輸出標準模板配置的方式來滿足各項目多格式產(chǎn)品輸出標準。紙質(zhì)資源利用掃描識別系統(tǒng)實現(xiàn)高效轉(zhuǎn)換,電子資源利用排版文件反解技術(shù)實現(xiàn)高效轉(zhuǎn)換。質(zhì)檢管理以兼容多項目標準的加工數(shù)據(jù)內(nèi)容校驗系統(tǒng)為核心。該系統(tǒng)可針對XML、HTML、EPUB等格式電子書、圖片、封面等,分別按照各項目標準配置質(zhì)檢指標,實現(xiàn)批量數(shù)據(jù)一次處理,保障數(shù)據(jù)質(zhì)檢效果?;赬ML的內(nèi)容加工界面三、數(shù)字內(nèi)容加工技術(shù)的作用數(shù)字內(nèi)容加工的目標是實現(xiàn)數(shù)字內(nèi)容產(chǎn)品更好地傳播和利用。目前產(chǎn)業(yè)環(huán)境中,相關技術(shù)能夠?qū)崿F(xiàn)以下目標。(一)高效實現(xiàn)數(shù)據(jù)格式轉(zhuǎn)換(二)精準實現(xiàn)內(nèi)容結(jié)構(gòu)標引(一)高效實現(xiàn)數(shù)據(jù)格式轉(zhuǎn)換數(shù)字出版中的經(jīng)常性數(shù)據(jù)轉(zhuǎn)換是將方正書版文件、飛翔文件、WPS文件、InDesign文件和Word文件等排版文件轉(zhuǎn)換輸出為PDF格式的文件。在實際工作中,會經(jīng)常出現(xiàn)的問題有文字亂碼、內(nèi)容缺失、版面錯頁(跑版)、英文單詞間空格丟失等。數(shù)字內(nèi)容加工工具有效地解決了這些問題。格式轉(zhuǎn)換后的PDF文件按其中圖片的質(zhì)量可分為瀏覽級PDF和印刷級PDF,瀏覽級可作為成品數(shù)據(jù)應用到電子圖書產(chǎn)品中。數(shù)字內(nèi)容也包括圖像及音視頻內(nèi)容,如圖像處理技術(shù)涉及圖像數(shù)字化、圖像增強和復原、圖像數(shù)據(jù)編碼、圖像分割和圖像識別等,音視頻處理技術(shù)涉及音視頻的編碼、壓縮、轉(zhuǎn)換、還原等,這些也屬于廣義的數(shù)據(jù)格式轉(zhuǎn)換范疇。(二)精準實現(xiàn)內(nèi)容結(jié)構(gòu)標引傳統(tǒng)出版物的內(nèi)容標引受限于載體,所以多數(shù)側(cè)重于內(nèi)容的外部特征,例如標題、關鍵詞、作者、作品分類、載體以及出版者等。而數(shù)字內(nèi)容拓展到了用戶生成內(nèi)容、專業(yè)生成內(nèi)容、職業(yè)生成內(nèi)容(Occupationally

GeneratedContent,OGC)以及設備驅(qū)動內(nèi)容(DeviceGeneratedContent,DGC)等多種內(nèi)容生成模式。同時,數(shù)字內(nèi)容既有文字、圖像、音頻、視頻以及AR/VR等不同形式,也有融這些交付形式于一體的綜合形式。借助于當前的標引工具,可以精準地對這些內(nèi)容進行有序化處理,并利用一定的規(guī)則、技術(shù)和方法,通過對內(nèi)容的深度挖掘,精確表達內(nèi)容之間的邏輯關系。第三節(jié)數(shù)字內(nèi)容管理技術(shù)一、信息資源管理系統(tǒng)二、出版ERP一、信息資源管理系統(tǒng)(一)信息資源管理系統(tǒng)概述信息資源管理系統(tǒng)是對加工后的數(shù)字內(nèi)容進行全面管理的系統(tǒng),它對數(shù)字內(nèi)容進行采集、分類、存儲、發(fā)布等流程化管理。信息資源管理系統(tǒng)的目標是為數(shù)字出版單位提供一整套統(tǒng)一編目、統(tǒng)一存儲、統(tǒng)一管理的平臺,將數(shù)字化的圖書、期刊、圖像、音頻、視頻等多種資源建立關聯(lián)關系,實現(xiàn)數(shù)字資源快速、便捷、高效地調(diào)用和產(chǎn)品重組,為出版單位的數(shù)字資源長期保存、檢索、加工、發(fā)布、服務提供數(shù)據(jù)支撐。信息資源管理系統(tǒng)一般由底層數(shù)據(jù)庫及平臺頁面、應用軟件等部分組裝在一起形成完整的平臺。(二)信息資源管理系統(tǒng)運行1數(shù)字內(nèi)容的采集在信息資源管理系統(tǒng)進行數(shù)字內(nèi)容采集時,需要內(nèi)容使用權(quán)所有者運用模板采集、標準采集或直接上傳等方式上傳內(nèi)容。模板采集指上傳者從系統(tǒng)下載符合XML要求的Excel表單,填寫數(shù)字內(nèi)容的元數(shù)據(jù)信息和資源路徑,然后上傳數(shù)字內(nèi)容。標準采集指在選定資源類型后,指定文件路徑,系統(tǒng)將數(shù)字內(nèi)容元數(shù)據(jù)信息、源文件和成品文件同時采集入庫。除了內(nèi)容上傳之外,還有數(shù)據(jù)轉(zhuǎn)儲與網(wǎng)絡爬蟲采集等數(shù)字內(nèi)容采集方式。(二)信息資源管理系統(tǒng)運行2數(shù)字內(nèi)容的存儲經(jīng)過分類或者主題標引的數(shù)字內(nèi)容采集完成后,就進入了存儲環(huán)節(jié)。數(shù)字內(nèi)容存儲對象包括數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或加工過程中需要查找的信息。這些內(nèi)容以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上,如磁盤和磁帶都屬于存儲介質(zhì)。數(shù)字內(nèi)容存儲組織方式因存儲介質(zhì)而異。數(shù)字內(nèi)容存儲過程中,經(jīng)常會涉及數(shù)據(jù)遷移和云存儲兩種存儲模式。數(shù)據(jù)遷移,又稱分級存儲管理(HerarchicalStorageManagement),是一種將離線存儲與在線存儲融合的技術(shù)。云存儲是一種網(wǎng)上在線存儲的模式,即把數(shù)字內(nèi)容存放在第三方托管的多臺虛擬服務器(非專屬的服務器)上。(二)信息資源管理系統(tǒng)運行3數(shù)字內(nèi)容的管理信息資源管理系統(tǒng)采用源文檔庫、中間文檔庫、產(chǎn)品文檔庫的三級庫結(jié)構(gòu)對數(shù)字內(nèi)容資源實施管理。源文檔庫將存儲所有電子文檔和其他數(shù)字資源,以方便后續(xù)數(shù)字內(nèi)容產(chǎn)品的編輯工作;中間文檔庫將根據(jù)開發(fā)需求,構(gòu)建各類素材庫,將加工完成的素材分別存儲于相應素材庫中,以供數(shù)字內(nèi)容產(chǎn)品研發(fā)使用;產(chǎn)品文檔存儲于用于分發(fā)的第三級文檔庫,如基于電子書的EPUB、MOBI、OCF等文檔,基于POD的PDF文檔,基于各類數(shù)據(jù)庫產(chǎn)品的特定數(shù)據(jù)文檔等。數(shù)字內(nèi)容管理包括圖書資源的元數(shù)據(jù)信息和采集的資源文件的管理。(二)信息資源管理系統(tǒng)運行4數(shù)字內(nèi)容的發(fā)布數(shù)字內(nèi)容的發(fā)布通常都是通過一個直接面向用戶的網(wǎng)站實現(xiàn)的,網(wǎng)站會提供數(shù)字內(nèi)容搜索引擎,同時也會直接推送數(shù)字內(nèi)容到客戶端。全媒體數(shù)字內(nèi)容管理系統(tǒng)二、出版ERP(一)出版ERP系統(tǒng)總體描述出版ERP系統(tǒng)將出版企業(yè)所有資源進行整合集成管理,以信息管理為核心、生產(chǎn)活動為主導,推動出版企業(yè)管理信息的標準化,業(yè)務流程的規(guī)范化,財務、業(yè)務整體化和一體化,保障全流程的單品種管理,促進構(gòu)建以出版物單品種的準確可量化核算為基礎的全方位業(yè)務績效體系。出版ERP系統(tǒng)建設的總體目標是:建立綜合業(yè)務管理平臺,實現(xiàn)對圖書產(chǎn)銷存全流程的監(jiān)控,實現(xiàn)圖書單品種的考核,提高預算與績效考核制度的可執(zhí)行性。(二)ERP系統(tǒng)主要功能1加強數(shù)字內(nèi)容統(tǒng)一管理ERP系統(tǒng)對于每個產(chǎn)品都提供了單獨的附件管理功能,其中與數(shù)字內(nèi)容相關的管理內(nèi)容包括合同掃描件、多種格式的加工文件(PDF、XML、EPUB、MOBI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論