




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)字文本處理的基礎
舒明全Email:mqshu@數(shù)字文本處理的基礎1數(shù)字文本的概念
文本:通過文字、符號的形式表現(xiàn)、傳遞信息的方式。讀者能通過閱讀文本數(shù)據中的文字、符號獲得信息,文本數(shù)據是學習、生活、研究資料的主要成分,主要載體形態(tài)為:圖書、報刊、政府文獻、會議論文、學位論文、單位論文、技術報告、產品說明書、網頁等。數(shù)字文本:紙質的文本轉換成計算機能識別的二進制文件,也稱為文本數(shù)據資源。數(shù)字文本的概念文本:通過文字、符號的形式表現(xiàn)、傳遞信息的方2數(shù)字文本的特征提供和獲取文本,需具備一定的文字和符號的識別、表達能力。文本數(shù)據是文檔的主要組成部分。文本數(shù)據都有一個邏輯結構。文本是人和計算機交互的重要方式。數(shù)字文本的特征3數(shù)字文本的分類數(shù)字文本的三種類型:1.純文字文本:使用字處理軟件,通過錄入、編輯、排版后生成,生成后的文本包含排版信息,顯示效果受系統(tǒng)字庫和軟件平臺的影響,在不同機器上顯示會出現(xiàn)不同的效果,嚴重時還會出現(xiàn)亂碼等現(xiàn)象。使用文本文字素材占用的字節(jié)數(shù)比較小,導入后設置字體、大小、顏色比較方便。2.圖像文本:運用繪圖工具軟件(如Photoshop)生成,使用圖像文本可提高多媒體作品的表現(xiàn)力,存儲圖像文本時可存為JPG、BMP、GIF、TIF等不同的格式,在作品中使用不會出現(xiàn)亂碼,但所占的字節(jié)數(shù)要大于純文本格式。3.動態(tài)文本:運用動畫制作軟件(如3DStudioMAX)制作,可根據作品的需要,設置不同的動作,具有很強的動感和三維立體效果,制作片頭時使用的比較多,一般存儲為動態(tài)的GIF和Flash格式,這兩種格式所占字節(jié)數(shù)比較少,也可以存儲為視頻文件(如AVI、MPEG),但所占用的字節(jié)數(shù)較大。數(shù)字文本的分類數(shù)字文本的三種類型:4數(shù)字文本的格式
文本格式的定義文本格式指用來對數(shù)據以及相關信息(包括結構、布局、壓縮算法等)進行編碼的軟件算法。在文本數(shù)據的數(shù)字化過程中,很多公司和組織機構都根據需要制定了自己的數(shù)字文本格式,導致了多種數(shù)字文本格式并存的局面。數(shù)字文本的格式文本格式的定義5數(shù)字文本的基本格式
數(shù)字文本的基本格式:可編輯的文本格式網頁文本格式電子資源文本格式數(shù)學文本格式數(shù)字文本的基本格式數(shù)字文本的基本格式:6可編輯的文本格式TXT格式(也稱純文本格式)
使用Windows操作系統(tǒng)的寫字板、記事本和Word可查看這種格式的文件。優(yōu)點:文件體積??;閱讀不受限制。缺點:不能插入圖片、圖表等;不能建立超鏈接;不支持字體樣式編輯??删庉嫷奈谋靖袷絋XT格式(也稱純文本格式)7CSV格式(純文本文件)特點:它的數(shù)據項(對應于表格的列)之間用逗號隔開,各條記錄(對應于表格的行)之間用“換行”和“回車”隔開??梢员蝗魏挝谋揪庉嬈髡{用,如記事本、寫字板。默認打開方式是MSExcel,而MSExcel是和多種數(shù)據庫相通的,因此,CSV本身也能被一般的數(shù)據庫調用。優(yōu)點:可用任何文本編輯軟件編輯、修改;文件體積很小、便于攜帶。
CSV格式(純文本文件)8DOC格式
使用MicrosoftWord或WordPerfectforWindows創(chuàng)建和打開的。優(yōu)點:DOC格式可以在文件中嵌入圖表、圖片、數(shù)學公式,建立超鏈接等。缺點:由于文件中包含了字體信息、段落格式、文字色彩、頁眉頁腳等信息,文件體積相對純文本文件較大。DOC格式保密,且不開放源代碼,因此,其他公司的字處理程序都無法識別微軟的文檔。DOC格式文件版本向下不兼容。新版本的Office用了老版本不支持的新格式,所以Office的用戶必須升級(即使你并不需要什么新功能),從而提高用戶成本。DOC格式9RTF格式是由Microsoft創(chuàng)建的,RTF文件的組成包含控制字、控制符以及表明文檔屬性的組。使用MicrosoftWord打開。優(yōu)點:RTF格式文件容易識別。RTF格式文件可以在不同程序和同一程序不同版本之間傳遞數(shù)據,且它的格式信息不會丟失或破壞。RTF格式文件具有很強的編排功能,可以實現(xiàn)文字和各種插入對象的混排,文字也可以實現(xiàn)各式各樣的格式編排。缺點:內容繁多??刂谱痔?,增加了文檔編寫的難度。RTF格式賦予作為控制符的字符特殊含義,使其作為文本出現(xiàn)時容易產生混亂。RTF格式
RTF格式是由Microsoft創(chuàng)建的,10WPS格式
香港金山公司開發(fā)的,也是我國唯一一套成熟的擁有完全自主知識產權的辦公系統(tǒng)軟件。
優(yōu)點:兼容性強??梢耘cMSOffice的兼容,可以插入DOC格式文件的圖形、表格和頁眉等;WPSOffice2002可以讀入和生成DOC格式文件;新老版本之間的上下兼容。WPS文檔具有圖文混排的功能。WPS格式技術先進。引入XML數(shù)據中間層;文字與代碼的唯一對應關系,不會出現(xiàn)亂碼現(xiàn)象;WPS格式文件可以適應126種語言;開放的數(shù)據接口。缺點:不能被微軟公司的Office2000直接識別。
WPS格式香港金山公司開發(fā)的,也是我國唯一一套成熟的擁有完11
HTML格式
1989年誕生于歐洲核子研究中心,是W3C協(xié)會專為WorldWideWeb而設計的,專用于Web頁的開發(fā)??捎脤iT的HTML編輯器或Frontpage、Dreamweaver等網頁制作工具進行編輯,通過Navigator、InternetExplorer等瀏覽器顯示文本、圖形和其它的任何內容。
優(yōu)點:簡單和統(tǒng)一。
缺點:
①可重用性差;②信息交互的局限性;③擴展性差,無法支持精確查詢;④處理能力差,影響效率;⑤固定的標簽集合;⑥對特殊字符的支持不夠
網頁文本格式HTML格式
1989年誕生于歐洲核子研究中心,是W312SGML格式
通用標準標記語言的簡稱,是一種系統(tǒng)描述各類文獻結構和內容以建立通用數(shù)字化文獻的國際標準(ISO8879),1986年首次公布。一個SGML文件由三部分組成:SGML聲明、文件類型定義、SGML文檔。優(yōu)點:可擴展性好,可針對各種類型的文件結構制定出合適的標簽集,擴展生成用來處理新數(shù)據格式的各種語言??蛇m應性強,SGML不專屬于某一特定平臺或特定應用系統(tǒng),它可以在彼此不相容的系統(tǒng)間進行數(shù)據交換,而不會造成數(shù)據丟失??芍赜眯院?,使它可應用于Web數(shù)據庫和電子數(shù)據交換。缺點:它相當復雜且價格昂貴。不易在網上傳送。SGML格式通用標準標記語言的簡稱,是13可擴展標識語言的簡稱,W3C于1998年初推出的一種用于標識數(shù)據格式的標識語言,是一個基于SMGL上的簡單、靈活的文本格式,將SGML的豐富功能與HTML的易用性結合到Web應用中,保留了SGML的可擴展功能。主要有如下要素:Schema(模式)、XQL(基于XML的查詢語言)、XSL(可擴展樣式語言)和XLL(可擴展鏈接語言)。XML可在任何平臺和操作系統(tǒng)上運行,具有以下特點:靈活簡單,能把顯示格式從文檔中分離出來,另存放在樣式表中。擴展性良好。具有自解釋性。良好的共享性。強大的超鏈接機制。
XML格式
可擴展標識語言的簡稱,W3C于199814PS格式
電子資源文本格式Adobe公司于1985年開發(fā)成功的專門為打印圖形和文字而設計的一種可編程打印控制語言??捎肁crobatAdobereader打開。優(yōu)點:(1)輸出的多向性⑵文件格式的可轉換性⑶顯示的靈活性⑷獨立于設備(5)占用磁盤空間小(6)支持跨平臺操作缺點:⑴使用不太方便。⑵只能利用有關瀏覽軟件對PS格式文件進行瀏覽、查找、拷貝、打印等操作,而無法對已有PS格式文件進行編輯修改。PS格式電子資源文本格式Adobe公司于1985年15CAJ格式《中國學術期刊全文數(shù)據庫》的專用格式,用中國學術期刊電子雜志社開發(fā)的專用“CAJ全文瀏覽器”才能打開閱讀。優(yōu)點:可原版原貌顯示原文。缺點:與其它的格式互不兼容。
CAJ格式《中國學術期刊全文數(shù)據庫》的專用格式,用中國學術期16VIP格式
維普公司系列數(shù)據庫使用的是vip全文瀏覽器,它支持vip、tif、wp等格式文件。它可以在線閱讀維普數(shù)據庫原文,也可以閱讀下載到本地硬盤的電子數(shù)據全文。
優(yōu)點:可原版原貌顯示原文。缺點:與其它的格式互不兼容。
VIP格式維普公司系列數(shù)據庫使用的是vip全文瀏覽器,17IFR格式
北京書生公司開發(fā)的書生電子圖書格式。目前書生電子圖書分為基礎掃描版、高級掃描版及全息版3種,用書生專用圖像格式瀏覽。優(yōu)點:具有全文檢索功能,比較方便。缺點:版面效果一般。需專門瀏覽器閱讀。文件體積偏大。只能聯(lián)機閱讀。IFR格式北京書生公司開發(fā)的書生電子圖書18PDG格式
由北京世紀超星公司開發(fā)的,是一種掃描的圖片格式,它必須用其專用閱讀器軟件——超星圖書閱覽器(SSReaser)才能閱讀,已成為通用的數(shù)字圖書格式之一。優(yōu)點:電子圖書數(shù)量大,種類齊全;缺點:必需用超星圖書閱讀器,掃描質量較差,文件體積偏大。PDG格式由北京世紀超星公司開發(fā)的,是一種掃描19CEB格式
專為中文電子安全文檔而設計的文件格式,是一種“文字+圖像”的格式,能保留原有排版文件中有關字符、字體和色彩等的全部信息和原文件的版式、圖片、數(shù)學公式、化學公式、表格、棋牌以及樂譜等內容能對文字、圖片等內容進行很好的壓縮,大大減小了對存儲空間的需求。優(yōu)點:完善的版權保護和加密控制。CEB格式專為中文電子安全文檔而設計的文件格式,是20EBK格式
Voyager公司的MAC機(也有PC格式)讀書軟件格式。目前國內某些站點已經開始使用這種格式了。特點:先下載一個客戶端軟件,才能在軟件指定的站點上登錄后,才能下載圖書。EBK格式Voyager公司的MAC機(也有PC格21
美國微軟公司開發(fā)的軟件MicrosoftReader的一種專有的文件格式,只能使用MicrosoftReader來閱讀。優(yōu)點:支持全屏閱讀。沒有滾動條,翻頁全部使用點擊頁碼來實現(xiàn),像看一本真正的紙質書。缺點:不支持與HTML相關的各種技術,只是支持圖片的瀏覽。對中文支持得不是很好。LIT格式
美國微軟公司開發(fā)的軟件MicrosoftReade22WDL格式
北京華康公司開發(fā)的一種電子讀物格式,需要使用該公司專門的閱讀器DynaDocFreeReader來閱讀,可從該公司的網站免費下載。優(yōu)點:較好地保留了原來的版面設計??蓪㈦娮幼x物下載到本地閱讀。適當保護了作者和出版商的利益。壓縮率都比較高。能與任何軟件產生的文檔兼容,可以跨平臺使用。缺點:需要專門的瀏覽器制作該種格式的電子讀物的軟件DynaDoc生成器沒有共享版本。WDL格式北京華康公司開發(fā)的一種電子讀物格式,需要使用該公23TeX/LaTeX/CteX格式
數(shù)學文本格式Stanford大學DonaldE.Knuth在1977年5月開始設計的一個排版文件系統(tǒng)。強調數(shù)學文本的印刷是程序功能中不可分割的一部分。TeX系統(tǒng)是公認的數(shù)學公式排得最好的系統(tǒng),美國數(shù)學學會推薦的非常適合于數(shù)學家使用的AMS-TeX以及適合于一般文章、報告、書籍的LaTeX系統(tǒng)。世界上許多出版社利用TeX系統(tǒng)出版書籍和期刊。美國數(shù)學學會(AMS)鼓勵數(shù)學家們使用TeX系統(tǒng)向它的期刊投稿。已有中文版的CHINATeX。優(yōu)點:⑴高質量的輸出。⑵超常的穩(wěn)定性。⑶TeX是可編程的。⑷高度的靈活性。⑸簡單識別。⑹良好的通用性。⑺低廉的價格。缺點:⑴學習TeX比較困難。⑵難以調試。⑶TeX不是熟悉。TeX/LaTeX/CteX格式數(shù)學文本格式Stanfo24當然文本數(shù)據格式除了以上常用的格式以外,還有其他一些不太常用的格式,如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、RocketeBook(.RB)、PocketPC等。其它文本格式當然文本數(shù)據格式除了以上常用的格式以外,還有其他一些不太25文本格式的標準
標準來源:國外:美國Adobe公司開發(fā)的電子讀物PDF文件格式,由于國外文本主要采用PDF文件格式,所以PDF文件格式是數(shù)字文本的事實標準。國內:我國數(shù)字圖書館標準規(guī)范建設項目的《數(shù)字資源加工標準與操作指南》規(guī)定文本采用PDF文件格式。我國教育部門的CALIS項目建設技術規(guī)范項目的《CALIS
文獻資源數(shù)字加工與發(fā)布標準》也規(guī)定文本采用PDF文件格式。文本格式的標準標準來源:26文本的標準格式:
PDF簡介:PDF是從頁面描述語言PS發(fā)展而來,具有與PS幾乎相同的頁面描述能力和相似的描述方法。與PS不同的是,PDF除了能描述復雜版面外,還具有交互功能(如超鏈接和交互表單等)、頁面隨機存取及字體仿真描述等特性。該軟件最新的版本是7.0,PDF格式的電子圖書可以使用AdobeAcrobat來制作和編輯。PDF文件閱讀需要AdobeAcrobatReader來閱讀。文本的標準格式:PDF簡介:27PDF文件結構分四個部分:標頭:包含PDF文件版本信息。主體:描述所有頁面中的各個元素。相互參照表:主體中查找所有頁面中的各個元素。標尾:告訴軟件或RIP,去哪兒尋找相互參照表。如果沒有標尾,PDF格式文件則不能被任何軟件或RIP處理。
PDF文件結構分四個部分:28PDF文件構成PDF格式文件由以下三個數(shù)據層構成:文件底層數(shù)據層:包括字體信息、交叉參考表等所有的控制文件的重要底層數(shù)據。文本圖像數(shù)據層:包括文件中顯示的所有文本、矢量圖形和點陣圖像數(shù)據。由于PDF文本圖像數(shù)據層獨立存在,用戶替換頁面內容時,可以只改變文本圖像數(shù)據層的內容,而不會影響其他數(shù)據層內的相應數(shù)據,例如,不會改變字體、字號,能保留所有的頁面鏈接,這在文檔電子管理中是很重要的,能給電子出版帶來很大的方便。附屬信息數(shù)據層:包括文件書簽和文件或頁面鏈接等等所有的功能擴展數(shù)據。PDF文件構成PDF格式文件由以下三個數(shù)據層構成:29PDF文本示例PDF文本示例30
特點PDF是文本、矢量圖形和點陣圖像數(shù)據兼容的文件格式(簡稱文字+圖像)。PDF文件格式可以將文字、字型、格式、顏色獨立于設備和分辨力的圖形圖像等封裝在一個文件??砂谋炬溄?、聲音和動態(tài)影像等電子信息。PDF將其它格式的文件轉變成文件格式時,并保留原文件的所有信息,包括字符、字體、版式和色彩;PDF是獨立于各種平臺和應用程序的高兼容性文件格式。
特點PDF是文本、矢量圖形和點陣圖像數(shù)據兼容的文件格式(簡31優(yōu)點PDF具有保持原文特性,頁面獨立性,多媒體鏈接等。文件的壓縮倍率高,文件的尺寸很小,適于網絡傳輸和光盤存儲,具有高保真的印刷特性。Acrobat還具有密碼保護功能,允許使用盡可能高的保密層次來給敏感的文件分配密碼,以便控制對這些敏感文檔的訪問。PDF格式文件可以圖文并茂地展現(xiàn)原書的原貌,顯示大小可任意調節(jié),閱讀時給人賞心悅目的感覺,深受大眾的青睞,已經成為電子出版領域事實上的工業(yè)標準。AdobePDF表單中的數(shù)據可以以標準的XML格式提交,將后端系統(tǒng)和PDF表單相集成。PDF文件創(chuàng)建了指定的搜索標準,即在AdobePDF文件中創(chuàng)建和嵌入元數(shù)據,這樣可擴展文件查找的方式。優(yōu)點PDF具有保持原文特性,頁面獨立性,多媒體鏈接等。32數(shù)字文本的處理流程
數(shù)字文本信息的特點是易于傳播、所需存儲空間小,使用范圍廣?,F(xiàn)在的公文、文件、信函、報表、各種印刷出版物等絕大多數(shù)都使用文字的形式來記錄,文本信息處理的應用范圍非常廣泛,從編輯文稿、建立文件檔案資料、排版印刷到行政管理、辦公室自動化,凡是需要用文字表達信息的應用場合,都可以利用文字信息處理技術。但是由于世界各國語言文字存在較大差異,交流的群體受到限制,文本信息處理一直在不斷的開發(fā)和應用,可以利用計算機人工智能,在字、詞處理的基礎上增添語法和句法處理、書面和自然語言處理等新功能。數(shù)字文本的處理流程數(shù)字文本信息的特點是易于傳播、33文本處理的實質先把文字信息數(shù)字化,即用一個固定的數(shù)碼代表一個字母或文字。例如,在英文信息中,以26個字母作為文字信息處理的單位,因此要對26個字母逐個地確定代替它的數(shù)碼。在漢字的情況下,一般是以一個整字作為文字信息處理的單位,因此要對每一個整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)。在計算機內部處理文字信息時,就像處理數(shù)據一樣對待。處理完畢后,再把替代的數(shù)碼還原成相應的字母或文字。利用計算機能夠調整處理數(shù)據的性能,使文字信息處理也能夠分享計算機技術的這一獨特優(yōu)點,從而實現(xiàn)文字信息處理的高效化。文本處理的實質34數(shù)字文本的處理流程
從總體上看,數(shù)字文本處理大致包含如下三個過程:文本采集:通常是通過鍵盤把組成英文詞匯的各個英文字母逐個地輸入、全文掃描輸入等。文本處理:包括編輯、格式轉換等多種不同的處理要求。如在文稿的編輯操作中有對文字的增、刪、改操作;有對若干個字、整個句子或整段文字的增、刪、改操作。在對文字串的處理中,有分類、合并、比較、排序、檢索以及對齊等操作。這些種類的操作都可以通過預先編制相應的處理程序來實現(xiàn)。文本輸出:文字信息處理完畢后,要把處理結果的代碼信息轉換成文字的形式輸出,輸出方式包括顯示和打印,在顯示時,文本制作人為了保護自己的知識產權,可設置對用戶權限的管理。數(shù)字文本的處理流程從總體上看,數(shù)字文本處理大致包含如下三個35
從信息編碼角度看數(shù)字文本處理,可抽象為下圖所示的五層結構模型:
數(shù)字文本處理流程示意圖從信息編碼角度看數(shù)字文本處理,可抽象為下圖所示的五層結構模36圖示說明
外部碼輸入層:通過鍵盤、文字識別、語音識別等將文本信息輸入計算機。外部碼向內部碼轉換層:將外部碼輸入層信息轉換成一致的內部碼,供內部碼處理層使用。內部碼處理層:包括運算碼、存儲碼、地址碼、控制碼、語音碼等字符處理內部碼。內部碼向外部碼轉換層:將內部碼處理層的結果,按照需要轉換成相應外部碼輸出,供外部碼輸出層使用。外部碼輸出層:包括文字顯示輸出、文字印刷輸出、語音合成輸出、交換碼輸出等輸出形式。
圖示說明外部碼輸入層:通過鍵盤、文字識別、語音識別等將文37數(shù)字文本采集采集途徑
數(shù)字文本的采集途徑有輸入和下載兩種,其中輸入又分為人工輸入和自動輸入。人工輸入:鍵盤輸入,即英文直接輸入,中文輸入采用拼音法、五筆輸入法、鄭碼輸入法、智能拼音法等,人工輸入速度慢且勞動強度大,不適用于需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。
數(shù)字文本采集采集途徑數(shù)字文本的采集途徑有輸入和下載兩種,其38自動輸入分為手寫板輸入法、語音輸入法、掃描輸入法。手寫板輸入法:利用壓敏或磁感應等方法識別文字信號,被計算機接收后再在顯示器中顯示。語音輸入法:利用語音識別手段將人們讀書的聲音通過麥克風輸入計算機,由計算機分析判斷整理出人們讀出的內容,并用文字形式顯示出來。掃描輸入法:利用掃描儀、數(shù)碼相機等外圍設備將印刷型或手寫體的文字轉換為數(shù)字信號輸入計算機,此方法輸入的文字是以圖像的形式出現(xiàn)的,再利用識別軟件轉換為人們常用的文本文字。自動輸入分為手寫板輸入法、語音輸入法、掃描輸入法。39文本下載:下載分為電子資源下載和網頁下載兩種。電子資源下載:主要是下載數(shù)據庫和網上的非網頁文本,一般是原格式(如doc、pdf、pdg、caj等)文件下載。網上下載:主要是html格式的網頁文本,采用復制、粘貼的方法轉到Word、寫字板、記事本中以便于編輯,采用此方法復制到Word時,可采用“選擇性粘貼”—“無格式粘貼”的方式去掉粘貼過來的網頁格式。文本下載:40主要有鍵盤、鼠標、麥克風、圖形輸入板和筆、Microtek掃描儀等。鍵盤:把漢字輸入計算機的主要工具,目前主要是按漢字的字形或發(fā)音特征,或利用漢字的形、音特征相結合的編碼方法將漢字輸入計算機。麥克風:將人類自然語言轉化為計算機能識別的文本信息的主要工具。圖形輸入板和筆:將人們的手寫文本直接輸入到計算機的主要工具。只有在微機配上圖形輸入板才能進行手寫文本,以讓機器自動識別轉換為數(shù)字文本信息。Microtek掃描儀:目前常用的掃描儀是上海中晶科技有限公司生產的Microtek掃描儀,最新產品是MicrotekArtixScan2020彩色雙平臺掃描儀,分辨率為2000dpi×2000dpi、雙鏡頭及恒溫冷卻系統(tǒng),最大掃描幅面為A3。采集工具主要有鍵盤、鼠標、麥克風、圖形輸入板和筆、Mic41
采集軟件數(shù)字文本的采集軟件主要有:word、Windows附件的記事本:主要用于鍵盤輸入和網上下載的采集過程。識別軟件:分為文本識別軟件和語音識別軟件,文本識別軟件有尚書和漢王等,其核心技術是OCR技術;語音識別軟件有IBM公司生產的ViaVoice9.1和微軟公司開發(fā)的語音大師3.6等。采集軟件數(shù)字文本的采集軟件主要有:42
文本識別是用電子計算機自動辨識印刷在紙上和錄寫在紙(或介質)上的字形,是一種文本處理中的高速、自動輸入方式。文本識別技術可以分為印刷體識別及手寫體識別技術,而手寫體識別又可以分為聯(lián)機與脫機兩種。文本識別文本識別是用電子計算機自動辨識印刷在紙上和錄寫在紙43
文本識別的原理
根據匹配判別,抽取代表未知漢字模式本質的表達形式(如各種特征)和預先存儲在機器中的標準漢字模式表達形式的集合(稱為字典)逐一匹配,用一定的準則進行判別,在機器存儲的標準漢字模式表達形式的集合中,找出最接近輸入字模式表達形式,該表達形式對應的文字就是識別結果。文本識別的原理根據匹配判別,抽取代表未知漢字模44
文本識別的原理圖
文本識別的原理圖45OCR識別技術OCR,光學漢字識別的簡稱,是一種智能化的漢字輸入方法,主要是對印刷體漢字進行識別,原稿上的印刷體漢字經光學掃描后,通過二值化處理(即模數(shù)轉換行字切分等預處理過程)送入計算機,由程序把送入計算機的字模信息和原先存在計算機中的標準字模信息進行比較,判定和識別輸入的漢字,這種方法的識別速度較高。對于一般質量的文稿,目前OCR產品的漢字識別準確率已達95%以上,個別系統(tǒng)可達98%以上,并可實現(xiàn)對中文、英文和數(shù)字符號的混合識別,基本進入實用階段,并在不斷發(fā)展之中。
OCR識別技術主要應用于掃描儀中,目前也有不少數(shù)據庫公司將它嵌入自己的瀏覽器中,如:重慶維普、中國期刊網、書生和超星電子圖書等。OCR識別技術OCR,光學漢字識別的簡稱,是一種智能化46印刷體文本識別印刷體文本識別的過程如:掃描:通過光電掃描儀獲得的二維原始圖像。預處理:對原始圖像的去噪、傾斜校正或各種濾波處理。版面分析:對于文本圖像的總體分析,區(qū)分出文本段落及排版順序、圖像、表格的區(qū)域,對于文本區(qū)域將進行識別處理,對于表格區(qū)域進行專用的表格分析及識別處理,對于圖像區(qū)域進行壓縮或簡單存儲。將大幅的圖像先切割為行,再從圖像行中分離出單個字符的過程特征提?。簭膯蝹€字符圖像上提取統(tǒng)計特征或結構特征的過程,包括細化、歸一化等步驟。整個環(huán)節(jié)中最重要的一環(huán),提取的特征的穩(wěn)定性及有效性,決定了識別的性能。文字識別:從學習得到的特征庫中找到與待識字符相似度最高的字符類的過程。后處理:利用詞義、詞頻、語法規(guī)則或語料庫等語言先驗知識對識別結果進行校正的過程。印刷體文本識別印刷體文本識別的過程如:47印刷體文本識別的過程圖注:圈內部分是印刷漢字識別中最為核心的技術
印刷體文本識別的過程圖注:圈內部分是印刷漢字識別中最為核心的48手寫體文本識別手寫文本識別是只在微機配上圖形輸入板就可以進行手寫文本,機器自動識別。手寫文本是一種很方便的輸入手段,不需要進行任何訓練,可以隨著思路書寫,圖形輸入板方便編輯、修改,缺點是輸入速度慢和不適應大量的文本輸入。其識別過程如下:
手寫體文本識別手寫文本識別是只在微機配上圖形輸入板就可以進行49文本識別操作:尚書六號目前市場上銷售的每一款Microtek掃描儀產品,都附贈了“尚書六號”文字識別軟件?!吧袝枴蓖黄屏恕吧袝逄枴敝荒軐Α昂诎锥眻D像進行識別的限制,可對彩色、灰度圖像文件直接進行識別,同時支持更多的掃描文件格式(如TIFF、BMP和JPG),完善了表格識別功能,各式各樣的表格幾乎都可以原封不動的由圖片格式轉變?yōu)榭梢宰杂删庉嫷奈淖指袷?,安裝“尚書六號”完畢后,程序組圖標里面會自動出現(xiàn)“尚書六號說明”,借助這本用戶手冊,即使是初學者也可以迅速掌握軟件的使用。文本識別操作:尚書六號目前市場上銷售的每一款Microtek50尚書六號的使用方法Step1:掃描圖像文件
首先點擊桌面上ScanWizard5軟件的圖標,進入Microtek掃描儀驅動軟件的界面,直接進行掃描工作,而不需要啟動其他的掃描程序或圖像編輯程序,這樣可以大大加快掃描進程。同時,注意將ScanWizard5軟件切換到高級工作模式(如圖1所示),以便于用戶檢查掃描儀工作時的分辨率。在文字識別時,推薦使用的掃描分辨率設定在300ppi,色彩模式可以選擇“RGB彩色”或者“灰階”,選擇“掃描到”的文件格式是TIF或者JPG兩者都可以,然后將掃描得到的文件保存在用戶確定的目錄下面。尚書六號的使用方法Step1:掃描圖像文件51圖1.圖1.52Step2:打開尚書六號讀取掃描好的圖像文件。圖2Step2:打開尚書六號讀取掃描好的圖像文件。圖253Step3:被識別圖片的預處理
包括傾斜校正和設定正確的識別區(qū)域兩個過程。傾斜校正過程:如圖3所示,按下工具欄的最下面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年9月幼兒園駕駛員協(xié)助處理兒童情緒失控條款
- 2025年南陽貨運資格證培訓考試題
- 罐子安裝施工方案
- 室內浴缸施工方案
- 葡萄買賣合同協(xié)議
- 經營合同的終止協(xié)議
- 附加合同無效協(xié)議
- 房屋合同協(xié)議書
- 聯(lián)通合同協(xié)議模板下載
- 教培機構協(xié)議合同
- DEEPSEEK了解及使用攻略高效使用技巧培訓課件
- 玉盤二部合唱簡譜
- 《Python程序設計基礎教程(微課版)》全套教學課件
- 中期引產病人護理pPT
- 農藥經營許可管理制度
- 建筑施工企業(yè)三類人員變更申請表(外省市)
- 通用精美電子小報模板(35)
- 廣州大學畢業(yè)論文格式
- 浮頭式換熱器設計畢業(yè)論文
- MSDS-火花機油
- 全氟己酮項目可行性研究報告寫作范文
評論
0/150
提交評論