第5章5.1 文本及文本處理_第1頁
第5章5.1 文本及文本處理_第2頁
第5章5.1 文本及文本處理_第3頁
第5章5.1 文本及文本處理_第4頁
第5章5.1 文本及文本處理_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第第5章章 數(shù)字媒體及應(yīng)用數(shù)字媒體及應(yīng)用5.1 文本與文本處理文本與文本處理 5.2 圖像與圖形圖像與圖形 5.3 數(shù)字聲音及應(yīng)用數(shù)字聲音及應(yīng)用5.4 數(shù)字視頻及應(yīng)用數(shù)字視頻及應(yīng)用25.1 文本與文本處理文本與文本處理 5.1.1 字符的編碼字符的編碼5.1.2 文本準(zhǔn)備文本準(zhǔn)備5.1.4 文本編輯、排版與處理文本編輯、排版與處理5.1.3 文本的分類文本的分類5.1.5 文本的展現(xiàn)文本的展現(xiàn) 3文字處理是計(jì)算機(jī)應(yīng)用的基礎(chǔ)文字處理是計(jì)算機(jī)應(yīng)用的基礎(chǔ)n 計(jì)算機(jī)應(yīng)用使用計(jì)算機(jī)進(jìn)行信息處理計(jì)算機(jī)應(yīng)用使用計(jì)算機(jī)進(jìn)行信息處理n 其中,文字處理是涉及面最廣的一種計(jì)算機(jī)應(yīng)用,其中,文字處理是涉及面最廣的一種

2、計(jì)算機(jī)應(yīng)用,幾乎與任何領(lǐng)域任何人都有關(guān)。幾乎與任何領(lǐng)域任何人都有關(guān)。文字文字?jǐn)?shù)值數(shù)值語言語言音樂音樂圖像圖像信息的形態(tài)有多種信息的形態(tài)有多種4寫作寫作編輯編輯排版排版印刷印刷發(fā)行發(fā)行寫作寫作 傳統(tǒng)的文字處理過程傳統(tǒng)的文字處理過程5計(jì)算機(jī)文字處理過程計(jì)算機(jī)文字處理過程n 文字信息在計(jì)算機(jī)中稱為文字信息在計(jì)算機(jī)中稱為“文本文本”(text),文本是計(jì)算機(jī)中最),文本是計(jì)算機(jī)中最常用的一種數(shù)字媒體常用的一種數(shù)字媒體n 文本由一系列文本由一系列 “字符字符”(character)組成,每個(gè)字符均使用二)組成,每個(gè)字符均使用二進(jìn)制編碼表示進(jìn)制編碼表示n 文本在計(jì)算機(jī)中的處理過程是:文本在計(jì)算機(jī)中的處理過

3、程是:(文本編輯器文本編輯器)文本編輯文本編輯與排版與排版格式化的格式化的電子文本電子文本(2)文本文本展現(xiàn)展現(xiàn)(文本閱讀器文本閱讀器)(5)文本處理文本處理 (文本處理文本處理)(3)文本準(zhǔn)備文本準(zhǔn)備電子電子文本文本(1)(文字與圖表文字與圖表 的輸入的輸入)文本存儲(chǔ)文本存儲(chǔ)與傳輸與傳輸(4)( (存檔存檔/ /通信軟件通信軟件) )65.1.1. 字符在計(jì)算機(jī)中的表示字符在計(jì)算機(jī)中的表示 7字符、字符集及其編碼表字符、字符集及其編碼表 n 文字的基本元素是字母和符號(hào),統(tǒng)稱為文字的基本元素是字母和符號(hào),統(tǒng)稱為“字符字符” (character),它包括:字母、數(shù)字、標(biāo)點(diǎn)、符號(hào)等,它包括:字母

4、、數(shù)字、標(biāo)點(diǎn)、符號(hào)等n 字符集:一組特定字符的集合字符集:一組特定字符的集合n 不同的字符集包含的字符數(shù)目與內(nèi)容不同,如:不同的字符集包含的字符數(shù)目與內(nèi)容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n 字符的編碼:字符的編碼:n 字符集中每個(gè)字符的二進(jìn)位表示,稱為該字符的編碼或代碼字符集中每個(gè)字符的二進(jìn)位表示,稱為該字符的編碼或代碼(code) n 不同的字符其編碼各不相同不同的字符其編碼各不相同8復(fù)習(xí):西文字符的編碼復(fù)習(xí):西文字符的編碼ASCII碼碼n 西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、數(shù)字、標(biāo)點(diǎn)符,它由拉丁字母、數(shù)字、標(biāo)點(diǎn)

5、符號(hào)以及一些特殊符號(hào)所組成號(hào)以及一些特殊符號(hào)所組成n 美國信息交換標(biāo)準(zhǔn)碼美國信息交換標(biāo)準(zhǔn)碼(ASCII碼碼):n ASCII字符集包含字符集包含96個(gè)可打印字符和個(gè)可打印字符和32個(gè)控制字符個(gè)控制字符n 采用采用7個(gè)二進(jìn)位進(jìn)行編碼個(gè)二進(jìn)位進(jìn)行編碼n 計(jì)算機(jī)中使用計(jì)算機(jī)中使用1個(gè)字節(jié)存儲(chǔ)個(gè)字節(jié)存儲(chǔ)1個(gè)個(gè)ASCII 字符字符n 存在問題:存在問題:n 字符集太?。ㄖ挥凶址。ㄖ挥?28個(gè)字符)個(gè)字符)n 不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容0X X X X X X X9漢字如何編碼?漢字如何編碼?n 漢字是記錄漢語(國語,華語)的文字

6、,屬于表漢字是記錄漢語(國語,華語)的文字,屬于表意文字,它用符號(hào)直接表達(dá)詞或詞素,有多個(gè)國意文字,它用符號(hào)直接表達(dá)詞或詞素,有多個(gè)國家和地區(qū)使用(中、日、韓、新、馬家和地區(qū)使用(中、日、韓、新、馬)n 漢字的特點(diǎn)漢字的特點(diǎn)n數(shù)量大;字形復(fù)雜,同音字多,異體字多數(shù)量大;字形復(fù)雜,同音字多,異體字多n 如何編碼?如何編碼?n確定收入多少字、哪些字?確定收入多少字、哪些字?n在字符集中如何排列?在字符集中如何排列?n使用多少個(gè)二進(jìn)位進(jìn)行編碼?使用多少個(gè)二進(jìn)位進(jìn)行編碼?10常用的漢字編碼字符集常用的漢字編碼字符集n國家標(biāo)準(zhǔn)國家標(biāo)準(zhǔn)GB2312-1980n漢字?jǐn)U充規(guī)范漢字?jǐn)U充規(guī)范 GBK (已被已被G

7、B 18030取代取代)n國家標(biāo)準(zhǔn)國家標(biāo)準(zhǔn)GB18030-2005n港澳臺(tái)使用的漢字編碼字符集港澳臺(tái)使用的漢字編碼字符集CNS 11643 (BIG 5,俗稱,俗稱“大五碼大五碼”)nUCS/Unicode多文種大字符集多文種大字符集nUnicode的的UTF-8nUnicode的的UTF-1611一級(jí)漢字一級(jí)漢字(3755個(gè))個(gè))二級(jí)漢字二級(jí)漢字(3008個(gè))個(gè))(擴(kuò)充使用)(擴(kuò)充使用)字母、數(shù)字和各種符號(hào)字母、數(shù)字和各種符號(hào) 19423位號(hào)位號(hào) 191655568794區(qū)區(qū) 號(hào)號(hào)(按漢語拼音排列按漢語拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312漢字編碼字符集漢字編碼字符集n 19

8、80年頒布年頒布信息交換用漢字編碼字符集信息交換用漢字編碼字符集基本基本集集GB2312-1980n GB2312字符集由三個(gè)部分構(gòu)成:字符集由三個(gè)部分構(gòu)成:拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名與片假名、名與片假名、希臘字母、漢希臘字母、漢語拼音等共語拼音等共682個(gè)個(gè)共共6763個(gè)漢字和個(gè)漢字和682個(gè)符號(hào),個(gè)符號(hào),每個(gè)每個(gè)漢字和符號(hào)都有一漢字和符號(hào)都有一個(gè)確定位置個(gè)確定位置12GB2312漢字的編碼漢字的編碼n 每一個(gè)每一個(gè)GB2312漢字使用漢字使用16位位(2個(gè)字節(jié)個(gè)字節(jié))表示表示n 為了與為了與ASCII字符相區(qū)別,每個(gè)字節(jié)的最高位均字符相區(qū)別,每個(gè)字節(jié)的最高位均為為“

9、1”n 例如:例如:“南南”字的代碼是字的代碼是11000100 11001111(用十六進(jìn)制表示為(用十六進(jìn)制表示為C4CF) 11第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X X13GBK漢字內(nèi)碼擴(kuò)充規(guī)范漢字內(nèi)碼擴(kuò)充規(guī)范 n GB2312的不足:的不足:n 漢字字?jǐn)?shù)太少,缺少繁體字漢字字?jǐn)?shù)太少,缺少繁體字,無法滿足無法滿足人名、地名、古籍整理、人名、地名、古籍整理、古典文獻(xiàn)研究古典文獻(xiàn)研究等應(yīng)用的需要;與等應(yīng)用的需要;與ASCII碼不兼容碼不兼容n GBK漢字內(nèi)碼擴(kuò)充規(guī)范(漢字內(nèi)碼擴(kuò)充規(guī)范(1995):):n 在在GB2312基礎(chǔ)上,增加了基礎(chǔ)上,增加了1萬

10、多漢字萬多漢字(包括繁體字包括繁體字)和符號(hào)和符號(hào)n 共有共有21003個(gè)漢字和個(gè)漢字和883個(gè)圖形符號(hào),如個(gè)圖形符號(hào),如“計(jì)計(jì)算算機(jī)機(jī)”、冃冃、冄冄、円円、冇冇等繁體字和生僻字等繁體字和生僻字 n 與與GB8312保持向下兼容,也使用雙字節(jié)表示,第保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最高位必字節(jié)最高位必須為須為“1”:1 X第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X X14UCS/Unicode多文種大字符集多文種大字符集n 背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼n 方案:方案:ISO將全球所

11、有文字字母和符號(hào)集中在一個(gè)字符集中進(jìn)行統(tǒng)一將全球所有文字字母和符號(hào)集中在一個(gè)字符集中進(jìn)行統(tǒng)一編碼編碼(目前共收集了目前共收集了17x2161,114,112 個(gè)個(gè)) ,稱為,稱為UCS/Unicoden UCS/Unicode的編碼方案:的編碼方案:n 先實(shí)現(xiàn)部分字符的編碼(近先實(shí)現(xiàn)部分字符的編碼(近11萬個(gè)字符)萬個(gè)字符)n 盡量與已有編碼標(biāo)準(zhǔn)兼容盡量與已有編碼標(biāo)準(zhǔn)兼容n 包含有中、日、韓、越統(tǒng)一整理出來的約包含有中、日、韓、越統(tǒng)一整理出來的約7萬漢字(稱萬漢字(稱CJKV漢字)漢字)n 允許有若干不同的編碼方案允許有若干不同的編碼方案, 常用的兩種是:常用的兩種是:單字節(jié):單字節(jié):ASCI

12、I字符字符雙字節(jié):拉丁、希臘、阿拉伯,雙字節(jié):拉丁、希臘、阿拉伯,三字節(jié):三字節(jié):CJKV漢字漢字四字節(jié):其他四字節(jié):其他Unicode:UTF-8 單字節(jié)可變長編碼單字節(jié)可變長編碼應(yīng)用:應(yīng)用:Linux,Web網(wǎng)頁,電子郵件網(wǎng)頁,電子郵件雙字節(jié):雙字節(jié): ASCII字符、拉丁、希臘、字符、拉丁、希臘、 阿阿 拉伯,常用拉伯,常用CJKV漢字,漢字,四字節(jié):非常用四字節(jié):非常用CJKV漢字漢字Unicode:UTF-16雙字節(jié)可變長編碼雙字節(jié)可變長編碼應(yīng)用:應(yīng)用:Windows,Mac,Java,15GB18030漢字編碼標(biāo)準(zhǔn)漢字編碼標(biāo)準(zhǔn)n 背景:無論是背景:無論是Unicode的的UTF-8

13、還是還是UTF-16,其,其CJK漢字字符集雖然漢字字符集雖然覆蓋了我國已使用多年的覆蓋了我國已使用多年的GB2312和和GBK標(biāo)準(zhǔn)中的漢字,但它們的標(biāo)準(zhǔn)中的漢字,但它們的編編碼并不相同碼并不相同n 為了既能與為了既能與UCS/Unicode編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國已有的大量編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國已有的大量漢字信息資源,我國在漢字信息資源,我國在2000年和年和2005年兩次發(fā)布年兩次發(fā)布GB18030漢字編碼漢字編碼國家標(biāo)準(zhǔn)國家標(biāo)準(zhǔn)。n GB18030實(shí)質(zhì)上是實(shí)質(zhì)上是UCS/Unicode字符集的另一種編碼方案:字符集的另一種編碼方案:n 單字節(jié)編碼(單字節(jié)編碼(128個(gè))表示個(gè))表示

14、ASCII字符字符n 雙字節(jié)編碼(雙字節(jié)編碼(23940個(gè))表示漢字,與個(gè))表示漢字,與GBK(以及(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用n 四字節(jié)編碼(約四字節(jié)編碼(約158萬個(gè))用于表示萬個(gè))用于表示 UCS/Unicode中的其他字符中的其他字符n GB18030目前已在我國信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。目前已在我國信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。 16標(biāo)準(zhǔn)名稱標(biāo)準(zhǔn)名稱GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763個(gè)漢字個(gè)漢字(簡簡體字體字)21003個(gè)漢字個(gè)漢字(包括(包括GB2312漢字在內(nèi))漢字在內(nèi))近近3萬漢字萬漢字(

15、包括包括GBK漢字漢字和和CJKV及其擴(kuò)及其擴(kuò)充中的漢字充中的漢字)包含近包含近11萬字符,其萬字符,其中的漢字與中的漢字與GB18030相同相同編碼方法編碼方法雙字節(jié)存儲(chǔ)和雙字節(jié)存儲(chǔ)和表示,每個(gè)字表示,每個(gè)字節(jié)的最高位均節(jié)的最高位均為為“1” 雙字節(jié)存儲(chǔ)和表雙字節(jié)存儲(chǔ)和表示,第示,第1個(gè)字節(jié)個(gè)字節(jié)的最高位必為的最高位必為“1”部分雙字節(jié)、部分雙字節(jié)、部分部分4字節(jié)表示,字節(jié)表示,雙字節(jié)表示方雙字節(jié)表示方案與案與GBK相同相同n UTF-8采用單字節(jié)采用單字節(jié)可變長編碼可變長編碼n UTF-16采用雙字采用雙字節(jié)可變長編碼節(jié)可變長編碼兼容性兼容性編碼編碼不兼容!不兼容!小結(jié):幾種漢字編碼的對(duì)比

16、小結(jié):幾種漢字編碼的對(duì)比編碼保持向下兼容編碼保持向下兼容17小結(jié):不同標(biāo)準(zhǔn),不同的表示!小結(jié):不同標(biāo)準(zhǔn),不同的表示!n 與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標(biāo)與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標(biāo)準(zhǔn)準(zhǔn), 如:國際標(biāo)準(zhǔn)如:國際標(biāo)準(zhǔn)(ISO)、國家標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)(GB)、工業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、工業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。等,這也是信息處理復(fù)雜性的原因之一。n由于采用不同的編碼標(biāo)準(zhǔn),相同文字在計(jì)算機(jī)中可以有不同由于采用不同的編碼標(biāo)準(zhǔn),相同文字在計(jì)算機(jī)中可以有不同的二進(jìn)制代碼表示。的二進(jìn)制代碼表示。n例如:例如: “南京大學(xué)南京大學(xué)1234ABC

17、D”的的3種表示:種表示:C4CFBEA9B4F3 D1A731 32 33 34 41 42 43 44E5 8D97 E4 BAACE5 A4A7E5 ADA631 32 33 34 41 42 43 4457 53 AC4E 27 59 66 5B31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00GBUTF-8UTF-16185.1.2. 文本準(zhǔn)備文本準(zhǔn)備 文稿如何輸入計(jì)算機(jī)文稿如何輸入計(jì)算機(jī) 19文字符號(hào)輸入計(jì)算機(jī)的方法文字符號(hào)輸入計(jì)算機(jī)的方法鍵盤輸入鍵盤輸入自動(dòng)識(shí)別輸入自動(dòng)識(shí)別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入(1)數(shù)字編碼數(shù)

18、字編碼, 如電報(bào)碼、區(qū)位碼等如電報(bào)碼、區(qū)位碼等, (2)字音編碼字音編碼, 如智能如智能ABC等等(3)字形編碼,如五筆字形和表形碼等字形編碼,如五筆字形和表形碼等, (4)形音編碼形音編碼發(fā)展趨勢(shì):基于統(tǒng)計(jì)和學(xué)習(xí)功能的以詞語發(fā)展趨勢(shì):基于統(tǒng)計(jì)和學(xué)習(xí)功能的以詞語(短語短語)或句子作為輸入單或句子作為輸入單位的輸入方法位的輸入方法20文字符號(hào)輸入計(jì)算機(jī)的方法文字符號(hào)輸入計(jì)算機(jī)的方法鍵盤輸入鍵盤輸入聯(lián)機(jī)手寫輸入聯(lián)機(jī)手寫輸入自動(dòng)識(shí)別輸入自動(dòng)識(shí)別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優(yōu)點(diǎn):優(yōu)點(diǎn):自然,流暢自然,流暢小型化,適合移動(dòng)計(jì)算小型化,適合移動(dòng)計(jì)算不足:不足:識(shí)別速度和正確性還需提高識(shí)

19、別速度和正確性還需提高書寫要求還要降低書寫要求還要降低21文字符號(hào)輸入計(jì)算機(jī)的方法文字符號(hào)輸入計(jì)算機(jī)的方法鍵盤輸入鍵盤輸入聯(lián)機(jī)手寫輸入聯(lián)機(jī)手寫輸入語音輸入語音輸入自動(dòng)識(shí)別輸入自動(dòng)識(shí)別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優(yōu)點(diǎn):優(yōu)點(diǎn):自然,方便,適合移動(dòng)計(jì)算自然,方便,適合移動(dòng)計(jì)算不足:不足:對(duì)說話人、說話方式、說話內(nèi)容的對(duì)說話人、說話方式、說話內(nèi)容的適應(yīng)能力要大適應(yīng)能力要大大增強(qiáng)大增強(qiáng)識(shí)別速度和正確性還需大大提高識(shí)別速度和正確性還需大大提高22文字符號(hào)輸入計(jì)算機(jī)的方法文字符號(hào)輸入計(jì)算機(jī)的方法光學(xué)字符識(shí)別光學(xué)字符識(shí)別鍵盤輸入鍵盤輸入聯(lián)機(jī)手寫輸入聯(lián)機(jī)手寫輸入語音輸入語音輸入自動(dòng)識(shí)別輸入自

20、動(dòng)識(shí)別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入掃描儀掃描儀OCR數(shù)字?jǐn)?shù)字文本文本紙介質(zhì)紙介質(zhì)文本文本文本的文本的映象映象(image)識(shí)別率已達(dá)到識(shí)別率已達(dá)到98%功能功能: 簡、繁體字簡、繁體字混合識(shí)別混合識(shí)別 中文、西文混合識(shí)別中文、西文混合識(shí)別 文字、表格混合識(shí)別文字、表格混合識(shí)別 智能校對(duì)功能智能校對(duì)功能23文字符號(hào)輸入計(jì)算機(jī)的方法文字符號(hào)輸入計(jì)算機(jī)的方法光學(xué)字符識(shí)別光學(xué)字符識(shí)別條形碼、磁卡、條形碼、磁卡、IC卡、卡、RFID識(shí)別識(shí)別鍵盤輸入鍵盤輸入聯(lián)機(jī)手寫輸入聯(lián)機(jī)手寫輸入語音輸入語音輸入自動(dòng)識(shí)別輸入自動(dòng)識(shí)別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入 預(yù)先進(jìn)行標(biāo)識(shí)預(yù)先進(jìn)行

21、標(biāo)識(shí) 掃描識(shí)別輸入掃描識(shí)別輸入24漢字的鍵盤輸入漢字的鍵盤輸入n 漢字與鍵盤上的鍵無法一一對(duì)應(yīng),因此必須使用漢字與鍵盤上的鍵無法一一對(duì)應(yīng),因此必須使用幾個(gè)鍵來表示一個(gè)漢字,這就稱為漢字的幾個(gè)鍵來表示一個(gè)漢字,這就稱為漢字的“鍵盤輸鍵盤輸入編碼入編碼”n 優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn):優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn):n易學(xué)習(xí)、易記憶易學(xué)習(xí)、易記憶n效率高效率高(平均擊鍵次數(shù)較少平均擊鍵次數(shù)較少)n重碼少重碼少n容量大容量大(可輸入的漢字字?jǐn)?shù)多可輸入的漢字字?jǐn)?shù)多)25選講:選講: 條形碼條形碼定位標(biāo)志定位標(biāo)志數(shù)據(jù)區(qū)數(shù)據(jù)區(qū) 一維條形碼將寬度不等的黑條和白一維條形碼將寬度不等的黑條和白條按一

22、定的編碼規(guī)則排列成平行線條按一定的編碼規(guī)則排列成平行線圖案,用以對(duì)物品進(jìn)行標(biāo)識(shí)圖案,用以對(duì)物品進(jìn)行標(biāo)識(shí)只在一個(gè)方向表達(dá)信息,信息量有只在一個(gè)方向表達(dá)信息,信息量有限(幾十個(gè)字符),只能包含字母、限(幾十個(gè)字符),只能包含字母、數(shù)字和一些特殊符號(hào)數(shù)字和一些特殊符號(hào) 二維條形碼在平面(二維方向)上以黑白相二維條形碼在平面(二維方向)上以黑白相間的圖形記錄文字和符號(hào)信息,信息容量大間的圖形記錄文字和符號(hào)信息,信息容量大QR條碼可容納條碼可容納7089個(gè)數(shù)字,或者個(gè)數(shù)字,或者4296個(gè)字母,個(gè)字母,或者或者1800個(gè)漢字,也可以表示簽字、指紋等信個(gè)漢字,也可以表示簽字、指紋等信息息檢錯(cuò)和糾錯(cuò)功能較強(qiáng),

23、能檢錯(cuò)和糾錯(cuò)功能較強(qiáng),能360度全方位識(shí)讀,度全方位識(shí)讀,可靠性高可靠性高可引入加密技術(shù),保密性、防偽性較好可引入加密技術(shù),保密性、防偽性較好(QR條碼)條碼)(商品條碼)(商品條碼)26二維碼二維碼n讀出的二維碼內(nèi)容(未解密):讀出的二維碼內(nèi)容(未解密):26002368148441302797438079124664621546716443694999477227981010994320000000000000000000005389762880538976288053897628805389762880538976288142800027選講:選講: 常用自動(dòng)識(shí)別輸入技術(shù)的比較常用自動(dòng)識(shí)

24、別輸入技術(shù)的比較 一維一維條形碼條形碼二維二維條形碼條形碼磁卡磁卡接觸式接觸式IC卡卡非接觸式非接觸式IC卡卡/RFID信息量信息量小小較小較小較小較小大大大大讀讀/寫寫只讀只讀只讀只讀可讀可讀/可寫可寫可讀可讀/可寫可寫可讀可讀/可寫可寫標(biāo)識(shí)標(biāo)識(shí)成本成本很低很低低低較低較低中等中等較低較低識(shí)讀識(shí)讀成本成本低低低低較低較低中等中等中等中等優(yōu)點(diǎn)優(yōu)點(diǎn)成本低,抗成本低,抗磁力抗靜電磁力抗靜電成本低,成本低,抗磁力抗抗磁力抗靜電靜電成本較低成本較低,可讀寫可讀寫成本適中,可成本適中,可讀寫,安全讀寫,安全信息量大,可讀信息量大,可讀寫,安全方便寫,安全方便缺點(diǎn)缺點(diǎn)信息量小信息量小信息量信息量較小較小安

25、全性安全性一般一般需接觸式識(shí)讀需接觸式識(shí)讀成本較高成本較高285.1.4 文本的編輯與排版文本的編輯與排版29復(fù)習(xí):使用復(fù)習(xí):使用Word的操作流程的操作流程創(chuàng)建新文檔或打開老文檔創(chuàng)建新文檔或打開老文檔文稿輸入文稿輸入編輯編輯排版排版文檔存盤、打印或發(fā)送文檔存盤、打印或發(fā)送輸入中西文字、符號(hào)輸入中西文字、符號(hào)和圖、表和圖、表進(jìn)行增、刪、改操作,保進(jìn)行增、刪、改操作,保證文本的正確性證文本的正確性滿足清晰、美觀、便滿足清晰、美觀、便于使用等要求于使用等要求30n 目的:確保文本內(nèi)容正確無誤目的:確保文本內(nèi)容正確無誤n 操作:對(duì)字、詞、句和段落進(jìn)行添加、刪除、修操作:對(duì)字、詞、句和段落進(jìn)行添加、刪

26、除、修改等操作改等操作n MS Word的功能:的功能:n在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字n從文本的任何位置都可以從文本的任何位置都可以刪除刪除不需要的文字不需要的文字n將一段文字從一處將一段文字從一處移動(dòng)移動(dòng)到另一處到另一處n將一段文字從一處將一段文字從一處復(fù)制復(fù)制到另一處到另一處n在文本中自動(dòng)在文本中自動(dòng)查找查找指定的詞語指定的詞語n用一個(gè)詞語自動(dòng)用一個(gè)詞語自動(dòng)替換替換文本中指定的詞語文本中指定的詞語文本編輯文本編輯(text editing)31n 目的:使文本清晰、美觀、目的:使文本清晰、美觀、便于閱讀便于閱讀n 操作內(nèi)容:對(duì)文本中的字操作內(nèi)容:對(duì)文

27、本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格式進(jìn)行設(shè)計(jì)和調(diào)整,分格式進(jìn)行設(shè)計(jì)和調(diào)整,分成成3個(gè)層次:個(gè)層次:n對(duì)字符格式進(jìn)行設(shè)置對(duì)字符格式進(jìn)行設(shè)置n對(duì)段落格式進(jìn)行設(shè)置對(duì)段落格式進(jìn)行設(shè)置n對(duì)文檔頁面進(jìn)行格式設(shè)置對(duì)文檔頁面進(jìn)行格式設(shè)置文本排版文本排版(Typesetting )32設(shè)置字符的格式設(shè)置字符的格式n 字號(hào)字號(hào)( (八號(hào)八號(hào) 初號(hào)初號(hào), 5磅磅72磅以上磅以上) ) 1 1磅相當(dāng)于磅相當(dāng)于1/721/72英寸英寸 n 字體字體( (宋體、宋體、楷體楷體、黑體黑體、仿宋仿宋、隸書隸書) )n 字符的修飾字符的修飾n 字符的形狀字符的形狀( (字形字形) ):正常、加粗、加粗、傾斜

28、、加粗傾斜加粗傾斜n 字形的修飾:字形的修飾:下劃線下劃線、著重號(hào)、上下標(biāo)、刪除線、著重號(hào)、上下標(biāo)、刪除線n 字符的顏色字符的顏色n 字符的寬度字符的寬度n 字符的間距字符的間距n 字符的效果字符的效果n 字符的排列方向字符的排列方向33n 什么是段落?用什么是段落?用“回車回車”相互隔開的一組文字相互隔開的一組文字n 段落格式的設(shè)置:段落格式的設(shè)置:n 段落的對(duì)齊方式段落的對(duì)齊方式( (兩端對(duì)齊、分散對(duì)齊、居中對(duì)齊、左對(duì)齊、兩端對(duì)齊、分散對(duì)齊、居中對(duì)齊、左對(duì)齊、右對(duì)齊右對(duì)齊)n 段落的縮進(jìn)方式段落的縮進(jìn)方式( (首行縮進(jìn)、懸掛縮進(jìn)、左縮進(jìn)、右縮進(jìn)首行縮進(jìn)、懸掛縮進(jìn)、左縮進(jìn)、右縮進(jìn))n 段間距

29、和段內(nèi)行距段間距和段內(nèi)行距n 使用編號(hào)和項(xiàng)目符號(hào)使用編號(hào)和項(xiàng)目符號(hào)n 段落段落添加邊框和底紋添加邊框和底紋n 首字下沉或懸掛首字下沉或懸掛n 段落與分頁的關(guān)系段落與分頁的關(guān)系設(shè)置段落的格式設(shè)置段落的格式34控制段落的縮進(jìn)控制段落的縮進(jìn)n 段落縮進(jìn)是指段落中的文本到正文區(qū)左、右邊界的距段落縮進(jìn)是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進(jìn)、右縮進(jìn)和首行縮進(jìn)。其縮進(jìn)的離,包括段落左縮進(jìn)、右縮進(jìn)和首行縮進(jìn)。其縮進(jìn)的距離可由水平標(biāo)尺上對(duì)應(yīng)的三個(gè)縮進(jìn)標(biāo)記來指示距離可由水平標(biāo)尺上對(duì)應(yīng)的三個(gè)縮進(jìn)標(biāo)記來指示左縮進(jìn)標(biāo)記左縮進(jìn)標(biāo)記首行縮進(jìn)標(biāo)記首行縮進(jìn)標(biāo)記右縮進(jìn)標(biāo)記右縮進(jìn)標(biāo)記右縮進(jìn)右縮進(jìn)左縮進(jìn)左縮進(jìn)首行縮

30、進(jìn)首行縮進(jìn)正文區(qū)正文區(qū)右邊界右邊界正文區(qū)正文區(qū)左邊界左邊界懸掛縮進(jìn)懸掛縮進(jìn)標(biāo)標(biāo)記記35n頁面格式的設(shè)置:頁面格式的設(shè)置:n設(shè)置紙張大小和頁邊距設(shè)置紙張大小和頁邊距n設(shè)置每頁的行、列數(shù)目設(shè)置每頁的行、列數(shù)目n設(shè)置分欄數(shù)目與格式設(shè)置分欄數(shù)目與格式n設(shè)置頁碼設(shè)置頁碼n設(shè)置頁眉和頁腳設(shè)置頁眉和頁腳 設(shè)置頁面的格式設(shè)置頁面的格式36設(shè)置頁面的分欄設(shè)置頁面的分欄37n “所見即所得所見即所得”(操作效果屏幕立即可見,打印結(jié)果與操作效果屏幕立即可見,打印結(jié)果與屏幕所見完全相同)屏幕所見完全相同)n 撤銷撤銷(undo)和恢復(fù)和恢復(fù)(redo)操作操作n 格式刷格式刷n 多種視圖多種視圖(大綱視圖與大綱編輯大

31、綱視圖與大綱編輯)n 自動(dòng)更正、自動(dòng)套用格式、自動(dòng)編號(hào)、自動(dòng)圖文自動(dòng)更正、自動(dòng)套用格式、自動(dòng)編號(hào)、自動(dòng)圖文集集 n 自動(dòng)保存功能和自動(dòng)備份功能自動(dòng)保存功能和自動(dòng)備份功能n 樣式、模板和向?qū)邮?、模板和向?qū)?wizard)功能功能n 宏操作(宏操作(Macro)提高提高Word操作效率的若干措施操作效率的若干措施38文本處理初步文本處理初步39n使用計(jì)算機(jī)對(duì)文本中的字、詞、短語、句子、篇章進(jìn)行識(shí)別、轉(zhuǎn)換、使用計(jì)算機(jī)對(duì)文本中的字、詞、短語、句子、篇章進(jìn)行識(shí)別、轉(zhuǎn)換、分析、理解、壓縮、加密和檢索等有關(guān)的處理分析、理解、壓縮、加密和檢索等有關(guān)的處理n文本處理舉例:文本處理舉例:n字?jǐn)?shù)統(tǒng)計(jì),詞頻統(tǒng)計(jì),簡

32、字?jǐn)?shù)統(tǒng)計(jì),詞頻統(tǒng)計(jì),簡/ /繁體相互轉(zhuǎn)換,漢字繁體相互轉(zhuǎn)換,漢字/ /拼音相互轉(zhuǎn)換拼音相互轉(zhuǎn)換n詞語排序,詞語錯(cuò)誤檢測(cè),文句語法檢查詞語排序,詞語錯(cuò)誤檢測(cè),文句語法檢查n自動(dòng)分詞,詞性標(biāo)注,詞義辨識(shí),大陸自動(dòng)分詞,詞性標(biāo)注,詞義辨識(shí),大陸/ /臺(tái)灣術(shù)語轉(zhuǎn)換臺(tái)灣術(shù)語轉(zhuǎn)換n關(guān)鍵詞提取,文摘自動(dòng)生成,文本分類關(guān)鍵詞提取,文摘自動(dòng)生成,文本分類n文本檢索(關(guān)鍵詞檢索、全文檢索),文本過濾文本檢索(關(guān)鍵詞檢索、全文檢索),文本過濾n文語轉(zhuǎn)換(語音合成)文語轉(zhuǎn)換(語音合成)n文種轉(zhuǎn)換(機(jī)器翻譯)文種轉(zhuǎn)換(機(jī)器翻譯)n篇章理解,自動(dòng)問答,自動(dòng)寫作等篇章理解,自動(dòng)問答,自動(dòng)寫作等n文本壓縮,文本加密,文本著作

33、權(quán)保護(hù)文本壓縮,文本加密,文本著作權(quán)保護(hù)選講:選講: 什么是文本處理什么是文本處理?40例:例:MS Word 的文本處理功能的文本處理功能n 英文拼寫檢查和英文拼寫檢查和英語同義詞檢查英語同義詞檢查n 字?jǐn)?shù)統(tǒng)計(jì)字?jǐn)?shù)統(tǒng)計(jì)n 自動(dòng)編寫摘要自動(dòng)編寫摘要n 中文簡繁體轉(zhuǎn)換和術(shù)語轉(zhuǎn)換中文簡繁體轉(zhuǎn)換和術(shù)語轉(zhuǎn)換n 中英詞語翻譯中英詞語翻譯n 語法和格式檢查語法和格式檢查n 語音識(shí)別(口授命令和聽寫)語音識(shí)別(口授命令和聽寫)n 文檔保護(hù)文檔保護(hù)(防止打開或修改文檔防止打開或修改文檔)415.1.3 文本的分類文本的分類42簡單文本簡單文本(純文本純文本 ) 本本 書書 由由 南南 京京 大大 學(xué)學(xué) 出出

34、版版 社社 ( P u b l i s h i n g H o u s e o f N a n j i n g U n i v e r s i t y ) 出出 版版 文文本本 沒有字體、字號(hào)的變化,無圖片和表格,也不能建立超鏈接,其沒有字體、字號(hào)的變化,無圖片和表格,也不能建立超鏈接,其文件后綴名是文件后綴名是 .txt 在計(jì)算機(jī)中在計(jì)算機(jī)中.txt文件由一串字符代碼所組成,幾乎不包含任何其他文件由一串字符代碼所組成,幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息的格式信息和結(jié)構(gòu)信息例:例:本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing Univer

35、sity)(Publishing House of Nanjing University)出版出版文文本本在在計(jì)計(jì)算算機(jī)機(jī)中中的的表表示示 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 43豐富格式文本豐富格式文本本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Pub

36、lishing House of Nanjing University)出版出版 有字體字號(hào)等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為有字體字號(hào)等屬性變化、設(shè)置了段落和頁面排版格式的文本稱為“豐富豐富格式文本格式文本” 豐富格式文本中,除了正文內(nèi)容之外,還使用了許多豐富格式文本中,除了正文內(nèi)容之外,還使用了許多“標(biāo)記標(biāo)記”來描述字來描述字符的屬性和格式的設(shè)置符的屬性和格式的設(shè)置 舉例:下面標(biāo)題的格式為:中文用黑體,西文用舉例:下面標(biāo)題的格式為:中文用黑體,西文用Arial Black體,居中體,居中 使用使用HTML語言描述為:語言描述為: 本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Pub

37、lishing House of Nanjing University)出版出版用一對(duì)用一對(duì)指出的是標(biāo)記,如指出的是標(biāo)記,如 和和 等,用于說明排版的格式和文字屬性,它等,用于說明排版的格式和文字屬性,它們不屬于正文內(nèi)容們不屬于正文內(nèi)容正文內(nèi)容正文內(nèi)容44超文本(超文本(www網(wǎng)頁)網(wǎng)頁)n WWW網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)頁就是典型的網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)頁就是典型的 “超文本超文本”n 超文本也屬于豐富格式文本超文本也屬于豐富格式文本網(wǎng)頁網(wǎng)頁A網(wǎng)頁網(wǎng)頁B網(wǎng)頁網(wǎng)頁C網(wǎng)頁網(wǎng)頁D網(wǎng)頁網(wǎng)頁E網(wǎng)頁網(wǎng)頁F網(wǎng)頁網(wǎng)頁G網(wǎng)頁網(wǎng)頁Ha1 a2b2c2 f1d1c1 b1e1g1h1

38、a3“超鏈超鏈”實(shí)際上就是一個(gè)實(shí)際上就是一個(gè)指針,用于指向其他網(wǎng)頁,指針,用于指向其他網(wǎng)頁,也可以指向同一網(wǎng)頁中的也可以指向同一網(wǎng)頁中的其他部分其他部分 超鏈?zhǔn)怯邢虻?,起點(diǎn)位置稱為超鏈?zhǔn)怯邢虻?,起點(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個(gè)鏈源,它可以是網(wǎng)頁中的一個(gè)標(biāo)題、一句句子、一個(gè)關(guān)鍵詞、標(biāo)題、一句句子、一個(gè)關(guān)鍵詞、一幅畫、一個(gè)圖標(biāo)等一幅畫、一個(gè)圖標(biāo)等45小結(jié):文本的分類小結(jié):文本的分類文本文本類型類型 特點(diǎn)特點(diǎn) 在計(jì)算機(jī)內(nèi)的表示在計(jì)算機(jī)內(nèi)的表示 文件文件擴(kuò)展名擴(kuò)展名 用途用途簡單簡單文本文本沒有字體、字號(hào)和版沒有字體、字號(hào)和版面格式的變化,文本面格式的變化,文本在頁面上逐行排列,在頁面上逐行排列,也不含圖片和表格也不含圖片和表格由一連串與正文內(nèi)容對(duì)應(yīng)由一連串與正文內(nèi)容對(duì)應(yīng)的字符的編碼所組成,幾的字符的編碼所組成,幾乎不包含任何其他的格式乎不包含任何其他的格式信息和結(jié)構(gòu)信息信息和結(jié)構(gòu)信息.txt網(wǎng)上聊天網(wǎng)上聊天短信短信文字錄入文字錄入OCR輸入輸入豐富豐富格式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論