版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、任務(wù)任務(wù)2 了解文本媒體的編碼方式了解文本媒體的編碼方式 5.2.1 文本媒體的分類和表示文本媒體的分類和表示 5.2.2 常用的編碼方式常用的編碼方式 5.2.3 文本的編輯和處理文本的編輯和處理 文本媒體的分類和表示文本媒體的分類和表示 文字是一種書面語言,它由一系列字符組文字是一種書面語言,它由一系列字符組成,包含中文和西文。成,包含中文和西文。文字信息在計(jì)算機(jī)中稱為文字信息在計(jì)算機(jī)中稱為“文本文本”,它是,它是計(jì)算機(jī)中最常用的一種數(shù)字媒體,在計(jì)算計(jì)算機(jī)中最常用的一種數(shù)字媒體,在計(jì)算機(jī)中采用二進(jìn)制編碼表示。機(jī)中采用二進(jìn)制編碼表示。文本的分類文本的分類 根據(jù)它們是否具有排版格式,文本可分為
2、簡(jiǎn)單文本、根據(jù)它們是否具有排版格式,文本可分為簡(jiǎn)單文本、豐富格式文本和超文本三大類。豐富格式文本和超文本三大類。l(1)簡(jiǎn)單文本)簡(jiǎn)單文本簡(jiǎn)單文本又稱為純文本,是由一連串字符或漢字的編簡(jiǎn)單文本又稱為純文本,是由一連串字符或漢字的編碼組成,它幾乎不包含任何其他的格式信息和結(jié)構(gòu)信碼組成,它幾乎不包含任何其他的格式信息和結(jié)構(gòu)信息,其文件后綴名是息,其文件后綴名是.txt。Windows附件中的記事附件中的記事本程序所編輯處理的文本就是簡(jiǎn)單文本。本程序所編輯處理的文本就是簡(jiǎn)單文本。簡(jiǎn)單文本簡(jiǎn)單文本(純文本純文本 ) 本本 書書 由由 南南 京京 大大 學(xué)學(xué) 出出 版版 社社 ( P u b l i s
3、 h i n g H o u s e o f N a n j i n g U n i v e r s i t y ) 出出 版版 文文本本例:例:本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版文文本本在在計(jì)計(jì)算算機(jī)機(jī)中中的的表表示示 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 20 48 6F
4、75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的分類文本的分類(2)豐富格式文本)豐富格式文本l在日常生活中,為了文本能美觀、醒目的展現(xiàn)給用戶,在日常生活中,為了文本能美觀、醒目的展現(xiàn)給用戶,人們通常需要對(duì)純文本進(jìn)行加工、排版,這樣的文本人們通常需要對(duì)純文本進(jìn)行加工、排版,這樣的文本就是就是“豐富格式文本豐富格式文本”,如微軟公司的,如微軟公司的Word軟件所軟件所處理的處理的DOC文件、文件、Adobe公司的公司的Acrobat軟件所處軟件所處理的理的PD
5、F文件等。文件等。l在豐富格式文本中,除正文之外,還有許多用來說明在豐富格式文本中,除正文之外,還有許多用來說明文本的版面結(jié)構(gòu)、內(nèi)容組織、文字屬性的信息,這些文本的版面結(jié)構(gòu)、內(nèi)容組織、文字屬性的信息,這些信息被稱為信息被稱為“標(biāo)記標(biāo)記”,這些標(biāo)記及其使用規(guī)則被稱為,這些標(biāo)記及其使用規(guī)則被稱為“標(biāo)記語言標(biāo)記語言”。不同的軟件使用的標(biāo)記語言并不相同,。不同的軟件使用的標(biāo)記語言并不相同,相互之間不一定兼容。為了便于豐富格式文本在不同相互之間不一定兼容。為了便于豐富格式文本在不同的軟件和系統(tǒng)中互換使用,一些公司還聯(lián)合提出了一的軟件和系統(tǒng)中互換使用,一些公司還聯(lián)合提出了一種公用的中間格式,稱為種公用的中
6、間格式,稱為RTF格式。格式。豐富格式文本豐富格式文本本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版舉例:下面標(biāo)題的格式為:中文用黑體,西文用舉例:下面標(biāo)題的格式為:中文用黑體,西文用Arial Black體,居中體,居中 使用使用HTML語言描述為:語言描述為: 本書由南京大學(xué)出版社本書由南京大學(xué)出版社(Publishing House of Nanjing University)出版出版用一對(duì)用一對(duì)指出的是標(biāo)記,如指出的是標(biāo)記,如
7、 和和 等,用于說明排版的格式和文字屬性,它等,用于說明排版的格式和文字屬性,它們不屬于正文內(nèi)容們不屬于正文內(nèi)容正文內(nèi)容正文內(nèi)容文本的分類文本的分類超文本超文本:它是用超鏈接的方法,將各種不同空間它是用超鏈接的方法,將各種不同空間的文字信息組織在一起的網(wǎng)狀文本。的文字信息組織在一起的網(wǎng)狀文本。超鏈接是有向的,起點(diǎn)位置稱為鏈源,它可以是超鏈接是有向的,起點(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個(gè)標(biāo)題、一個(gè)句子、一副畫等;目的網(wǎng)頁中的一個(gè)標(biāo)題、一個(gè)句子、一副畫等;目的地稱為鏈宿,它可以是另一個(gè)網(wǎng)頁(在本網(wǎng)站或地稱為鏈宿,它可以是另一個(gè)網(wǎng)頁(在本網(wǎng)站或其他網(wǎng)站中),也可以是同一個(gè)網(wǎng)頁中的其他部其他網(wǎng)站中)
8、,也可以是同一個(gè)網(wǎng)頁中的其他部分。分。超文本的格式有很多,目前最常使用的是超文本超文本的格式有很多,目前最常使用的是超文本標(biāo)記語言標(biāo)記語言(Hyper Text Markup Language,HTML) 及豐富文本格式及豐富文本格式(Rich Text Format,RTF)。超文本(超文本(www網(wǎng)頁)網(wǎng)頁)WWW網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)網(wǎng)頁按照其內(nèi)容的關(guān)聯(lián)性相互進(jìn)行鏈接,網(wǎng)頁就是典型的頁就是典型的 “超文本超文本”超文本也屬于豐富格式文本超文本也屬于豐富格式文本網(wǎng)頁網(wǎng)頁A網(wǎng)頁網(wǎng)頁B網(wǎng)頁網(wǎng)頁C網(wǎng)頁網(wǎng)頁D網(wǎng)頁網(wǎng)頁E網(wǎng)頁網(wǎng)頁F網(wǎng)頁網(wǎng)頁G網(wǎng)頁網(wǎng)頁Ha1 a2b2c2 f1d1c1
9、b1e1g1h1a3“超鏈超鏈”實(shí)際上就是一個(gè)實(shí)際上就是一個(gè)指針,用于指向其他網(wǎng)頁,指針,用于指向其他網(wǎng)頁,也可以指向同一網(wǎng)頁中的也可以指向同一網(wǎng)頁中的其他部分其他部分 超鏈?zhǔn)怯邢虻?,起點(diǎn)位置稱為超鏈?zhǔn)怯邢虻?,起點(diǎn)位置稱為鏈源,它可以是網(wǎng)頁中的一個(gè)鏈源,它可以是網(wǎng)頁中的一個(gè)標(biāo)題、一句句子、一個(gè)關(guān)鍵詞、標(biāo)題、一句句子、一個(gè)關(guān)鍵詞、一幅畫、一個(gè)圖標(biāo)等一幅畫、一個(gè)圖標(biāo)等小結(jié):文本的分類小結(jié):文本的分類文本文本類型類型 特點(diǎn)特點(diǎn) 在計(jì)算機(jī)內(nèi)的表示在計(jì)算機(jī)內(nèi)的表示 文件文件擴(kuò)展名擴(kuò)展名 用途用途簡(jiǎn)單簡(jiǎn)單文本文本沒有字體、字號(hào)和版沒有字體、字號(hào)和版面格式的變化,文本面格式的變化,文本在頁面上逐行排列,在頁
10、面上逐行排列,也不含圖片和表格也不含圖片和表格由一連串與正文內(nèi)容對(duì)應(yīng)由一連串與正文內(nèi)容對(duì)應(yīng)的字符的編碼所組成,幾的字符的編碼所組成,幾乎不包含任何其他的格式乎不包含任何其他的格式信息和結(jié)構(gòu)信息信息和結(jié)構(gòu)信息.txt網(wǎng)上聊天網(wǎng)上聊天短信短信文字錄入文字錄入OCR輸入輸入豐富豐富格式格式文本文本(線性線性文本文本)有字體、字號(hào)、顏色有字體、字號(hào)、顏色等變化,文本在頁面等變化,文本在頁面上可以自由定位和布上可以自由定位和布局,還可插入圖片和局,還可插入圖片和表格表格除了與正文對(duì)應(yīng)的字符編除了與正文對(duì)應(yīng)的字符編碼之外,還使用某種碼之外,還使用某種“標(biāo)標(biāo)記語言記語言”所規(guī)定的一些標(biāo)所規(guī)定的一些標(biāo)記來說明
11、該文本的文字屬記來說明該文本的文字屬性和排版格式等性和排版格式等.doc.rtf.htm.html.pdf公文公文論文論文書稿書稿網(wǎng)頁網(wǎng)頁豐富豐富格式格式文本文本(超文超文本本)除上述特征外,文本除上述特征外,文本中還含有超鏈,使文中還含有超鏈,使文本呈現(xiàn)為一種網(wǎng)狀結(jié)本呈現(xiàn)為一種網(wǎng)狀結(jié)構(gòu)構(gòu)同上,但還應(yīng)包含用于指同上,但還應(yīng)包含用于指出出“鏈源鏈源”和和“鏈宿鏈宿”的的標(biāo)記標(biāo)記.doc.rtf.htm.html.pdf.hlp同上,以同上,以及軟件的及軟件的聯(lián)機(jī)文檔聯(lián)機(jī)文檔(幫助文件幫助文件)文本的輸入文本的輸入 使用計(jì)算機(jī)制作文本,首先要向計(jì)算機(jī)輸入該文使用計(jì)算機(jī)制作文本,首先要向計(jì)算機(jī)輸入該
12、文本所包含的字符信息。本所包含的字符信息。l人工輸入人工輸入 即通過鍵盤完成信息輸入,某些場(chǎng)合也會(huì)使用語音輸即通過鍵盤完成信息輸入,某些場(chǎng)合也會(huì)使用語音輸入和聯(lián)機(jī)手寫輸入等方法。入和聯(lián)機(jī)手寫輸入等方法。人工輸入速度慢、成本高、使用方便。人工輸入速度慢、成本高、使用方便。l印刷體自動(dòng)識(shí)別技術(shù)印刷體自動(dòng)識(shí)別技術(shù) 該技術(shù)是將紙介質(zhì)上的文本通過識(shí)別技術(shù)自動(dòng)轉(zhuǎn)換為該技術(shù)是將紙介質(zhì)上的文本通過識(shí)別技術(shù)自動(dòng)轉(zhuǎn)換為文字的編碼。文字的編碼。這種輸入方式速度快、效率高,通常應(yīng)用于需要大批這種輸入方式速度快、效率高,通常應(yīng)用于需要大批量輸入文字資料的檔案管理、圖書情報(bào)等應(yīng)用領(lǐng)域。量輸入文字資料的檔案管理、圖書情報(bào)等
13、應(yīng)用領(lǐng)域。文字符號(hào)輸入計(jì)算機(jī)的方法文字符號(hào)輸入計(jì)算機(jī)的方法印刷體識(shí)別印刷體識(shí)別手寫體識(shí)別手寫體識(shí)別鍵盤輸入鍵盤輸入聯(lián)機(jī)手寫輸入聯(lián)機(jī)手寫輸入語音輸入語音輸入自動(dòng)識(shí)別輸入自動(dòng)識(shí)別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入 技術(shù)上非常困難,還無法實(shí)用技術(shù)上非常困難,還無法實(shí)用目前準(zhǔn)備先突破工整的楷書手寫體的識(shí)別目前準(zhǔn)備先突破工整的楷書手寫體的識(shí)別!漢字的鍵盤輸入漢字的鍵盤輸入 漢字與鍵盤上的鍵無法一一對(duì)應(yīng),因此漢字與鍵盤上的鍵無法一一對(duì)應(yīng),因此必須使用幾個(gè)鍵來表示一個(gè)漢字,這就稱必須使用幾個(gè)鍵來表示一個(gè)漢字,這就稱為漢字的為漢字的“鍵盤輸入編碼鍵盤輸入編碼” 優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn)
14、:優(yōu)秀的漢字鍵盤輸入編碼應(yīng)具有的特點(diǎn):l易學(xué)習(xí)、易記憶易學(xué)習(xí)、易記憶l效率高效率高(平均擊鍵次數(shù)較少平均擊鍵次數(shù)較少)l重碼少重碼少l容量大容量大(可輸入的漢字字?jǐn)?shù)多可輸入的漢字字?jǐn)?shù)多)漢字鍵盤輸入方法的比較漢字鍵盤輸入方法的比較類型類型原理原理舉例舉例優(yōu)點(diǎn)優(yōu)點(diǎn)缺點(diǎn)缺點(diǎn)數(shù)字?jǐn)?shù)字編碼編碼使用一串?dāng)?shù)字來表示使用一串?dāng)?shù)字來表示漢字漢字電報(bào)碼電報(bào)碼區(qū)位碼區(qū)位碼僅使用僅使用10個(gè)數(shù)個(gè)數(shù)字鍵字鍵難記憶難記憶字音字音編碼編碼把漢語的拼音作為漢把漢語的拼音作為漢字的輸入編碼字的輸入編碼智能智能ABC紫光華宇紫光華宇微軟拼音輸入微軟拼音輸入簡(jiǎn)單易學(xué),適簡(jiǎn)單易學(xué),適合于非專業(yè)人合于非專業(yè)人員員重碼多,需增加選擇重
15、碼多,需增加選擇操作,不會(huì)漢語拼音操作,不會(huì)漢語拼音或不知道讀音時(shí)無法或不知道讀音時(shí)無法使用使用字形字形編碼編碼把漢字的部件或筆畫把漢字的部件或筆畫作為碼元,按照漢字作為碼元,按照漢字結(jié)構(gòu)及其切分規(guī)則作結(jié)構(gòu)及其切分規(guī)則作為編碼依據(jù),確定每為編碼依據(jù),確定每個(gè)漢字的輸入代碼個(gè)漢字的輸入代碼五筆字形五筆字形表形碼表形碼鄭碼鄭碼重碼少、輸入重碼少、輸入速度較快,適速度較快,適合于專業(yè)錄入合于專業(yè)錄入員、打字員使員、打字員使用用缺乏統(tǒng)一的規(guī)范,編缺乏統(tǒng)一的規(guī)范,編碼規(guī)則不易掌握碼規(guī)則不易掌握音形音形編碼編碼(或形音或形音編碼編碼)采用字音及字形兩種采用字音及字形兩種屬性作為碼元的漢字屬性作為碼元的漢字
16、編碼輸入方法編碼輸入方法粵音輸入法粵音輸入法同上同上同時(shí)要掌握音、形兩同時(shí)要掌握音、形兩種取碼方法或規(guī)則,種取碼方法或規(guī)則,對(duì)普通用戶比較困難對(duì)普通用戶比較困難文本的輸出文本的輸出 文本的輸出通常分為打印輸出和屏幕輸出。文本的輸出通常分為打印輸出和屏幕輸出。由于存放在計(jì)算機(jī)存儲(chǔ)器中的文本是數(shù)字由于存放在計(jì)算機(jī)存儲(chǔ)器中的文本是數(shù)字形式的、不可見的,因此,無論是打印還形式的、不可見的,因此,無論是打印還是屏幕顯示,它們都需要專門的軟件進(jìn)行是屏幕顯示,它們都需要專門的軟件進(jìn)行文本格式的翻譯和顯示。文本格式的翻譯和顯示。承擔(dān)文本輸出任務(wù)的軟件稱為閱讀器或?yàn)g承擔(dān)文本輸出任務(wù)的軟件稱為閱讀器或?yàn)g覽器,如微
17、軟的覽器,如微軟的Word、IE瀏覽器,瀏覽器,Adobe公司的公司的Adobe Reader等。等。輸出過程中字形的生成輸出過程中字形的生成 過程:過程:l先根據(jù)字符的字體確定相應(yīng)的字庫(先根據(jù)字符的字體確定相應(yīng)的字庫(font),),l再按照該字符的代碼從字庫中取出該字符的形狀描述再按照該字符的代碼從字庫中取出該字符的形狀描述信息信息l然后按形狀描述信息生成字形,并按照字號(hào)大小及有然后按形狀描述信息生成字形,并按照字號(hào)大小及有關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換關(guān)屬性(粗體、斜體、下橫線)將字形作必要的變換l最后將變換得到的字形放置在頁面的指定位置處最后將變換得到的字形放置在頁面
18、的指定位置處2種不同的字庫:種不同的字庫:點(diǎn)陣點(diǎn)陣描述描述輪廓輪廓描述描述輪廓點(diǎn)輪廓點(diǎn)直線直線二次曲線二次曲線西文字符的編碼西文字符的編碼 西文字符是由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號(hào)西文字符是由拉丁字母、數(shù)字、標(biāo)點(diǎn)符號(hào)及一些特殊符號(hào)組成及一些特殊符號(hào)組成目前在計(jì)算機(jī)中使用最廣泛的是標(biāo)準(zhǔn)目前在計(jì)算機(jī)中使用最廣泛的是標(biāo)準(zhǔn)ASCII字符集及其編碼。字符集及其編碼。ASCII碼又稱為美國(guó)標(biāo)準(zhǔn)信息交換碼,國(guó)碼又稱為美國(guó)標(biāo)準(zhǔn)信息交換碼,國(guó)際上通用的是際上通用的是7位二進(jìn)制數(shù)版本,共位二進(jìn)制數(shù)版本,共128個(gè)元素。個(gè)元素。西文字符的編碼西文字符的編碼 012345670 1 2 3 4 5 6 7 8 9 A B
19、 C D E Fb6b5b4b3b2b1b0 標(biāo)準(zhǔn)ASCII字符集及其編碼32個(gè)控制字符,不可打印空格通常一個(gè)通常一個(gè)ASCII碼值占一個(gè)字節(jié)(碼值占一個(gè)字節(jié)(8個(gè)二進(jìn)制位個(gè)二進(jìn)制位),每個(gè)字節(jié),每個(gè)字節(jié)中多余出來的一位(最高位)可設(shè)為中多余出來的一位(最高位)可設(shè)為“0”,用作數(shù)據(jù)傳輸時(shí),用作數(shù)據(jù)傳輸時(shí)的奇偶校驗(yàn)。的奇偶校驗(yàn)。漢字的編碼漢字的編碼 漢字的歷史源遠(yuǎn)流長(zhǎng),世界四分之一的人漢字的歷史源遠(yuǎn)流長(zhǎng),世界四分之一的人口使用漢字,漢語被聯(lián)合國(guó)列為法定六種口使用漢字,漢語被聯(lián)合國(guó)列為法定六種正式語言和工作語言之一。正式語言和工作語言之一。中文文本的基本組成單位是漢字,漢字?jǐn)?shù)中文文本的基本組成單
20、位是漢字,漢字?jǐn)?shù)量大,同音、異體字多,它們?cè)谟?jì)算機(jī)內(nèi)量大,同音、異體字多,它們?cè)谟?jì)算機(jī)內(nèi)部的表示與處理則是一個(gè)非常重要的問題。部的表示與處理則是一個(gè)非常重要的問題。常用的漢字編碼字符集常用的漢字編碼字符集國(guó)家標(biāo)準(zhǔn)國(guó)家標(biāo)準(zhǔn)GB2312-1980漢字?jǐn)U充規(guī)范漢字?jǐn)U充規(guī)范 GBK (已被已被GB 18030取代取代)國(guó)家標(biāo)準(zhǔn)國(guó)家標(biāo)準(zhǔn)GB18030-2005港澳臺(tái)使用的漢字編碼字符集港澳臺(tái)使用的漢字編碼字符集CNS 11643 (BIG 5,俗稱,俗稱“大五碼大五碼”)UCS/Unicode多文種大字符集多文種大字符集lUnicode的的UTF-8lUnicode的的UTF-16GB2312漢字編碼漢
21、字編碼 GB2312漢字編碼是我國(guó)在漢字編碼是我國(guó)在1981年頒布的第一個(gè)年頒布的第一個(gè)國(guó)家標(biāo)準(zhǔn)國(guó)家標(biāo)準(zhǔn)在該標(biāo)準(zhǔn)中有在該標(biāo)準(zhǔn)中有3755個(gè)一級(jí)常用漢字(按漢語拼音個(gè)一級(jí)常用漢字(按漢語拼音排列)、排列)、3008個(gè)二級(jí)常用漢字(按偏旁部首排列)個(gè)二級(jí)常用漢字(按偏旁部首排列)和和682個(gè)非漢字字符。個(gè)非漢字字符。一級(jí)漢字一級(jí)漢字(3755個(gè))個(gè))二級(jí)漢字二級(jí)漢字(3008個(gè))個(gè))(擴(kuò)充使用)(擴(kuò)充使用)字母、數(shù)字和各種符號(hào)字母、數(shù)字和各種符號(hào) 19423位號(hào)位號(hào) 191655568794區(qū)區(qū) 號(hào)號(hào)(按漢語拼音排列按漢語拼音排列)(按偏旁部首排列按偏旁部首排列)共共6763個(gè)漢字和個(gè)漢字和682
22、個(gè)符號(hào),個(gè)符號(hào),每個(gè)每個(gè)漢字和符號(hào)都有一漢字和符號(hào)都有一個(gè)確定位置個(gè)確定位置拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名與片假名、名與片假名、希臘字母、漢希臘字母、漢語拼音等共語拼音等共682個(gè)個(gè)GB2312漢字編碼漢字編碼GB2312的所有字符分布在一個(gè)的所有字符分布在一個(gè)94行行94列的列的二維平面內(nèi),行號(hào)稱為區(qū)號(hào),列號(hào)稱為位號(hào),各二維平面內(nèi),行號(hào)稱為區(qū)號(hào),列號(hào)稱為位號(hào),各用兩位十進(jìn)制數(shù)表示。用兩位十進(jìn)制數(shù)表示。在計(jì)算機(jī)內(nèi)部每個(gè)漢字采用在計(jì)算機(jī)內(nèi)部每個(gè)漢字采用2個(gè)字節(jié)來表示,并個(gè)字節(jié)來表示,并把每個(gè)字節(jié)的最高位均規(guī)定為把每個(gè)字節(jié)的最高位均規(guī)定為“1”。這種高位均。這種高位均為為“1”
23、的雙字節(jié)漢字編碼就稱為的雙字節(jié)漢字編碼就稱為GB2312漢字漢字的的“機(jī)內(nèi)碼機(jī)內(nèi)碼”,又稱為,又稱為“內(nèi)碼內(nèi)碼”。目前目前PC機(jī)中機(jī)中GB2312漢字不論用何種方法錄入,漢字不論用何種方法錄入,在機(jī)器內(nèi)部都統(tǒng)一用機(jī)內(nèi)碼表示。在機(jī)器內(nèi)部都統(tǒng)一用機(jī)內(nèi)碼表示。GB2312漢字的編碼漢字的編碼每一個(gè)每一個(gè)GB2312漢字使用漢字使用16位位(2個(gè)字個(gè)字節(jié)節(jié))表示表示為了與為了與ASCII字符相區(qū)別,每個(gè)字節(jié)的字符相區(qū)別,每個(gè)字節(jié)的最高位均為最高位均為“1”例如:例如:“南南”字的代碼是字的代碼是11000100 11001111(用十六進(jìn)制表示為(用十六進(jìn)制表示為C4CF) 11第第1字節(jié)字節(jié)第第2字
24、節(jié)字節(jié)X X X X X X XX X X X X X XGBK漢字漢字內(nèi)碼擴(kuò)充規(guī)范內(nèi)碼擴(kuò)充規(guī)范 GB2312的不足:的不足:l漢字字?jǐn)?shù)太少,缺少繁體字漢字字?jǐn)?shù)太少,缺少繁體字,無法滿足人名、地名、古籍無法滿足人名、地名、古籍整理、古典文獻(xiàn)研究等應(yīng)用的需要;與整理、古典文獻(xiàn)研究等應(yīng)用的需要;與ASCII碼不兼容碼不兼容GBK漢字漢字內(nèi)碼擴(kuò)充規(guī)范(內(nèi)碼擴(kuò)充規(guī)范(1995):):l在在GB2312基礎(chǔ)上,增加了基礎(chǔ)上,增加了1萬多漢字萬多漢字(包括繁體字包括繁體字)和符和符號(hào)號(hào)l共有共有21003個(gè)漢字和個(gè)漢字和883個(gè)圖形符號(hào),如個(gè)圖形符號(hào),如“計(jì)計(jì)算算機(jī)機(jī)”、冃冃、冄冄、円円、冇冇等繁體字和生
25、僻字等繁體字和生僻字 l與與GB8312保持向下兼容,也使用雙字節(jié)表示,第保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)字節(jié)最高位必須為最高位必須為“1”:1 X第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X XUCS/Unicode多文種大字符集多文種大字符集背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼背景:為了實(shí)現(xiàn)全球數(shù)以千計(jì)的不同語言文字的統(tǒng)一編碼方案:方案:ISO將全球所有文字字母和符號(hào)集中在一個(gè)字符集中進(jìn)行將全球所有文字字母和符號(hào)集中在一個(gè)字符集中進(jìn)行統(tǒng)一編碼統(tǒng)一編碼(目前共收集了目前共收集了17x2161,114,112 個(gè)個(gè)) ,稱為,稱為UCS/U
26、nicodeUCS/Unicode的編碼方案:的編碼方案:l先實(shí)現(xiàn)部分字符的編碼(近先實(shí)現(xiàn)部分字符的編碼(近11萬個(gè)字符)萬個(gè)字符)l盡量與已有編碼標(biāo)準(zhǔn)兼容盡量與已有編碼標(biāo)準(zhǔn)兼容l包含有中、日、韓統(tǒng)一整理出來的約包含有中、日、韓統(tǒng)一整理出來的約7萬漢字(稱萬漢字(稱CJK漢字)漢字)l允許有若干不同的編碼方案允許有若干不同的編碼方案, 常用的兩種是:常用的兩種是:?jiǎn)巫止?jié):?jiǎn)巫止?jié):ASCII字符字符雙字節(jié):拉丁、希臘、阿拉伯,雙字節(jié):拉丁、希臘、阿拉伯,三字節(jié):三字節(jié):CJK漢字漢字四字節(jié):其他四字節(jié):其他Unicode:UTF-8 單字節(jié)可變長(zhǎng)編碼單字節(jié)可變長(zhǎng)編碼應(yīng)用:應(yīng)用:Linux,Web
27、網(wǎng)頁,電子郵件網(wǎng)頁,電子郵件雙字節(jié):雙字節(jié): ASCII字符、拉丁、希臘、字符、拉丁、希臘、 阿阿 拉伯,常用拉伯,常用CJK漢字,漢字,四字節(jié):非常用四字節(jié):非常用CJK漢字漢字Unicode:UTF-16雙字節(jié)可變長(zhǎng)編碼雙字節(jié)可變長(zhǎng)編碼應(yīng)用:應(yīng)用:Windows,Mac,Java,GB18030漢字編碼標(biāo)準(zhǔn)漢字編碼標(biāo)準(zhǔn)背景:無論是背景:無論是Unicode的的UTF-8還是還是UTF-16,其,其CJK漢字字漢字字符集雖然覆蓋了我國(guó)已使用多年的符集雖然覆蓋了我國(guó)已使用多年的GB2312和和GBK標(biāo)準(zhǔn)中的漢字,標(biāo)準(zhǔn)中的漢字,但它們的但它們的編碼并不相同編碼并不相同為了既能與為了既能與UCS/
28、Unicode編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國(guó)已有的編碼標(biāo)準(zhǔn)接軌,又能保護(hù)我國(guó)已有的大量漢字信息資源,我國(guó)在大量漢字信息資源,我國(guó)在2000年和年和2005年兩次發(fā)布年兩次發(fā)布GB18030漢字編碼國(guó)家標(biāo)準(zhǔn)漢字編碼國(guó)家標(biāo)準(zhǔn)。GB18030實(shí)質(zhì)上是實(shí)質(zhì)上是UCS/Unicode字符集的另一種編碼方案:字符集的另一種編碼方案:l單字節(jié)編碼(單字節(jié)編碼(128個(gè))表示個(gè))表示ASCII字符字符l雙字節(jié)編碼(雙字節(jié)編碼(23940個(gè))表示漢字,與個(gè))表示漢字,與GBK(以及(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用l四字節(jié)編碼(約四字節(jié)編碼(約158萬個(gè))用于表示萬個(gè))用于表示
29、 UCS/Unicode中的其他字符中的其他字符GB18030目前已在我國(guó)信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。目前已在我國(guó)信息處理產(chǎn)品中強(qiáng)制貫徹執(zhí)行。 標(biāo)準(zhǔn)名稱標(biāo)準(zhǔn)名稱GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763個(gè)漢字個(gè)漢字(簡(jiǎn)體字簡(jiǎn)體字)21003個(gè)漢字個(gè)漢字(包括(包括GB2312漢字漢字在內(nèi))在內(nèi))近近3萬漢字萬漢字(包括包括GBK漢漢字和字和CJK及其及其擴(kuò)充中的漢字?jǐn)U充中的漢字)包含近包含近11萬字符,萬字符,其中的漢字與其中的漢字與GB18030相同相同編碼方法編碼方法雙字節(jié)存儲(chǔ)和雙字節(jié)存儲(chǔ)和表示,每個(gè)字表示,每個(gè)字節(jié)的最高位均節(jié)的最高位均為為“1” 雙
30、字節(jié)存儲(chǔ)和雙字節(jié)存儲(chǔ)和表示,第表示,第1個(gè)字個(gè)字節(jié)的最高位必節(jié)的最高位必為為“1”部分雙字節(jié)、部分雙字節(jié)、部分部分4字節(jié)表字節(jié)表示,雙字節(jié)表示,雙字節(jié)表示方案與示方案與GBK相同相同 UTF-8采用單字采用單字節(jié)可變長(zhǎng)編碼節(jié)可變長(zhǎng)編碼 UTF-16采用雙采用雙字節(jié)可變長(zhǎng)編碼字節(jié)可變長(zhǎng)編碼兼容性兼容性編碼編碼不兼容!不兼容!小結(jié):幾種漢字編碼的對(duì)比小結(jié):幾種漢字編碼的對(duì)比編碼保持向下兼容編碼保持向下兼容小結(jié):不同標(biāo)準(zhǔn),不同的表示!小結(jié):不同標(biāo)準(zhǔn),不同的表示!與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼與字符的編碼一樣,圖像、聲音、視頻等也分別有許多編碼標(biāo)準(zhǔn):國(guó)際標(biāo)準(zhǔn)標(biāo)準(zhǔn):國(guó)際標(biāo)準(zhǔn)(ISO
31、)、國(guó)家標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)(GB)、工業(yè)標(biāo)準(zhǔn)、企業(yè)、工業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。標(biāo)準(zhǔn)等,這也是信息處理復(fù)雜性的原因之一。n由于經(jīng)濟(jì)利益和政治體制等多種原因,相同的信息在計(jì)算機(jī)由于經(jīng)濟(jì)利益和政治體制等多種原因,相同的信息在計(jì)算機(jī)中可以有不同的表示,即采用不同的編碼進(jìn)行表示中可以有不同的表示,即采用不同的編碼進(jìn)行表示n例如:例如: “南京大學(xué)南京大學(xué)1234ABCD”的的3種表示:種表示:C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44E5 8D 97 E4 BA AC E5 A4 A7 E5 ADA6 31 32 33 34 4
32、1 42 43 4457 53 AC 4E 27 59 66 5B 31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00GBUTF-8UTF-16文本的編輯和處理文本的編輯和處理 1. 文本編輯和排版文本編輯和排版l在許多場(chǎng)合,為了實(shí)際需要,文本必須美觀、清晰,在許多場(chǎng)合,為了實(shí)際需要,文本必須美觀、清晰,所以需要對(duì)字、詞、段落進(jìn)行添加、刪除、修改、格所以需要對(duì)字、詞、段落進(jìn)行添加、刪除、修改、格式的設(shè)置等排版工作。式的設(shè)置等排版工作。l這些解決文本外觀的問題就是文本編輯的主要任務(wù)。這些解決文本外觀的問題就是文本編輯的主要任務(wù)。常用的文字處理軟件如常用
33、的文字處理軟件如Microsoft Word 、WPS等。等。2. 文本處理文本處理l文本處理強(qiáng)調(diào)的是使用計(jì)算機(jī)對(duì)文本中所含文字信息文本處理強(qiáng)調(diào)的是使用計(jì)算機(jī)對(duì)文本中所含文字信息的形、音、義等進(jìn)行分析和處理,如字?jǐn)?shù)統(tǒng)計(jì)、詞語的形、音、義等進(jìn)行分析和處理,如字?jǐn)?shù)統(tǒng)計(jì)、詞語錯(cuò)誤檢測(cè)、文語轉(zhuǎn)換等。錯(cuò)誤檢測(cè)、文語轉(zhuǎn)換等。l文本處理最廣泛的應(yīng)用就是文本檢索,如文本處理最廣泛的應(yīng)用就是文本檢索,如Google檢檢索或百度檢索。索或百度檢索。目的:確保文本內(nèi)容正確無誤目的:確保文本內(nèi)容正確無誤操作:對(duì)字、詞、句和段落進(jìn)行添加、刪操作:對(duì)字、詞、句和段落進(jìn)行添加、刪除、修改等操作除、修改等操作MS Word的
34、功能:的功能:l在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字l從文本的任何位置都可以從文本的任何位置都可以刪除刪除不需要的文字不需要的文字l將一段文字從一處將一段文字從一處移動(dòng)移動(dòng)到另一處到另一處l將一段文字從一處將一段文字從一處復(fù)制復(fù)制到另一處到另一處l在文本中自動(dòng)在文本中自動(dòng)查找查找指定的詞語指定的詞語l用一個(gè)詞語自動(dòng)用一個(gè)詞語自動(dòng)替換替換文本中指定的詞語文本中指定的詞語文本編輯文本編輯(text editing)目的:使文本清晰、美觀、目的:使文本清晰、美觀、便于閱讀便于閱讀操作內(nèi)容:對(duì)文本中的字操作內(nèi)容:對(duì)文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格
35、式進(jìn)行設(shè)計(jì)和調(diào)整,分格式進(jìn)行設(shè)計(jì)和調(diào)整,分成成3個(gè)層次:個(gè)層次:l對(duì)字符格式進(jìn)行設(shè)置對(duì)字符格式進(jìn)行設(shè)置l對(duì)段落格式進(jìn)行設(shè)置對(duì)段落格式進(jìn)行設(shè)置l對(duì)文檔頁面進(jìn)行格式設(shè)置對(duì)文檔頁面進(jìn)行格式設(shè)置文本排版文本排版(Typesetting )設(shè)置字符的格式設(shè)置字符的格式字號(hào)字號(hào)( (八號(hào)八號(hào) 初號(hào)初號(hào), 5磅磅72磅以上磅以上) ) 1 1磅相當(dāng)于磅相當(dāng)于1/721/72英寸英寸 字體字體( (宋體、宋體、楷體楷體、黑體黑體、仿宋仿宋、隸書隸書) )字符的修飾字符的修飾l字符的形狀字符的形狀( (字形字形) ):正常、加粗、加粗、傾斜、加粗傾斜加粗傾斜l字形的修飾:字形的修飾:下劃線下劃線、著重號(hào)、上下標(biāo)
36、、刪除線、著重號(hào)、上下標(biāo)、刪除線l字符的顏色字符的顏色l字符的寬度字符的寬度l字符的間距字符的間距l(xiāng)字符的效果字符的效果字符的排列方向字符的排列方向什么是段落?用什么是段落?用“回車回車”相互隔開的一組文相互隔開的一組文字字段落格式的設(shè)置:段落格式的設(shè)置:l段落的對(duì)齊方式段落的對(duì)齊方式( (兩端對(duì)齊、分散對(duì)齊、居中對(duì)齊、兩端對(duì)齊、分散對(duì)齊、居中對(duì)齊、左對(duì)齊、右對(duì)齊左對(duì)齊、右對(duì)齊)l段落的縮進(jìn)方式段落的縮進(jìn)方式( (首行縮進(jìn)、懸掛縮進(jìn)、左縮進(jìn)、右縮進(jìn)首行縮進(jìn)、懸掛縮進(jìn)、左縮進(jìn)、右縮進(jìn))l段間距和段內(nèi)行距段間距和段內(nèi)行距l(xiāng)使用編號(hào)和項(xiàng)目符號(hào)使用編號(hào)和項(xiàng)目符號(hào)l段落段落添加邊框和底紋添加邊框和底紋l首字下沉或懸掛首字下沉或懸掛l段落與分頁的關(guān)系段落與分頁的關(guān)系設(shè)置段落的格式設(shè)置段落的格式控制段落的縮進(jìn)控制段落的縮進(jìn)段落縮進(jìn)是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落段落縮進(jìn)是指段落
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025物業(yè)管理權(quán)轉(zhuǎn)讓服務(wù)合同-智慧城市綜合體專業(yè)版3篇
- 二零二五年度內(nèi)部控制制度實(shí)施與監(jiān)督合同
- 2025年度個(gè)人承包水利工程合同范本2篇
- 2025年度城市應(yīng)急響應(yīng)與安保員預(yù)備役合同3篇
- 第二單元 近代化的早期探索與民族危機(jī)的加?。ń馕霭妫? 2023-2024學(xué)年八年級(jí)歷史上學(xué)期期中考點(diǎn)大串講(部編版)
- 課題申報(bào)參考:內(nèi)蒙古美麗鄉(xiāng)村生產(chǎn)性景觀遺產(chǎn)調(diào)查研究
- 課題申報(bào)參考:面向碳排放雙控的省域間輸入電隱含碳減排責(zé)任厘定與策略方法研究
- 課題申報(bào)參考:面向跨市就醫(yī)的醫(yī)療設(shè)施城際供需關(guān)系評(píng)估與優(yōu)化調(diào)控
- 課題申報(bào)參考:媒介社會(huì)與智能傳播研究
- 2025年度高端酒店管理團(tuán)隊(duì)聘用勞務(wù)合同4篇
- 2024年財(cái)產(chǎn)轉(zhuǎn)讓合同公證模板2篇
- 商標(biāo)法基礎(chǔ)知識(shí)
- 2025年高考物理一輪復(fù)習(xí)之機(jī)械振動(dòng)
- 小紅書種草營(yíng)銷師(初級(jí))認(rèn)證考試真題試題庫(含答案)
- 癲癇病人的護(hù)理(課件)
- 2024年6月浙江省高考地理試卷真題(含答案逐題解析)
- 醫(yī)院培訓(xùn)課件:《如何撰寫護(hù)理科研標(biāo)書》
- 員工宿舍用電安全培訓(xùn)
- 家庭年度盤點(diǎn)模板
- 河南省鄭州市2023-2024學(xué)年高二上學(xué)期期末考試 數(shù)學(xué) 含答案
- 2024年北師大版八年級(jí)上冊(cè)全冊(cè)數(shù)學(xué)單元測(cè)試題含答案
評(píng)論
0/150
提交評(píng)論