中文信息處理技術(shù)原理與應(yīng)用二_第1頁
中文信息處理技術(shù)原理與應(yīng)用二_第2頁
中文信息處理技術(shù)原理與應(yīng)用二_第3頁
中文信息處理技術(shù)原理與應(yīng)用二_第4頁
中文信息處理技術(shù)原理與應(yīng)用二_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中文信息處理技術(shù)原理與應(yīng)用二漢字和漢字屬性漢字發(fā)展及其分級漢字的結(jié)構(gòu)分析漢字的字音和字義漢字的排序漢字的屬性3漢字發(fā)展及其分級據(jù)考古發(fā)現(xiàn)的甲骨文實(shí)物的考證,中國古代漢字的記載可追溯到公元前1300年,至少已有3000多年的歷史。漢字的形態(tài),可以歸納出它包括象形字、表意字、形聲字和假借字。

最早可以考證的甲骨文漢字約有3000個(gè)左右。目前中國日常通用的漢字過6000~7000個(gè)。其它五萬多個(gè)屬生僻字,卻仍然保留在古籍資料,以及某些人名、地名等中使用。目前,六萬字以外新造漢字幾乎已無必要,而用某些漢字衍生新詞則不斷有所發(fā)展。

雖然現(xiàn)代漢字已壓縮到6000~7000之?dāng)?shù),但仍然是一個(gè)龐大的數(shù)字,作為文字信息處理時(shí)有不方便之處。和英文的26個(gè)字母相比,是一種“大字符集”。實(shí)際應(yīng)用中,這些數(shù)量的漢字并不是頻率均等地使用的,應(yīng)按照使用頻度對它們分級。GB2312-80基本集,一級字3775個(gè),二級字3008個(gè),共6763個(gè)。4漢字的結(jié)構(gòu)分析位點(diǎn)

按照目前用計(jì)算機(jī)處理漢字的,構(gòu)成點(diǎn)陣式漢字字模的最小單位是“位點(diǎn)”,也就是二進(jìn)制信息中的一位。

筆畫

楷書漢字的基本筆畫有六種。即一,丨,丿,乀,,乚這六種筆形,按其方向來區(qū)分,可以分為兩類:1、單向筆畫,如一,丨,丿,乀,

ノ2、復(fù)向筆畫,如彎筆(,乛,>)拐筆(乚,巜,<)實(shí)際上,在按筆形編碼的漢字輸入方案中,根據(jù)需要,可以另行定義其它的復(fù)筆結(jié)構(gòu),以提高漢字的編碼效率。

部首漢字部首的數(shù)量也較大,楷體漢字共有部首214個(gè),作為傳統(tǒng)的部首一直沿用到現(xiàn)在。實(shí)用角度出發(fā),適當(dāng)?shù)睾喕渴?,把漢字部首簡化到100個(gè)左右

字根

單字

5字根字根是漢字形體的基本結(jié)構(gòu)單元。字根這一概念,通常人們對它比較模糊。同時(shí)也無統(tǒng)一的選擇標(biāo)準(zhǔn)。在名稱上也存在多種叫法,例如,稱作字母、形母、部件、組件、字元、構(gòu)件、符號等。構(gòu)成字根的筆畫間有“單、散、連、交”四種形式。只有單筆關(guān)系的字根是:一,丨,丿,乀,,乚;只有散筆關(guān)系的字根如:二,三,八,習(xí),夕,冫,氵;只有連筆關(guān)系的字根如:工,廠,匚,歹,卜,止,冂,月,口,足,日,目,四;只有交筆關(guān)系的字根如:十,犭,乂,卄,卅;兼有散、連二種關(guān)系的字根如:彳,讠,衤,疒;兼有散交二種關(guān)系的字根如米,卜;兼有連、交二種關(guān)系的字根如:耳,王,大,禾,巾;散、連、交三種關(guān)系都有的字根如雨,西,舟,魚。6單字單字的字根構(gòu)成種類:按照單字中所含字根數(shù)目的多少,可以分為四類:(1)

單根單字(2)

二根單字(3)

三根單字(4)四根(或多根)單字。字的字型分類:字型是單字結(jié)構(gòu)的字根相互間的結(jié)構(gòu)類型,可以分成四種。(1)獨(dú)體型。由單式、連式、交式字根組成的單字,結(jié)構(gòu)緊密,獨(dú)自成為一體,這樣的構(gòu)型稱作獨(dú)體型。(2)左右型。單字內(nèi)分成左根和右根二半,中間有一定間隙的散式構(gòu)型,稱為左右型。(3)上下型。單字內(nèi)分成上根和下根二半,中間有一定間隙的散式構(gòu)型,稱為上下型。(4)包圍型(又稱內(nèi)外型)。單字內(nèi)一個(gè)內(nèi)根被一個(gè)外根全部或局部包圍的散式構(gòu)型,稱為包圍型。

7漢字的字音和字義漢字的字音漢字的發(fā)音由漢語的發(fā)音而來。構(gòu)成語音的最小單位,稱為“音素”。音素中包括元音音素和輔音音素兩類。漢語普通話共有元音音素6個(gè),輔音音素22個(gè)。一個(gè)元音可以單獨(dú)成為一個(gè)音節(jié);一個(gè)輔音則必須配合一個(gè)以上的元音才能構(gòu)成一個(gè)音節(jié)。一個(gè)漢字的發(fā)音就由一個(gè)音節(jié)構(gòu)成。在以字音為基礎(chǔ)的漢字編碼方案中廣泛應(yīng)用的一種方法稱為聲韻雙拼法。把每個(gè)漢字的發(fā)音部分,分解成聲母和韻母二部分。聲母相當(dāng)于輔音,韻母則相當(dāng)于元音??梢詺w納出22個(gè)聲母;35個(gè)韻母。嚴(yán)重的情況,可以舉出同一聲、韻、和音調(diào)可以對應(yīng)有數(shù)十個(gè)、甚至超出一百個(gè)字的情況。若用漢語發(fā)音作為漢字信息的輸入,必須要采取其它有效的措施。

漢字的字義

漢字的字義也很復(fù)雜。成千上萬個(gè)漢字,一般漢字,每個(gè)字常有2~5種意義,多的達(dá)6~9種意義。在信息處理中,單獨(dú)使用漢字的字義作為輸入方法是不可能的。但在有些編碼輸入方案中,利用字義作為輔助的區(qū)分漢字特征的手段。8漢字的排序

流水排序法

拉丁字母排序

拆字定碼排序法

9漢字的屬性漢字字量漢字字形漢字字體使用頻度漢字的發(fā)音漢字字義漢字排序漢字信息交換碼10漢字編碼輸入方法

整字輸入方法

漢字編碼輸入方法

純字形漢字編碼方法形、音(或形、音、義)結(jié)合編碼方法

音、形結(jié)合編碼方法----例如聲、韻、部、形編碼方法

純音漢字編碼方法人機(jī)交互式漢字簡碼輸入方法11漢字鍵盤碼的笛卡爾積集分析漢字鍵盤碼可以被看成是由它的各種字形屬性元素(如字根、偏旁、或部首),或發(fā)音屬性元素(如聲母、韻母),以及其它屬性元素以一定的規(guī)則組合而成。

把按一定次序排列的有關(guān)屬性元素組成的序列稱為“有序組”,也即構(gòu)成某個(gè)漢字的代碼。當(dāng)有序組(a1,a2,a-----3,…an)的客體分別是A1,A2,A3…An元素,即ai∈Ai(i=1,2,3,…n)時(shí),有序組的全體組成一個(gè)代碼集合,把它稱作A1,A2,A3…An的n維笛卡爾積集??杀硎境桑篈1×A2×A3×…An={(a1,a-2,a3…an)|ai∈Ai(i=1,2,…,n)}其中Ai稱為ai的屬性集。

12圖2-1漢字屬性集數(shù)目與鍵盤碼碼長和編碼效率的關(guān)系13漢字信息的熵值

漢字信息的熵值定義為在某個(gè)一定的范圍內(nèi)(例如在一個(gè)給定的字符集中)確定一個(gè)漢字所需要的平均信息量(單位為二進(jìn)制位)的最小值。

如漢字集中漢字?jǐn)?shù)量為N,要在N中確定某個(gè)漢字,若每個(gè)漢字使用的概率是相等的情況,平均信息量的最小值為log2N??紤]到不同的漢字使用頻度是不相等的,設(shè)第i個(gè)漢字的使用頻度為Pi,則漢字信息的熵值可表示為:漢字信息的熵值是對漢字的一個(gè)統(tǒng)計(jì)特性。它給出代碼信息量在理淪上的最小平均值。

把理論上的最小值(即漢字信息的熵值與實(shí)際編碼所用的信息量之比稱作編碼效率,可以對編碼方案的編碼效率做出定量的計(jì)算和評價(jià)。H(漢字)=-∑Pilog2Pini=114海曼公式與漢字編碼的鍵盤特性

漢字鍵盤碼是利用漢字的基本筆畫或字根等字形屬性或漢字發(fā)音屬性等元素構(gòu)成的有序組,組成對應(yīng)漢字的鍵盤代碼。所用的鍵元的數(shù)目必定比漢字集中漢字?jǐn)?shù)目大為減少。

但鍵盤的鍵元數(shù)目太多,不利于熟練操作。而且從鍵盤的通用性方面考慮,使用通用的字符鍵盤是最經(jīng)濟(jì)的。鍵元數(shù)K和擊鍵操作時(shí)的反應(yīng)時(shí)間,一般可用如下的經(jīng)驗(yàn)公式來表示:

T=a+b.log2K

而實(shí)際上,各個(gè)鍵元的使用頻度是不相等的,因此較準(zhǔn)確的海曼公式應(yīng)為:

T=a+b.H(K)其中H(K)是對應(yīng)鍵元的熵值,H(K)定義如下:

上式中Pi是第i個(gè)鍵元的使用頻度,n是所用鍵元的數(shù)目。

H(K)=-∑Pilog2Pin

i=115漢字編碼輸入方法簡易評測方法

給出一種簡易評測方法,即五星圖方法。一般來說,要選擇一種漢字輸入編碼方法,主要從編碼方法的性能來考慮,具體有5個(gè)方面:1.易學(xué)性編碼規(guī)則要簡單明了,沒有特殊規(guī)則或盡可能地少。2.可用性在編碼中,二義性和重碼盡可能少,但不必強(qiáng)求為零。詞匯碼、外字處理方便。3.高速性碼長盡可能短,鍵位設(shè)計(jì)易于盲打,鍵入速度盡可能高。4.通用性編碼規(guī)則獨(dú)立于具體設(shè)備,適用于通用標(biāo)準(zhǔn)設(shè)備。5.經(jīng)濟(jì)性對主機(jī)軟硬件無特殊要求,價(jià)格合理,便于維護(hù)。

1617漢字編碼輸入方法專業(yè)評測方法

屬于定量性質(zhì)的技術(shù)指標(biāo)

屬于定性性質(zhì)的技術(shù)指標(biāo)

18屬于定量性質(zhì)的技術(shù)指標(biāo)編碼漢字集的容量。即所用編碼方案可以表示的漢字鍵盤碼的數(shù)量。碼元數(shù)。編碼方案所采用的漢字屬性元素的數(shù)目。

碼元的熵值。可由下式計(jì)算出碼元的熵值(平均最小信息量)。其中k為碼元數(shù),Pmi為第i個(gè)碼元的使用頻度。漢字信息的熵值。在一個(gè)漢字集中(如GB2312-80基本集)完全確定一個(gè)漢字所需的平均最小信息量??捎上率接?jì)算出漢字的熵值:其中n為漢字集中漢字的總數(shù)(如為6763個(gè)),Pi是第i個(gè)漢字的使用頻度。

平均鍵盤碼長度。平均每個(gè)漢字鍵盤碼所用碼員的個(gè)數(shù)。非等長碼應(yīng)包括分隔用的空格符。編碼效率。理論碼長的最小值(即漢字熵值)與該編碼方案得出的實(shí)際平均碼長之比。表示為:其中L為平均鍵盤碼碼長,log2K為各個(gè)碼員使用頻度相同時(shí)的碼元熵值。

H(K)=-∑Pmilog2Pmini=1H(漢字)=-∑Pilog2Pini=1L.log2Kη=H(漢字)×100%19屬于定量性質(zhì)的技術(shù)指標(biāo)輸入速率。在單位時(shí)間內(nèi)(如一分鐘內(nèi)),用某種編碼方案鍵入漢字的個(gè)數(shù)。

重碼數(shù)。由以下公式計(jì)算:重碼數(shù)C=重碼字?jǐn)?shù)—重碼組數(shù)重碼率。定義如下:非常規(guī)代碼數(shù)。為了區(qū)別按某種編碼規(guī)則產(chǎn)生的重碼字,以及按照基本的編碼規(guī)則無法得出的某些漢字代碼,需要補(bǔ)充定義一些特殊的規(guī)則,由此得出的漢字代碼即為非常規(guī)代碼。

多碼數(shù)。按照某種編碼規(guī)則,使得一個(gè)漢字有多個(gè)代碼和它對應(yīng)。

錯(cuò)碼率。錯(cuò)碼出現(xiàn)次數(shù)占全部字?jǐn)?shù)的百分比。學(xué)習(xí)曲線。根據(jù)實(shí)際學(xué)習(xí)過程中的實(shí)測數(shù)據(jù),繪制的鍵入速率相對學(xué)習(xí)時(shí)間的變化曲線,以及錯(cuò)碼率相對學(xué)習(xí)時(shí)間的變化曲線。

編碼操作學(xué)習(xí)期。從開始學(xué)習(xí)編碼輸入操作開始,錯(cuò)碼率下降到1%所需要的時(shí)間(以天或小時(shí)計(jì)算)。外字?jǐn)?shù)量。該編碼方案所能覆蓋的指定漢字集以外的漢字?jǐn)?shù)量。L.(a+b.log2K)S=60字/分鐘Pc(重碼率)=∑∑Pijni=1j=1m20屬于定性性質(zhì)的技術(shù)指標(biāo)

編碼方案的論證是否合理和充分。編碼規(guī)則的繁簡程度;編碼規(guī)則對用戶操作要求的高低;編碼規(guī)則的邏輯性和規(guī)律性是否簡明。編碼方案是否存在不能覆蓋的集內(nèi)字;對集外漢字所要附加的編碼規(guī)則的繁簡程度。編碼方案所用的譯碼程序的效率,占用內(nèi)存空間的大??;在編碼輸入時(shí)對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論