淺談漢字特征字母及其提取規(guī)則_第1頁(yè)
淺談漢字特征字母及其提取規(guī)則_第2頁(yè)
淺談漢字特征字母及其提取規(guī)則_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、淺談漢字特征字母及其提取規(guī)那么所謂特征字母,是指那些最能表征漢字輪廓特點(diǎn)的漢字字母。人們看到一個(gè)漢字時(shí),一般首先注意到的是它的輪廓特征,然后才是它的局部細(xì)節(jié)。這就是漢字的認(rèn)知規(guī)律。從圖形識(shí)別的角度來看,漢字認(rèn)知更加注重輪廓性和整體性,字形的細(xì)微變化并不會(huì)給漢字認(rèn)知造成多大影響。因此,特征字母一定是構(gòu)成漢字輪廓的漢字字母。研究發(fā)現(xiàn):人們通常是從漢字左上角開始,沿著順時(shí)針方向掃描漢字輪廓的見以下列圖。因此,最能表征漢字輪廓特點(diǎn)的特征字母,首先是構(gòu)成漢字左上角的漢字字母,其次是構(gòu)成漢字右上角的漢字字母,再次是構(gòu)成漢字右下角的漢字字母,最后是構(gòu)成漢字左下角的漢字字母。左上角一右上角一右下角一左下角對(duì)于

2、左右構(gòu)造的漢字來說:左上角特征字母通常就是字首首字母第一個(gè)字母角特征字母通常就是字身首字母;右下角特征字母通常就是字身末字母最后一個(gè)字母左下角特征字母通常就是字首末字母見以下列圖。磁)字首首字置字首末字母因此,左右構(gòu)造漢字的特征字母依次是字首首字母、字身首字母、字身末字母和字首末字母。對(duì)于上下構(gòu)造的漢字來說:左上角特征字母通常就是字首首字母;右下角特征字母通常就是字身末字母;右上角特征字母有時(shí)是字首首字母如“京字,有時(shí)是字首末字母如“簡(jiǎn)字,有時(shí)是中間字母如“雪字,難以確定;左下角特征字母有時(shí)是字身首字母如“四字,有時(shí)是字身末字母如“全字,有時(shí)是中間字母如“罷字,同樣難以確定。對(duì)于多數(shù)上下構(gòu)造的

3、漢字來說,人們通過一次掃描還無法辨識(shí)出漢字,還要進(jìn)展第二次掃描,即掃描字身左上角和右上角,掃描的角度較第一次要小些。字身左上角特征字母通常就是字首首字母,而字身右上角特征字母的位置那么難以確定見以下列圖。字首首字£字身首字母f15字身未字母因此,上下構(gòu)造漢字的特征字母依次是字首首字母,字身末字母和字身首字母。正因?yàn)樯舷聵?gòu)造漢字的辨識(shí)需要進(jìn)展兩次掃描,所以,人們辨識(shí)上下構(gòu)造漢字所花費(fèi)的時(shí)間要比辨識(shí)左右構(gòu)造漢字要多些;正因?yàn)樯舷聵?gòu)造漢字的特征字母為3個(gè),比左右構(gòu)造漢字的特征字母數(shù)量少1個(gè),所以,人們對(duì)上下構(gòu)造漢字辨識(shí)的錯(cuò)誤率比上下構(gòu)造漢字要高些。這就是在漢字構(gòu)造類型中,左右構(gòu)造漢字?jǐn)?shù)量占

4、絕對(duì)優(yōu)勢(shì)的原因見下表。7785個(gè)常用漢字構(gòu)造類型的統(tǒng)計(jì)數(shù)據(jù):構(gòu)造類型獨(dú)體上下左右包圍字?jǐn)?shù)323P164875055754占總字?jǐn)?shù)百分比%對(duì)于半包圍構(gòu)造漢字,其特征字母的提取類似于上下構(gòu)造漢字或左右構(gòu)造漢字。對(duì)于全包圍構(gòu)造漢字,仍然需要進(jìn)展兩次掃描,第一次是對(duì)漢字外輪廓的掃描,第二次是對(duì)漢字內(nèi)輪廓的掃描,第二次掃描角度較上下構(gòu)造漢字要大些見以下列圖。字首R(shí)字母字身首字母47字身末字母第一次掃描提取的特征字母是字首首字母和字首末字母,第二次掃描提取的特征字母是字身首字母和字身末字母。因此,全包圍構(gòu)造漢字的特征字母依次是字首首字母、字首末字母、字身首字母和字身末字母。正因?yàn)槿鼑鷺?gòu)造漢字的辨識(shí)需要進(jìn)

5、展兩次一樣角度的掃描,所以,人們辨識(shí)全包圍構(gòu)造漢字所花費(fèi)的時(shí)間甚至比辨識(shí)上下構(gòu)造漢字還要多些;正因?yàn)槿鼑鷺?gòu)造漢字的特征字母為4個(gè),與左右構(gòu)造漢字的特征字母數(shù)量一樣,比上下構(gòu)造漢字的特征字母數(shù)量多1個(gè),所以,人們對(duì)全包圍構(gòu)造漢字辨識(shí)的錯(cuò)誤率比上下構(gòu)造漢字要低些,與左右構(gòu)造漢字大體相當(dāng)。這就是在漢字構(gòu)造類型中,全包圍構(gòu)造漢字?jǐn)?shù)量比較少的原因。對(duì)于獨(dú)體字,其特征字母是獨(dú)體字的首字母和末字母見以下列圖。雖然特征字母只有兩個(gè),比其他構(gòu)造漢字都要少些,但是,獨(dú)體字的筆畫數(shù)普遍較少,兩個(gè)特征字母足以反映其輪廓特征。對(duì)兩個(gè)特征字母的掃描識(shí)別速度顯然比其他構(gòu)造漢字要快些。這就是獨(dú)體字漢字的第1個(gè)特征字母應(yīng)當(dāng)是

6、字首首字母,第2個(gè)特征字母應(yīng)當(dāng)是字身末字特別容易識(shí)記、識(shí)別速度最快的原因。綜合起來看,母,因?yàn)檫@兩個(gè)特征字母最能反映漢字的輪廓特征,無論是什么樣構(gòu)造的漢字,它的首字母和末字母都是極易確定的。漢字的第3個(gè)特征字母應(yīng)當(dāng)是字身首字母,因?yàn)樗丝梢苑从碀h字的外部輪廓特征之外,還能反映漢字的內(nèi)部構(gòu)造特點(diǎn)。不過,獨(dú)體字是沒有字首和字身之分的。為了統(tǒng)一規(guī)那么,我們仿照們將獨(dú)體字的第一個(gè)漢字字母視為字首,將其余漢字字母視為字身,這樣一來,獨(dú)體字也是由字首和字身兩個(gè)局部組成的。特征字母的提取,應(yīng)當(dāng)遵循以下原那么:假設(shè)是提取漢字的一個(gè)特征字母,應(yīng)當(dāng)提取其字首首字母;假設(shè)是提取漢字的兩個(gè)特征字母,應(yīng)當(dāng)提取其字首首

7、字母和字身末字母,或者提取其字首首字母和字身首字母;假設(shè)是提取漢字的三個(gè)特征字母,應(yīng)當(dāng)提取其字首首字母、字身首字母和字身末字母。下表列出了5654個(gè)常用漢字特征字母組字次數(shù)的統(tǒng)計(jì)數(shù)據(jù):漢字字母12345678字首首字母r5311004475330957118214707001字身首字母3851252646260985939589547字身末字母643503176113410814161071584根據(jù)表中統(tǒng)計(jì)數(shù)據(jù),制作成以下坐標(biāo)圖便于比較:觀察上述坐標(biāo)圖發(fā)現(xiàn):字首首字母的組字次數(shù)分布折線波動(dòng)幅度最小,其最大波幅出如今2一畫豎和6兩畫豎上,這說明字首首字母中所包含的豎筆最多;字身末字母的組字次數(shù)分布折線波動(dòng)幅度最大,其最大波幅出如今4一畫捺和8兩畫捺上,這說明字身末字母中所包含的捺筆含點(diǎn)最多;字身首字母的組字次數(shù)分布折線波動(dòng)幅度居中,其最大波幅出如今2一畫豎和5兩畫橫上,這說明字身首字母中所包含的豎筆和橫筆最多。從前面分析中,特征字母的組字次數(shù)分布折線波動(dòng)越小,由這些特征字母所組成的詞語(yǔ)字母組合的區(qū)分度就越高,用術(shù)語(yǔ)來說,就是這些詞語(yǔ)字母組合的重碼率就越低。因此,特征字母首選字首首字母,次選字身首字母,后選字身末字母。然而,鑒于字首首字母就是整個(gè)漢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論