現(xiàn)代漢語詞典系列數(shù)據(jù)庫的課件_第1頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫的課件_第2頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫的課件_第3頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫的課件_第4頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫的課件_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、現(xiàn)代漢語詞典系列數(shù)據(jù)庫1現(xiàn)代漢語詞典系列數(shù)據(jù)庫一、數(shù)據(jù)庫主要內(nèi)容 二、數(shù)據(jù)的一致性 三、數(shù)據(jù)庫的主要應(yīng)用功能 四、關(guān)于缺字問題 2一、數(shù)據(jù)庫主要內(nèi)容詞典的版本信息詞條信息偏旁部首檢字表其他3一、數(shù)據(jù)庫主要內(nèi)容詞典的版本信息(以第三版為例)包括: 書號 書名 版次 作者 出版單位 出版時間 發(fā)行單位 印刷單位 印次 印數(shù) 開本 字數(shù) 印張 定價 防偽 前言 說明 總目 音節(jié)表 檢字表 凡例 附錄等。詞條信息包括: 詞目 異體繁體字 拼音 釋義 特征。4一、數(shù)據(jù)庫主要內(nèi)容偏旁部首:偏旁部首、偏旁部首筆畫。檢字表:歸屬于某偏旁部首的漢字、除去偏旁部首筆畫外的漢字筆畫。其他:詞條中其他一些可供查詢、統(tǒng)

2、計的語法、語義、語用、構(gòu)詞等特征。 5二、數(shù)據(jù)庫與辭書數(shù)據(jù)的一致性數(shù)據(jù)的原始排列順序與辭書數(shù)據(jù)保持一致數(shù)據(jù)內(nèi)容和辭書數(shù)據(jù)保持一致數(shù)據(jù)庫主體結(jié)構(gòu)保持一致各版本現(xiàn)代漢語詞典辭書之間同種標(biāo)記不同標(biāo)法的數(shù)據(jù)在庫中也要保持一致(主要表現(xiàn)在各種計算機字庫中沒有的標(biāo)記、符號、序號等)。6三、數(shù)據(jù)庫的主要應(yīng)用功能 經(jīng)過對詞典內(nèi)容的結(jié)構(gòu)化處理,數(shù)據(jù)庫里有以下幾類信息可以用于檢索、統(tǒng)計、分析和比較:1、詞目部分:字、詞、語素、字數(shù)、偏旁部首、偏旁部首筆畫、除去偏旁部首筆畫外的漢字筆畫、繁體字、異體字、可插入特征、結(jié)構(gòu)詞特征、重疊詞特征、兒化等。2、語音部分:原拼音、轉(zhuǎn)寫拼音、同音、輕聲、第二音節(jié)無輔音特征、重讀、

3、結(jié)構(gòu)詞發(fā)音等。 7三、數(shù)據(jù)庫的主要應(yīng)用功能3、語用部分:學(xué)科分類(語、經(jīng)、地質(zhì)、地、等)。語用信息(、等)。4、詞類部分:個詞類。5、釋義部分:釋義中所包含的字、詞、短語、句子 等字符串。6、其他部分:多音、近義詞、從屬條目、外來語、專有名詞、義項數(shù)等。7、版本信息:凡例中的信息、偏旁部首、檢字表、版次、時間、作者、前言、說明等。 8三、數(shù)據(jù)庫的主要應(yīng)用功能1、查詞釋疑2、模糊查詢3、類別查詢4、比較查詢5、統(tǒng)計查詢6、逆序查詢7、版本信息9四、關(guān)于缺字問題在WINDOWS XP操作環(huán)境中,使用GBK宋體字庫,以現(xiàn)代漢語詞典第三版為例,缺字共計個漢字(不包括各種符號)。我們對這些缺字逐個作了字

4、形分析,決定用字形描述的辦法來說明這些字。 10四、關(guān)于缺字問題1、缺字的分析個缺字中,有個漢字在計算機字庫中沒有對應(yīng)的簡體字、繁體字或異體字,我們稱其為絕對缺字。另外個缺字在計算機字庫中可以找到各自對應(yīng)的簡體字、繁體字或異體字,我們稱其為相對缺字。對這些缺字都要進行缺字描述。11四、關(guān)于缺字問題2、缺字的描述缺字描述公式字型描述:結(jié)構(gòu)描述詞典數(shù)據(jù)庫中的缺字標(biāo)記。字型描述組成該字的若干個拆分的部首或字形。:字形描述與結(jié)構(gòu)描述的分隔符號結(jié)構(gòu)描述該字由若干個拆分的部首或字形所組成的方式。 12四、關(guān)于缺字問題2、缺字的描述A、絕對缺字的描述結(jié)構(gòu)描述:左右、上下、外里、左中右、上中下、左上下、上下右

5、、上外里等字形描述:直接對應(yīng)結(jié)構(gòu)順序進行字形排列舉例:是鳥:左右;彳亢亍:左中右;思:上下;九田:上下;13四、關(guān)于缺字問題2、缺字的描述B、相對缺字的描述 用修改漢字結(jié)構(gòu)中部分部首或字形的辦法來描述舉例:鰶:魚改魚;顣:頁改頁; 譆:訁改讠; 14四、關(guān)于缺字問題3、計算機缺字分類統(tǒng)計: A、絕對缺字個:左右結(jié)構(gòu)漢字有246個;左中右結(jié)構(gòu)漢字有個;左上下結(jié)構(gòu)漢字有5個;外里結(jié)構(gòu)漢字有16個;外里右結(jié)構(gòu)漢字有個;外里下結(jié)構(gòu)漢字有個;上下結(jié)構(gòu)漢字有63個;上左中右結(jié)構(gòu)漢字有個;上下右結(jié)構(gòu)漢字有個;上外里結(jié)構(gòu)漢字有個;結(jié)構(gòu)和修改結(jié)合及結(jié)構(gòu)和短語描述結(jié)合的結(jié)構(gòu)描述的漢字有個;采用修改缺字結(jié)構(gòu)中拆分部

6、分的偏旁部首或字型來描述的漢字有55個; 15四、關(guān)于缺字問題3、計算機缺字分類統(tǒng)計: B、相對缺字個:通過簡寫偏旁部首進行缺字描述的有142個;通過簡寫非偏旁部首部分進行缺字描述的有142個;通過繁寫非偏旁部首部分進行缺字描述的有2個;即要簡寫偏旁部首部分又要簡寫非偏旁部首部分的有10個; 16四、關(guān)于缺字問題3、計算機缺字分類統(tǒng)計: C、幾個因字體變化而產(chǎn)生的缺字:計算機中的漢字由于字體的變化而字型有所改變的漢字有4個。這四個漢字在處于小四號字體時該字字型與詞典中漢字字型不一致,而處于其他字號字體時該字字型則與詞典中漢字字型相一致。這四個漢字是:17四、關(guān)于缺字問題4、關(guān)于GB18030-2000大字符集個缺字在中的補充情況:GB18030-2000簡體繁異體總字數(shù)已補充 仍然缺少 18四、關(guān)于缺字問題另外,在GBK和大字符集中有個別漢字字形與現(xiàn)代漢語詞典中的字形有細微

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論