現(xiàn)代漢語詞典系列數(shù)據(jù)庫.ppt_第1頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫.ppt_第2頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫.ppt_第3頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫.ppt_第4頁
現(xiàn)代漢語詞典系列數(shù)據(jù)庫.ppt_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)代漢語詞典系列數(shù)據(jù)庫,中國(guó)社會(huì)科學(xué)院語言研究所 2006,概述 來源: 根據(jù)現(xiàn)代漢語詞典的系列辭書建立的數(shù)據(jù)庫; 用途: 電子辭書的查詢和發(fā)布; 辭書編纂和修訂的參考資料; 從聚合的角度研究漢語詞匯的資料; 用比較的方法研究辭書的資料,現(xiàn)代漢語詞典系列數(shù)據(jù)庫,一、數(shù)據(jù)庫主要內(nèi)容 二、數(shù)據(jù)的一致性 三、數(shù)據(jù)庫的主要應(yīng)用功能 四、關(guān)于缺字問題,一、數(shù)據(jù)庫主要內(nèi)容,詞典的版本信息 詞條信息 偏旁部首 檢字表 其他,一、數(shù)據(jù)庫主要內(nèi)容,詞典的版本信息(以第三版為例)包括: 書號(hào) 書名 版次 作者 出版單位 出版時(shí)間 發(fā)行單位 印刷單位 印次 印數(shù) 開本 字?jǐn)?shù) 印張 定價(jià) 防偽 前言 說明 總目 音節(jié)

2、表 檢字表 凡例 附錄等。 詞條信息包括: 詞目 異體繁體字 拼音 釋義 特征,一、數(shù)據(jù)庫主要內(nèi)容,偏旁部首:偏旁部首、偏旁部首筆畫。 檢字表:歸屬于某偏旁部首的漢字、除去偏旁部首筆畫外的漢字筆畫。 其他:詞條中其他一些可供查詢、統(tǒng)計(jì)的語法、語義、語用、構(gòu)詞等特征,二、數(shù)據(jù)庫與辭書數(shù)據(jù)的一致性,數(shù)據(jù)的原始排列順序與辭書數(shù)據(jù)保持一致 數(shù)據(jù)內(nèi)容和辭書數(shù)據(jù)保持一致 數(shù)據(jù)庫主體結(jié)構(gòu)保持一致 各版本現(xiàn)代漢語詞典辭書之間同種標(biāo)記不同標(biāo)法的數(shù)據(jù)在庫中也要保持一致(主要表現(xiàn)在各種計(jì)算機(jī)字庫中沒有的標(biāo)記、符號(hào)、序號(hào)等,三、數(shù)據(jù)庫的主要應(yīng)用功能,經(jīng)過對(duì)詞典內(nèi)容的結(jié)構(gòu)化處理,數(shù)據(jù)庫里有以下幾類信息可以用于檢索、統(tǒng)計(jì)

3、、分析和比較: 1、詞目部分:字、詞、語素、字?jǐn)?shù)、偏旁部首、偏旁部首筆畫、除去偏旁部首筆畫外的漢字筆畫、繁體字、異體字、可插入特征、結(jié)構(gòu)詞特征、重疊詞特征、兒化等。 2、語音部分:原拼音、轉(zhuǎn)寫拼音、同音、輕聲、第二音節(jié)無輔音特征、重讀、結(jié)構(gòu)詞發(fā)音等,三、數(shù)據(jù)庫的主要應(yīng)用功能,3、語用部分:學(xué)科分類(語、經(jīng)、地質(zhì)、地、等)。語用信息(、等)。 4、詞類部分:個(gè)詞類。 5、釋義部分:釋義中所包含的字、詞、短語、句子 等字符串。 6、其他部分:多音、近義詞、從屬條目、外來語、專有名詞、義項(xiàng)數(shù)等。 7、版本信息:凡例中的信息、偏旁部首、檢字表、版次、時(shí)間、作者、前言、說明等,三、數(shù)據(jù)庫的主要應(yīng)用功能,

4、1、查詞釋疑2、模糊查詢 3、類別查詢4、比較查詢 5、統(tǒng)計(jì)查詢6、逆序查詢 7、版本信息,四、關(guān)于缺字問題,在WINDOWS XP操作環(huán)境中,使用GBK宋體字庫,以現(xiàn)代漢語詞典第三版為例,缺字共計(jì)個(gè)漢字(不包括各種符號(hào))。我們對(duì)這些缺字逐個(gè)作了字形分析,決定用字形描述的辦法來說明這些字,四、關(guān)于缺字問題,1、缺字的分析 個(gè)缺字中,有個(gè)漢字在計(jì)算機(jī)字庫中沒有對(duì)應(yīng)的簡(jiǎn)體字、繁體字或異體字,我們稱其為絕對(duì)缺字。另外個(gè)缺字在計(jì)算機(jī)字庫中可以找到各自對(duì)應(yīng)的簡(jiǎn)體字、繁體字或異體字,我們稱其為相對(duì)缺字。 對(duì)這些缺字都要進(jìn)行缺字描述,四、關(guān)于缺字問題,2、缺字的描述 缺字描述公式字型描述:結(jié)構(gòu)描述 詞典數(shù)據(jù)

5、庫中的缺字標(biāo)記。 字型描述組成該字的若干個(gè)拆分的部首或字形。 :字形描述與結(jié)構(gòu)描述的分隔符號(hào) 結(jié)構(gòu)描述該字由若干個(gè)拆分的部首或字形所組成的方式,四、關(guān)于缺字問題,2、缺字的描述 A、絕對(duì)缺字的描述 結(jié)構(gòu)描述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等 字形描述:直接對(duì)應(yīng)結(jié)構(gòu)順序進(jìn)行字形排列 舉例:是鳥:左右; 彳亢?。鹤笾杏?; 思:上下; 九田:上下,四、關(guān)于缺字問題,2、缺字的描述 B、相對(duì)缺字的描述 用修改漢字結(jié)構(gòu)中部分部首或字形的辦法來描述 舉例:鰶:魚改魚; 顣:頁改頁; 譆:訁改讠,四、關(guān)于缺字問題,3、計(jì)算機(jī)缺字分類統(tǒng)計(jì): A、絕對(duì)缺字個(gè): 左右結(jié)構(gòu)漢字有246個(gè);

6、左中右結(jié)構(gòu)漢字有個(gè);左上下結(jié)構(gòu)漢字有5個(gè);外里結(jié)構(gòu)漢字有16個(gè);外里右結(jié)構(gòu)漢字有個(gè);外里下結(jié)構(gòu)漢字有個(gè);上下結(jié)構(gòu)漢字有63個(gè);上左中右結(jié)構(gòu)漢字有個(gè);上下右結(jié)構(gòu)漢字有個(gè);上外里結(jié)構(gòu)漢字有個(gè);結(jié)構(gòu)和修改結(jié)合及結(jié)構(gòu)和短語描述結(jié)合的結(jié)構(gòu)描述的漢字有個(gè);采用修改缺字結(jié)構(gòu)中拆分部分的偏旁部首或字型來描述的漢字有55個(gè),四、關(guān)于缺字問題,3、計(jì)算機(jī)缺字分類統(tǒng)計(jì): B、相對(duì)缺字個(gè): 通過簡(jiǎn)寫偏旁部首進(jìn)行缺字描述的有142個(gè);通過簡(jiǎn)寫非偏旁部首部分進(jìn)行缺字描述的有142個(gè);通過繁寫非偏旁部首部分進(jìn)行缺字描述的有2個(gè);即要簡(jiǎn)寫偏旁部首部分又要簡(jiǎn)寫非偏旁部首部分的有10個(gè),四、關(guān)于缺字問題,3、計(jì)算機(jī)缺字分類統(tǒng)計(jì): C、幾個(gè)因字體變化而產(chǎn)生的缺字: 計(jì)算機(jī)中的漢字由于字體的變化而字型有所改變的漢字有4個(gè)。這四個(gè)漢字在處于小四號(hào)字體時(shí)該字字型與詞典中漢字字型不一致,而處于其他字號(hào)字體時(shí)該字字型則與詞典中漢字字型相一致。這四個(gè)漢字是,四、關(guān)于缺字問題,4、關(guān)于GB18030-2000大字符集 個(gè)缺字在中的補(bǔ)充情況,四、關(guān)于缺字問題,另外,在GBK和大字符集中有個(gè)別漢字字形與現(xiàn)代漢語詞典中的字形有細(xì)微的差別,這會(huì)影響數(shù)據(jù)庫與紙質(zhì)詞典

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論