《現(xiàn)代漢語語法信息詞典》的收詞原則_第1頁
《現(xiàn)代漢語語法信息詞典》的收詞原則_第2頁
《現(xiàn)代漢語語法信息詞典》的收詞原則_第3頁
《現(xiàn)代漢語語法信息詞典》的收詞原則_第4頁
《現(xiàn)代漢語語法信息詞典》的收詞原則_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《現(xiàn)代漢語語法信息詞典》的收詞原則

王惠chswh@.sg

關(guān)鍵詞:現(xiàn)代漢語、語法詞典、收詞原則

一.前言

《現(xiàn)代漢語語法信息詞典》是一部供計(jì)算機(jī)分析與生成漢語句子而使用的機(jī)器詞典。詞典計(jì)劃收詞6萬左右,所收條目包括:名詞n,時(shí)間詞t,處所詞s,方位詞f,數(shù)詞m,量詞q,區(qū)別詞b,代詞r,動(dòng)詞v,形容詞a,狀態(tài)詞z,副詞d,介詞p,連詞c,助詞u,語氣詞y,象聲詞o,嘆詞e,前接成分h,后接成分k,成語i,簡稱略語j,習(xí)用語l,語素g,非語素字x,標(biāo)點(diǎn)符號(hào)w等26類。其中前18類是語言學(xué)界普遍認(rèn)可的詞,后8類只是借助這些術(shù)語對(duì)詞典中所收的非詞成分進(jìn)行歸類[1]。為行文方便,本報(bào)告中將對(duì)詞典中收錄的這26類成分都統(tǒng)稱為“詞語”。北京大學(xué)計(jì)算語言學(xué)研究所從1986年起就開始研制《現(xiàn)代漢語語法信息詞典》。該項(xiàng)研究先后納入國家“七五”攻關(guān)項(xiàng)目和“八五”科技攻關(guān)項(xiàng)目《中文信息處理技術(shù)應(yīng)用開發(fā)平臺(tái)》[3]的總規(guī)劃,并與國家自然科學(xué)基金項(xiàng)目“自然語言的計(jì)算理論”相配合。經(jīng)過七年的連續(xù)開發(fā),目前,該研究已取得重要的階段性成果,詞典已初步完成了五萬詞的收錄、歸類及屬性描述。本報(bào)告就是在這些實(shí)際工作經(jīng)驗(yàn)的基礎(chǔ)上,詳細(xì)介紹這部電子詞典的收詞原則。

二.收詞原則

詞典的收詞原則依賴于其應(yīng)用目標(biāo)?!冬F(xiàn)代漢語語法信息詞典》(以下簡稱“電子詞典”)是供計(jì)算機(jī)使用的,與供人使用的詞典相比較,收詞原則應(yīng)有所區(qū)別;本詞典又是一部面向中文信息處理各個(gè)領(lǐng)域的通用性詞典,它不依賴于任何特定的語言處理模型及算法,因而,與一般依賴于某個(gè)具體處理系統(tǒng)的電子詞典相比較,收詞原則也有很大的區(qū)別。下面從6個(gè)方面對(duì)這部電子詞典的收詞原則進(jìn)行介紹:1.規(guī)范原則(1).符合國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》的詞語,都屬于電子詞典的收詞范圍。根據(jù)該《信息處理用現(xiàn)代漢語分詞規(guī)范》中對(duì)“分詞單位”的定義:“漢語信息處理使用的、具有確定的語義或語法功能的基本單位。它包括本規(guī)范的規(guī)則限定的詞和詞組”。語言學(xué)中所定義的詞:“最小的能自由運(yùn)用的語言單位,首先是電子詞典的收錄對(duì)象。在目前已收錄的五萬余條詞語中,詞占95%以上,包括了全部的18個(gè)基本類。對(duì)于其中的9個(gè)封閉類:方位詞、量詞、代詞、副詞、介詞、連詞、助詞、語氣詞、嘆詞等,電子詞典盡可能全部收錄。而另外9個(gè)開放類,名詞、時(shí)間詞、處所詞、動(dòng)詞、形容詞、狀態(tài)詞、區(qū)別詞、數(shù)詞、象聲詞等,由于其數(shù)目眾多,電子詞典不可能都收錄,而是還要進(jìn)一步參照下面將要介紹的其它幾個(gè)收詞原則(如高頻原則、穩(wěn)定原則、詞部件原則等)進(jìn)行取舍。除了18類基本詞以外,符合《信息處理用現(xiàn)代漢語分詞規(guī)范》的成語、習(xí)用語、縮略語3類比詞大的語言成分也屬于電子詞典的收錄范圍。這些固定短語大多數(shù)是由語素和詞組合而成,其構(gòu)成成分和格式都是在漢語的長期發(fā)展中形成的,不可隨意切割,而且其意義也帶有整體性。在句子中所起的作用與詞相當(dāng),是漢語詞匯體系的重要成員。如:

成語:胸有成竹、走馬觀花、子虛烏有固定短語習(xí)用語:跑龍?zhí)?、賣關(guān)子、總而言之簡稱略語:三好、人大

由于這3類固定短語數(shù)量也非??捎^,電子詞典對(duì)其處理策略與處理開放類的策略相同,只選收其中一部分使用頻率高、穩(wěn)定性強(qiáng)的。(2).不符合分詞規(guī)范的詞語,原則上將不予收錄。這主要包括以下幾種情況:1).不是分詞單位的詞實(shí)際文本中的數(shù)詞千變?nèi)f化,如:“一、十一、一億八千萬、第六、五分之二、一千多、三十幾、數(shù)萬……”等等。但根據(jù)分詞規(guī)范,可以作分詞單位的只有:a.系數(shù)詞“一、十、兩、幾”等b.位數(shù)詞“十、百、千、萬、億、兆”等c.助數(shù)詞“第、初、零、分之、多、數(shù)、約”等d.數(shù)量詞“若干、許多、不少、大量、少許”等那么,除了這4組,其它數(shù)詞都不是分詞單位,因而也不屬于電子詞典的收錄范圍之內(nèi)。2).不是分詞單位的短語成分,如:a.(一)般說(出其)不意熱脹(冷縮)超低(空)(三)年來之首最關(guān)并以應(yīng)按b.在講話中寫論文學(xué)不好科技發(fā)展時(shí)間就是生命聽說讀寫早來桌子上c.聯(lián)合國教科文組織國家標(biāo)準(zhǔn)局北京大學(xué)中國少年先鋒隊(duì)其中a組可能在詞頻統(tǒng)計(jì)時(shí)這些字的組合出現(xiàn)頻度較高,但它們不在合理的層次上,既不成詞也不成短語,b組是自由短語,c組是組織、機(jī)構(gòu)、單位的名稱。2.高頻原則現(xiàn)代漢語詞語非常豐富,即使是嚴(yán)格符合《信息處理用現(xiàn)代漢語分詞規(guī)范》的分詞單位,也數(shù)不勝數(shù)。因而,電子詞典不可能見詞就收。為了做到收詞量一定而詞的覆蓋面最大或詞的覆蓋面足夠大而收詞量最少,電子詞典應(yīng)在規(guī)范原則的基礎(chǔ)上,遵守高頻原則,盡可能多地選收那些使用頻率高、適用面廣的詞語,盡量少收低頻詞。詞語頻度主要是通過對(duì)大規(guī)模語料的統(tǒng)計(jì)、分析獲得。我們?cè)~語的頻度,主要是參照電子工業(yè)部提供的“頻度詞表”(約4萬詞語)以及我們七五時(shí)選的五萬詞、北京語言學(xué)院編寫的《現(xiàn)代漢語頻率詞典》等現(xiàn)有的9種詞表、詞典(詳見附錄)。按照詞頻的從高到低,依次收錄;頻率過低的,原則上暫不收錄。3.穩(wěn)定原則語言是處于不斷發(fā)展變化中的,有些詞語在一定時(shí)期內(nèi)使用頻率很高,但過了一段時(shí)間之后,就不大使用了,甚至被淘汰;然而,也有相當(dāng)一部分詞語是很穩(wěn)定的,具有長久的生命力。高興”等?!缎畔⑻幚碛矛F(xiàn)代漢語分詞規(guī)范》中規(guī)定“AA、AABB、ABB”式是分詞單位,而“AAB、ABAB、A一A、A了A、A了一A”不是分詞單位。電子詞典不以形式?jīng)Q定是否收錄,而是從構(gòu)詞角度看該重疊式詞語是不是基本的詞部件(即不可還原為更小的詞),然后再作取舍。具體做法如下:1).首先把重疊式詞語分為以下3類:a.形式上像重疊式,沒有基本式詞語。如:悄悄、明明、亮晶晶、毛茸茸、蒙蒙亮、滿滿當(dāng)當(dāng)、慢慢悠悠b.基本式和重疊式都能單用,但二者詞性不同;如:往(介詞)~往往(副詞)暗(形容詞)~暗暗(副詞)大方(形容詞)~大大方方(狀態(tài)詞)孤單(形容詞)~孤單單(狀態(tài)詞)熱鬧(形容詞)~熱鬧熱鬧(動(dòng)詞)c.基本式和重疊式都能單用,而且二者詞性相同。如:看(動(dòng)詞)~看看(看一看/看了看/看了一看)(動(dòng)詞)研究(動(dòng)詞)~研究研究(動(dòng)詞)理發(fā)(動(dòng)詞)~理理發(fā)(動(dòng)詞)方面(名詞)~方方面面(名詞)許多(數(shù)詞)~許許多多(數(shù)詞)2).不同類的重疊式詞語采取不同的收錄原則a類可看作是用重疊語素的方法構(gòu)成的新詞,屬于電子詞典的收錄范圍。當(dāng)然,至于具體某個(gè)詞收與不收,又取決于它的使用頻度、穩(wěn)定性等因素。b類和c類重疊式都有對(duì)應(yīng)的基本式,都是基本式按一定規(guī)則構(gòu)成的派生形式。但b類重疊式與基本式詞性不同,尚屬于構(gòu)詞法范疇,因而電子詞典酌收了少量頻率很高的這類重疊式詞語,如:“往往、暗暗、大大方方”等;而大量的非高頻詞則未收。c類重疊式與基本式的詞性及基本語義都相同,完全屬于構(gòu)形法的范疇,重疊的結(jié)果并沒有產(chǎn)生新詞,只是出現(xiàn)了同一個(gè)詞的不同語法變體,因而電子詞典原則上不予收錄。在此補(bǔ)充說明一點(diǎn),b與c重疊式中盡管有的詞沒收,但是它的信息不會(huì)丟失。如:“安靜”收了,它的重疊屬性描述中填了“AABB”,即說明它有“安安靜靜”的用法。5.語法義項(xiàng)原則漢語中一個(gè)詞語往往具有幾個(gè)不同的意義。意義之間沒有聯(lián)系的,稱為同形詞,如:“一朵花”的“花”與“花錢”的“花”。意義之間有聯(lián)系的,稱為多義詞,如“一朵花”的“花”與“花紋”的“花”?!冬F(xiàn)代漢語詞典》把同形詞作為不同的詞語分別收錄,而把多義詞作為一個(gè)詞語收錄,然后再分義項(xiàng)逐條解釋。如“花”在《現(xiàn)代漢語詞典》中分列為兩個(gè)詞語:花1:①.一朵花②.花紋:白地藍(lán)~兒花2:花費(fèi)、花銷電子詞典主要是描寫漢語詞語的語法屬性,而不是解釋詞義的,因而,在對(duì)同形詞、多義詞的收錄原則上與一般釋義詞典也有所不同。具體原則是:(1).同形詞作為不同詞語收錄;如:“花”在電子詞典有兩個(gè),一個(gè)是動(dòng)詞,一個(gè)是名詞。(2).多義詞義項(xiàng)所屬詞類不同,作為不同詞語收錄;如:編輯①.對(duì)資料或現(xiàn)成的作品進(jìn)行整理加工②.做編輯工作的人電子詞典中收了2個(gè)“編輯”,一個(gè)是動(dòng)詞,一個(gè)是名詞。(3).多義詞各義項(xiàng)所屬詞類相同,但語法功能區(qū)別較大,作為不同詞語收錄。如:保管①.保藏和管理:她~圖書②.完全有把握;擔(dān)保:~你能學(xué)會(huì)電子詞典中收了2個(gè)“保管”,都是動(dòng)詞,但一個(gè)只能帶體詞性賓語,一個(gè)只能帶謂詞性賓語。(4).多義詞各義項(xiàng)所屬詞類及其它語法屬性都相同或相近,只作為一個(gè)詞語收錄。如:前邊所說的“一朵花”的“花”與“白地藍(lán)花兒”的“花”,二者都是名詞,都能受數(shù)量結(jié)構(gòu)修飾,都具有名詞的各種語法功能。因而,電子詞典中只把他們作為一個(gè)詞語收錄,即“花”(名詞)。(5).同一個(gè)義項(xiàng),如果所屬詞類和語法功能存在較大的差異,則分開作為不同詞語收錄。如“自動(dòng)”在《現(xiàn)代漢語詞典》中只有一個(gè)義項(xiàng),但它既可以作副詞(“自動(dòng)控制水流量”),也可以作區(qū)別詞(“自動(dòng)步槍”),因而,電子詞典中就收錄了兩個(gè)“自動(dòng)”,一個(gè)是副詞,一個(gè)是區(qū)別詞。通過前面所列舉的5條具體原則,可以清楚地看到,電子詞典把具有同一詞形的同形詞語,以及兼類詞語、語法功能有較大差別的多義詞,都看作不同的詞語而列入收錄范圍。這種作法的依據(jù)就是語法義項(xiàng)原則,即根據(jù)詞語的詞類及其它語法功能的異同,來建立相應(yīng)的語法義項(xiàng)。同一個(gè)詞形具有幾個(gè)語法義項(xiàng),就作為幾個(gè)詞語收錄。根據(jù)這條原則,電子詞典中所收錄的詞語都是與語法義項(xiàng)一一對(duì)應(yīng)的,不同的詞語對(duì)應(yīng)著不同的語法義項(xiàng)。從這個(gè)意義上說,電子詞典中收錄的詞語數(shù)目,實(shí)際上是以語法義項(xiàng)為計(jì)數(shù)單位,而不是以詞形為計(jì)數(shù)單位的。下面,作為一個(gè)完整的實(shí)例,讓我們來對(duì)比一下電子詞典和《現(xiàn)代漢語詞典》對(duì)“該”的收錄情況:A.《現(xiàn)代漢語詞典》:該1①.應(yīng)當(dāng):該走了。②.應(yīng)當(dāng)是:這一回該我了吧。③.理應(yīng)如此:活該!④.表示根據(jù)情理或經(jīng)驗(yàn)推測(cè)必然或可能的結(jié)果:天一涼,就該加衣服了。該2欠:該帳|該他兩塊錢。該3指示詞,指上文說過的人或事物(多用于公文):該地交通便利該4同“賅”。B.電子詞典:詞語詞類備注該v對(duì)應(yīng)于A組的“該1①③④”該v對(duì)應(yīng)于A組的“該1②”該v對(duì)應(yīng)于A組的“該2”該r對(duì)應(yīng)于A組的“該3”《現(xiàn)代漢語詞典》的“該4”,因?yàn)轭l次太低而未收入電子詞典。6.實(shí)用原則電子詞典是為計(jì)算機(jī)處理現(xiàn)代漢語服務(wù)的,因而,具體收詞時(shí),還要充分考慮實(shí)際工作的需要。具體原則是:(1).以規(guī)范的現(xiàn)代漢語普通話詞語為主,盡量少收古漢語詞語、方言詞語。a.古漢語詞語與現(xiàn)代漢語詞語電子詞典主要收錄現(xiàn)代漢語詞語,如“朋友、發(fā)展、中青年、希望、溫柔、大型”等。對(duì)現(xiàn)在已不使用的歷史詞語、文言詞語,如:“御史、欽定、北邙、九賓、言之不預(yù)”等,不收。但少數(shù)現(xiàn)代漢語(尤其是書面語)中仍常使用的文言詞語,如“之、其、謂、勿、諸位、獲悉”等,酌收。b.方言詞語與普通話詞語電子詞典主要收錄標(biāo)準(zhǔn)語(即普通話)詞匯,對(duì)方言詞匯一般不收錄。如:收“玉米”,而不收“老玉米、苞米、棒子、包米、包谷”等;收“火柴”,而不收“洋火、亮子、自來火、取燈兒”等;收“小偷”,而不收“小偷兒、偷兒、賊娃子、毛賊、賊骨頭、鼠摸、鼠賊仔”等。但對(duì)于少數(shù)已進(jìn)入普通話的方言詞匯,如:“癟三(吳語)、蹩腳(吳語)、雪糕(粵語)、龍眼(閩語)、曉得(西南話)”等,電子詞典仍酌情收錄。c.口語詞語與書面詞語語言規(guī)律的研究應(yīng)當(dāng)重視口語語料。不過,本電子詞典主要是應(yīng)用于書面文本的處理的,因此,即使只用于書面語的詞語,為“秀麗、輝煌、燦爛、思索”仍屬收錄的范圍。相反的,口語中常用的詞語,如“壓根兒、瓷實(shí)、瞎忙乎”等,電子詞典一般不收錄,這些詞語很可能是北京話而不是普通話。(2).增補(bǔ)了少量使用頻率特別高的自由短語為了提高計(jì)算機(jī)的處理效率,對(duì)那些使用得很頻繁的自由短語,電子詞典也酌收了一部分,如“一個(gè)、一下子、一會(huì)兒、各種、百分之、全國、這種”等。(3).5字以上詞語暫不收錄前面說過,漢語中5字以上詞語絕大部分是由詞部件(一般是1~4個(gè)字)組合而來的,因而不屬于本詞典的收錄范圍。但漢語中的確還有一小部分5字以上的詞語不能拆為更小的詞部件,這主要包括譯詞、外國地名、人名、國家名、熟語、格言、成語等。如:“阿爾巴尼亞、布宜諾斯艾利斯、戈?duì)柊蛦谭颉司挪浑x十、冰凍三尺非一日之寒”等。但這些詞語在大規(guī)模的語料中出現(xiàn)的幾率非常低。據(jù)語言學(xué)院編的《現(xiàn)代漢語頻率詞典》中的統(tǒng)計(jì),詞頻最高的前9000詞中,5字以上詞語只有2個(gè)。這也就是說,真正常用的5字以上的詞語很少。當(dāng)然,對(duì)于一個(gè)實(shí)際的自然語言處理系統(tǒng)來說,補(bǔ)收一些五個(gè)字以上的詞也是可以的。(4).增補(bǔ)了中文標(biāo)點(diǎn)符號(hào)漢語文本中,除了各種語言成分及漢字以外,還有必不可少的標(biāo)點(diǎn)符號(hào)。它們是句子分析時(shí)可利用的重要標(biāo)記,而且每種標(biāo)點(diǎn)符號(hào)也有各自獨(dú)特的語法意義。因此,電子詞典把中文標(biāo)點(diǎn)符號(hào)也全部收錄了,并一一進(jìn)行有關(guān)的屬性描寫。三.各類詞語的具體收詞原則

電子詞典中所收錄的26類詞語中,問題較多的主要是名詞、時(shí)間詞、處所詞、數(shù)詞、區(qū)別詞、動(dòng)詞、形容詞、狀態(tài)詞、成語、習(xí)用語、簡稱略語等11個(gè)開放類。下面依次對(duì)這11類詞語的具體處理原則進(jìn)行介紹:

(一).名詞

1.單純?cè)~(由一個(gè)語素構(gòu)成的詞)1).單音節(jié)名詞都是單純?cè)~,數(shù)量有限,而且構(gòu)詞能力較強(qiáng),應(yīng)盡可能收錄。如:電子詞典中現(xiàn)已收錄的拼音首字母為“y”的單音節(jié)名詞有:“牙、芽、煙、鹽、眼、羊、腰、藥、印、鷹、營、油、鈾、釉、魚、雨、云、韻”等。2).雙音節(jié)以上的單純?cè)~,收錄高頻的。如:玻璃、蝴蝶、葡萄、鴛鴦、蜈蚣、傀儡、垃圾、沙發(fā)、邏輯、奧林匹克2.附加式合成詞(由“h+w|g”或“w|g+k”形式構(gòu)成的詞。其中h表示前接成分,w表示詞(word),g表示語素,k表示后接成分,“|”表示“或”的關(guān)系),只收錄少數(shù)搭配固定的高頻詞。如:h+w:阿爸阿姨老鷹老天小說小鬼h+g:阿婆老師老鼠小孩小子偽軍w+k:省長科學(xué)家彈性學(xué)員統(tǒng)治者苦頭物理學(xué)轟炸機(jī)加法器生產(chǎn)率g+k:廠長作家碼頭石頭文學(xué)磁性葉子對(duì)于“w|g+子|兒”的名詞,有時(shí)后接成分“子|兒”可有可無,這時(shí),就只收錄沒有“子|兒”的形式。如“花兒、刀子”不收,但“花刀”收錄。有些必須帶“子|兒”的,就作為附加式合成詞收錄,如“蚊子、嗓子、蓋子、傻子、個(gè)兒、死心眼兒、小不點(diǎn)兒”等。3.由“g+g/w+g/g+w”構(gòu)成的復(fù)合名詞,從寬收錄。如:1).g+g1+1:狀況堡壘波濤策略財(cái)政措施2).w+g1+1:教授白色辦法用具錯(cuò)誤2+1:電視臺(tái)辦公室美術(shù)片目的地發(fā)展史保溫杯編者按3).g+w1+1:道路待遇壁虎物力1+2:綿白糖國內(nèi)外4.由“w+w”構(gòu)成的復(fù)合名詞,只收錄少數(shù)搭配固定、詞義具有整體性的詞語。如:1+1:大小紙張刺刀出口大局牛肉火車紅燈紅茶仇恨軍團(tuán)花朵1+2:大自然輕音樂逆命題涮羊肉2+1:出租車衛(wèi)生球玻璃鋼旅游鞋2+2:浪漫主義獨(dú)生子女人造衛(wèi)星新生事物組織關(guān)系三角函數(shù)1+3:正多邊形總工程師正三角形3+1:共產(chǎn)黨人5.專有名詞1).收錄常見的國家名、城市名、省名、洲名,以及少數(shù)自然地理名稱。如:國家:中國、英國、美國、德國、日本、越南城市:北京、北京市、香港、上海、巴黎、紐約省:安徽、浙江省、浙江、臺(tái)灣省、臺(tái)灣洲:亞洲、拉丁美洲、非洲、歐洲自然地理:黃山、泰山、北冰洋、太平洋、黃河2).人名從嚴(yán)收錄。目前只收錄了“毛澤東、雷鋒”等極少數(shù)幾個(gè)。(二).時(shí)間詞

1.時(shí)間詞絕大部分都是雙音節(jié)的,因而,對(duì)雙音節(jié)的從寬收錄。如:“白天、傍晚、春季、冬天、此后、此刻、從前、當(dāng)代、過去、將來、年底、課間、事前”等。2.一年中的十二個(gè)月、一個(gè)星期的七天全部收錄。如:“正月、一月、二月、……、十一月、十二月、星期一、星期二、……、星期六、星期天、星期日”等。3.朝代名、節(jié)日名,只收錄高頻的。如:“宋朝、唐朝、春節(jié)、元旦、國慶節(jié)、勞動(dòng)節(jié)、端午節(jié)、復(fù)活節(jié)、圣誕節(jié)”等。

(三).處所詞

1.由“w+g”構(gòu)成的雙音節(jié)處所詞,從寬收錄。如:“低空、高空、附近、外國、遠(yuǎn)方、周圍、沿線、沿途、上游、下游”等。2.由“n|Ng+f”構(gòu)成的雙音節(jié)處所詞,常用的予以收錄。如:“地下、國內(nèi)、國外、身邊、面前、田間、心頭、戶外、空中、途中、華北”等。

(四).數(shù)詞

數(shù)詞雖然是開放類,但電子詞典收錄的卻只是封閉集。它包括以下幾種成分:1.基數(shù)詞“一、二、三……九、十、兩、幾”等12個(gè);2.位數(shù)詞“十、百、千、萬、億、兆”等;3.助數(shù)詞“第、初、點(diǎn)、分之、百分之、數(shù)、來、多、半、零、左右、好幾”等;4.序數(shù)詞,只收“第一、第二”,其它不收;5.少數(shù)常用數(shù)量詞,如:“一個(gè)、一些、一下、一點(diǎn)、多種、半天、半截、很多、許多、若干、不少、少許、多數(shù)、無數(shù)、上萬、億萬”等;6.縮略數(shù)詞“倆、仨、廿、卅”等4個(gè)。

(五).區(qū)別詞

1.單純?cè)~很少,盡量收全。如:金、銀、男、女、陰、陽、正、副、公、母2.附加式由后接成分“型、式、性”等參與構(gòu)成的合成詞,常用的從寬收錄。如:巨型大型中型小型微型良性惡性雌性雄性男式女式中式西式流線型噴氣式3.復(fù)合詞凡可以對(duì)舉的,從寬收錄。如:黑白彩色長途短途特等頭等次等下等一等

(六).動(dòng)詞

1.單純?cè)~盡量多收錄如:電子詞典中現(xiàn)已收錄的拼音首字母為“y”的有:壓(~碎)、壓(逼近)、壓(下賭注)、押、咽、淹、沿、演、驗(yàn)、養(yǎng)、搖、咬(咬了一口蘋果)、咬(夾住)、咬(狗叫)、舀、要(索取)、要(應(yīng)該、需要)、噎、依、議、引、印、應(yīng)2.附加式合成詞,常用的收錄。如:革命化工業(yè)化機(jī)械化社會(huì)化電氣化腐化美化綠化合作化3.復(fù)合詞絕大部分都是雙音節(jié)的,三、四音節(jié)以上的極少。1).由“g+g/w+g/g+w”構(gòu)成的動(dòng)詞從寬收錄。如:g+g:翱翔懊悔駁斥鄙視崩潰狐媚撰著窒息婉惜w+g:愛惜安慰安置辦公辦理幫助包括保持保佑保證奔赴奔騰避免不惜g+w:廝殺候選誆騙嬉鬧拯救貯藏善于賑災(zāi)鐫刻置換2).由“w+w”構(gòu)成的動(dòng)詞,只收錄搭配固定、有專門詞義的常用詞語。如:狀中式:對(duì)話瓜分胡說胡鬧不滿不如瞎抓后退南下并列式:抄寫收買贈(zèng)送述補(bǔ)式:劃清沖破加快加強(qiáng)打斷趕走壞死來自加上趕上放下分開拿下等到述賓式:審美著火開花開學(xué)帶頭開槍停車上馬上山下手4.離合詞:理發(fā)洗澡上課簽名開竅報(bào)恩

(七).形容詞

1.單純?cè)~,盡量收全。如:高矮大小紅黃冷熱快慢富淺深美丑圓新少亮對(duì)破2.復(fù)合詞幾乎都是雙音節(jié)的,三音節(jié)以上的極少。1).由“g+g/w+g/g+w”構(gòu)成的形容詞,從寬收錄。如:g+g:整潔報(bào)歉霸道秀麗優(yōu)雅溫馨w+g:白凈不妥活潑清醇沒譜g+w:優(yōu)美耐心安靜骯臟昂貴傲慢2).由“w+w”構(gòu)成的形容詞,只選收那些搭配固定、有專門詞義的常用高頻詞。如:搶手吃香吃緊清純湊巧大方好聽和好好笑過硬撥尖兒不錯(cuò)好學(xué)偏心到家

(八).狀態(tài)詞

狀態(tài)詞沒有單音節(jié)的,只有雙音節(jié)、三音節(jié)或四音節(jié)的。1.雙音節(jié)的數(shù)量較少,從寬收錄。如:筆挺筆直冰冷雪白粉白金黃蠟黃焦黃雪亮通紅烏黑油亮漆黑滔滔隆隆2.三音節(jié)1).是“ABB”式構(gòu)成且無相應(yīng)“AB”式的,從寬收錄如:笑盈盈羞答答文縐縐假惺惺喜洋洋美滋滋白皚皚白茫茫光溜溜毛茸茸亮晶晶綠茵茵紅撲撲2).是“ABB”式構(gòu)詞且有“AB”基本式者,只選收少量使用頻度高的。如:孤單單干巴巴但“亮堂、昏沉、滑溜”的重疊式“亮堂堂、昏沉沉、滑溜溜”等則未收錄。3.四音節(jié)1).“AABB”重疊式(1).沒有相應(yīng)的“AB”基本式的,從寬收錄。如:鼓鼓囊囊滿滿當(dāng)當(dāng)密密層層轟轟烈烈慢慢吞吞形形色色慢慢悠悠郁郁蔥蔥(2).有相應(yīng)的“AB”基本式的,只收錄少數(shù)的常用高頻詞。如:大大方方恭恭敬敬馬馬虎虎平平淡淡勤勤懇懇明明白白忙忙碌碌慌慌張張扭扭捏捏而“安靜、安穩(wěn)、白凈、從容、孤單”等詞的“AABB”重疊式則未收入。2).“A里AB”及其它形式的詞,只選收常用的。如:慌里慌張妖里妖氣花里胡梢胡里胡涂灰不溜秋4.電子詞典只收錄不帶“的”的狀態(tài)詞。如:“通紅、綠油油、拖拖拉拉”等。而對(duì)于帶“的”的詞,如:“甜甜的、尖尖的、通紅的、綠油油

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論