




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、PAGE 1PAGE 6漢語(yǔ)詞匯統(tǒng)計(jì)研究王惠新加坡國(guó)立大學(xué)中文系 HYPERLINK mailto:.sg .sg1、詞匯統(tǒng)計(jì)概說(shuō)詞匯統(tǒng)計(jì)研究是漢語(yǔ)詞匯學(xué)的一個(gè)重要方面,它可以通過(guò)對(duì)漢語(yǔ)詞匯的各種現(xiàn)象的量的描述得出質(zhì)的評(píng)價(jià),從而揭示漢語(yǔ)詞匯的各種統(tǒng)計(jì)特性。這種統(tǒng)計(jì)研究可以由人來(lái)做,也可以由計(jì)算機(jī)來(lái)做。從詞匯研究的角度來(lái)看,詞匯統(tǒng)計(jì)研究已有很長(zhǎng)的歷史了。古印度語(yǔ)言學(xué)家在研究婆羅門教的經(jīng)典吠陀經(jīng)時(shí),就進(jìn)行過(guò)單詞數(shù)目的統(tǒng)計(jì)。1898年德國(guó)學(xué)者F.W.Kaeding編制了世界上第一部頻率詞典德語(yǔ)頻率詞典。1944年,英國(guó)數(shù)學(xué)家G.U.Yule發(fā)表了文學(xué)詞
2、語(yǔ)的統(tǒng)計(jì)研究,大規(guī)模地使用概率和統(tǒng)計(jì)方法來(lái)研究語(yǔ)言。1949年,法國(guó)學(xué)者R.Michea提出建立“統(tǒng)計(jì)詞匯學(xué)”。1965年,德國(guó)學(xué)者R.D.Keil把詞頻統(tǒng)計(jì)與現(xiàn)代統(tǒng)計(jì)學(xué)結(jié)合起來(lái),提出了“詞匯計(jì)量學(xué)(lexicometric)”。近40年來(lái),由于語(yǔ)言統(tǒng)計(jì)研究中廣泛地采用計(jì)算機(jī),逐漸改變了傳統(tǒng)的手工查頻、手工統(tǒng)計(jì)的辦法,提高了統(tǒng)計(jì)的效率和精度,詞匯統(tǒng)計(jì)學(xué)在國(guó)際上有了巨大的發(fā)展。我國(guó)也早在20世紀(jì)20年代就進(jìn)行過(guò)漢語(yǔ)詞匯的統(tǒng)計(jì)研究。70年代末以來(lái),我國(guó)開始利用計(jì)算機(jī)進(jìn)行漢語(yǔ)詞匯的統(tǒng)計(jì)研究,除了統(tǒng)計(jì)字、詞頻度以外,還以此為基礎(chǔ)建立了漢語(yǔ)的語(yǔ)料庫(kù),編制了各種頻率詞典、詞表,并對(duì)現(xiàn)代漢語(yǔ)的常用字、常用詞
3、、構(gòu)詞規(guī)則等進(jìn)行了多方面的研究,取得了可觀的成績(jī)。2、二三十年代的漢語(yǔ)基本詞匯統(tǒng)計(jì) 在漢語(yǔ)教學(xué)中,究竟應(yīng)該選擇哪些字最先教給學(xué)生?哪些字是最常用的?哪些是次常用的?一個(gè)人至少要掌握多少字,才可以完成基本的閱讀與寫作?所有這些,無(wú)疑是語(yǔ)文教學(xué)首先就遇到的問(wèn)題。因此,編選常用字表給學(xué)生學(xué)習(xí)使用就成了中國(guó)語(yǔ)文教育的傳統(tǒng)。千字文(1000字)、三字經(jīng)(1248字)是古代漢語(yǔ)教學(xué)的重要模式。我國(guó)第一個(gè)進(jìn)行現(xiàn)代意義上的字頻統(tǒng)計(jì)分析,是語(yǔ)言學(xué)家黎錦熙在1922年發(fā)表的國(guó)語(yǔ)基本語(yǔ)詞的統(tǒng)計(jì)研究(國(guó)文學(xué)會(huì)叢刊1卷1號(hào))。其后,教育學(xué)家陳鶴琴根據(jù)6類材料55萬(wàn)漢字,歷時(shí)兩三年,選出了4261常用字,1928年6月完
4、成了語(yǔ)體文應(yīng)用字匯。此外,王文新也編寫過(guò)小學(xué)分級(jí)字匯研究一書。1934年,彭仁山對(duì)三民主義用詞作了一些統(tǒng)計(jì)與分析彭仁山,三民主義用詞統(tǒng)計(jì)與分析,教育研究第52期,1934年。1946年,四川省教育科學(xué)院頒發(fā)了常用字選,收錄2000個(gè)字。 這些統(tǒng)計(jì)都是手工查頻,材料零星分散,而且統(tǒng)計(jì)單位只限于漢字。3、五六十年代常用字詞的統(tǒng)計(jì) 建國(guó)以后為了推廣普通話、普及文化知識(shí),首先就要編寫識(shí)字教材。為了避免漢語(yǔ)教學(xué)大綱設(shè)計(jì)和教材編寫的主觀盲目性,提高教學(xué)效率,中央人民政府和各省的教育部門都很重視對(duì)漢語(yǔ)常用字詞的統(tǒng)計(jì),陸續(xù)公布了一些基于頻度統(tǒng)計(jì)的字表和詞表,如:常用漢字登記表(1017字)1950年9月,中央
5、人民政府教育部社會(huì)教育司常用字表(2000字) 1952年6月,中央人民政府教育部普通話常用字表(3000字)1958年8月,山東省教育廳普通話三千常用詞表(3000詞)1962年,中國(guó)文字改革委員會(huì)外國(guó)學(xué)生用四千詞表(4000詞)1964年,北京語(yǔ)言學(xué)院常用字表(3100字) 1965年3月,北京市教育局 本階段的詞匯統(tǒng)計(jì)工作基本上都是面向初級(jí)的語(yǔ)文教學(xué),常用字的字頻手工統(tǒng)計(jì),占了絕對(duì)優(yōu)勢(shì)。詞頻統(tǒng)計(jì)剛剛開始,而且規(guī)模一般比較小。統(tǒng)計(jì)結(jié)果也只是用來(lái)編寫常用字表或詞表,相關(guān)的詞匯研究尚未真正展開。4、 七八十年代利用計(jì)算機(jī)進(jìn)行的大規(guī)模詞頻統(tǒng)計(jì) 70年代中期以來(lái),隨著計(jì)算機(jī)處理非數(shù)值信息技術(shù)的日益
6、提高,語(yǔ)言教學(xué)與研究中開始利用計(jì)算機(jī)作為輔助工具。漢語(yǔ)詞匯統(tǒng)計(jì)也擺脫了傳統(tǒng)的手工查頻,逐漸采用人機(jī)結(jié)合的辦法,利用計(jì)算機(jī)進(jìn)行自動(dòng)統(tǒng)計(jì)分析,提高了統(tǒng)計(jì)的效率和規(guī)模,而且統(tǒng)計(jì)單位也從字?jǐn)U展到了詞。漢語(yǔ)詞匯統(tǒng)計(jì)研究提高到一個(gè)新的水平。4.1 字頻統(tǒng)計(jì)19751976年,北京新華印刷廠等19個(gè)單位發(fā)動(dòng)了1500名中學(xué)生對(duì)出版物中的2162萬(wàn)字的材料進(jìn)行統(tǒng)計(jì),編成漢字頻率表。這是我國(guó)利用手工查頻規(guī)模最大的一次字頻統(tǒng)計(jì)。1976年12月,中國(guó)“七四八”工程查頻組首次利用計(jì)算機(jī)對(duì)漢字的頻度進(jìn)行統(tǒng)計(jì),根據(jù)對(duì)2100余萬(wàn)字的語(yǔ)料的統(tǒng)計(jì)結(jié)果,得出現(xiàn)代漢字綜合使用頻度表,其中包含常用字4152個(gè),為中文信息處理的國(guó)
7、家標(biāo)準(zhǔn)GB2312-80信息交換用漢字編碼字符集基本集提供了科學(xué)的基礎(chǔ)數(shù)據(jù)。1976年,武漢大學(xué)語(yǔ)言自動(dòng)處理研究組在RD-11計(jì)算機(jī)上,也曾對(duì)駱駝祥子進(jìn)行字頻統(tǒng)計(jì),計(jì)算出該書總字?jǐn)?shù)為107306個(gè),單字2413個(gè),在一定程度上揭示了該書用字的特點(diǎn)。1982年11月,國(guó)家標(biāo)準(zhǔn)局給北京航空航天大學(xué)等10個(gè)單位下達(dá)了“現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)工程”的任務(wù),后來(lái),北航又受中國(guó)文字改革委員會(huì)的委托,利用HP-3000計(jì)算機(jī),從3億漢字的素材中抽取了1108萬(wàn)字的樣本進(jìn)行統(tǒng)計(jì),1985年3月,工程完成,通過(guò)了國(guó)家鑒定。統(tǒng)計(jì)結(jié)果編成現(xiàn)代漢語(yǔ)用字頻度表,其中包括以下十種用字頻度表:文體生活、歷史哲學(xué)、政治經(jīng)濟(jì)、新聞報(bào)
8、道、文學(xué)藝術(shù)、建筑運(yùn)輸、農(nóng)林牧漁、輕工業(yè)、重工業(yè)、基礎(chǔ)知識(shí)用字頻度頻度表。這是我國(guó)規(guī)模最大、分科最多的一次字頻統(tǒng)計(jì)工作,并首次進(jìn)行了多音字統(tǒng)計(jì)。在此基礎(chǔ)上,1988年,國(guó)家語(yǔ)言文字工作委員會(huì)漢字處制定了現(xiàn)代漢語(yǔ)常用字表,它把漢字的使用頻率與該字在各個(gè)學(xué)科中的分布情況綜合起來(lái)考慮,從19281986年的不同學(xué)科的語(yǔ)料中,選取使用頻度高、學(xué)科分布廣、構(gòu)詞能力強(qiáng)的2500字作為常用字,頻率及使用度次之的1000個(gè)字則定為次常用字。山西大學(xué)計(jì)算機(jī)系通過(guò)抽樣統(tǒng)計(jì)200萬(wàn)字的語(yǔ)料對(duì)該字表進(jìn)行檢測(cè),發(fā)現(xiàn)這2500個(gè)常用字覆蓋率可達(dá)到97.97%,1000個(gè)次常用字覆蓋率達(dá)1.51%,合計(jì)(3500字)覆蓋率
9、達(dá)99.48%,效果令人滿意。4.2 詞頻統(tǒng)計(jì) 由于書面漢語(yǔ)不是按詞分寫的,而是以漢字為單位逐個(gè)書寫的,詞與詞之間的界限以及詞和語(yǔ)素、詞組的劃分,都缺少明顯的依據(jù)。詞的定義成為長(zhǎng)期以來(lái)困擾著漢語(yǔ)詞匯學(xué)界的一道難題。因此,漢語(yǔ)大規(guī)模的統(tǒng)計(jì)研究多年來(lái)一直停留在以字為單位的階段上。比起常用字來(lái),常用詞的統(tǒng)計(jì)起步晚,難度更大。直到80年代以后,隨著漢語(yǔ)詞匯研究的深入和中文信息處理技術(shù)的進(jìn)步,我國(guó)在詞頻統(tǒng)計(jì)方面才開始大規(guī)模地開展工作。進(jìn)行詞頻統(tǒng)計(jì),首先要從連續(xù)的漢字串中把詞且分出來(lái)。切詞的方式有人工切詞和計(jì)算機(jī)自動(dòng)切詞兩種。在現(xiàn)有的詞頻統(tǒng)計(jì)中,大多數(shù)采用人工切詞,憑借人的詞匯、語(yǔ)法知識(shí)和對(duì)上下文的理解,
10、使詞與詞只間留出空白。從1979年末至1986年,北京語(yǔ)言學(xué)院語(yǔ)言教學(xué)研究所把“現(xiàn)代漢語(yǔ)詞匯統(tǒng)計(jì)研究”列為重點(diǎn)項(xiàng)目,對(duì)不同體裁的200萬(wàn)字語(yǔ)料進(jìn)行了人工切詞和抽樣統(tǒng)計(jì),不僅對(duì)詞頻進(jìn)行統(tǒng)計(jì),而且同時(shí)兼顧字頻、組詞能力和詞長(zhǎng)的統(tǒng)計(jì)分析。統(tǒng)計(jì)結(jié)果分別列成:按音節(jié)排列的頻率詞表;使用度最高的前8000詞詞表;頻率最高的前8000詞詞表;使用度最低的詞語(yǔ)單位表;按報(bào)刊政論、科普書刊、日??谡Z(yǔ)、文學(xué)作品分別列出的頻率最高的4000詞表(4個(gè)表);按遞降順序排列的漢字頻率表;漢字在詞首、詞間和詞末的構(gòu)詞能力分析;其它附表。該項(xiàng)目的成果編成現(xiàn)代漢語(yǔ)頻率詞典一書出版。這是我國(guó)最早的一部字詞統(tǒng)計(jì)兼顧的頻率辭典。統(tǒng)
11、計(jì)結(jié)果具有很高的客觀性、準(zhǔn)確性 李兆麟,漢語(yǔ)計(jì)量研究初探,辭書研究1986年第4期。此外,該項(xiàng)目組成員還與中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所合作,統(tǒng)計(jì)了全國(guó)中小學(xué)統(tǒng)一使用的十年制語(yǔ)文課本,出版了漢語(yǔ)詞匯的統(tǒng)計(jì)與分析。他們發(fā)現(xiàn),總字520934個(gè)字的課本中共包含的不同的詞18177個(gè),平均詞長(zhǎng)為1.98個(gè)漢字。頻率最高的1000詞,共出現(xiàn)278448次,占全部語(yǔ)料詞次總數(shù)的74%強(qiáng)。這些詞由731個(gè)漢字組成,其中頻率最高的前10個(gè)是“的、一、了、我、是、在、不、們、人、有”,它們占全部語(yǔ)料總字?jǐn)?shù)的14.9%,前100個(gè)漢字占全部語(yǔ)料總字?jǐn)?shù)的41.1%,731個(gè)漢字全部語(yǔ)料總字?jǐn)?shù)的63.9%,其常用程度和重
12、要性顯而易見?;谶@些數(shù)據(jù),課題組對(duì)731個(gè)漢字的構(gòu)詞能力進(jìn)行了進(jìn)一步的研究。他們還根據(jù)不同音節(jié)的詞的數(shù)量與覆蓋率的對(duì)比提出:在靜態(tài)的環(huán)境中,單音節(jié)詞占的比例較小,但在使用語(yǔ)言的動(dòng)態(tài)過(guò)程中,單音節(jié)詞所占的比例則比雙音節(jié)的比例大得多。這為漢語(yǔ)詞匯教學(xué)和研究提供了有價(jià)值的基礎(chǔ)資料。北京師范大學(xué)現(xiàn)代化教育技術(shù)研究所,也利用計(jì)算機(jī)進(jìn)行了中小學(xué)教材的詞頻統(tǒng)計(jì)工作。在對(duì)106.8萬(wàn)的語(yǔ)料人工切詞的基礎(chǔ)上,建立了一個(gè)含有39601個(gè)詞的頻度詞表。在704841個(gè)總詞次中,單音節(jié)詞占52.7%,雙音節(jié)詞占43.8%,三音節(jié)詞占2.6%,四音節(jié)以上的詞占0.9%。可見,在語(yǔ)言使用過(guò)程中,單音節(jié)詞仍比雙音節(jié)詞占優(yōu)
13、勢(shì)。這一階段中,規(guī)模最大的漢語(yǔ)詞頻統(tǒng)計(jì)應(yīng)是1982年國(guó)家標(biāo)準(zhǔn)局下達(dá)的“現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)工程”項(xiàng)目,由北航等10家單位聯(lián)合攻關(guān),從19191982年的社會(huì)科學(xué)和自然科學(xué)的3億漢字的材料中抽樣2500萬(wàn)字的語(yǔ)料,分時(shí)期、分學(xué)科地進(jìn)行詞頻統(tǒng)計(jì)。統(tǒng)計(jì)結(jié)果為漢語(yǔ)自動(dòng)切詞、漢語(yǔ)標(biāo)準(zhǔn)詞庫(kù)、電子辭典等一系列語(yǔ)言工程奠定了重要基礎(chǔ)??傊?,80年代可以說(shuō)是我國(guó)的字頻統(tǒng)計(jì)由小到大、詞頻從無(wú)到有、并取得輝煌成就的時(shí)代。“漢語(yǔ)詞匯統(tǒng)計(jì)研究所得出的各種成果,不僅為編制基本詞庫(kù)、通用詞庫(kù)、專用詞庫(kù)等提供科學(xué)、可靠的語(yǔ)料基礎(chǔ),而且因相關(guān)影響而帶動(dòng)的語(yǔ)音、口語(yǔ)、句法、文字等方面的統(tǒng)計(jì)研究成果也將為編出相應(yīng)的正音詞典、正字詞典、
14、口語(yǔ)詞典、句法詞典等工具書創(chuàng)造了可能性。從而推動(dòng)語(yǔ)言學(xué)理論研究和詞典學(xué)研究的深入發(fā)展 常寶儒,關(guān)于現(xiàn)代漢語(yǔ)頻率詞典的編纂問(wèn)題,辭書研究1986年第4期”。5、九十年代基于統(tǒng)計(jì)的詞匯研究 進(jìn)入九十年代以后,漢語(yǔ)的詞匯統(tǒng)計(jì)一個(gè)顯著的變化是,不再僅僅只是為編制詞表而進(jìn)行常用字詞的統(tǒng)計(jì),而是利用統(tǒng)計(jì)的成果,針對(duì)某一專題展開多方面的深入細(xì)致的漢語(yǔ)詞匯計(jì)量研究,如劉英林、宋紹周(1992)在現(xiàn)代漢語(yǔ)常用字表的基礎(chǔ)上,針對(duì)對(duì)外漢語(yǔ)教學(xué)的需要,進(jìn)行了漢語(yǔ)常用字詞的統(tǒng)計(jì)分級(jí)研究 劉英林、宋紹周,漢語(yǔ)常用字詞的統(tǒng)計(jì)與分級(jí),中國(guó)語(yǔ)文1992第3期。下面我們分為4個(gè)方面來(lái)詳細(xì)介紹:5.1 漢語(yǔ)語(yǔ)素的定量研究 1984
15、年,尹斌庸對(duì)漢字頻度表中累積頻率99.94%以上的4200字逐個(gè)分析,得出單音節(jié)語(yǔ)素4871個(gè)。他從詞性、獨(dú)立性、構(gòu)詞能力三個(gè)方面對(duì)這4871個(gè)語(yǔ)素進(jìn)行手工定量分析。結(jié)果發(fā)現(xiàn),名語(yǔ)素占41%、動(dòng)語(yǔ)素占38%,形語(yǔ)素占13%,三者占總數(shù)的92%,是語(yǔ)素的主體部分。在獨(dú)立語(yǔ)素中,動(dòng)語(yǔ)素占48%,遙遙領(lǐng)先。名語(yǔ)素占29%,形語(yǔ)素占10%,其他8類語(yǔ)素僅占13%。另外,將近一半(49%)的單音節(jié)語(yǔ)素可以獨(dú)立使用。名、動(dòng)、形三類語(yǔ)素的平均構(gòu)詞力按大小順序排列是:名18.8,形17.1,動(dòng)14.0 尹斌庸,漢語(yǔ)語(yǔ)素的定量研究,中國(guó)語(yǔ)文1984年第6期。1994年清華大學(xué)計(jì)算機(jī)系利用計(jì)算機(jī)建立了一個(gè)大規(guī)模的
16、數(shù)據(jù)庫(kù),“它對(duì)覆蓋漢語(yǔ)的6763個(gè)常用字的漢語(yǔ)語(yǔ)素及其所構(gòu)成的二字詞、三字詞、四字詞進(jìn)行了窮舉描述。在漢語(yǔ)語(yǔ)素?cái)?shù)據(jù)庫(kù)中共有語(yǔ)素項(xiàng)17470個(gè),語(yǔ)素10442個(gè),二字詞78230個(gè),三字詞6700個(gè),四字詞14200個(gè)。這個(gè)數(shù)據(jù)庫(kù)共有116600條記錄 苑春法,黃昌寧,基于語(yǔ)素?cái)?shù)據(jù)庫(kù)的漢語(yǔ)語(yǔ)素機(jī)構(gòu)詞研究,世界漢語(yǔ)教學(xué),1998年第2期”。 統(tǒng)計(jì)數(shù)據(jù)表明,在這10442個(gè)語(yǔ)素中,單字語(yǔ)素有9712個(gè),占總數(shù)的93%,二字及二字以上的語(yǔ)素為730個(gè),占7%。成詞語(yǔ)素2878個(gè),半成詞語(yǔ)素432個(gè),待界定語(yǔ)素1148個(gè)。由這些語(yǔ)素構(gòu)成的二字詞共43097個(gè),其中名詞22016個(gè),占51.1%,動(dòng)詞15
17、666個(gè),占36.4%,形容詞3276個(gè),占7.6%,三類詞占二字詞總數(shù)的95%。但無(wú)論是名詞、動(dòng)詞還是形容詞,絕大多數(shù)語(yǔ)素在構(gòu)詞時(shí)意義都保持不變,所占比例分別為:87.8%、93.2%、87.0%。5.2 漢語(yǔ)構(gòu)詞規(guī)則的定量研究80年代中期,北京語(yǔ)言學(xué)院在對(duì)200萬(wàn)字語(yǔ)料進(jìn)行詞頻統(tǒng)計(jì)的同時(shí),對(duì)每個(gè)漢字在詞首、詞間和詞末的構(gòu)詞能力也分別做了統(tǒng)計(jì)分析。這是我國(guó)第一次用精確的數(shù)據(jù)反映出漢字處于不同位置的構(gòu)詞能力的系統(tǒng)。計(jì)算機(jī)根據(jù)這些數(shù)據(jù)可以自動(dòng)編成構(gòu)詞詞典。1994年清華大學(xué)計(jì)算機(jī)系以10442個(gè)語(yǔ)素的屬性描述為基礎(chǔ),對(duì)漢語(yǔ)二字復(fù)合詞的構(gòu)造規(guī)則進(jìn)行了統(tǒng)計(jì)分析。由這些語(yǔ)素構(gòu)成的二字詞共43097個(gè),
18、其中,名詞占51.1%,動(dòng)詞占36.4%,形容詞占7.6%。通過(guò)進(jìn)一步的統(tǒng)計(jì)分析,發(fā)現(xiàn)這三類詞各有不同的構(gòu)詞規(guī)律。名詞的主要構(gòu)詞方式是定中式和聯(lián)合式,約占二字名詞的90%。其中,“名+名”構(gòu)成的定中式數(shù)量最多,占46.7%,“形+名”構(gòu)成的定中式次之,占20.6%,再次是“動(dòng)+名”構(gòu)成的定中式和“名+名”構(gòu)成的聯(lián)合式。如果只從構(gòu)詞成分的詞性來(lái)看,“X+名”構(gòu)成名詞的最多,占89.8%,其中“名+名”占57.2%。動(dòng)詞的主要構(gòu)詞方式為聯(lián)合式、述賓式和狀中式,占總數(shù)的90.1%。主要的類序?yàn)椋骸皠?dòng)+動(dòng)”占44.7%,“動(dòng)+名”占34.1%,“形+動(dòng)”占7.2%,合計(jì)占96%。形容詞的主要詞方式為聯(lián)
19、合式,占62.5%。主要的類序是“形+形”,占67.3%。其他的類序都很少。 1997年,北京語(yǔ)言文化大學(xué)完成了“漢語(yǔ)構(gòu)詞基本字的統(tǒng)計(jì)分析 張凱,漢語(yǔ)構(gòu)詞基本字的統(tǒng)計(jì)分析,語(yǔ)言教學(xué)與研究1997年第1期”課題。該項(xiàng)目以國(guó)家語(yǔ)委和國(guó)家教委1988年公布的現(xiàn)代漢語(yǔ)常用詞表中的3500個(gè)漢字為基礎(chǔ),首先找出現(xiàn)代漢語(yǔ)詞典、現(xiàn)代漢語(yǔ)詞典補(bǔ)編、新詞新語(yǔ)詞典(李行健主編,語(yǔ)文出版社,1989)中由這3500字構(gòu)成的詞條70343個(gè),其中包括單音節(jié)詞4555個(gè),雙音節(jié)詞496415個(gè),三音節(jié)詞8308個(gè),四音節(jié)詞6922個(gè),五音節(jié)詞702個(gè),六音節(jié)詞215個(gè)。然后對(duì)每個(gè)漢字的構(gòu)詞次數(shù)及位置進(jìn)行統(tǒng)計(jì)分析,得到“
20、漢字構(gòu)詞統(tǒng)計(jì)表”和“漢字構(gòu)詞手冊(cè)”兩份材料,并根據(jù)構(gòu)詞率的大小,把3500個(gè)常用字劃分為5個(gè)等級(jí),確定其中的1056個(gè)字為漢語(yǔ)的構(gòu)詞基本字。這種對(duì)漢語(yǔ)構(gòu)詞規(guī)則的大規(guī)模的統(tǒng)計(jì)分析,不僅有助于解決中文信息處理中的未定義詞識(shí)別,而且為漢語(yǔ)構(gòu)詞法研究提供了一個(gè)更加客觀的基礎(chǔ)。5.3 漢語(yǔ)詞匯地域分布的定量研究19911997年,香港理工大學(xué)中文及雙語(yǔ)學(xué)系歷時(shí)6載,完成了中國(guó)大陸、臺(tái)灣、香港漢語(yǔ)詞庫(kù),從19901992年的大陸、臺(tái)灣和香港的報(bào)刊中選取600萬(wàn)字的語(yǔ)料,共有60811個(gè)漢語(yǔ)詞條,進(jìn)行詞頻、覆蓋率、使用度的統(tǒng)計(jì)分析。這是迄今為止已經(jīng)完成的語(yǔ)料地域分布涵蓋整個(gè)漢語(yǔ)文化圈的第一個(gè)漢語(yǔ)語(yǔ)料庫(kù)。陳瑞
21、端、湯志祥(1999)以此為基礎(chǔ),通過(guò)檢索和統(tǒng)計(jì),對(duì)90年代通行于“兩岸三地”的漢語(yǔ)詞匯進(jìn)行了定量分析 陳瑞端、湯志祥,九十年代漢語(yǔ)詞匯地域分布的定量研究,語(yǔ)言文字應(yīng)用1999年第3期。從地域角度來(lái)看,京、臺(tái)、港三個(gè)語(yǔ)言圈是彼此相互交叉的,三地共用的“三區(qū)域共同詞語(yǔ)”應(yīng)該認(rèn)為是當(dāng)代漢語(yǔ)詞語(yǔ)的共同底層,而某兩個(gè)區(qū)域里通行的“雙區(qū)域通用詞語(yǔ)”應(yīng)是“共同底層”的外延,是共同詞語(yǔ)的直接補(bǔ)充部分。僅在某一區(qū)域內(nèi)使用的“單區(qū)域獨(dú)用詞語(yǔ)”,是京、臺(tái)、港三地之中各自表層的部分,是共同詞語(yǔ)的預(yù)備補(bǔ)充。統(tǒng)計(jì)結(jié)果表明,當(dāng)代漢語(yǔ)詞語(yǔ)雖然存在著地域差異,但“三區(qū)域共同詞語(yǔ)”無(wú)論在數(shù)量上(占90%)、使用頻度上(集中于高頻段與中頻段)、覆蓋率上(達(dá)到95%)都占了絕對(duì)優(yōu)勢(shì)?!半p區(qū)域通用詞語(yǔ)”和“單區(qū)域獨(dú)用詞語(yǔ)”不到總數(shù)的10%,而且大都集中于低頻段。所以說(shuō),京、臺(tái)、港三個(gè)區(qū)域詞語(yǔ)的相同之處仍是主流,并可以進(jìn)行如下分級(jí):甲級(jí)詞(最常用詞) 1200個(gè),乙級(jí)詞(次常用詞)2500個(gè),丙級(jí)詞(常用詞)2500個(gè),丁級(jí)詞(通用詞)6500個(gè)?!叭齾^(qū)域共同詞語(yǔ)”的高頻
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中介押金合同范本
- 2025年漳州貨運(yùn)準(zhǔn)駕證模擬考試
- 醫(yī)院器械采購(gòu)合同范本
- 加工類協(xié)議合同范本
- 辦公窗簾購(gòu)銷合同范本
- 村級(jí)采購(gòu)合同范本
- 代銷鋪貨合同范本
- 買賣合同和貨運(yùn)合同范本
- 專利轉(zhuǎn)讓英文合同范例
- 北京不備案施工合同范本
- 專題13《竹里館》課件(共28張ppt)
- 團(tuán)意操作流程詳解課件
- SH/T 0356-1996燃料油
- GB/T 9846.4-2004膠合板第4部分:普通膠合板外觀分等技術(shù)條件
- GB/T 17836-1999通用航空機(jī)場(chǎng)設(shè)備設(shè)施
- GB/T 13012-2008軟磁材料直流磁性能的測(cè)量方法
- 2023年全國(guó)高中生物聯(lián)賽競(jìng)賽試題和答案
- 第1課中華優(yōu)秀傳統(tǒng)文化的內(nèi)涵與特點(diǎn)課件(共28張PPT)
- 小學(xué)語(yǔ)文中高學(xué)段單元整體教學(xué)的實(shí)踐研究課題中期報(bào)告
- 《木蘭詩(shī)》第二課時(shí)(公開課)課件
- 核電項(xiàng)目人橋吊車抗震計(jì)算書版
評(píng)論
0/150
提交評(píng)論