現(xiàn)代漢語(yǔ)詞量與分級(jí)_第1頁(yè)
現(xiàn)代漢語(yǔ)詞量與分級(jí)_第2頁(yè)
現(xiàn)代漢語(yǔ)詞量與分級(jí)_第3頁(yè)
現(xiàn)代漢語(yǔ)詞量與分級(jí)_第4頁(yè)
現(xiàn)代漢語(yǔ)詞量與分級(jí)_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

現(xiàn)代漢語(yǔ)詞量與分級(jí)第一頁(yè),共四十頁(yè),編輯于2023年,星期三思考一、現(xiàn)代漢語(yǔ)的詞量有多大?二、包括哪些詞語(yǔ)?三、分幾“級(jí)”合適?每級(jí)界限在哪?四、詞級(jí)劃分依據(jù)的標(biāo)準(zhǔn)和方法?第二頁(yè),共四十頁(yè),編輯于2023年,星期三當(dāng)代最具影響力的兩個(gè)常用詞表:《現(xiàn)代漢語(yǔ)頻率詞典》,8548條《對(duì)外漢語(yǔ)教學(xué)詞匯大綱》,8822條第三頁(yè),共四十頁(yè),編輯于2023年,星期三“語(yǔ)法、語(yǔ)音是有系統(tǒng)的,詞匯是一盤(pán)散沙?!弊畛鯇?shí)踐,對(duì)《現(xiàn)代漢語(yǔ)詞典》的計(jì)量研究第四頁(yè),共四十頁(yè),編輯于2023年,星期三近幾年的實(shí)踐:《現(xiàn)代漢語(yǔ)常用詞表》,商務(wù)印書(shū)館,2008年11月“對(duì)外漢語(yǔ)1500常用詞”,見(jiàn)《中國(guó)語(yǔ)言生活狀況報(bào)告2006》,王鐵琨主編,商務(wù)印書(shū)館,2007年8月。(收入國(guó)家漢辦主編《國(guó)際漢語(yǔ)通用課程教學(xué)大綱》外語(yǔ)教學(xué)與研究出版社,2008年4月)“基礎(chǔ)教育3000基本詞”,見(jiàn)《中國(guó)語(yǔ)言生活狀況報(bào)告2007》,王鐵琨主編,商務(wù)印書(shū)館,2008年11月。第五頁(yè),共四十頁(yè),編輯于2023年,星期三一、現(xiàn)代漢語(yǔ)的詞匯量有多大?對(duì)詞典的考察對(duì)詞表的考察對(duì)大規(guī)模真實(shí)語(yǔ)料的考察第六頁(yè),共四十頁(yè),編輯于2023年,星期三從詞典來(lái)考察“詞匯量”1.《現(xiàn)代漢語(yǔ)詞典》的詞匯規(guī)范型詞典全面反映語(yǔ)言的詞匯體系,就要對(duì)詞語(yǔ)作全面收錄,不因某些詞語(yǔ)無(wú)需查檢而不收。規(guī)范型詞典對(duì)民族共同語(yǔ)詞匯的記錄是全面的,但不是窮盡的(在理論上和實(shí)踐上都是不可能的)?!冬F(xiàn)漢》是一部中型詞典,它在收詞上既是全面的,又有較強(qiáng)的選擇性。選詞的依據(jù),主要不是看查考的需要,而是看詞語(yǔ)在語(yǔ)言使用中出現(xiàn)的頻率。晁繼周、單耀海、韓敬體:《關(guān)于規(guī)范型詞典的收詞問(wèn)題》,見(jiàn)《〈現(xiàn)代漢語(yǔ)詞典〉學(xué)術(shù)研討會(huì)論文集》,商務(wù)印書(shū)館,1996年版,第70、72頁(yè)。第七頁(yè),共四十頁(yè),編輯于2023年,星期三《現(xiàn)漢》詞條61000:-單字條10700(4000)-方言詞2600-科技術(shù)語(yǔ)60000*0.2=12000-書(shū)語(yǔ)詞3800=31900從嚴(yán)計(jì)算,32000-40000之間。第八頁(yè),共四十頁(yè),編輯于2023年,星期三在《現(xiàn)漢》的語(yǔ)文詞周圍存在一條寬闊的接壤詞匯帶:1.方言詞:《現(xiàn)代漢語(yǔ)方言大詞典》共41卷,收41個(gè)方言點(diǎn)的詞匯,平均每個(gè)點(diǎn)收詞8000條,其總數(shù)達(dá)30萬(wàn)條以上。《漢語(yǔ)方言大詞典》20萬(wàn)條2.術(shù)語(yǔ)詞、行業(yè)詞:數(shù)十個(gè)學(xué)科、行業(yè),以每個(gè)2000計(jì),有數(shù)十萬(wàn)條。3.新詞語(yǔ):近30年間,30000余條,每年約1000條。4.文言詞:《辭源》10萬(wàn)條,《漢語(yǔ)大詞典》非現(xiàn)代詞。第九頁(yè),共四十頁(yè),編輯于2023年,星期三《當(dāng)代漢語(yǔ)詞典》中型語(yǔ)文詞典520002001《新華詞典》中型語(yǔ)文詞典500002005《現(xiàn)代漢語(yǔ)規(guī)范詞典》中型語(yǔ)文詞典800002005《辭?!反笾行桶倏圃~典1200001999《漢語(yǔ)大詞典》大型歷時(shí)詞典3700001994《中文大辭典》大型歷時(shí)詞典4300001962《漢和大辭典》大型歷時(shí)詞典4000001960《韓漢大辭典》大型歷時(shí)詞典4500002008第十頁(yè),共四十頁(yè),編輯于2023年,星期三方言詞與普通話詞語(yǔ)的區(qū)分:拇指–大拇指–大拇哥第十一頁(yè),共四十頁(yè),編輯于2023年,星期三行業(yè)詞與普通話詞語(yǔ)的區(qū)分:招標(biāo)、投標(biāo)、競(jìng)標(biāo)、發(fā)標(biāo)、中標(biāo)、得標(biāo)開(kāi)標(biāo)、唱標(biāo)、流標(biāo)、跑標(biāo)、串標(biāo)、圍標(biāo)接聽(tīng)主叫、被叫第十二頁(yè),共四十頁(yè),編輯于2023年,星期三新詞語(yǔ)與普通話詞語(yǔ)的區(qū)分裸露、裸照、裸奔、裸泳、裸尸裸戲、裸曬、裸聊、裸背、裸肩/裸機(jī)、裸眼/裸捐、裸退、裸官第十三頁(yè),共四十頁(yè),編輯于2023年,星期三書(shū)語(yǔ)詞與古語(yǔ)詞的區(qū)分:古語(yǔ)詞書(shū)語(yǔ)詞中性詞口語(yǔ)詞膺選登第、登科、及第當(dāng)選、中選、入選考取、考中勖勵(lì)、勖勉激發(fā)、激勵(lì)、激揚(yáng)、嘉勉、砥礪、慰勉勸勉、勉勵(lì)、鼓勵(lì)、勸導(dǎo)勸說(shuō)、相勸、開(kāi)解劬勞操勞奔波、勞累奔忙第十四頁(yè),共四十頁(yè),編輯于2023年,星期三表名研制者詞語(yǔ)數(shù)時(shí)代現(xiàn)代漢語(yǔ)常用詞頻率詞典85481986對(duì)外漢語(yǔ)教學(xué)詞匯大綱國(guó)家漢辦88221992現(xiàn)代漢語(yǔ)詞表劉源710001984張氏詞庫(kù)張衛(wèi)國(guó)1090001999知網(wǎng)董振東810002005中文詞庫(kù)張潮生800002005中文信息處理用詞表孫茂松1200002007現(xiàn)代漢語(yǔ)常用詞表課題組560082008現(xiàn)代漢語(yǔ)語(yǔ)義分類詞典蘇新春830002008一般的分詞軟件所帶的詞庫(kù)容量:“10-15萬(wàn)”從詞表來(lái)考察“詞匯量”第十五頁(yè),共四十頁(yè),編輯于2023年,星期三從大規(guī)模真實(shí)語(yǔ)料來(lái)考察“詞匯量”來(lái)源/規(guī)模詞語(yǔ)數(shù)詞種數(shù)研制者時(shí)間通用語(yǔ)料庫(kù)(4500萬(wàn))25萬(wàn)120000國(guó)家語(yǔ)委20002005年度(9億)165萬(wàn)110000語(yǔ)言資源中心20062006年度(9.7億)260萬(wàn)107000語(yǔ)言資源中心2007第十六頁(yè),共四十頁(yè),編輯于2023年,星期三結(jié)論:從對(duì)詞典的考察來(lái)看,屬普通話詞匯的語(yǔ)文詞詞量約6萬(wàn)左右。從對(duì)詞表和大規(guī)模真實(shí)語(yǔ)料來(lái)看,大概在8-10萬(wàn)左右。確定詞量的關(guān)鍵在普通話詞匯與接壤詞匯之間如何劃界。第十七頁(yè),共四十頁(yè),編輯于2023年,星期三二、現(xiàn)代漢語(yǔ)詞匯包括哪些詞種那么在6-8萬(wàn)的普通話詞匯范圍中,包括了哪些詞語(yǔ)?試以下面三種為例:《現(xiàn)代漢語(yǔ)詞典》(63000/58000)《現(xiàn)代漢語(yǔ)語(yǔ)義分類詞典》(83000條/77000)《現(xiàn)代漢語(yǔ)常用詞表》(56008/55600)第十八頁(yè),共四十頁(yè),編輯于2023年,星期三《現(xiàn)代漢語(yǔ)詞典》63000/580004573038329《現(xiàn)代漢語(yǔ)語(yǔ)義分類詞典》83000條/7700050567《現(xiàn)代漢語(yǔ)常用詞表》56008/55600交集比較:第十九頁(yè),共四十頁(yè),編輯于2023年,星期三《現(xiàn)代漢語(yǔ)詞典》63000/58000457303832931032現(xiàn)代漢語(yǔ)語(yǔ)義分類詞典》83000/7700050567《現(xiàn)代漢語(yǔ)常用詞表》56008/5560005\06\07年度報(bào)告430000交集比較:第二十頁(yè),共四十頁(yè),編輯于2023年,星期三結(jié)論:沒(méi)有一種詞匯集具有完全的“認(rèn)同度”;沒(méi)有完整地包含它集或被它集所包含。不同規(guī)模、不同性質(zhì)、不同用途的詞匯集都有著自己“獨(dú)收子”。參與比較的詞匯集愈多,交集愈小,交集的“普遍性”愈突出。第二十一頁(yè),共四十頁(yè),編輯于2023年,星期三三、劃多少“級(jí)”合適?擬建構(gòu)“基本詞集”:第一級(jí):3000條第二級(jí):8000條第三級(jí):30000條第四級(jí):60000-80000條另有若干附屬的專集第二十二頁(yè),共四十頁(yè),編輯于2023年,星期三詞級(jí)劃分的參考因素:分布-分布率:使用-頻率-覆蓋率:基礎(chǔ)、重要的語(yǔ)義成分:服務(wù)對(duì)象、使用范圍:作用與功能第二十三頁(yè),共四十頁(yè),編輯于2023年,星期三結(jié)論:廣分布的詞,并不等于高頻詞;高頻率使用詞,不等于廣分布的詞母語(yǔ)學(xué)習(xí)者與第二語(yǔ)言學(xué)習(xí)者的不同;基礎(chǔ)教育學(xué)習(xí)者與社會(huì)使用者的不同;第二十四頁(yè),共四十頁(yè),編輯于2023年,星期三四者的共有詞05年總詞表(詞頻序號(hào))50006522100001533615000265692000041252250006611530000171904310321650049普遍存在的詞不等于使用中的高頻詞第二十五頁(yè),共四十頁(yè),編輯于2023年,星期三基礎(chǔ)教育3000基本詞05年總詞表(詞頻序號(hào))1000174220005577300024542普遍存在的詞不等于使用中的高頻詞第二十六頁(yè),共四十頁(yè),編輯于2023年,星期三四、詞級(jí)劃分依據(jù)的標(biāo)準(zhǔn)和方法頻次法分布法頻級(jí)法使用率使用度語(yǔ)義分布第二十七頁(yè),共四十頁(yè),編輯于2023年,星期三分布法與頻率法的對(duì)比第二十八頁(yè),共四十頁(yè),編輯于2023年,星期三教材分詞單位總數(shù)詞總數(shù)詞種數(shù)共用部分共用獨(dú)用詞種數(shù)比例%詞種數(shù)比例%詞種數(shù)比例%人教版342911287096248521046042.09927637.32511620.59蘇教版261997219337231801046045.12824635.57447419.3北師大版316522264280268951046038.89884032.87759528.24語(yǔ)文版368696306879284001046036.831012935.67781127.5四套教材詞語(yǔ)狀況:第二十九頁(yè),共四十頁(yè),編輯于2023年,星期三分布法頻次法序號(hào)詞文本數(shù)頻次數(shù)序號(hào)詞文本數(shù)頻次數(shù)3068平原27282372麥秸1503074逢27282373水上漂1503073噢27282374楊志1503076迷人27282420切斯特1493075靠近27282421信客1493079往日27282635帕霍姆1453078炎熱27282901賈蕓1413080向往27282902瑞恩1413082臉頰27272903王利發(fā)1413082不免27272974皮諾曹140第三十頁(yè),共四十頁(yè),編輯于2023年,星期三分布法頻次法詞文本_頻次序頻次_文本序使用度序詞頻次序文本_頻次序使用度序平原306838763066麥秸23722747910195逢307439853079水上漂23732747810187噢307339863073楊志23742747710186迷人307639873078切斯特24202748010523靠近307539883080信客24212748110576往日307939893077帕霍姆26352748210907炎熱307839913075賈蕓29012748311211向往308039923074瑞恩29022748411212臉頰308241103082王利發(fā)29032748511213不免308241123081皮諾曹29742748611264第三十一頁(yè),共四十頁(yè),編輯于2023年,星期三分布法與頻次分的對(duì)比分析思考一:頻次統(tǒng)計(jì)法有相當(dāng)?shù)恼`導(dǎo)性。頻統(tǒng)計(jì)法只有在具有大致相當(dāng)?shù)姆植记闆r下才具有較好的參考性。第三十二頁(yè),共四十頁(yè),編輯于2023年,星期三思考二:使用度統(tǒng)計(jì)法能在一定程度上沖淡頻次信息的片面性,但它只適用于頻次與分布差別不大的現(xiàn)象適用。對(duì)頻次高分布窄的詞語(yǔ)不能起到足夠的校正作用,因?yàn)轭l次畸高的因素仍會(huì)嚴(yán)重影響到綜合數(shù)值。第三十三頁(yè),共四十頁(yè),編輯于2023年,星期三思考三:詞語(yǔ)的分布信息比頻次信息有更好的參考價(jià)值。分布統(tǒng)計(jì)法能更準(zhǔn)確地顯示詞語(yǔ)的通用性、基礎(chǔ)性、大眾性。第三十四頁(yè),共四十頁(yè),編輯于2023年,星期三頻級(jí)法的使用頻級(jí):在調(diào)查對(duì)象中相同頻次的為一個(gè)頻級(jí)。頻級(jí)統(tǒng)計(jì)法:根據(jù)頻級(jí)調(diào)查詞語(yǔ)常用度的一種調(diào)查方法。適用于大規(guī)模語(yǔ)料調(diào)查。特別是對(duì)于立足于特性不一、容量差異明顯的多個(gè)語(yǔ)料庫(kù)之間比較的大規(guī)模詞匯統(tǒng)計(jì)。通常有升序,降序等。第三十五頁(yè),共四十頁(yè),編輯于2023年,星期三《現(xiàn)代漢語(yǔ)常用詞表》的

詞頻序號(hào)使用的是頻級(jí)法由于詞語(yǔ)的來(lái)源面比較寬,各種語(yǔ)料都有自己的覆蓋面與構(gòu)成特點(diǎn),詞表中的詞語(yǔ)不能在每種語(yǔ)料中都得到全部顯現(xiàn)。同一個(gè)詞語(yǔ)在不同語(yǔ)料庫(kù)中的頻次也可能相差較大,因而不同語(yǔ)料庫(kù)中的具體頻次之間缺乏嚴(yán)格的可比性。用頻級(jí)統(tǒng)計(jì)則能較客觀地顯示每個(gè)詞語(yǔ)的使用情況。頻級(jí)就是同一語(yǔ)料庫(kù)中的所有詞語(yǔ)按頻次數(shù)量的多少排列時(shí)體現(xiàn)出來(lái)的排位順序。相同頻次的為一個(gè)頻級(jí)。

第三十六頁(yè),共四十頁(yè),編輯于2023年,星期三頻級(jí)統(tǒng)計(jì)分兩步施行。第一步形成不同類型語(yǔ)料的頻級(jí):檢測(cè)語(yǔ)料有“通用語(yǔ)料庫(kù)”、“人民日?qǐng)?bào)”、“文學(xué)作品”三種,這樣每一個(gè)詞語(yǔ)就有了三個(gè)不同的原始頻級(jí)。第二步形成總語(yǔ)料的頻級(jí),就是將每個(gè)詞語(yǔ)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論