第七講中文語料庫_第1頁
第七講中文語料庫_第2頁
第七講中文語料庫_第3頁
第七講中文語料庫_第4頁
第七講中文語料庫_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1第1頁,共17頁,2023年,2月20日,星期一一、什么是語料庫?語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫能夠反映和記錄語言的實(shí)際使用情況。人們通過語料庫觀察和把握語言事實(shí),分析和研究語言系統(tǒng)的規(guī)律。語料庫已經(jīng)成為語言學(xué)理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。2第2頁,共17頁,2023年,2月20日,星期一二、語料庫產(chǎn)生的原因:(1)傳統(tǒng)語言學(xué)研究方法的落后性是語料庫語言學(xué)產(chǎn)生的內(nèi)在動(dòng)力。任何一項(xiàng)科學(xué)研究都是建立在大量資料之上的。資料占有的完備性、取樣的準(zhǔn)確性和使用的有效性是科學(xué)研究的一個(gè)基本條件和前提條件。語言學(xué)研究也必須建立在大量的語料基礎(chǔ)之上。而傳統(tǒng)語言學(xué)研究方法在搜集、處理語料方面有很大的局限性,表現(xiàn)在以下幾個(gè)方面:

3第3頁,共17頁,2023年,2月20日,星期一一是語料的主觀性強(qiáng)。傳統(tǒng)語言學(xué)的研究方法是“內(nèi)省”、“舉例”方法,這種方法在很大程度上依賴于語言學(xué)家的主觀經(jīng)驗(yàn)。用帶有濃厚主觀色彩的語言事實(shí)作為立論的根據(jù),往往是靠不住的。最原始、最可靠的語言證據(jù)只能來自使用中的客觀語言材料。二是語料占有量小,覆蓋面窄,代表性差。通過手工獲得的語料從數(shù)量上不能得到充分的保證,致使其覆蓋面不夠大,自然代表性就差,由此得出的結(jié)論的科學(xué)性令人懷疑。

4第4頁,共17頁,2023年,2月20日,星期一三是語料整理工作量大,共享性不夠,效率低。比如編一本《牛津英語詞典》需要準(zhǔn)備近500萬張卡片,編《現(xiàn)代漢語詞典》這樣一部中型詞典,資料卡片超過100萬張。工作量之大可想而知。而且每一張卡片都是就某一項(xiàng)特定的要求制作的,不能移作他用,使用效率很低。而現(xiàn)代語料庫存儲(chǔ)的語料量大,具有充分代表性,而且存貯在磁盤上,并附有多功能檢索系統(tǒng),可根據(jù)多種不同的需要,從不同的角度,對(duì)語料進(jìn)行重組,提高了語料的共享性。

5第5頁,共17頁,2023年,2月20日,星期一四是知識(shí)問題。一般語法著作和詞典提供了語言知識(shí)。但是就漢語詞典來看,沒有哪一本大型漢語詞典是帶有詞性標(biāo)注的用法解釋的。像英語的朗文詞典和牛津詞典那樣的專門為外國人學(xué)習(xí)語言而編纂的詳解詞典,在國內(nèi)還沒有見到。這就給計(jì)算機(jī)進(jìn)行漢語信息處理帶來不便,迫切需要帶有詞性標(biāo)記的語料庫作基礎(chǔ),并進(jìn)一步形成一個(gè)供計(jì)算機(jī)使用的語言知識(shí)庫。6第6頁,共17頁,2023年,2月20日,星期一(2)計(jì)算機(jī)的運(yùn)算速度和存貯容量的大幅度增長(zhǎng)是語料庫得以發(fā)展的物質(zhì)基礎(chǔ)。計(jì)算機(jī)的運(yùn)算速度快使得計(jì)算機(jī)語料庫具有建庫快、使用方便的優(yōu)點(diǎn)。計(jì)算機(jī)語料庫容量大使得計(jì)算機(jī)語料庫具有占用空間小、成本低的優(yōu)點(diǎn)。如果一個(gè)卡片盒裝2000張卡片,編《現(xiàn)代漢語詞典》的100萬卡片需要500個(gè)卡片盒才能裝下,而用30張5·25英寸盤則可全部裝下,僅占1/3抽屜的面積。而且成本低,如果一張卡片1分錢,100萬張卡片需要1萬元,如果用磁盤存貯,每張磁盤7元錢,30張磁盤只需要210元。用其他介質(zhì)則更優(yōu)勢(shì)明顯。7第7頁,共17頁,2023年,2月20日,星期一(3)語言信息處理的進(jìn)一步發(fā)展,是語料庫語言學(xué)產(chǎn)生的學(xué)科需要。從自然語言系統(tǒng)所需裝備的語言知識(shí)來看,其數(shù)量之浩大和顆粒度之精細(xì)都是以往的系統(tǒng)所遠(yuǎn)遠(yuǎn)不及的。而且,隨著系統(tǒng)擁有的知識(shí)在數(shù)量和精細(xì)程度上發(fā)生的巨大變化,系統(tǒng)在如何獲取、表示和管理知識(shí)等依靠傳統(tǒng)的研究是不能解決問題的,需要大規(guī)模真實(shí)文本語料庫的支持。8第8頁,共17頁,2023年,2月20日,星期一三、語料庫的類型語料庫有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點(diǎn)往往能夠體現(xiàn)在語料采集的原則和方式上。有人曾經(jīng)把語料庫分成四種類型:(1)異質(zhì)的:沒有特定的語料收集原則,廣泛收集并原樣存儲(chǔ)各種語料;(2)同質(zhì)的:只收集同一類內(nèi)容的語料;(3)系統(tǒng)的:根據(jù)預(yù)先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實(shí);(4)專用的:只收集用于某一特定用途的語料。

9第9頁,共17頁,2023年,2月20日,星期一除此之外,按照語料的語種,語料庫也可以分成單語的、雙語的和多語的。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對(duì)齊)語料庫和比較語料庫,前者的語料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對(duì)比研究。

10第10頁,共17頁,2023年,2月20日,星期一四、中文語料庫的應(yīng)用簡(jiǎn)介我國語料庫的建設(shè)始于80年代,當(dāng)時(shí)的主要目標(biāo)是漢語詞匯統(tǒng)計(jì)研究。進(jìn)入90年代以后,語料庫方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語料庫,研究的內(nèi)容涉及語料庫建設(shè)中的各個(gè)問題。90年代末到新世紀(jì)初這幾年是語料庫開發(fā)和應(yīng)用的進(jìn)一步發(fā)展時(shí)期,除了語言信息處理和言語工程領(lǐng)域以外,語料庫方法在語言教學(xué)、詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。11第11頁,共17頁,2023年,2月20日,星期一語料庫與語言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語料庫方法的時(shí)候,在自然語言理解和生成、機(jī)器翻譯等研究中,分析語言的主要方法是基于規(guī)則的。對(duì)于用規(guī)則無法表達(dá)或不能涵蓋的語言事實(shí),計(jì)算機(jī)就很難處理。語料庫出現(xiàn)以后,人們利用它對(duì)大規(guī)模的自然語言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語言模型,研究和應(yīng)用基于統(tǒng)計(jì)的語言處理技術(shù),在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進(jìn)展。12第12頁,共17頁,2023年,2月20日,星期一另一方面,語言信息處理技術(shù)的發(fā)展也為語料庫的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語料的自動(dòng)分詞和標(biāo)注,到語料的統(tǒng)計(jì)和檢索,自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。13第13頁,共17頁,2023年,2月20日,星期一五、語料庫在語言研究上的主要功能1、統(tǒng)計(jì)描寫功能;2、原因解釋功能;3、結(jié)論驗(yàn)證功能;4、探索發(fā)現(xiàn)功能;5、知識(shí)挖掘功能。14第14頁,共17頁,2023年,2月20日,星期一六、語料庫的建設(shè):1、根據(jù)系統(tǒng)功能目標(biāo)確定建庫方法;2、根據(jù)建庫需要確定選材原則;3、語料輸入和轉(zhuǎn)寫;4、語料的加工(分詞和屬性標(biāo)注);5、管理和檢索。15第15頁,共17頁,2023年,2月20日,星期一七、分詞與詞性標(biāo)注(參看word文檔)16第16頁,共17頁,2023年,2月20日,星期一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論