版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
現(xiàn)代漢語語料庫的開發(fā)與管理
一、大規(guī)模的標(biāo)注語料庫作者認(rèn)為,為了提高工作效率的現(xiàn)代化水平,需要考慮計(jì)算機(jī)的綜合語言數(shù)據(jù)庫。北京大學(xué)計(jì)算語言學(xué)研究所積十多年之努力開發(fā)的《現(xiàn)代漢語語法信息詞典》(以下簡稱《語法信息詞典》)是這個(gè)語言知識庫的主要組成部分?!墩Z法信息詞典》中的知識是由研制者根據(jù)自己對語言現(xiàn)象的觀察、領(lǐng)悟并參照前人的語言學(xué)著作、詞典、語料而整理的。這種知識還不能充分滿足要求,多數(shù)顆粒度較大,也難以保證與真實(shí)語料完全一致。計(jì)算機(jī)硬件與軟件的進(jìn)步為自然語言處理技術(shù)的發(fā)展提供了廣闊的新天地?,F(xiàn)在,大規(guī)模的電子文本語料垂手可得。機(jī)器(更準(zhǔn)確地說,人利用計(jì)算機(jī))可以直接從大規(guī)模的語料中學(xué)習(xí)到處理語言的大量知識。例如,對大量語料進(jìn)行簡單的統(tǒng)計(jì),就能得到“漢字的使用頻度”。計(jì)算兩個(gè)漢字在語料中出現(xiàn)的“互信息”就能發(fā)現(xiàn)“詞”,但原始語料的利用價(jià)值或者說無指導(dǎo)的機(jī)器學(xué)習(xí)的潛力是有局限性的。人們常說“良師出高徒”。如果在原始語料中預(yù)先注入一些語言學(xué)知識,譬如根據(jù)人的認(rèn)識將一部分語料按詞切分好并標(biāo)注上詞性,然后再將這樣的語料作為樣例提供給機(jī)器,機(jī)器就能學(xué)得更多更好。正是基于這樣的認(rèn)識,北大計(jì)算語言學(xué)研究所與富士通合作正在對一個(gè)2700多萬漢字的語料庫進(jìn)行加工。目前的加工項(xiàng)目包括詞語切分和詞性標(biāo)注,并標(biāo)出專有名詞(包括短語型專有名稱)。經(jīng)過如此加工的語料庫可以簡稱為“標(biāo)注語料庫”。要建成高質(zhì)量的大規(guī)模的標(biāo)注語料庫,需要具備多方面的基礎(chǔ)和條件。其中必須先行的一項(xiàng)工作就是制訂完備的可供人機(jī)兩用的加工規(guī)范。二、/w啟動/vn儀式/d語料庫中的原始語料包括1998年全年《人民日報(bào)》的純文本文件和其他一些語料,超過2700萬字。《人民日報(bào)》的純文本文件的質(zhì)量高,幾乎沒有錯(cuò)字或語法錯(cuò)誤。1998年一年的語料雖然不能說覆蓋了當(dāng)代漢語使用的全面情況,但至少是一個(gè)相當(dāng)大的有代表性的子集。從標(biāo)注語料庫中摘錄一段,示例如下:由/p[共青團(tuán)/n中央/n]nt、/w[全國/n綠化/vn委員會/n]nt、/w林業(yè)部/nt、/w鐵道部/nt、/w[全國/n青年/n聯(lián)合會/n]nt共同/d發(fā)起/v的/u迎/v香港/ns回歸/v京九/j植綠護(hù)綠/l活動/vn今天/t正式/ad啟動/v。/w廣東/ns的/u深圳/ns、/w惠州/ns、/w河源/ns等/u地/n同時(shí)/d舉行/v了/u隆重/a熱烈/a的/u啟動/vn儀式/n。/w在原始語料中,若去掉標(biāo)點(diǎn)符號,漢字都是一個(gè)接一個(gè)排列的,詞與詞之間沒有間隔。加工后的語料,切分單位之間用“空格”隔開了。對每個(gè)切分單位加了標(biāo)記,每個(gè)斜杠“/”右邊的n,v,a,w等相應(yīng)地表示它左邊的切分單位是名詞、動詞、形容詞、標(biāo)點(diǎn)符號等,ns是地名。用一對方括號括起來的若干個(gè)切分單位代表一個(gè)短語型的專有名稱,如nt表示一個(gè)團(tuán)體機(jī)構(gòu)的名稱。這項(xiàng)工程對加工質(zhì)量要求甚嚴(yán)。為了得到高精度的加工結(jié)果,必須制訂明確的可操作的加工規(guī)范,同時(shí)實(shí)現(xiàn)人與計(jì)算機(jī)的合理分工與妥善配合。三、文件倉庫加工規(guī)范的制定3.1增加了標(biāo)記和語料庫制訂《現(xiàn)代漢語語料庫加工——詞語切分與詞性標(biāo)注規(guī)范與手冊》的基本思路如下:(1)詞語切分的規(guī)范盡可能同已有的中國國家標(biāo)準(zhǔn)GB13715“信息處理用現(xiàn)代漢語分詞規(guī)范”(以下簡稱為“分詞規(guī)范”)保持一致。由于現(xiàn)在詞語切分與詞性標(biāo)注是結(jié)合起來進(jìn)行的,而且又有了一部《語法信息詞典》可作為基本參照,有必要對“分詞規(guī)范”作一些調(diào)整和補(bǔ)充。(2)詞性標(biāo)注使用小標(biāo)記集。除了使用《語法信息詞典》中的26個(gè)詞類標(biāo)記外,增加了以下3類標(biāo)記:①專有名詞的分類標(biāo)記,即人名nr,地名ns,團(tuán)體機(jī)關(guān)單位名稱nt,其他專有名詞nz;②語素g按其子類標(biāo)注,已有名語素Ng,動語素Vg,形容語素Ag,時(shí)間語素Tg,副語素Dg等;③動詞和形容詞的某些功能標(biāo)記,即名動詞vn(在句法結(jié)構(gòu)中起名詞作用的動詞),名形詞an(起名詞作用的形容詞),副動詞vd(起副詞作用的動詞),副形詞ad(起副詞作用的形容詞)。合計(jì)約40個(gè)左右。同漢語信息處理學(xué)界的某些研究相比,這是一個(gè)小標(biāo)記集。(3)與已有資源的配合。盡管使用的是小標(biāo)記集,但標(biāo)注語料庫同《語法信息詞典》是緊密聯(lián)系的,在自然語言處理應(yīng)用系統(tǒng)中,以文本中的詞語及詞性(各個(gè)標(biāo)記的第一個(gè)字母就是相應(yīng)的詞性,只有語素符號g是標(biāo)記的第二個(gè)字母)為入口,可以快速、準(zhǔn)確地檢索到詞典中詞語的豐富的語法屬性信息。這就是說,經(jīng)過切分、標(biāo)注的語料庫同《現(xiàn)代漢語語法信息詞典》相結(jié)合,可以形成一個(gè)超文本的語言知識庫。(4)對專有名詞(人名、地名、團(tuán)體機(jī)構(gòu)名等)進(jìn)行了標(biāo)注。并用方括號標(biāo)出短語型專有名稱。(5)規(guī)范既要適應(yīng)語言信息處理與語料庫語言學(xué)研究的需要,又要能為傳統(tǒng)的語言學(xué)研究提供充足的素材;既要適合計(jì)算機(jī)自動處理,又要便于人工校對。3.2標(biāo)準(zhǔn)的主要內(nèi)容《現(xiàn)代漢語語料庫加工——詞語切分與詞性標(biāo)注規(guī)范》分為3個(gè)部分:切分規(guī)范,標(biāo)注規(guī)范,切分和標(biāo)注相結(jié)合的規(guī)范。3.2.1切割規(guī)范(1)切分單位定義“分詞單位”是國家標(biāo)準(zhǔn)“分詞規(guī)范”中的一個(gè)基本概念。它是指信息處理中使用的、具有確定的語義和語法功能的基本單位。為了同“分詞規(guī)范”銜接,這里仍沿用“分詞單位”這個(gè)概念,不過術(shù)語改用“切分單位”。本規(guī)范確定的“切分單位”主要是詞,也包括了一部分使用頻度高的詞組。在某些特殊情況下孤立的語素或非語素字也可能出現(xiàn)在切分序列中,如動詞的離合形式:出/v了/u一/m次/q差/Ng。/w“差/Ng”是名語素;又如:鷓鴣/n的/u鷓/x有/v什么/r意思/n嗎/y?/w“鷓/x”是非語素字。從字?jǐn)?shù)考慮,對兩個(gè)字的組合可較寬地看作是一個(gè)切分單位,三個(gè)字的較嚴(yán),四個(gè)字以上的若不是成語、習(xí)慣用語、簡稱、地名或外族人名,則一般不看作是一個(gè)切分單位。(2)切分單位的基本判斷進(jìn)行切分通常要有一部“分詞詞典”。國家社科基金語言學(xué)科“九五”重大課題“面向信息處理的現(xiàn)代漢語詞匯研究”中已列入了一個(gè)子課題“分詞詞表”,不過,該詞表尚未問世。現(xiàn)在,北大的《語法信息詞典》收錄的詞條已超過7.3萬。本規(guī)范規(guī)定《語法信息詞典》中的詞條一般都是切分單位,這就使得對“切分單位”的把握有了基本的參照。但規(guī)范定義的“切分單位”同詞條之間還是有差異的。例如5個(gè)字以上的成語、習(xí)用語、簡稱、地名或外族人名是切分單位,但未被收入《語法信息詞典》?!兑?guī)范》規(guī)定“一百二十八”、“五分之三”、“第三”、“1998年”、“10月”、“30日”這樣的數(shù)詞和時(shí)間詞是切分單位,但它們無限多,任何一部詞典都不可能全收,《語法信息詞典》只收了少量的構(gòu)成成分。如:“分之”、“第”等,但它們卻不是切分單位。《語法信息詞典》中包含的前接成分、后接成分、語素、非語素字也不是切分單位,盡管當(dāng)它們不能與前后成分組合時(shí)也會孤立地出現(xiàn)在切分序列中。處理大規(guī)模真實(shí)文本時(shí),總會碰到詞典中沒有的“未定義詞”?!兑?guī)范》的重要作用就是使機(jī)器和人對確定“未定義詞”有了依據(jù)。3.2.2標(biāo)準(zhǔn)物質(zhì)(1)自動標(biāo)注任務(wù)《語法信息詞典》已完成了7.3萬詞語的歸類。如果切分單位是《語法信息詞典》中的詞語,而且該詞語只屬于某一個(gè)詞類,則標(biāo)注的任務(wù)只不過是復(fù)制一下詞類代碼而已。如果一個(gè)詞在《語法信息詞典》中屬于多個(gè)詞類,標(biāo)注的任務(wù)就是從若干個(gè)詞類代碼中選擇一個(gè)適當(dāng)?shù)?。如“自動”兼屬區(qū)別詞和副詞。當(dāng)它在語料中做定語,就選擇區(qū)別詞,當(dāng)它做狀語時(shí),就選擇副詞。由于在確定的上下文中依據(jù)《語法信息詞典》做這件事,隨意性減少了。(2)標(biāo)記對象的語法信息在詞性標(biāo)注中,涉及的語法難點(diǎn)主要是詞類與句法功能之間的關(guān)系問題。詞組本位語法體系認(rèn)為漢語的詞類與句法成分之間不存在簡單的一一對應(yīng)關(guān)系。按照這個(gè)基本觀點(diǎn),就要避免僅僅根據(jù)一個(gè)詞語在當(dāng)前句子中充當(dāng)?shù)木浞ǔ煞志蜎Q定它的標(biāo)記。例如,某個(gè)詞在《現(xiàn)代漢語語法信息詞典》中已被唯一地確定為動詞,就不能僅根據(jù)它在某個(gè)句子中擔(dān)任主語或賓語又將它標(biāo)注為名詞。至于漢語的詞類體系是如何劃分的,數(shù)以萬計(jì)的詞語是如何歸類的,則是詞組本位語法體系著力解決的問題,《語法信息詞典》反映了詞組本位語法體系指導(dǎo)工程實(shí)踐的成果。同時(shí)考慮到語法學(xué)界對漢語詞類的劃分特別是對兼類問題存在不同意見,在標(biāo)記集中增加了名動詞vn,名形詞an,副動詞vd,副形詞ad。當(dāng)然,增加這些標(biāo)記并非只是緩沖不同意見,主要是為了給詞的兼類研究提供計(jì)量根據(jù),也為詞的概率語法屬性描述打下基礎(chǔ)。(3)對專有名稱的標(biāo)注這次加工不僅對新聞?wù)Z料中大量存在的人名、地名等專有名詞進(jìn)行了標(biāo)注,還在詞語切分與詞性標(biāo)注的基礎(chǔ)上進(jìn)一步對短語型專有名稱加上方括號和類型標(biāo)記(主要是nt,nz,還有少量的ns)。3.2.3復(fù)合詞/東南角的意義在漢語中,由語素構(gòu)造合成詞的方式有“復(fù)合”、“附加”和“重疊”,但運(yùn)用這3種方式試將兩個(gè)成分結(jié)合成一個(gè)較大的單位時(shí),這個(gè)較大的新單位是否處理為切分單位,卻不能一概而論。以“附加”為例,后接成分“者”如果接在語素或詞的后面構(gòu)成合成詞,自然為一個(gè)切分單位,并且應(yīng)該標(biāo)注為n;如:死者/n,筆者/n,當(dāng)局者/n,旁觀者/n,求知者/n。能夠后接“者”的語言單位還可以是更長的詞或成語等,如:無政府主義者/n,翻然悔悟者/n,屢教不改者/n。但是,當(dāng)“者”的前面為較長的短語或句子時(shí),卻應(yīng)分開來,將“者”單獨(dú)標(biāo)注為k。經(jīng)過/p苦苦/d追求/v而/c獲得/v幸福/a者/k不/d顧/v勸告/v而/c執(zhí)意/vd鬧事/v者/k“復(fù)合”的情況就更復(fù)雜了。構(gòu)詞成分通常認(rèn)為是語素。由于復(fù)合詞的構(gòu)成方式和短語的構(gòu)成方式是一樣的,包括定中、狀中、述賓、述補(bǔ)、主謂、聯(lián)合、連動等,而能單獨(dú)成詞的語素和不能單獨(dú)成詞的語素的界限又是模糊的,這就造成了復(fù)合詞與短語的界限是模糊的?!兑?guī)范》對一些兩可的情況作出了明確的規(guī)定。例如,《規(guī)范》明確規(guī)定“雙音”節(jié)動詞后接單音節(jié)名詞的定中結(jié)構(gòu),一般為一個(gè)切分單位,且標(biāo)注為n。消耗品/n,證明信/n,救濟(jì)糧/n,控制閥/n。對單音節(jié)的動詞與單音節(jié)的名詞相連時(shí),若是定中結(jié)構(gòu),則合成為名詞;若是述賓結(jié)構(gòu),則看作是短語。如:我/r喜歡/v吃/v烤肉/n。/w我/r來/v烤/v肉/n吃/v。/w四、/p、/n標(biāo)準(zhǔn)/w校正北京大學(xué)計(jì)算語言學(xué)研究所開發(fā)的“詞語切分和詞性標(biāo)注”軟件已具有很高的精度,不過自動加工的結(jié)果總會存在這樣那樣的錯(cuò)誤。校對者依據(jù)《規(guī)范》可以將其中絕大部分錯(cuò)誤改正。為了最大限度地提高最終成果的質(zhì)量,北大計(jì)算語言學(xué)研究所又在實(shí)踐的基礎(chǔ)上,制訂了《現(xiàn)代漢語語料庫加工——詞語切分與詞性標(biāo)注規(guī)范與手冊》。《手冊》詳細(xì)解釋了《規(guī)范》,并列舉了大量的實(shí)例、典型錯(cuò)例及修正的理由?!妒謨浴酚兄诮y(tǒng)一對《規(guī)范》的理解。為了進(jìn)一步強(qiáng)化所有參與校對的人對《規(guī)范》和《手冊》的認(rèn)識的一致性,并對《規(guī)范》的局部遺漏進(jìn)行補(bǔ)充,筆者又將校對中發(fā)現(xiàn)的一個(gè)個(gè)具體問題及解決方案整理成《通報(bào)》,發(fā)送給參加者。同時(shí)開發(fā)了后處理軟件,提高一致化的效率。這些技術(shù)措施對保證工程質(zhì)量都起到了重要的作用。下面列舉一些錯(cuò)例及校正的結(jié)果。需要時(shí),分析這樣校正的理由。錯(cuò)誤可能是機(jī)器處理的結(jié)果,也可能是人工校對后仍未排除的,個(gè)別的還可能是校對者造成的。原文:當(dāng)用處,雖多勿吝;不當(dāng)用處,雖少勿妄。錯(cuò)例:當(dāng)/v用處/n,/w雖/c多/a勿/d吝/v;/w不/d當(dāng)/v用處/n,/w雖/c少/a勿/d妄/v。/w校正:當(dāng)用/v處/n,/w雖/c多/a勿/d吝/Vg;/w不/d當(dāng)用/v處/n,/w雖/c少/a勿/d妄/Vg。/w分析:這屬于交集型歧義切分錯(cuò)誤。錯(cuò)例難以理解。正確的切分離不開對原文的理解。錯(cuò)例:吸/v納/v勞動力/n多/a的/u產(chǎn)品/n和/c產(chǎn)業(yè)/n校正:吸納/v勞動力/n多/a的/u產(chǎn)品/n和/c產(chǎn)業(yè)/n分析:像“吸納”這樣的兩個(gè)字的組合,盡管7萬詞表中未收入,也應(yīng)當(dāng)作為一個(gè)詞看待。錯(cuò)例:在/p談/v及/c處理/v土地/n問題/n時(shí)/Ng校正:在/p談及/v處理/v土地/n問題/n時(shí)/Ng分析:如果將原文分解為“在談土地問題時(shí)”及“在處理土地問題時(shí)”,機(jī)器自動切分的結(jié)果并沒有錯(cuò)。如果將“談”換為“論述”或“研究”等二字詞時(shí),還就應(yīng)該這樣切分。但原文的意思實(shí)際是“在談到處理土地問題時(shí)”?!罢劇焙汀疤幚硗恋貑栴}”不是并列關(guān)系,而是述賓關(guān)系。將“及”標(biāo)為連詞是不對的。曾將“及/c”改為“及/p”也是不對的。7萬詞表給“及”列的詞性是連詞c,作“姓”用的名語素Ng,動詞v。并沒有介詞p??紤]到“及”可以用“到”替換,將“及”單獨(dú)切分出來并標(biāo)為v是可以的。不過,在現(xiàn)代漢語中,“及”遠(yuǎn)沒有“到”用得頻繁?!罢劶啊?、“論及”、“顧及”等都可以看作一個(gè)詞。因此,像現(xiàn)在這樣改是恰當(dāng)?shù)?。錯(cuò)例:把/p工作/vn重心/n轉(zhuǎn)/v到/v經(jīng)濟(jì)/n建設(shè)/vn上來/v。/w校正:把/p工作/vn重心/n轉(zhuǎn)/v到/v經(jīng)濟(jì)/n建設(shè)/vn上/f來/v。/w分析:“上來”是一個(gè)詞?!吧稀?、“來”分別也是詞,且有多個(gè)詞性。要正確切分此句,需有一定的句法結(jié)構(gòu)的知識。錯(cuò)例:第八/m次/q全國/n代表/v大會/n校正:第八/m次/q全國/n代表/n大會/n說明:屬于詞性標(biāo)注錯(cuò)誤?!按怼庇袆?、名兩個(gè)詞性,屬于廣義兼類。在一起開會的自然是人,此例中的“代表”是名詞。錯(cuò)例:現(xiàn)場/s感受/n了/u這/r一/m宇宙/n壯景/n校正:現(xiàn)場/s感受/v了/u這/r一/m宇宙/n壯景/n說明:名詞一般不能后接“了、著、過”,從形式上就能判斷“感受”不是名詞,是動詞。錯(cuò)例:共同/b開拓/v祖國/n的/u北疆/n校正:共同/d開拓/v祖國/n的/u北疆/n說明:“共同”有區(qū)別詞、副詞兩個(gè)詞性,屬于狹義兼類。在這里作狀語,是副詞。錯(cuò)例:通過/p調(diào)查/vn,/w我們/r了解/v到/v校正:通過/p調(diào)查/v,/w我們/r了解/v到/v說明:“調(diào)查”是介詞“通過”的賓語,但不能因?yàn)樗鼈兪墙樵~的賓語,就認(rèn)為應(yīng)該標(biāo)為vn,因?yàn)椤兑?guī)范》遵循的語法體系認(rèn)為介詞是可以帶謂詞性賓語的。如“通過調(diào)查現(xiàn)場情
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 參加涉密培訓(xùn)承諾書范文范本
- 2025-2030全球止吠項(xiàng)圈行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025-2030全球新能源車和充電樁高壓直流繼電器行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國消費(fèi)后回收 (PCR) 薄膜行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球可回收金屬瓶蓋和封口行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國平板電動貨車行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國制冷空調(diào)熱力膨脹閥行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球電動門遙控器行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025-2030全球高精度事件計(jì)時(shí)器行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國相機(jī)腕帶行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 文檔協(xié)同編輯-深度研究
- 七年級數(shù)學(xué)新北師大版(2024)下冊第一章《整式的乘除》單元檢測習(xí)題(含簡單答案)
- 2024-2025學(xué)年云南省昆明市盤龍區(qū)高一(上)期末數(shù)學(xué)試卷(含答案)
- 2024年財(cái)政部會計(jì)法律法規(guī)答題活動題目及答案一
- 高考日語基礎(chǔ)歸納總結(jié)與練習(xí)(一輪復(fù)習(xí))
- 煤場用車輛倒運(yùn)煤的方案
- 《預(yù)防犯罪》課件
- 【企業(yè)作業(yè)成本在上海汽車集團(tuán)中的應(yīng)用研究案例7300字(論文)】
- 《民航服務(wù)溝通技巧》教案第6課巧妙化解沖突
- 化學(xué)用語專項(xiàng)訓(xùn)練
評論
0/150
提交評論