




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、CCD名詞概念組成的調(diào)整與優(yōu)化*本文研究工作得到國(guó)家973項(xiàng)目(2004CB318102)、863計(jì)劃項(xiàng)目(2001AA114210,2002AA117010)以及河南省自然科學(xué)基金項(xiàng)目(0211050110)的支持。昝紅英1 劉揚(yáng)2 柴玉梅1 申豐山1 張坤麗11 (鄭州大學(xué)信息工程學(xué)院,河南鄭州,450052)2 (北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,北京,100871) iehyzan摘要 語(yǔ)義知識(shí)庫(kù)的構(gòu)建與不斷改進(jìn)是文本內(nèi)容理解的基礎(chǔ)。本文針對(duì)CCD名詞概念數(shù)據(jù)的特點(diǎn),根據(jù)當(dāng)代中文真實(shí)文本信息的詞匯特征,提出了CCD名詞概念的優(yōu)化規(guī)范以及可行的優(yōu)化方法,完成了CCD名詞概念的初步優(yōu)化工作,使CC
2、D名詞概念中文表示的準(zhǔn)確性和完備性得到了顯著改善。關(guān)鍵詞:中文概念詞典語(yǔ)義詞典優(yōu)化同義詞集合準(zhǔn)確性完備性The Adjustment and Improvement of the Noun Concepts Component in CCDZAN Hongying1LIU Yang2CHAI Yumei1SHEN Fengshan1ZHANG Kunli11 (College of Information Engineering, ZhengzhouUniversity, Zhengzhou , China 450052)2 (Institute of Computational Lingui
3、stics, PekingUniversity, Beijing, China 100871)iehyzanAbstractThe Conctruction and the Improvement of Semantic Knowledge Base is the basic of Text Content Understanding. Aiming at the features of noun concepts in CCD and the words in the contemporaryChinese real text, this paper has put forward the
4、criteria and feasible messures to improve the noun concepts in CCD. The authors have finished the elementary optimizing work to about 64000 noun concepts. It has apparently amended the precision and the completeness of CCD.Key Words:Chinese Concept Dictionary, Improvement of Semantic Dictionary, Set
5、 of Synonyms,precision, completeness1 引言語(yǔ)義是思維的體現(xiàn)者,是客觀事物在人們頭腦中的反映。人們?cè)诶斫馕谋緝?nèi)容時(shí)常常是通過(guò)分析其中關(guān)鍵詞語(yǔ)的語(yǔ)義概念及其語(yǔ)義關(guān)系來(lái)得到篇章語(yǔ)義的。為了達(dá)到一定的效果,人們對(duì)同一個(gè)概念往往換用不同的詞來(lái)表現(xiàn),一詞多義和多詞一義造就了自然語(yǔ)言的豐富性與靈活性,同時(shí)也給文本內(nèi)容的理解造成了困難。對(duì)語(yǔ)言的理解主要是語(yǔ)義、概念的把握,針對(duì)中文文本詞語(yǔ)意合的特點(diǎn),基于詞匯的語(yǔ)義概念的研究有著深遠(yuǎn)的意義,構(gòu)建內(nèi)容豐富的語(yǔ)義詞典或語(yǔ)義知識(shí)庫(kù),能夠?yàn)橄绲日Z(yǔ)義分析工作提供一定的依據(jù)。語(yǔ)義知識(shí)庫(kù)是計(jì)算機(jī)“理解”語(yǔ)言內(nèi)容的基礎(chǔ),早在二十世紀(jì)初,一
6、些哲學(xué)家就開(kāi)始了語(yǔ)義的形式化研究1,2。進(jìn)入20世紀(jì)80年代,自然語(yǔ)言的形式語(yǔ)義學(xué)和計(jì)算語(yǔ)義學(xué)開(kāi)始走入計(jì)算語(yǔ)言學(xué),這些研究的基礎(chǔ)假設(shè)是人們對(duì)概念、語(yǔ)義、知識(shí)的理解有很大的相似性。20世紀(jì)80年代中后期,人們開(kāi)始面向機(jī)用的語(yǔ)義知識(shí)庫(kù)方面的研究,目前這方面的主要成果有Princeton大學(xué)的WordNet、California大學(xué)Berkeley分校的FrameNet以及微軟公司的MindNet等,它們主要是以英語(yǔ)為描述對(duì)象,不便于中文語(yǔ)義的分析應(yīng)用;目前中文方面的語(yǔ)義知識(shí)庫(kù)有中科院語(yǔ)言信息中心的知網(wǎng)(HowNet)7、中國(guó)科學(xué)院聲學(xué)研究所的HNC8、北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所研制的基于WordNe
7、t框架的中文概念詞典(Chinese Concept Dictionary, CCD)等3,4。2 兼容WordNet的CCDWordNet是由Princeton大學(xué)G. A. Miller教授和Christian Fellbaum教授等人于20世紀(jì)80 年代初開(kāi)始創(chuàng)建的5,6,歷時(shí)20余年并且還在不斷完善之中。由于WordNet概念的形式化描述和概念之間簡(jiǎn)明的結(jié)構(gòu),目前已成為事實(shí)上的國(guó)際標(biāo)準(zhǔn),其框架的合理性已經(jīng)被詞匯語(yǔ)義學(xué)界所公認(rèn)。WordNet改變了傳統(tǒng)詞典的組織方式,根據(jù)詞義而不是根據(jù)詞形來(lái)組織詞匯信息。WordNet通過(guò)同義詞集合(Set of Synonyms,Synset)表示概念
8、,通過(guò)概念間的關(guān)系描述英語(yǔ)概念之間復(fù)雜的網(wǎng)狀語(yǔ)義關(guān)系,WordNet中的關(guān)系指針及其含義說(shuō)明見(jiàn)附1。其中上位關(guān)系(hypernymy relation)是名詞(或動(dòng)詞)概念間的主關(guān)系,另外還有一些輔助的關(guān)系(例如,名詞概念間的反義關(guān)系、部分/整體關(guān)系等,動(dòng)詞概念間的反向假設(shè)關(guān)系、致使關(guān)系等)。WordNet 1.6版本包含四類實(shí)詞的99,642個(gè)概念節(jié)點(diǎn)(其中名詞概念66025個(gè)、動(dòng)詞概念12127個(gè)、形容詞概念17915個(gè)、副詞概念3575個(gè))和大約20萬(wàn)對(duì)語(yǔ)義關(guān)系,形成了一張龐大的英文概念語(yǔ)義網(wǎng)絡(luò)。為了繼承已有的研究成果,與國(guó)際標(biāo)準(zhǔn)接軌,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所于2000年開(kāi)始構(gòu)建中文概念
9、詞典(Chinese Concept Dictionary, CCD)項(xiàng)目,旨在構(gòu)造一個(gè)與WordNet兼容的漢英雙語(yǔ)語(yǔ)義知識(shí)庫(kù)。CCD是一個(gè)基于WordNet框架的雙語(yǔ)語(yǔ)義詞典3,4,11,12,14,它繼承了WordNet(1.6版)的主要結(jié)構(gòu)、概念及語(yǔ)義關(guān)系,并針對(duì)中文特點(diǎn)進(jìn)行了調(diào)整和發(fā)展。CCD從關(guān)系語(yǔ)義學(xué)的觀點(diǎn)出發(fā),利用同義詞集合表示概念,通過(guò)同義詞集合間的指針來(lái)描述概念間的關(guān)系,便于語(yǔ)義關(guān)系的表示和檢索,有利于簡(jiǎn)單地實(shí)現(xiàn)語(yǔ)義距離的計(jì)算,特別是同義詞集合(同義關(guān)系)、上下位關(guān)系、整體/部分關(guān)系等的描述有利于概念的分級(jí)擴(kuò)展,可以直接應(yīng)用于機(jī)器翻譯、自動(dòng)文摘、文本分類、概念檢索和信息提取
10、等方面的語(yǔ)義理解。CCD的構(gòu)建,不僅在概念和語(yǔ)義的表示上靠近了國(guó)際標(biāo)準(zhǔn),而且面向中文信息處理,可以直接服務(wù)于中文信息檢索13、信息提取、文本分類、詞匯語(yǔ)義消歧以及漢英機(jī)器翻譯等應(yīng)用研究14。3 名詞概念的調(diào)整與優(yōu)化社會(huì)與技術(shù)的發(fā)展不斷形成新的概念、新的術(shù)語(yǔ),同時(shí)對(duì)舊的概念進(jìn)行自然的演化或淘汰,這些概念大多是以名詞的形式出現(xiàn)的。在各種詞類中,名詞在數(shù)量上占優(yōu)絕對(duì)的優(yōu)勢(shì),而且名詞是一個(gè)開(kāi)放的集合,處于不斷變化之中。因此對(duì)名詞類概念的準(zhǔn)確把握是對(duì)文本內(nèi)容正確分析和理解的關(guān)鍵。WordNet中名詞的上下位關(guān)系形成了名詞的概念框架,描述了名詞類概念間近于樹(shù)形的層次關(guān)系。從下位到上位,是對(duì)概念的抽象和概化
11、;而從上位到下位,是對(duì)概念的具體和特化5,6,9。在基于概念的信息檢索、文本分類、信息過(guò)濾、語(yǔ)義標(biāo)注等方面有著廣泛的應(yīng)用,特別是其名詞概念之間上下位的語(yǔ)義繼承性,在名詞的語(yǔ)義消歧中有超過(guò)60%的消歧率9。因此,從開(kāi)始對(duì)CCD的構(gòu)建以及目前對(duì)概念同義詞集合組成的優(yōu)化工作,我們始終把名詞類概念放在首位。盡管存在“人類語(yǔ)言的認(rèn)知語(yǔ)義結(jié)構(gòu)具有共同性”的假設(shè),但是由于傳統(tǒng)習(xí)慣、文化背景的不同,中文與英文的Ontology會(huì)有所不同,因此就語(yǔ)言中概念與概念間的語(yǔ)義關(guān)系,漢語(yǔ)與英語(yǔ)會(huì)有一些差別。例如對(duì)顏色的描述與區(qū)分,不同地區(qū)、不同文化背景的人就會(huì)有明顯的差異3。CCD是一個(gè)通用的語(yǔ)義知識(shí)庫(kù),收詞主要依據(jù)是
12、構(gòu)建于20世紀(jì)80年代的WordNet,與當(dāng)代真實(shí)中文文本信息中的用詞相比,詞匯較傳統(tǒng),新詞收錄量有限,并且不同類別間概念數(shù)量的分布以及語(yǔ)義關(guān)系層次的分布都有較大的差別,這對(duì)CCD的實(shí)際應(yīng)用效果會(huì)有一定的影響。北京大學(xué)研制開(kāi)發(fā)CCD目標(biāo)大致可以概括為10:首先得到一個(gè)與WordNet兼容性盡可能好的漢英雙語(yǔ)CCD,以便采用成熟的WordNet理論、算法和技術(shù)直接為語(yǔ)義消歧、信息檢索、文本索引、文本分類、文本摘要等應(yīng)用提供有效的語(yǔ)義知識(shí)支持。進(jìn)而從漢英雙語(yǔ)版本中剝離出漢語(yǔ)部分,更多地考慮漢語(yǔ)語(yǔ)言的實(shí)際特點(diǎn),修改現(xiàn)有的語(yǔ)義關(guān)系描述并添加新的語(yǔ)義信息,形成完全獨(dú)立的面向漢語(yǔ)的詞匯語(yǔ)義知識(shí)庫(kù)(或稱其為
13、狹義CCD),該知識(shí)庫(kù)能對(duì)中文信息處理的多數(shù)應(yīng)用提供真實(shí)、有效的語(yǔ)義知識(shí)支持。受北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所委托,鄭州大學(xué)信息工程學(xué)院計(jì)算機(jī)系于2004年11月底開(kāi)始對(duì)CCD進(jìn)行數(shù)據(jù)校對(duì)及深加工等優(yōu)化處理,目前已完成CCD名詞概念的數(shù)據(jù)校對(duì)工作,并根據(jù)項(xiàng)目需要開(kāi)發(fā)了相應(yīng)的自動(dòng)處理輔助工具。3.1 優(yōu)化規(guī)范根據(jù)CCD構(gòu)建的目標(biāo),北京大學(xué)對(duì)CCD的優(yōu)化工作提出指導(dǎo)性的原則10,包括成詞及詞性原則、準(zhǔn)確性原則、完備性原則、知識(shí)體系原則以及顆粒度原則。目前CCD還處于雙語(yǔ)開(kāi)發(fā)階段,其知識(shí)體系原則和顆粒度原則完全適應(yīng)WordNet框架,不做任何變動(dòng)和修改。本階段的優(yōu)化主要針對(duì)成詞及詞性原則、準(zhǔn)確性原則和完備
14、性原則,具體為:Ø 成詞及詞性原則:特定詞性范疇概念的Synset字段中填寫的必須是合法的詞語(yǔ),而不能是描述該概念的解釋性短語(yǔ)或句子,并且該詞語(yǔ)的詞性與當(dāng)前概念的詞性范疇一致。Ø 準(zhǔn)確性原則:Synset字段中填寫的每一個(gè)詞語(yǔ),其詞義都能相當(dāng)準(zhǔn)確地表達(dá)當(dāng)前概念,而當(dāng)前概念是由描述性定義和當(dāng)前概念在整個(gè)概念空間所處的位置確定的。Ø 完備性原則:詞義能基本準(zhǔn)確地表達(dá)當(dāng)前概念的每一個(gè)詞語(yǔ),都應(yīng)出現(xiàn)在當(dāng)前概念的Synset字段中,而當(dāng)前概念是由描述性定義和當(dāng)前概念在整個(gè)概念空間所處的位置確定的。3.2 優(yōu)化方法人工校對(duì)的誤差是難免的,為了對(duì)原有的成果進(jìn)行有效的保護(hù),減少新
15、錯(cuò)誤的引入,鄭州大學(xué)采用標(biāo)記數(shù)據(jù)、分步工作,以保留中間結(jié)果的工作方式。同時(shí),帶有標(biāo)記的中間結(jié)果還可以用于進(jìn)一步的分析和統(tǒng)計(jì)處理。標(biāo)記的規(guī)范是對(duì)CSynset、CDescription以及CNote中的詞語(yǔ)進(jìn)行調(diào)整時(shí)加上刪詞或增詞標(biāo)記,具體為:Ø 刪詞標(biāo)記A -nWORDn- Ø 刪詞標(biāo)記B -WORD-Ø 增詞標(biāo)記 +WORD+其中刪詞標(biāo)記A用于Cdescription和CNote的刪除處理,刪詞標(biāo)記 B用于CSynset的刪除處理,這里n為刪詞的不同依據(jù),分別是:(1). 成詞原則:根據(jù)對(duì)中文詞語(yǔ)的認(rèn)識(shí),刪掉描述性短語(yǔ)、短句等。進(jìn)一步將利用北大提供的現(xiàn)代漢語(yǔ)語(yǔ)法
16、信息詞典、現(xiàn)代漢語(yǔ)詞典等語(yǔ)言資源對(duì)CCD中CSynset的詞進(jìn)行工具輔助的過(guò)濾處理。(2). 詞性原則:對(duì)詞性不合適的詞語(yǔ)進(jìn)行刪除,方法同成詞原則。(3). 準(zhǔn)確原則:根據(jù)上下位語(yǔ)義概念的約束,參考英文原義的解釋(Description),同時(shí)為使得直接上下位概念中盡量不包含同形詞語(yǔ),對(duì)不合適的詞語(yǔ)進(jìn)行刪除。這是CCD優(yōu)化的主要問(wèn)題,也是目前的主要工作。在CCD從WorNet的轉(zhuǎn)換過(guò)程中,主要集中于英文到中文詞對(duì)詞的翻譯,注重盡可能多的引入相應(yīng)的義項(xiàng)描述用詞,缺少對(duì)詞匯所在概念上下位關(guān)系的限制,以致引入了很多不能準(zhǔn)確描述對(duì)應(yīng)概念的翻譯詞,這嚴(yán)重影響了CCD的質(zhì)量。(4). 完備原則:刪除義項(xiàng)超
17、出所在概念外延的詞匯。同時(shí),根據(jù)概念表示把那些“稍微”表達(dá)了當(dāng)前概念的含義而此前在CCD中并未出現(xiàn)的詞語(yǔ)也收進(jìn)來(lái),以提高CCD收詞的覆蓋率。(5). 筆誤原則:刪掉由于錄入、拷貝等操作引起的別字、錯(cuò)字、同形詞語(yǔ)、噪音信息等。(6). 重復(fù)原則:標(biāo)記完全重復(fù)的結(jié)點(diǎn)或子樹(shù),為今后中文單語(yǔ)版本CCD的改進(jìn)做準(zhǔn)備。該類結(jié)點(diǎn)不予刪除。(7). 刪X原則:考慮中英文文化差異的進(jìn)一步分析,針對(duì)原來(lái)缺少中文對(duì)應(yīng)翻譯的結(jié)點(diǎn),如果新增加了中文信息,作特殊的刪除標(biāo)記。(8). 同形原則:針對(duì)同形的名稱(人名、地名等),中文不易區(qū)別翻譯的詞語(yǔ)進(jìn)行標(biāo)記,留待后續(xù)處理。該類結(jié)點(diǎn)不予刪除。截至目前,項(xiàng)目組已完成CCD中約6
18、4000個(gè)名詞概念的初步優(yōu)化工作,以WordNet中對(duì)原始英文概念的同義詞列表、定義解釋以及例句特征為基本參考,根據(jù)對(duì)相應(yīng)中文概念之間上下位語(yǔ)義關(guān)系的理解,對(duì)CCD表示概念的同義詞集合的選詞進(jìn)行詞義準(zhǔn)確性的校對(duì)與調(diào)整,提高了CCD概念表示的準(zhǔn)確性,改善了CCD對(duì)漢語(yǔ)文化的適應(yīng)性。本文研究對(duì)CCD原有名詞概念同義詞集合的組成以及概念的定義和例句進(jìn)行了大量的調(diào)整工作,特別是針對(duì)上下位語(yǔ)義約束(類別3的錯(cuò)誤情況)進(jìn)行了仔細(xì)的斟酌,同時(shí)還對(duì)原有數(shù)據(jù)中數(shù)字信息缺失、“目前尚未有解釋”等情況作了修正,使得數(shù)據(jù)質(zhì)量有了明顯的改進(jìn)。3.3 輔助優(yōu)化工具為了更好的完成CCD的優(yōu)化工作,提高校對(duì)的工作效率,改善復(fù)
19、查的操作界面,減少錯(cuò)誤的發(fā)生,我們開(kāi)發(fā)了CCD優(yōu)化的輔助工具CCDFilter。該工具采用Visual C+6.0開(kāi)發(fā),實(shí)現(xiàn)了數(shù)據(jù)庫(kù)合并、標(biāo)記過(guò)濾以及版本對(duì)比等功能。數(shù)據(jù)庫(kù)合并模塊完成被分割A(yù)ccess數(shù)據(jù)庫(kù)的記錄合并工作。CCD的名詞概念在各個(gè)數(shù)據(jù)庫(kù)中分布數(shù)量有較大的差異。CCD原來(lái)的可視化工具VACOL是根據(jù)給每結(jié)點(diǎn)內(nèi)部名詞概念的上下位樹(shù)形結(jié)構(gòu)進(jìn)行數(shù)據(jù)瀏覽的,為了保證樹(shù)結(jié)構(gòu)的完整性,各人校對(duì)時(shí)需要占有整個(gè)結(jié)點(diǎn)的數(shù)據(jù),這樣對(duì)于大結(jié)點(diǎn)的校對(duì)不利于工作進(jìn)度的并行管理,而多人同時(shí)工作又不易保證數(shù)據(jù)的一致性。因此,對(duì)于概念數(shù)特別多的大結(jié)點(diǎn),比如團(tuán)體結(jié)點(diǎn)(14group7403)、人物結(jié)點(diǎn)(18per
20、son6086)等,我們給并行工作的每個(gè)成員一份拷貝,并規(guī)定各人修訂的范圍,之后再根據(jù)各概念在數(shù)據(jù)庫(kù)中的記錄編號(hào),嚴(yán)格按照修訂范圍進(jìn)行合并,這樣既提高了工作效率,又保證了數(shù)據(jù)的準(zhǔn)確性和一致性。標(biāo)記過(guò)濾模塊完成校對(duì)工作中標(biāo)記的過(guò)濾和統(tǒng)計(jì)工作。對(duì)修訂數(shù)據(jù)進(jìn)行不同類別的標(biāo)記,是為了盡可能多地記錄下校對(duì)工作中發(fā)現(xiàn)的問(wèn)題,以利于各種情況的分類統(tǒng)計(jì)分析,同時(shí),帶有標(biāo)記的修訂數(shù)據(jù)可以作為相關(guān)詞匯語(yǔ)義研究的基礎(chǔ)資源。為了最后提交準(zhǔn)確干凈的CCD名詞數(shù)據(jù),該模塊將各種標(biāo)記按照增詞或減詞規(guī)則進(jìn)行過(guò)濾處理。版本對(duì)比模塊完成修訂前后新舊兩個(gè)版本數(shù)據(jù)的對(duì)比瀏覽,快速定位發(fā)生修訂的概念,并對(duì)已修訂的數(shù)據(jù)標(biāo)亮顯示。該模塊的
21、界面如下圖所示。其中顯示了結(jié)點(diǎn)的上下位樹(shù)形結(jié)構(gòu)、修訂概念的記錄位置列表、新舊版本的中英文同義詞集合(Synset/CSynset)、定義(Description/CDescription)、例句(Note/CNote)等,同時(shí)在此界面下可以進(jìn)行新版本數(shù)據(jù)的再次修訂,并實(shí)現(xiàn)對(duì)新修訂數(shù)據(jù)的及時(shí)標(biāo)亮功能。該模塊的開(kāi)發(fā)顯著提高了修訂復(fù)查的工作效率,在CCD的校對(duì)優(yōu)化方面對(duì)VACOL進(jìn)行了功能上的擴(kuò)展,方便了校對(duì)人員的使用。4 進(jìn)一步工作語(yǔ)言是不斷發(fā)展變化的,中文概念及其詞形表示也是持續(xù)演化的。CCD的知識(shí)表示反映的是漢語(yǔ)的特點(diǎn),主要面向的也是中文信息處理領(lǐng)域。由于中西方文化、習(xí)俗、歷史、環(huán)境等方面的差
22、異,并非所有WordNet中的概念都能在當(dāng)代中文的文化背景下找到合適的詞匯。特別是網(wǎng)上漢語(yǔ)信息的迅猛發(fā)展,對(duì)中文信息處理不斷提出新的要求:網(wǎng)上的信息檢索、信息提取、主題識(shí)別、文本分類、自然語(yǔ)言查詢以及反黃反黑的信息過(guò)濾,成為語(yǔ)言信息處理研究的焦點(diǎn)問(wèn)題,這些大都涉及對(duì)文本內(nèi)容的語(yǔ)義進(jìn)行某種程度的分析和理解,而結(jié)構(gòu)合適、信息豐富的語(yǔ)義詞典正是文本語(yǔ)義分析的基礎(chǔ)資源。因此CCD的不斷修訂優(yōu)化是非常必要的,不只是名詞概念,動(dòng)詞、形容詞、副詞等概念也需要進(jìn)一步的修訂優(yōu)化工作。根據(jù)對(duì)現(xiàn)代漢語(yǔ)實(shí)際應(yīng)用的理解特別是網(wǎng)上中文信息文本的用詞規(guī)律,項(xiàng)目組對(duì)CCD中名詞部分概念增加了同義詞列表,豐富了CCD名詞概念表
23、示的完備性與共時(shí)性,從而增強(qiáng)了CCD對(duì)當(dāng)前真實(shí)文本分析的可用性。同時(shí)對(duì)各種標(biāo)記類別分布的統(tǒng)計(jì),可以用于分析中英文概念表示的差異,總結(jié)詞匯語(yǔ)義方面的規(guī)律。進(jìn)一步的優(yōu)化工作還包括根據(jù)其他中文語(yǔ)法詞典或語(yǔ)義詞典等資源,研究提高自動(dòng)CCD完備性的策略并開(kāi)發(fā)相應(yīng)的輔助工具。按照現(xiàn)有WordNet框架和翻譯的填寫模式,有些表現(xiàn)漢語(yǔ)特色的詞語(yǔ)實(shí)際缺失,即有一定數(shù)量的現(xiàn)代常用詞語(yǔ)沒(méi)有被收錄,這將影響CCD在中文信息處理中的實(shí)際使用效果。因此,在考慮準(zhǔn)確性原則的前提下,對(duì)CCD的收詞進(jìn)行自動(dòng)或輔助擴(kuò)展,提高CCD的完備性,將對(duì)改進(jìn)CCD的質(zhì)量、增強(qiáng)CCD應(yīng)用價(jià)值具有重要的實(shí)際意義。另外,根據(jù)中文信息和漢語(yǔ)文化的
24、特點(diǎn),不斷調(diào)整CCD中文概念之間的語(yǔ)義關(guān)系及其概念的表示,是CCD優(yōu)化規(guī)范中知識(shí)體系原則以及顆粒度原則的具體體現(xiàn),也是CCD優(yōu)化工作的后續(xù)內(nèi)容。致謝本文工作得到了北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所俞士汶教授、孫斌博士等多位老師的指導(dǎo)與幫助,同時(shí)參與CCD校對(duì)工作的還有鄭州大學(xué)信息工程學(xué)院的劉艷芳、何春梅、徐玉峰、王國(guó)強(qiáng)等多位同學(xué),在此一并感謝。參考文獻(xiàn)1 Wittgenstein, L., Philosophical Investigations, Basil Blackwell Ltd. 19532Carnap, R., Der Logische Aufbau Der Welt, Felix Meiner Verlag, Hamburg. 19663 Liu, Y., Yu, J. S. and Yu, S. W. 2002. A Tree-Structure Solution for the Development of Chinese WordNet. Proceedings of GWC2002, Mysore, India.4Liu, Y., Yu, S. W. and Yu, J. S. (2002) Building a
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)合式放大鏡數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)PVC地毯保護(hù)地墊數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 郵政面試筆試題及答案
- 專題5 功和簡(jiǎn)單機(jī)械 2021年和2022年江蘇省南通市中考物理模擬試題匯編
- 2019-2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識(shí)自我檢測(cè)試卷A卷附答案
- 2019-2025年軍隊(duì)文職人員招聘之軍隊(duì)文職管理學(xué)真題練習(xí)試卷A卷附答案
- 酒店合同范本(2篇)
- 2023年黑龍江公務(wù)員《行政職業(yè)能力測(cè)驗(yàn)》試題真題及答案
- 環(huán)境保護(hù)與可持續(xù)發(fā)展知識(shí)點(diǎn)測(cè)試
- 語(yǔ)文課本里的經(jīng)典詩(shī)文賞析
- 《澳大利亞》導(dǎo)學(xué)案
- 2025四川省安全員A證考試題庫(kù)附答案
- 2025年高考語(yǔ)文備考訓(xùn)練之社會(huì)現(xiàn)象:“數(shù)字囤積癥”
- 2025年湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)帶答案
- 蘇教版三年級(jí)科學(xué)下冊(cè)第一單元第3課《植物開(kāi)花了》課件
- 休閑海島開(kāi)發(fā)策劃方案
- DB36-T 2097-2024 固定資產(chǎn)投資項(xiàng)目節(jié)能報(bào)告編制規(guī)范
- 健康與保健課件
- 《運(yùn)營(yíng)管理 第7版》課件全套 馬風(fēng)才 第01-15章 運(yùn)營(yíng)管理概論- 互聯(lián)網(wǎng)運(yùn)營(yíng)
- 課件-DeepSeek從入門到精通
- 2025年度典型火災(zāi)案例及消防安全知識(shí)專題培訓(xùn)
評(píng)論
0/150
提交評(píng)論