版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
淺談中文信息處理與現(xiàn)代漢語語法
論文關(guān)鍵詞:中文信息處理現(xiàn)代漢語語法句處理
論文摘要:用計(jì)算機(jī)來處理漢語信息包括“字處理”、“詞處理”和“句處理”三個(gè)階段。“句處理”是實(shí)現(xiàn)自然語言的處理與理解這一關(guān)鍵性的技術(shù)難關(guān)。其中遇到的問題比較多:詞性的判斷;短語、句子的結(jié)構(gòu)分析;歧義現(xiàn)象分析等等,最根本的方法是語言學(xué)家盡可能地把語言中的這些現(xiàn)象通過歸納、分析、總結(jié)出規(guī)律,再用形式化的方式描述出來,以便利于計(jì)算機(jī)處理。
用計(jì)算機(jī)來處理漢語信息,就是漢語信息處理,又稱中文信息處理。中文信息處理包括“字處理”、“詞處理”和“句處理”?!白痔幚怼薄ⅰ霸~處理”分別與漢字和詞匯有關(guān),在此主要談?wù)劇熬涮幚怼薄?/p>
句處理的主要內(nèi)容是,怎樣使計(jì)算機(jī)理解自然語言(如現(xiàn)代漢語)的句子的意思,又怎樣使計(jì)算機(jī)生成符合自然語言規(guī)則的句子?!熬涮幚怼彼枰恼Z言知識,將是一種涉及到語音、語義、語法、語用等諸方面的綜合性知識。目前。大家都深感現(xiàn)有的關(guān)于漢語的知識遠(yuǎn)遠(yuǎn)不能滿足中文句處理的需要。單就句法方面的情況說。在中文信息處理過程中將會(huì)不斷遇到我們想象不到的問題,許多問題在人看來還是比較容易解決的,但計(jì)算機(jī)就解決不了。也有一些問題,本身在學(xué)術(shù)界就有不同的觀點(diǎn),那么,就給中文信息處理增加了更大的困難。
用計(jì)算機(jī)來處理中文信息,遇到了很多困難,從現(xiàn)代漢語語法的角度來看,主要有以下一些問題:
一、詞性的判斷
由于漢語缺乏形態(tài)。漢語的詞性判斷主要是根據(jù)詞的語法功能,不同的詞,詞性意義可能不同,同一個(gè)詞出現(xiàn)在不同的地方,詞性意義也可能不同,漢語中,大多數(shù)詞有固定的詞性,但有些詞的用法比較特殊。例如:
1.他花了十塊錢買了一盆花。
2.你用那個(gè)鎖把門鎖上。
3.他比雷鋒還雷鋒。
這三個(gè)句子中分別有兩個(gè)“花”、“鎖”、“雷鋒”。但它們只是音同、形同,詞性和意義都不同。句子1中的第一個(gè)“花”是動(dòng)詞,“花費(fèi)”的意思,第二個(gè)“花”是名詞,“植物”的意思。句子2中的第一個(gè)“鎖”是名詞,即“鎖子”的意思,第二個(gè)“鎖”是動(dòng)詞,是“鎖住”的意思。句子3中第一個(gè)“雷鋒”是名詞,表示人名,第二個(gè)“雷鋒”是形容詞,表示“雷鋒的精神、品質(zhì)等”。具有一定語言知識的人大體上都能分清它們的區(qū)別。從傳統(tǒng)語言教學(xué)的角度來講,句子1中的兩個(gè)“花”是詞形、讀音相同,但詞性和意思都不一樣,且兩個(gè)“花”的意思之間沒有聯(lián)系,所以屬于同音詞。句子2中的兩個(gè)“鎖”,也是詞形、讀音相同,詞性和意思都不一樣,但兩個(gè)“鎖”意思間有聯(lián)系,所以屬于兼類詞。句子3中的兩個(gè)“雷鋒”詞形、讀音相同,詞性和意思都不一樣,意思也有聯(lián)系,但第二個(gè)“雷鋒”屬于詞類活用。Ⅲ從教學(xué)的角度看,這種分類比較細(xì)致,便于人們的理解和掌握,但是,從中文信息處理的角度來看,這種分法太細(xì),不便于計(jì)算機(jī)掌握。
目前,在中文信息處理中,是這樣來定義兼類詞的:亢世勇認(rèn)為“兼類詞有廣義兼類詞和狹義兼類詞。廣義兼類詞就是中文信息處理中所說的現(xiàn)代漢語的同形詞,對于計(jì)算機(jī)而言,只要詞形相同,不管讀音是否相同、意義是否相通,是同形異音詞、同形同音詞,還是一詞多義、一詞多種用法,都是相同的,都要從多個(gè)當(dāng)中選一個(gè)。狹義的兼類詞就是指一般的現(xiàn)代漢語著作定義的,‘同形同音、意義上有一定的聯(lián)系,且具有兩類或兩類以上詞的語法功能的詞”’。陸儉明認(rèn)為,兼類詞是“指同字形、同音而意義不同或詞性不同的詞”。如果按這種定義理解,以上三個(gè)句子中的兩個(gè)“花”、“鎖”、“雷鋒”都可以稱之為兼類詞。因?yàn)椋形男畔⑻幚淼哪康氖亲層?jì)算機(jī)能根據(jù)具體環(huán)境判斷出詞的詞性,從而準(zhǔn)確理解其中的含義就可以了。盡管如此,但是,漢語詞類是多功能的,一類詞不需要發(fā)生詞形變化就可以充當(dāng)不同的句子成分,不同類的詞可以充當(dāng)相同的句子成分,這樣就給兼類詞區(qū)分帶來了更多的麻煩。因而,兼類詞的選擇是計(jì)算機(jī)詞性自動(dòng)標(biāo)注的一個(gè)“瓶頸”。盡管信息處理專家運(yùn)用了規(guī)則排歧、統(tǒng)計(jì)概率排歧或者兩者結(jié)合起來等多種方法進(jìn)行排歧,但到目前為止,還沒有一種方法、一種系統(tǒng)能夠徹底解決這個(gè)問題。
二、短語、句子的結(jié)構(gòu)分析
由于漢語缺乏形態(tài)。所以。語序和虛詞成了漢語中表示語法的主要手段。有些短語、句子的結(jié)構(gòu)不好理解,需要形式和意義結(jié)合起來分析。例如:
A組:a。陜西+甘肅+寧夏(“陜西+甘肅+寧夏”三者為聯(lián)合關(guān)系)
b.中國+(北京+陜西)(“中國”與“北京陜西”是偏正關(guān)系.“北京”與“陜西”是聯(lián)合關(guān)系)
C.中國(陜西(西安))(“中國”與“陜西西安”是偏正關(guān)系,“陜西”與“西安”也是偏正關(guān)系)這一組中的abe三個(gè)短語對人來說,都很容易分清楚,但計(jì)算機(jī)目前還很難區(qū)分,要讓計(jì)算機(jī)分辨清楚,就得把三個(gè)處所名詞組合在一起構(gòu)成a類、b類、e類不同關(guān)系的條件與規(guī)則研究清楚,并將這些條件與規(guī)則加以形式化輸入到計(jì)算機(jī)內(nèi)。
B組:開始討論(述賓關(guān)系)分析研究(聯(lián)合關(guān)系)研究結(jié)束(主謂關(guān)系)
取下來(述補(bǔ)關(guān)系)看完再說(連謂關(guān)系)叫他回來(兼語關(guān)系)
生產(chǎn)管理(定中關(guān)系)諷刺說(狀中關(guān)系)介紹寫(不構(gòu)成合法的句法關(guān)系)
這組是現(xiàn)代漢語里“動(dòng)詞性詞語+動(dòng)詞性詞語”構(gòu)成的種種不同的結(jié)構(gòu)關(guān)系,對人來說,通過講解大致可以分辨,可是讓計(jì)算機(jī)要分清楚,就非常難,因?yàn)槲覀冎两襁€沒有總結(jié)出“動(dòng)詞性詞語+動(dòng)詞性詞語”構(gòu)成各種不同句法關(guān)系的具體規(guī)則。換句話說,“動(dòng)詞性詞語+動(dòng)詞性詞語”在什么條件下一定構(gòu)成合法的什么句法關(guān)系,能構(gòu)成什么樣不同的句法關(guān)系,我們至今還說不清楚。
C組:天氣好——好天氣(主謂——偏正)很好——好得很(偏正——述補(bǔ))
來人了?!藖砹恕?述賓——主謂)
一張票三元錢。——三元錢一張票。(主謂——主謂)這一組都是由于語序的不同而形成的結(jié)構(gòu)和意義都不同的短語和句子。這些結(jié)構(gòu)對人而言,稍加學(xué)習(xí)就可以理解,但這些給計(jì)算機(jī)理解意思增加了難度。需要人們把這些語序的變化形成的不同的結(jié)構(gòu)概括出規(guī)律來,再用形式化的方式描述出來。輸入到計(jì)算機(jī)里。
三、歧義現(xiàn)象
現(xiàn)代漢語短語結(jié)構(gòu)的歧義是進(jìn)行漢語句法分析的一大障礙?!熬涮幚怼币鉀Q的核心問題是排歧問題,計(jì)算機(jī)面對的歧義,不只是我們?nèi)怂芨杏X到的諸如下面這樣一些句子的歧義現(xiàn)象:
(1)他正在輸血。(他正給病人輸血。/他病了,正輸血。)
(2)看望的是病人。(你看望的那個(gè)人是病人。/看望你的那個(gè)人是病人。)
(3)我們急需進(jìn)口產(chǎn)品。(我們急需進(jìn)口的產(chǎn)品。/我們急需從國外進(jìn)口產(chǎn)品。)
某些在人看來不存在歧義的句子計(jì)算機(jī)會(huì)認(rèn)為有歧義.例如:
(4)a他被警察叫去罰了一百塊錢。
b他被警察叫去寫了一份檢查。例(4)a句和b句,在人的眼里結(jié)構(gòu)是不一樣的。a句“被警察”這個(gè)介詞結(jié)構(gòu)一直管到底。全句意思是“他被警察叫去,他被警察罰了一百塊錢”:而b句“被警察”這個(gè)介詞結(jié)構(gòu)只管到“叫去”,管不著“寫了一份檢查”??墒?,計(jì)算機(jī)分辨不清楚。要讓計(jì)算機(jī)分辨清楚,我們就得將“PP+VPI+VP2”(PP代表介詞結(jié)構(gòu),VP1和VP2分別代表緊挨著的不同的動(dòng)詞性詞語)這種結(jié)構(gòu)中的PP對后面動(dòng)詞性詞語管轄的范圍及其條件與規(guī)則進(jìn)行充分、準(zhǔn)確的描寫,并加以形式化,“交給”計(jì)算機(jī)。而這一類現(xiàn)象與規(guī)則我們過去根本就沒有考慮過,更不用說研究了。
其實(shí)以上所舉的例子都存在歧義問題,因此,也可以這么說,“句處理”要解決的核心問題是排歧問題。
中文信息“句處理”的研究工作,上個(gè)世紀(jì)80年代就開始了,最早進(jìn)行“句處理”研究工作就是基于規(guī)則展開的,但上個(gè)世紀(jì)90年代初,基于規(guī)則的“句處理”研究工作遇到了重重困難與難關(guān),主要是語言學(xué)家所提供的語言規(guī)則遠(yuǎn)遠(yuǎn)不能滿足信息處理的需要。目前,為了解決好中文信息處理中的“句處理”難題,出現(xiàn)了一個(gè)競相研究、競相發(fā)展的局面。對于句處理,提出的各種策略和途徑,歸納起來。主要有基于規(guī)則和基于統(tǒng)計(jì)這兩種策略?;谝?guī)則的研究者,一般求諸專家的理性知識,由人來對語言知識進(jìn)行抽象:基于統(tǒng)計(jì)者,一般求助于計(jì)算機(jī)對大規(guī)模語料庫真實(shí)文本的統(tǒng)計(jì)分析,由計(jì)算機(jī)來抽象出語言知識。各種策略和途徑,目前,我們還很難說哪一種是唯一正確的。各種策略和途徑,表面看不同,其實(shí),最終都需要依賴可靠的漢語知識來驅(qū)動(dòng)計(jì)算機(jī)正確處理自然語言(漢語)。因此,“無論是比較傳統(tǒng)的基于規(guī)則的處理策略,還是90年代以來方興未艾的基于統(tǒng)計(jì)的方法,在對語言知識的需求這一點(diǎn)上實(shí)際上都是共同的。所不同者,走規(guī)則路線的研究者一般求諸專家的理性知識,由人來對語言知識進(jìn)行抽象(比如以帶有合一條件的規(guī)則形式給出)。而走統(tǒng)計(jì)路線的研究者一般求助于計(jì)算機(jī)對大規(guī)模的語料庫的統(tǒng)計(jì)分析,由計(jì)算機(jī)來抽象出語言知識(比如以一定的數(shù)據(jù)結(jié)構(gòu)記錄的統(tǒng)計(jì)結(jié)果等)。兩種路線孰優(yōu)孰劣,不能籠統(tǒng)判斷,只能跟具體的應(yīng)用目標(biāo)結(jié)合起來,由實(shí)踐結(jié)果來評價(jià)?!蹦壳埃絹碓蕉嗟膶W(xué)者提倡把兩種方法結(jié)合起來使用。因此,相信在不久的將來,我們會(huì)攻克難關(guān),實(shí)現(xiàn)計(jì)算機(jī)對自然語言的處理與理解的目標(biāo),使中文信息處理技術(shù)處于世界領(lǐng)先地位。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園餐飲供貨協(xié)議
- 附錄一國家行政機(jī)關(guān)公文處理辦法現(xiàn)代應(yīng)用文書寫作(第三版)教學(xué)課件電子教案
- 2025年度個(gè)人所得稅贍養(yǎng)老人專項(xiàng)附加扣除協(xié)議執(zhí)行細(xì)則4篇
- 2025年度個(gè)人留學(xué)擔(dān)保合同模板
- 2025年度個(gè)人收入證明范本及稅務(wù)合規(guī)服務(wù)合同
- 2025-2030全球氫混合鍋爐行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025-2030全球CO2激光冷水機(jī)行業(yè)調(diào)研及趨勢分析報(bào)告
- 2024年女職工權(quán)益保護(hù)及性別平等知識有獎(jiǎng)知識競賽題庫及答案
- 2024年居民健康素養(yǎng)知識競賽考試題庫含答案
- 2025年個(gè)人間技術(shù)秘密保護(hù)保密合同4篇
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標(biāo)數(shù)字見證服務(wù)規(guī)范
- 人教版2024-2025學(xué)年八年級上學(xué)期數(shù)學(xué)期末壓軸題練習(xí)
- 【人教版化學(xué)】必修1 知識點(diǎn)默寫小紙條(答案背誦版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 《奧特萊斯業(yè)態(tài)淺析》課件
- 2022年湖南省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護(hù)理匯報(bào)
- 養(yǎng)殖場獸醫(yī)服務(wù)合同
- 哪吒之魔童降世
- HR六大板塊+三支柱體系
評論
0/150
提交評論