第六講 計(jì)算語言學(xué)_第1頁
第六講 計(jì)算語言學(xué)_第2頁
第六講 計(jì)算語言學(xué)_第3頁
第六講 計(jì)算語言學(xué)_第4頁
第六講 計(jì)算語言學(xué)_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第六講計(jì)算語言學(xué)什么是計(jì)算語言學(xué)?請(qǐng)舉出你概念里計(jì)算語言學(xué)研究的大致內(nèi)容.一、計(jì)算語言學(xué)的定義二、萌芽初創(chuàng)(語言翻譯問題、語言與數(shù)學(xué))三、計(jì)算語言學(xué)的分類四、計(jì)算語言學(xué)的特點(diǎn)五、漢字的信息處理六、詞語的信息處理七、機(jī)器翻譯各類定義:社會(huì)的需求和技術(shù)的進(jìn)步,推動(dòng)著古老的語言學(xué)和新興的計(jì)算機(jī)科學(xué)相接合,產(chǎn)生了一門交叉學(xué)科———計(jì)算語言學(xué)。它為計(jì)算機(jī)處理語言信息(包括語言中信息成分的發(fā)現(xiàn)和提取,語言數(shù)據(jù)的存儲(chǔ)、加工和傳輸,語言翻譯和理解)提供理論模型、計(jì)算方法和實(shí)現(xiàn)技術(shù)。

——俞士汶一、計(jì)算語言學(xué)的定義計(jì)算語言學(xué)是一個(gè)橫跨語言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)的交叉學(xué)科?!T志偉計(jì)算語言學(xué)數(shù)學(xué)計(jì)算機(jī)語言學(xué)計(jì)算語言學(xué)(ComputationalLinguistics)指的是這樣一門學(xué)科,它通過建立形式化的數(shù)學(xué)模型,/來分析、處理自然語言,/并在計(jì)算機(jī)上用程序來實(shí)現(xiàn)分析和處理的過程,/從而達(dá)到以機(jī)器來模擬人的部分乃至全部語言能力的目的。

——百度百科/詹衛(wèi)東計(jì)算語言學(xué)的定義:是利用計(jì)算計(jì)研究和處理自然語言的學(xué)科。

狹義:指的是通過建立形式化的計(jì)算模型,用計(jì)算機(jī)理解、分析、處理自然語言的學(xué)科。廣義:包括狹義的內(nèi)容;還包括利用計(jì)算機(jī)對(duì)語言文字進(jìn)行的各種定量化和精密化的研究。例1:中國《紅樓夢(mèng)》的作者:前八十回和后四十回是不是一個(gè)人。例2:方言親屬關(guān)系的計(jì)量

二、計(jì)算語言學(xué)的萌芽初創(chuàng):

語言學(xué)自己的準(zhǔn)備:1、《圣經(jīng)·創(chuàng)世紀(jì)》中“巴比塔”的傳說。

《舊約·創(chuàng)世紀(jì)》第11章講述了“通天塔”的故事。很久很久以前,天下的人都居住在一個(gè)叫做古巴比倫的地方,那時(shí)候人們都使用同一種語言。后來,古巴比倫人計(jì)劃修建一座塔,塔頂要高聳入云,直達(dá)天庭,以顯示人們的團(tuán)結(jié)和力量。塔越建越高,驚動(dòng)了天庭的耶和華。他想,現(xiàn)在天下的人都是一個(gè)民族,都說一種語言,他們團(tuán)結(jié)一致,什么奇跡都可以創(chuàng)造,那神還怎么去統(tǒng)治人類?于是上帝便決定要懲罰懲罰人類。他施魔法變亂了人們的口音,使他們無法溝通,高塔因此無法繼續(xù)建造下去。最后,上帝還把人類驅(qū)散到地球的各個(gè)角落。2、17世紀(jì)中葉展開的“普遍語言”的運(yùn)動(dòng),旨在運(yùn)用邏輯原則和圖形符號(hào)的基礎(chǔ)上,創(chuàng)造出一種無歧義的語言。

十七世紀(jì)的普遍語言文字運(yùn)動(dòng)席卷西歐,吸引了各國學(xué)者,但最為投入的似乎是英國人。倫敦皇家學(xué)會(huì)在成立初期,主要致力于普遍語言文字的討論,并資助威爾金斯出版《論一種真實(shí)字符和一種哲學(xué)語言》(1668)。牛頓對(duì)語言問題也頗感興趣,在皇家學(xué)會(huì)《哲學(xué)匯刊》上發(fā)表過兩篇語音學(xué)論文。語言學(xué)的應(yīng)用——翻譯計(jì)算語言學(xué)的研究首先是從機(jī)器翻譯開始的。3、20世紀(jì)30年代,法國工程師提出了用機(jī)器進(jìn)行語言翻譯的想法,并在1933年7月獲得了一項(xiàng)“翻譯機(jī)”的專利,叫做“機(jī)械腦”。語言學(xué)與計(jì)算機(jī)的結(jié)合1、1946年,美國研制出第一臺(tái)電子計(jì)算機(jī),人們開始用計(jì)算機(jī)進(jìn)行翻譯的嘗試,當(dāng)時(shí)采用的是詞對(duì)詞的策略,所以翻譯效果不理想。2、在1960年代初期,計(jì)算語言學(xué)曾因做機(jī)器翻譯的應(yīng)用研究,受到各國政府的大力支持而風(fēng)光一時(shí),然而一直沒有滿意的成績。于是美國政府委托國家科學(xué)院評(píng)估機(jī)器翻譯的計(jì)劃。1966年該評(píng)估報(bào)告指出:當(dāng)時(shí)的研究是沒有希望做好機(jī)器翻譯的。3、人們?cè)谑≈械玫絾l(fā),認(rèn)為要搞好自動(dòng)翻譯,必須在語言理論和計(jì)算機(jī)科學(xué)兩方面下足功夫,其中尤其語言處理理論的研究,人們認(rèn)識(shí)到,如果計(jì)算機(jī)無法理解自然語言,機(jī)器翻譯等只能是空中樓閣。理解自然語言使計(jì)算機(jī)具有聽說讀寫的能力語音識(shí)別與合成,機(jī)器翻譯,自然語言人際借口,情報(bào)檢索,自動(dòng)文摘,信息抽取,語料庫建設(shè)4、計(jì)算語言學(xué)的進(jìn)一步發(fā)展音字轉(zhuǎn)換:語音識(shí)別、拼音輸入自動(dòng)文摘:自動(dòng)給出一篇或多篇文章的摘要信息檢索:在海量的信息準(zhǔn)確找到你所需要的信息信息過濾:信息過濾是大規(guī)模內(nèi)容處理的另一種典型應(yīng)用。它是對(duì)陸續(xù)到達(dá)的信息進(jìn)行過濾操作,將符合用戶需求的信息保留,將不符合用戶需求的信息過濾掉。通??煞譃椴涣夹畔⑦^濾和個(gè)性化信息過濾:不良信息過濾一般指過濾掉暴力反動(dòng)色情等信息;個(gè)性化信息過濾類似于信息檢索,幫助用戶返回感興趣的東西。

語言學(xué)與數(shù)學(xué)1847年,俄國數(shù)學(xué)家B.Buljakovski認(rèn)為可以用概率論方法來進(jìn)行語法、詞源和語言歷史比較的研究。1851年,英國數(shù)學(xué)家A.DeMorgen把詞長作為文章風(fēng)格的一個(gè)特征進(jìn)行統(tǒng)計(jì)研究。1894年,瑞士語言學(xué)家DeSaussure指出,在基本性質(zhì)方面,語言中的量和量之間的關(guān)系,可以用數(shù)學(xué)公式有規(guī)律地表達(dá)出來,他在1916年出版的《普通語言學(xué)教程》中又指出,語言好比一個(gè)幾何系統(tǒng),它可以歸結(jié)為一些待證的定理。1898年,德國學(xué)者F.W.Kaeding統(tǒng)計(jì)了德語詞匯的在文本中的出現(xiàn)頻率,編制了世界上一部頻率詞典《德語頻率詞典》。1904年,波蘭語言學(xué)家BaudouinDeCourtenay指出,語言學(xué)家不僅應(yīng)當(dāng)掌握初等數(shù)學(xué),而且還要掌握高等數(shù)學(xué)。他表示堅(jiān)信,語言學(xué)將日益接近精密科學(xué),并將根據(jù)數(shù)學(xué)的模式,更多地?cái)U(kuò)展量的概念,發(fā)展新的演繹思想的方法。1933年,美國語言學(xué)家L.Bloomfield提出一個(gè)著名的論點(diǎn):“數(shù)學(xué)只不過是語言所能達(dá)到的最高境界?!?935年,加拿大學(xué)者E.VarderBeke提出了詞的分布率的概念,并以之作為詞典選詞的主要標(biāo)準(zhǔn)。1944年,英國數(shù)學(xué)家G.U.Yule發(fā)表了《文學(xué)詞語的統(tǒng)計(jì)分析》一書,大規(guī)模地使用概率和統(tǒng)計(jì)的方法來研究詞匯。計(jì)算語言學(xué)的標(biāo)志性事件:1962美國計(jì)算語言學(xué)會(huì)成立,每年舉行一次年會(huì),出版季刊《美國計(jì)算語言學(xué)雜志》(InternationalJournalofComputationalLinguistics)1965年在美國紐約成立國際計(jì)算語言學(xué)委員會(huì),每兩年召開一次學(xué)術(shù)研討會(huì)。中國:我國的中文信息學(xué)會(huì)成立于1981年,出版季刊《中文信息學(xué)報(bào)》,隸屬于中文信息學(xué)會(huì)的計(jì)算語言學(xué)專業(yè)委員會(huì)1987年6月成立,1988年6月在北京舉行了,首屆計(jì)算語言學(xué)學(xué)術(shù)會(huì)議。三、計(jì)算語言學(xué)的學(xué)科分類

計(jì)算語音學(xué)計(jì)算詞匯學(xué)計(jì)算語法學(xué)計(jì)算語義學(xué)

語料庫語言學(xué)(一)計(jì)算語音學(xué):研究如何用計(jì)算機(jī)對(duì)語音信息進(jìn)行處理,實(shí)現(xiàn)語音的自動(dòng)識(shí)別和合成。

語音識(shí)別(speechrecognition):機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。

一般來說,完整的語音識(shí)別要經(jīng)歷三個(gè)步驟:(1)語音特征提?。耗康氖菑恼Z音波形中提取隨時(shí)間變化的語音特征序列。(2)聲學(xué)模型與模式匹配(識(shí)別算法):將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。(3)計(jì)算機(jī)對(duì)識(shí)別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便作出相應(yīng)的反應(yīng)。通常是通過語言模型來實(shí)現(xiàn)。

語音合成(speechsynthesis):將可視的文本信息轉(zhuǎn)化為可聽的語音信息。啞人的手語——語音iphone4S(二)計(jì)算詞匯學(xué):研究如何用計(jì)算機(jī)處理自然語言的詞匯,建立語言詞匯庫,術(shù)語數(shù)據(jù)庫等機(jī)器可讀詞典。機(jī)讀詞典的規(guī)模及詞條的詳盡程度將成為衡量一個(gè)語言信息處理系統(tǒng)質(zhì)量的決定性因素。(三)計(jì)算語法學(xué):研究如何用計(jì)算機(jī)來分析自然語言的語法。這種研究在計(jì)算語言學(xué)中叫做自動(dòng)語法分析(parsing)。(四)計(jì)算語義學(xué):如何利用計(jì)算機(jī)來分析自然語言的語義。

優(yōu)選語義學(xué)指的是用于自動(dòng)翻譯的一種語義學(xué)理論,英國人工智能專家Y.A.威爾克斯于1974年提出。語義單位有5種:義素;義式;裸模板;模板;超模板。義素是最基本的語義單位,由義素構(gòu)成義式,用以描寫單詞的語義;由義式構(gòu)成裸模板及模板,用以描寫簡單句的語義;再由超模板描寫更大的文句或段落的語義。威爾克斯確定了80個(gè)義素,分為5組:①語義實(shí)體:如MAN(人類),STUFF(物質(zhì)),THING(物體),PART(事物的部分),FOLK(人類的群體),STATE(存在的物質(zhì)),BEAST(獸類)等等。②動(dòng)作:如FORCE(強(qiáng)迫),CAUSE(引起),FLOW(流動(dòng)),PICK(挑選),BE(存在)等等。③性狀:如KIND(性質(zhì)),HOW(動(dòng)作的方式)等等。④種類:如CONT(容器),THRU(孔)等等。⑤格:如TO(方向),SOUR(來源),GOAL(目標(biāo)),LOCA(位置),SUBJ(施事),OBJE(受事),IN(包含),POSS(領(lǐng)屬)等等。(五)語料庫語言學(xué):語料庫(corpus)亦稱語庫或素材,是收集并科學(xué)地組織起來的一套語言材料,這種材料是某種語言中自然出現(xiàn)的,可以是書面的,也可以是口頭的。語料庫語言學(xué)(corpuslinguistics)是以語料庫中的語篇(text)語料為基礎(chǔ)對(duì)語言進(jìn)行研究的一門學(xué)科。北京大學(xué)《人民日?qǐng)?bào)》標(biāo)注語料庫:北京語言大學(xué)的語料庫:/kych/H.htm清華大學(xué)的漢語均衡語料庫TH-ACorpus:/ainlp/source.htm山西大學(xué)的語料庫:/homepage/cslab/sxuc1.htm臺(tái)灣中研院的語料庫:現(xiàn)代漢語平衡語料庫:.tw/SinicaCorpus或.tw/~tibe/2-words/modern-words/

或.tw/ftms-bin/kiwi.sh近代漢語標(biāo)記語料庫:.tw/Early_Mandarin/古漢語語料庫:.tw/ftms-bin/ftmsw3或/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi

或.tw/~tibe/2-words/old-words/臺(tái)灣南島語典藏:.tw/Formosan/閩南語典藏:.tw/漢籍電子文獻(xiàn):.tw/~tdbproj/handy1/或.tw/ftms-bin/ftmsw3香港城市大學(xué)的LIVAC共時(shí)語料庫:.hk/livac/或http://www.LIVAC.org浙江師范大學(xué)的歷史文獻(xiàn)語料庫:/xueke/hyywzx/xkjj.htm中國科學(xué)院計(jì)算所的雙語語料庫:/corpus/query_process.php中文語言資源聯(lián)盟:/xyzy.htm四、計(jì)算語言學(xué)的特點(diǎn)

(一)元語言的形式化1、對(duì)象語言、元語言:對(duì)象語言指的是人們要研究的那種語言。元語言指的是人們描述對(duì)象語言的那種語言。從交際的角度來看,對(duì)象語言一般是人類正在使用的自然語言,也可以是死語言,元語言一般是人類正在使用的自然語言;從人機(jī)交流的角度講,對(duì)象語言一般是類正在使用的自然語言,也可以是死語言,元語言一般是人工語言。2、元語言為什么要形式化?自然語言太復(fù)雜了,這是自然語言做語言的最大缺陷。計(jì)算語言學(xué)研究的重要內(nèi)容:如何設(shè)計(jì)元語言才能更好地描述或敘述對(duì)象語言里的規(guī)律而且計(jì)算機(jī)能夠讀懂。計(jì)算語言學(xué)要考慮:一是技術(shù)上的需要,便于在計(jì)算機(jī)上實(shí)現(xiàn)。二是語言描述的需要,能精確深入地描述語言規(guī)律。(二)具有可操作性:操作性——描述性語言研究的可操作性:告訴人們?cè)鯓訌囊粋€(gè)現(xiàn)成的句子(這時(shí)你并不懂這個(gè)句子的具體含義)變出他的句法結(jié)構(gòu)乃至它的意義。其過程是先操作后理解??刹僮餍钥梢钥闯墒怯?jì)算語言學(xué)區(qū)別于傳統(tǒng)語言學(xué)的特征之一。(三)具有工程性:表現(xiàn)在其涉及領(lǐng)域的廣泛和不能停留在理論和實(shí)驗(yàn)階段,其最終目標(biāo)是達(dá)到實(shí)用化。(四)注重語言研究的全局性和一般性:計(jì)算語言學(xué)研究的是帶有普遍性和一般性的問題,而傳統(tǒng)的語言學(xué)家往往喜歡研究的是內(nèi)在的規(guī)律。俞士汶,男,1938年12月出生,安徽宣城人,漢族。1964年畢業(yè)于北京大學(xué)數(shù)學(xué)力學(xué)系。之后,一直在北大從事計(jì)算機(jī)學(xué)科的研究與教學(xué)工作。現(xiàn)任北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授、計(jì)算語言學(xué)研究所學(xué)術(shù)指導(dǎo)委員會(huì)主席。兼任中國中文信息學(xué)會(huì)和中國語文現(xiàn)代化學(xué)會(huì)常務(wù)理事、全國標(biāo)準(zhǔn)化技術(shù)委員會(huì)委員和三分會(huì)主任、新加坡《漢語語言與計(jì)算學(xué)報(bào)》聯(lián)合主編等職。主持了多個(gè)國家973重點(diǎn)基礎(chǔ)研究項(xiàng)目、國家863高技術(shù)項(xiàng)目、國家重點(diǎn)科技攻關(guān)項(xiàng)目、國家自然科學(xué)基金項(xiàng)目、國家社會(huì)科學(xué)基金項(xiàng)目以及國際、兩岸合作項(xiàng)目。發(fā)表論文140多篇,著作8本?!冬F(xiàn)代漢語語法信息詞典》等研究成果有廣泛影響。得到政府部門和北京大學(xué)的多項(xiàng)獎(jiǎng)勵(lì)和表彰。培養(yǎng)了數(shù)十名計(jì)算語言學(xué)領(lǐng)域的博士生、碩士生,也與一批博士后和訪問學(xué)者進(jìn)行了合作研究。推薦網(wǎng)站:/default_cn.asp——北京大學(xué)語言研究所/doubtfire/——詹衛(wèi)東/——盧偉推薦書:計(jì)算語言學(xué)基礎(chǔ)馮志偉商務(wù)印書館計(jì)算語言學(xué)易綿竹上海外語教育計(jì)算語言學(xué)與機(jī)器翻譯導(dǎo)論張政、苗天順等外語教學(xué)與研究出版社北京大學(xué)、北語、廈大、上海師大、南京師大、華中科大、魯東大學(xué)都有這個(gè)方向。中文信息處理中文信息處理的三個(gè)階段:字處理:輸入、顯示、排序、排版;字形、字量詞處理:詞語切分、語法屬性標(biāo)注、詞匯單位、詞匯統(tǒng)計(jì)、詞語構(gòu)成、義項(xiàng)劃分、義項(xiàng)統(tǒng)計(jì)句處理:語法搭配、句型、句式五、漢字的信息處理

(一)漢字與信息處理筆、墨、紙、硯甲、骨、金、木打字機(jī)電子計(jì)算機(jī)漢字面向人閱讀筆畫書寫人機(jī)互動(dòng)、編碼輸入、自動(dòng)識(shí)別機(jī)械性質(zhì)的整字書寫民族語言支持能力NLS(二)漢字輸入漢字輸入漢字鍵盤輸入語音識(shí)別漢字識(shí)別1、漢字識(shí)別

電腦的漢字識(shí)別功能是指用計(jì)算機(jī)對(duì)印刷在紙上和手寫在紙上漢字的自動(dòng)辨識(shí),它是中文信息處理中的一項(xiàng)重要功能。一個(gè)實(shí)用的漢字識(shí)別系統(tǒng)由掃描器,計(jì)算機(jī)主機(jī),顯示器,識(shí)別軟件和字庫等部分組成。工作過程:文稿,書刊等通過掃描器輸入計(jì)算機(jī),提取識(shí)別特征后與字庫進(jìn)行比較,并把識(shí)別結(jié)果顯示出來。印刷體:單體、多體脫機(jī)手寫漢字識(shí)別聯(lián)機(jī)手寫2、語音識(shí)別語音識(shí)別特定人非特定人大詞匯量小詞匯量孤立發(fā)音連續(xù)發(fā)音特定人非特定人大詞匯量特定人非特定人思維慣式快解放了手

一些用戶交換機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。全球語音識(shí)別電話軟件年銷售收入達(dá)上億美元。漢字鍵盤輸入(最廣)漢字形碼輸入漢字音碼輸入音形碼|形音碼輸入漢字鍵盤輸入王碼五筆字型鄭碼

T9筆畫輸入法全拼,雙拼,智能ABC,微軟拼音,紫光拼音,搜狗極點(diǎn)五筆五碼智拼輸入法大眾形音輸入法母字全能碼編碼的優(yōu)缺點(diǎn)(1)形碼的優(yōu)點(diǎn)按字型編碼,重碼率低無需顧及讀音,對(duì)講不好普通話的人適用;

不認(rèn)識(shí)的漢字照“樣”可以輸入。形碼的缺點(diǎn)要記憶的東西較多,難學(xué)難記;對(duì)字形不同人之間都會(huì)有不同的認(rèn)識(shí),易拆錯(cuò)。

音碼的優(yōu)缺點(diǎn)(2)音碼的優(yōu)點(diǎn)與人的語音思維一致,邊進(jìn)行文章的構(gòu)思邊用音碼輸入音碼的碼鍵就在英文鍵盤上,不需要改造鍵盤。1958年以后出生的人,大多數(shù)學(xué)過漢語拼音,無需專門學(xué)音碼。音碼的缺點(diǎn)漢字同音字太多,重碼率高,輸入速度受限;不認(rèn)識(shí)的漢字無法輸入,甚至讀不準(zhǔn)也一樣輸入不了;比如:ji有109個(gè)同音字:幾及急既即機(jī)雞積記級(jí)極計(jì)擠己季寄紀(jì)系基激吉脊際汲肌嫉姬績緝饑跡棘薊技冀輯伎祭劑悸濟(jì)籍寂期其奇忌齊妓繼集給革擊圾箕譏畸稽疾墼洎鱭屐齏戟鯽嵇磯稷戢蟣詰笈暨笄剞嘰蒺躋嵴掎跽霽唧畿薺瘠璣羈丌偈芨佶赍楫髻咭蕺覬麂驥殛岌亟犄乩芰嚌音形碼|形音碼的優(yōu)缺點(diǎn)(3)以音形碼為例:七qz,動(dòng)dg,才cf,大dd,平ps。這些字的第一位代碼分別是其聲母;這些字的第一畫都是“一”;這些字的第二畫分別是“折、一、丨、丿、丶”;這些筆畫的排列分別所對(duì)應(yīng)的字符分別是“z,g,f,d,s",

這種輸入法介于形碼和音碼之間,有一定優(yōu)勢(shì),與形碼比她需要記憶的內(nèi)容少了,與音碼比她的重碼率有了一定程度的控制。但與音碼比她需要漢字知識(shí),與形碼比她需要一定的拼音知識(shí),使用的人有限。最終解決方式:以詞為單位的音字轉(zhuǎn)換高頻先見,多用提前,新詞自動(dòng)記憶。三、詞語的信息處理(一)自動(dòng)分詞的必要自動(dòng)分詞:讓計(jì)算機(jī)把以字為單位的書面語流串變?yōu)橐栽~為單位的形式就叫做自動(dòng)分詞。

英語等西方語言的書面形式以空格作為詞與詞之間分隔標(biāo)志,而漢語的書面形式卻是連續(xù)的漢字串。

自動(dòng)分詞是漢語自動(dòng)分析中的一項(xiàng)基礎(chǔ)性工作。中文信息處理的各個(gè)領(lǐng)域,無論是在詞頻統(tǒng)計(jì)、情報(bào)檢索、人機(jī)對(duì)話、機(jī)器翻譯等方面,都是在詞的基礎(chǔ)上進(jìn)行的。為什么分詞文本檢索

和服

|務(wù)

|于三日后裁制完畢,并呈送將軍府中。王府飯店的設(shè)施|和

|服務(wù)

|是一流的。

如果不分詞或者“和服務(wù)”分詞有誤,都會(huì)導(dǎo)致荒謬的檢索結(jié)果。文語轉(zhuǎn)換他們是來|查

|金泰

|撞人那件事的。(“查”讀音為cha)行俠仗義的|查金泰

|遠(yuǎn)近聞名。(“查”讀音為zha)分詞不當(dāng)?shù)睦樱涸贕oogle上輸入“和服”搜索所有中文簡體網(wǎng)頁,總共結(jié)果507,000條,前20條結(jié)果中有14條與和服一點(diǎn)關(guān)系都沒有。在第一頁就有以下錯(cuò)誤:

“通信信息報(bào):瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場”

“使用純HTML的通用數(shù)據(jù)管理和服務(wù)-開發(fā)者-ZDNet...”

“陳慧琳《心口不一》化妝和服裝自己包辦”

“外交部:中國境外領(lǐng)事保護(hù)和服務(wù)指南(2003年版)...”

“產(chǎn)品和服務(wù)”分詞示例在2001年的中美黑客大戰(zhàn)中8萬中國黑客一起行動(dòng)使中國紅旗在美國白宮網(wǎng)站飄揚(yáng)兩個(gè)小時(shí)在/2001/年/的/中/美/黑客/大/戰(zhàn)/中/8/萬/中國/黑客/一起/行動(dòng)/使/中國/紅旗/在/美國/白宮/網(wǎng)站/飄揚(yáng)/兩/個(gè)/小時(shí)(二)自動(dòng)分詞的方法:機(jī)械切分、智能切分、統(tǒng)計(jì)切分。1、機(jī)械切分:運(yùn)用簡單的模式匹配技術(shù)的無條件切分。

(1)正向最大匹配法:機(jī)器中存在一個(gè)詞表,其中詞長的最大值是N;根據(jù)從前到后的順序,首先選取一個(gè)連續(xù)的文本中的前N個(gè)字符作匹配字段,如果詞表中有這個(gè)詞,那么,就把文本中的這前N個(gè)字符作為一個(gè)詞處理,如果沒有,那么匹配文本中的前N-1個(gè)字符作為匹配字段……如此下去,直到匹配成功。(右)例子:“我們應(yīng)該開展計(jì)算語言學(xué)的研究”。詞長是7的切分。

正向最大匹配法的缺點(diǎn):a、

詞表設(shè)計(jì)困難:目前對(duì)什么是詞還沒有一個(gè)定論分詞系統(tǒng)仍然沒有一個(gè)統(tǒng)一的具有權(quán)威性的分詞詞表作為分詞依據(jù)。b、

如果N設(shè)計(jì)的過大,就會(huì)影響效率。c、

如果N設(shè)計(jì)的過小,就會(huì)影響正確性。d、

有些歧義不能解決。如:有意見分歧:正向最大匹配法的分詞結(jié)果是:有意/見/分歧/

e:未登錄詞無法解決。

(2)逆向最大匹配法(去掉最左):一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。

逆向最大匹配法的分詞結(jié)果是:有/意見/分歧/但是還是有些詞是兩種方法都不能解決:結(jié)合成分子時(shí)2、智能切分:模擬人的思維,采用詞法、句法、語義、語用等各種知識(shí)的有條件切分。

它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語言知識(shí)和信息。由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。利用前趨字串和后繼字串在詞法、句法、語義、語用三方面的信息排除歧義利用詞法信息 湖上有幾只美麗的白天鵝加入規(guī)則:“如果交段與其后繼字串組成名詞,則將該歧義詞首字單切,否則,確認(rèn)該歧義詞為詞”利用語義信息 例:學(xué)生會(huì)興奮得手舞足蹈學(xué)生/會(huì)/興奮/得/手舞足蹈學(xué)生會(huì)/興奮/得/手舞足蹈加入規(guī)則 “如果歧義切分字段后繼動(dòng)詞的義項(xiàng)中含有動(dòng)作發(fā)出者為“人”這個(gè)義素,則歧義字段的尾字單切,否則該歧義字段成詞”利用語用信息日本保留和尚使用的古代廟宇已經(jīng)不多了乒乓球拍賣完了美國會(huì)通過對(duì)臺(tái)售武法案3、基于統(tǒng)計(jì)的分詞方法:通過對(duì)大規(guī)模真實(shí)文本的統(tǒng)計(jì),讓計(jì)算機(jī)自己判斷什么是詞,這樣就產(chǎn)生了基于統(tǒng)計(jì)的分詞方法,又稱為無詞典分詞。這類方法分詞的依據(jù)和主要思想是:詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。但是也有缺陷,如:了解答題的方法、他想出了解答的辦法。(三)、自動(dòng)分詞的問題:1、歧義字段(1)交集型歧義字段:漢字串AJB被稱作交集型切分歧義,如果滿足AJ,JB同時(shí)為詞(A,J,B分別為漢字串)。此時(shí)漢字串J被稱作交集串?!怖场敖Y(jié)合成”

:結(jié)合/成,結(jié)/合成讓位移等于50厘米(讓位移:讓位/移、讓/位移)這種歧義字段占全部歧義字段的85%以上。交集型歧義字段的消解:偽歧義:雖然有歧義的可能,但是在真實(shí)的文本中只有一種切分結(jié)果,如:挨/批評(píng);愛/國家。這一種占約92.6%。準(zhǔn)歧義:通常只有一種切分結(jié)果:其/實(shí)質(zhì)、解除/了。占5.5%。真歧義:經(jīng)常有兩種切分結(jié)果:應(yīng)用于;從小學(xué)……。占1.9%。因此可以把偽歧義的切分結(jié)果預(yù)先放到一張表中,其歧義消解可以通過直接查找實(shí)現(xiàn)。(2)組合型歧義字段:漢字串AB被稱作多義組合型切分歧義,如果滿足A,B,AB同時(shí)為詞。他/站/起/身/來/。他/明天/起身/去/北京/。我一看他的/穿著/就知道他不是等閑之輩。她今天是穿/著/一身禮服出去的。你們/后天/再來吧到/家/后/天/就黑了。2、未登錄詞的處理:未登錄詞:詞典中未列入的詞匯。包括固有名詞、數(shù)詞、時(shí)間詞、專業(yè)及文化新詞等。吳立德在他的書上講:"一個(gè)經(jīng)過人工分詞的、含有15,000個(gè)詞的法律語料庫,其中竟然有30%的詞沒有登錄在含70,000個(gè)詞條的詞典里,這個(gè)比例遠(yuǎn)遠(yuǎn)高于各種歧義字段在全文所占的比例1/110。"因此在文本在計(jì)算機(jī)處理時(shí),把漢語未登錄詞從文本中摘出來可能比一般的分詞問題更重要。固有名詞主要的是人名,地名,單位公司名。對(duì)西方語言來說,頭一個(gè)字母是大寫的,比較容易識(shí)別,但是對(duì)于漢語就不容易。例如:“時(shí)間很快就過去了?!?。這里的“時(shí)間”可以是人名!他姓“時(shí)”,名為“間”。當(dāng)然也可以是表示“光陰”的那個(gè)時(shí)間,如何區(qū)別相當(dāng)困難。地名,一般都不會(huì)是詞典中的詞。如沈陽、溝幫子、新民、蘇家屯等。也可以出現(xiàn)在詞典里,如著名城市北京、上海。至于單位、公司名,那就復(fù)雜了,很難識(shí)別。我們只能通過局部自動(dòng)識(shí)別方法來處理。例如選取未等錄詞的特征、前后綴標(biāo)志、出現(xiàn)的頻度、前后搭配的統(tǒng)計(jì)。未登錄詞的識(shí)別:人名如果不予處理,將導(dǎo)致為數(shù)可觀的分詞錯(cuò)誤。

劉清楚楚動(dòng)人.(例2)

利用從左向右掃描的最大匹配法進(jìn)行切分:

劉清楚楚動(dòng)人.

七、機(jī)器翻譯(一)、機(jī)器翻譯在國外的發(fā)展1、草創(chuàng)時(shí)期:(1)、20世紀(jì)30年代的機(jī)械翻譯法國的阿爾尼楚和前蘇聯(lián)的特洛揚(yáng)斯基(2)、20世紀(jì)50年代計(jì)算機(jī)翻譯1949韋弗正式提出1964美國喬治敦大學(xué)和IBM公司進(jìn)行了世界上第一次機(jī)器翻譯實(shí)驗(yàn)(3)、20世紀(jì)60年代的ALPAC報(bào)告后的蕭條AutomaticLanguageProcessingAdvisoryCommittee語言自動(dòng)處理咨詢委員會(huì)2、恢復(fù)期:20世紀(jì)70年代:開始注意句法和語義的研究3、繁榮期:20世紀(jì)70年代末至今:開始商業(yè)化。TAUM-METEO

SYSTRAN機(jī)器翻譯的繁榮期是以1976年加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)的實(shí)用性機(jī)器翻譯系統(tǒng)TAUM-METEO正式提供天氣預(yù)報(bào)服務(wù)為標(biāo)志的。這個(gè)機(jī)器翻譯系統(tǒng)投入實(shí)用之后,每小時(shí)可以翻譯6萬-30萬個(gè)詞,每天可以翻譯1500-2000篇天氣預(yù)報(bào)的資料,并能夠通過電視、報(bào)紙立即公布。TAUM-METEO系統(tǒng)是機(jī)器翻譯發(fā)展史上一個(gè)里程碑,它標(biāo)志著機(jī)器翻譯由復(fù)蘇走向了繁榮。美國在喬治敦大學(xué)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上,進(jìn)一步開發(fā)了大型的機(jī)器翻譯系統(tǒng)SYSTRAN,已提供試用。例如,提供給美國空軍的SYSTRAN系統(tǒng),詞典有16萬8千個(gè)詞干形式和13萬6千個(gè)詞組,可進(jìn)行俄英機(jī)器翻譯,每小時(shí)可翻譯15萬詞;提供給美國拉特塞克(Latsec)公司的SYSTRAN系統(tǒng),可進(jìn)行俄英、英俄、德英、漢法、漢英機(jī)器翻譯,每小時(shí)可譯30萬-35萬個(gè)詞。SYSTRAN是目前應(yīng)用最為廣泛、所開發(fā)的語種最為豐富的一個(gè)實(shí)用化機(jī)器翻譯系統(tǒng)。(二)、機(jī)器翻譯在中國的發(fā)展我國是繼美國、蘇聯(lián)、英國、之后第四個(gè)開展機(jī)器翻譯的國家。我國的機(jī)器翻譯可以分作四個(gè)時(shí)期:1、草創(chuàng)時(shí)期:1956-1966:主要是俄漢翻譯2、停滯時(shí)期:1966-1975:3、復(fù)蘇時(shí)期:1975-1987:1975年11月,在中國科學(xué)技術(shù)情報(bào)研究所設(shè)立了一個(gè)由情報(bào)所、語言所和計(jì)算所等單位的工作人員組成的機(jī)器翻譯協(xié)作研究組,并和大學(xué)合作。1980~1985年,中國社會(huì)科學(xué)院語言所與軍事科學(xué)院合作開發(fā)了JFYⅢ翻譯系統(tǒng),這是全國第一套全文翻譯系統(tǒng),主要用于軍事科學(xué)用語的翻譯。4、繁榮時(shí)期:1987-至今這一時(shí)期是以“譯星1號(hào)”的問世為標(biāo)志的,它是我國第一個(gè)商品化的機(jī)器翻譯產(chǎn)品。中科院軟件所的“863”成果--智能型英漢機(jī)器翻譯系統(tǒng)(即快譯通)以470萬美元的價(jià)格賣給了香港權(quán)智集團(tuán)。兩次市場運(yùn)作的成功對(duì)于國產(chǎn)軟件商品化具有開拓性的意義,它們極大地刺激了整個(gè)國內(nèi)軟件市場,也為日后機(jī)器翻譯形成行業(yè)起了很大的推進(jìn)作用。(三)、機(jī)器翻譯存在的問題:計(jì)算機(jī)、互聯(lián)網(wǎng)在國內(nèi)的逐漸普及,給機(jī)器翻譯的發(fā)展創(chuàng)造了條件。但是由于無法逾越語法、語義障礙這個(gè)瓶頸,翻譯的準(zhǔn)確性離專業(yè)翻譯用戶的需求還相差很遠(yuǎn),實(shí)用性遠(yuǎn)遠(yuǎn)不夠,所以專業(yè)翻譯軟件的發(fā)展一直處于徘徊不前的狀態(tài)。目前機(jī)器翻譯主要有兩種形式,MT和TM。MT(machinetranslation)就是我們常見的基于規(guī)則的機(jī)器翻譯軟件,如金山快譯、東方快車等,其主要用途是為了幫助英文不好的用戶提供翻譯參考,但準(zhǔn)確性不高。研究人員發(fā)現(xiàn)MT遇到的瓶頸,便決定在人工智能技術(shù)不會(huì)有重大突破的前提下,繞過技術(shù)上的難題,另辟蹊徑,利用其他手段發(fā)展機(jī)器翻譯,這就是TM(TranslationMemory,翻譯記憶)TM繞開了語言學(xué)的瓶頸,其原理是基于數(shù)據(jù)庫,將翻譯過的所有材料以句子為單位存入數(shù)據(jù)庫。翻譯時(shí)系統(tǒng)會(huì)自動(dòng)對(duì)電子文檔進(jìn)行分析,100%匹配的句子可以自動(dòng)替換,部分匹配的句子可根據(jù)匹配度提出翻譯建議,新句子則通過系統(tǒng)提供的翻譯建議進(jìn)行人工翻譯,而每次翻譯又為以后積

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論