版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
應用語言學概論自然語言處理第一頁,共三十九頁,2022年,8月28日2,把這種嚴密而規(guī)整的數(shù)學形式表示為算法,使之在計算上形式化。3。根據(jù)算法編寫計算機程序,使之在計算機上加以實現(xiàn)。自然語言學是介乎語言學、數(shù)學、計算機科學之間的邊緣性的交叉學科。第二頁,共三十九頁,2022年,8月28日自然語言處理的原理機器翻譯的原理與發(fā)展階段術語數(shù)據(jù)庫的作用與工作原則數(shù)理語言學的研究對象統(tǒng)計語言學的統(tǒng)計自然語言處理運用到的語言理論主要有哪些?語料庫的類型與作用第三頁,共三十九頁,2022年,8月28日美國著名語言學家喬姆斯基,創(chuàng)立了轉換生成語法,其核心就是語言能從有限的要素和規(guī)則演變出無限的句子;語言分深層與表層,深層結構靠規(guī)則向表層結構有規(guī)律地生成:“我們這里要考慮的是各種生成句子的裝置,它們又以各種各樣的方式,同自然語言的語法和各種人造語言的語法二者都有著密切的聯(lián)系。我們將把語言直接地看成在符號的某一有限集合V中的符號串的集合,而V就叫做該語言的詞匯……我們把語法看成是對程序設計語言的詳細說明,而把符號串看成是程序。”第四頁,共三十九頁,2022年,8月28日(一)機器翻譯系統(tǒng)自然語言處理系統(tǒng)的研究首先是從機器翻譯系統(tǒng)做起的。1,草創(chuàng)期(20世紀40-60年代)
1946年,美國賓夕法尼亞大學埃克特(.P.Eckert)和莫希萊()首創(chuàng)世界上第一臺計算機,1949年美國洛克菲勒基金會副總裁韋弗(W.Weaver)首創(chuàng)機器翻譯。工作原理:A語言與B語言之間經過一種“中介語言”,又叫“通用語言”、“中間語言”來實現(xiàn)。機器翻譯相當于讀碼解碼,實現(xiàn)上是以查詢詞典的方式來實現(xiàn)詞對詞的機器翻譯。第五頁,共三十九頁,2022年,8月28日2,復蘇期(20世紀70年代)美國學者英格維(V.Yingve)提出機器翻譯的過程:用代碼化的結構標志來表示原語文句的結構;把原語的結構標志轉換為譯語的結構標志;構成譯語的輸出文句。句法分析成為機器翻譯工作的中心。第六頁,共三十九頁,2022年,8月28日復蘇期的代表產品是法國格勒諾布爾理科醫(yī)科大學自動翻譯中心的機器翻譯系統(tǒng)。這時研究者還認識到,機器翻譯中必須保持原語和譯語在語義上的一致。從而語義分析比句法分析日益引起人們的重視。第七頁,共三十九頁,2022年,8月28日3,繁榮期(20世紀70年代——)產品的實用化、商品化。工作原理:1,直譯式:詞對詞;句法直譯式、語義直譯式。2,轉換式:在原語和譯語之間設定能在一定程序上表現(xiàn)語義關系的中間表達式,再通過中間表達式來完成句法和語義的進一步轉換。3。樞軸式:把語言規(guī)則普遍化,成為不依賴任何具體語言的普遍意義,形成“樞軸”,由“樞軸”來承擔“中介語”的作用。第八頁,共三十九頁,2022年,8月28日這時的機器翻譯都是“基于規(guī)則”的機器翻譯。近年來出現(xiàn)了“基于經驗”的機器翻譯。所謂基于經驗,就是指基于統(tǒng)計,基于實例。它是在大型語料庫的基礎上形成的。演示sxd軟件與sms軟件。第九頁,共三十九頁,2022年,8月28日一種語言中的任何一個句子都有可能是另外一種語言中的某幾個句子的譯文,只是這些句子的可能性各不相同,機器翻譯就是要找出其中可能性最大的句子,也就是對所有可能的目標S計算出概率最大的一個作為源語言T的譯文?!斑x優(yōu)式”的做法。第十頁,共三十九頁,2022年,8月28日這種觀點的理論依據(jù):人類并不通過做深層的語言學分析來進行翻譯,而是首先把輸入的句子正確地分解為一些更小單位的短語,接著把這些短語翻譯成其他語言的短語,最后再把這些較小單位的短語構成完整的句子。在短語的翻譯中是通過“類比”的原則來實現(xiàn)的。機器翻譯要做的事就是在機器中存儲一些實例,并建立由給定的句子找尋類似例句的機制。這就是基于實例的機器翻譯方法。第十一頁,共三十九頁,2022年,8月28日基于實例的機器翻譯要研究的主要問題:1,正確地進行雙語自動對齊:在實例庫中要難準確地由源語言例句找到相應的目標語言例句,并實現(xiàn)對應。2,建立有效的實例匹配檢索機制:語言單位不能太小,愈小歧義愈多。因此,它非常強調盡量多地儲存短語實例。3,根據(jù)檢索到的實例生成與源語言句子相對應的譯文。第十二頁,共三十九頁,2022年,8月28日例子:金山詞霸:詞庫、釋義庫、音庫第十三頁,共三十九頁,2022年,8月28日(二)自然語言理解人機對話:中國社科院語言研究所“RJD-80型漢語人機對話系統(tǒng)”中國科學院心理研究所“機器理解漢語-實驗I:CLUS系統(tǒng)”中國社科院語言研究所“TK-84型漢語人機對話系統(tǒng)”東北工學院建立“中文句子及文本理解系統(tǒng)CTUS”……第十四頁,共三十九頁,2022年,8月28日(三)情報自動檢索情報自動檢索包括的內容;1,文獻情報的采集;2,文獻情報的加工處理:3,文獻情報的編排和存儲:4,檢索服務:第十五頁,共三十九頁,2022年,8月28日情報檢索系統(tǒng)的評測標準:1,查詢效率:查全率;查準率:2,運行效率:機時;存儲空間;費用第十六頁,共三十九頁,2022年,8月28日運用范圍:1,自動生成文摘;2,自動編制索引;3,自動抽取情報資料的主題詞;第十七頁,共三十九頁,2022年,8月28日日常生活中隨時都可接觸到情報索引(信息檢索)學校查成績;銀行信用卡存取款;電話卡查詢:網絡搜索軟件:網上通輯逃犯:電子商務:第十八頁,共三十九頁,2022年,8月28日計算機輔助語言教學;語音自動識別與合成系統(tǒng);文字自動識別系統(tǒng);言語統(tǒng)計;語料庫語言學;第十九頁,共三十九頁,2022年,8月28日數(shù)理語言學1894年,瑞士語言學家索緒爾指出,“在基本性質方面,語言中的量和量之間的關系可以用數(shù)學公式有規(guī)律的表達出來。”1933年,美國語言學家布龍菲爾德提出了一個著名的論點:“數(shù)學不過是語言所能達到的最高境界”。第二十頁,共三十九頁,2022年,8月28日定義:1、數(shù)理語言學是用數(shù)學方法來研究語言現(xiàn)象的語言學科。2、數(shù)理語言學是用數(shù)學思想和數(shù)學方法來研究語言現(xiàn)象的一門新興的語言學科。3、依據(jù)所使用的數(shù)學方法的不同,一般分為統(tǒng)計語言學(statisticallinguistics)和代數(shù)語言學(algebraiclinguistics)兩個分支,統(tǒng)計語言學所使用的方法主要是概率論、數(shù)理統(tǒng)計以及信息論方法;代數(shù)語言學使用的方法主要是集合論、數(shù)理邏輯和算法理論等離散數(shù)學方法。第二十一頁,共三十九頁,2022年,8月28日二、任務和理論依據(jù)任務:A、數(shù)理語言學從數(shù)學領域得到的主要是思考問題的思路和方法,而不是某種專門的結果,它把數(shù)學模型和數(shù)學程序運用于語言學的研究,采用定量化和形式化的描述方法,使得語言學和數(shù)學一樣精密,以便于計算機的操作,為計算機模擬人腦和進行人工智能的研究開山辟道。
B、從語言的內部結構和語言的交際活動兩方面進行,也就是說把數(shù)理語言學的研究首先分為作為符號系統(tǒng)的語言的數(shù)學性質的研究和對作為交際活動的過程及結果的言談的數(shù)學性質的研究兩個部分。第二十二頁,共三十九頁,2022年,8月28日數(shù)理語言學的特點數(shù)理語言學從數(shù)學領域得到的主要是思考問題的思路和方法,而不是某種專門的結果,它把數(shù)學模型和數(shù)學程序運用于語言學的研究,采用定量化和形式化的描述方法,使得語言學和數(shù)學一樣精密,以便于計算機的操作,為計算機模擬人腦和進行人工智能的研究開山辟道。
第二十三頁,共三十九頁,2022年,8月28日數(shù)理語言學的目標是希望把一切語言所共有的某些結構性質分離出來,而這些性質是形式上能夠用數(shù)學方法描述的。第二十四頁,共三十九頁,2022年,8月28日數(shù)理語言學的理論來源一是數(shù)學理論:如集合論、數(shù)理邏輯、離散數(shù)學理論等,或概率、數(shù)理統(tǒng)計、信息論等;二是理論語言學的各種原理:如對音位、詞位、句法的各種理論學說。第二十五頁,共三十九頁,2022年,8月28日三、研究內容:
數(shù)理語言學主要包括統(tǒng)計語言學、代數(shù)語言學和應用數(shù)理語言學等三個分支學科。1、統(tǒng)計語言學運用概率論、數(shù)理統(tǒng)計等數(shù)學的方法來作語言成分的定量分析和動態(tài)描寫,目的是要建立語言統(tǒng)計模型,來解決傳統(tǒng)語言學研究的定性和靜態(tài)研究的不足。統(tǒng)計語言學又分為統(tǒng)計語音學、計算語言風格學和年代統(tǒng)計學。統(tǒng)計語音學研究音素音位,計算語言風格學通過統(tǒng)計研究某人、某一時代和某一民族的言語風格。年代統(tǒng)計學根據(jù)時代的變化,對詞匯特征和句型等進行分析。第二十六頁,共三十九頁,2022年,8月28日數(shù)理語言學分支學科介紹1、統(tǒng)計語言學運用概率論、數(shù)理統(tǒng)計等數(shù)學的方法來作語言成分的定量分析和動態(tài)描寫,目的是要建立語言統(tǒng)計模型,來解決傳統(tǒng)語言學研究的定性和靜態(tài)研究的不足。統(tǒng)計語言學根據(jù)不同的研究對象,又可分出許多具體領域,如統(tǒng)計語音學、計算語言風格學和年代統(tǒng)計學。統(tǒng)計語音學研究音素音位,計算語言風格學通過統(tǒng)計研究某人、某一時代和某一民族的言語風格。年代統(tǒng)計學根據(jù)時代的變化,對詞匯特征和句型等進行分析。第二十七頁,共三十九頁,2022年,8月28日統(tǒng)計語言學又稱計量語言學,它主要是應用統(tǒng)計程序來處理語言資料,如統(tǒng)計語言單位出現(xiàn)的頻率。研究作者的文體風格,在比較語言學中采用數(shù)學公式衡量多種語言的相關程度,在歷史語言學中確定不同時期語言的發(fā)展特征,以及從信息的角度分析語言信息的傳輸過程等等。美國人齊夫把詞的頻率分布和“消耗最小準則”這一基本生物學理論聯(lián)系起來,總結出了著名的齊夫公式。(所謂齊夫公式就是描述某種語言中詞的順序號與出現(xiàn)的頻率關系的經驗公式。)第二十八頁,共三十九頁,2022年,8月28日使用頻率原理分布原理(離散原理)使用度原理
《現(xiàn)代漢語頻率詞典》頻率排序:“提綱”,序號6942;頻率級次745,詞次13;使用度9。“哨棒”,序號7170;頻率級次745,詞次13;使用度7?!奥牎?,序號118;頻率級次116;詞次1415;使用度1130?!包h”,序號119;頻率級次117;詞次1412;使用度829。分布排序:“各”,序號209;分布篇數(shù)123;分布類數(shù)4,詞次1344,使用度931?!伴T”,序號210;分布篇數(shù)123;分布類數(shù)4,詞次863,使用度642。第二十九頁,共三十九頁,2022年,8月28日2,代數(shù)語言學運用集合論、數(shù)理邏輯、算法理論、模糊數(shù)學、圖論、格論等離散數(shù)學方法來作語言理論分析和形式特征的描寫。目的是建立起語言的代數(shù)模型,把語言學的某些方面改造成數(shù)學那樣的演繹系統(tǒng),建立語言模型理論,從而為自然語言的信息處理提供理論基礎。語言模型是一個單純的、統(tǒng)一的、抽象的形式系統(tǒng)。語言客觀事實經過語言模型的描述之后,就比較適合于電子計算機對其進行自動加工。所以,語言模型的研究,對于自然語言的信息處理具有十分重要的意義。第三十頁,共三十九頁,2022年,8月28日代數(shù)語言學的最突出成就首推喬姆斯基的轉換生成語法理論,他運用數(shù)學中的遞歸函數(shù)理論和自動機理論,建立起了一個形式的演繹系統(tǒng)。他把語言視為有限規(guī)則的無限應用,把語言模型看作數(shù)學上的某種運算過程,即由一套給定的初始元素,根據(jù)一定的語法規(guī)則,生成這些元素的序列——詞和句子。第三十一頁,共三十九頁,2022年,8月28日但是一涉及語義問題,各種語言模型都遭到了挫折,以至于所有的理論一改再改,引起了激烈的學術爭論。不過其中一點是越來越清楚了:只從形式上去研究語言是非常不夠的。為了解決語言構造問題,必須尋求新的途徑以深入語言的內部即語義學領域。這樣,數(shù)理語言學走向了它的第3個發(fā)展階段——算法語言學。第三十二頁,共三十九頁,2022年,8月28日算法語言學是把語言的研究歸結為建立“表層結構”和“底層結構”的關系。它認為語言是由一系列層次組成,各層次本身都有一定的結構形式,各層次之間都有一定的對應關系。第三十三頁,共三十九頁,2022年,8月28日對于算法語言學來說,很難在人工語言和自然語言之間劃一道鴻溝,而這兩者在底層結構的算法描述中統(tǒng)一起來了。當然,算法語言學的產生絕不是對統(tǒng)計語言學的代數(shù)語言學的否定,相反,只有在弄清語言的統(tǒng)計規(guī)律和形式規(guī)律的基礎上,算法語言學才能發(fā)展起來。在算法語言學中,信息與概率的概念,轉換與生成的概念,集合論與數(shù)理邏輯的概念等等,不是被拋棄了,而是更加精確和系統(tǒng)化了。只有這樣,才可能摸透表層和底層的關系。第三十四頁,共三十九頁,2022年,8月28日國內成就——我國從50年代起逐步開展了對數(shù)理語言學的研究,在50年代初期,我國著名數(shù)理邏輯專家胡世華先生就主意到數(shù)理語言學的問題,1959年,劉涌泉先生在《中國語文》發(fā)表了《談數(shù)理語言學》一文,首次在國內介紹這一學科。第三十五頁,共三十九頁,2022年,8月28
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 事業(yè)單位員工合同協(xié)議書
- 企業(yè)資產購置合同模板
- 機構用工合同協(xié)議書
- 實驗室合作協(xié)議范本
- 工業(yè)廠房租賃合同標準文本
- 期貨交易數(shù)據(jù)服務協(xié)議
- 廣東省室內裝潢設計工程施工合同示例
- 保安服務合同協(xié)議書范本
- 房屋翻新合同的范本
- 廣東省批發(fā)花卉選購合同
- 2024年高三數(shù)學復習備考策略講座
- 山東省2023-2024學年高一上學期語文期中考試試卷(含答案)
- 人力資源行業(yè)人才招聘網站設計與優(yōu)化方案
- 高職計算機專業(yè)《數(shù)據(jù)庫原理與應用》說課稿
- 8 網絡新世界 第三課時(教學設計)統(tǒng)編版道德與法治四年級上冊
- 2024-2030年全球與中國金屬線柵偏振片行業(yè)市場現(xiàn)狀調研分析及發(fā)展前景報告
- 2025年考研政治政治理論時政熱點知識測試題庫及答案(共三套)
- 抑郁癥培訓課件
- 2025年研究生考試考研動物生理學與生物化學(415)測試試題及答案解析
- 2025年研究生考試考研思想政治理論(101)自測試卷與參考答案
- 小學生競選班委課件
評論
0/150
提交評論