版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1語法類型2語義分析和擴展語法3IBM的機器翻譯系統(tǒng)第4節(jié)11.4語法類型與語義分析在自然語言處理中,我們可以在一些不同結(jié)構(gòu)層次上對語言進行分析,如句法、詞法和語義等,所涉及到的一些關(guān)鍵術(shù)語簡單介紹如下:詞法——對單詞的形式和結(jié)構(gòu)的研究,還研究詞與詞根以及詞的衍生形式之間的關(guān)系。句法——將單詞放在一起形成短語和句子的方式,通常關(guān)注句子結(jié)構(gòu)的形成。語義學(xué)——語言中對意義進行研究的科學(xué)。解析——將句子分解成語言組成部分,并對每個部分的形式、功能和語法關(guān)系進行解釋。語法規(guī)則決定了解析方式。11.4語法類型與語義分析詞匯——與語言的詞匯、單詞或語素(原子)有關(guān)。詞匯源自詞典。語用學(xué)——在語境中運用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。11.4.1語法類型學(xué)習(xí)語法是學(xué)習(xí)語言和教授計算機語言的一種好方法。費根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規(guī)則”。11.4.1語法類型麻省理工學(xué)院的語言學(xué)家諾姆·喬姆斯基在對語言語法進行數(shù)學(xué)式的系統(tǒng)研究中做出了開創(chuàng)性的工作,為計算語言學(xué)領(lǐng)域的誕生奠定了基礎(chǔ)。他將形式語言定義為一組由符號詞匯組成的字符串,這些字符串符合語法規(guī)則。字符串集對應(yīng)于所有可能句子的集合,其數(shù)量可能無限大。符號的詞匯表對應(yīng)于有限的字母或單詞詞典,他對4種語法規(guī)則的定義如下:(1)定義作為變量或非終端符號的句法類別。句法變量的例子包括<VERB>、<NOUN>、<ADJECTIVE>和<PREPOSITION>。11.4.1語法類型(2)詞匯表中的自然語言單詞被視為終端符號,并根據(jù)重寫規(guī)則連接(串聯(lián)在一起)形成句子。11.4.1語法類型(3)終端和非終端符號組成的特定字符串之間的關(guān)系,由重寫規(guī)則或產(chǎn)生式規(guī)則指定。在這個討論的上下文中:<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→the<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads11.4.1語法類型(4)起始符號S或<SENTENCE>與產(chǎn)生式不同,并根據(jù)在上述(3)中指定的產(chǎn)生式開始生成所有可能的句子。這個句子集合稱為由語法生成的語言。以上定義的簡單語法生成了下列的句子:Thestudentreads.Theexpertreads.11.4.1語法類型重寫規(guī)則通過替換句子中的詞語生成這些句子,應(yīng)用如下:<SENTENCE>→<NOUNPHRASE><VERBPHRASE>The<NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.11.4.1語法類型可見,語法是如何作為“機器”“創(chuàng)造”出重寫規(guī)則允許的所有可能的句子的。11.4.2語義分析和擴展語法Chomsky非常了解形式語法的局限性,提出語言必須在兩個層面上進行分析:表面結(jié)構(gòu),進行語法上的分析和解析;基礎(chǔ)結(jié)構(gòu)(深層結(jié)構(gòu)),保留句子的語義信息。關(guān)于復(fù)雜的計算機系統(tǒng),通過與醫(yī)學(xué)示例的類比,Michie教授總結(jié)了表面理解和深層理解之間的區(qū)別:“一位患者的臀部有一個膿腫,通過穿刺可以除去這個膿腫。但是,如果他患的是會迅速擴散的癌癥(一個深層次的問題),那么任何次數(shù)的穿刺都不能解決這個問題?!?1.4.2語義分析和擴展語法研究人員解決這個問題的方法是增加更多的知識,如關(guān)于句子的更深層結(jié)構(gòu)的知識、關(guān)于句子目的的知識、關(guān)于詞語的知識,甚至詳盡地列舉句子或短語的所有可能含義的知識。在過去幾十年中,隨著計算機速度和內(nèi)存的成倍增長,這種完全枚舉的可能性變得更如現(xiàn)實。11.4.3IBM的機器翻譯Candide系統(tǒng)在早些時候,機器翻譯主要是通過非統(tǒng)計學(xué)方法進行的。翻譯的3種主要方法是:①直接翻譯,即對源文本的逐字翻譯。②使用結(jié)構(gòu)知識和句法解析的轉(zhuǎn)換法。③中間語言方法,即將源語句翻譯成一般
的意義表示,然后將這種表示翻譯成目標(biāo)
語言。這些方法都不是非常成功。圖11-6機器翻譯11.4.3IBM的機器翻譯Candide系統(tǒng)隨著IBMCandide系統(tǒng)的發(fā)展,20世紀(jì)90年代初,機器翻譯開始向統(tǒng)計方法過渡。這個項目對隨后的機器翻譯研究形成了巨大的影響,統(tǒng)計方法在接下來的幾年中開始占據(jù)主導(dǎo)地位。在語音識別的上下文中己經(jīng)開發(fā)了概率算法,IBM將此概率算法應(yīng)用于機器翻譯研究。概率統(tǒng)計方法是過去20多年中自然語言處理的準(zhǔn)則,NLP研究以統(tǒng)計作為主要方法,解決在這個領(lǐng)域中長期存在的問題,被稱之為“統(tǒng)計革命”。1統(tǒng)計NLP語言數(shù)據(jù)集2自然語言處理工具3自然語言處理技術(shù)難點第5節(jié)11.5處理數(shù)據(jù)與處理工具現(xiàn)代NLP算法是基于機器學(xué)習(xí),特別是統(tǒng)計機器學(xué)習(xí)的,它不同于早期的嘗試語言處理,通常涉及大量的規(guī)則編碼。11.5.1統(tǒng)計NLP語言數(shù)據(jù)集統(tǒng)計方法需要大量數(shù)據(jù)才能訓(xùn)練概率模型。出于這個目的,在語言處理應(yīng)用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對這些句子進行了語法和語義信息的標(biāo)記。自然語言處理中的一些典型的自然語言處理數(shù)據(jù)集包括:tc-corpus-train(語料庫訓(xùn)練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用于非監(jiān)督中文分詞算法的中文分詞詞庫、UCI評價排序數(shù)據(jù)、帶有初始化說明的情感分析數(shù)據(jù)集等。11.5.2自然語言處理工具許多不同類型的機器學(xué)習(xí)算法已應(yīng)用于自然語言處理任務(wù)。這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法,如決策樹,產(chǎn)生硬的if-then規(guī)則類似于手寫的規(guī)則,是再普通的系統(tǒng)體系。然而,越來越多的研究集中于統(tǒng)計模型,這使得基于附加實數(shù)值的權(quán)重,每個輸入要素柔軟,概率的決策。此類模型具有能夠表達許多不同的可能的答案,而不是只有一個相對的確定性,產(chǎn)生更可靠的結(jié)果時,這種模型被包括作為較大系統(tǒng)的一個組成部分的優(yōu)點。11.5.2自然語言處理工具(1)OpenNLP:是一個基于Java機器學(xué)習(xí)工具包,用于處理自然語言文本。支持大多數(shù)常用的NLP任務(wù),例如:標(biāo)識化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。11.5.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發(fā)的工具包,也包含為實現(xiàn)這些任務(wù)的機器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證,其開發(fā)語言為Java,主要功能是:文本分類:新聞聚類;中文分詞:詞性標(biāo)注、實體名識別、關(guān)鍵詞抽取、依存句法分析、時間短語識別;結(jié)構(gòu)化學(xué)習(xí):在線學(xué)習(xí)、層次分類、聚類、精確推理。11.5.2自然語言處理工具(3)語言技術(shù)平臺(LanguageTechnologyPlatform,LTP):是哈工大社會計算與信息檢索研究中心歷時十年開發(fā)的一整套中文語言處理系統(tǒng)。LTP制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術(shù)),以及基于動態(tài)鏈接庫(DynamicLinkLibrary,DLL)的應(yīng)用程序接口,可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(WebService)的形式進行使用。11.5.3自然語言處理技術(shù)難點自然語言處理的技術(shù)難點一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對一個句子通常可能會剖析(Parse)出多棵剖析樹(ParseTree),而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。11.5.3自然語言處理技術(shù)難點(4)有瑕疵的或不規(guī)范的輸入。例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學(xué)字符識別(OCR)的錯誤。(5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025工廠承包合同書
- 2025無效的工程施工合同工程驗收合格后誰擔(dān)責(zé) 工程
- 2025借款合同(個人與單位)
- 教育資源在家庭影院中的整合實踐
- 2024年外轉(zhuǎn)子風(fēng)機項目資金申請報告代可行性研究報告
- 科技驅(qū)動下的宏觀經(jīng)濟變革與產(chǎn)業(yè)發(fā)展趨勢
- 災(zāi)害性事件下的安全應(yīng)急預(yù)案制定策略
- 公園物業(yè)服務(wù)投標(biāo)方案(2023修訂版)(技術(shù)方案)
- 太陽能電池技術(shù)創(chuàng)新與進展考核試卷
- 2025年滬科版八年級地理下冊階段測試試卷含答案
- 2025年溫州市城發(fā)集團招聘筆試參考題庫含答案解析
- 2025年中小學(xué)春節(jié)安全教育主題班會課件
- 2025版高考物理復(fù)習(xí)知識清單
- 除數(shù)是兩位數(shù)的除法練習(xí)題(84道)
- 2025年度安全檢查計劃
- 2024年度工作總結(jié)與計劃標(biāo)準(zhǔn)版本(2篇)
- 全球半導(dǎo)體測試探針行業(yè)市場研究報告2024
- 反走私課件完整版本
- 2024年注冊計量師-一級注冊計量師考試近5年真題附答案
- 臨床見習(xí)教案COPD地診療教案
- 中考數(shù)學(xué)復(fù)習(xí)《平行四邊形》專項練習(xí)題-附帶有答案
評論
0/150
提交評論