版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
智能科學(xué)—
自然語言處理劉杰首都師范大學(xué)信息工程學(xué)院liujxxxy@126.com11.1基本概念21.1基本概念信息的主要載體-語言語言的兩種形式-文字和聲音文字和聲音作為語言的兩個不同形式的載體,所承載的信息占整個信息組成的70%以上(文字:70%,圖象:20%;其它:10%)如何讓計算機實現(xiàn)人們希望實現(xiàn)的語言處理功能?如何讓計算機真正實現(xiàn)海量的語言信息的自動處理和有效利用?3研究語言的目的我們研究語言的目的:為語言構(gòu)造出足夠精細的計算模型,以便能夠?qū)懗鲇捎嬎銠C程序來完成的涉及自然語言的各種任務(wù)。計算模型兩方面的用途:1、作為科學(xué)研究的目的-可以探索語言交流的本質(zhì);2、作為實用的目的-能夠?qū)崿F(xiàn)有效的人機通信。終極目標(biāo):能夠給出一些模型,這些模型在完成閱讀、寫作、聽、說等任務(wù)時能夠接近人的行為。4本課程不關(guān)注:與所使用的特定媒介相關(guān)的問題,例如手寫輸入、鍵盤輸入或語音輸入的問題。關(guān)注:是在詞語識別完成后理解和使用語言的過程。
51.1基本概念基本定義-自然語言處理自然語言處理(NaturalLanguageProcessing,簡稱NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術(shù)。
-馮志偉《自然語言的計算機處理》本課程主要討論中文語言處理的用途和基本概念。61.1基本概念其它名稱-自然語言理解(NaturalLanguageUnderstanding)-計算語言學(xué)(ComputationalLinguistics)
計算語言學(xué)是現(xiàn)代語言學(xué)的一大分支,它是用計算機理解、生成和處理自然語言,即它的研究范圍不僅涵蓋語言信息的處理,還包括語言的理解和生成。71.2可以讓自然語言處理技術(shù)為我們做什么?1、信息檢索http://?微軟:39,300,000條(5年前2,060,000條)微軟,亞洲研究院:255,000條微軟,亞洲研究院,研究方向:92,500條微軟,亞洲研究院,自然語言處理:18,100條?08年7月一萬億個網(wǎng)頁,每天數(shù)十億增加?獲得的信息只有1%被有效利用百度的“框計算”81.2可以讓自然語言處理技術(shù)為我們做什么?2、借重于語言信息處理的web智能9101112131415161.2可以讓自然語言處理技術(shù)為我們做什么?3、機器翻譯(以下翻譯結(jié)果來自Systran:http://)Ex-1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)精神是愿意的,但骨肉是微弱的。(Systran)Ex-2:Outofsight,outofmind.(眼不見,心不煩。)出于視域,在頭腦外面。(Systran)17
4、自動問答系統(tǒng):在網(wǎng)絡(luò)上輸入“問句”,自動給出精確地答案。
問答系統(tǒng)演示1.2可以讓自然語言處理技術(shù)為我們做什么?185、復(fù)雜的檢索任務(wù):如“給我找出所有有關(guān)在1986年到1990年之間曾經(jīng)嘗試而最終失敗且金額超過1億美元的融資收買的文章?!碧幚矸椒ǎ?、對數(shù)據(jù)庫的每篇文章建立一種表示形式,2、這種表示形式能用于后續(xù)的推理
1.2可以讓自然語言處理技術(shù)為我們做什么?191.2可以讓自然語言處理技術(shù)為我們做什么?6、語音識別輸入:美歐貿(mào)易摩擦升級識別結(jié)果:美歐貿(mào)易摩擦生機輸入:新技術(shù)的發(fā)展日新月異識別結(jié)果:新紀(jì)錄的發(fā)展日新月異201.2可以讓自然語言處理技術(shù)為我們做什么?7、不能想象的同音字識別-施氏食獅史(趙元任)石室詩士施氏,嗜獅,誓食十獅。氏時時適市視獅,十時,適十獅適市,是時,適施氏適市,施氏視是十獅,拭矢試,使是十獅逝世,適石室,石室濕,氏使侍拭石室,石室拭,始食是十獅尸,始識是十獅尸,實十石獅尸,試釋是事。211.2可以讓自然語言處理技術(shù)為我們做什么?信息過濾,信息安全文摘生成問答系統(tǒng),人機交互語言教學(xué)文字輸入,文字編輯與排版語音翻譯網(wǎng)絡(luò)內(nèi)容管理與知識發(fā)現(xiàn)……-計算機不能為我們做什么?221.3關(guān)于“理解”的理解一個幽默片斷:他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她意思意思(express)。他火了:“我根本沒有那個意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”。-《生活報》1994.11.13.第六版231.3關(guān)于“理解”的理解241.3關(guān)于“理解”的理解人腦對語言的理解是一個復(fù)雜的思維過程自然語言理解技術(shù)同多個學(xué)科有著千絲萬縷的關(guān)系-語言學(xué)-語言心理學(xué)-邏輯學(xué)-計算機科學(xué)-人工智能-數(shù)學(xué)與統(tǒng)計學(xué)……25語言學(xué)科:研究語言本身的結(jié)構(gòu),如為什么特定語言的組合能形成句子而其他的詞語組合則不能,為什么一個句子可能具有某種意義而不是另外一種意義,等。心理語言學(xué)科:研究人類生成和理解語言的過程。如人類是如何識別一個句子的合理結(jié)構(gòu)的,何時確定詞語的合理意義,等。哲學(xué):詞語和句子如何獲得意義?詞語如何標(biāo)識現(xiàn)實世界中的實體?使用有關(guān)反例的直覺知識進行的自然語言論證,使用邏輯和模型論。計算語言學(xué)家:如何識別句子的結(jié)構(gòu)?如何為知識和推理建模?語言怎樣才能被用來完成特定的任務(wù)?
使用算法、數(shù)據(jù)結(jié)構(gòu)及人工智能技術(shù)等工具。
26思考題請看下面視頻,思考一下,該視頻是否使用了自然語言處理技術(shù)?
視頻鏈接271.4自然語言理解研究的基本問題281.4自然語言理解研究的基本問題□
研究的層次-語義學(xué)(Semantics):研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義。這句話說了什么?(1)今天中午我吃食堂。(2)這個人真牛。(3)這個人眼下沒些什么,那個人嘴不太好。291.4自然語言理解研究的基本問題□研究的層次-語用學(xué)(Pragmatics):研究在不同上下文中的語句的應(yīng)用,以及上下文對語句理解所產(chǎn)生的影響。為什么要說這句話?(1)火,火?。?)A:看看魚怎么樣了?
B:我剛才翻了一下。
(3)將軍用被子蓋在戰(zhàn)士身上。301.5不同語言的差異□分類孤立語(分析語):形態(tài)變化少,語法關(guān)系靠詞序和虛詞表示,如:漢語。曲折語:用詞的形態(tài)變化表示語法關(guān)系,如:英語。黏著語:詞內(nèi)有專門表示語法意義的附加成分,詞根或詞干與附加成分的結(jié)合不緊密。如:日語。□基本單位漢語:漢字(單音節(jié),無空格)英語:單詞(多音節(jié),有空格)日語:字和詞(多音節(jié),無空格)311.6漢語的計算機理解一、漢語的特點:
1、
漢語是大字符集的語言:英語:26個字母,起源于5世紀(jì),有一千五百年歷史,《牛津英語詞典》收詞四十萬多條。漢語六千多年歷史,《中山大詞典》,收詞六十多萬條?!耙弧弊珠_頭的成語有5472條。詞匯的豐富是任何一種語言不能比的。2、
漢語可以分為五級語法單位:語素、詞、短語、句子和句群。語素是語言中最小的音義結(jié)合體。漢字基本上是用一個字記錄一個語素,即用一個特定的形體記錄一個最小的音義結(jié)合體。不是能獨立運用的語言單位。321.6漢語的計算機理解二、漢語理解中的特殊問題—自然語言處理中的難點:
1、
漢語分詞的歧義問題:漢語邊界歧義包括組合歧義和交叉歧義組合歧義:字段“烤紅薯”中,“烤”、“紅薯”和“烤紅薯”三者都分別成詞少年兒童一起拉小提琴。一起領(lǐng)導(dǎo)干部違紀(jì)事件。交叉歧義:真歧義,如:必須/加強/企業(yè)/中/國有/資產(chǎn)/的/管理
中國/有/能力/解決/香港/問題偽歧義:建設(shè)/有,中國/人民331.6漢語的計算機理解2、
未登錄詞問題漢語詞典中未列入的詞。包括:固有名詞、數(shù)詞、時間詞、專業(yè)及文化新詞。固有名詞主要是人名、地名或單位公司名。
343、詞性岐義問題:多詞性和多詞義是語言的一種普遍現(xiàn)象,漢語這種現(xiàn)象比西方語言嚴(yán)重得多,如“和”,根據(jù)《現(xiàn)代漢語詞典》,可以有五種讀音:he2;he4;hu2;huo2;huo4
六種詞性:名詞;形容詞;連詞;動詞;介詞;量詞以及十六種不同的詞義1.6漢語的計算機理解354、否定詞和語義上的混亂:漢語上的否定詞“不”有時并不表示否定。相反,反而會更肯定。如:“可不是”比“可是”更可是。1.6漢語的計算機理解365、句子的詞序問題:漢語句子的詞序和西方語言是不盡相同的如:這本書是他寫的,
Thisbookishewrote如果按照英文的詞序排列,我們稱之English-Chinese?!斑@本書是寫由他”,Thisbookwaswrittenbyhim
1.6漢語的計算機理解376、漢語的岐義結(jié)構(gòu):這類岐義結(jié)構(gòu)是句子自生固有的,必須在整個語境環(huán)境下才可能消歧,自動消歧是很難的。如:彩色鉛筆盒子[彩色][鉛筆盒子][彩色鉛筆][盒子]
1.6漢語的計算機理解38漂亮的姑娘和小伙子[漂亮的][姑娘和小伙子
][漂亮的姑娘][和小伙子]
他講不清楚1)
他講他不清楚2)
他講得不清楚發(fā)了一天的工資1)
發(fā)了只有一天錢的工資2)
發(fā)工資這事做了一天
他在看病1)
他在給別人看病2)
大夫給他看病1.6漢語的計算機理解39等等1.6漢語的計算機理解401.7自然語言處理技術(shù)按技術(shù)路線分為:1、基于統(tǒng)計的語言處理技術(shù)從大規(guī)模真實語料庫中獲得各級語言單位上的統(tǒng)計信息,并依據(jù)較低級語言單位上的統(tǒng)計信息,用相關(guān)的統(tǒng)計推理技術(shù)計算較高級語言單位上的統(tǒng)計信息。以一詞多詞性識別為例說明。2、基于語言學(xué)規(guī)則的語言處理技術(shù)通過對語言學(xué)知識的形式化,形式化規(guī)則的算法化,以及算法實現(xiàn)等步驟將語言學(xué)知識轉(zhuǎn)化為計算機可以處理的形式。見后面例子4142規(guī)則舉例:新詞抽取的常規(guī)規(guī)則:1、If(pos(A)=’N’AND(pos(B)=’V’ORpos(B)=’A’orpos(B)=’N’ORpos(B)=’Q’))ThenABisnew
該規(guī)則表示:如果由兩個詞構(gòu)成的二元組中A為名詞,而B為名詞或動詞或形容詞或量詞,則將該二元組做標(biāo)記,認為是新詞。2、If(pos(A)=’V’ANDpos(B)=’A’)ThenABisnew例如:減肥,模仿秀431.7自然語言處理技術(shù)按處理對象的不同,可分為:1、字處理技術(shù)2、詞處理技術(shù)詞是自然語言中最小的有意義的構(gòu)成單位,是最基本的研究對象。詞處理主要包括分詞、詞性標(biāo)注、詞義消歧。3、語句處理技術(shù)4、篇章處理技術(shù)441.8自然語言理解研究現(xiàn)狀實用和半實用技術(shù)已經(jīng)得到廣泛運用-文字處理器-網(wǎng)絡(luò)搜索引擎-輔助翻譯、電子詞典-語音合成
……在一定程度上滿足了人們的某些需要,但離真正實用的目標(biāo)還有相當(dāng)?shù)木嚯x。451.8自然語言理解研究現(xiàn)狀計算機對語言理解的能力到底有多大?計算機存儲容量-100G=>10萬本書計算機速度比大腦快1012倍計算機智能=〉幾歲小孩?46參考文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)資健康管理辦法
- 企事業(yè)單位綠化養(yǎng)護項目招標(biāo)
- 通信工程商品混凝土施工合同
- 兒童節(jié)目制片合作協(xié)議
- 珠寶共享租賃協(xié)議-時尚活動
- 短期技術(shù)研發(fā)聘用合同
- 網(wǎng)絡(luò)安全服務(wù)招標(biāo)申請
- 汽車制造業(yè)裝卸規(guī)范
- 2025廚師承包餐廳合同
- 市政工程人員文明施工承諾書
- 2024年度國有企事業(yè)單位標(biāo)準(zhǔn)化房屋租賃服務(wù)合同范本3篇
- 《基因突變的機制》課件
- 天安門地區(qū)地下空間開發(fā)利用策略-洞察分析
- 湖北省黃石市大冶市2023-2024學(xué)年八年級上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 村衛(wèi)生站衛(wèi)生信息管理制度模版(3篇)
- 《基層管理者職業(yè)素養(yǎng)與行為規(guī)范》考核試題及答案
- 椎間孔鏡治療腰椎間盤突出
- 期末測試題二(含答案)2024-2025學(xué)年譯林版七年級英語上冊
- 部編版2023-2024學(xué)年六年級上冊語文期末測試試卷(含答案)
- 2024年廣西公需科目參考答案
- 溝通的藝術(shù)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評論
0/150
提交評論