




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、內(nèi)容大概分為:自然語言處理的簡(jiǎn)介、關(guān)鍵技術(shù)、流程及應(yīng)用。首先,介紹一下什么是自然語言處理(也叫自然語言理解):語言學(xué)家劉涌泉在大百科全書(2002)中對(duì)自然語言處理的定義為:“自然語言處理是人工智能領(lǐng)域的主要內(nèi)容,即利用電子計(jì)算機(jī)等工具對(duì)人類所特有的語言信息(包括口語信息和文字信息)進(jìn)行各種加工,并建立各種類型的人-機(jī)-人系統(tǒng),自然語言理解是其核心,其中包括語音和語符的自動(dòng)識(shí)別以及語音的自動(dòng)合成。”從微觀上講,自然語言理解是指從自然語言到機(jī)器(計(jì)算機(jī)系統(tǒng))內(nèi)部之間的一種映射。從宏觀上看,自然語言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能。這些功能包括: 回答有關(guān)提問;計(jì)算機(jī)正確地回答用自然語
2、言輸入的有關(guān)問題 提取材料摘要;機(jī)器能產(chǎn)生輸入文本的摘要 同詞語敘述;機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息 不同語言翻譯。機(jī)器能把一種語言翻譯成另外一種語言 自然語言處理的關(guān)鍵技術(shù)自然語言處理的關(guān)鍵技術(shù)包括:詞法分析、句法分析、語義分析、語用分析和語句分析。1 詞法分析詞法分析的主要目的是從句子中切分出單詞,找出詞匯的各個(gè)詞素,并確定其詞義。詞法分析包括詞形和詞匯兩個(gè)方面。一般來講,詞形主要表現(xiàn)在對(duì)單詞的前綴、后綴等的分析,而詞匯則表現(xiàn)在對(duì)整個(gè)詞匯系統(tǒng)的控制。在中文全文檢索系統(tǒng)中,詞法分析主要表現(xiàn)在對(duì)漢語信息進(jìn)行詞語切分,即漢語自動(dòng)分詞技術(shù)。通過這種技術(shù)能夠比較準(zhǔn)確的分析用戶輸入信
3、息的特征,從而完成準(zhǔn)確的搜索過程。它是中文全文檢索技術(shù)的重要發(fā)展方向。不同的語言對(duì)詞法分析有不同的要求,例如英語和漢語就有較大的差距漢語中的每個(gè)字就是一個(gè)詞素,所以要找出各個(gè)詞素是相當(dāng)容易的,但要切分出各個(gè)詞就非常難。如”我們研究所有東西“,可以是“我們研究所有東西”也可是“我們研究所有東西” 。英語等語言的單詞之間是用空格自然分開的,很容易切分一個(gè)單詞,因而很方便找出句子的每個(gè)詞匯,不過英語單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等變化,因而要找出各個(gè)詞素就復(fù)雜得多,需要對(duì)詞尾和詞頭進(jìn)行分析。如uncomfortable可以是un-comfort-able或uncomfort-able,因?yàn)閡n、c
4、omfort、able都是詞素。2句法分析句法分析是對(duì)用戶輸入的自然語言進(jìn)行詞匯短語的分析,目的是識(shí)別句子的句法結(jié)構(gòu),實(shí)現(xiàn)自動(dòng)句法分析過程。其基本方法有線圖分析法、短語結(jié)構(gòu)分析、完全句法分析、局部句法分析、依存句法分析等。分析的目的就是找出詞、短語等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來加以表達(dá)。這種層次結(jié)構(gòu)可以是從屬關(guān)系、直接成分關(guān)系,也可以是語法功能關(guān)系。句法分析是由專門設(shè)計(jì)的分析器進(jìn)行的,其分析過程就是構(gòu)造句法樹的過程,將每個(gè)輸入的合法語句轉(zhuǎn)換為一棵句法分析樹。一個(gè)句子是由各種不同的句子成分組成的。這些成分可以是單詞、詞組或從句。句子成分還可以按其作用分為主語、謂語、賓語
5、、賓語補(bǔ)語、定語、狀語、表語等。這種關(guān)系可用一棵樹來表示,如對(duì)句子: He wrote a book.可用圖示的樹形結(jié)構(gòu)來表示。3語義分析語義分析是基于自然語言語義信息的一種分析方法,其不僅僅是詞法分析和句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句子、段落所包含的意義。其目的是從句子的語義結(jié)構(gòu)表示言語的結(jié)構(gòu)。中文語義分析方法是基于語義網(wǎng)絡(luò)的一種分析方法。語義網(wǎng)絡(luò)則是一種結(jié)構(gòu)化的,靈活、明確、簡(jiǎn)潔的表達(dá)方式。其實(shí)就是要識(shí)別一句話所表達(dá)的實(shí)際意義。比如弄清楚“干什么了”,“誰干的”,“這個(gè)行為的原因和結(jié)果是什么”以及“這個(gè)行為發(fā)生的時(shí)間、地點(diǎn)及其所用的工具或方法”等。4語用分析
6、0;語用分析相對(duì)于語義分析又增加了對(duì)上下文、語言背景、環(huán)境等的分析,從文章的結(jié)構(gòu)中提取到意象、人際關(guān)系等的附加信息,是一種更高級(jí)的語言學(xué)分析。它將語句中的內(nèi)容與現(xiàn)實(shí)生活的細(xì)節(jié)相關(guān)聯(lián),從而形成動(dòng)態(tài)的表意結(jié)構(gòu)。5語境分析 語境分析主要是指對(duì)原查詢語篇以外的大量“空隙”進(jìn)行分析從而更為正確地解釋所要查詢語言的技術(shù)。這些“空隙”包括一般的知識(shí),特定領(lǐng)域的知識(shí)以及查詢用戶的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯(lián)系起來,補(bǔ)充完善了詞法、語義、語用分析的不足。自然語言處理工具:OpenNLPOpenNLP是一個(gè)基于Java機(jī)器學(xué)習(xí)工具包,用于處理自然語言文本。支持大多數(shù)常用的 NL
7、P 任務(wù),例如:標(biāo)識(shí)化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。FudanNLPFudanNLP主要是為中文自然語言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證。開發(fā)語言為Java。功能:1. 文本分類、新聞聚類2. 中文分詞、詞性標(biāo)注、實(shí)體識(shí)別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短語識(shí)別3. 結(jié)構(gòu)化學(xué)習(xí)、在線學(xué)習(xí)、層次分類、聚類、精確推理。自然語言處理流程:2.1獲取原始文本 22對(duì)文本進(jìn)行預(yù)處理 2.2.1文本編碼格式 2.2.2 文本模式匹配2.2.3 規(guī)范化文本
8、60;2.3分詞 文本中起到關(guān)鍵作用的是一些詞,甚至主要詞就能起到?jīng)Q定文本取向。 中文分詞,出現(xiàn)了很多分詞的算法,有最大匹配法、最優(yōu)匹配法、機(jī)械匹配法、逆向匹配法、雙向匹配法等。 中科院張華平博士研發(fā)的分詞工具ICTCLAS,該算法經(jīng)過眾多科學(xué)家的認(rèn)定是當(dāng)今中文分詞中最好的,并且支持用戶自定義詞典,加入詞典;對(duì)新詞,人名,地名等的發(fā)現(xiàn)也具有良好的效果Jieba分詞工具:支持繁體分詞;支持自定義詞典 常見的分詞工具有:word分詞器、Ansj分詞器、Stanford分詞器、FudanNLP分詞器、Jieba分詞器、Jcseg分詞器、MMSeg4
9、j分詞器、IKAnalyzer分詞器、Paoding分詞器、smartcn分詞器、HanLP分詞器等。2.4去除停頓詞在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。比如:的、有、得、了等這些詞。2.5 特征選擇在文本處理建模的預(yù)處理過程中,我們得到文本特征維度常常非常大,要得到一個(gè)好的模型,需要做兩個(gè)工作:1、降維。模型的維度常常很大,這會(huì)加大模型的運(yùn)行成本,并且不利于研究人員理解模型。2、去燥。維度很大時(shí),特征之間會(huì)相互依賴,甚至很多特征對(duì)模型分類是有干擾作用的,去除這一部分特征將對(duì)
10、模型有提升作用。特征選擇和特征抽取都能完成上面的工作。在文本處理中常采用特征選擇而非特征抽取, 原因是特征選擇保持了特征原來的面貌,有利于挖掘人員理解模型。在文本處理中常見的特征選擇方法有:文檔頻率(TF-IDF) 詞頻(TF)即為詞在一篇文檔中出現(xiàn)的頻率。其中T Ft,d表示詞t在第d個(gè)文檔的詞頻,nt表示詞t在文檔d出現(xiàn)的次數(shù),Nd表示文檔d 中詞的總數(shù)。 逆向文檔頻率(IDF)值衡量詞在某個(gè)文檔中是否有代表性,其計(jì)算公式:其中IDFt是詞t的逆向文檔頻率,D是語料集的總文檔數(shù),Dt是包含t的文檔數(shù)量,加 1是做平滑處理。 注意到TF-IDF是和標(biāo)簽無關(guān)的,這意味著計(jì)算過程是無監(jiān)
11、督的,由于TF-IDF無監(jiān)督的特征,常常被用來表示文檔向量空間模型的向量,從而能夠運(yùn)用于文檔的相似度計(jì)算和關(guān)鍵詞提取等。信息增益(Information Gain)信息增益是信息論中很重要的一個(gè)概念。在特征選擇中,該方法主要是通過評(píng)估詞項(xiàng)能夠給分類帶來多少的信息量,帶來的信息量越大,說明該詞項(xiàng)越重要。信息量,也就是熵。對(duì)于一個(gè)變量X,它可能的取值有n多種,分別是x1 ,x2 ,.,xn ,每一種取到的概率分別是p1 ,p2 ,.,pn ,那么X的熵就定義為:互信息(Mutual Information)互信息是信息論中又一重要的概率,在文本處理中用來說明詞t對(duì)于類別c的貢獻(xiàn)程度,互信息越大則貢
12、獻(xiàn)程度越大?;バ畔⒂?jì)算是類別c關(guān)于t后驗(yàn)概率與先驗(yàn)概率的比值的 log。2.6利用算法進(jìn)行挖掘 我們能夠利用各種算法進(jìn)行挖掘,可以對(duì)文本、新聞等進(jìn)行分類、聚類,可以利用KNN算法,樸素貝葉斯算法、決策樹算法、神經(jīng)網(wǎng)絡(luò)法、線性最小二乘法、K-Means算法、余弦相似度等算法。自然語言處理的應(yīng)用:自然語言處理的范圍涉及眾多方面,如語音的自動(dòng)識(shí)別與合成,機(jī)器翻譯,自然語言理解,人機(jī)對(duì)話,信息檢索,文本分類,自動(dòng)文摘,等等。這些大致可以歸納為如下四個(gè)大的方向:(1)語言學(xué)方向.它只研究語言及語言處理與計(jì)算相關(guān)的方面,而不管其在計(jì)算機(jī)上的具體實(shí)現(xiàn)。這個(gè)方向最重要的研究領(lǐng)域是語法形式化理論和數(shù)學(xué)
13、理論。(2)數(shù)據(jù)處理方向。是把自然語言處理作為開發(fā)語言研究相關(guān)程序以及語言數(shù)據(jù)處理的學(xué)科來研究。這一方向早起的研究有屬于數(shù)據(jù)庫的建設(shè)、各種機(jī)器可讀的電子詞典的開發(fā),近些年來則有大規(guī)模的語料庫的涌現(xiàn)。(3)人工智能和認(rèn)知科學(xué)方向。在這個(gè)方向,自然語言處理被作為在計(jì)算機(jī)上實(shí)現(xiàn)自然語言能力的學(xué)科來研究,探索自然語言理解的只能機(jī)制和認(rèn)知機(jī)制。這一方向的研究與人工智能以及認(rèn)知科學(xué)關(guān)系密切。(4)語言工程方向。主要是把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究,這一方向的研究一般稱為“人類語言技術(shù)”或者“語言工程”。自然語言處理常用模型:1 N元模型該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前
14、面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。2 馬爾可夫模型以及隱馬爾可夫模型馬爾可夫模型實(shí)際上是個(gè)有限狀態(tài)機(jī),兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài)不可見,我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會(huì)拋出個(gè)觀測(cè)值;當(dāng)我們觀察到觀測(cè)序列后,要找到最佳的狀態(tài)序列。3 支持向量機(jī)模型支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,構(gòu)造一個(gè)目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開來, 通常分為兩類情況來討論,:(1) 線性可分;(2) 線性不可分。4 條件隨機(jī)場(chǎng)模型條件隨機(jī)場(chǎng)(CRFs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,由John Lafferty等人在2001年首次提出。它是一種無向圖模型,對(duì)于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。CRFs具有很強(qiáng)的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRFs通過僅使用一個(gè)指數(shù)模型作為在給定觀測(cè)序列條件下整個(gè)標(biāo)記序列的聯(lián)合概率,使得該模型中不同狀態(tài)下的不同特征權(quán)值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產(chǎn)生的標(biāo)注偏置的問題。這些特點(diǎn),使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品服務(wù)購銷合同范例
- 住宅物業(yè)前期合同范例
- 員工j就職合同范本
- 買房交訂金合同范本
- 刑事代理訴訟合同范本
- 合同范例幾個(gè)部分
- 個(gè)人購買古董合同范本
- 關(guān)于醫(yī)院合作合同范本
- 兵團(tuán)勞動(dòng)合同范本
- 單位修建公路合同范本
- 醫(yī)學(xué)教材成人高尿酸血癥與痛風(fēng)食養(yǎng)指南(2024年版)解讀課件
- 金川集團(tuán)股份有限公司招聘筆試題庫2024
- 小學(xué)數(shù)學(xué)北師大版三年級(jí)下長(zhǎng)方形的面積教案
- 2024年全國職業(yè)院校技能大賽高職組(中藥傳統(tǒng)技能賽項(xiàng))考試題庫(含答案)
- DGJ32 J 67-2008 商業(yè)建筑設(shè)計(jì)防火規(guī)范
- 2024年上海交通大學(xué)招考聘用高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- 浙江省金華市2024年初中畢業(yè)升學(xué)適應(yīng)性檢測(cè) 科學(xué)試題卷
- 延長(zhǎng)石油招聘筆試試題
- DB-T 29-22-2024 天津市住宅設(shè)計(jì)標(biāo)準(zhǔn)
- 2024年贛州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫及答案解析
- DL∕T 5209-2020 高清版 混凝土壩安全監(jiān)測(cè)資料整編規(guī)程
評(píng)論
0/150
提交評(píng)論