自然語言處理技術(shù)分享1

上傳人：0*** IP屬地：湖北上傳時(shí)間：2022-03-12 格式：DOCX 頁數(shù)：8 大小：154.76KB 積分：35 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、內(nèi)容大概分為：自然語言處理的簡(jiǎn)介、關(guān)鍵技術(shù)、流程及應(yīng)用。首先，介紹一下什么是自然語言處理（也叫自然語言理解）：語言學(xué)家劉涌泉在大百科全書（2002）中對(duì)自然語言處理的定義為：“自然語言處理是人工智能領(lǐng)域的主要內(nèi)容，即利用電子計(jì)算機(jī)等工具對(duì)人類所特有的語言信息（包括口語信息和文字信息）進(jìn)行各種加工，并建立各種類型的人-機(jī)-人系統(tǒng)，自然語言理解是其核心，其中包括語音和語符的自動(dòng)識(shí)別以及語音的自動(dòng)合成。”從微觀上講,自然語言理解是指從自然語言到機(jī)器(計(jì)算機(jī)系統(tǒng))內(nèi)部之間的一種映射。從宏觀上看,自然語言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能。這些功能包括：回答有關(guān)提問；計(jì)算機(jī)正確地回答用自然語

2、言輸入的有關(guān)問題提取材料摘要；機(jī)器能產(chǎn)生輸入文本的摘要同詞語敘述；機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息不同語言翻譯。機(jī)器能把一種語言翻譯成另外一種語言自然語言處理的關(guān)鍵技術(shù)自然語言處理的關(guān)鍵技術(shù)包括：詞法分析、句法分析、語義分析、語用分析和語句分析。1 詞法分析詞法分析的主要目的是從句子中切分出單詞，找出詞匯的各個(gè)詞素，并確定其詞義。詞法分析包括詞形和詞匯兩個(gè)方面。一般來講，詞形主要表現(xiàn)在對(duì)單詞的前綴、后綴等的分析，而詞匯則表現(xiàn)在對(duì)整個(gè)詞匯系統(tǒng)的控制。在中文全文檢索系統(tǒng)中，詞法分析主要表現(xiàn)在對(duì)漢語信息進(jìn)行詞語切分，即漢語自動(dòng)分詞技術(shù)。通過這種技術(shù)能夠比較準(zhǔn)確的分析用戶輸入信

3、息的特征，從而完成準(zhǔn)確的搜索過程。它是中文全文檢索技術(shù)的重要發(fā)展方向。不同的語言對(duì)詞法分析有不同的要求，例如英語和漢語就有較大的差距漢語中的每個(gè)字就是一個(gè)詞素，所以要找出各個(gè)詞素是相當(dāng)容易的，但要切分出各個(gè)詞就非常難。如”我們研究所有東西“，可以是“我們研究所有東西”也可是“我們研究所有東西” 。英語等語言的單詞之間是用空格自然分開的，很容易切分一個(gè)單詞，因而很方便找出句子的每個(gè)詞匯，不過英語單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等變化，因而要找出各個(gè)詞素就復(fù)雜得多，需要對(duì)詞尾和詞頭進(jìn)行分析。如uncomfortable可以是un-comfort-able或uncomfort-able，因?yàn)閡n、c

4、omfort、able都是詞素。2句法分析句法分析是對(duì)用戶輸入的自然語言進(jìn)行詞匯短語的分析，目的是識(shí)別句子的句法結(jié)構(gòu)，實(shí)現(xiàn)自動(dòng)句法分析過程。其基本方法有線圖分析法、短語結(jié)構(gòu)分析、完全句法分析、局部句法分析、依存句法分析等。分析的目的就是找出詞、短語等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來加以表達(dá)。這種層次結(jié)構(gòu)可以是從屬關(guān)系、直接成分關(guān)系,也可以是語法功能關(guān)系。句法分析是由專門設(shè)計(jì)的分析器進(jìn)行的，其分析過程就是構(gòu)造句法樹的過程，將每個(gè)輸入的合法語句轉(zhuǎn)換為一棵句法分析樹。一個(gè)句子是由各種不同的句子成分組成的。這些成分可以是單詞、詞組或從句。句子成分還可以按其作用分為主語、謂語、賓語

5、、賓語補(bǔ)語、定語、狀語、表語等。這種關(guān)系可用一棵樹來表示，如對(duì)句子： He wrote a book.可用圖示的樹形結(jié)構(gòu)來表示。3語義分析語義分析是基于自然語言語義信息的一種分析方法，其不僅僅是詞法分析和句法分析這樣語法水平上的分析，而是涉及到了單詞、詞組、句子、段落所包含的意義。其目的是從句子的語義結(jié)構(gòu)表示言語的結(jié)構(gòu)。中文語義分析方法是基于語義網(wǎng)絡(luò)的一種分析方法。語義網(wǎng)絡(luò)則是一種結(jié)構(gòu)化的，靈活、明確、簡(jiǎn)潔的表達(dá)方式。其實(shí)就是要識(shí)別一句話所表達(dá)的實(shí)際意義。比如弄清楚“干什么了”，“誰干的”，“這個(gè)行為的原因和結(jié)果是什么”以及“這個(gè)行為發(fā)生的時(shí)間、地點(diǎn)及其所用的工具或方法”等。4語用分析

6、0;語用分析相對(duì)于語義分析又增加了對(duì)上下文、語言背景、環(huán)境等的分析，從文章的結(jié)構(gòu)中提取到意象、人際關(guān)系等的附加信息，是一種更高級(jí)的語言學(xué)分析。它將語句中的內(nèi)容與現(xiàn)實(shí)生活的細(xì)節(jié)相關(guān)聯(lián)，從而形成動(dòng)態(tài)的表意結(jié)構(gòu)。5語境分析語境分析主要是指對(duì)原查詢語篇以外的大量“空隙”進(jìn)行分析從而更為正確地解釋所要查詢語言的技術(shù)。這些“空隙”包括一般的知識(shí)，特定領(lǐng)域的知識(shí)以及查詢用戶的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯(lián)系起來，補(bǔ)充完善了詞法、語義、語用分析的不足。自然語言處理工具：OpenNLPOpenNLP是一個(gè)基于Java機(jī)器學(xué)習(xí)工具包，用于處理自然語言文本。支持大多數(shù)常用的 NL

7、P 任務(wù)，例如：標(biāo)識(shí)化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。FudanNLPFudanNLP主要是為中文自然語言處理而開發(fā)的工具包，也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證。開發(fā)語言為Java。功能：1. 文本分類、新聞聚類2. 中文分詞、詞性標(biāo)注、實(shí)體識(shí)別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短語識(shí)別3. 結(jié)構(gòu)化學(xué)習(xí)、在線學(xué)習(xí)、層次分類、聚類、精確推理。自然語言處理流程：2.1獲取原始文本 22對(duì)文本進(jìn)行預(yù)處理 2.2.1文本編碼格式 2.2.2 文本模式匹配2.2.3 規(guī)范化文本

8、60;2.3分詞文本中起到關(guān)鍵作用的是一些詞，甚至主要詞就能起到?jīng)Q定文本取向。中文分詞，出現(xiàn)了很多分詞的算法，有最大匹配法、最優(yōu)匹配法、機(jī)械匹配法、逆向匹配法、雙向匹配法等。中科院張華平博士研發(fā)的分詞工具ICTCLAS，該算法經(jīng)過眾多科學(xué)家的認(rèn)定是當(dāng)今中文分詞中最好的，并且支持用戶自定義詞典，加入詞典；對(duì)新詞，人名，地名等的發(fā)現(xiàn)也具有良好的效果Jieba分詞工具：支持繁體分詞；支持自定義詞典常見的分詞工具有：word分詞器、Ansj分詞器、Stanford分詞器、FudanNLP分詞器、Jieba分詞器、Jcseg分詞器、MMSeg4

9、j分詞器、IKAnalyzer分詞器、Paoding分詞器、smartcn分詞器、HanLP分詞器等。2.4去除停頓詞在信息檢索中，為節(jié)省存儲(chǔ)空間和提高搜索效率，在處理自然語言數(shù)據(jù)（或文本）之前或之后會(huì)自動(dòng)過濾掉某些字或詞，這些字或詞即被稱為Stop Words（停用詞）。比如：的、有、得、了等這些詞。2.5 特征選擇在文本處理建模的預(yù)處理過程中,我們得到文本特征維度常常非常大,要得到一個(gè)好的模型，需要做兩個(gè)工作:1、降維。模型的維度常常很大,這會(huì)加大模型的運(yùn)行成本,并且不利于研究人員理解模型。2、去燥。維度很大時(shí),特征之間會(huì)相互依賴,甚至很多特征對(duì)模型分類是有干擾作用的，去除這一部分特征將對(duì)

10、模型有提升作用。特征選擇和特征抽取都能完成上面的工作。在文本處理中常采用特征選擇而非特征抽取, 原因是特征選擇保持了特征原來的面貌,有利于挖掘人員理解模型。在文本處理中常見的特征選擇方法有：文檔頻率(TF-IDF) 詞頻(TF)即為詞在一篇文檔中出現(xiàn)的頻率。其中T Ft,d表示詞t在第d個(gè)文檔的詞頻,nt表示詞t在文檔d出現(xiàn)的次數(shù),Nd表示文檔d 中詞的總數(shù)。逆向文檔頻率(IDF)值衡量詞在某個(gè)文檔中是否有代表性,其計(jì)算公式：其中IDFt是詞t的逆向文檔頻率,D是語料集的總文檔數(shù),Dt是包含t的文檔數(shù)量,加 1是做平滑處理。注意到TF-IDF是和標(biāo)簽無關(guān)的,這意味著計(jì)算過程是無監(jiān)

11、督的，由于TF-IDF無監(jiān)督的特征，常常被用來表示文檔向量空間模型的向量，從而能夠運(yùn)用于文檔的相似度計(jì)算和關(guān)鍵詞提取等。信息增益(Information Gain)信息增益是信息論中很重要的一個(gè)概念。在特征選擇中，該方法主要是通過評(píng)估詞項(xiàng)能夠給分類帶來多少的信息量，帶來的信息量越大，說明該詞項(xiàng)越重要。信息量，也就是熵。對(duì)于一個(gè)變量X，它可能的取值有n多種，分別是x1 ,x2 ,.,xn ，每一種取到的概率分別是p1 ,p2 ,.,pn ，那么X的熵就定義為：互信息(Mutual Information)互信息是信息論中又一重要的概率，在文本處理中用來說明詞t對(duì)于類別c的貢獻(xiàn)程度，互信息越大則貢

12、獻(xiàn)程度越大?；バ畔⒂?jì)算是類別c關(guān)于t后驗(yàn)概率與先驗(yàn)概率的比值的 log。2.6利用算法進(jìn)行挖掘我們能夠利用各種算法進(jìn)行挖掘，可以對(duì)文本、新聞等進(jìn)行分類、聚類，可以利用KNN算法，樸素貝葉斯算法、決策樹算法、神經(jīng)網(wǎng)絡(luò)法、線性最小二乘法、K-Means算法、余弦相似度等算法。自然語言處理的應(yīng)用：自然語言處理的范圍涉及眾多方面，如語音的自動(dòng)識(shí)別與合成，機(jī)器翻譯，自然語言理解，人機(jī)對(duì)話，信息檢索，文本分類，自動(dòng)文摘，等等。這些大致可以歸納為如下四個(gè)大的方向：(1）語言學(xué)方向.它只研究語言及語言處理與計(jì)算相關(guān)的方面，而不管其在計(jì)算機(jī)上的具體實(shí)現(xiàn)。這個(gè)方向最重要的研究領(lǐng)域是語法形式化理論和數(shù)學(xué)

13、理論。（2）數(shù)據(jù)處理方向。是把自然語言處理作為開發(fā)語言研究相關(guān)程序以及語言數(shù)據(jù)處理的學(xué)科來研究。這一方向早起的研究有屬于數(shù)據(jù)庫的建設(shè)、各種機(jī)器可讀的電子詞典的開發(fā)，近些年來則有大規(guī)模的語料庫的涌現(xiàn)。（3）人工智能和認(rèn)知科學(xué)方向。在這個(gè)方向，自然語言處理被作為在計(jì)算機(jī)上實(shí)現(xiàn)自然語言能力的學(xué)科來研究，探索自然語言理解的只能機(jī)制和認(rèn)知機(jī)制。這一方向的研究與人工智能以及認(rèn)知科學(xué)關(guān)系密切。（4）語言工程方向。主要是把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究，這一方向的研究一般稱為“人類語言技術(shù)”或者“語言工程”。自然語言處理常用模型：1 N元模型該模型基于這樣一種假設(shè)，第n個(gè)詞的出現(xiàn)只與前

14、面N-1個(gè)詞相關(guān)，而與其它任何詞都不相關(guān)，整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。2 馬爾可夫模型以及隱馬爾可夫模型馬爾可夫模型實(shí)際上是個(gè)有限狀態(tài)機(jī)，兩兩狀態(tài)間有轉(zhuǎn)移概率；隱馬爾可夫模型中狀態(tài)不可見，我們只能看到輸出序列，也就是每次狀態(tài)轉(zhuǎn)移會(huì)拋出個(gè)觀測(cè)值；當(dāng)我們觀察到觀測(cè)序列后，要找到最佳的狀態(tài)序列。3 支持向量機(jī)模型支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,構(gòu)造一個(gè)目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開來, 通常分為兩類情況來討論,：(1) 線性可分；(2) 線性不可分。4 條件隨機(jī)場(chǎng)模型條件隨機(jī)場(chǎng)(CRFs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型，由John Lafferty等人在2001年首次提出。它是一種無向圖模型，對(duì)于指定的節(jié)點(diǎn)輸入值，它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率，其訓(xùn)練目標(biāo)是使得條件概率最大化。CRFs具有很強(qiáng)的推理能力，能夠充分地利用上下文信息作為特征，還可以任意地添加其他外部特征，使得模型能夠獲取的信息非常豐富。CRFs通過僅使用一個(gè)指數(shù)模型作為在給定觀測(cè)序列條件下整個(gè)標(biāo)記序列的聯(lián)合概率，使得該模型中不同狀態(tài)下的不同特征權(quán)值可以彼此交替，從而有效地解決了其他非生成有向圖模型所產(chǎn)生的標(biāo)注偏置的問題。這些特點(diǎn)，使

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

自然語言處理技術(shù)分享1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

自然語言處理技術(shù)分享1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔