版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章自然語言處理CONTENTS目錄自然語言處理介紹01自然語言處理關(guān)鍵技術(shù)02自然語言處理案例03自然語言處理介紹6.1應用場景01什么是自然語言處理02自然語言處理的基本方法03自然語言處理的研究方向04自然語言處理的三個層面05自然語言處理的難點06自然語言處理的發(fā)展現(xiàn)狀07應用場景01文本分類:在預定義的分類體系下,根據(jù)文本的特征,將給定文本與一個或多個類別相關(guān)聯(lián)的過程。例如:垃圾郵件檢測,情感分析等。文本聚類(Textclustering):依據(jù)同類的文檔相似度較大,而不同類的文檔相似度較小的聚類假設,將文本進行聚類。機器翻譯:使用計算機來實現(xiàn)不同語言之間的翻譯。自第一臺計算機誕生就有相關(guān)的研究與探索,基于記憶的->基于實例的->統(tǒng)計機器翻譯->神經(jīng)網(wǎng)絡翻譯。問答系統(tǒng):接收用戶以自然語言形式描述的提問,并能從大量的異構(gòu)數(shù)據(jù)中查找或推斷出用戶問題的答案的信息檢索系統(tǒng)。應用場景01自動文摘:所謂自動文摘就是利用計算機自動地從原始文獻中提取文摘,文摘是全面準確地反映某一文獻中心內(nèi)容的簡單連貫的短文。信息抽?。↖nformationExtraction,IE)是把文本里包含的信息抽取出來,然后以統(tǒng)一的形式集成在一起。輿情分析:就是根據(jù)特定問題的需要,對針對這個問題的輿情進行深層次的思維加工和分析研究,得到相關(guān)結(jié)論的過程。機器寫作:人工智能機器人編寫文章。什么是自然語言處理02什么是自然語言?以語音為物質(zhì)外殼,由詞匯和語法兩部分組成的符號系統(tǒng)。文字和聲音是語言的兩種屬性。是約定俗成的,有別于人工語言,比如Java、C++等程序設計語言。什么是自然語言處理(NaturalLanguageProcessing,NLP)?自然語言處理,就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息,進行各種類型處理和加工的技術(shù)?!T志偉
自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科。自然語言處理要研制表示語言能力和語言應用的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應的方法來不斷完善這樣的語言模型,根據(jù)這樣的語言模型設計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術(shù)。——BillManaris什么是自然語言處理02自然語言處理常用的工具和平臺自然語言處理的基本方法03能力模型通常是基于語言學規(guī)則的模型,建立在人腦中先天存在語法通則這一假設的基礎上,認為語言是人腦的語言能力推導出來的,建立語言模型就是通過建立人工編輯的語言規(guī)則集來模擬這種先天的語言能力。又稱“理性主義的”語言模型,代表人物有Chomsky、Minsky。建模步驟: 1.語言學知識形式化 2.形式化規(guī)則算法化 3.算法實現(xiàn)自然語言處理的基本方法03應用模型根據(jù)不同的語言處理應用而建立的特定語言模型,通常是通過建立特定的數(shù)學模型來學習復雜的、廣泛的語言結(jié)構(gòu),然后利用統(tǒng)計學、模式識別和機器學習等方法來訓練模型的參數(shù),以擴大語言使用的規(guī)模。又稱“經(jīng)驗主義的”語言模型,代表人物有Shannon、Skinner。建模步驟: 1.大規(guī)模真實語料庫中獲得不同層級語言單位上的統(tǒng)計信息。 2.依據(jù)較低級語言單位上的統(tǒng)計信息運用相關(guān)的統(tǒng)計推理技術(shù),來計算較高級語言單位上的統(tǒng)計信息。自然語言處理的基本方法03在NLP的發(fā)展過程中,其方法大致分為以下幾類:基于規(guī)則的方法基于統(tǒng)計的方法自然語言處理的研究方向04自然語言處理主要有兩大研究方向:自然語言理解和自然語言生成。自然語言理解(NLU,NaturalLanguageUnderstanding):使計算機理解自然語言(人類語言文字)等,重在理解。具體來說,就是理解語言、文本等,提取出有用的信息,用于下游的任務。自然語言生成(NLG,NaturalLanguageGeneration):提供結(jié)構(gòu)化的數(shù)據(jù)、文本、圖表、音頻、視頻等,生成人類可以理解的自然語言形式的文本。自然語言處理的三個層面05詞法分析:包括分詞、詞性標注、命名實體識別等。句法分析:包括句法結(jié)構(gòu)分析和依存關(guān)系分析等。語義分析:最終目的是理解句子表達的真實語義。自然語言處理的三個層面05圖6-5句子分析自然語言處理的難點06詞法歧義:分詞:詞語的切分邊界比較難確定。嚴守一/把/手機/關(guān)/了嚴守/一把手/機關(guān)/了詞性標注:同一個詞語在不同的上下文中詞性不同。我/計劃/v考/研/我/完成/了/計劃/n命名實體識別:人名、專有名詞、縮略詞等未登錄詞的識別困難。高超/nr/a華明/nr/nt移動/nt/v自然語言處理的難點06句法歧義:句法層面上的依存關(guān)系受上下文的影響。咬死了獵人的狗那只狼咬死了獵人的狗咬死了獵人的狗失蹤了自然語言處理的難點06語義歧義:Atlast,acomputerunderstandsyoulikeyourmother.
含義1:計算機會像你的母親那樣很好的理解你。含義2:計算機理解你喜歡你的母親。含義3:計算機會像理解你母親那樣去理解你。自然語言處理的難點06語用歧義:“你真壞”
當對干了壞事的成年人說時,是一種嚴厲的苛責。當媽媽對淘氣的兒子說時,實際表達的是對兒子的一種疼愛。當戀愛中的女孩對男友說時,則是女孩在男友面前撒嬌的一種表現(xiàn)。自然語言處理的發(fā)展現(xiàn)狀07已開發(fā)完成一批頗具影響的語言資料庫,部分技術(shù)已達到或基本達到實用化程度,并在實際應用中發(fā)揮巨大作用北大語料庫、HowNet許多新研究方向不斷出現(xiàn)閱讀理解、圖像(視頻)理解、語音同聲傳譯許多理論問題尚未得到根本性的解決未登錄詞的識別、歧義消解的問題、語義理解的難題缺失一套完整、系統(tǒng)的理論框架體系自然語言處理關(guān)鍵技術(shù)6.2分詞01詞性標注02命名實體識別03關(guān)鍵詞提取04句法分析05語義分析06分詞01分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。背景:在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜得多、困難得多。中文分詞(ChineseWordSegmentation):指的是將一個漢字序列切分成一個個單獨的詞。例如:ー九九八年/中國/實現(xiàn)/進出口/總值/達/ー千零九十八點二億/美元作用:中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。分詞01常用的分詞方法有基于字符串匹配的方法、基于統(tǒng)計的方法、基于深度學習的方法、混合分詞等。分詞011、基于字符串匹配的方法基于字符串匹配的方法又稱為機械分詞方法或字典匹配方法,主要是通過維護詞典,在切分語句時,將語句中的每個字符串與詞表中的詞進行逐一匹配,找到則切分,否則不予切分。按照匹配切分的方式,主要有:正向最大匹配法(由左到右的方向)逆向最大匹配法(由右到左的方向)雙向最大匹配法(進行由左到右、由右到左兩次掃描)特點:簡單高效,但詞典維護困難,網(wǎng)絡新詞層出不窮,詞典很難覆蓋到所有詞。分詞01正向最大匹配法圖6-7 基于正向最大匹配法的分詞流程圖分詞012、統(tǒng)計分詞其主要思想是將分詞作為字在字串中的序列標注任務來實現(xiàn)的。每個字在構(gòu)造一個特定的詞語時都占據(jù)著一個確定的構(gòu)詞位置,如果相連的字在不同的文本中出現(xiàn)的次數(shù)越多,就證明這相連的字很可能就是一個詞。步驟:建立統(tǒng)計語言模型。對句子進行單詞劃分,然后對結(jié)果進行概率計算,獲得概率最大的分詞方式。如隱馬爾科夫(HMM)、條件隨機場(CRF)等。分詞013、深度學習分詞使用word2vec對語料的詞進行嵌入,得到詞嵌入后,用詞嵌入特征輸入給雙向LSTM,對輸出的隱層加一個線性層,然后加一個CRF得到最終實現(xiàn)的模型。分詞014、混合分詞在實際工程應用中,多是基于一種分詞算法,然后用其他分詞算法加以輔助。最常用的是先基于詞典的方式分詞,然后再用統(tǒng)計分詞方式進行輔助。詞性標注02詞性標注:是指為句子分詞結(jié)果中的每個單詞標注一個正確的詞性的程序,也即確定每個詞是名詞、動詞、形容詞或者其他詞性的過程。例如:邁向/v充滿/v希望/n的/uj新/a世紀/n。詞性:是詞匯基本的語法屬性。目的:詞性標注是很多NLP任務的預處理步驟,如句法分析、信息抽取等,經(jīng)過詞性標注后的文本會帶來很大的便利性,但也不是不可或缺的步驟。方法:基于規(guī)則的方法、基于統(tǒng)計的方法、基于深度學習的方法。命名實體識別03命名實體識別(NamedEntitiesRecognition,NER):又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。例如:冶金/n工業(yè)部/n洛陽/ns耐火材料/l研究院/n。分類:命名實體識別研究的命名實體一般分為3大類(實體類、時間類和數(shù)字類)和7小類(人名、地名、組織機構(gòu)名、時間、日期、貨幣和百分比)。作用:與自動分詞、詞性標注一樣,命名實體識別也是自然語言中的一個基礎任務,是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等技術(shù)必不可少的組成部分。步驟:實體邊界識別確定實體類別(人名、地名、機構(gòu)名等)命名實體識別03難點:各類命名實體的數(shù)量眾多。命名實體的構(gòu)成規(guī)律復雜。嵌套情況復雜。長度不確定。關(guān)鍵詞提取04關(guān)鍵詞是代表文章重要內(nèi)容的一組詞,現(xiàn)實中大量文本不包含關(guān)鍵詞,因此,自動提取關(guān)鍵詞技術(shù)能使人們便捷地瀏覽和獲取信息,對文本聚類、分類、自動摘要等起重要的作用。關(guān)鍵詞提取算法一般也可以分為有監(jiān)督和無監(jiān)督兩類。有監(jiān)督:主要是通過分類的方式進行,通過構(gòu)建一個較為豐富和完善的詞表,然后通過判斷每個文檔與詞表中每個詞的匹配程度,以類似打標簽的方式,達到提取關(guān)鍵詞的效果。無監(jiān)督:不需要人工生成、維護的詞表,也不需要人工標注語料輔助進行訓練。例如,TF-IDF算法、TextRank算法、主題模型算法(LSA、LSI、LDA)等。關(guān)鍵詞提取04TF-IDF算法詞頻-逆文檔頻率算法(TermFrequency-InverseDocumentFrequency,TF-IDF):是一種基于統(tǒng)計的計算方法,常用于評估在一個文檔集中一個詞對某份文檔的重要程度。關(guān)鍵詞提取04TF-IDF算法TF算法:是統(tǒng)計一個詞在一篇文檔中出現(xiàn)的頻次。其基本思想是,一個詞在文檔中出現(xiàn)的次數(shù)越多,則其對文檔的表達能力也就越強。IDF算法:是統(tǒng)計一個詞在文檔集中的多少個文檔中出現(xiàn)。其基本思想是,如果一個詞在越少的文檔中出現(xiàn),則其對文檔的區(qū)分能力也就越強。其中,|D|為文檔集中總文檔數(shù),|Di|為文檔集中出現(xiàn)詞i的文檔數(shù)量。TF-IDF算法:關(guān)鍵詞提取04TF-IDF算法例子:詞頻(TF)是一詞語出現(xiàn)的次數(shù)除以該文檔的總詞語數(shù)。假如一篇文檔的總詞語數(shù)是100個,而詞語“手機”出現(xiàn)了3次,那么“手機”一詞在該文檔中的詞頻就是3/100=0.03。逆文檔頻率(IDF)是文檔集里包含的文檔總數(shù)除以測定有多少份文檔出現(xiàn)過“手機”一詞。所以,如果“手機”一詞在1,000份文檔出現(xiàn)過,而文檔總數(shù)是10,000,000份的話,其逆文檔頻率就是log(10,000,000/1,000)=4。最后的TF-IDF的分數(shù)為0.03*4=0.12。句法分析05句法分析的主要任務是識別出句子所包含的句法成分以及這些成分之間的依存關(guān)系,分為句法結(jié)構(gòu)分析和依存關(guān)系分析。依存句法分析是通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)。直觀來講,依存句法分析識別句子中的“主謂賓”、“定狀補”這些語法成分,并分析各成分之間的關(guān)系。句法分析05例如,句子“國務院總理李克強調(diào)研上海外高橋時提出,支持上海積極探索新機制?!钡姆治鼋Y(jié)果如圖6-9所示(參考哈工大LTP:)。
從分析結(jié)果中我們可以看到,句子的核心謂詞為“提出”,主語是“李克強”,提出的賓語是“支持上?!?,“調(diào)研…時”是“提出”的(時間)狀語,“李克強”的修飾語是“國務院總理”,“支持”的賓語是“探索新機制”。有了上面的句法分析結(jié)果,我們就可以比較容易的看到,“提出者”是“李克強”,而不是“上?!被颉巴飧邩颉保词顾鼈兌际敲~,而且距離“提出”更近。句法分析05句法分析的重要性機器翻譯是NLP的一個主要領(lǐng)域,而句法分析是機器翻譯的核心數(shù)據(jù)結(jié)構(gòu),是對語言進行深層次理解的基石。對于復雜語句,標注樣本較少的情況下,僅僅通過詞性分析,不能得到正確的語句成分關(guān)系。語義分析06語義分析是編譯過程的一個邏輯階段。語義計算的任務:解釋自然語言句子或篇章各部分(詞、詞組、句子、段落、篇章)的意義。語義分析06語義分析的重要性僅僅知道句子的結(jié)構(gòu),是否就可以了?例如:三段論:所有人都得死,蘇格拉底是人,所以蘇格拉底也要死。推論:不可能一天讀完魯迅的作品,《藥》是魯迅的作品,所以一天不能讀完《藥》。通過上述案例可知,結(jié)構(gòu)上是合乎語法的,但語義上不合實際。因此,僅僅分析出句子的結(jié)構(gòu),并不能妥善的解決機器理解與翻譯等問題。所以,需要語義分析。自然語言處理案例體驗6.3案例體驗1:分詞01案例體驗2:TF-IDF關(guān)鍵詞提取02案例體驗1:分詞01實驗背景:分詞是自然語言處理(NLP)中最基礎最重要的模塊,分詞結(jié)果的好壞直接影響下游任務的效果,如命名實體識別(NER)、詞性標注、機器翻譯等。相較于英文,中文詞與詞之間沒有直接的分隔符,因此,中文分詞相對于英文分詞更具有挑戰(zhàn)性,也更加重要。案例體驗1:分詞01實驗目的:了解jieba中文分詞工具的使用模式和場景掌握jieba中文分詞在不同模式下的調(diào)用方法jieba(結(jié)巴)是一個強大的分詞庫,完美支持中文分詞。/fxsjy/jieba案例體驗1:分詞01實驗步驟:步驟1:導入實驗模塊輸入:案例體驗1:分詞01實驗步驟:步驟2:探索分詞模式精確分詞:試圖將句子最精確地切開,適合文本分析。輸入:輸出:cut_all參數(shù)用來控制是否采用全模式案例體驗1:分詞01實驗步驟:步驟2:探索分詞模式全模式:把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義。輸入:輸出:案例體驗1:分詞01實驗步驟:步驟2:探索分詞模式搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。輸入:輸出:案例體驗1:分詞01實驗步驟:步驟3:讀取文本文件并分詞對文本文件進行分詞輸出:輸入:文本文件:huawei.txt案例體驗1:分詞01實驗小結(jié):本實驗介紹了中文分詞工具jieba的使用場景和使用方式,包括精
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版?zhèn)€人住宅小產(chǎn)權(quán)轉(zhuǎn)讓協(xié)議樣式版B版
- 2025年度新型建筑材料貨物質(zhì)押擔保合同模板3篇
- 2024水電裝修合同范本老舊小區(qū)改造工程3篇
- 培育小思考家
- 農(nóng)場全維度運營解析
- 復式公寓租賃協(xié)議(2篇)
- 2025年度金融機構(gòu)財產(chǎn)保全擔保業(yè)務操作細則合同3篇
- 《離婚父母探望權(quán)實施細則補充合同》(2024版)版B版
- 貴陽八中小賣部場地租賃經(jīng)營合同
- 2024污水處理廠節(jié)能減排技術(shù)改造合同2篇
- 2022年江蘇省南京市中考歷史試題(含答案)
- 商務溝通第二版第6章管理溝通
- 培訓課件-核電質(zhì)保要求
- 過敏原檢測方法分析
- TSG_R0004-2009固定式壓力容器安全技術(shù)監(jiān)察規(guī)程
- 室外給水排水和燃氣熱力工程抗震設計規(guī)范
- 【個人獨資】企業(yè)有限公司章程(模板)
- 《三國演義》整本書閱讀任務單
- 外觀GRR考核表
- 大型平板車安全管理規(guī)定.doc
- 企業(yè)信用管理制度
評論
0/150
提交評論