第9章自然語(yǔ)言處理_第1頁(yè)
第9章自然語(yǔ)言處理_第2頁(yè)
第9章自然語(yǔ)言處理_第3頁(yè)
第9章自然語(yǔ)言處理_第4頁(yè)
第9章自然語(yǔ)言處理_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能技術(shù)篇自然語(yǔ)言處理第九章本章導(dǎo)讀隨著信息技術(shù)的發(fā)展,以及智能設(shè)備在實(shí)際生活中的廣泛應(yīng)用,自然語(yǔ)言處理技術(shù)迅速升級(jí)為人工智能必不可少的研究熱點(diǎn)之一。自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)了人與機(jī)器之間的自然語(yǔ)言交流,為人們的生活帶來(lái)了諸多便利。本章首先介紹自然語(yǔ)言處理的基本概念、發(fā)展歷程、研究方向和基本框架,然后詳細(xì)介紹自然語(yǔ)言處理的層次化過(guò)程和基本流程,最后分析自然語(yǔ)言處理技術(shù)的某一應(yīng)用方向,即情感分析。學(xué)習(xí)目標(biāo)熟悉自然語(yǔ)言處理的基本概念和基本框架。掌握理解自然語(yǔ)言處理的過(guò)程劃分。掌握自然語(yǔ)言處理的基本流程。目錄

4自然語(yǔ)言處理概述自然語(yǔ)言處理的過(guò)程劃分自然語(yǔ)言處理的基本流程01020304案例分析:情感分析自然語(yǔ)言處理概述01自然語(yǔ)言處理(naturallanguageprocessing,NLP)主要研究用電子計(jì)算機(jī)模擬人的語(yǔ)言交際過(guò)程,使計(jì)算機(jī)能理解和運(yùn)用人們生活中使用的自然語(yǔ)言,并實(shí)現(xiàn)人機(jī)之間的自然語(yǔ)言通信,從而進(jìn)一步實(shí)現(xiàn)計(jì)算機(jī)代替人進(jìn)行部分腦力勞動(dòng)的目標(biāo)。其中,部分腦力勞動(dòng)主要包括查詢資料、解答問(wèn)題、摘錄文獻(xiàn)、匯編資料,以及一切與自然語(yǔ)言信息有關(guān)的加工處理。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,它主要包括自然語(yǔ)言理解和自然語(yǔ)言生成兩方面內(nèi)容。自然語(yǔ)言理解又稱為計(jì)算語(yǔ)言學(xué),是指將自然語(yǔ)言轉(zhuǎn)化成易于計(jì)算機(jī)程序理解和處理的形式。自然語(yǔ)言生成則是將存儲(chǔ)于計(jì)算機(jī)中的數(shù)據(jù)轉(zhuǎn)化為人們能夠理解的自然語(yǔ)言。自然語(yǔ)言處理的基本概念9.1.1自然語(yǔ)言處理的發(fā)展歷程可分為5個(gè)時(shí)期,如圖所示。自然語(yǔ)言處理的發(fā)展歷程9.1.2自然語(yǔ)言處理的發(fā)展歷程自然語(yǔ)言處理的研究和應(yīng)用是人工智能領(lǐng)域的一項(xiàng)重大突破,必將為科學(xué)技術(shù)的發(fā)展做出重要貢獻(xiàn),同時(shí)促進(jìn)其他學(xué)科的進(jìn)一步發(fā)展,并對(duì)人們的生活產(chǎn)生深遠(yuǎn)的影響。隨著計(jì)算機(jī)技術(shù)和硬件設(shè)備的大幅度提升,自然語(yǔ)言處理的研究方向也越來(lái)越廣闊。如表列舉了自然語(yǔ)言處理的部分研究方向。自然語(yǔ)言處理的研究方向9.1.3研究方向簡(jiǎn)介機(jī)器翻譯借助計(jì)算機(jī)把文字或演講從一種自然語(yǔ)言自動(dòng)翻譯成另一種自然語(yǔ)言,如將漢語(yǔ)翻譯成英語(yǔ)文字識(shí)別借助計(jì)算機(jī)自動(dòng)識(shí)別印刷體或手寫(xiě)體文字,將它們轉(zhuǎn)化為可供計(jì)算機(jī)處理的電子文本,如字符的圖像識(shí)別語(yǔ)音識(shí)別將人類語(yǔ)音中的詞語(yǔ)內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的書(shū)面語(yǔ),如語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航等自動(dòng)文摘利用計(jì)算機(jī)提煉指定文章的摘要,即自動(dòng)歸納原文檔的主要內(nèi)容和含義,提煉并形成摘要,如機(jī)械文摘句法分析運(yùn)用自然語(yǔ)言的句法和其他相關(guān)知識(shí)確定輸入句中各成分的功能,建立一種數(shù)據(jù)結(jié)構(gòu),用于獲取輸入句子的意義研究方向簡(jiǎn)介文本分類在給定的分類體系和分類標(biāo)準(zhǔn)下,根據(jù)文本內(nèi)容利用計(jì)算機(jī)自動(dòng)判別文本類型,實(shí)現(xiàn)文本自動(dòng)歸類信息檢索利用計(jì)算機(jī)從海量文檔中查找用戶需要的相關(guān)文檔信息獲取利用計(jì)算機(jī)從大量的文本中自動(dòng)抽取待定的一類信息(如事件和事實(shí)等),并形成結(jié)構(gòu)化數(shù)據(jù),填入數(shù)據(jù)庫(kù)中供用戶查詢使用信息過(guò)濾利用計(jì)算機(jī)自動(dòng)識(shí)別和過(guò)濾滿足特定條件的文檔信息中文自動(dòng)分詞使用計(jì)算機(jī)對(duì)中文文本進(jìn)行詞語(yǔ)的自動(dòng)切分語(yǔ)音合成將書(shū)面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語(yǔ)音自然語(yǔ)言處理的研究方向自然語(yǔ)言處理不是一個(gè)獨(dú)立的技術(shù),它受到大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)等多方面理論的支撐。

自然語(yǔ)言處理的基本框架可用圖表示。自然語(yǔ)言處理的基本框架9.1.4自然語(yǔ)言處理的基本框架自然語(yǔ)言處理的過(guò)程劃分02自然語(yǔ)言是由字成詞,由詞成句,由句成段的一個(gè)層次化過(guò)程。因此,完整的自然語(yǔ)言處理也是一個(gè)層次化的過(guò)程。許多現(xiàn)代語(yǔ)言學(xué)家將這個(gè)過(guò)程劃分為5個(gè)層次,如圖所示。自然語(yǔ)言處理的過(guò)程

語(yǔ)音分析是根據(jù)音位規(guī)則,從語(yǔ)音流中區(qū)分出獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出音節(jié)及其對(duì)應(yīng)的詞素或詞語(yǔ)的過(guò)程。語(yǔ)音以聲波的形式傳送,語(yǔ)音分析系統(tǒng)接收聲波(模擬信號(hào)),并從中抽取頻率、能量等特征,之后,將這些特征映射為音素(單個(gè)聲音單元),最后將音素序列轉(zhuǎn)換成單詞序列。語(yǔ)音的產(chǎn)生是將單詞映射為音素序列,然后傳送給語(yǔ)音合成器,單詞的聲音通過(guò)說(shuō)話者(機(jī)器人或語(yǔ)音助手等)從語(yǔ)音合成器發(fā)出。語(yǔ)音分析9.2.1

詞法分析是從句子中切分出單詞,找出詞語(yǔ)的各個(gè)詞素,從中獲得單詞的語(yǔ)言學(xué)信息并確定單詞的詞義。不同的語(yǔ)言(如英語(yǔ)、漢語(yǔ)等)對(duì)詞法分析的要求是不同的。在英語(yǔ)中,由于單詞之間是以空格自然分割開(kāi)的,因此,很容易從句子中切分出單詞。但是,英語(yǔ)單詞有詞性、時(shí)態(tài)、數(shù)量和派生等變化,無(wú)疑是增加了找出詞素的復(fù)雜性。要想找出詞素,通常需要對(duì)詞尾或詞頭進(jìn)行分析。詞法分析9.2.2句法分析是對(duì)句子或短語(yǔ)結(jié)構(gòu)進(jìn)行分析,其目的是確定構(gòu)成句子的詞、短語(yǔ)等之間的相互關(guān)系,以及它們?cè)诰渥又械淖饔玫?,并將這些關(guān)系以一種層次結(jié)構(gòu)表達(dá),最后對(duì)句法結(jié)構(gòu)進(jìn)行規(guī)范化。句法分析的最大單位是一個(gè)句子。文法是用于描述句子語(yǔ)法結(jié)構(gòu)的形式規(guī)則,任何一種語(yǔ)言都有它自己的文法。最常見(jiàn)的文法類型有4種,即無(wú)約束短語(yǔ)結(jié)構(gòu)文法(0型文法)、上下文有關(guān)文法(1型文法)、上下文無(wú)關(guān)文法(2型文法)和正則文法(3型文法)。句法分析9.2.3語(yǔ)義分析是通過(guò)找出詞義、結(jié)構(gòu)意義及不同詞結(jié)合的意義,確定語(yǔ)言所表達(dá)的真正含義或意思。常用的語(yǔ)義分析方法有語(yǔ)義文法和格文法。語(yǔ)義文法是將文法知識(shí)和語(yǔ)義知識(shí)組合起來(lái),并以統(tǒng)一方式定義的文法規(guī)則集。它可以排除無(wú)意義的句子,且能夠忽略對(duì)語(yǔ)義沒(méi)有影響的句法問(wèn)題,還具有較高的效率。格文法允許以動(dòng)詞為中心構(gòu)造分子結(jié)構(gòu),其目的是找出動(dòng)詞和名詞(與動(dòng)詞都處于結(jié)構(gòu)關(guān)系中)的語(yǔ)義關(guān)系。格文法是一種有效的語(yǔ)義分析方法,有助于刪除句法分析的歧義性,且易于使用。語(yǔ)義分析9.2.4

語(yǔ)用分析就是研究語(yǔ)言所在的外界環(huán)境對(duì)語(yǔ)言使用產(chǎn)生的影響。

例如,人在恐慌時(shí)的表達(dá)方式與平時(shí)生活中的表達(dá)方式具有很大的差異性,這是由環(huán)境變化引起的。語(yǔ)用分析是自然語(yǔ)言處理中更高層次的研究。語(yǔ)用分析9.2.5自然語(yǔ)言處理的基本流程03

雖然自然語(yǔ)言處理技術(shù)可應(yīng)用于多個(gè)不同的領(lǐng)域,但其基本流程大致相同,其中,基于語(yǔ)料庫(kù)的自然語(yǔ)言處理技術(shù)的基本流程可用圖表示。自然語(yǔ)言處理的基本流程語(yǔ)料是指語(yǔ)言材料,它是構(gòu)成語(yǔ)料庫(kù)的基本單元。通常,人們會(huì)簡(jiǎn)單地用文本表示語(yǔ)料,并把文本中的上下文關(guān)系作為現(xiàn)實(shí)世界中語(yǔ)言的上下文關(guān)系的替代品。通常將一個(gè)文本集合稱為語(yǔ)料庫(kù),將多個(gè)這樣的文本集合稱為語(yǔ)料庫(kù)集合。語(yǔ)料的獲取途徑有兩種,即整理語(yǔ)料和抓取語(yǔ)料。整理語(yǔ)料是指在已有語(yǔ)料的基礎(chǔ)上,對(duì)很多業(yè)務(wù)部門(mén)、公司等單位積累的大量紙質(zhì)或者電子文本資料稍加整合,并把紙質(zhì)的文本全部電子化就可以作為語(yǔ)料庫(kù)。抓取語(yǔ)料是指在沒(méi)有語(yǔ)料的情況下,可通過(guò)網(wǎng)絡(luò)下載國(guó)內(nèi)外公開(kāi)的語(yǔ)料庫(kù)或利用爬蟲(chóng)技術(shù)抓取網(wǎng)絡(luò)的公開(kāi)數(shù)據(jù)構(gòu)建語(yǔ)料庫(kù)。獲取語(yǔ)料9.3.1語(yǔ)料預(yù)處理是自然語(yǔ)言處理流程中的關(guān)鍵步驟,語(yǔ)料預(yù)處理的好壞直接影響到自然語(yǔ)言處理技術(shù)的性能。

語(yǔ)料預(yù)處理的基本過(guò)程可用圖描述。語(yǔ)料預(yù)處理9.3.2語(yǔ)料預(yù)處理的基本過(guò)程1.?dāng)?shù)據(jù)清洗數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并保證數(shù)據(jù)一致性。在這里,數(shù)據(jù)清洗主要是在語(yǔ)料中找到感興趣的內(nèi)容,將不感興趣和視為噪音的內(nèi)容清洗刪除。例如,對(duì)原始文本提取標(biāo)題、摘要、正文等信息,而對(duì)爬取的網(wǎng)頁(yè)內(nèi)容,去除廣告、標(biāo)簽、HTML、JS等代碼和注釋等。常用的數(shù)據(jù)清洗方法有人工去重、標(biāo)記、降噪和對(duì)齊等,規(guī)則提取內(nèi)容、正則表達(dá)式匹配、根據(jù)詞性和命名實(shí)體提取等,編寫(xiě)腳本或代碼批處理等。2.分詞分詞是指將短文本和長(zhǎng)文本處理為最小單位粒度(詞或詞語(yǔ))的過(guò)程。常見(jiàn)的分詞方法有基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于規(guī)則的分詞方法等。

其中,每種方法下面對(duì)應(yīng)許多具體的算法。添磚加瓦

當(dāng)前,中文分詞算法的主要難點(diǎn)有歧義識(shí)別和新詞識(shí)別。

例如,“羽毛球拍賣完了”可以切分為“羽毛—球拍—賣—完—了”,也可切分成“羽毛球—拍賣—完—了”,如果不依賴上下文其他的句子,很難知道該如何理解該句子。3.詞性標(biāo)注詞性標(biāo)注就是給每個(gè)詞或者詞語(yǔ)打詞類標(biāo)簽,如形容詞、動(dòng)詞、名詞等。它有助于讓文本在后面的處理中融入更多有用的語(yǔ)言信息。詞性標(biāo)注是一個(gè)經(jīng)典的序列標(biāo)注問(wèn)題,不過(guò)對(duì)于某些基于自然語(yǔ)言處理的問(wèn)題,詞性標(biāo)注不是必需的。例如,常見(jiàn)的文本分類問(wèn)題不需要關(guān)心詞性問(wèn)題。但是,類似情感分析、知識(shí)推理等問(wèn)題,詞性標(biāo)注卻是必不可少的。常見(jiàn)的詞性標(biāo)注方法有基于最大熵的詞性標(biāo)注、基于統(tǒng)計(jì)最大概率輸出的詞性標(biāo)注和基于HMM(隱馬爾可夫模型)的詞性標(biāo)注等。4.去停用詞停用詞一般指對(duì)文本特征沒(méi)有任何貢獻(xiàn)的字或詞,如標(biāo)點(diǎn)符號(hào)、語(yǔ)氣、人稱等。但是,在實(shí)際的操作中要根據(jù)具體的場(chǎng)景決定將哪些停用詞去掉。例如,在情感分析中,由于語(yǔ)氣詞、感嘆號(hào)等對(duì)表示語(yǔ)氣程度、感情色彩有一定的貢獻(xiàn)和意義,故應(yīng)該保留它們。

語(yǔ)料預(yù)處理結(jié)束后,首先要考慮的問(wèn)題是如何將分詞之后的字和詞語(yǔ)表示成可供計(jì)算機(jī)計(jì)算的類型。因此,須將字和詞語(yǔ)的字符串形式轉(zhuǎn)化成向量形式。常用的表示模型有詞袋模型和詞向量。詞袋模型(bagofwords,BOW)不考慮詞語(yǔ)在句子中的原本順序,直接將每一個(gè)詞語(yǔ)或符號(hào)統(tǒng)一放置在一個(gè)集合(如list)中,然后按照計(jì)數(shù)的方式對(duì)詞語(yǔ)或符號(hào)出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。詞向量是將字和詞語(yǔ)轉(zhuǎn)換成矩陣向量的計(jì)算模型。目前,常用的詞表示方法有One-Hot、Word2Vec、Doc2Vec、WordRank和FastText等。特征工程9.3.3

在實(shí)際問(wèn)題中,為了構(gòu)造好的特征向量,要選擇合適的、表達(dá)能力強(qiáng)的特征。特征選擇是一個(gè)很有挑戰(zhàn)的過(guò)程,更多地依賴于經(jīng)驗(yàn)和專業(yè)知識(shí)。目前,有很多現(xiàn)成的算法可以進(jìn)行特征選擇,如DF、MI、IG、CHI、WLLR、WFO等。特征選擇9.3.4提示

文本特征一般都是詞語(yǔ),還具有語(yǔ)義信息,使用特征選擇能夠找出一個(gè)特征子集,且仍然可以保留其語(yǔ)義信息;但通過(guò)特征提取找到的特征子空間,將會(huì)丟失部分語(yǔ)義信息。

因此,在自然語(yǔ)言處理中常使用特征選擇方法構(gòu)造特征向量。

特征向量已選好,接下來(lái)對(duì)模型進(jìn)行訓(xùn)練。針對(duì)不同的應(yīng)用需求,要使用不同的模型。

傳統(tǒng)的機(jī)器學(xué)習(xí)模型有KNN、SVM、K-means和決策樹(shù)等;深度學(xué)習(xí)模型有CNN、RNN、TextCNN和LSTM等。模型訓(xùn)練9.3.5

模型訓(xùn)練好之后,需要對(duì)模型進(jìn)行評(píng)估,目的是使模型對(duì)語(yǔ)料具有較好的泛化能力。

常用的評(píng)價(jià)指標(biāo)有錯(cuò)誤率、準(zhǔn)確率、精確度、召回率、F1衡量、ROC曲線和AUC曲線等。模型評(píng)估9.3.6模型評(píng)估合格之后,模型上線,進(jìn)入應(yīng)用階段。目前主流的應(yīng)用方式有提供服務(wù)的方式和將模型持久化的方式。提供服務(wù)的方式是在線下訓(xùn)練模型,然后將模型做線上部署,發(fā)布成接口服務(wù),供業(yè)務(wù)系統(tǒng)使用。將模型持久化的方式是在線訓(xùn)練模型,訓(xùn)練完成之后把模型pickle持久化,在線服務(wù)接口模板通過(guò)讀取pickle實(shí)現(xiàn)改變接口服務(wù)。模型上線應(yīng)用9.3.7模型重構(gòu)在自然語(yǔ)言處理中并不是必需的,而是當(dāng)模型應(yīng)用到其他領(lǐng)域效果不好時(shí)或需要增加其他業(yè)務(wù)需求時(shí),才需要對(duì)模型的整體進(jìn)行重構(gòu)。根據(jù)業(yè)務(wù)的不同側(cè)重點(diǎn)對(duì)自然語(yǔ)言處理流程中的每一步進(jìn)行調(diào)整,并重新訓(xùn)練模型上線。模型重構(gòu)9.3.8案例分析:情感分析04在信息時(shí)代,人們接觸和獲取的信息遠(yuǎn)遠(yuǎn)超過(guò)了他們自己的需要,且他們不完全具備處理大量信息的能力,這導(dǎo)致信息過(guò)載的現(xiàn)象出現(xiàn)。因此,計(jì)算機(jī)自動(dòng)歸納文檔和自主理解信息含義的能力就顯得尤為重要。情感分析作為自然語(yǔ)言處理中常見(jiàn)的應(yīng)用,可以從大量的文檔數(shù)據(jù)中獲取、識(shí)別并歸納有用的信息,而且它還可以理解這些信息中更深層次的含義。由此可見(jiàn),通過(guò)對(duì)用戶評(píng)價(jià)的情感分析,可以挖掘產(chǎn)品在各個(gè)維度的優(yōu)劣,從而有針對(duì)性地改進(jìn)產(chǎn)品。情感分析的實(shí)現(xiàn)方法有兩種,即基于情感詞典的方法和基于深度學(xué)習(xí)的方法。

基于情感詞典的方法是傳統(tǒng)的情感分析方法,其執(zhí)行過(guò)程可用左圖描述。首先,輸入文本(短語(yǔ)或句子等);然后,對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、分詞、詞性標(biāo)注和去停用詞等;接著,將獲得的分詞載入已經(jīng)構(gòu)建好的情感詞典中;最后,利用判斷規(guī)則確定文本分詞后的詞語(yǔ)屬于情感詞典中的哪一類,從而實(shí)現(xiàn)情感分類?;谇楦性~典的方法9.4.1基于情感詞典的情感分析1.情感詞典

情感詞典在整個(gè)情感分析中至關(guān)重要,其主要包含4種詞語(yǔ)表,即積極情感詞語(yǔ)表,消極情感詞語(yǔ)表、否定詞語(yǔ)表和程度副詞表,如圖所示。情感詞典2.情感詞典文本匹配算法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論