版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2021.5.252021.5.252021.5.252021.5.252021.5.25昇騰AI應(yīng)用
第五章基于MindSpore建模實(shí)踐
——BERT模型實(shí)現(xiàn)自動(dòng)問(wèn)答機(jī)器人
案例應(yīng)用場(chǎng)景
案例規(guī)劃部署
案例演示操作
案例相關(guān)知識(shí)案例應(yīng)用場(chǎng)景案例演示操作案例規(guī)劃部署案例相關(guān)知識(shí)
在NLP(自然語(yǔ)言處理)領(lǐng)域,與我們生活息息相關(guān)的就是問(wèn)答系統(tǒng)(QA),它是機(jī)器與人交互最常見(jiàn)的方式,探索問(wèn)答系統(tǒng)背后的技術(shù)。問(wèn)答系統(tǒng)是人與機(jī)器交互最常見(jiàn)的形式,隨著知識(shí)圖譜技術(shù)的不斷完善,基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)越來(lái)越多的開(kāi)始應(yīng)用在各種問(wèn)答場(chǎng)景中?;谥R(shí)庫(kù)的問(wèn)答(knowledgebasequestionanswering,KBQA)即給定自然語(yǔ)言問(wèn)題,通過(guò)對(duì)問(wèn)題進(jìn)行語(yǔ)義理解和解析,進(jìn)而利用知識(shí)庫(kù)進(jìn)行查詢(xún)、推理得出答案。具體的,從應(yīng)用領(lǐng)域的角度劃分,知識(shí)庫(kù)問(wèn)答可以分為:開(kāi)放域的知識(shí)問(wèn)答,如百科知識(shí)問(wèn)答;特定域的知識(shí)問(wèn)答,如金融領(lǐng)域,醫(yī)療領(lǐng)域,宗教領(lǐng)域等,以客服機(jī)器人,教育/考試機(jī)器人或搜索引擎等形式服務(wù)于我們的日常生活。問(wèn)答系統(tǒng)應(yīng)用場(chǎng)景案例應(yīng)用場(chǎng)景案例演示操作案例規(guī)劃部署
案例相關(guān)知識(shí)演示操作流程——下載數(shù)據(jù)數(shù)據(jù)準(zhǔn)備:演示操作流程——安裝依賴(lài)演示操作流程——實(shí)體識(shí)別加載數(shù)據(jù)演示操作流程——實(shí)體識(shí)別構(gòu)建處理器加載數(shù)據(jù)構(gòu)建預(yù)處理器演示操作流程——實(shí)體識(shí)別測(cè)試輸出測(cè)試輸出演示操作流程——實(shí)體識(shí)別模型構(gòu)建演示操作流程——實(shí)體識(shí)別模型訓(xùn)練演示操作流程——實(shí)體識(shí)別模型評(píng)估與模型保存演示操作流程——實(shí)體識(shí)別模型加載與預(yù)測(cè)演示操作流程——屬性映射加載數(shù)據(jù)演示操作流程——屬性映射測(cè)試輸出演示操作流程——屬性映射定義配置參數(shù)演示操作流程——屬性映射構(gòu)建預(yù)處理器演示操作流程——屬性映射模型構(gòu)建演示操作流程——屬性映射模型訓(xùn)練演示操作流程——屬性映射模型評(píng)估、保存與預(yù)測(cè)演示操作流程——問(wèn)答系統(tǒng)構(gòu)建整合以上兩個(gè)步驟,就可以完成一個(gè)簡(jiǎn)單的基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)。下面為具體說(shuō)明:1.命名實(shí)體識(shí)別:輸入問(wèn)題,使用BERT模型得到問(wèn)題中的實(shí)體,在知識(shí)庫(kù)中檢索出包含該實(shí)體的所有知識(shí)組合。2.屬性映射:在包含實(shí)體的知識(shí)組合中,進(jìn)行屬性映射尋找答案,又可分為非語(yǔ)義匹配和語(yǔ)義匹配。非語(yǔ)義匹配:如果一個(gè)知識(shí)三元組的關(guān)系屬性是輸入問(wèn)題的子集(相當(dāng)于字符串匹配),則該三元組對(duì)應(yīng)的答案匹配為正確答案。非語(yǔ)義匹配步驟可以大大加速匹配。<詳見(jiàn)技術(shù)文檔>案例應(yīng)用場(chǎng)景案例演示操作案例規(guī)劃部署
案例相關(guān)知識(shí)案例規(guī)劃部署案例應(yīng)用場(chǎng)景案例演示操作案例規(guī)劃部署
案例相關(guān)知識(shí)相關(guān)知識(shí)概述本節(jié)主要任務(wù):了解自然語(yǔ)言處理基本知識(shí)掌握循環(huán)神經(jīng)網(wǎng)絡(luò)算法掌握自然語(yǔ)言處理關(guān)鍵技術(shù)了解自然語(yǔ)言處理的應(yīng)用以及應(yīng)用系統(tǒng)第一節(jié):自然語(yǔ)言處理介紹第二節(jié):預(yù)備知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)第一節(jié):自然語(yǔ)言處理介紹第二節(jié):預(yù)備知識(shí)語(yǔ)言模型文本向量化常用算法第三節(jié):鍵技術(shù)分詞詞性標(biāo)注命名實(shí)體識(shí)別關(guān)鍵詞提取句法分析語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)什么是自然語(yǔ)言?什么是自然語(yǔ)言?以語(yǔ)音為物質(zhì)外殼,由詞匯和語(yǔ)法兩部分組成的符號(hào)系統(tǒng)。文字和聲音是語(yǔ)言的兩種屬性。語(yǔ)言是人類(lèi)交際的工具,是人類(lèi)思維的載體;人類(lèi)歷史上以語(yǔ)言文字形式記載和流傳的知識(shí)占人類(lèi)知識(shí)總量的80%以上。是約定俗成的,有別于人工語(yǔ)言,比如Java、C++等程序設(shè)計(jì)語(yǔ)言。什么是自然語(yǔ)言處理?什么是自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)?自然語(yǔ)言處理就是,利用計(jì)算機(jī)為工具對(duì)人類(lèi)特有的書(shū)面形式和口頭形式的自然語(yǔ)言的信息,進(jìn)行各種類(lèi)型處理和加工的技術(shù)。馮志偉自然語(yǔ)言處理可以定義為研究在人與人交際中以及在人與計(jì)算機(jī)交際中的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。自然語(yǔ)言處理要研制表示語(yǔ)言能力和語(yǔ)言應(yīng)用的模型,建立計(jì)算框架來(lái)實(shí)現(xiàn)這樣的語(yǔ)言模型,提出相應(yīng)的方法來(lái)不斷完善這樣的語(yǔ)言模型,根據(jù)這樣的語(yǔ)言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評(píng)測(cè)技術(shù)。BillManaris自然語(yǔ)言處理的基本方法(1)能力模型通常是基于語(yǔ)言學(xué)規(guī)則的模型,建立在人腦中先天存在語(yǔ)法通則這一假設(shè)的基礎(chǔ)上,認(rèn)為語(yǔ)言是人腦的語(yǔ)言能力推導(dǎo)出來(lái)的,建立語(yǔ)言模型就是通過(guò)建立人工編輯的語(yǔ)言規(guī)則集來(lái)模擬這種先天的語(yǔ)言能力。又稱(chēng)“理性主義的”語(yǔ)言模型,代表人物有Chomsky、Minsky。建模步驟:
語(yǔ)言學(xué)知識(shí)形式化形式化規(guī)則算法化算法實(shí)現(xiàn)自然語(yǔ)言處理的基本方法(2)應(yīng)用模型根據(jù)不同的語(yǔ)言處理應(yīng)用而建立的特定語(yǔ)言模型,通常是通過(guò)建立特定的數(shù)學(xué)模型來(lái)學(xué)習(xí)復(fù)雜的、廣泛的語(yǔ)言結(jié)構(gòu),然后利用統(tǒng)計(jì)學(xué)、模式識(shí)別和機(jī)器學(xué)習(xí)等方法來(lái)訓(xùn)練模型的參數(shù),以擴(kuò)大語(yǔ)言使用的規(guī)模。又稱(chēng)“經(jīng)驗(yàn)主義的”語(yǔ)言模型,代表人物有Shannon、Skinner。建模步驟大規(guī)模真實(shí)語(yǔ)料庫(kù)中獲得不同層級(jí)語(yǔ)言單位上的統(tǒng)計(jì)信息。依據(jù)較低級(jí)語(yǔ)言單位上的統(tǒng)計(jì)信息運(yùn)用相關(guān)的統(tǒng)計(jì)推理技術(shù),來(lái)計(jì)算較高級(jí)語(yǔ)言單位上的統(tǒng)計(jì)信息。自然語(yǔ)言處理的基本方法(3)在NLP的發(fā)展過(guò)程中,其方法大致分為以下幾類(lèi):基于規(guī)則的方法基于統(tǒng)計(jì)的方法自然語(yǔ)言處理研究方向自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域的一個(gè)重要的研究方向,是一門(mén)交叉性學(xué)科,包括了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、信息論、聲學(xué)……NLP自然語(yǔ)言理解音位學(xué)形態(tài)學(xué)詞匯學(xué)句法學(xué)語(yǔ)義學(xué)語(yǔ)用學(xué)自然語(yǔ)言生成自然語(yǔ)言文本自然語(yǔ)言處理研究方向自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域以及人工智能領(lǐng)域的一個(gè)重要的研究方向,是一門(mén)交叉性學(xué)科,包括了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、信息論、聲學(xué)……NLP自然語(yǔ)言理解音位學(xué)形態(tài)學(xué)詞匯學(xué)句法學(xué)語(yǔ)義學(xué)語(yǔ)用學(xué)自然語(yǔ)言生成自然語(yǔ)言文本自然語(yǔ)言處理的三個(gè)層面詞法分析:包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等。句法分析:包括句法結(jié)構(gòu)分析和依存關(guān)系分析等。語(yǔ)義分析:最終目的是理解句子表達(dá)的真實(shí)語(yǔ)義。源語(yǔ)言句子目標(biāo)語(yǔ)言句子第1步分析源語(yǔ)言句子的含義第2步生成目標(biāo)語(yǔ)言語(yǔ)義分析(SemanticAnalysis)句法分析(SyntaxAnalysis)詞法分析(LexicalAnalysis)[Intheroom],hebrokeawindow<withahammer>.介詞冠詞名詞代詞動(dòng)詞冠詞名詞介詞冠詞名詞狀語(yǔ)主語(yǔ)謂語(yǔ)賓語(yǔ)補(bǔ)語(yǔ)自然語(yǔ)言處理的難點(diǎn)(1)詞法歧義:分詞:詞語(yǔ)的切分邊界比較難確定。嚴(yán)守一/把/手機(jī)/關(guān)/了嚴(yán)守/一把手/機(jī)關(guān)/了詞性標(biāo)注:同一個(gè)詞語(yǔ)在不同的上下文中詞性不同。我/計(jì)劃/v考/研/我/完成/了/計(jì)劃/n命名實(shí)體識(shí)別:人名、專(zhuān)有名稱(chēng)、縮略詞等未登錄詞的識(shí)別困難。高超/nr/a華明/nr/nt移動(dòng)/nt/v自然語(yǔ)言處理的難點(diǎn)(2)句法歧義:句法層面上的依存關(guān)系受上下文的影響。咬死了獵人的狗那只狼咬死了獵人的狗咬死了獵人的狗失蹤了那
只狼咬死了獵人的狗rq
nvvununRootHEDVOBATTATTSBVCMPRADRADATT咬死了獵人的狗失蹤了vv
ununvuRootHEDCMPRADRADATTSBVRADCOO自然語(yǔ)言處理的難點(diǎn)(3)語(yǔ)義歧義Atlast,acomputerunderstandsyoulikeyourmother.含義1:計(jì)算機(jī)會(huì)像你的母親那樣很好的理解你。含義2:計(jì)算機(jī)理解你喜歡你的母親。含義3:計(jì)算機(jī)會(huì)像理解你母親那樣去理解你。自然語(yǔ)言處理的難點(diǎn)(4)語(yǔ)用歧義“你真壞”當(dāng)對(duì)干了壞事的成年人說(shuō)時(shí),是一種嚴(yán)厲的苛責(zé)。當(dāng)媽媽對(duì)淘氣的兒子說(shuō)時(shí),實(shí)際表達(dá)的是對(duì)兒子的一種疼愛(ài)。當(dāng)戀愛(ài)中的女孩對(duì)男友說(shuō)時(shí),則是女孩在男友面前撒嬌的一種表現(xiàn)。自然語(yǔ)言處理的發(fā)展現(xiàn)狀已開(kāi)發(fā)完成一批頗具影響的語(yǔ)言資料庫(kù),部分技術(shù)已達(dá)到或基本達(dá)到實(shí)用化程度,并在實(shí)際應(yīng)用中發(fā)揮巨大作用。北大語(yǔ)料庫(kù)、HowNet。許多新研究方向不斷出現(xiàn)閱讀理解、圖像(視頻)理解、語(yǔ)音同聲傳譯。許多理論問(wèn)題尚未得到根本性的解決未登錄詞的識(shí)別、歧義消解的問(wèn)題、語(yǔ)義理解的難題。缺失一套完整、系統(tǒng)的理論框架體系。知識(shí)小考1.什么是自然語(yǔ)言處理?2.自然語(yǔ)言處理的基本方法有哪些?
本節(jié)介紹了自然語(yǔ)言處理的概念,自然語(yǔ)言處理的方法,自然語(yǔ)言處理的難點(diǎn)以及自然語(yǔ)言處理的發(fā)展現(xiàn)狀。第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)什么是語(yǔ)言模型神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(1)
…………softmaxMostcomputationheretanh
…
…
……
Tablelook-upinC
MatrixC神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(2)Softmax層RNN層Embedding層大海藍(lán)色顏色的是的:0.3是:0.2…深度:0.3顏色:0.15溫度:0.05…是:0.4很:0.2…的:0.5…藍(lán)色:0.7綠色:0.15透明:0.1…N-gram語(yǔ)言模型
<s>IamLily</s><s>LilyIam</s><s>Idonotlikegreeneggsandham</s>p(I|<s>)=2/3=0.667p(am|I)=2/3=0.667p(</s>|Lily)=1/2=0.5NN語(yǔ)言模型與統(tǒng)計(jì)語(yǔ)言模型的關(guān)系
第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)文本向量化(1)文本向量化:將文本表示成一系列能夠表達(dá)文本語(yǔ)義的向量。常用的向量化算法有:one-hotTF-IDFword2vecCBOW模型Skip-gram模型doc2vec/str2vecDM(DistributedMemory)DBOW(DistributedBagofWords)文本向量化(2)manwomankingqueenthreefouronetwodogcatfishapplegrapeorangeword2vec-CBOW模型
InputlayerHiddenlayerOutputlayer
word2vec-Skip-gram模型
InputlayerHiddenlayerOutputlayer
doc2vec-DM模型onDWWWParagraphidthecatsatClassifierAverage/ConcatenateParagraphMatrixdoc2vec-DBOW模型thecatsatonDParagraphidClassifierParagraphMatrix第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)HMM模型(1)HMM模型(2)D61D86D83D65D42D87D63D65D42D84
隱馬爾可夫模型示意圖圖例說(shuō)明:D61一個(gè)隱含狀態(tài)一個(gè)可見(jiàn)狀態(tài)從一個(gè)隱含狀態(tài)到下一個(gè)隱含狀態(tài)的轉(zhuǎn)換從一個(gè)隱含狀態(tài)到下一個(gè)可見(jiàn)狀態(tài)的輸出HMM模型(3)
HMM模型(4)
貝葉斯公式
觀測(cè)獨(dú)立性假設(shè),鏈?zhǔn)椒▌t齊次馬爾科夫假設(shè)
條件隨機(jī)場(chǎng)
線性鏈條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)(2)
RNN不同于傳統(tǒng)的機(jī)器翻譯模型僅僅考慮有限的前綴詞匯信息作為語(yǔ)義模型的條件項(xiàng),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)有能力將語(yǔ)料集中的全部前序詞匯納入模型的考慮范圍。Colah,2015,UnderstandingLSTMsNetworksosVUWxWWUV
WUV
WUV
LSTM長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM):一種特殊的RNN類(lèi)型,可以學(xué)習(xí)長(zhǎng)期依賴(lài)信息。Colah,2015,UnderstandingLSTMsNetworks
A
AGRUColah,2015,UnderstandingLSTMsNetworks
l-+雙向RNN在經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)中,狀態(tài)的傳輸是從前往后單向的。然而,在有些問(wèn)題中,當(dāng)前時(shí)刻的輸出不僅和之前的狀態(tài)有關(guān)系,也和之后的狀態(tài)相關(guān)。這時(shí)就需要雙向RNN(BiRNN)來(lái)解決這類(lèi)問(wèn)題。例如預(yù)測(cè)一個(gè)語(yǔ)句中缺失的單詞不僅需要根據(jù)前文來(lái)判斷,也需要根據(jù)后面的內(nèi)容,這時(shí)雙向RNN就可以發(fā)揮它的作用。雙向RNN是由兩個(gè)RNN上下疊加在一起組成的。輸出由這兩個(gè)RNN的狀態(tài)共同決定。hanbingtao,2017,卷積神經(jīng)網(wǎng)絡(luò)osx知識(shí)小考1.詞袋模型的缺點(diǎn)有哪些?2.常見(jiàn)的網(wǎng)絡(luò)模型有哪些?
本節(jié)介紹了自然語(yǔ)言處理的語(yǔ)言模型,文本向量化以及常用算法。第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)中文分詞的定義中文分詞(ChineseWordSegmentation):指的是將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。例如:一九九八年/中國(guó)/實(shí)現(xiàn)/進(jìn)出口/總值/達(dá)/一千零九十八點(diǎn)二億/美元規(guī)則分詞(1)規(guī)則分詞:是一種機(jī)械分詞方法,主要是通過(guò)維護(hù)詞典,在切分語(yǔ)句時(shí),將語(yǔ)句中的每個(gè)字符串與詞表中的詞進(jìn)行逐一匹配,找到則切分,否則不予切分。按照匹配切分的方式,主要有:正向最大匹配法(MaximumMatchMethod,MM法)逆向最大匹配法(ReverseMaximumMatchMethod,RMM法)雙向最大匹配法(Bi-directctionMatchMethod,MM法)特點(diǎn):簡(jiǎn)單高效,詞典維護(hù)困難。網(wǎng)絡(luò)新詞層出不窮,詞典很難覆蓋到所有詞。規(guī)則分詞(2)正向最大匹配法:待切分字串S1;輸出詞串S2=“最大詞長(zhǎng)MaxLen初始化S1是否為空輸出結(jié)果S2從S1左邊開(kāi)始,取出候選字串W,W的長(zhǎng)度不大于ManLen將W最右邊一個(gè)字去掉W是否為單字查詞典,看W是否在詞典中S2=S2+W+”/”S1=S1-W規(guī)則分詞(2)正向最大匹配法:待切分字串S1;輸出詞串S2=“最大詞長(zhǎng)MaxLen初始化S1是否為空輸出結(jié)果S2從S1左邊開(kāi)始,取出候選字串W,W的長(zhǎng)度不大于ManLen將W最右邊一個(gè)字去掉W是否為單字查詞典,看W是否在詞典中S2=S2+W+”/”S1=S1-W統(tǒng)計(jì)分詞主要思想:將分詞作為字在字串中的序列標(biāo)注任務(wù)來(lái)實(shí)現(xiàn)的。每個(gè)字在構(gòu)造一個(gè)特定的詞語(yǔ)時(shí)都占據(jù)著一個(gè)確定的構(gòu)詞位置,如果相連的字在不同的文本中出現(xiàn)的次數(shù)越多,就證明這相連的字很可能就是一個(gè)詞。步驟:建立統(tǒng)計(jì)語(yǔ)言模型。對(duì)句子進(jìn)行單詞劃分,然后對(duì)結(jié)果進(jìn)行概率計(jì)算,獲得概率最大的分詞方式。如隱馬爾科夫(HMM)、條件隨機(jī)場(chǎng)(CRF)等。四個(gè)標(biāo)記:B=詞首M=詞中E=詞尾S=單獨(dú)成詞兩個(gè)標(biāo)記:B=詞首I=非詞首輸入:中華民族是不可戰(zhàn)勝的中華民族是不可戰(zhàn)勝的標(biāo)記:BMMESBEBESBIIIBBIBIB輸出:中華民族/是/不可/戰(zhàn)勝/的
深度學(xué)習(xí)分詞使用word2vec對(duì)語(yǔ)料的詞進(jìn)行嵌入,得到詞嵌入后,用詞嵌入特征輸入給雙向LSTM,對(duì)輸出的隱層加一個(gè)線性層,然后加一個(gè)CRF得到最終實(shí)現(xiàn)的模型。B-PER
E-PER
o
S-LOC
Wordembeddings混合分詞在實(shí)際工程應(yīng)用中,多是基于一種分詞算法,然后用其他分詞算法加以輔助。最常用的是先基于詞典的方式分詞,然后再用統(tǒng)計(jì)分詞方式進(jìn)行輔助。第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)詞性標(biāo)注的定義詞性標(biāo)注:是指為句子是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序,也即確定每個(gè)詞是名詞、動(dòng)詞、形容詞或者其他詞性的過(guò)程。例如:邁向/v充滿(mǎn)/v希望/n的/uj新/a世紀(jì)/n。詞性:是詞匯基本的語(yǔ)法屬性。目的:是很多NLP任務(wù)的預(yù)處理步驟,如句法分析、信息抽取,經(jīng)過(guò)詞性標(biāo)注后的文本會(huì)帶來(lái)很大的便利性,但也不是不可或缺的步驟。方法:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于深度學(xué)習(xí)的方法。第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)命名實(shí)體識(shí)別(1)命名實(shí)體識(shí)別(NamedEntitiesRecognition,NER):又稱(chēng)作“專(zhuān)名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等。例如:冶金/n工業(yè)部/n洛陽(yáng)/ns耐火材料/l研究院/n。分類(lèi):NER研究的命名實(shí)體一般分為3大類(lèi)(實(shí)體類(lèi)、時(shí)間類(lèi)和數(shù)字類(lèi))和7小類(lèi)(人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比)。作用:與自動(dòng)分詞、詞性標(biāo)注一樣,命名實(shí)體識(shí)別也是自然語(yǔ)言中的一個(gè)基礎(chǔ)任務(wù),是信息抽取、信息檢索、機(jī)器翻譯、問(wèn)答系統(tǒng)等技術(shù)必不可少的組成部分。步驟:實(shí)體邊界識(shí)別確定實(shí)體類(lèi)別(人名、地名、機(jī)構(gòu)名等)命名實(shí)體識(shí)別(2)難點(diǎn):各類(lèi)命名實(shí)體的數(shù)量眾多。命名實(shí)體的構(gòu)成規(guī)律復(fù)雜。嵌套情況復(fù)雜。長(zhǎng)度不確定。深度學(xué)習(xí)NER字/詞向量Bi-LSTMCRF小強(qiáng)去培訓(xùn)中心學(xué)習(xí)WordembeddingsLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMB-PERE-PEROB-ORGI-ORGI-ORGE-ORGOO第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)關(guān)鍵詞提取關(guān)鍵詞是代表文章重要內(nèi)容的一組詞,現(xiàn)實(shí)中大量文本不包含關(guān)鍵詞,因此自動(dòng)提取關(guān)鍵詞技術(shù)能使人們便捷地瀏覽和獲取信息,對(duì)文本聚類(lèi)、分類(lèi)、自動(dòng)摘要等起重要的作用。關(guān)鍵詞提取算法一般也可以分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi)。有監(jiān)督:主要是通過(guò)分類(lèi)的方式進(jìn)行,通過(guò)構(gòu)建一個(gè)較為豐富和完善的詞表,然后通過(guò)判斷每個(gè)文檔與詞表中每個(gè)詞的匹配程度,以類(lèi)似打標(biāo)簽的方式,達(dá)到提取關(guān)鍵詞的效果。無(wú)監(jiān)督:不需要人工生成、維護(hù)的詞表,也不需要人工標(biāo)準(zhǔn)語(yǔ)料輔助進(jìn)行訓(xùn)練。例如,TF-IDF算法、TextRank算法、主題模型算法(LSA、LSI、LDA)。TF-IDF算法(1)詞頻-逆文檔頻率算法(TermFrequency-InverseDocumentFrequency,TF-IDF):是一種基于統(tǒng)計(jì)的計(jì)算方法,常用于評(píng)估在一個(gè)文檔集中一個(gè)詞對(duì)某份文檔的重要程度。例如:
世界獻(xiàn)血日,學(xué)校團(tuán)體、獻(xiàn)血服務(wù)志愿者等可到血液中心參觀檢驗(yàn)加工過(guò)程,我們會(huì)對(duì)檢驗(yàn)結(jié)果進(jìn)行公示,同時(shí)血液的價(jià)格也將進(jìn)行公示。其中,“獻(xiàn)血”、“血液”、“進(jìn)行”、“公示”等詞出現(xiàn)的頻次均為2,如果從TF算法的角度,他們對(duì)于這篇文檔的重要性是一樣的。但是實(shí)際上明顯“血液”、“獻(xiàn)血”對(duì)這篇文檔來(lái)說(shuō)更關(guān)鍵。TF-IDF算法(2)TextRank算法(1)TextRank算法的基本思想來(lái)源于Google的PageRank算法。PageRank算法是Google創(chuàng)始人拉里.佩奇和謝爾蓋.布林于1997年構(gòu)建早期的的搜索系統(tǒng)原型時(shí)提出的鏈接分析算法,該算法是用來(lái)評(píng)價(jià)搜索系統(tǒng)覆蓋網(wǎng)頁(yè)重要性的一種方法。其基本思想有兩條:鏈接數(shù)量。一個(gè)網(wǎng)頁(yè)被越多的其他網(wǎng)頁(yè)鏈接,說(shuō)明這個(gè)網(wǎng)頁(yè)越重要。鏈接質(zhì)量。一個(gè)網(wǎng)頁(yè)被一個(gè)越高權(quán)值的網(wǎng)頁(yè)鏈接,也能表明這個(gè)網(wǎng)頁(yè)越重要。TextRank算法(2)TextRank算法(3)當(dāng)TextRank算法應(yīng)用到關(guān)鍵詞抽取任務(wù)時(shí),與在自動(dòng)摘要任務(wù)中應(yīng)用相比,主要有兩點(diǎn)不同:詞與詞之間的關(guān)聯(lián)沒(méi)有權(quán)重。每個(gè)詞不是與文檔中所有詞都有鏈接。由于第一點(diǎn)不同,此時(shí)TextRank中的分?jǐn)?shù)就退化為與PageRank一致;對(duì)于第二點(diǎn)不同,鏈接關(guān)系可以通過(guò)窗口來(lái)界定。LSA/LSI/LDA算法主題模型認(rèn)為在詞與文檔之間沒(méi)有直接的聯(lián)系,它們應(yīng)當(dāng)還有一個(gè)維度將它們串聯(lián)起來(lái),這個(gè)維度稱(chēng)為主題。每個(gè)文檔都應(yīng)該對(duì)應(yīng)著一個(gè)或者多個(gè)主題,而每個(gè)主題都會(huì)有對(duì)應(yīng)的詞分布,通過(guò)主題就可以得到每個(gè)文檔的詞分布。LSA\LSI算法
LDA算法(1)LDA算法假設(shè)文檔中主題的先驗(yàn)分布和主題中詞的先驗(yàn)分布都服從狄利克雷分布。然后通過(guò)對(duì)已有數(shù)據(jù)集的統(tǒng)計(jì),就可以得到每篇文檔中主題的多項(xiàng)式分布和每個(gè)主題對(duì)應(yīng)詞的多項(xiàng)式分布。訓(xùn)練過(guò)程一般如下:隨機(jī)初始化,對(duì)語(yǔ)料中每篇文檔中的每個(gè)詞w,隨機(jī)地賦予一個(gè)topic編號(hào)z。重新掃描語(yǔ)料庫(kù),對(duì)每個(gè)詞w按照吉布斯采樣公式重新采樣它的topic,在語(yǔ)料中進(jìn)行更新。重復(fù)以上語(yǔ)料庫(kù)的重新采樣過(guò)程直到吉布斯采樣收斂。統(tǒng)計(jì)語(yǔ)料庫(kù)topic-word共現(xiàn)頻率矩陣,該矩陣就是LDA的模型。LDA算法(2)經(jīng)過(guò)以上的步驟,就得到一個(gè)訓(xùn)練好的LDA模型,接下來(lái)就可以按照一定的方式針對(duì)新文檔的topic進(jìn)行預(yù)估,具體步驟如下:隨機(jī)初始化,對(duì)當(dāng)前文檔中的每個(gè)詞w,隨機(jī)地賦予一個(gè)topic編號(hào)z。重新掃描當(dāng)前文檔,按照吉布斯采樣公式,重新采樣它的topic。重復(fù)以上過(guò)程直到吉布斯采樣收斂。統(tǒng)計(jì)文檔中的topic分布即為預(yù)估結(jié)果。TopicdistributionofwordsTopicprobabilityTopicassignmentToken
第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)句法分析句法分析的主要任務(wù)是識(shí)別出句子所包含的句法成分以及這些成分之間的依存關(guān)系,分為句法結(jié)構(gòu)分析和依存關(guān)系分析。一般以句法樹(shù)來(lái)表示句法分析的結(jié)果。你有個(gè)優(yōu)惠券快要過(guò)期了rvqndvuRootHEDSBVCOOVOBATTADVRADROOTIPNPVPNPNPNPNPNPNPNPNPNPNP你有個(gè)優(yōu)惠券快要過(guò)期了句法分析的重要性機(jī)器翻譯是NLP的一個(gè)主要領(lǐng)域,而句法分析是機(jī)器翻譯的核心數(shù)據(jù)結(jié)構(gòu),是對(duì)語(yǔ)言進(jìn)行深層次理解的基石。對(duì)于復(fù)雜語(yǔ)句,標(biāo)注樣本較少的情況下,僅僅通過(guò)詞性分析,不能得到正確的語(yǔ)句成分關(guān)系。第一節(jié):自然語(yǔ)言處理介紹第二節(jié):基礎(chǔ)知識(shí)2.1語(yǔ)言模型2.2文本向量化2.3常用算法第三節(jié):關(guān)鍵技術(shù)3.1分詞3.2詞性標(biāo)注3.3命名實(shí)體識(shí)別3.4關(guān)鍵詞提取3.5句法分析3.6語(yǔ)義分析第四節(jié):應(yīng)用系統(tǒng)語(yǔ)義分析語(yǔ)義分析是編譯過(guò)程的一個(gè)邏輯階段。語(yǔ)義計(jì)算的任務(wù):解釋自然語(yǔ)言句子或篇章各部分(詞、詞組、句子、段落、篇章)的意義。語(yǔ)法處理句子主干提取修飾詞語(yǔ)義提取部分語(yǔ)法過(guò)濾句型識(shí)別生成語(yǔ)義信息自然語(yǔ)句語(yǔ)義信息語(yǔ)義分析過(guò)程語(yǔ)義分析的重要性?xún)H僅知道句子的結(jié)構(gòu),是否就可以了?
例如:三段論:所有人都得死,蘇格拉底是人,所以蘇格拉底也要死。推論:不可能一天讀完魯迅的作品,《藥》是魯迅的作品,所以一天不能讀完《藥》。通過(guò)上述案例可知,結(jié)構(gòu)上是合乎語(yǔ)法的,但語(yǔ)義上不合實(shí)際。因此,僅僅分析出句子的結(jié)構(gòu),并不能妥善的解決機(jī)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆湖南省汨羅市第二中學(xué)物理高二上期末達(dá)標(biāo)檢測(cè)模擬試題含解析
- 2025屆廣東省信宜市高一物理第一學(xué)期期中統(tǒng)考試題含解析
- 山東省陽(yáng)谷縣第二中學(xué)2025屆高二物理第一學(xué)期期中檢測(cè)試題含解析
- 2025屆吉林省公主嶺市范家屯鎮(zhèn)一中高一物理第一學(xué)期期末檢測(cè)模擬試題含解析
- 2025屆遼寧省鳳城市通遠(yuǎn)堡高級(jí)中學(xué)物理高二上期中綜合測(cè)試試題含解析
- 2025屆寧夏回族自治區(qū)銀川市興慶區(qū)一中高一物理第一學(xué)期期末統(tǒng)考試題含解析
- 上海市浦東新區(qū)南匯中學(xué)2025屆高二物理第一學(xué)期期末學(xué)業(yè)水平測(cè)試模擬試題含解析
- 2025屆上海市南模中學(xué)高三物理第一學(xué)期期末調(diào)研模擬試題含解析
- 2025屆河南省九師聯(lián)盟商開(kāi)大聯(lián)考物理高一第一學(xué)期期中調(diào)研試題含解析
- 安徽省合肥市第三十五中學(xué)2025屆物理高二第一學(xué)期期中質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 2024年甘肅省職業(yè)院校技能大賽物聯(lián)網(wǎng)應(yīng)用開(kāi)發(fā)賽項(xiàng)樣題2
- 《精益生產(chǎn)之ECRS分析法》課件
- 2024年甘肅高考地理試卷(真題+答案)
- 智能纜繩健康監(jiān)測(cè)系統(tǒng)
- 軟件供應(yīng)鏈安全管理
- CJT278-2008 建筑排水用聚丙烯(PP)管材和管件
- 老年個(gè)人健康狀況分析報(bào)告模板5-12-16
- 2024注冊(cè)安全工程師《安全生產(chǎn)法律法規(guī)》考點(diǎn)總結(jié)
- 新《事業(yè)單位財(cái)務(wù)規(guī)則》培訓(xùn)講義0
- 期末復(fù)習(xí)《艾青詩(shī)選》 統(tǒng)編版語(yǔ)文九年級(jí)上冊(cè)
- 第3章(1)工程電磁兼容(第二版)(路宏敏)
評(píng)論
0/150
提交評(píng)論