智能問答系統(tǒng)調(diào)研_第1頁
智能問答系統(tǒng)調(diào)研_第2頁
智能問答系統(tǒng)調(diào)研_第3頁
智能問答系統(tǒng)調(diào)研_第4頁
智能問答系統(tǒng)調(diào)研_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

智能問答系統(tǒng)調(diào)研智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第1頁。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第1頁。中文問答系統(tǒng)調(diào)研報(bào)告目錄問答系統(tǒng)調(diào)研報(bào)告 11問答系統(tǒng)的價(jià)值體現(xiàn) 31.1 市場應(yīng)用價(jià)值 31.2彌補(bǔ)了搜索引擎的不足 31.3總結(jié) 32問答系統(tǒng)的市場應(yīng)用情況 43問答系統(tǒng)整體框架 53.1問答實(shí)現(xiàn)流程 53.2 問句分析模塊 63.2.1中文分詞 63.2.2關(guān)鍵詞提取 93.2.3關(guān)鍵詞擴(kuò)展 113.2.4實(shí)體識別 113.2.5問句分類 133.3信息檢索模塊 143.3.1模式匹配 143.3.2答案檢索 143.3.3知識圖譜 173.4答案抽取模塊 22智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第2頁。3.4.1基于規(guī)則的方法 22智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第2頁。3.4.2基于統(tǒng)計(jì)的方法 234問答系統(tǒng)的應(yīng)用場景 254.1任務(wù)型 254.2問答型 254.3語聊型 265調(diào)研總結(jié) 27

智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第3頁。1問答系統(tǒng)的價(jià)值體現(xiàn)智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第3頁。市場應(yīng)用價(jià)值問答系統(tǒng)是智能人機(jī)交互的技術(shù)基礎(chǔ),智能人機(jī)交互通過擬人化的交互體驗(yàn)逐步在智能客服、任務(wù)助理、智能家居、智能硬件、互動(dòng)聊天等領(lǐng)域發(fā)揮巨大的作用和價(jià)值。因此,各大公司都將智能聊天機(jī)器人作為未來的入口級別的應(yīng)用在對待。包括Google、Facebook、Microsoft、Amazon、Apple等互聯(lián)公司相繼推出了自己的智能私人助理和機(jī)器人平臺(tái)。1.2產(chǎn)品技術(shù)價(jià)值搜索引擎的缺陷:一方面,用戶所輸入的搜索關(guān)鍵詞或關(guān)鍵句,無法真實(shí)反映用戶需求;另一方面,檢索系統(tǒng)僅僅通過幾個(gè)關(guān)鍵詞的簡單邏輯組合來返回答案。兩方面的誤差造成檢索結(jié)果很差。檢索結(jié)果不夠簡潔。冗余信息使用戶難以快速準(zhǔn)確定位所需信息,造成時(shí)間和精力的浪費(fèi)。缺乏對用戶問句的語義理解。只靠關(guān)鍵詞的索引或簡單的匹配算法,并不能真正觸及到問題的真實(shí)意思,使檢索結(jié)果一般。問答系統(tǒng)能針對搜索引擎缺陷的改進(jìn)問答系統(tǒng)允許用戶以自然語言的形式詢問或者輸入。問答系統(tǒng)能直接返回答案,提供給用戶簡潔、有效的答案。問答系統(tǒng)能分析用戶意圖,提供給用戶真正有用、準(zhǔn)確的信息。1.3總結(jié)無論是在日常生活中查閱資料,還是在科學(xué)研究、商業(yè)金融等領(lǐng)域的應(yīng)用,都有智能問答的參與,所以智能問答的發(fā)展與管理將是人們不可忽視的研究方向。2問答系統(tǒng)的市場應(yīng)用情況按照市場應(yīng)用情況可分為五類:在線客服,娛樂機(jī)器人,教育聊天機(jī)器人,個(gè)人助理和智能問答.(1)在線客服智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第4頁。在線客服聊天機(jī)器人系統(tǒng)的主要功能是和用戶進(jìn)行基本溝通并自動(dòng)回復(fù)用戶有關(guān)產(chǎn)品或服務(wù)的問題,降低企業(yè)客服運(yùn)營成本,提升用戶體驗(yàn).應(yīng)用場景通常為網(wǎng)站首頁和手機(jī)終端,代表有小愛機(jī)器人,JIMI(JD)客服機(jī)器人,JIMI具有一定的拒識能力,即能夠知道自己不能回答用戶的哪些問題以及何時(shí)應(yīng)轉(zhuǎn)向人工客服.智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第4頁。(2)娛樂娛樂機(jī)器人主要同用戶進(jìn)行開放主題的對話,從而實(shí)現(xiàn)對用戶的精神陪伴,情感慰藉和心理疏導(dǎo)等作用,主要針對社交媒體,兒童玩具,代表產(chǎn)品有微軟小冰和騰訊的小微,小微除了能夠與用戶進(jìn)行開放主題的聊天外,還能提供特定主題的服務(wù),如天氣預(yù)報(bào)和生活常識等.(3)教育教育聊天機(jī)器人根據(jù)教育內(nèi)容構(gòu)建交互的語言使用環(huán)境,幫助用戶學(xué)習(xí)某種語言,在學(xué)習(xí)某項(xiàng)專業(yè)課程時(shí),指導(dǎo)用戶逐步深入學(xué)習(xí)并掌握技能,用戶的特定年齡階段,幫助用戶進(jìn)行某種知識的輔助學(xué)習(xí)等.通常該類聊天機(jī)器人具備交互學(xué)習(xí)功能,培訓(xùn)軟件及智能玩具等,代表有科大訊飛開心熊寶系列玩具.(4)個(gè)人助理該類聊天機(jī)器人主要通過語音或文字與聊天機(jī)器人系統(tǒng)進(jìn)行交互,實(shí)現(xiàn)個(gè)人事務(wù)的查詢及代辦,如天氣查詢,空氣質(zhì)量查詢,定位,短信收發(fā),日程提醒和智能搜索等,從而更便捷輔助用戶的日常事務(wù)處理,代表有Apple的Siri,GoogleNow,Cortana.(5)智能問答智能應(yīng)答的聊天機(jī)器人主要功能包括以自然語言形式提出的事實(shí)型問題和需要計(jì)算和邏輯推理型的問題,已達(dá)到滿足用戶的信息需求及輔助用戶進(jìn)行決策的目的.代表有IBMwatson.智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第5頁。3問答系統(tǒng)整體框架智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第5頁。3.1問答實(shí)現(xiàn)流程圖1問答系統(tǒng)框架圖問句分析模塊對問句做自然語言處理操作,分析意圖并確定問句答案類型。對用戶的提問進(jìn)行處理:1)生成查詢關(guān)鍵詞(提取關(guān)鍵詞、擴(kuò)展關(guān)鍵詞,……);2)解析問句的實(shí)體或關(guān)系;3)確定答案類型。(二)信息檢索模塊1、模式匹配對于某些提問類型(某人的出生日期、原名、別稱等),問句和包含答案的句子之間存在一定的答案模式,或者從已有問答對庫中進(jìn)行匹配得出候選答案。2、信息檢索利用問題處理模塊抽取的查詢關(guān)鍵詞,用信息檢索方式,檢索出和提問相關(guān)的信息(段落、也可以是句群或者句子),作為候選答案。3、KBQA對問句進(jìn)行語義理解和解析,利用知識庫進(jìn)行查詢、推理得出答案,把查詢到的實(shí)體作為候選答案或直接作為答案。(三)答案抽取模塊:從檢索模塊檢索出的相關(guān)段落、或句群、或句子中抽取出和提問答案類型一致的實(shí)體,智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第6頁。根據(jù)某種原則(再做探究)對候選答案進(jìn)行打分,把概率最大的候選答案返回給用戶?;蛘撸褂糜?xùn)練好的統(tǒng)計(jì)學(xué)習(xí)模型,對候選答案進(jìn)行二分類,判別是否作為答案輸出。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第6頁。1基于傳統(tǒng)方法進(jìn)行答案提取關(guān)鍵詞匹配+相似度計(jì)算及排序2基于統(tǒng)計(jì)學(xué)習(xí)模型進(jìn)行答案提取提取特征+選取機(jī)器學(xué)習(xí)模型問句分析模塊3.2.1中文分詞基于規(guī)則的分詞方法主要是人工建立詞庫也叫做詞典,通過詞典匹配的方式對句子進(jìn)行劃分。其實(shí)現(xiàn)簡單高效,但是對未登陸詞很難進(jìn)行處理。主要有正向最大匹配法,逆向最大匹配法以及雙向最大匹配法。正向最大匹配法(FMM)(1)從左向右取待分漢語句的m個(gè)字作為匹配字段,m為詞典中最長詞的長度。(2)查找詞典進(jìn)行匹配。(3)若匹配成功,則將該字段作為一個(gè)詞切分出去。(4)若匹配不成功,則將該字段最后一個(gè)字去掉,剩下的字作為新匹配字段,進(jìn)行再次匹配。(5)重復(fù)上述過程,直到切分所有詞為止。逆向最大匹配法(RMM)RMM的基本原理與FMM基本相同,不同的是分詞的方向與FMM相反。RMM是從待分詞句子的末端開始,也就是從右向左開始匹配掃描,每次取末端m個(gè)字作為匹配字段,匹配失敗,則去掉匹配字段前面的一個(gè)字,繼續(xù)匹配。雙向最大匹配法(Bi-MM)Bi-MM是將正向最大匹配法得到的分詞結(jié)果和逆向最大匹配法得到的結(jié)果進(jìn)行比較,然后按照最大匹配原則,選取詞數(shù)切分最少的作為結(jié)果。據(jù)SunM.S.和BenjaminK.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正確,只有大概9.0%的句子兩種切分方法得到的結(jié)果不一樣,但其中必有一個(gè)是正確的(歧義檢測成功),只有不到1.0%的句子,使用正向最大匹配法和逆向最大匹配法的切分雖然重合但是錯(cuò)的,或者兩種方法切分不同但結(jié)果都不對(歧義檢測失敗)。雙向最大匹配的規(guī)則是:(1)如果正反向分詞結(jié)果詞數(shù)不同,則取分詞數(shù)量少的那個(gè)。(2)如果分詞結(jié)果詞數(shù)相同:1)分詞結(jié)果相同,沒有歧義,返回任意一個(gè)。2)分詞結(jié)果不同,返回其中單字?jǐn)?shù)量較少的那個(gè)。基于統(tǒng)計(jì)的分詞方法智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第7頁?;诮y(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞。詞是字的組合,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第7頁。1N元語法(N-gram)模型和隱馬爾可夫模型(HMM)在N元語法中,一個(gè)句子可以看成一個(gè)連續(xù)的字符串序列,它可以是單字序列,也可以是詞序列。一個(gè)句子W1W2Wk的出現(xiàn)概率用P(W)表示,則:式12互信息模型互信息用來表示兩個(gè)字之間結(jié)合的強(qiáng)度,其公式為:式2MI值越大,表示兩個(gè)字之間的結(jié)合越緊密(如“尷尬”、“匍匐”等詞)。反之,斷開的可能性越大。當(dāng)兩個(gè)詞x與y關(guān)系強(qiáng)時(shí),MI(x,y)>=0;x與y關(guān)系弱時(shí),MI(x,y)≈0;而當(dāng)MI(x,y)<0時(shí),x與y稱為“互補(bǔ)分布”。3最大熵模型“熵”是用來表示一個(gè)隨機(jī)事件的不確定性的量度,其公式為:式3最大熵模型的作用是在已知條件下選擇一個(gè)合適的分布來預(yù)測可能出現(xiàn)的事件,其主要思想是在只掌握關(guān)于未知分布的部分知識時(shí),應(yīng)選取符合這些知識但熵值最大的概率分布。式中,S在實(shí)驗(yàn)結(jié)束前是實(shí)驗(yàn)結(jié)果不確定性的度量,實(shí)驗(yàn)完成后是從實(shí)驗(yàn)中獲得的信息量。S越大表明不確定性越大,實(shí)驗(yàn)結(jié)束后從中得到的信息量也越大。分詞工具:(1)Jieba支持三種分詞模式:精確模式。試圖將句子最精確地切開,適合文本分析。全模式。將句子中所有的可能成詞的詞語都掃描出來,速度非常快,但是不能解決歧義。搜索引擎模式。在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適用于搜索引擎分詞。另外jieba支持繁體分詞,支持自定義詞典。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第8頁。其使用的算法是基于統(tǒng)計(jì)的分詞方法,主要有如下幾種:智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第8頁。i基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG)ii采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合iii對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法(2)THULACTHULAC(THULexicalAnalyzerforChinese)由清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包,GitHub鏈接:/thunlp/THULAC-Python,具有中文分詞和詞性標(biāo)注功能。THULAC具有如下幾個(gè)特點(diǎn):能力強(qiáng)。利用集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語料庫(約含5800萬字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集ChineseTreebank(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%,與該數(shù)據(jù)集上最好方法效果相當(dāng)。速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s,每秒可處理約15萬字。只進(jìn)行分詞速度可達(dá)到1.3MB/s。(3)NLPIRNLPIR分詞系統(tǒng),前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),GitHub鏈接:/NLPIR-team/NLPIR,是由北京理工大學(xué)張華平博士研發(fā)的中文分詞系統(tǒng),經(jīng)過十余年的不斷完善,擁有豐富的功能和強(qiáng)大的性能。NLPIR是一整套對原始文本集進(jìn)行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。主要功能包括:中文分詞,詞性標(biāo)注,命名實(shí)體識別,用戶詞典、新詞發(fā)現(xiàn)與關(guān)鍵詞提取等功能。(4)NLTKNLTK,NaturalLanguageToolkit,是一個(gè)自然語言處理的包工具,各種多種NLP處理相關(guān)功能,GitHub鏈接:/nltk/nltk。但是NLTK對于中文分詞是不支持的,如果要用中文分詞的話,可以使用FoolNLTK,它使用Bi-LSTM訓(xùn)練而成,包含分詞、詞性標(biāo)注、實(shí)體識別等功能,同時(shí)支持自定義詞典,可以訓(xùn)練自己的模型,可以進(jìn)行批量處理。(5)LTP語言技術(shù)平臺(tái)(LanguageTechnologyPlatform,LTP)是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年開發(fā)的一整套中文語言處理系統(tǒng)。LTP制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第9頁。法、句法、語義等6項(xiàng)中文處理核心技術(shù)),以及基于動(dòng)態(tài)鏈接庫(DynamicLinkLibrary,DLL)的應(yīng)用程序接口、可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(WebService)的形式進(jìn)行使用。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第9頁。3.2.2關(guān)鍵詞提取關(guān)鍵詞提取算法一般分為有監(jiān)督和無監(jiān)督兩類有監(jiān)督的關(guān)鍵詞提取方法主要是通過分類的方式進(jìn)行,通過構(gòu)建一個(gè)較為豐富和完善的詞表,然后判斷每個(gè)文檔與詞表中每個(gè)詞的匹配程度,以類似打標(biāo)簽的方式,達(dá)到關(guān)鍵詞提取的效果。優(yōu)點(diǎn)是精度較高,缺點(diǎn)是需要大批量的標(biāo)注數(shù)據(jù),人工成本過高,并且詞表需要及時(shí)維護(hù)。無監(jiān)督的方法不需要人工標(biāo)注的語料,利用某些方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞提取。該方法是先抽取出候選詞,然后對各個(gè)候選詞進(jìn)行打分,然后輸出topK個(gè)分值最高的候選詞作為關(guān)鍵詞。根據(jù)打分的策略不同,有不同的算法,例如TF-IDF,TextRank,LDA等算法。無監(jiān)督關(guān)鍵詞提取方法主要有三類:基于統(tǒng)計(jì)特征的關(guān)鍵詞提?。═F,TF-IDF);基于詞圖模型的關(guān)鍵詞提取(PageRank,TextRank);基于主題模型的關(guān)鍵詞提取(LDA)基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法的思想是利用文檔中詞語的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞;基于詞圖模型的關(guān)鍵詞提取首先要構(gòu)建文檔的語言網(wǎng)絡(luò)圖,然后對語言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語,這些短語就是文檔的關(guān)鍵詞;基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題分布的性質(zhì)進(jìn)行關(guān)鍵詞提取;1.TF-IDF算法TF-IDF是一種數(shù)值統(tǒng)計(jì)方法,用于反映一個(gè)詞對于預(yù)料中某篇文檔的重要性,它的主要思想為:如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率高,即TF高;并且在其他文檔中很少出現(xiàn),即IDF高,則認(rèn)為這個(gè)詞具有很好的類別區(qū)分能力。TF為詞頻,表示詞t在文檔d中出現(xiàn)的頻率:tf(word)=(word在文檔中出現(xiàn)的次數(shù))/(文檔總詞數(shù))IDF常用的計(jì)算公式如下:|D|為文檔集中的總文檔數(shù),為文檔中出現(xiàn)詞i的文檔數(shù)量。分母加1是采用了拉普拉斯平滑,避免有部分新的詞沒有在語料庫中出現(xiàn)過從而導(dǎo)致分母為零的情況。2.TextRank算法此種算法的一個(gè)重要特點(diǎn)是可以脫離語料庫的背景,僅對單篇文檔進(jìn)行分析就可以提取智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第10頁。該文檔的關(guān)鍵詞。基本思想來源于Google的PageRank算法。這種算法是1997年,Google創(chuàng)始人拉里.佩奇和謝爾蓋.布林在構(gòu)建早期的搜索系統(tǒng)原型時(shí)提出的一種鏈接分析算法,基本思想有兩條:智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第10頁。1)鏈接數(shù)量。一個(gè)網(wǎng)頁被越多的其他網(wǎng)頁鏈接,說明這個(gè)網(wǎng)頁越重要2)鏈接質(zhì)量。一個(gè)網(wǎng)頁被一個(gè)越高權(quán)值的網(wǎng)頁鏈接,也能表明這個(gè)網(wǎng)頁越重要TextRank用于關(guān)鍵詞提取的算法如下:(1)把給定的文本T按照完整句子進(jìn)行分割,即:(2)對于每個(gè)句子,進(jìn)行分詞和詞性標(biāo)注處理,并過濾掉停用詞,只保留指定詞性的單詞,如名詞、動(dòng)詞、形容詞。(3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中V為節(jié)點(diǎn)集,由(2)生成的候選關(guān)鍵詞組成,然后采用共現(xiàn)關(guān)系(Co-Occurrence)構(gòu)造任兩點(diǎn)之間的邊,兩個(gè)節(jié)點(diǎn)之間存在邊僅當(dāng)它們對應(yīng)的詞匯在長度為K的窗口中共現(xiàn),K表示窗口大小,即最多共現(xiàn)K個(gè)單詞。(4)根據(jù)TextRank的公式,迭代傳播各節(jié)點(diǎn)的權(quán)重,直至收斂。(5)對節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序,從而得到最重要的T個(gè)單詞,作為候選關(guān)鍵詞。(6)由(5)得到最重要的T個(gè)單詞,在原始文本中進(jìn)行標(biāo)記,若形成相鄰詞組,則組合成多詞關(guān)鍵詞。 除此之外,還有一些關(guān)鍵詞提取方法:Word2Vec詞聚類的關(guān)鍵詞提取算法及實(shí)現(xiàn);信息增益關(guān)鍵詞提取;互信息關(guān)鍵詞提取;卡方檢驗(yàn)關(guān)鍵詞提?。换跇淠P偷年P(guān)鍵詞提取算法及實(shí)現(xiàn)。關(guān)鍵詞提取常用工具包:Jieba;Textrank4zh(TextRank算法工具);SnowNLP(中文分析)簡體中文文本處理無監(jiān)督方法和有監(jiān)督方法優(yōu)的缺點(diǎn)無監(jiān)督方法不需要人工標(biāo)注訓(xùn)練集合的過程,因此更加快捷,但由于無法有效綜合利用多種信息對候選關(guān)鍵詞排序,所以效果無法與有監(jiān)督方法媲美;而有監(jiān)督方法可以通過訓(xùn)練學(xué)習(xí)調(diào)節(jié)多種信息對于判斷關(guān)鍵詞的影響程度,因此效果更優(yōu),有監(jiān)督的文本關(guān)鍵詞提取算法需要高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取主要采用適用性較強(qiáng)的無監(jiān)督關(guān)鍵詞提取。3.2.3關(guān)鍵詞擴(kuò)展目前有兩種主流的方式,一是通過搜索引擎等外部文本擴(kuò)展,或者借助知識庫如WordNet或Wikipedia等,挖掘詞之間的內(nèi)在聯(lián)系。1、同義詞擴(kuò)展。引入哈工大《同義詞詞林詞典》2、使用外部的關(guān)鍵詞擴(kuò)展工具。(百度關(guān)鍵詞規(guī)劃師工具

、詞庫網(wǎng)、金花站長工具、智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第11頁。愛站站長工具包、熊貓關(guān)鍵字?jǐn)U展工具

等。)智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第11頁。3、統(tǒng)計(jì)學(xué)習(xí)方法。使用自編碼模型AutoEncode進(jìn)行擴(kuò)展。3.2.4實(shí)體識別命名實(shí)體識別,簡稱NER,是指識別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等,以及時(shí)間、數(shù)量、貨幣、比例數(shù)值等文字。目前在NER上表現(xiàn)較好的模型都是基于深度學(xué)習(xí)或者是統(tǒng)計(jì)學(xué)習(xí)的方法的,這些方法共同的特點(diǎn)都是需要大量的數(shù)據(jù)來進(jìn)行學(xué)習(xí)。目前常用的模型:隱馬爾科夫模型(HMM);條件隨機(jī)場(CRF);雙向長短時(shí)網(wǎng)絡(luò)(Bi-LSTM);Bi-LSTM+CRF;BERT+LSTM+CRF。隱馬爾科夫模型(HMM)NER本質(zhì)上可以看成是一種序列標(biāo)注問題,在使用HMM解決NER這種序列標(biāo)注問題的時(shí)候,我們所能觀測到的是字組成的序列(觀測序列),觀測不到的是每個(gè)字對應(yīng)的標(biāo)注(狀態(tài)序列)。條件隨機(jī)場(CRF)上面講的HMM模型中存在兩個(gè)假設(shè),一是輸出觀察值之間嚴(yán)格獨(dú)立,二是狀態(tài)轉(zhuǎn)移過程中當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān)。也就是說,在命名實(shí)體識別的場景下,HMM認(rèn)為觀測到的句子中的每個(gè)字都是相互獨(dú)立的,而且當(dāng)前時(shí)刻的標(biāo)注只與前一時(shí)刻的標(biāo)注相關(guān)。但實(shí)際上,命名實(shí)體識別往往需要更多的特征,比如詞性,詞的上下文等等,同時(shí)當(dāng)前時(shí)刻的標(biāo)注應(yīng)該與前一時(shí)刻以及后一時(shí)刻的標(biāo)注都相關(guān)聯(lián)。由于這兩個(gè)假設(shè)的存在,顯然HMM模型在解決命名實(shí)體識別的問題上是存在缺陷的。而條件隨機(jī)場就沒有這種問題,它通過引入自定義的特征函數(shù),不僅可以表達(dá)觀測之間的依賴,還可表示當(dāng)前觀測與前后多個(gè)狀態(tài)之間的復(fù)雜依賴,可以有效克服HMM模型面臨的問題。Bi-LSTMLSTM也常常被用來解決序列標(biāo)注問題。和HMM、CRF不同的是,LSTM是依靠神經(jīng)網(wǎng)絡(luò)超強(qiáng)的非線性擬合能力,在訓(xùn)練時(shí)將樣本通過高維空間中的復(fù)雜非線性變換,學(xué)習(xí)到從樣本到標(biāo)注的函數(shù),之后使用這個(gè)函數(shù)為指定的樣本預(yù)測每個(gè)token的標(biāo)注。Bi-LSTM+CRF簡單的LSTM的優(yōu)點(diǎn)是能夠通過雙向的設(shè)置學(xué)習(xí)到觀測序列(輸入的字)之間的依賴,在訓(xùn)練過程中,LSTM能夠根據(jù)目標(biāo)(比如識別實(shí)體)自動(dòng)提取觀測序列的特征,但是缺點(diǎn)是無法學(xué)習(xí)到狀態(tài)序列(輸出的標(biāo)注)之間的關(guān)系,要知道,在命名實(shí)體識別任務(wù)中,標(biāo)注之間是有一定的關(guān)系的,比如B類標(biāo)注(表示某實(shí)體的開頭)后面不會(huì)再接一個(gè)B類標(biāo)注,所以LSTM在解決NER這類序列標(biāo)注任務(wù)時(shí),雖然可以省去很繁雜的特征工程,但是也存智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第12頁。在無法學(xué)習(xí)到標(biāo)注上下文的缺點(diǎn)。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第12頁。相反,CRF的優(yōu)點(diǎn)就是能對隱含狀態(tài)建模,學(xué)習(xí)狀態(tài)序列的特點(diǎn),但它的缺點(diǎn)是需要手動(dòng)提取序列特征。所以一般的做法是,在LSTM后面再加一層CRF,以獲得兩者的優(yōu)點(diǎn)。BERT+LSTM+CRF在基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別方法中,字的向量化表示是重要一步,傳統(tǒng)的詞向量表示將字映射為單一向量,這種方法無法表征字的多義性。針對這個(gè)問題,提出了基于BERT嵌入的中文命名實(shí)體識別方法。該方法通過BERT(BidirectionalEncoderRepresentationsfromTransformers)預(yù)訓(xùn)練語言模型增強(qiáng)字的語義表示,根據(jù)字的上下文動(dòng)態(tài)生成語義向量,然后再將字向量序列輸入BiGRU-CRF中進(jìn)行訓(xùn)練,訓(xùn)練時(shí)可以訓(xùn)練整個(gè)BERT-BiGRU-CRF模型,也可以固定BERT,只訓(xùn)練BiGRU-CRF部分。3.2.5問句分類目前存在的問題分類方法主要有兩種:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法(或者說基于機(jī)器學(xué)習(xí)的方法)?;谝?guī)則的問句分類方法,主要是用人工分析句法結(jié)構(gòu)或語義特征來編寫分類規(guī)則。通過提取各種類型問句中的疑問詞和關(guān)鍵詞的特征規(guī)則,根據(jù)這兩方面的對應(yīng)關(guān)系最終達(dá)到問題準(zhǔn)確分類?;诮y(tǒng)計(jì)的問句分類方法,其中分為傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。(1)傳統(tǒng)的機(jī)器學(xué)習(xí)問句分類方法主要對三個(gè)方面進(jìn)行研究:特征工程、特征選擇和選用不同的機(jī)器學(xué)習(xí)模型進(jìn)行分類。在特征工程上,詞袋特征、詞性、名詞短語和樹核函數(shù)等。在特征選擇上,最廣泛使用的選擇方法是詞頻計(jì)算,此外,還有一些高效的特征選擇方法,如:信息熵、互信息等。在機(jī)器學(xué)習(xí)模型上,常使用的有貝葉斯模型、最大熵模型、支持向量機(jī)模型等。(2)基于深度學(xué)習(xí)的問句分類方法,使用預(yù)訓(xùn)練的詞向量和深度神經(jīng)網(wǎng)絡(luò)模型完成自動(dòng)分類。它能夠通過大量訓(xùn)練語料自動(dòng)獲取問句基本特征,然后將這些基本特征組合成復(fù)雜的特征,最后訓(xùn)練模型來捕獲提取的問句特征和問句類別之間的語義關(guān)系。經(jīng)常使用的深度學(xué)習(xí)模型有:卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型、長短期記憶網(wǎng)絡(luò)(LSTM)模型、雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)模型以及各種神經(jīng)網(wǎng)絡(luò)的組合模型?;谝?guī)則的問句分類方法,不需要大量的訓(xùn)練數(shù)據(jù),并且實(shí)現(xiàn)起來相對容易。但有如下缺點(diǎn):1)費(fèi)時(shí)費(fèi)力。需要大量語言學(xué)知識背景的人去手工編寫規(guī)則。2)主觀性強(qiáng)。既是人工制定的規(guī)則,不免會(huì)產(chǎn)生主觀隨意性,造成分類的不確定性。3)可移植性差。制定好的規(guī)則就會(huì)受分類體系的制約,分類體系發(fā)生改變,這些規(guī)則就會(huì)受到很大程度的影響?;诮y(tǒng)計(jì)的學(xué)習(xí)方法,其中基于傳統(tǒng)的機(jī)器學(xué)習(xí)問句分類方法存在如下缺點(diǎn):1)問句分類一般需要先對問句完成詞性標(biāo)注、句法分析、語義分析等自然語言處理任務(wù),這些任務(wù)的準(zhǔn)確率將對問句分類準(zhǔn)確率產(chǎn)生很大程度的影響,2)另外此方法都存在數(shù)據(jù)稀疏性的問智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第13頁。題?;谏疃葘W(xué)習(xí)的問句分類方法使用分布式表示的詞向量可以大大降低數(shù)據(jù)稀疏性。該方法能夠較好的提取問句的語義特征,對問句分類的效果相對較好。但仍然存在較普遍的缺點(diǎn):1)該深度學(xué)習(xí)模型需要大量的訓(xùn)練語料,仍需要人工標(biāo)注部分語料以便提升分類準(zhǔn)確率。2)由于問句本身較難分析,已標(biāo)注的語料并不能覆蓋所有的問句類型。3)問句文本較短,能夠提取的有用的特征非常有限,增加了問題分類的難度。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第13頁。3.3信息檢索模塊依據(jù)不同的數(shù)據(jù)類型,進(jìn)行不同方式的信息檢索:3.3.1模式匹配對于某些提問類型(某人的出生日期、原名、別稱等),問句和包含答案的句子之間存在一定的答案模式,或者從已有問答對庫中進(jìn)行匹配得出候選答案。3.3.2答案檢索檢索常用的模型有布爾模型、向量空間模型以及概率模型。1.布爾模型是一種簡單檢索模型,基于集合論和布爾代數(shù)。其查詢由聯(lián)接符AND、OR和NOT構(gòu)成,通過對每個(gè)關(guān)鍵詞對應(yīng)的倒排索引取交集、并集或補(bǔ)集,返回若干相關(guān)文檔給用戶。舉例:下面有2個(gè)文檔:文檔1:abcfgh;文檔2:afbxyz;用戶想找出出現(xiàn)a或者b但一定要出現(xiàn)z的文檔(三元組)。當(dāng)然我們仔細(xì)一看,結(jié)果顯而易見是文檔2符合用戶的需求。但是對于計(jì)算機(jī)布爾排序模型它是怎么實(shí)現(xiàn)的呢?將查詢表示為布爾表達(dá)式Q=(a∨b)∧z,并轉(zhuǎn)換成析取范式qDNF=(1,0,1)∨(0,1,1)∨(1,1,1)(三元組);文檔1和文檔2的三元組對應(yīng)值分別為(1,1,0)和(1,1,1);經(jīng)過匹配,將文檔2返回;布爾模型的優(yōu)點(diǎn):通過使用復(fù)雜的布爾表達(dá)式,可以很方便地控制查詢結(jié)果;布爾模型問題:1.不支持部分匹配,而完全匹配會(huì)導(dǎo)致太多或者太少的,非常剛性:“與”意味著全部;“或”意味著任何一個(gè);2.很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回;3.很難對輸出進(jìn)行排序;向量空間模型(VectorSpaceModel)I.文檔表示向量空間模型把每個(gè)文檔表示成一個(gè)t維的向量,這t維特征可以是單詞、詞組、智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第14頁。N-gram片段等,最常用的是單詞。每個(gè)特征會(huì)計(jì)算相應(yīng)的權(quán)重,這t維帶有權(quán)重的特征共同構(gòu)成了一個(gè)文檔,用于表示文檔的主題內(nèi)容。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第14頁。實(shí)際系統(tǒng)中的維度非常高,成千上萬。II.特征權(quán)重計(jì)算文檔和查詢轉(zhuǎn)換為特征向量時(shí),每個(gè)特征(即單詞)會(huì)賦予權(quán)值,一般采用TF-IDF框架計(jì)算權(quán)值。III.相似性計(jì)算向量空間模型以查詢和文檔之間的內(nèi)容相關(guān)性來作為相關(guān)性的替代,按照文檔和查詢的相似性得分從高到低排序作為搜索結(jié)果,但是兩者實(shí)際并不等同。概率檢索模型(probabilitymodel)概率檢索模型基于概率排序原理,是目前效果最好的模型之一,okapiBM25這一經(jīng)典概率模型計(jì)算公式已經(jīng)在商業(yè)搜索引擎的網(wǎng)頁排序中廣泛應(yīng)用。I.概率排序原理基本思想:給定一個(gè)用戶查詢,若搜索系統(tǒng)能在搜索結(jié)果排序時(shí)按照文檔和用戶查詢的相關(guān)性由高到低排序,那么這個(gè)搜索系統(tǒng)的準(zhǔn)確性是最優(yōu)的。II.實(shí)際實(shí)現(xiàn)根據(jù)用戶的查詢將文檔集合劃分為兩個(gè)集合:相關(guān)文檔子集和不相關(guān)文檔子集。將相關(guān)性衡量轉(zhuǎn)換為分類問題,對某個(gè)文檔D來說,若其屬于相關(guān)文檔子集的概率大于屬于不相關(guān)文檔的概率,就認(rèn)為它與查詢相關(guān)。III.估值公式基于二元獨(dú)立模型(BIM)的二元假設(shè)和詞匯獨(dú)立性假設(shè),得到最終的相關(guān)性估算公式式4其中pi代表第i個(gè)單詞在相關(guān)文檔集合中出現(xiàn)的概率,si代表第i個(gè)單詞在不相關(guān)文檔集合中出現(xiàn)的概率。取log便于計(jì)算:式5IV.BM25模型BIM模型只考慮了單詞是否在文檔中出現(xiàn)過,而未考慮單詞的權(quán)值。BM25模型在其基礎(chǔ)上考慮了單詞在查詢中的權(quán)值及單詞在文檔中的權(quán)值,擬合出綜合公式,并通過實(shí)驗(yàn)引入了一些經(jīng)驗(yàn)參數(shù)。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第15頁。語言模型(LanguageModel)智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第15頁。基于統(tǒng)計(jì)語言模型的檢索模型于1998年首次提出,借鑒了語音識別領(lǐng)域采用的語言模型技術(shù)。一類最簡單的語言模型與一個(gè)概率有窮自動(dòng)機(jī)等價(jià)。在一元語言模型中,詞出現(xiàn)的先后次序無關(guān)緊要,因此,這類模型也往往稱為詞袋模型I.基本思想?yún)^(qū)別于其他大多數(shù)檢索模型從查詢到文檔(即給定用戶查詢,如何找出相關(guān)的文檔),語言模型由文檔到查詢,即為每個(gè)文檔建立不同的語言模型,判斷由文檔生成用戶查詢的可能性有多大,然后按照這種生成概率由高到低排序,作為搜索結(jié)果。II.生成查詢概率為每個(gè)文檔建立一個(gè)語言模型,語言模型代表了單詞(或單詞序列)在文檔中的分布情況。針對查詢中的單詞,每個(gè)單詞都有一個(gè)抽取概率,將這些單詞的抽取概率相乘就是文檔生成查詢的概率。III.存在問題由于一個(gè)文檔文字內(nèi)容有限,所以很多查詢詞都未在文中出現(xiàn)過,生成概率為0,會(huì)導(dǎo)致查詢整體的生成概率為0,這被稱為語言模型的數(shù)據(jù)稀疏問題,是語言模型方法重點(diǎn)需要解決的問題。IV.解決方案一般采用數(shù)據(jù)平滑方式解決數(shù)據(jù)稀疏問題。語言模型檢索方法則是為所有單詞引入一個(gè)背景概率做數(shù)據(jù)平滑。V.查詢似然模型(querylikelihoodmodel)對文檔集中的每篇文檔d構(gòu)建其對應(yīng)的語言模型Md。目標(biāo)是將文檔按照其與查詢相關(guān)的似然P(d|q)排序。最普遍的計(jì)算P(d|q)的方法是使用多項(xiàng)式一元語言模型,該模型等價(jià)于多項(xiàng)式樸素貝葉斯模型,其中這里的文檔相當(dāng)于后者中的類別,每篇文檔在估計(jì)中都是一門獨(dú)立的“語言”。在基于語言模型(簡記為LM)的檢索中,可以將查詢的生成看成一個(gè)隨機(jī)過程。具體的方法是:(1)對每篇文檔推導(dǎo)出其LM;(2)估計(jì)查詢在每個(gè)文檔di的LM下的生成概率P(q|Md)(3)按照上述概率對文檔進(jìn)行排序。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第16頁。3.3.3知識圖譜智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第16頁。以知識圖譜構(gòu)建事實(shí)型的問答系統(tǒng),也稱之為知識庫問答(KnowledgeBaseQuestionAnswering,KBQA)知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是三元組(SPO:Subject,Predicate,Object分別表示主語、屬性、賓語)。三元組的基本形式主要包括:實(shí)體1-關(guān)系-實(shí)體2概念-屬性-屬性值實(shí)體是知識圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等;屬性主要指對象可能具有的屬性、特征、特性、特點(diǎn)以及參數(shù),例如國籍、生日等;屬性值主要指對象指定屬性的值,例如中國、1988-09-08等。每個(gè)實(shí)體用一個(gè)全局唯一確定的ID來標(biāo)識,每個(gè)屬性-屬性值對(attribute-valuepair,AVP)可用來刻畫實(shí)體的內(nèi)在特性,而關(guān)系可用來連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。基于知識圖譜的問答系統(tǒng),需要解決兩個(gè)核心問題:如何理解問題語義,并用計(jì)算機(jī)可以接受的形式進(jìn)行表示(問題的理解和表示);以及如何將該問題表示關(guān)聯(lián)到知識圖譜的結(jié)構(gòu)化查詢中(語義關(guān)聯(lián))。傳統(tǒng)的主流方法可以分為三類:1)語義解析(SemanticParsing):該方法是一種偏語言學(xué)的方法,主體思想是將自然語言轉(zhuǎn)化為一系列形式化的邏輯形式(logicform),通過對邏輯形式進(jìn)行自底向上的解析,得到一種可以表達(dá)整個(gè)問題語義的邏輯形式,通過相應(yīng)的查詢語句在知識庫中進(jìn)行查詢,從而得出答案。下圖紅色部分即邏輯形式,綠色部分wherewasObamaborn為自然語言問題,藍(lán)色部分為語義解析進(jìn)行的相關(guān)操作,而形成的語義解析樹的根節(jié)點(diǎn)則是最終的語義解析結(jié)果,可以通過查詢語句直接在知識庫中查詢最終答案。2)信息抽?。↖nformationExtraction):該類方法通過提取問題中的實(shí)體,通過在知識庫中查詢該實(shí)體可以得到以該實(shí)體節(jié)點(diǎn)為中心的知識庫子圖,子圖中的每一個(gè)節(jié)點(diǎn)或邊都可以作為候選答案,通過觀察問題依據(jù)某些規(guī)則或模板進(jìn)行信息抽取,得到問題特征向量,建立分類器通過輸入問題特征向量對候選答案進(jìn)行篩選,從而得出最終答案。3)向量建模(VectorModeling):該方法思想和信息抽取的思想比較接近,根據(jù)問題得出候選答案,把問題和候選答案都映射為分布式表達(dá)(DistributedEmbedding),通過訓(xùn)練數(shù)據(jù)對該分布式表達(dá)進(jìn)行訓(xùn)練,使得問題和正確答案的向量表達(dá)的得分(通常以點(diǎn)乘為形式)盡量高,如下圖所示。模型訓(xùn)練完成后則可根據(jù)候選答案的向量表達(dá)和問智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第17頁。題表達(dá)的得分進(jìn)行篩選,得出最終答案。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第17頁。知識圖譜架構(gòu):圖2知識圖譜架構(gòu)圖(一)數(shù)據(jù)獲?。―ataAcquisition)數(shù)據(jù)獲取是建立知識圖譜的第一步。目前,知識圖譜數(shù)據(jù)源按來源渠道的不同可分為兩種:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常包含在行業(yè)內(nèi)部數(shù)據(jù)庫表并以結(jié)構(gòu)化的方式存儲(chǔ),是一種非公開或半公開的數(shù)據(jù);另一種是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁的形式存在,是非結(jié)構(gòu)化的數(shù)據(jù)。按數(shù)據(jù)結(jié)構(gòu)的不同,可分為三種:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)不同的數(shù)據(jù)類型,我們采用不同的方法進(jìn)行處理。圖3數(shù)據(jù)獲取及處理方法圖(二)信息抽?。↖nformationExtraction)信息抽取的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選知識單元。如前文所說,知識獲取有兩種渠道,前者只需要簡單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語言處理等技術(shù)來提取出結(jié)構(gòu)化信息,這正是信息抽取的難點(diǎn)問題,涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第18頁。(1)實(shí)體抽?。‥ntityExtraction)/命名實(shí)體識別(NameEntityRecognition)智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第18頁。實(shí)體抽取又稱為命名實(shí)體識別(NER),是指從文本數(shù)據(jù)集中自動(dòng)識別出命名實(shí)體,其目的就是建立知識圖譜中的“節(jié)點(diǎn)”。實(shí)體抽取的質(zhì)量(準(zhǔn)確率和召回率)對后續(xù)的知識獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分。實(shí)體的類型主要包括三大類七小類:實(shí)體類(包括人名,地名,機(jī)構(gòu)名)、時(shí)間類(日期,時(shí)間)、數(shù)字類(貨幣、百分比)。最初,實(shí)體識別通常采用人工預(yù)定義實(shí)體分類體系的方式,但是隨著技術(shù)的日新月異,這種老舊的方式已經(jīng)很難適應(yīng)時(shí)代的需求,因此面向開放領(lǐng)域的實(shí)體識別和分類極具研究價(jià)值。在面向開放域的實(shí)體識別和分類研究中,不需要也不可能為每個(gè)領(lǐng)域或者每個(gè)實(shí)體類別建立單獨(dú)的語料庫作為訓(xùn)練集。因此,研究人員主要面臨的挑戰(zhàn)是如何從給定的少量實(shí)體實(shí)例中自動(dòng)發(fā)現(xiàn)具有區(qū)分力的模型。一種思路是根據(jù)已知的實(shí)體實(shí)例進(jìn)行特征建模,利用該模型處理海量數(shù)據(jù)集得到新的命名實(shí)體列表,然后針對新實(shí)體建模,迭代地生成實(shí)體標(biāo)注語料庫。另一種思路是利用搜索引擎的服務(wù)器日志,事先并不給出實(shí)體分類等信息,而是基于實(shí)體的語義特征從搜索日志中識別出命名實(shí)體,然后采用聚類算法對識別出的實(shí)體對象進(jìn)行聚類。(2)關(guān)系抽?。≧elationExtraction)文本語料經(jīng)過實(shí)體抽取之后得到的是一系列離散的命名實(shí)體(節(jié)點(diǎn)),為了得到語義信息,還需要從相關(guān)的語料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系(邊),才能將多個(gè)實(shí)體或概念聯(lián)系起來,形成網(wǎng)狀的知識結(jié)構(gòu)。研究關(guān)系抽取技術(shù),就是研究如何解決從文本語料中抽取實(shí)體間的關(guān)系。(3)屬性抽取(AttributeExtraction)屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,從而完成對實(shí)體屬性的完整勾畫,如針對某款手機(jī),可以從互聯(lián)網(wǎng)中獲取多源(異構(gòu))的數(shù)據(jù),從中得到其品牌、配置等信息。如果把實(shí)體的屬性值看作是一種特殊的實(shí)體,那么屬性抽取實(shí)際上也是一種關(guān)系抽取。百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是通用領(lǐng)域?qū)傩猿槿⊙芯康闹饕獢?shù)據(jù)來源,但具體到特定的應(yīng)用領(lǐng)域,涉及大量的非結(jié)構(gòu)化數(shù)據(jù),屬性抽取仍然是一個(gè)巨大的挑戰(zhàn)。(三)知識融合(KnowledgeFusion)經(jīng)由信息抽取之后的信息單元間的關(guān)系是扁平化的,缺乏層次性和邏輯性,同時(shí)存在大量冗余甚至錯(cuò)誤的信息碎片。知識融合,簡單理解,就是將多個(gè)知識庫中的知識進(jìn)行整合,形成一個(gè)知識庫的過程,在這個(gè)過程中,主要關(guān)鍵技術(shù)包含指代消解、實(shí)體消歧、實(shí)體鏈接。不同的知識庫,收集知識的側(cè)重點(diǎn)不同,對于同一個(gè)實(shí)體,有知識庫的可能側(cè)重于其本身某智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第19頁。個(gè)方面的描述,有的知識庫可能側(cè)重于描述實(shí)體與其它實(shí)體的關(guān)系,知識融合的目的就是將不同知識庫對實(shí)體的描述進(jìn)行整合,從而獲得實(shí)體的完整描述。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第19頁。知識融合旨在解決如何將關(guān)于同一個(gè)實(shí)體或概念的多源描述信息融合起來。(1)指代消解(CoreferenceResolution)CoreferenceResolution,字面上翻譯應(yīng)該是“共指消解”,但在大部分博客或者論壇中通常被稱呼為“指代消解”。一般情況下,指代分為三種(NLP領(lǐng)域一般只關(guān)注前兩種指代類型):一是回指(也稱指示性指代),對應(yīng)單詞為“anaphora”,指的是當(dāng)前的指代詞與上文出現(xiàn)的詞、短語或句子(句群)存在密切的語義關(guān)聯(lián)性,它指向另一個(gè)詞(稱為先行詞),該指代詞的解釋依賴于先行詞的解釋,具有非對稱性和非傳遞性;二是共指(也稱同指),對應(yīng)單詞為“coreference”,指的是兩個(gè)名詞(包括代名詞、名詞短語)指向真實(shí)世界中的同一參照體,這種指代脫離上下文仍然成立。共指消解技術(shù)主要用于解決多個(gè)指稱對應(yīng)同一實(shí)體對象的問題。三是“下指”,對應(yīng)單詞為“cataphora”,和回指剛好相反,指的是指代詞的解釋取決于指代詞之后的某些詞、短語或句子(句群)的解釋。如下圖中的he和his都指代后面的Lord:所以,根據(jù)上面描述,個(gè)人認(rèn)為將“CoreferenceResolution”翻譯為“指代消解”更為恰當(dāng)。(2)實(shí)體消歧(EntityDisambiguation)有些實(shí)體寫法不一樣,但指向同一個(gè)實(shí)體,比如“NewYork”表示紐約,而“NYC”同樣也可以表示紐約。這種情況下,實(shí)體消歧可以減少實(shí)體的種類,降低圖譜的稀疏性。實(shí)體消歧是專門用于解決同名實(shí)體產(chǎn)生歧義問題的技術(shù),通過實(shí)體消歧,就可以根據(jù)當(dāng)前的語境,準(zhǔn)確建立實(shí)體鏈接,實(shí)體消歧主要采用聚類法。其實(shí)也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。(3)實(shí)體鏈接(EntityLinking)實(shí)體鏈接(entitylinking)是指對于從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中抽取得到的實(shí)體對象,將其鏈接到知識庫中對應(yīng)的正確實(shí)體對象的操作。其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識庫中選出一組候選實(shí)體對象,然后通過相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對象。(4)知識合并實(shí)體鏈接鏈接的是從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)那里通過信息抽取提取出來的數(shù)據(jù)。那么除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)以外,還有個(gè)更方便的數(shù)據(jù)來源——結(jié)構(gòu)化數(shù)據(jù),如外部知識庫和關(guān)系數(shù)據(jù)庫。對于這部分結(jié)構(gòu)化數(shù)據(jù)的處理,就是知識合并的內(nèi)容啦。一般來說知識合并主要分為兩種:合并外部知識庫,主要處理數(shù)據(jù)層和模式層的沖突智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第20頁。合并關(guān)系數(shù)據(jù)庫,有RDB2RDF等方法智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第20頁。(四)知識加工(KnowledgeProcessing)海量數(shù)據(jù)在經(jīng)信息抽取、知識融合之后得到一系列基本的事實(shí)表達(dá),但這并不等同于知識,要想獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識體系,還需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分納入知識體系中以確保知識庫的質(zhì)量,這就是知識加工的過程。知識加工主要包括3方面內(nèi)容:本體構(gòu)建、知識推理和質(zhì)量評估。(1)本體(Ontology)本體的概念:本體定義了組成領(lǐng)域的詞匯表的基本術(shù)語及其關(guān)系,以及結(jié)合這些術(shù)語和關(guān)系來定義詞匯表外延的規(guī)則。領(lǐng)域。一個(gè)本體描述的是一個(gè)特定的領(lǐng)域。比如我們確定這次要描述的領(lǐng)域是「大學(xué)」。術(shù)語。指給定領(lǐng)域中的重要概念。例如,確定要描述大學(xué)了,對于一個(gè)大學(xué)來說什么概念是重要的呢?我們可以列舉出教職工、學(xué)生、課程等等概念。基本術(shù)語之間的關(guān)系。包括類的層次結(jié)構(gòu),包括并列關(guān)系、上下位關(guān)系等等。比如教職工是老師、行政人員、技術(shù)支持人員的父類;學(xué)生是本科生、研究生的父類;研究生是碩士、博士的父類等等。詞匯表外延的規(guī)則。包括屬性、值約束、不相交描述(如教職人員和學(xué)生不相交)、對象間邏輯關(guān)系的規(guī)定(如一個(gè)教研室至少有10名教職工)等等。(2)本體構(gòu)建(OntologyExtraction)本體構(gòu)建過程包含三個(gè)階段:實(shí)體并列關(guān)系相似度計(jì)算;實(shí)體上下位關(guān)系抽取;本體的生成。比如對下面這個(gè)例子,當(dāng)知識圖譜剛得到“阿里巴巴”、“騰訊”、“手機(jī)”這三個(gè)實(shí)體的時(shí)候,可能會(huì)認(rèn)為它們?nèi)齻€(gè)之間并沒有什么差別,但當(dāng)它去計(jì)算三個(gè)實(shí)體之間的相似度后,就會(huì)發(fā)現(xiàn),阿里巴巴和騰訊之間可能更相似,和手機(jī)差別更大一些。這就是第一步的作用,但這樣下來,知識圖譜實(shí)際上還是沒有一個(gè)上下層的概念,它還是不知道,阿里巴巴和手機(jī),根本就不隸屬于一個(gè)類型,無法比較。因此我們在實(shí)體上下位關(guān)系抽取這一步,就需要去完成這樣的工作,從而生成第三步的本體。當(dāng)三步結(jié)束后,這個(gè)知識圖譜可能就會(huì)明白,“阿里巴巴和騰訊,其實(shí)都是公司這樣一個(gè)實(shí)體下的細(xì)分實(shí)體。它們和手機(jī)并不是一類?!保?)知識推理(KnowledgeInference)完成了本體構(gòu)建這一步之后,一個(gè)知識圖譜的雛形便已經(jīng)搭建好了。但可能在這個(gè)時(shí)候,知識圖譜之間大多數(shù)關(guān)系都是殘缺的,缺失值非常嚴(yán)重,那么這個(gè)時(shí)候,我們就可以使用知識推理技術(shù),去完成進(jìn)一步的知識發(fā)現(xiàn)。知識推理就是指從知識庫中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過計(jì)算機(jī)推理,建立實(shí)體間的新關(guān)聯(lián),從而擴(kuò)展和豐富知識網(wǎng)絡(luò)。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第21頁。例如康熙是雍正的父親,雍正是乾隆的父親,那么盡管康熙和乾隆這兩個(gè)實(shí)體之間通過知識推理,就可以獲得他們之間是祖孫關(guān)系。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第21頁。知識推理的對象也并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值,本體的概念層次關(guān)系等。比如:推理屬性值:已知某實(shí)體的生日屬性,可以通過推理得到該實(shí)體的年齡屬性;推理概念:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)知識的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理。(4)質(zhì)量評估(QualityEvaluation)質(zhì)量評估也是知識庫構(gòu)建技術(shù)的重要組成部分,這一部分存在的意義在于:可以對知識的可信度進(jìn)行量化,通過舍棄置信度較低的知識來保障知識庫的質(zhì)量。3.4答案抽取模塊答案提取是問答系統(tǒng)實(shí)現(xiàn)的最后一步。它從檢索模塊檢索出的相關(guān)段落、或句群、或句子中抽取出和提問答案類型一致的實(shí)體,根據(jù)某種原則對候選答案進(jìn)行打分,把概率最大的候選答案返回給用戶。3.4.1基于規(guī)則的方法1、關(guān)鍵詞匹配。首先通過問句所屬類別來篩選出候選答案句(問句和答案句類別一致),再通過問句關(guān)鍵詞和答案句中關(guān)鍵詞匹配。2、相似度計(jì)算及排序。通過計(jì)算問句和候選答案句間的相似度,并排序,相似度值最大的確定為答案。(常用的相似度計(jì)算方法有三種:歐式距離,明可夫斯基距離,余弦相似度)(1)歐式距離歐氏距離是最常用的距離計(jì)算公式,衡量的是多維空間中各個(gè)點(diǎn)之間的絕對距離,適用于當(dāng)數(shù)據(jù)很稠密并且連續(xù)時(shí)。公式如下:公式1(2)明可夫斯基距離明氏距離是歐氏距離的推廣,是對多個(gè)距離度量公式的概括性的表述。公式2從公式我們可以看出,智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第22頁。當(dāng)p==1,“明可夫斯基距離”變成“曼哈頓距離”智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第22頁。當(dāng)p==2,“明可夫斯基距離”變成“歐幾里得距離”當(dāng)p==∞,“明可夫斯基距離”變成“切比雪夫距離”(3)余弦相似度余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量兩個(gè)個(gè)體間差異的大小。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,而非距離或長度上。公式如下:公式33.4.2基于統(tǒng)計(jì)的方法答案提取問題可以看成是一個(gè)二分類任務(wù)。即判斷一個(gè)句子是否是包含答案的句子。共分為兩個(gè)主要步驟:一是構(gòu)建特征工程,二是選取機(jī)器學(xué)習(xí)模型。1、構(gòu)建特征工程(1)數(shù)量特征候選答案句子中關(guān)鍵詞匹配的個(gè)數(shù)占問題關(guān)鍵詞個(gè)數(shù)的比例,該特征反映了候選答案句子與問題在詞匯匹配層面的相似度。候選答案句子中名詞、動(dòng)詞、形容詞或數(shù)量詞的個(gè)數(shù)占問題關(guān)鍵詞個(gè)數(shù)的比例,該特征反映了候選答案句子與問題在指定詞性的詞匯匹配層面的相似度。(2)距離特征候選答案與其前面出現(xiàn)的第一個(gè)匹配名詞(動(dòng)詞、形容詞或數(shù)量詞)之間的距離占候選答案句長度的比例,該特征反映了候選答案與前面指定詞性的匹配詞的距離遠(yuǎn)近,同時(shí)也表示了候選答案的前面是否出現(xiàn)了指定詞性的匹配詞,如果沒有出現(xiàn)則特征值為0。候選答案與其后面出現(xiàn)的第一個(gè)匹配名詞(動(dòng)詞、形容詞或數(shù)量詞)之間的距離占候選答案句長度的比例。關(guān)鍵詞最小匹配緊密度,將問題與文檔分詞并提取關(guān)鍵詞后,計(jì)算包含所有匹配詞的最小窗口長度與窗口中的匹配詞的總數(shù)的比例,該特征反映的是候選答案句子中所有匹配詞出現(xiàn)時(shí)的緊密程度。候選答案與最近匹配詞之間的距離。候選答案與各匹配詞之間的平均距離。(3)順序特征候選答案句子的詞序列與問題的詞序列的順序相似度,此特征反映了候選答案句子中的匹配詞出現(xiàn)的順序是否與其在問題中的順序相同,并用順序相同的詞數(shù)占查詢詞數(shù)的比例來度量,在這里,候選答案句子中的候選答案可以與問題中的疑問詞相匹配,所以為了更好的體現(xiàn)順序相似度,可以將問題轉(zhuǎn)化為稱述句之后再計(jì)算詞序列的順序相似度。順序相似度的智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第23頁。計(jì)算方法為:候選答案句子的詞序列與問題詞序列中出現(xiàn)順序相同的詞的個(gè)數(shù)與問題詞序列中詞的個(gè)數(shù)之比。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第23頁。不考慮候選答案的候選答案句子的詞序列(即為匹配詞序列)與不考慮疑問詞的問題的詞序列(即為查詢詞序列)的順序相似度,這與上一個(gè)特征相似。各匹配詞與候選答案之間的順序關(guān)系和各查詢詞與疑問詞的順序關(guān)系相同的個(gè)數(shù)占查詢詞個(gè)數(shù)的比例。(4)句法結(jié)構(gòu)特征針對候選答案句子中每兩個(gè)匹配詞,分別提取其在問題和候選答案句中的句法依存關(guān)系路徑,計(jì)算兩個(gè)路徑的相似度,最后求平均值作為特征值。問題中疑問詞與查詢詞之間的路徑與候選答案句子中的候選答案與匹配詞之間的路徑的相似度的平均值。這特征主要衡量了候選答案與查詢詞的句法結(jié)構(gòu)與問題句中疑問詞與匹配詞的句法結(jié)構(gòu)的相似性。2、選用機(jī)器學(xué)習(xí)模型(1)支持向量機(jī)。(2)樸素貝葉斯。(3)深度學(xué)習(xí)模型。4問答系統(tǒng)的應(yīng)用場景4.1任務(wù)型任務(wù)型屬于助手服務(wù),可用于處理“用戶目標(biāo)明確,屬性固定“的任務(wù)。如"訂飛機(jī)票"只要用戶給出<出發(fā)地,目的地,時(shí)間>此類屬性,系統(tǒng)識別出用戶需求所含屬性,并讓用戶補(bǔ)充屬性的值填充即可。針對此,阿里小蜜團(tuán)隊(duì)設(shè)計(jì)了基于字典和樣式的填槽模塊,可以識別出15種不同的屬性。技術(shù):意圖決策+(填槽)slotfilling思路:1)首先按照任務(wù)領(lǐng)域進(jìn)行本體知識庫的構(gòu)建。2)在問答匹配過程中結(jié)合上下文模型和領(lǐng)域數(shù)據(jù)模型不斷在Query中進(jìn)行slot屬性的提取,并循環(huán)進(jìn)行本體意圖樹的不斷填充和修改,直到必選意圖樹填充完整后進(jìn)行輸出。如圖()所示。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第24頁。智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第24頁。圖44.2問答型如果用戶需要的是尋找某種信息或某種解決辦法,比如"忘記登陸密碼怎么辦".此類需求的核心是知識圖譜技術(shù),通過抽取實(shí)體,關(guān)系查詢等技術(shù)找到需求對應(yīng)的答案.技術(shù):知識圖譜+檢索模型匹配思路:1)提問預(yù)處理:分詞、指代消解、糾錯(cuò)等基本文本處理流程;2)檢索召回:通過檢索的方式在候選數(shù)據(jù)中召回可能的匹配候選數(shù)據(jù);3)計(jì)算:通過Query結(jié)合上下文模型與候選數(shù)據(jù)進(jìn)行計(jì)算,采用文本之間的距離計(jì)算方式(余弦相似度、編輯距離)以及分類模型相結(jié)合的方式進(jìn)行計(jì)算;4)最終根據(jù)返回的候選集打分閾值進(jìn)行最終的產(chǎn)品流程設(shè)計(jì)4.3語聊型該類型特點(diǎn),非面向目標(biāo)、語義意圖不明確,通常期待的是語義相關(guān)性和漸進(jìn)性,面向開放域問題。目前業(yè)界普遍使用兩種模型:生成式模型DeepLearning生成模型,通過Encoder-Decoder模型通過LSTM的方式進(jìn)行SequencetoSequence生成。優(yōu)點(diǎn):通過深層語義方式進(jìn)行答案生成,答案不受語料庫規(guī)模限制。缺點(diǎn):模型的可解釋性不強(qiáng),且難以保證一致性和合理性回答。檢索式模型(傳統(tǒng)式匹配原則)優(yōu)點(diǎn):通過深層語義方式進(jìn)行答案生成,答案不受語料庫規(guī)模限制缺點(diǎn):模型的可解釋性不強(qiáng),且難以保證一致性和合理性回答智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第25頁。結(jié)合兩者各自的優(yōu)勢,將兩個(gè)模型進(jìn)行融合。流程如下:智能問答系統(tǒng)調(diào)研全文共30頁,當(dāng)前為第25頁。1)先通過傳統(tǒng)的檢索模型檢索出候選集數(shù)據(jù)2)然后通過Seq2SeqModel對候選集進(jìn)行Rerank,重排序后超過制定的閾值就進(jìn)行輸出,不到閾值就通過Seq2SeqModel進(jìn)行答案生成4.4阿里小蜜客服系統(tǒng)阿里巴巴于2015年7月推出了阿里小蜜產(chǎn)品,在面世的僅僅幾年中,阿里小蜜發(fā)展之迅速令人難以想象。阿里小蜜給出了一個(gè)典型的智能對話系統(tǒng)的架構(gòu),如下圖所示:圖3典型的智能對話系統(tǒng)這個(gè)架構(gòu)不失一般性,放到任何一家公司,只要替換相應(yīng)的底層數(shù)據(jù),做好與數(shù)據(jù)對應(yīng)的具體算法及服務(wù),就可以成為一個(gè)實(shí)實(shí)在在的落地項(xiàng)目。從上面這張智能對話系統(tǒng)的架構(gòu)圖中可以看出:自然語言處理(NLP)是對話系統(tǒng)的核心部分。通過阿里巴巴公開分享的技術(shù)文檔來看,在阿里小蜜中有一個(gè)比較核心的功能模塊。這個(gè)核心模塊功能,除了自然語言理解和對話管理之外,智能問答模塊用來完成問答類任務(wù),智能聊天用來完成閑聊類任務(wù)。它對外提供了SaaS平臺(tái)支持,PaaS平臺(tái)支持以及BotFrameWork支持,BotFrameWork為用戶提供可定制化智能助理平臺(tái)服務(wù)。這兩張架構(gòu)圖充分體現(xiàn)了分層架構(gòu)的思想,也清晰地講解了阿里小蜜的架構(gòu)。

圖4智能對話交互中的核心模塊在核心模塊中可以突顯出幾個(gè)重要的知識點(diǎn):第一,自然語言理解NLU是整個(gè)系統(tǒng)的核心;第二,智能問答和智能聊天是游離在NLU功能模塊;第三對話系統(tǒng)提供不同平臺(tái)的智能問答系統(tǒng)調(diào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論