版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中文問(wèn)答系統(tǒng)調(diào)研報(bào)告目錄TOC\o"1-5"\h\z\o"CurrentDocument"問(wèn)答系統(tǒng)調(diào)研報(bào)告 1\o"CurrentDocument"1問(wèn)答系統(tǒng)的價(jià)值體現(xiàn) 3\o"CurrentDocument"市場(chǎng)應(yīng)用價(jià)值 3彌補(bǔ)了搜索引擎的不足 3\o"CurrentDocument"總結(jié) 3\o"CurrentDocument"2問(wèn)答系統(tǒng)的市場(chǎng)應(yīng)用情況 3\o"CurrentDocument"3問(wèn)答系統(tǒng)整體框架 5\o"CurrentDocument"問(wèn)答實(shí)現(xiàn)流程 5\o"CurrentDocument"問(wèn)句分析模塊 6中文分詞 6關(guān)鍵詞提取 9關(guān)鍵詞擴(kuò)展 10實(shí)體識(shí)別 11問(wèn)句分類 12\o"CurrentDocument"信息檢索模塊 13模式匹配 13答案檢索 13知識(shí)圖譜 16\o"CurrentDocument"答案抽取模塊 21\o"CurrentDocument"基于規(guī)則的方法 21\o"CurrentDocument"基于統(tǒng)計(jì)的方法 22\o"CurrentDocument"4問(wèn)答系統(tǒng)的應(yīng)用場(chǎng)景 23\o"CurrentDocument"任務(wù)型 23\o"CurrentDocument"問(wèn)答型 24\o"CurrentDocument"語(yǔ)聊型 24\o"CurrentDocument"5調(diào)研總結(jié) 301問(wèn)答系統(tǒng)的價(jià)值體現(xiàn)市場(chǎng)應(yīng)用價(jià)值問(wèn)答系統(tǒng)是智能人機(jī)交互的技術(shù)基礎(chǔ),智能人機(jī)交互通過(guò)擬人化的交互體驗(yàn)逐步在智能客服、任務(wù)助理、智能家居、智能硬件、互動(dòng)聊天等領(lǐng)域發(fā)揮巨大的作用和價(jià)值。因此,各大公司都將智能聊天機(jī)器人作為未來(lái)的入口級(jí)別的應(yīng)用在對(duì)待。包括Google、Facebook、Microsoft、Amazon、Apple等互聯(lián)公司相繼推出了自己的智能私人助理和機(jī)器人平臺(tái)。產(chǎn)品技術(shù)價(jià)值1、搜索引擎的缺陷:一方面,用戶所輸入的搜索關(guān)鍵詞或關(guān)鍵句,無(wú)法真實(shí)反映用戶需求;另一方面,檢索系統(tǒng)僅僅通過(guò)幾個(gè)關(guān)鍵詞的簡(jiǎn)單邏輯組合來(lái)返回答案。兩方面的誤差造成檢索結(jié)果很差。檢索結(jié)果不夠簡(jiǎn)潔。冗余信息使用戶難以快速準(zhǔn)確定位所需信息,造成時(shí)間和精力的浪費(fèi)。缺乏對(duì)用戶問(wèn)句的語(yǔ)義理解。只靠關(guān)鍵詞的索引或簡(jiǎn)單的匹配算法,并不能真正觸及到問(wèn)題的真實(shí)意思,使檢索結(jié)果一般。2、問(wèn)答系統(tǒng)能針對(duì)搜索引擎缺陷的改進(jìn)1)問(wèn)答系統(tǒng)允許用戶以自然語(yǔ)言的形式詢問(wèn)或者輸入。2)問(wèn)答系統(tǒng)能直接返回答案,提供給用戶簡(jiǎn)潔、有效的答案。3)問(wèn)答系統(tǒng)能分析用戶意圖,提供給用戶真正有用、準(zhǔn)確的信息。總結(jié)無(wú)論是在日常生活中查閱資料,還是在科學(xué)研究、商業(yè)金融等領(lǐng)域的應(yīng)用,都有智能問(wèn)答的參與,所以智能問(wèn)答的發(fā)展與管理將是人們不可忽視的研究方向。2問(wèn)答系統(tǒng)的市場(chǎng)應(yīng)用情況按照市場(chǎng)應(yīng)用情況可分為五類:在線客服,娛樂(lè)機(jī)器人,教育聊天機(jī)器人,個(gè)人助理和智能問(wèn)答.(1)在線客服在線客服聊天機(jī)器人系統(tǒng)的主要功能是和用戶進(jìn)行基本溝通并自動(dòng)回復(fù)用戶有關(guān)產(chǎn)品或服務(wù)的問(wèn)題,降低企業(yè)客服運(yùn)營(yíng)成本,提升用戶體驗(yàn).應(yīng)用場(chǎng)景通常為網(wǎng)站首頁(yè)和手機(jī)終端,代表有小愛(ài)機(jī)器人,JIMI(JD)客服機(jī)器人,JIMI具有一定的拒識(shí)能力,即能夠知道自己不能回答用戶的哪些問(wèn)題以及何時(shí)應(yīng)轉(zhuǎn)向人工客服.(2)娛樂(lè)娛樂(lè)機(jī)器人主要同用戶進(jìn)行開(kāi)放主題的對(duì)話,從而實(shí)現(xiàn)對(duì)用戶的精神陪伴,情感慰藉和心理疏導(dǎo)等作用,主要針對(duì)社交媒體,兒童玩具,代表產(chǎn)品有微軟小冰和騰訊的小微,小微除了能夠與用戶進(jìn)行開(kāi)放主題的聊天外,還能提供特定主題的服務(wù)如天氣預(yù)報(bào)和生活常識(shí)等.(3)教育教育聊天機(jī)器人根據(jù)教育內(nèi)容構(gòu)建交互的語(yǔ)言使用環(huán)境幫助用戶學(xué)習(xí)某種語(yǔ)言,在學(xué)習(xí)某項(xiàng)專業(yè)課程時(shí),指導(dǎo)用戶逐步深入學(xué)習(xí)并掌握技能,用戶的特定年齡階段,幫助用戶進(jìn)行某種知識(shí)的輔助學(xué)習(xí)等.通常該類聊天機(jī)器人具備交互學(xué)習(xí)功能,培訓(xùn)軟件及智能玩具等,代表有科大訊飛開(kāi)心熊寶系列玩具.(4)個(gè)人助理該類聊天機(jī)器人主要通過(guò)語(yǔ)音或文字與聊天機(jī)器人系統(tǒng)進(jìn)行交互,實(shí)現(xiàn)個(gè)人事務(wù)的查詢及代辦,如天氣查詢,空氣質(zhì)量查詢,定位,短信收發(fā),日程提醒和智能搜索等,從而更便捷輔助用戶的日常事務(wù)處理,代表有Apple的Siri,GoogleNow,Cortana.(5)智能問(wèn)答智能應(yīng)答的聊天機(jī)器人主要功能包括以自然語(yǔ)言形式提出的事實(shí)型問(wèn)題和需要計(jì)算和邏輯推理型的問(wèn)題,已達(dá)到滿足用戶的信息需求及輔助用戶進(jìn)行決策的目的.代表有IBMwatson.3問(wèn)答系統(tǒng)整體框架3.1問(wèn)答實(shí)現(xiàn)流程問(wèn)句分析模塊售案椅案模塊 答素提取模塊圖1問(wèn)答系統(tǒng)框架圖(一)問(wèn)句分析模塊對(duì)問(wèn)句做自然語(yǔ)言處理操作,分析意圖并確定問(wèn)句答案類型。對(duì)用戶的提問(wèn)進(jìn)行處理:1)生成查詢關(guān)鍵詞(提取關(guān)鍵詞、擴(kuò)展關(guān)鍵詞,……);2)解析問(wèn)句的實(shí)體或關(guān)系;3)確定答案類型。(二)信息檢索模塊1、模式匹配對(duì)于某些提問(wèn)類型(某人的出生日期、原名、別稱等),問(wèn)句和包含答案的句子之間存在一定的答案模式,或者從已有問(wèn)答對(duì)庫(kù)中進(jìn)行匹配得出候選答案。2、信息檢索利用問(wèn)題處理模塊抽取的查詢關(guān)鍵詞,用信息檢索方式,檢索出和提問(wèn)相關(guān)的信息(段落、也可以是句群或者句子),作為候選答案。3、KBQA對(duì)問(wèn)句進(jìn)行語(yǔ)義理解和解析,利用知識(shí)庫(kù)進(jìn)行查詢、推理得出答案,把查詢到的實(shí)體作為候選答案或直接作為答案。(三)答案抽取模塊:從檢索模塊檢索出的相關(guān)段落、或句群、或句子中抽取出和提問(wèn)答案類型一致的實(shí)體,5根據(jù)某種原則(再做探究)對(duì)候選答案進(jìn)行打分,把概率最大的候選答案返回給用戶。或者,使用訓(xùn)練好的統(tǒng)計(jì)學(xué)習(xí)模型,對(duì)候選答案進(jìn)行二分類,判別是否作為答案輸出。1基于傳統(tǒng)方法進(jìn)行答案提取關(guān)鍵詞匹配+相似度計(jì)算及排序2基于統(tǒng)計(jì)學(xué)習(xí)模型進(jìn)行答案提取提取特征+選取機(jī)器學(xué)習(xí)模型3.2問(wèn)句分析模塊中文分詞a)基于規(guī)則的分詞方法主要是人工建立詞庫(kù)也叫做詞典,通過(guò)詞典匹配的方式對(duì)句子進(jìn)行劃分。其實(shí)現(xiàn)簡(jiǎn)單高效,但是對(duì)未登陸詞很難進(jìn)行處理。主要有正向最大匹配法,逆向最大匹配法以及雙向最大匹配法。正向最大匹配法(FMM)(1)從左向右取待分漢語(yǔ)句的m個(gè)字作為匹配字段,m為詞典中最長(zhǎng)詞的長(zhǎng)度。(2)查找詞典進(jìn)行匹配。(3)若匹配成功,則將該字段作為一個(gè)詞切分出去。(4)若匹配不成功,則將該字段最后一個(gè)字去掉,剩下的字作為新匹配字段,進(jìn)行再次匹配。(5)重復(fù)上述過(guò)程,直到切分所有詞為止。逆向最大匹配法(RMM)RMM的基本原理與FMM基本相同,不同的是分詞的方向與FMM相反。RMM是從待分詞句子的末端開(kāi)始,也就是從右向左開(kāi)始匹配掃描,每次取末端m個(gè)字作為匹配字段,匹配失敗,則去掉匹配字段前面的一個(gè)字,繼續(xù)匹配。雙向最大匹配法(Bi-MM)Bi-MM是將正向最大匹配法得到的分詞結(jié)果和逆向最大匹配法得到的結(jié)果進(jìn)行比較,然后按照最大匹配原則,選取詞數(shù)切分最少的作為結(jié)果。據(jù)SunM.S.和BenjaminK.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正確,只有大概9.0%的句子兩種切分方法得到的結(jié)果不一樣,但其中必有一個(gè)是正確的(歧義檢測(cè)成功),只有不到1.0%的句子,使用正向最大匹配法和逆向最大匹配法的切分雖然重合但是錯(cuò)的,或者兩種方法切分不同但結(jié)果都不對(duì)(歧義檢測(cè)失?。kp向最大匹配的規(guī)則是:(1)如果正反向分詞結(jié)果詞數(shù)不同,則取分詞數(shù)量少的那個(gè)。(2)如果分詞結(jié)果詞數(shù)相同:1)分詞結(jié)果相同,沒(méi)有歧義,返回任意一個(gè)。2)分詞結(jié)果不同,返回其中單字?jǐn)?shù)量較少的那個(gè)。b)基于統(tǒng)計(jì)的分詞方法基于統(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語(yǔ)料庫(kù)中出現(xiàn)的統(tǒng)計(jì)頻率來(lái)決定其是否構(gòu)成詞。詞是字的組合,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。1N元語(yǔ)法(N-gram)模型和隱馬爾可夫模型(HMM)在N元語(yǔ)法中,一個(gè)句子可以看成一個(gè)連續(xù)的字符串序列,它可以是單字序列,也可以是詞序列。一個(gè)句子W1W2Wk的出現(xiàn)概率用P(W)表示,則:叼〃…w—=F(嗎)-嗔ImJ一地I叫叫〕■嗎.,叫I)=立口嗎|功叫用一j-1式12互信息模型互信息用來(lái)表示兩個(gè)字之間結(jié)合的強(qiáng)度,其公式為:p8Ps式2MI值越大,表示兩個(gè)字之間的結(jié)合越緊密(如“尷尬”“匍匐”等詞)。反之,斷開(kāi)的可能性越大。當(dāng)兩個(gè)詞x與y關(guān)系強(qiáng)時(shí),MI(x,y)>=0;x與y關(guān)系弱時(shí),MI(x,y)口0;而當(dāng)MI(x,y)<0時(shí),x與y稱為“互補(bǔ)分布”。3最大熵模型“牖”是用來(lái)表示一個(gè)隨機(jī)事件的不確定性的量度,其公式為:3=-£戶年)3P⑶hr式3最大牖模型的作用是在已知條件下選擇一個(gè)合適的分布來(lái)預(yù)測(cè)可能出現(xiàn)的事件,其主要思想是在只掌握關(guān)于未知分布的部分知識(shí)時(shí),應(yīng)選取符合這些知識(shí)但牖值最大的概率分布。式中,S在實(shí)驗(yàn)結(jié)束前是實(shí)驗(yàn)結(jié)果不確定性的度量,實(shí)驗(yàn)完成后是從實(shí)驗(yàn)中獲得的信息量。S越大表明不確定性越大,實(shí)驗(yàn)結(jié)束后從中得到的信息量也越大。分詞工具:(1)Jieba支持三種分詞模式:精確模式。試圖將句子最精確地切開(kāi),適合文本分析。全模式。將句子中所有的可能成詞的詞語(yǔ)都掃描出來(lái),速度非??欤遣荒芙鉀Q歧義。搜索引擎模式。在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適用于搜索引擎分詞。另外jieba支持繁體分詞,支持自定義詞典。其使用的算法是基于統(tǒng)計(jì)的分詞方法,主要有如下幾種:i基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG)ii采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合iii對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法(2)THULACTHULAC(THULexicalAnalyzerforChinese)由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包,GitHub鏈接:/thunlp/THULAC-Python,具有中文分詞和詞性標(biāo)注功能。THULAC具有如下幾個(gè)特點(diǎn):能力強(qiáng)。利用集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)(約含5800萬(wàn)字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集ChineseTreeban(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%,與該數(shù)據(jù)集上最好方法效果相當(dāng)。速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s,每秒可處理約15萬(wàn)字。只進(jìn)行分詞速度可達(dá)到1.3MB/s。(3)NLPIRNLPIR分詞系統(tǒng),前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),GitHub鏈接:/NLPIR-team/NLPIR,是由北京理工大學(xué)張華平博士研發(fā)的中文分詞系統(tǒng),經(jīng)過(guò)十余年的不斷完善,擁有豐富的功能和強(qiáng)大的性能。NLPIR是一整套對(duì)原始文本集進(jìn)行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。主要功能包括:中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,用戶詞典、新詞發(fā)現(xiàn)與關(guān)鍵詞提取等功能。(4)NLTKNLTK,NaturalLanguageToolkit是一個(gè)自然語(yǔ)言處理的包工具,各種多種NLP處理相關(guān)功能,GitHub鏈接:/nltk/nltko但是NLTK對(duì)于中文分詞是不支持的,如果要用中文分詞的話,可以使用FoolNLTK,它使用Bi-LSTM訓(xùn)練而成,包含分詞、詞性標(biāo)注、實(shí)體識(shí)別等功能,同時(shí)支持自定義詞典,可以訓(xùn)練自己的模型,可以進(jìn)行批量處理。(5)LTP語(yǔ)言技術(shù)平臺(tái)(LanguageTechnologyPlatformLTP)是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年開(kāi)發(fā)的一整套中文語(yǔ)言處理系統(tǒng)。LTP制定了基于XML的語(yǔ)言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語(yǔ)言處理模塊(包括詞法、句法、語(yǔ)義等6項(xiàng)中文處理核心技術(shù)),以及基于動(dòng)態(tài)鏈接庫(kù)(DynamicLinkLibrary,DLL)的應(yīng)用程序接口、可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(WebService)的形式進(jìn)行使用。3.2.2關(guān)鍵詞提取關(guān)鍵詞提取算法一般分為有監(jiān)督和無(wú)監(jiān)督兩類有監(jiān)督的關(guān)鍵詞提取方法主要是通過(guò)分類的方式進(jìn)行,通過(guò)構(gòu)建一個(gè)較為豐富和完善的詞表,然后判斷每個(gè)文檔與詞表中每個(gè)詞的匹配程度,以類似打標(biāo)簽的方式,達(dá)到關(guān)鍵詞提取的效果。優(yōu)點(diǎn)是精度較高,缺點(diǎn)是需要大批量的標(biāo)注數(shù)據(jù),人工成本過(guò)高,并且詞表需要及時(shí)維護(hù)。無(wú)監(jiān)督的方法不需要人工標(biāo)注的語(yǔ)料,利用某些方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞提取。該方法是先抽取出候選詞,然后對(duì)各個(gè)候選詞進(jìn)行打分,然后輸出topK個(gè)分值最高的候選詞作為關(guān)鍵詞。根據(jù)打分的策略不同,有不同的算法,例如TF-IDF,TextRank,LDA等算法。無(wú)監(jiān)督關(guān)鍵詞提取方法主要有三類:基于統(tǒng)計(jì)特征的關(guān)鍵詞提取(TF,TF-IDF);基于詞圖模型的關(guān)鍵詞提取(PageRank,TextRank);基于主題模型的關(guān)鍵詞提取(LDA)基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法的思想是利用文檔中詞語(yǔ)的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞;基于詞圖模型的關(guān)鍵詞提取首先要構(gòu)建文檔的語(yǔ)言網(wǎng)絡(luò)圖,然后對(duì)語(yǔ)言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語(yǔ),這些短語(yǔ)就是文檔的關(guān)鍵詞;基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題分布的性質(zhì)進(jìn)行關(guān)鍵詞提取;.TF-IDF算法TF-IDF是一種數(shù)值統(tǒng)計(jì)方法,用于反映一個(gè)詞對(duì)于預(yù)料中某篇文檔的重要性,它的主要思想為:如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率高,即TF高;并且在其他文檔中很少出現(xiàn),即IDF高,則認(rèn)為這個(gè)詞具有很好的類別區(qū)分能力。TF為詞頻,表示詞t在文檔d中出現(xiàn)的頻率:tf(word)=(word在文檔中出現(xiàn)的次數(shù))/(文檔總詞數(shù))IDF常用的計(jì)算公式如下:|D|為文檔集中的總文檔數(shù),為文檔中出現(xiàn)詞i的文檔數(shù)量。分母加1是采用了拉普拉斯平滑,避免有部分新的詞沒(méi)有在語(yǔ)料庫(kù)中出現(xiàn)過(guò)從而導(dǎo)致分母為零的情況。.TextRank算法此種算法的一個(gè)重要特點(diǎn)是可以脫離語(yǔ)料庫(kù)的背景,僅對(duì)單篇文檔進(jìn)行分析就可以提取該文檔的關(guān)鍵詞?;舅枷雭?lái)源于Google的PageRank算法。這種算法是1997年,Google創(chuàng)始人拉里.佩奇和謝爾蓋.布林在構(gòu)建早期的搜索系統(tǒng)原型時(shí)提出的一種鏈接分析算法,基本思想有兩條:1)鏈接數(shù)量。一個(gè)網(wǎng)頁(yè)被越多的其他網(wǎng)頁(yè)鏈接,說(shuō)明這個(gè)網(wǎng)頁(yè)越重要2)鏈接質(zhì)量。一個(gè)網(wǎng)頁(yè)被一個(gè)越高權(quán)值的網(wǎng)頁(yè)鏈接,也能表明這個(gè)網(wǎng)頁(yè)越重要TextRank用于關(guān)鍵詞提取的算法如下:(1)把給定的文本T按照完整句子進(jìn)行分割,即:(2)對(duì)于每個(gè)句子,進(jìn)行分詞和詞性標(biāo)注處理,并過(guò)濾掉停用詞,只保留指定詞性的單詞,如名詞、動(dòng)詞、形容詞。(3)構(gòu)建候選關(guān)鍵詞圖G=(VE),其中V為節(jié)點(diǎn)集,由(2)生成的候選關(guān)鍵詞組成,然后采用共現(xiàn)關(guān)系(Co-Occurrence)構(gòu)造任兩點(diǎn)之間的邊,兩個(gè)節(jié)點(diǎn)之間存在邊僅當(dāng)它們對(duì)應(yīng)的詞匯在長(zhǎng)度為K的窗口中共現(xiàn),K表示窗口大小,即最多共現(xiàn)K個(gè)單詞。(4)根據(jù)TextRank的公式,迭代傳播各節(jié)點(diǎn)的權(quán)重,直至收斂。(5)對(duì)節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序,從而得到最重要的T個(gè)單詞,作為候選關(guān)鍵詞。(6)由(5)得到最重要的T個(gè)單詞,在原始文本中進(jìn)行標(biāo)記,若形成相鄰詞組,則組合成多詞關(guān)鍵詞。除此之外,還有一些關(guān)鍵詞提取方法:Word2Vec詞聚類的關(guān)鍵詞提取算法及實(shí)現(xiàn);信息增益關(guān)鍵詞提??;互信息關(guān)鍵詞提取;卡方檢驗(yàn)關(guān)鍵詞提??;基于樹(shù)模型的關(guān)鍵詞提取算法及實(shí)現(xiàn)。關(guān)鍵詞提取常用工具包:Jieba;Textrank4zh(TextRank算法工具);SnowNLP(中文分析)簡(jiǎn)體中文文本處理無(wú)監(jiān)督方法和有監(jiān)督方法優(yōu)的缺點(diǎn)無(wú)監(jiān)督方法不需要人工標(biāo)注訓(xùn)練集合的過(guò)程,因此更加快捷,但由于無(wú)法有效綜合利用多種信息對(duì)候選關(guān)鍵詞排序,所以效果無(wú)法與有監(jiān)督方法媲美;而有監(jiān)督方法可以通過(guò)訓(xùn)練學(xué)習(xí)調(diào)節(jié)多種信息對(duì)于判斷關(guān)鍵詞的影響程度,因此效果更優(yōu),有監(jiān)督的文本關(guān)鍵詞提取算法需要高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取主要采用適用性較強(qiáng)的無(wú)監(jiān)督關(guān)鍵詞提取。關(guān)鍵詞擴(kuò)展目前有兩種主流的方式,一是通過(guò)搜索引擎等外部文本擴(kuò)展,或者借助知識(shí)庫(kù)如WordNet或Wikipedia等,挖掘詞之間的內(nèi)在聯(lián)系。1、同義詞擴(kuò)展。引入哈工大《同義詞詞林詞典》2、使用外部的關(guān)鍵詞擴(kuò)展工具。(百度關(guān)鍵詞規(guī)劃師工具、詞庫(kù)網(wǎng)、金花站長(zhǎng)工具、10愛(ài)站站長(zhǎng)工具包、熊貓關(guān)鍵字?jǐn)U展工具等。)3、統(tǒng)計(jì)學(xué)習(xí)方法。使用自編碼模型AutoEncode進(jìn)行擴(kuò)展。實(shí)體識(shí)別命名實(shí)體識(shí)別,簡(jiǎn)稱NER,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等,以及時(shí)間、數(shù)量、貨幣、比例數(shù)值等文字。目前在NER上表現(xiàn)較好的模型都是基于深度學(xué)習(xí)或者是統(tǒng)計(jì)學(xué)習(xí)的方法的,這些方法共同的特點(diǎn)都是需要大量的數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí)。目前常用的模型:隱馬爾科夫模型(HMM);條件隨機(jī)場(chǎng)(CRF);雙向長(zhǎng)短時(shí)網(wǎng)絡(luò)(BiLSTM);BiLSTM+CRF;BERT+LSTM+CRF。隱馬爾科夫模型(HMM)NER本質(zhì)上可以看成是一種序列標(biāo)注問(wèn)題,在使用HMM解決NER這種序列標(biāo)注問(wèn)題的時(shí)候,我們所能觀測(cè)到的是字組成的序列(觀測(cè)序列),觀測(cè)不到的是每個(gè)字對(duì)應(yīng)的標(biāo)注(狀態(tài)序列)。條件隨機(jī)場(chǎng)(CRF)上面講的HMM模型中存在兩個(gè)假設(shè),一是輸出觀察值之間嚴(yán)格獨(dú)立,二是狀態(tài)轉(zhuǎn)移過(guò)程中當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān)。也就是說(shuō),在命名實(shí)體識(shí)別的場(chǎng)景下,HMM認(rèn)為觀測(cè)到的句子中的每個(gè)字都是相互獨(dú)立的,而且當(dāng)前時(shí)刻的標(biāo)注只與前一時(shí)刻的標(biāo)注相關(guān)。但實(shí)際上,命名實(shí)體識(shí)別往往需要更多的特征,比如詞性,詞的上下文等等,同時(shí)當(dāng)前時(shí)刻的標(biāo)注應(yīng)該與前一時(shí)刻以及后一時(shí)刻的標(biāo)注都相關(guān)聯(lián)。由于這兩個(gè)假設(shè)的存在,顯然HMM模型在解決命名實(shí)體識(shí)別的問(wèn)題上是存在缺陷的。而條件隨機(jī)場(chǎng)就沒(méi)有這種問(wèn)題,它通過(guò)引入自定義的特征函數(shù),不僅可以表達(dá)觀測(cè)之間的依賴,還可表示當(dāng)前觀測(cè)與前后多個(gè)狀態(tài)之間的復(fù)雜依賴,可以有效克服HMM模型面臨的問(wèn)題。BiLSTMLSTM也常常被用來(lái)解決序列標(biāo)注問(wèn)題。和HMM、CRF不同的是,LSTM是依靠神經(jīng)網(wǎng)絡(luò)超強(qiáng)的非線性擬合能力,在訓(xùn)練時(shí)將樣本通過(guò)高維空間中的復(fù)雜非線性變換,學(xué)習(xí)到從樣本到標(biāo)注的函數(shù),之后使用這個(gè)函數(shù)為指定的樣本預(yù)測(cè)每個(gè)token的標(biāo)注。BiLSTM+CRF簡(jiǎn)單的LSTM的優(yōu)點(diǎn)是能夠通過(guò)雙向的設(shè)置學(xué)習(xí)到觀測(cè)序列(輸入的字)之間的依賴,在訓(xùn)練過(guò)程中,LSTM能夠根據(jù)目標(biāo)(比如識(shí)別實(shí)體)自動(dòng)提取觀測(cè)序列的特征,但是缺點(diǎn)是無(wú)法學(xué)習(xí)到狀態(tài)序列(輸出的標(biāo)注)之間的關(guān)系,要知道,在命名實(shí)體識(shí)別任務(wù)中,標(biāo)注之間是有一定的關(guān)系的,比如B類標(biāo)注(表示某實(shí)體的開(kāi)頭)后面不會(huì)再接一個(gè)B類標(biāo)注,所以LSTM在解決NER這類序列標(biāo)注任務(wù)時(shí),雖然可以省去很繁雜的特征工程,但是也存11在無(wú)法學(xué)習(xí)到標(biāo)注上下文的缺點(diǎn)。相反,CRF的優(yōu)點(diǎn)就是能對(duì)隱含狀態(tài)建模,學(xué)習(xí)狀態(tài)序列的特點(diǎn),但它的缺點(diǎn)是需要手動(dòng)提取序列特征。所以一般的做法是,在LSTM后面再加一層CRF,以獲得兩者的優(yōu)點(diǎn)。BERT+LSTM+CRF在基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別方法中,字的向量化表示是重要一步,傳統(tǒng)的詞向量表示將字映射為單一向量,這種方法無(wú)法表征字的多義性。針對(duì)這個(gè)問(wèn)題,提出了基于BERT嵌入的中文命名實(shí)體識(shí)別方法。該方法通過(guò)BERT(BidirectionalEncoderRepresentationsfromTransformers)預(yù)訓(xùn)練語(yǔ)言模型增強(qiáng)字的語(yǔ)義表示,根據(jù)字的上下文動(dòng)態(tài)生成語(yǔ)義向量,然后再將字向量序列輸入BiGRU-CRF中進(jìn)行訓(xùn)練,訓(xùn)練時(shí)可以訓(xùn)練整個(gè)8£區(qū)1-816區(qū)5。W模型,也可以固定BERT,只訓(xùn)練BiGRU-CRF部分。問(wèn)句分類目前存在的問(wèn)題分類方法主要有兩種:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法(或者說(shuō)基于機(jī)器學(xué)習(xí)的方法)。基于規(guī)則的問(wèn)句分類方法,主要是用人工分析句法結(jié)構(gòu)或語(yǔ)義特征來(lái)編寫(xiě)分類規(guī)則。通過(guò)提取各種類型問(wèn)句中的疑問(wèn)詞和關(guān)鍵詞的特征規(guī)則,根據(jù)這兩方面的對(duì)應(yīng)關(guān)系最終達(dá)到問(wèn)題準(zhǔn)確分類?;诮y(tǒng)計(jì)的問(wèn)句分類方法,其中分為傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。(1)傳統(tǒng)的機(jī)器學(xué)習(xí)問(wèn)句分類方法主要對(duì)三個(gè)方面進(jìn)行研究:特征工程、特征選擇和選用不同的機(jī)器學(xué)習(xí)模型進(jìn)行分類。在特征工程上,詞袋特征、詞性、名詞短語(yǔ)和樹(shù)核函數(shù)等。在特征選擇上,最廣泛使用的選擇方法是詞頻計(jì)算,此外,還有一些高效的特征選擇方法,如:信息熵、互信息等。在機(jī)器學(xué)習(xí)模型上,常使用的有貝葉斯模型、最大熵模型、支持向量機(jī)模型等。(2)基于深度學(xué)習(xí)的問(wèn)句分類方法,使用預(yù)訓(xùn)練的詞向量和深度神經(jīng)網(wǎng)絡(luò)模型完成自動(dòng)分類。它能夠通過(guò)大量訓(xùn)練語(yǔ)料自動(dòng)獲取問(wèn)句基本特征,然后將這些基本特征組合成復(fù)雜的特征,最后訓(xùn)練模型來(lái)捕獲提取的問(wèn)句特征和問(wèn)句類別之間的語(yǔ)義關(guān)系。經(jīng)常使用的深度學(xué)習(xí)模型有:卷積神經(jīng)網(wǎng)絡(luò)《^)模型,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)上11$T乂)模型以及各種神經(jīng)網(wǎng)絡(luò)的組合模型?;谝?guī)則的問(wèn)句分類方法,不需要大量的訓(xùn)練數(shù)據(jù),并且實(shí)現(xiàn)起來(lái)相對(duì)容易。但有如下缺點(diǎn):1)費(fèi)時(shí)費(fèi)力。需要大量語(yǔ)言學(xué)知識(shí)背景的人去手工編寫(xiě)規(guī)則。2)主觀性強(qiáng)。既是人工制定的規(guī)則,不免會(huì)產(chǎn)生主觀隨意性,造成分類的不確定性。3)可移植性差。制定好的規(guī)則就會(huì)受分類體系的制約,分類體系發(fā)生改變,這些規(guī)則就會(huì)受到很大程度的影響?;诮y(tǒng)計(jì)的學(xué)習(xí)方法,其中基于傳統(tǒng)的機(jī)器學(xué)習(xí)問(wèn)句分類方法存在如下缺點(diǎn):1)問(wèn)句分類一般需要先對(duì)問(wèn)句完成詞性標(biāo)注、句法分析、語(yǔ)義分析等自然語(yǔ)言處理任務(wù),這些任務(wù)的準(zhǔn)確率將對(duì)問(wèn)句分類準(zhǔn)確率產(chǎn)生很大程度的影響,2)另外此方法都存在數(shù)據(jù)稀疏性的問(wèn)12題?;谏疃葘W(xué)習(xí)的問(wèn)句分類方法使用分布式表示的詞向量可以大大降低數(shù)據(jù)稀疏性。該方法能夠較好的提取問(wèn)句的語(yǔ)義特征,對(duì)問(wèn)句分類的效果相對(duì)較好。但仍然存在較普遍的缺點(diǎn):1)該深度學(xué)習(xí)模型需要大量的訓(xùn)練語(yǔ)料,仍需要人工標(biāo)注部分語(yǔ)料以便提升分類準(zhǔn)確率。2)由于問(wèn)句本身較難分析,已標(biāo)注的語(yǔ)料并不能覆蓋所有的問(wèn)句類型。3)問(wèn)句文本較短,能夠提取的有用的特征非常有限,增加了問(wèn)題分類的難度。3.3信息檢索模塊依據(jù)不同的數(shù)據(jù)類型,進(jìn)行不同方式的信息檢索:模式匹配對(duì)于某些提問(wèn)類型(某人的出生日期、原名、別稱等),問(wèn)句和包含答案的句子之間存在一定的答案模式,或者從已有問(wèn)答對(duì)庫(kù)中進(jìn)行匹配得出候選答案。答案檢索檢索常用的模型有布爾模型、向量空間模型以及概率模型。1.布爾模型是一種簡(jiǎn)單檢索模型,基于集合論和布爾代數(shù)。其查詢由聯(lián)接符AND、OR和NOT構(gòu)成,通過(guò)對(duì)每個(gè)關(guān)鍵詞對(duì)應(yīng)的倒排索引取交集、并集或補(bǔ)集,返回若干相關(guān)文檔給用戶。舉例:下面有2個(gè)文檔:文檔1:abcfgh;文檔2:afbxyz;用戶想找出出現(xiàn)a或者b但一定要出現(xiàn)z的文檔(三元組)。當(dāng)然我們仔細(xì)一看,結(jié)果顯而易見(jiàn)是文檔2符合用戶的需求。但是對(duì)于計(jì)算機(jī)布爾排序模型它是怎么實(shí)現(xiàn)的呢?將查詢表示為布爾表達(dá)式Q=(aVb)八z,并轉(zhuǎn)換成析取范式qDNF=(1,0,1)V(0,1,1)V(1,1,1)(三元組);文檔1和文檔2的三元組對(duì)應(yīng)值分別為(1,1,0)和(1,1,1);經(jīng)過(guò)匹配,將文檔2返回;布爾模型的優(yōu)點(diǎn):通過(guò)使用復(fù)雜的布爾表達(dá)式,可以很方便地控制查詢結(jié)果;布爾模型問(wèn)題:1.不支持部分匹配,而完全匹配會(huì)導(dǎo)致太多或者太少的,非常剛性:“與”意味著全部;“或”意味著任何一個(gè);2很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回;3很難對(duì)輸出進(jìn)行排序;向量空間模型(VectorSpaceModel).文檔表示向量空間模型把每個(gè)文檔表示成一個(gè)t維的向量,這t維特征可以是單詞、詞組、13N-gram片段等,最常用的是單詞。每個(gè)特征會(huì)計(jì)算相應(yīng)的權(quán)重,這t維帶有權(quán)重的特征共同構(gòu)成了一個(gè)文檔,用于表示文檔的主題內(nèi)容。實(shí)際系統(tǒng)中的維度非常高,成千上萬(wàn)。.特征權(quán)重計(jì)算文檔和查詢轉(zhuǎn)換為特征向量時(shí),每個(gè)特征(即單詞)會(huì)賦予權(quán)值,一般采用TF-IDF框架計(jì)算權(quán)值。.相似性計(jì)算向量空間模型以查詢和文檔之間的內(nèi)容相關(guān)性來(lái)作為相關(guān)性的替代,按照文檔和查詢的相似性得分從高到低排序作為搜索結(jié)果,但是兩者實(shí)際并不等同。概率檢索模型(probabilitymoddl概率檢索模型基于概率排序原理,是目前效果最好的模型之一,okapiBM25這一經(jīng)典概率模型計(jì)算公式已經(jīng)在商業(yè)搜索引擎的網(wǎng)頁(yè)排序中廣泛應(yīng)用。概率排序原理基本思想:給定一個(gè)用戶查詢,若搜索系統(tǒng)能在搜索結(jié)果排序時(shí)按照文檔和用戶查詢的相關(guān)性由高到低排序,那么這個(gè)搜索系統(tǒng)的準(zhǔn)確性是最優(yōu)的。I.實(shí)際實(shí)現(xiàn)根據(jù)用戶的查詢將文檔集合劃分為兩個(gè)集合:相關(guān)文檔子集和不相關(guān)文檔子集。將相關(guān)性衡量轉(zhuǎn)換為分類問(wèn)題,對(duì)某個(gè)文檔D來(lái)說(shuō),若其屬于相關(guān)文檔子集的概率大于屬于不相關(guān)文檔的概率,就認(rèn)為它與查詢相關(guān)。I.估值公式基于二元獨(dú)立模型^【乂)的二元假設(shè)和詞匯獨(dú)立性假設(shè),得到最終的相關(guān)性估算公式產(chǎn)⑴IR)二口M.一里P(r)|NR)_]由巾式4其中pi代表第i個(gè)單詞在相關(guān)文檔集合中出現(xiàn)的概率,si代表第i個(gè)單詞在不相關(guān)文檔集合中出現(xiàn)的概率。取log便于計(jì)算:BIM模型只考慮了單詞是否在文檔中出現(xiàn)過(guò),而未考慮單詞的權(quán)值。BM25模型在其基礎(chǔ)上考慮了單詞在查詢中的權(quán)值及單詞在文檔中的權(quán)值,擬合出綜合公式,并通過(guò)實(shí)驗(yàn)引入了一些經(jīng)驗(yàn)參數(shù)。14語(yǔ)言模型(LanguageModel)基于統(tǒng)計(jì)語(yǔ)言模型的檢索模型于1998年首次提出,借鑒了語(yǔ)音識(shí)別領(lǐng)域采用的語(yǔ)言模型技術(shù)。一類最簡(jiǎn)單的語(yǔ)言模型與一個(gè)概率有窮自動(dòng)機(jī)等價(jià)。在一元語(yǔ)言模型中,詞出現(xiàn)的先后次序無(wú)關(guān)緊要,因此,這類模型也往往稱為詞袋模型.基本思想?yún)^(qū)別于其他大多數(shù)檢索模型從查詢到文檔(即給定用戶查詢,如何找出相關(guān)的文檔),語(yǔ)言模型由文檔到查詢,即為每個(gè)文檔建立不同的語(yǔ)言模型,判斷由文檔生成用戶查詢的可能性有多大,然后按照這種生成概率由高到低排序,作為搜索結(jié)果。.生成查詢概率為每個(gè)文檔建立一個(gè)語(yǔ)言模型,語(yǔ)言模型代表了單詞(或單詞序列)在文檔中的分布情況。針對(duì)查詢中的單詞,每個(gè)單詞都有一個(gè)抽取概率,將這些單詞的抽取概率相乘就是文檔生成查詢的概率。III,存在問(wèn)題由于一個(gè)文檔文字內(nèi)容有限,所以很多查詢?cè)~都未在文中出現(xiàn)過(guò),生成概率為0,會(huì)導(dǎo)致查詢整體的生成概率為0,這被稱為語(yǔ)言模型的數(shù)據(jù)稀疏問(wèn)題,是語(yǔ)言模型方法重點(diǎn)需要解決的問(wèn)題。.解決方案一般采用數(shù)據(jù)平滑方式解決數(shù)據(jù)稀疏問(wèn)題。語(yǔ)言模型檢索方法則是為所有單詞引入一個(gè)背景概率做數(shù)據(jù)平滑。.查詢似然模型(querylikelihoodmodel)對(duì)文檔集中的每篇文檔d構(gòu)建其對(duì)應(yīng)的語(yǔ)言模型Md。目標(biāo)是將文檔按照其與查詢相關(guān)的似然P(d|q)排序。最普遍的計(jì)算P(d|q)的方法是使用多項(xiàng)式一元語(yǔ)言模型,該模型等價(jià)于多項(xiàng)式樸素貝葉斯模型,其中這里的文檔相當(dāng)于后者中的類別,每篇文檔在估計(jì)中都是一門(mén)獨(dú)立的語(yǔ)言。在基于語(yǔ)言模型(簡(jiǎn)記為L(zhǎng)M)的檢索中,可以將查詢的生成看成一個(gè)隨機(jī)過(guò)程。具體的方法是:(1)對(duì)每篇文檔推導(dǎo)出其LM;(2)估計(jì)查詢?cè)诿總€(gè)文檔di的LM下的生成概率P(q|Md)(3)按照上述概率對(duì)文檔進(jìn)行排序。153.3.3知識(shí)圖譜以知識(shí)圖譜構(gòu)建事實(shí)型的問(wèn)答系統(tǒng),也稱之為知識(shí)庫(kù)問(wèn)答(KnowledgeBaseQuestionAnswering,KBQA)知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是三元組(SPO:Subject,Predicate,Object分別表示主語(yǔ)、屬性、賓語(yǔ))。三元組的基本形式主要包括:實(shí)體1-關(guān)系-實(shí)體2概念-屬性-屬性值實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。概念主要指集合、類別、對(duì)象類型、事物的種類,例如人物、地理等;屬性主要指對(duì)象可能具有的屬性、特征、特性、特點(diǎn)以及參數(shù),例如國(guó)籍、生日等;屬性值主要指對(duì)象指定屬性的值,例如中國(guó)、1988-09-08等。每個(gè)實(shí)體用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),每個(gè)屬性-屬性值對(duì)(attribute-valuepair,AVP)可用來(lái)刻畫(huà)實(shí)體的內(nèi)在特性,而關(guān)系可用來(lái)連接兩個(gè)實(shí)體,刻畫(huà)它們之間的關(guān)聯(lián)?;谥R(shí)圖譜的問(wèn)答系統(tǒng),需要解決兩個(gè)核心問(wèn)題:如何理解問(wèn)題語(yǔ)義,并用計(jì)算機(jī)可以接受的形式進(jìn)行表示(問(wèn)題的理解和表示);以及如何將該問(wèn)題表示關(guān)聯(lián)到知識(shí)圖譜的結(jié)構(gòu)化查詢中(語(yǔ)義關(guān)聯(lián))。傳統(tǒng)的主流方法可以分為三類:1)語(yǔ)義解析(SemanticParsing):該方法是一種偏語(yǔ)言學(xué)的方法,主體思想是將自然語(yǔ)言轉(zhuǎn)化為一系列形式化的邏輯形式(logicform),通過(guò)對(duì)邏輯形式進(jìn)行自底向上的解析,得到一種可以表達(dá)整個(gè)問(wèn)題語(yǔ)義的邏輯形式,通過(guò)相應(yīng)的查詢語(yǔ)句在知識(shí)庫(kù)中進(jìn)行查詢,從而得出答案。下圖紅色部分即邏輯形式,綠色部分wherewasObamaborn為自然語(yǔ)言問(wèn)題,藍(lán)色部分為語(yǔ)義解析進(jìn)行的相關(guān)操作,而形成的語(yǔ)義解析樹(shù)的根節(jié)點(diǎn)則是最終的語(yǔ)義解析結(jié)果,可以通過(guò)查詢語(yǔ)句直接在知識(shí)庫(kù)中查詢最終答案。2)信息抽取(InformationExtraction):該類方法通過(guò)提取問(wèn)題中的實(shí)體,通過(guò)在知識(shí)庫(kù)中查詢?cè)搶?shí)體可以得到以該實(shí)體節(jié)點(diǎn)為中心的知識(shí)庫(kù)子圖,子圖中的每一個(gè)節(jié)點(diǎn)或邊都可以作為候選答案,通過(guò)觀察問(wèn)題依據(jù)某些規(guī)則或模板進(jìn)行信息抽取,得到問(wèn)題特征向量,建立分類器通過(guò)輸入問(wèn)題特征向量對(duì)候選答案進(jìn)行篩選,從而得出最終答案。3)向量建模(VectorModeling):該方法思想和信息抽取的思想比較接近,根據(jù)問(wèn)題得出候選答案,把問(wèn)題和候選答案都映射為分布式表達(dá)DistributedEmbedding),通過(guò)訓(xùn)練數(shù)據(jù)對(duì)該分布式表達(dá)進(jìn)行訓(xùn)練,使得問(wèn)題和正確答案的向量表達(dá)的得分(通常以點(diǎn)乘為形式)盡量高,如下圖所示。模型訓(xùn)練完成后則可根據(jù)候選答案的向量表達(dá)和問(wèn)16題表達(dá)的得分進(jìn)行篩選,得出最終答案。知識(shí)圖譜架構(gòu):同的數(shù)據(jù)類型,我們采用不同的方法進(jìn)行處理。圖3同的數(shù)據(jù)類型,我們采用不同的方法進(jìn)行處理。圖3數(shù)據(jù)獲取及處理方法圖數(shù)據(jù)獲取是建立知識(shí)圖譜的第一步。目前,知識(shí)圖譜數(shù)據(jù)源按來(lái)源渠道的不同可分為兩種:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常包含在行業(yè)內(nèi)部數(shù)據(jù)庫(kù)表并以結(jié)構(gòu)化的方式存儲(chǔ),是一種非公開(kāi)或半公開(kāi)的數(shù)據(jù);另一種是網(wǎng)絡(luò)上公開(kāi)、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁(yè)的形式存在,是非結(jié)構(gòu)化的數(shù)據(jù)。按數(shù)據(jù)結(jié)構(gòu)的不同,可分為三種:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),根據(jù)不從不同來(lái)源.不同結(jié)構(gòu)的數(shù)相中圍行和譚捷雙,形凡知祖存入到知祖陽(yáng)靖“(二)信息抽?。↖nformationExtraction信息抽取的關(guān)鍵問(wèn)題是如何從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選知識(shí)單元。如前文所說(shuō),知識(shí)獲取有兩種渠道,前者只需要簡(jiǎn)單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語(yǔ)言處理等技術(shù)來(lái)提取出結(jié)構(gòu)化信息,這正是信息抽取的難點(diǎn)問(wèn)題,涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。17(1)實(shí)體抽?。‥ntityExtraction)/命名實(shí)體識(shí)別(NameEntityRecognition)實(shí)體抽取又稱為命名實(shí)體識(shí)別(NER),是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體,其目的就是建立知識(shí)圖譜中的“節(jié)點(diǎn)”。實(shí)體抽取的質(zhì)量(準(zhǔn)確率和召回率)對(duì)后續(xù)的知識(shí)獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分。實(shí)體的類型主要包括三大類七小類:實(shí)體類(包括人名,地名,機(jī)構(gòu)名)、時(shí)間類(日期,時(shí)間)、數(shù)字類(貨幣、百分比)。最初,實(shí)體識(shí)別通常采用人工預(yù)定義實(shí)體分類體系的方式,但是隨著技術(shù)的日新月異,這種老舊的方式已經(jīng)很難適應(yīng)時(shí)代的需求,因此面向開(kāi)放領(lǐng)域的實(shí)體識(shí)別和分類極具研究?jī)r(jià)值。在面向開(kāi)放域的實(shí)體識(shí)別和分類研究中,不需要也不可能為每個(gè)領(lǐng)域或者每個(gè)實(shí)體類別建立單獨(dú)的語(yǔ)料庫(kù)作為訓(xùn)練集。因此,研究人員主要面臨的挑戰(zhàn)是如何從給定的少量實(shí)體實(shí)例中自動(dòng)發(fā)現(xiàn)具有區(qū)分力的模型。一種思路是根據(jù)已知的實(shí)體實(shí)例進(jìn)行特征建模,利用該模型處理海量數(shù)據(jù)集得到新的命名實(shí)體列表,然后針對(duì)新實(shí)體建模,迭代地生成實(shí)體標(biāo)注語(yǔ)料庫(kù)。另一種思路是利用搜索引擎的服務(wù)器日志,事先并不給出實(shí)體分類等信息,而是基于實(shí)體的語(yǔ)義特征從搜索日志中識(shí)別出命名實(shí)體,然后采用聚類算法對(duì)識(shí)別出的實(shí)體對(duì)象進(jìn)行聚類。(2)關(guān)系抽?。≧elationExtraction)文本語(yǔ)料經(jīng)過(guò)實(shí)體抽取之后得到的是一系列離散的命名實(shí)體(節(jié)點(diǎn)),為了得到語(yǔ)義信息,還需要從相關(guān)的語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系(邊),才能將多個(gè)實(shí)體或概念聯(lián)系起來(lái),形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。研究關(guān)系抽取技術(shù),就是研究如何解決從文本語(yǔ)料中抽取實(shí)體間的關(guān)系。(3)屬性抽?。ˋttributeExtraction)屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,從而完成對(duì)實(shí)體屬性的完整勾畫(huà),如針對(duì)某款手機(jī),可以從互聯(lián)網(wǎng)中獲取多源(異構(gòu))的數(shù)據(jù),從中得到其品牌、配置等信息。如果把實(shí)體的屬性值看作是一種特殊的實(shí)體,那么屬性抽取實(shí)際上也是一種關(guān)系抽取。百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是通用領(lǐng)域?qū)傩猿槿⊙芯康闹饕獢?shù)據(jù)來(lái)源,但具體到特定的應(yīng)用領(lǐng)域,涉及大量的非結(jié)構(gòu)化數(shù)據(jù),屬性抽取仍然是一個(gè)巨大的挑戰(zhàn)。(三)知識(shí)融合(KnowledgeFusion)經(jīng)由信息抽取之后的信息單元間的關(guān)系是扁平化的,缺乏層次性和邏輯性,同時(shí)存在大量冗余甚至錯(cuò)誤的信息碎片。知識(shí)融合,簡(jiǎn)單理解,就是將多個(gè)知識(shí)庫(kù)中的知識(shí)進(jìn)行整合,形成一個(gè)知識(shí)庫(kù)的過(guò)程,在這個(gè)過(guò)程中,主要關(guān)鍵技術(shù)包含指代消解、實(shí)體消歧、實(shí)體鏈接。不同的知識(shí)庫(kù),收集知識(shí)的側(cè)重點(diǎn)不同,對(duì)于同一個(gè)實(shí)體,有知識(shí)庫(kù)的可能側(cè)重于其本身某18個(gè)方面的描述,有的知識(shí)庫(kù)可能側(cè)重于描述實(shí)體與其它實(shí)體的關(guān)系,知識(shí)融合的目的就是將不同知識(shí)庫(kù)對(duì)實(shí)體的描述進(jìn)行整合,從而獲得實(shí)體的完整描述。知識(shí)融合旨在解決如何將關(guān)于同一個(gè)實(shí)體或概念的多源描述信息融合起來(lái)。(1)指代消解(CorefbrenceResolution)CoreferenceResolution,字面上翻譯應(yīng)該是“共指消解”,但在大部分博客或者論壇中通常被稱呼為“指代消解”。一般情況下,指代分為三種(NLP領(lǐng)域一般只關(guān)注前兩種指代類型):一是回指(也稱指示性指代),對(duì)應(yīng)單詞為“anaphora",指的是當(dāng)前的指代詞與上文出現(xiàn)的詞、短語(yǔ)或句子(句群)存在密切的語(yǔ)義關(guān)聯(lián)性,它指向另一個(gè)詞(稱為先行詞),該指代詞的解釋依賴于先行詞的解釋,具有非對(duì)稱性和非傳遞性;二是共指(也稱同指),對(duì)應(yīng)單詞為“coreference",指的是兩個(gè)名詞(包括代名詞、名詞短語(yǔ))指向真實(shí)世界中的同一參照體,這種指代脫離上下文仍然成立。共指消解技術(shù)主要用于解決多個(gè)指稱對(duì)應(yīng)同一實(shí)體對(duì)象的問(wèn)題。三是“下指”,對(duì)應(yīng)單詞為“cataphora”,和回指剛好相反,指的是指代詞的解釋取決于指代詞之后的某些詞、短語(yǔ)或句子(句群)的解釋。如下圖中的he和his都指代后面的Lord:所以,根據(jù)上面描述,個(gè)人認(rèn)為將“CoreferenceResolution”翻譯為“指代消解”更為恰當(dāng)。(2)實(shí)體消歧(EntityDisambiguation)有些實(shí)體寫(xiě)法不一樣,但指向同一個(gè)實(shí)體,比如'NewYork”表示紐約,而,NYC”同樣也可以表示紐約。這種情況下,實(shí)體消歧可以減少實(shí)體的種類,降低圖譜的稀疏性。實(shí)體消歧是專門(mén)用于解決同名實(shí)體產(chǎn)生歧義問(wèn)題的技術(shù),通過(guò)實(shí)體消歧,就可以根據(jù)當(dāng)前的語(yǔ)境,準(zhǔn)確建立實(shí)體鏈接,實(shí)體消歧主要采用聚類法。其實(shí)也可以看做基于上下文的分類問(wèn)題,類似于詞性消歧和詞義消歧。(3)實(shí)體鏈接(EntityLinking)實(shí)體鏈接(entitylinking)是指對(duì)于從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過(guò)相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象。(4)知識(shí)合并實(shí)體鏈接鏈接的是從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)那里通過(guò)信息抽取提取出來(lái)的數(shù)據(jù)。那么除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)以外,還有個(gè)更方便的數(shù)據(jù)來(lái)源一一結(jié)構(gòu)化數(shù)據(jù),如外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)。對(duì)于這部分結(jié)構(gòu)化數(shù)據(jù)的處理,就是知識(shí)合并的內(nèi)容啦。一般來(lái)說(shuō)知識(shí)合并主要分為兩種:合并外部知識(shí)庫(kù),主要處理數(shù)據(jù)層和模式層的沖突19合并關(guān)系數(shù)據(jù)庫(kù),有RDB2RDF等方法(四)知識(shí)加工(KnowledgeProcessin)海量數(shù)據(jù)在經(jīng)信息抽取、知識(shí)融合之后得到一系列基本的事實(shí)表達(dá),但這并不等同于知識(shí),要想獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分納入知識(shí)體系中以確保知識(shí)庫(kù)的質(zhì)量,這就是知識(shí)加工的過(guò)程。知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。(1)本體(Ontology)本體的概念:本體定義了組成領(lǐng)域的詞匯表的基本術(shù)語(yǔ)及其關(guān)系,以及結(jié)合這些術(shù)語(yǔ)和關(guān)系來(lái)定義詞匯表外延的規(guī)則。領(lǐng)域。一個(gè)本體描述的是一個(gè)特定的領(lǐng)域。比如我們確定這次要描述的領(lǐng)域是「大學(xué)」。術(shù)語(yǔ)。指給定領(lǐng)域中的重要概念。例如,確定要描述大學(xué)了,對(duì)于一個(gè)大學(xué)來(lái)說(shuō)什么概念是重要的呢?我們可以列舉出教職工、學(xué)生、課程等等概念?;拘g(shù)語(yǔ)之間的關(guān)系。包括類的層次結(jié)構(gòu),包括并列關(guān)系、上下位關(guān)系等等。比如教職工是老師、行政人員、技術(shù)支持人員的父類;學(xué)生是本科生、研究生的父類;研究生是碩士、博士的父類等等。詞匯表外延的規(guī)則。包括屬性、值約束、不相交描述(如教職人員和學(xué)生不相交)、對(duì)象間邏輯關(guān)系的規(guī)定(如一個(gè)教研室至少有10名教職工)等等。(2)本體構(gòu)建(OntologyExtraction)本體構(gòu)建過(guò)程包含三個(gè)階段:實(shí)體并列關(guān)系相似度計(jì)算;實(shí)體上下位關(guān)系抽??;本體的生成。比如對(duì)下面這個(gè)例子,當(dāng)知識(shí)圖譜剛得到“阿里巴巴'、“騰訊”、“手機(jī)”這三個(gè)實(shí)體的時(shí)候,可能會(huì)認(rèn)為它們?nèi)齻€(gè)之間并沒(méi)有什么差別,但當(dāng)它去計(jì)算三個(gè)實(shí)體之間的相似度后,就會(huì)發(fā)現(xiàn),阿里巴巴和騰訊之間可能更相似,和手機(jī)差別更大一些。這就是第一步的作用,但這樣下來(lái),知識(shí)圖譜實(shí)際上還是沒(méi)有一個(gè)上下層的概念,它還是不知道,阿里巴巴和手機(jī),根本就不隸屬于一個(gè)類型,無(wú)法比較。因此我們?cè)趯?shí)體上下位關(guān)系抽取這一步,就需要去完成這樣的工作,從而生成第三步的本體。當(dāng)三步結(jié)束后,這個(gè)知識(shí)圖譜可能就會(huì)明白,“阿里巴巴和騰訊,其實(shí)都是公司這樣一個(gè)實(shí)體下的細(xì)分實(shí)體。它們和手機(jī)并不是一類?!保?)知識(shí)推理(KnowledgeInference)完成了本體構(gòu)建這一步之后,一個(gè)知識(shí)圖譜的雛形便已經(jīng)搭建好了。但可能在這個(gè)時(shí)候,知識(shí)圖譜之間大多數(shù)關(guān)系都是殘缺的,缺失值非常嚴(yán)重,那么這個(gè)時(shí)候,我們就可以使用知識(shí)推理技術(shù),去完成進(jìn)一步的知識(shí)發(fā)現(xiàn)。知識(shí)推理就是指從知識(shí)庫(kù)中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過(guò)計(jì)算機(jī)推理,建立實(shí)體間的新關(guān)聯(lián),從而擴(kuò)展和豐富知識(shí)網(wǎng)絡(luò)。20例如康熙是雍正的父親,雍正是乾隆的父親,那么盡管康熙和乾隆這兩個(gè)實(shí)體之間通過(guò)知識(shí)推理,就可以獲得他們之間是祖孫關(guān)系。知識(shí)推理的對(duì)象也并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值,本體的概念層次關(guān)系等。比如:推理屬性值:已知某實(shí)體的生日屬性,可以通過(guò)推理得到該實(shí)體的年齡屬性;推理概念:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)知識(shí)的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理。(4)質(zhì)量評(píng)估(QualityEvaluation)質(zhì)量評(píng)估也是知識(shí)庫(kù)構(gòu)建技術(shù)的重要組成部分,這一部分存在的意義在于:可以對(duì)知識(shí)的可信度進(jìn)行量化,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量。3.4答案抽取模塊答案提取是問(wèn)答系統(tǒng)實(shí)現(xiàn)的最后一步。它從檢索模塊檢索出的相關(guān)段落、或句群、或句子中抽取出和提問(wèn)答案類型一致的實(shí)體,根據(jù)某種原則對(duì)候選答案進(jìn)行打分,把概率最大的候選答案返回給用戶?;谝?guī)則的方法1、關(guān)鍵詞匹配。首先通過(guò)問(wèn)句所屬類別來(lái)篩選出候選答案句(問(wèn)句和答案句類別一致),再通過(guò)問(wèn)句關(guān)鍵詞和答案句中關(guān)鍵詞匹配。2、相似度計(jì)算及排序。通過(guò)計(jì)算問(wèn)句和候選答案句間的相似度,并排序,相似度值最大的確定為答案。(常用的相似度計(jì)算方法有三種:歐式距離,明可夫斯基距離,余弦相似度)(1)歐式距離歐氏距離是最常用的距離計(jì)算公式,衡量的是多維空間中各個(gè)點(diǎn)之間的絕對(duì)距離,適用于當(dāng)數(shù)據(jù)很稠密并且連續(xù)時(shí)。公式如下:MinkpwskiDistance-(XIx-yIp)1/p 公式]i=1(2)明可夫斯基距離明氏距離是歐氏距離的推廣,是對(duì)多個(gè)距離度量公式的概括性的表述。公式2MinkpwskiDistance=(ZIx-yIp)1/公式2iii=1從公式我們可以看出,21
當(dāng)p==1,"明可夫斯基距離”變成“曼哈頓距離”當(dāng)p==2,"明可夫斯基距離”變成“歐幾里得距離”當(dāng)p==8,"明可夫斯基距離”變成“切比雪夫距離”(3)余弦相似度余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,而非距離或長(zhǎng)度上。公式如下:CosineSimilarityCosineSimilarity=cos(0)=ABIIIAIIIBII公式33.4.霆于統(tǒng)計(jì)的方法答案提取問(wèn)題可以看成是一個(gè)二分類任務(wù)。即判斷一個(gè)句子是否是包含答案的句子。共分為兩個(gè)主要步驟:一是構(gòu)建特征工程,二是選取機(jī)器學(xué)習(xí)模型。1、構(gòu)建特征工程(1)數(shù)量特征候選答案句子中關(guān)鍵詞匹配的個(gè)數(shù)占問(wèn)題關(guān)鍵詞個(gè)數(shù)的比例,該特征反映了候選答案句子與問(wèn)題在詞匯匹配層面的相似度。候選答案句子中名詞、動(dòng)詞、形容詞或數(shù)量詞的個(gè)數(shù)占問(wèn)題關(guān)鍵詞個(gè)數(shù)的比例,該特征反映了候選答案句子與問(wèn)題在指定詞性的詞匯匹配層面的相似度。(2)距離特征候選答案與其前面出現(xiàn)的第一個(gè)匹配名詞(動(dòng)詞、形容詞或數(shù)量詞)之間的距離占候選答案句長(zhǎng)度的比例,該特征反映了候選答案與前面指定詞性的匹配詞的距離遠(yuǎn)近,同時(shí)也表示了候選答案的前面是否出現(xiàn)了指定詞性的匹配詞,如果沒(méi)有出現(xiàn)則特征值為0。候選答案與其后面出現(xiàn)的第一個(gè)匹配名詞(動(dòng)詞、形容詞或數(shù)量詞)之間的距離占候選答案句長(zhǎng)度的比例。關(guān)鍵詞最小匹配緊密度,將問(wèn)題與文檔分詞并提取關(guān)鍵詞后,計(jì)算包含所有匹配詞的最小窗口長(zhǎng)度與窗口中的匹配詞的總數(shù)的比例,該特征反映的是候選答案句子中所有匹配詞出現(xiàn)時(shí)的緊密程度。候選答案與最近匹配詞之間的距離。候選答案與各匹配詞之間的平均距離。(3)順序特征候選答案句子的詞序列與問(wèn)題的詞序列的順序相似度,此特征反映了候選答案句子中的匹配詞出現(xiàn)的順序是否與其在問(wèn)題中的順序相同,并用順序相同的詞數(shù)占查詢?cè)~數(shù)的比例來(lái)度量,在這里,候選答案句子中的候選答案可以與問(wèn)題中的疑問(wèn)詞相匹配,所以為了更好的體現(xiàn)順序相似度,可以將問(wèn)題轉(zhuǎn)化為稱述句之后再計(jì)算詞序列的順序相似度。順序相似度的22計(jì)算方法為:候選答案句子的詞序列與問(wèn)題詞序列中出現(xiàn)順序相同的詞的個(gè)數(shù)與問(wèn)題詞序列中詞的個(gè)數(shù)之比。不考慮候選答案的候選答案句子的詞序列(即為匹配詞序列)與不考慮疑問(wèn)詞的問(wèn)題的詞序列(即為查詢?cè)~序列)的順序相似度,這與上一個(gè)特征相似。各匹配詞與候選答案之間的順序關(guān)系和各查詢?cè)~與疑問(wèn)詞的順序關(guān)系相同的個(gè)數(shù)占查詢?cè)~個(gè)數(shù)的比例。(4)句法結(jié)構(gòu)特征針對(duì)候選答案句子中每?jī)蓚€(gè)匹配詞,分別提取其在問(wèn)題和候選答案句中的句法依存關(guān)系路徑,計(jì)算兩個(gè)路徑的相似度,最后求平均值作為特征值。問(wèn)題中疑問(wèn)詞與查詢?cè)~之間的路徑與候選答案句子中的候選答案與匹配詞之間的路徑的相似度的平均值。這特征主要衡量了候選答案與查詢?cè)~的句法結(jié)構(gòu)與問(wèn)題句中疑問(wèn)詞與匹配詞的句法結(jié)構(gòu)的相似性。2、選用機(jī)器學(xué)習(xí)模型(1)支持向量機(jī)。(2)樸素貝葉斯。(3)深度學(xué)習(xí)模型。4問(wèn)答系統(tǒng)的應(yīng)用場(chǎng)景任務(wù)型任務(wù)型屬于助手服務(wù),可用于處理“用戶目標(biāo)明確,屬性固定”的任務(wù)。如訂飛機(jī)票”只要用戶給出<出發(fā)地,目的地,時(shí)間〉此類屬性,系統(tǒng)識(shí)別出用戶需求所含屬性,并讓用戶補(bǔ)充屬性的值填充即可。針對(duì)此,阿里小蜜團(tuán)隊(duì)設(shè)計(jì)了基于字典和樣式的填槽模塊,可以識(shí)別出15種不同的屬性。技術(shù):意圖決策+(填槽)slotfilling思路:1)首先按照任務(wù)領(lǐng)域進(jìn)行本體知識(shí)庫(kù)的構(gòu)建。2)在問(wèn)答匹配過(guò)程中結(jié)合上下文模型和領(lǐng)域數(shù)據(jù)模型不斷在Query中進(jìn)行slot屬性的提取,并循環(huán)進(jìn)行本體意圖樹(shù)的不斷填充和修改,直到必選意圖樹(shù)填充完整后進(jìn)行輸出。如圖()所示。234.2問(wèn)答型如果用戶需要的是尋找某種信息或某種解決辦法,比如”忘記登陸密碼怎么辦”.此類需求的核心是知識(shí)圖譜技術(shù),通過(guò)抽取實(shí)體,關(guān)系查詢等技術(shù)找到需求對(duì)應(yīng)的答案.技術(shù):知識(shí)圖譜+檢索模型匹配思路:1)提問(wèn)預(yù)處理:分詞、指代消解、糾錯(cuò)等基本文本處理流程;2)檢索召回:通過(guò)檢索的方式在候選數(shù)據(jù)中召回可能的匹配候選數(shù)據(jù);3)計(jì)算:通過(guò)Query結(jié)合上下文模型與候選數(shù)據(jù)進(jìn)行計(jì)算,采用文本之間的距離計(jì)算方式(余弦相似度、編輯距離)以及分類模型相結(jié)合的方式進(jìn)行計(jì)算;4)最終根據(jù)返回的候選集打分閾值進(jìn)行最終的產(chǎn)品流程設(shè)計(jì)語(yǔ)聊型該類型特點(diǎn),非面向目標(biāo)、語(yǔ)義意圖不明確,通常期待的是語(yǔ)義相關(guān)性和漸進(jìn)性,面向開(kāi)放域問(wèn)題。目前業(yè)界普遍使用兩種模型:生成式模型DeepLearning生成模型,通過(guò)Encoder-Decoder模型通過(guò)LSTM的方式進(jìn)行SequencetoSequence生成。優(yōu)點(diǎn):通過(guò)深層語(yǔ)義方式進(jìn)行答案生成,答案不受語(yǔ)料庫(kù)規(guī)模限制。缺點(diǎn):模型的可解釋性不強(qiáng),且難以保證一致性和合理性回答。檢索式模型(傳統(tǒng)式匹配原則)優(yōu)點(diǎn):通過(guò)深層語(yǔ)義方式進(jìn)行答案生成,答案不受語(yǔ)料庫(kù)規(guī)模限制缺點(diǎn):模型的可解釋性不強(qiáng),且難以保證一致性和合理性回答24結(jié)合兩者各自的優(yōu)勢(shì),將兩個(gè)模型進(jìn)行融合。流程如下:1)先通過(guò)傳統(tǒng)的檢索模型檢索出候選集數(shù)據(jù)2)然后通過(guò)Seq2SeqModel對(duì)候選集進(jìn)行Rerank,重排序后超過(guò)制定的閾值就進(jìn)行輸出,不到閾值就通過(guò)Seq2SeqModel進(jìn)行答案生成阿里小蜜客服系統(tǒng)阿里巴巴于2015年7月推出了阿里小蜜產(chǎn)品,在面世的僅僅幾年中,阿里小蜜發(fā)展之迅速令人難以想象。阿里小蜜給出了一個(gè)典型的智能對(duì)話系統(tǒng)的架構(gòu),如下圖所示:圖3典型的智能對(duì)話系統(tǒng)這個(gè)架構(gòu)不失一般性,放到任何一家公司,只要替換相應(yīng)的底層數(shù)據(jù),做好與數(shù)據(jù)對(duì)應(yīng)的具體算法及服務(wù),就可以成為一個(gè)實(shí)實(shí)在在的落地項(xiàng)目。從上面這張智能對(duì)話系統(tǒng)的架構(gòu)圖中可以看出:自然語(yǔ)言處理(NLP)是對(duì)話系統(tǒng)的核心部分。通過(guò)阿里巴巴公開(kāi)分享的技術(shù)文檔來(lái)看,在阿里小蜜中有一個(gè)比較核心的功能模塊。這個(gè)核心模塊功能,除了自然語(yǔ)言理解和對(duì)話管理之外,智能問(wèn)答模塊用來(lái)完成問(wèn)答類任務(wù),智能聊天用來(lái)完成閑聊類任務(wù)。它對(duì)外提供了SaaS/
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 抗疫的廣播稿
- 感恩父母主題演講稿集合15篇
- 年會(huì)發(fā)言稿合集15篇
- 收銀員崗前培訓(xùn)
- 志愿者核酸檢測(cè)心得體會(huì)
- 二零二五年度保姆聘請(qǐng)與雇主權(quán)益維護(hù)合同2篇
- 預(yù)血管化多孔β-磷酸三鈣組織工程骨的構(gòu)建及其生物學(xué)效應(yīng)評(píng)價(jià)
- 塔式太陽(yáng)能定日鏡場(chǎng)糾偏方法研究
- 2025版特殊教育學(xué)校樂(lè)器采購(gòu)及輔助教學(xué)合同2篇
- 應(yīng)急預(yù)案協(xié)同作戰(zhàn)
- 土法吊裝施工方案
- 商法題庫(kù)(含答案)
- BLM戰(zhàn)略規(guī)劃培訓(xùn)與實(shí)戰(zhàn)
- 鋼結(jié)構(gòu)用高強(qiáng)度大六角頭螺栓連接副 編制說(shuō)明
- 溝通與談判PPT完整全套教學(xué)課件
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(yíng)(吳洪貴)項(xiàng)目四 移動(dòng)商務(wù)運(yùn)營(yíng)內(nèi)容的傳播
- DB43T 2457-2022 烤煙采編烤分收包一體化作業(yè)規(guī)范
- GB/T 15945-1995電能質(zhì)量電力系統(tǒng)頻率允許偏差
- GB 32311-2015水電解制氫系統(tǒng)能效限定值及能效等級(jí)
- 國(guó)家重點(diǎn)支持高新技術(shù)領(lǐng)域(三級(jí)目錄)08
- 理論力學(xué)-運(yùn)動(dòng)學(xué)課件
評(píng)論
0/150
提交評(píng)論