




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 智能問(wèn)答系統(tǒng)中命名實(shí)體識(shí)別問(wèn)題研究 費(fèi)建軍摘要:信息化時(shí)代的到來(lái),人們從互聯(lián)網(wǎng)中快速獲得大量的信息。如何高效的從海量數(shù)據(jù)中獲取有用的資源的需求和人工智能的興起,促進(jìn)了問(wèn)答系統(tǒng)的發(fā)展。問(wèn)答系統(tǒng)是構(gòu)架于信息抽取之上,其影響著知識(shí)庫(kù)的結(jié)構(gòu)和解析問(wèn)句的方式。命名實(shí)體是信息抽取領(lǐng)域的一個(gè)子集。所以本文主要是針對(duì)實(shí)體識(shí)別模型進(jìn)行研究,本文介紹了三中主流實(shí)體識(shí)別模型的,并將股票實(shí)體作為研究對(duì)象,最終采用了crf(conditional random field)條件隨機(jī)場(chǎng)模型。在該模型基礎(chǔ)上根據(jù)上下文和詞性特征,提出了cc-crf識(shí)別算法。利用crf+訓(xùn)
2、練得到能夠識(shí)別代碼和名稱的cc-crf實(shí)體識(shí)別模型。關(guān)鍵詞:股票;命名實(shí)體識(shí)別;crf模型:tp391.6 :a :1007-9416(2017)07-0093-04命名實(shí)體通常指的是現(xiàn)實(shí)中獨(dú)立存在的具體的或者抽象的事物2。如何使計(jì)算機(jī)能夠理解自然語(yǔ)言是智能問(wèn)答系統(tǒng)需要解決的一個(gè)關(guān)鍵問(wèn)題。自然語(yǔ)言處理的研究范圍包括詞法分析、信息抽取、自動(dòng)文摘等1。 信息抽取領(lǐng)域中,命名實(shí)體識(shí)別作為重要分支3,其任務(wù)是標(biāo)注語(yǔ)句中的實(shí)體,所以命名實(shí)體的識(shí)別有著非常關(guān)鍵的意義。作為文本的基本單位,它包含大量的語(yǔ)義信息,因此對(duì)命名實(shí)體進(jìn)行識(shí)別可以保證最簡(jiǎn)單快捷的獲得文本信息。他存在的價(jià)值就是標(biāo)注語(yǔ)句中的實(shí)體,實(shí)體的識(shí)
3、別對(duì)正確解析自然語(yǔ)言有著極其重要的作用。識(shí)別的實(shí)體領(lǐng)域一般為人名、機(jī)構(gòu)名、地名以及專有名詞等。在實(shí)際研究中,還需要根據(jù)具體要求來(lái)確定。本文中,要識(shí)別的實(shí)體為股票名稱與股票代碼4。命名實(shí)體識(shí)別在問(wèn)句處理和知識(shí)庫(kù)的構(gòu)建方面發(fā)揮著關(guān)鍵性的作用。命名實(shí)體識(shí)別的方法主要有:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法和二者混合的方法5。本文介紹了四種命名實(shí)體識(shí)別模型(基于規(guī)則和詞典的方法、隱馬爾科模型、最大熵模型、條件隨機(jī)場(chǎng)模型)以及每種模型的優(yōu)缺點(diǎn)。在經(jīng)過(guò)對(duì)比并且結(jié)合股票命名實(shí)體的特點(diǎn),選擇條件隨機(jī)場(chǎng)作為投資領(lǐng)域命名實(shí)體的模型。并在此基礎(chǔ)上提出了引入了上下文特征和詞性特征的cc-crf識(shí)別算法。使用該模型對(duì)語(yǔ)
4、料訓(xùn)練得到cc-crf模型,并對(duì)模型的識(shí)別效果進(jìn)行測(cè)試。1 相關(guān)工作與常規(guī)實(shí)體識(shí)別模型1.1 基于規(guī)則和詞典的方法基于規(guī)則和詞典的方法的核心是規(guī)則模板構(gòu)造,但是模板的構(gòu)造必須由相關(guān)領(lǐng)域的專業(yè)人士來(lái)進(jìn)行。用其來(lái)識(shí)別該領(lǐng)域的命名實(shí)體。這種方式是該領(lǐng)域剛剛起步時(shí)候的識(shí)別方式。這種方式的缺點(diǎn)十分明顯:成本太高、需要大量的人力時(shí)間構(gòu)造相關(guān)領(lǐng)域規(guī)則模板、可移植性差。因此此類方法不是本文的研究重點(diǎn)。1.2 基于統(tǒng)計(jì)的方法基于統(tǒng)計(jì)的方法的核心是機(jī)器學(xué)習(xí)。此類方法以訓(xùn)練語(yǔ)料為輸入,利用語(yǔ)料對(duì)模型進(jìn)行訓(xùn)練,最終得到命名實(shí)體識(shí)別模型并輸出?;诮y(tǒng)計(jì)的方式不需要專業(yè)的語(yǔ)言學(xué)人才,也極大地降低了時(shí)間成本?;诮y(tǒng)計(jì)的方法
5、主要包括:隱馬爾科夫模型、條件隨機(jī)場(chǎng)、最大熵模型等6。1.2.1 隱馬爾科夫模型馬爾科夫模型7用來(lái)描述一個(gè)隨機(jī)過(guò)程,該隨機(jī)過(guò)程不可被直接觀察,但是可以通過(guò)另外一個(gè)可觀察的隨機(jī)過(guò)程間接觀察。該模型有其局限性,他必須是建立在以下的條件上:嚴(yán)格的獨(dú)立性假設(shè),即觀察值只受狀態(tài)的影響,而不受其他條件的影響。并且作為一種產(chǎn)生式模型,它需要通過(guò)枚舉出所有可能的觀察序列來(lái)獲得標(biāo)注序列和觀察序列的聯(lián)合概率。這對(duì)于長(zhǎng)距離序列來(lái)說(shuō),窮舉所有的觀察序列是不現(xiàn)實(shí)的。1.2.2 最大熵模型為了保證概率預(yù)測(cè)的隨機(jī)性和正確性,在推測(cè)一個(gè)隨機(jī)事件的概率時(shí),不要作出除了客觀約束條件規(guī)定以外的任何干涉。滿足上述要求的模型,熵值一定
6、是最大的8。在自然語(yǔ)言處理中,熵就是信息的不確定程度。熵值越大,分布所受的干涉越少,預(yù)測(cè)越接近真實(shí)情況。最大熵模型不需要嚴(yán)格的獨(dú)立性假設(shè),上下文信息可以被充分挖掘。它避免了隱馬爾科夫模型的缺陷。另外,最大熵模型只需考慮如何選擇特征。但是最大熵模型的時(shí)間復(fù)雜度非常高,而且可能發(fā)生標(biāo)記偏置的情況。1.2.3 條件隨機(jī)場(chǎng)模型(crf)條件隨機(jī)場(chǎng)(conditional random field,crf)模型指的是給定輸入變量的條件下得到輸出變量的條件概率9。對(duì)應(yīng)到命名實(shí)體識(shí)別中,條件隨機(jī)場(chǎng)即為判別給定觀察序列的標(biāo)注序列的條件概率模型。條件隨機(jī)場(chǎng)模型既保留了最大熵模型和隱馬爾可夫模型的優(yōu)點(diǎn),又克服了他
7、們存在的缺陷。crf模型不需要獨(dú)立性假設(shè)。它也避免了標(biāo)記偏置問(wèn)題。而且在性能上,條件隨機(jī)場(chǎng)要優(yōu)于其他兩種方式。然而,較高的時(shí)間和空間消耗是制約條件隨機(jī)場(chǎng)性能的缺點(diǎn)。crf模型一般被看做無(wú)向圖模型。設(shè)g=(v,e)為一個(gè)無(wú)向圖,其中的頂點(diǎn)集合為v,邊的集合為e。x為觀察序列,y為對(duì)應(yīng)的標(biāo)注序列。則標(biāo)注序列中的隨機(jī)變量與g中的點(diǎn)v對(duì)應(yīng)。馬爾科夫特性指的是某點(diǎn)是頂點(diǎn)的概率只和與它相連接的頂點(diǎn)有關(guān)。如果任一個(gè)隨機(jī)變量都服從馬爾科夫特性,即:,則將符合上述條件的(x,y)稱為條件隨機(jī)場(chǎng)。設(shè)表示線性鏈條件隨機(jī)場(chǎng),則有如下等式:2 cc-crf命名實(shí)體識(shí)別算法cc-crf識(shí)別算法在crf模型的基礎(chǔ)上引入了上
8、下文特征(context)和詞性特征(characteristic)。提出面向股票領(lǐng)域的cc-crf實(shí)體識(shí)別算法。使用crf+在此算法上對(duì)標(biāo)注好的股票相關(guān)語(yǔ)料進(jìn)行訓(xùn)練,得到crf模型。最后并對(duì)模型進(jìn)行測(cè)試,并對(duì)識(shí)別結(jié)果進(jìn)行分析。cc-crf算法具體的實(shí)現(xiàn)方式如下:(1)進(jìn)行語(yǔ)料標(biāo)注。根據(jù)2.3章節(jié)中的表3、表4進(jìn)行語(yǔ)料標(biāo)注。具體請(qǐng)參照2.3章節(jié)。(2)定義特征模板。根據(jù)2.1、2.2章節(jié)中的表1、表2寫(xiě)入crf+的template文件中,完成crf+的特征模板設(shè)定。具體請(qǐng)參照2.1、2.2章節(jié)。endprint(3)模型訓(xùn)練。本文的實(shí)驗(yàn)環(huán)境是ubuntu 14.04,在終端中執(zhí)行如下代碼:cr
9、f_learn -f 3 -c 4.0 template corpus_train.txt crf_model其中 -f為使用屬性的出現(xiàn)次數(shù) -c為代價(jià)參數(shù),訓(xùn)練結(jié)果將產(chǎn)生一個(gè)crf模型crf_model。2.1 上下文特征說(shuō)明為了更好的描述模型,crf的特征模板可以借助上下文信息,充分的挖掘其內(nèi)在的規(guī)律加以利用。在實(shí)際訓(xùn)練中,上下文的長(zhǎng)度將會(huì)對(duì)結(jié)果產(chǎn)生影響。過(guò)長(zhǎng)會(huì)增加模板的數(shù)量、訓(xùn)練時(shí)間的空耗、極大可能產(chǎn)生擬合;過(guò)短則會(huì)使信息挖掘力度不夠不能產(chǎn)生最優(yōu)特征函數(shù)。在股票領(lǐng)域的文本中,股票名稱往往和“股票”等詞相連,并且股票代碼一般緊挨著股票名稱”出現(xiàn)。因此,上下文特征的引用可以增加股票實(shí)體識(shí)別的
10、精準(zhǔn)率。在本文中,選擇設(shè)置上下文信息長(zhǎng)度為2。上下文特征模板如表1所示。2.2 詞性特征說(shuō)明除了上下文特征外10,詞性特征也可以反映文本中和實(shí)體有關(guān)的信息。一般來(lái)說(shuō),股票名是名詞(n),代碼是數(shù)詞(m),股票一般是名詞和動(dòng)詞(v)連在一起。因此,也將詞性特征引入股票實(shí)體的識(shí)別模型中。詞性特征模板如表2所示。2.3 訓(xùn)練語(yǔ)料制作和標(biāo)注本文主要針對(duì)投資領(lǐng)域中的股票類命名實(shí)體進(jìn)行識(shí)別,標(biāo)注文本中的股票名稱和股票代碼。由于并沒(méi)有投資領(lǐng)域語(yǔ)料庫(kù),因此相關(guān)訓(xùn)練語(yǔ)料需要人工獲取并制作。本文在同花順財(cái)經(jīng)上抓取了股票相關(guān)的文本,主要范圍是財(cái)經(jīng)新聞及題目,從中挑選了800條語(yǔ)句作為實(shí)驗(yàn)材料。從這800條語(yǔ)句中,隨
11、機(jī)抽取100條來(lái)制作測(cè)試用語(yǔ)句,其余用來(lái)制作訓(xùn)練語(yǔ)料。在crf的訓(xùn)練中,語(yǔ)料必須遵循嚴(yán)格的格式要求:每個(gè)字(詞)及其屬性為一行。因此,在得到分詞結(jié)果后,再對(duì)分詞結(jié)果進(jìn)行格式處理,分別得到11316條訓(xùn)練語(yǔ)料和5018條測(cè)試語(yǔ)料。在得到語(yǔ)料后,還需要對(duì)語(yǔ)料進(jìn)行標(biāo)注。本文定義的標(biāo)注集如表3所示。在確定了標(biāo)注集以后,手工標(biāo)注訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。標(biāo)注樣例如表4所示。最后得到本文crf模型訓(xùn)練所需的語(yǔ)料,將標(biāo)注好的11316條語(yǔ)料寫(xiě)入文件corpus_train.txt作為訓(xùn)練語(yǔ)料,剩下的寫(xiě)入文件corpus_test.txt作為測(cè)試語(yǔ)料。3 結(jié)果與分析在終端中執(zhí)行如下代碼:crf_test -m cr
12、f_model test_001 > result.txt執(zhí)行完該語(yǔ)句后,模型將對(duì)測(cè)試語(yǔ)料test_001進(jìn)行命名實(shí)體識(shí)別并且標(biāo)注,生成結(jié)果寫(xiě)入文件result.txt中。測(cè)試結(jié)果圖1所示。3.1 結(jié)果分析在對(duì)模型進(jìn)行測(cè)試后,需要分析標(biāo)注結(jié)果。準(zhǔn)確率、召回率和f值可以全面的反映識(shí)別的性能。設(shè)識(shí)別出的正確的實(shí)體數(shù)量為n*,識(shí)別出的全部實(shí)體數(shù)量為n,集合中全部正確的實(shí)體數(shù)量為n,則有:準(zhǔn)確率:召回率:f值:其中,f值綜合了p值和r值,f值越高,說(shuō)明p值和r值越高,模型的性能越好。通過(guò)對(duì)test_result.txt的處理,得到cc-crf模型的識(shí)別結(jié)果如表5所示。3.2 實(shí)驗(yàn)總結(jié)從結(jié)果來(lái)看,
13、cc-crf算法在股票實(shí)體方面的識(shí)別效果已經(jīng)非常好。cc-crf保證了模型效果的均衡性和穩(wěn)定性,在準(zhǔn)確率和召回率方面基本比較優(yōu)秀。4 結(jié)語(yǔ)信息化時(shí)代的到來(lái),人們從互聯(lián)網(wǎng)中快速獲得大量的信息。如何高效的從海量數(shù)據(jù)中獲取有用的資源的需求和人工智能的興起,促進(jìn)了問(wèn)答系統(tǒng)的發(fā)展。而本文講述的命名實(shí)體對(duì)智能問(wèn)答系統(tǒng)的架構(gòu)和發(fā)展也起到著非常關(guān)鍵的作用。本文的主要內(nèi)容是研究以命名實(shí)體識(shí)別為代表的信息抽取問(wèn)題。在綜合研究面向的對(duì)象以及三種常見(jiàn)模型的優(yōu)缺點(diǎn)后,并以股票為例進(jìn)行說(shuō)明,選擇條件隨機(jī)場(chǎng)作為投資領(lǐng)域命名實(shí)體的模型。并且在crf模型的基礎(chǔ)上,引入了上下文特征和詞性特征,提出了cc-crf識(shí)別算法。通過(guò)數(shù)據(jù)
14、收集、語(yǔ)料制作、訓(xùn)練、識(shí)別等步驟,利用crf+訓(xùn)練出了針對(duì)股票代碼和股票名稱的cc-crf模型。其結(jié)果在準(zhǔn)確率與召回率方面均比較優(yōu)秀。為智能投資問(wèn)答系統(tǒng)的架構(gòu)和實(shí)現(xiàn)做到了拋磚引玉。參考文獻(xiàn)1李生.自然語(yǔ)言處理的研究與發(fā)展j.燕山大學(xué)學(xué)報(bào),2013,(05):377-384.2楊燕.面向電商領(lǐng)域的智能問(wèn)答系統(tǒng)若干關(guān)鍵技術(shù)研究d.華東師范大學(xué),2016.3郭喜躍,何婷婷.信息抽取研究綜述j.計(jì)算機(jī)科學(xué),2015,(02):14-17+38.4吳陽(yáng).財(cái)經(jīng)領(lǐng)域命名實(shí)體識(shí)別方法的研究與系統(tǒng)實(shí)現(xiàn)d.哈爾濱工業(yè)大學(xué),2015.5孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述j.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010,(06):
15、42-47.6王峰.基于crf的中文命名實(shí)體識(shí)別方法研究d.中北大學(xué),2011.7 liu j. chinese named entity recognition algorithm based on the improved hidden markov model j.journal of chemical & pharmaceutical research, 2014, 6(7): 1474-1478.8ratnaparkhi a. maximum entropy models for natural language processing j. encyclopedia of machine learning, 2011, (25)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆高考數(shù)學(xué)二輪復(fù)習(xí)瘋狂專練5線性規(guī)劃文
- 2024秋高中地理第四章自然環(huán)境對(duì)人類活動(dòng)的影響第四節(jié)水資源對(duì)人類生存和發(fā)展的意義練習(xí)含解析中圖版必修1
- 二手轉(zhuǎn)讓房屋買賣合同范例
- 農(nóng)民出售小麥合同范本
- 內(nèi)河護(hù)坡工程合同范例
- 八年級(jí)物理下冊(cè)第十二章機(jī)械能1機(jī)械能作業(yè)設(shè)計(jì)新版教科版
- 公司高層聘用合同范例
- 鄉(xiāng)村振興土地合同范本
- 公司人員責(zé)任合同范例
- 個(gè)人建筑倉(cāng)庫(kù)合同范例
- 2024年08月浙江龍灣農(nóng)商銀行秋季招考筆試歷年參考題庫(kù)附帶答案詳解
- 高教社馬工程倫理學(xué)(第二版)教學(xué)課件10
- 三年級(jí) 下冊(cè)《花鐘》課件
- 中國(guó)糖尿病防治指南(2024版)圖文完整版
- 期末考試成績(jī)分析報(bào)告課件
- 農(nóng)業(yè)土壤改良技術(shù)手冊(cè)
- DG∕TJ 08-89-2016 空間格構(gòu)結(jié)構(gòu)工程質(zhì)量檢驗(yàn)及評(píng)定標(biāo)準(zhǔn)
- 巨量千川營(yíng)銷師(初級(jí))認(rèn)證考試題(附答案)
- DLT5210.1-電力建設(shè)施工質(zhì)量驗(yàn)收及評(píng)價(jià)規(guī)程全套驗(yàn)評(píng)表格之歐陽(yáng)法創(chuàng)編
- (2024)湖北省公務(wù)員考試《行測(cè)》真題及答案解析
- 安全技術(shù)管理專業(yè)畢業(yè)實(shí)習(xí)報(bào)告范文
評(píng)論
0/150
提交評(píng)論