基于規(guī)則庫(kù)的地名識(shí)別研究_第1頁(yè)
基于規(guī)則庫(kù)的地名識(shí)別研究_第2頁(yè)
基于規(guī)則庫(kù)的地名識(shí)別研究_第3頁(yè)
基于規(guī)則庫(kù)的地名識(shí)別研究_第4頁(yè)
基于規(guī)則庫(kù)的地名識(shí)別研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于規(guī)則庫(kù)的地名識(shí)別研究

登錄語言識(shí)別在提高漢語自動(dòng)分詞精度方面發(fā)揮著重要作用。本文就未登錄詞中地名的識(shí)別進(jìn)行了探討,采用兩級(jí)處理策略:第1級(jí)處理利用從大規(guī)模真實(shí)文本中統(tǒng)計(jì)獲得的地名上下文信息形成地名識(shí)別規(guī)則庫(kù),并對(duì)規(guī)則庫(kù)中規(guī)則的量化處理來體現(xiàn)規(guī)則在識(shí)別地名中的可信程度的不同,不同可信程度的規(guī)則產(chǎn)生的候選地名將作不同的后續(xù)處理,采用此方法,可以減少正確地名因?yàn)榭尚哦鹊投贿^濾掉的可能性,被識(shí)別的地名主要是其前詞、后詞在真實(shí)文本中作為地名的上下文共現(xiàn)頻度高的一部分地名;為了提高識(shí)別的召回率,引入了第2級(jí)處理,第2級(jí)處理根據(jù)地名前詞補(bǔ)召未能在第1級(jí)處理中識(shí)別出來的地名。文獻(xiàn)對(duì)帶特征詞的地名的識(shí)別進(jìn)行了研究。本文采用上述方法不僅實(shí)現(xiàn)了對(duì)不帶特征詞的中文地名的識(shí)別,而且有效地提高了識(shí)別的召回率。1生成地名識(shí)別規(guī)則庫(kù)本文從人工標(biāo)注過的1998年《人民日?qǐng)?bào)》語料中抽取出地名的上下文信息,生成地名識(shí)別規(guī)則庫(kù),以此規(guī)則庫(kù)去識(shí)別2000年《人民日?qǐng)?bào)》語料中的地名,并采用錯(cuò)誤驅(qū)動(dòng)的方式,對(duì)規(guī)則庫(kù)進(jìn)行完善;對(duì)最終形成的規(guī)則庫(kù)進(jìn)行簡(jiǎn)單的聚類,計(jì)算規(guī)則的頻度,根據(jù)規(guī)則頻度對(duì)規(guī)則進(jìn)行量化處理。1.1定義帶特征詞地名在真實(shí)文本中,某些詞具有相同的屬性,作為地名的前詞(后詞)出現(xiàn)時(shí)對(duì)地名識(shí)別的作用是一樣的,本文將這樣的詞合并為一類,識(shí)別過程中,將這一類詞當(dāng)作一個(gè)特定的詞來處理。設(shè)人工標(biāo)注正確的句子切分序列S=W0W1...Wi-1WiWi+1...Wj(i,j為整數(shù)),設(shè)iW為地名PN,若iW為帶特征詞地名,則Wi不包括特征詞。Wi-1稱為地名的前詞,Wi+1稱為地名的后詞。對(duì)語料庫(kù)中含地名的序列進(jìn)行掃描得到如下規(guī)則:規(guī)則:前詞=Wi-1,后詞=Wi+1根據(jù)Wi-1(Wi+1)的具體類型,定義如下合并操作:若前詞Wi-1(后詞Wi+1)是地名特征詞(縣、市等)、已登錄的常見地名(北京市、遼寧省等)、數(shù)字(1、一等)、標(biāo)點(diǎn)符號(hào)(,。等)、非漢字(字母、特殊符號(hào)等)則分別用符號(hào)SpeWord、PName、Number、Punc、Unhz替換。舉例如下:詞串:在|貴州省|晴|隆|縣|開始|試行|。|在該詞串中,地名PN=“晴隆”,前詞Wi-1=“貴州省”,為已登錄的常見地名,所以用“PName”替換之,后詞Wi+1=“縣”,是地名特征詞,所以用“Speword”替換之。替換后形成的規(guī)則如下:規(guī)則:前詞Wi-1=“PName”,后詞Wi+1=“Speword”通過對(duì)所有規(guī)則做上述的合并操作,使得規(guī)則的適用范圍顯著增大。1.2規(guī)則頻度和規(guī)則分類在真實(shí)文本中,不同的規(guī)則識(shí)別出的候選地名的正確率是不同的,例如有以下兩條規(guī)則:規(guī)則1:前詞Wi-1=“位于”,后詞Wi+1=“Speword”若某一字段序列的左詞、右詞滿足規(guī)則1中的前詞和后詞條件時(shí),該字段序列作為地名的可能性較大;而字段序列的左詞、右詞滿足規(guī)則2中的前詞和后詞條件時(shí),該字段序列作為地名的可能性較小。為了表示規(guī)則在識(shí)別地名過程中的這種差異,引入規(guī)則頻度的概念(見表1)。規(guī)則頻度(FR(PR))的定義如下:其中CorrectTime(PR)是用規(guī)則PR去識(shí)別地名時(shí),所得到的候選地名中正確地名的個(gè)數(shù);AllTime(PR)是用規(guī)則PR去識(shí)別地名時(shí),所得到的候選地名的總個(gè)數(shù)。計(jì)算規(guī)則頻度之后,就能客觀地反映每條規(guī)則在識(shí)別地名時(shí)的可信程度。在施加規(guī)則產(chǎn)生候選地名時(shí),若發(fā)生規(guī)則沖突,則以頻度高的規(guī)則為準(zhǔn)。規(guī)則頻度不同,則規(guī)則在識(shí)別地名中的可信程度不同。根據(jù)規(guī)則頻度對(duì)規(guī)則進(jìn)行以下分類:(1)肯定規(guī)則:若規(guī)則的頻度大于0.5,則認(rèn)為該條規(guī)則在識(shí)別地名中的可信度很大,這一類規(guī)則主要是地名的后詞為特征詞、前詞指示性很強(qiáng)的一類規(guī)則。如規(guī)則:前詞Wi-1=“在”,后詞Wi+1=“Speword”(2)半肯定規(guī)則:此類規(guī)則的頻度值介于0.2~0.5之間,此類規(guī)則主要是后詞或者前詞指示性很強(qiáng)的一類規(guī)則。如規(guī)則:前詞Wi-1=“省會(huì)”,后詞Wi+1=“是”(3)不肯定規(guī)則:此類規(guī)則的頻度值小于0.2,此類規(guī)則主要是一些前后詞指示性都不強(qiáng)的規(guī)則。如規(guī)則:前詞Wi-1=“的”,后詞Wi+1=“punc”通過對(duì)規(guī)則的量化,可以就不同的規(guī)則所產(chǎn)生的候選地名做不同的處理,既可以防止某些候選地名因其可信度值低而被過濾掉,又可以對(duì)不是地名而被識(shí)別為地名的候選地名進(jìn)行有效的過濾。2地名之間的信息編碼本文采用兩級(jí)處理方法來識(shí)別地名,其中第1級(jí)處理主要通過規(guī)則匹配的方法來識(shí)別地名,由于訓(xùn)練語料的有限,地名識(shí)別規(guī)則庫(kù)中不可能包括所有可能的地名上下文信息;為了補(bǔ)召第1級(jí)處理中未能識(shí)別出的地名,提高召回率,增加了第2級(jí)處理,主要是根據(jù)地名前詞進(jìn)行補(bǔ)召。2.1以懲罰規(guī)則為識(shí)別后地名的接入系數(shù)第1級(jí)處理主要用規(guī)則匹配的方法來識(shí)別地名,規(guī)則來自地名識(shí)別規(guī)則庫(kù),分為肯定規(guī)則、半肯定規(guī)則和不肯定規(guī)則3類。不同類型的規(guī)則產(chǎn)生的候選地名將做不同的后續(xù)處理。由肯定規(guī)則產(chǎn)生的候選地名如果其用字用詞可以是地名的用字用詞,則該候選地名被確認(rèn),否則被否認(rèn)。由半肯定規(guī)則和不肯定規(guī)則產(chǎn)生的候選地名需要計(jì)算其構(gòu)詞可信度和接續(xù)可信度,過濾掉可信度低的候選地名。依據(jù)規(guī)則類型的不同,過濾時(shí)的閾值也不同。地名構(gòu)詞可信度的計(jì)算公式如文獻(xiàn),這里不再敘述。文獻(xiàn)通過獎(jiǎng)勵(lì)規(guī)則和懲罰規(guī)則的形式對(duì)可信度值進(jìn)行了調(diào)整,本文在已有的獎(jiǎng)懲規(guī)則基礎(chǔ)上,又增加了對(duì)于不帶特征詞地名的獎(jiǎng)勵(lì)和懲罰規(guī)則,依據(jù)規(guī)則類型的不同,獎(jiǎng)懲的力度也不同,增加的規(guī)則如獎(jiǎng)勵(lì)規(guī)則:(1)若候選地名長(zhǎng)度小于等于3個(gè)漢字長(zhǎng),且地名均由單字詞組成。(2)若候選地名長(zhǎng)度大于3個(gè)漢字長(zhǎng)小于6個(gè)漢字長(zhǎng),且均由單字詞組成,且其中有兩個(gè)以上單字詞未指定詞性。懲罰規(guī)則:(1)若在候選地名內(nèi)部存在“動(dòng)詞+名詞”、“形容詞+名詞”等接續(xù)。(2)若候選地名由若干個(gè)高頻單字詞組成。如:“到|~家了~|,”。地名的接續(xù)可信度反映候選地名與其上下文的聯(lián)系緊密程度,用互信息來計(jì)算地名的接續(xù)可信度。設(shè)切分后的句子序列為S=W1W2W...Wi-1WiWi+1Wi+2...,其中iW為識(shí)別后的地名PN,Wi+1為地名的后詞,用iB來表示,Wi-1是地名的前詞,用iF來表示。地名PN與其后詞iB的互信息定義如下:其中p(PN,Bi)是地名PN和后詞iB的二元接續(xù)頻度,p(iB)是后詞Bi的單詞頻度,p(PN)不是某個(gè)具體地名的頻度,而是地名作為一類在真實(shí)文本中出現(xiàn)的頻度。地名PN與其前詞iF的互信息定義如下:其中p(Fi,PN)是前詞iF和地名PN的二元接續(xù)頻度,p(iF)是前詞iF的單詞頻度,p(PN)與式(2)意義相同。地名的接續(xù)可信度定義如下:2.2計(jì)算構(gòu)詞方案在第1級(jí)處理中,使用規(guī)則匹配的方法來識(shí)別地名,但由于規(guī)則的不全面,有些地名有可能會(huì)被漏識(shí)別,因此增加了第2級(jí)處理來補(bǔ)召第1級(jí)處理中未識(shí)別出來的地名。第2級(jí)識(shí)別的地名是其上下文信息沒有在地名識(shí)別規(guī)則庫(kù)中出現(xiàn),但其前詞在規(guī)則庫(kù)中出現(xiàn)了的地名。識(shí)別過程從地名的前詞開始尋找地名的后界,識(shí)別后的潛在地名通過計(jì)算構(gòu)詞可信度和接續(xù)可信度來進(jìn)一步確認(rèn)。構(gòu)詞可信度的計(jì)算公式如文獻(xiàn),本文不再敘述。Wi為識(shí)別后的地名PN,iW初始切分后的序列是Wi=C1C2C...Ci...Cn,地名接續(xù)可信度定義如下:其中I(PN,iB)定義如式(2)所述。I(Cn,Bi)是候選地名PN在正常切分后的尾詞Cn和候選地名的后詞iB作為正常接續(xù)的互信息,定義如下:第2級(jí)處理是比較候選地名和其后詞作為地名接續(xù)的可信度大還是作為正常接續(xù)的可信度大來對(duì)候選地名給出判斷的。若二者的差值小于給定的閾值,則該候選地名被否認(rèn)。2.3切分的詞匯序列和異地名詞典地名識(shí)別過程如下:(1)得到輸入文本按常規(guī)切分的單詞序列;(2)根據(jù)地名詞典,對(duì)常規(guī)切分的單詞序列進(jìn)行常見地名的識(shí)別;(4)根據(jù)識(shí)別出的地名,建立起含有地名標(biāo)志的切分序列。3應(yīng)用語料進(jìn)行識(shí)別的測(cè)試本文從2000年《人民日?qǐng)?bào)》光盤版中抽取了含有6316個(gè)地名的4229個(gè)句子作為開式測(cè)試集,對(duì)系統(tǒng)只調(diào)用第1級(jí)處理時(shí)的識(shí)別情況,以及增加了第2級(jí)處理時(shí)的識(shí)別情況進(jìn)行了測(cè)試。系統(tǒng)調(diào)用一級(jí)處理時(shí)的識(shí)別結(jié)果如表2所示。系統(tǒng)調(diào)用第1級(jí)處理和第2級(jí)處理后的識(shí)別結(jié)果如表3。從表2、表3可知,增加第2級(jí)處理后,雖地名識(shí)別的精確率有所下降,但召回率提高明顯,這是因?yàn)榈?級(jí)處理中識(shí)別的地名主要都是前詞、后詞同現(xiàn)概率高的地名,調(diào)用第2級(jí)處理能補(bǔ)召第1級(jí)處理未識(shí)別的地名,提高了召回率,但同時(shí)也會(huì)召回一些錯(cuò)誤的地名,其中包括對(duì)切分碎片的錯(cuò)誤合并以及補(bǔ)召的地名中有邊界錯(cuò)誤等,因此精確率下降了。為考察文獻(xiàn)和本模型(識(shí)別對(duì)象為帶特征詞的地名和不帶特征詞的地名)在識(shí)別效果上的差異,又用上述測(cè)試語料對(duì)文獻(xiàn)的識(shí)別系統(tǒng)進(jìn)行了測(cè)試。測(cè)試分兩種:(1)把帶特征詞地名和不帶特征詞地名都作為該系統(tǒng)識(shí)別的對(duì)象;(2)只把帶特征詞地名作為該系統(tǒng)的識(shí)別對(duì)象,結(jié)果如表4所示。從表4可以看到,若考慮識(shí)別不帶特征詞的地名,本文和文獻(xiàn)比較,無論是召回率還是精確率都有明顯提高。這主要是因?yàn)榧m正了文獻(xiàn)識(shí)別錯(cuò)誤的部分地名,召回率得到提高;此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論