基于統(tǒng)計的中文機構(gòu)名實體識別的研究_第1頁
基于統(tǒng)計的中文機構(gòu)名實體識別的研究_第2頁
基于統(tǒng)計的中文機構(gòu)名實體識別的研究_第3頁
基于統(tǒng)計的中文機構(gòu)名實體識別的研究_第4頁
基于統(tǒng)計的中文機構(gòu)名實體識別的研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于統(tǒng)計的中文機構(gòu)名實體識別的研究劉杰〔陜西理工學(xué)院計算機科學(xué)系陜西漢中723001〕LIUJie〔ShaanxiUniversityofTechnologyhanzhongshaanxi723001,China〕摘要:本文提出了利用隱馬爾科夫統(tǒng)計模型的方法進行中文機構(gòu)名實體的識別。同時,在此方法的根底上通過構(gòu)建一元模型來補充識別那些縮寫的和沒有核心詞的機構(gòu)名,彌補了單一統(tǒng)計模型在機構(gòu)名實體識別中的缺乏。實驗證明該方法獲得了較高的準確率和召回率,具有可行性。關(guān)鍵詞:隱馬爾科夫模型,中文機構(gòu)名實體識別,一元模型,準確率,召回率TheresearchabouttheOrganizationEntityRecognitionbasedonstatisticAbstract:thisarticleputsforwardthemethodoftheChineseOrganizationEntityRecognitionthroughthemethodofusingstatisticmodelbasedontheHiddenMarkovModel.Atthesametime,thisarticlerecognizethoseOrganizationEntitywhichisabbreviatoryandwhichhavenonuclearvocablethroughdesigningSingleModelbasedonthismethod.Itcanoffsetthelimitationofsinglestatisticmodel.Theexperimentshaveprovedthatthismethodgainshigherprecisionandrecallanditisfeasible.Keyword:HiddenMarkovModel,ChineseOrganizationEntityRecognize,SingleModel,Precision,Recall引言命名實體是指句子中有確定含義的名詞。在1998年召開的MUC-7中命名實體被分成人名(Person)、地名(Location)、機構(gòu)名(Organization)、日期(Data)、時間(Time)、百分數(shù)(Percentage)和貨幣(Monetaryvalue)等七類[1]。中文命名實體〔ChineseNamedEntity,NE〕識別是指識別出文本中這些特定的實體。它是信息抽取、自動問答和信息檢索等多種自然語言處理技術(shù)的實現(xiàn)根底[2]。機構(gòu)名稱一般泛指機關(guān)、團體、企事業(yè)單位和協(xié)會等。2004年度國家863中文信息處理與智能人機接口技術(shù)評測的命名實體識別評測結(jié)果顯示:中文機構(gòu)名識別的召回率僅為57.41%,準確率僅為64.64%[3]。2、中文機構(gòu)名的特點及識別難點〔1〕形式多樣,組成方式非常復(fù)雜。例如“西安制藥廠〞、“中共陜西省委〞等。〔2〕機構(gòu)名中含有大量的其它命名實體。例如“漢中市漢江制藥廠〞等?!?〕中文機構(gòu)名用詞非常廣泛,加大了其識別的難度。例如“中國電信〞、“民生銀行〞等。〔4〕機構(gòu)名的長度極其不固定,導(dǎo)致機構(gòu)名稱的邊界很難確定?!?〕很多機構(gòu)名都有簡稱,增加識別難度。例如“聯(lián)想〞、“人大〞等。3、基于統(tǒng)計的中文機構(gòu)名識別方法由于機構(gòu)名的上述特點,假設(shè)要對各類機構(gòu)名人工總結(jié)出統(tǒng)一的識別規(guī)那么實際上是不可行的。本文采用了基于統(tǒng)計模型的方法來識別。3.1基于隱馬爾科夫統(tǒng)計模型[4]的機構(gòu)名識別算法機構(gòu)名中修飾詞的詞語選擇和詞性選擇都是隨機的。這兩個層面上的隨機性就可以構(gòu)成一個隱馬爾科夫鏈。那么機構(gòu)名的生成概率可以通過詞語的轉(zhuǎn)移概率和詞性的轉(zhuǎn)移概率來共同描述。當該候選詞組的生成概率大于給定的閾值時,就識別該詞組為一個機構(gòu)名。算法描述為:詞組W=w1w2…wn,S=s1s2…sn,si是詞組W經(jīng)過切分后對應(yīng)的詞性,C=c1c2…cn,其中ci表示機構(gòu)名用詞。該詞組作為機構(gòu)名的生成概率和,根據(jù)貝葉斯算法得:公式1公式2對于給定詞組和是固定的,所以只要求和即可:公式3其中,公式4公式5Nc(wi)是詞wi作為機構(gòu)名出現(xiàn)的次數(shù),Nt(wi)是詞wi在文本中出現(xiàn)的總次數(shù),Nc(si)是詞性si作為機構(gòu)名出現(xiàn)的次數(shù),Nt(si)是詞性si在文本中出現(xiàn)的總次數(shù),σ是采用線性折扣的平滑參數(shù)[5]。計算出P1(C,W)和P2(C,S)后和閾值σ1和σ2比擬,只有當P1(C,W)>σ1且P2(C,S)>σ2,我們認為詞組W是一個機構(gòu)名。其中都是統(tǒng)計值,經(jīng)過測試,本文中取值分別為0.04、0.07、0.0007。3.2模型訓(xùn)練構(gòu)建機構(gòu)名核心詞庫機構(gòu)名核心詞是指標示為一個機構(gòu)的中心詞,例如“集團〞、“〞、“大學(xué)〞等。當掃描文本時,出現(xiàn)該核心詞,那么認為產(chǎn)生一個候選機構(gòu)名。掃描并識別〔1〕首先對要識別的文本進行分詞[6]和詞性標注[7];〔2〕假設(shè)已到達機構(gòu)名核心詞庫末尾,識別結(jié)束;否那么從該詞庫中取出下一個核心詞;〔3〕掃描文本,假設(shè)掃描到文本結(jié)束都找不到該核心詞,那么轉(zhuǎn)向〔2〕,反之記下位置L1,然后向前掃描到分隔符〔由分詞和標注完成〕處并記下位置L2,那么從L2到L1之間的詞組就是一個候選機構(gòu)名;〔4〕計算出P1(C,W)和P2(C,S),并根據(jù)計算結(jié)果判定該詞組是否為機構(gòu)名;〔5〕從位置L1處的文本開始,轉(zhuǎn)向〔3〕;3.3測試性能指標在測試中采用自然語言處理中使用最廣泛的兩個性能評測指標,即準確率和召回率[8],定義如下:準確率P(Precision)=準確率P(Precision)=召回率R(召回率R(Recall)=測試結(jié)果本文取1998年1月標注的《人民日報》語料庫作為測試語料[9]〔其中機構(gòu)名個數(shù)為11445個〕。機構(gòu)名總數(shù)正確識別的機構(gòu)名數(shù)錯誤識別機構(gòu)名數(shù)正確率召回率0.040.0750.0008114458762176183.26%76.56%0.040.070.0007114459321169084.65%81.44%0.050.0750.0008114458616171583.40%75.29%4、存在的缺陷經(jīng)測試分析,這種基于隱馬爾科夫統(tǒng)計模型的識別方法雖然取得較好的識別結(jié)果,但存在兩個很明顯的弊端:首先無法識別本身沒有核心詞的機構(gòu)名,例如“中國電信〞等;其次無法識別那些縮寫的機構(gòu)名,例如“北大〞、“聯(lián)想〞等。4.1解決方案在這些沒有核心詞和縮寫的機構(gòu)名中,詞〔字〕的選擇都具有隨機性,相互之間沒有約束關(guān)系,可以通過一元模型補充識別。假設(shè)機構(gòu)名類型用O表示,對于形如W=W1W2…Wn的詞〔字〕串,建立一元模型:〔1〕單詞〔字〕W1、W2、。。。、Wn作為機構(gòu)名在真實文本中出現(xiàn)的總頻次分別記為F(O,W1)、F(O,W2)、…、F(O,Wn);〔2〕單詞〔字〕W1、W2、…、Wn在真實文本中出現(xiàn)的總頻次分別記為F(W1)、F(W2)、…、F(Wn);〔3〕該單詞串在機構(gòu)名類型中出現(xiàn)的概率記為:P(O|W)=P(O|W1)*P(O|W2)*…*P(O|Wn)公式8其中,P(O|W1)=F(O,W1)/F(W1)P(O|W2)=F(O,W2)/F(W2)公式9…P(O|Wn)=F(O,Wn)/F(Wn)特殊地,當F(Wn)為0時,取P(O|Wn)=1。〔4〕P(O|W)假設(shè)大于與給定的閾值δ〔通過大量實驗,為了取得較好的識別本文中取δ=0.200〕,那么認為該詞〔字〕串為機構(gòu)名類型。4.2測試結(jié)果根據(jù)這個方法,對測試語料中因沒有核心詞或縮寫形式而沒有識別出的218個機構(gòu)名進行補充識別,得到如下識別結(jié)果:δ機構(gòu)名總數(shù)正確識別的機構(gòu)名數(shù)錯誤識的機構(gòu)名數(shù)正確率召回率0.1802181543183.24%70.64%0.2002181692985.35%77.52%0.2202181472884%67.43%5、結(jié)束語本文研究了采用基于隱馬爾科夫統(tǒng)計方法進行中文機構(gòu)名實體識別,指出了該方法在實際應(yīng)用中存在的缺陷,同時提出了構(gòu)建一元模型作為補充識別的解決方案,在一定程度上提高了識別的準確率和召回率。在實際應(yīng)用中,由于機構(gòu)名長短不一,組成方式復(fù)雜多樣,在識別中還有相當?shù)碾y度,需要進一步研究解決。參考文獻[1]吳學(xué)軍。面向信息抽取的命名實體識別與模塊獲取技術(shù)研究[D]。東北大學(xué)信息科學(xué)與工程學(xué)院,2004[2]朱江濤。中文信息處理中命名實體識別問題的研究[D]。沈陽航空工業(yè)學(xué)院,2006[3]馮元勇,孫樂,李文波等.基于單字提示特征的中文命名實體識別快速算法[J].中文信息學(xué)報,2023,(1):106-109[4]孟偉濤.Web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用[D].西安:西北大學(xué),2007[5]ChengNiu,WeiLi,JihongDing,RohiniK.SrihariABootstrappingApproachtoNamedEntiytClassificationUsingSuccessiveLeanrers[J].ACL,2003:298一350[6]李盛.面向真實文本的漢語詞義排歧系統(tǒng)[D].太原:山西大學(xué),2004[7]張華平,劉群.基于N-最短路徑方法的中文詞語粗分模型[J].中文信息學(xué)報,2002,5:2-6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論