




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
摘要:本文基于GATE匡架定制了基于中文并限定領(lǐng)域的信息抽取系統(tǒng),以之用于在人機交互中對自然語言的處理,以此來解決對自然語言的業(yè)務問詢請求。關(guān)鍵詞:語義理解信息抽取1.引言隨著人工智能的發(fā)展,人機交互的深入,人們越來越傾向于用自然語言,而不是原有的生硬的關(guān)鍵詞元素輸入,與智能系統(tǒng)進行交互。事實上,用戶更習慣于用自然語言來描述一個問題,而不是用一系列的關(guān)鍵詞,例如使用“我想看劉德華的電影”,而不是“劉德華and電影”。而研究顯示,用自然語言來描述對信息的需求比用關(guān)鍵詞準確得多,同時用戶也更容易做到。這一需求的出現(xiàn),引發(fā)了自然語言處理領(lǐng)域的快速發(fā)展,帶來了一系列人機交互模式的變革,例如智能搜索引擎的出現(xiàn),Siri的快速蔓延與發(fā)展。本文就利用自然語言進行業(yè)務問詢請求進行了初探,定制中文信息抽取系統(tǒng)研究語義理解。2.語義理解目前,對自然語言的理解策略是針對某一領(lǐng)域知識庫,在進行特殊處理之后,對用戶提出的問題,系統(tǒng)可采用適當?shù)牟呗越o出理解與分析,而且能夠針對用戶要求進行相關(guān)的統(tǒng)計和針對具體情況給出適當?shù)慕ㄗh。機器對語言的分析和理解是一個層次化的過程,這個過程一般分為4個層次:語音分析、語法分析、語義分析和語用分析。在這4個層次中,針對語義的分析是人機交互最重要的內(nèi)容,也是本文研究的核心。2.1語義分析的基本概念語義分析是指通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達的真正含義或概念。為達到理解語言的目的,需要進行3步工作:首先,理解出現(xiàn)的每個詞;其次,從詞義構(gòu)造理解語句意義的結(jié)構(gòu);最后,從句子語義結(jié)構(gòu)表示言語的結(jié)構(gòu)。2.2本文所采用的語義分析主要算法在本文的研究中,進行語義分析主要采用正則文法規(guī)則匹配算法。正則文法是自然語言領(lǐng)域中經(jīng)常使用的一種文法形式,和正則表達式,有限狀態(tài)機具有一一對應關(guān)系,適用于基于規(guī)則的文本匹配與內(nèi)容理解。標注模板引擎格式進行編寫,規(guī)則部分獨立于引擎,更易于維護。所采用格式的語法類似于普通正則表達式,但匹配單位不是字符而是上游流程標注過的文本。3.業(yè)務模型描述本文研究的自然語言業(yè)務問詢,其應用場景為:當用戶在智能系統(tǒng)上輸入一段自然語言,該智能系統(tǒng)能根據(jù)輸入的內(nèi)容,按照預先定義的語義范圍與用戶意圖進行匹配,得出用戶意圖對應的業(yè)務。用戶的意圖被識別為業(yè)務類型后,按照業(yè)務類型對用戶語句進行業(yè)務要素提取。3.1業(yè)務分類模型通常,自然語言理解任務可以分解為關(guān)鍵命名實體識別子任務和意圖識別子任務。命名實體識別和抽取任務在自然語言信息提取中應用比較廣泛, 意圖識別則可以看成是一個語句層次的分類問題,即通過語句和上下文以及任務相關(guān)的知識等各種特征,把語句映射為預定義的一組意圖上去。圖1自然語言理解框架目前對于自然語言的命名實體識別和抽取任務主要采用統(tǒng)計理解和規(guī)則匹配來實現(xiàn)。由于主流的統(tǒng)計理解需要一定數(shù)量的標注,即對數(shù)據(jù)有一定的依賴性,且在本研究中,我們規(guī)定的用戶輸入有限定領(lǐng)域句法固定,詞表相對穩(wěn)定不變的特點,因此本文采用規(guī)則匹配的方法進行業(yè)務分類與提取關(guān)鍵字。以 "July31,2000"為例說明:分詞(Tokeniser):被拆為"July""31"" ,""2000"詞典查找(Gazetteer):在日期詞典中查找,找到"July"是月份。命名實體語法檢查(NamedEntityGrammar):使用關(guān)于日期的語法規(guī)則(通過JAPE定義),"July31,2000"被識別為一個日期。3.2業(yè)務關(guān)鍵字提取模型前面說過,用戶的意圖被識別為業(yè)務類型后,即可按照業(yè)務類型對用戶語句進行業(yè)務要素提取。但實際情況是,用戶的語句不一定能提供較完整的業(yè)務要素,甚至有時是極度模糊的。同時,不同的業(yè)務領(lǐng)域,所需要的業(yè)務要素又有極大的差別。面對這樣的業(yè)務場景,建立針對業(yè)務領(lǐng)域的關(guān)鍵字提取模型,就成為較好的解決方法。業(yè)務關(guān)鍵字提取模型就是標記,一個業(yè)務哪些要素是必須的,哪些要素是可選。如對于音視頻業(yè)務,它必須的要素是片名/演員/導演這三個中的一個,可選的就較多,如影片類型、上映時間等。轉(zhuǎn)換為表格示意圖:業(yè)務名稱音視頻必須片名/演員/導演可選影片類型/上映時間圖2業(yè)務關(guān)鍵字提取模型業(yè)務關(guān)鍵詞提取模型,以配置文件的形式進行管理。在滿足靈活性的情況下,業(yè)務的增加對于系統(tǒng)不構(gòu)成較大的改動4業(yè)務分類與關(guān)鍵字提取的實現(xiàn)4.1定制中文信息抽取系統(tǒng)由上一章可知,本文所進行的業(yè)務分類與關(guān)鍵字提取實質(zhì)上是根據(jù)業(yè)務需要對自然語言進行的信息抽取。因此,本文在開源的 GATE匡架下,進行二次開發(fā)定制了一個中文信息抽取系統(tǒng)。該系統(tǒng)由各種與語言處理有關(guān)的組件組成, 依據(jù)功能的不同可劃分為以下兩大類:LR(LanguageResources,語言組件):指數(shù)據(jù)資源,包括詞典、語料庫及本體等。PR(ProcessingResources,處理組件):包括各種算法、翻譯器、解析器和生成器等。這些組件以JavaBeans的形式實現(xiàn),使用了MVC的設計模式,并提供了供外部調(diào)用的API,能夠方便它與其他系統(tǒng)及處理模塊(如分詞模塊、語料庫和規(guī)則庫等)進行集成與通訊。該系統(tǒng)的數(shù)據(jù)存儲有兩種機制:一是利用關(guān)系型數(shù)據(jù)庫(如: Oracle);二是基于文件系統(tǒng)的存儲,使用JAVA序列化或基于XML的內(nèi)部格式。該系統(tǒng)的總體流程圖如下所示:圖3系統(tǒng)總體流程圖4.2建立充足的中文詞表在該系統(tǒng)中要對實際領(lǐng)域進行信息抽取,需要提供一個與實際領(lǐng)域相關(guān)的大且全的專業(yè)詞表庫。以“我想看XXX的電影”為例,要查詢的主要內(nèi)容為電影,與電影有關(guān)的最可能是導演、演員與片名。因此需要建立一個電影名稱詞表庫,一個導演姓名詞表庫和一個演員姓名詞表庫,如下圖所示:圖圖4電影名稱詞表庫(movie_name.lst)List蹴 嘟(?r側(cè)酹柳aim噥ValueSate襁IELoo睥JW7tmLookupDR2NK「拠sttpiH聰艙wadorld■MettorMe「BrasfrmLoo恤masmuseimeM”fmcfnusteLookupmm(r'jsicjirgeiihislingerLoolw呱2MnintelstMr砸酈虺LookipIMI頷Jrnomu肋OI0EIMialhianieIWmmLootiV'們烈■:fc邀汨sifwbpaabLoomrs.)efaW切制LmMsifim擔isisub.mLxfcwiukN■Sift(祗■lookupIT暢腳List-阪Wst■們lY-SITS底沖如乳』-_LootifMWsi-LoohpDB3Uptadstbx卸WZiHSi^rairsJslKMtoeLookuprList削Eltor曲卿加型i:n朋恤MifdcfeL湘暢DdOa) 1talopa&Ss?匾即SittooWgnstLooLp劉Ttatoifeit■twie眥〔LooM丁網(wǎng)一紅Owmwe.KIS… i—KdChvloplwWeeksmrmeJst■她徹Fat伽炯対SrusdaneL&lp恥&M臨忖謝曲rtt砌irt唱frufnberLookupcm圖lift |IMpDaMBatesse^a(to.lstfefidfcaiaLactofMupBdlbdd |晰al』協(xié)曲LooLpDmE沁刪teial制ELooLpDouglassjffiMAitumtef.s!■■*Actanre訕wbe(■■?■Lw即DROR |stfKer^opsedaIMp加ItafcthtesiffxjrttJsl$血』痂IMfMCIsiffxmo;fe.l?tIMp昭DetaSlfflJUSLSllw即pralOerRafSllffXjg潞■s.fi浙?*LookupHa(.jeoYiisoffxtJst血』1L咖和hw |SIftJffl呦ttlstLOOtlj刪仙帥isulfo蝴tek!■sifmther |LwLpJorjfflkIhcsllstftIMp鋼ITOSldftAkrsLtw即Lan翩laiu側(cè)fal |Lookup腑LfW圖5電影導演詞表庫(movie_director.lst)
LS!M: Major加LawAwatortjfeVslueWeLookup浪M擁a.「am朮總帕pmteeJM.SI^meLo(Wnxh'iejcttto韌CfLookupmuro』酬listLookif)ffmlanumwIB弊si#mc諦融M■ V帥usic為咽她伽附IstakerLookVsaialaM■Maiteraladcr■Lookyp—狗 1痂』曲dstLookupwAwnALookwsin咒臟ir制壯曲衲砸■■■■■■Lookifi1oiiMcdcpa^ia血卿幗a加V^jeraalstsufijemLookyp黠 1siraiiwfeH5fXWL?W呃恥ink曲IW-她■■術(shù)m覦tt■血seraiLookupmsfnLookvWsix曲enlistLmWivtalsl酬atfittNameLnkw瓠 1jh■圖6電影演員詞表庫(movie_actor.lst)
由于自然語言往往包含后前導語,如“我想”、“能不能”、“是不是”等在一句話的最前面引發(fā)后續(xù)動作的導入語,同時,引發(fā)查找電影的動作也應考慮在內(nèi)(如“看”、“播放”、“來一段”等),這樣才能不突兀地引入后面想查找的內(nèi)容,符合中文的語言習慣。由于前導語是中文查詢的共通語,而查找電影的動作具有局限性,使用范圍不大。因此,為最大限度與自然語言匹配,也為使建立的詞表庫能有廣闊的使用范圍,不至于僅針對某一類型使用,將前導語和引發(fā)查找電影動作的詞語分別建成單獨的詞表庫,如下圖所示:Listname甌常MnorL^guajeMioteinnVpe恤MateMsLookupSencydopaediaL咖gamelstLCMip*iroviefKtaLCXXUPmck'i&jiectof.stfdlEOOfL咖movie.rane.lslstrove和ameLtXXlJp戦mcnwlslftlUK^musicNanieL(XXlJpW-Tmusi〔Eiw叨別ftnusic熬r回Lookup9nunberHWinterJMQJP職蚩orzfodslprefix■㈣Ml5aial.aAr.htftelalft?ia.a3o,翻saialjfiaMIserialftifeoorLooiw3?gl制MfnaireLKXUPsufixchannelWirumteldsulfetfiarinelwithnimber■"""■1■■■■LOMJPsuljTydo渕iafetLOOUlp3Ufixgereraj..s1LtXXUpa1suffis.mciie1st:ufKmo/eL咖suFi)(musiclstLoobjp■suFi)(seial.lst亦)囲曲LlXXlJp顯suTiH/fctsufixj/Lookup5uFi)t^alheffflirfenLl5lsufixwta.oonfertLookupt5ufir^athef.lst3Lfw^alh?fMtHost1stKfftHcstLnh|)^nanelst腳ftNameLookupurtJstLookup尊
圖7前導語詞表庫(prefix.lst)LidnameUajcryinor伽彌陰Ar也枷椎Valueacl3dorj$tactactorjdionLookup*?-TadurllstsethiNBeun■■Lock?HMg即叱恂口毗服actLodapWaclQi訕■artdirectLoolap如\—~adjrd.enc/dopaedaJstactIrwl.encydopaedaLookup阿adH&itStact3(MDolupmiadIstealst*actIstaiLoduprnaclo^naop.stactopep_aopLockup■■?-Taclcpen3anie,lstado肌gameLockupacl.swicli^arrel.ls:actW.chanrelLWaadLodapacl慚廿慟也1st■■actMmovigLockupiact1呱tj臉Lockupapj.ls綁pluolapcbannel.lslfthnnel血pJ加皿忸曲khnaLockupcity.wrtdJstSwddLockupdalelstffdatEfflaleLodup輔enxcpa?dia?isftiameLochipgameJstLochpncvieador.lslLockLipI-?mrtyfecttSlffntKieffllrecitjDokupmovieramelst■血p 1■—(nisicnsn&.aSnusi:s?哋meLochip莒ISrxicftinjerLodmp*11
圖8查看電影動作詞表庫(act_watch_movie.lst)在中文里查詢某個類別時需要有與類型匹配的后綴詞,此外,中文里常常在句末以語氣助詞作為結(jié)束,考慮到靈活性及通用型,將與查詢類別有關(guān)的后綴詞和通用的結(jié)束語氣助詞分別建表,如下圖所示:Listme1啊UinorLanguageAnnotatorValueMtMatertateLwLp如淌paefijm曲財eLootupjaneJi血郵肚丿LmoviejclolstMieMrLoo^ip眈Lls(柿能軸憾rLookupnwhamells?tHML?tjp片mistnameJstAnisic^iiEfflaneLoo郵機$ICfcirjerLxfejpnumtedst訓nteLoobjppretest熾LoomseML咖fitterialSsenal抽Loo他3erialdiMr.lSSenalLookupseriaLm1sttotalhameLoo郵腫訓和陽Nlinu血隕$血1恤恥<皿悔Loohp豹L盹如卿那sisjftxerdc['K(la姫HIsufejene^JsLoo郵3uf?ielstLoodpsufotMlsl■sftimric■L00M)■1■rSLrssrial.stsift.BalLootup血tv」stLwtip膻悄jsnfeMlsl防二corrertLoo肺LootupW7d.isw-ftMMLootupfr.ianeJsl測血加urllstLootipr圖圖9查看電影后綴詞表庫(suffix_movie.lst)MosWale槪BLoo加WosaedaLoo即gareJstinffl^adorJstfrmieffiorL?5fflD'jediTeaoLst斗meLoo即mrameJE■ftianeLtocpnwjia帕y捫蚯bootupffljsicjngfflst和icfsrgerLoo他iwtaJsltaberLookup価血他serialactors■Rsridferalador■Lt?M餌;al』『疝屈Mpaftr阿smLnam曲ftBmeLookuplift九帕肋nntelst---.5UffiK.ctanrel.<r(imb8f-(g疝1更幽漁stsuft醐刪b血他Sllffixjtell.slsifiKjenedLMtjpSfflnft'ISlStsflimie疝m血st5ifi?ic血他siffls.serali汕iseiial曲戲川SLfiXtVLookupllfijE腳口)「帆忖sulBjc.ffltefffliifeiilLoo即SlfiK劇補1』■LtocpN皿si血即HamtfctHb/LOOtJfl毗tLargu3ge剛曲:nw圖圖10通用結(jié)束語氣助詞(sufix_general.lst)4.3用JAPE創(chuàng)建中文規(guī)則,以提高識別準確率仍然以“我想看XXX的電影”為例,對于電影的查詢,針對前面所建立的詞表庫,需要對電影名稱、導演和演員的匹配。因此,在創(chuàng)建規(guī)則時,需要對這三項分別建立規(guī)則。本文采用正則表達時,以靈活地處理文本的匹配,建立的規(guī)則如下:Rule-rnc/ie.'A(i'LtK>\up.majorType=='pi-I,'((LtxjKup.majorType==acr,LooKup.minorType=="wstGti_moYie"})?(Lookupmajorlype==斥rri<xiR.Lookup.minofType==]:;name:(Lookup.majorType==uLrrkjnoTiE:?({LookupmajorType==suliK.Qeneral-])?)—REF圖11匹配電影名的規(guī)則Rule:mavie_with_director(.Lookup,majorType=--^fix'■?i<Lookup,majorType=="acr,Lookup.minor!ype=="^Qtch_movieT})?{{LookupmajorType=="pwLoolcup.minarType==*#diredor*J)director({Lookup.majarType=="acr,LooKup.minorType==drect'j)?((Laoti*)ma)ofType='Snnovic*'1Loolajp.mirrorType=="flnamel)?:Lookup.majorType==sufKm?ie:(lookup.majorType==Biiffix_g€ne"al})*?)■movie"REF圖12匹配導演的規(guī)則Rule,movie_witn_3ctor(:'Lcrokup.majorType-"prefiZ]?({Lookup.majorType==act.LookupminorType==^atcli_mc^{{Lookup>.majorType=="#movie'1Lookup,minofTypG—factor}}actori'Lcx>kup.majorType=="sli^K_mcyie"}?賈LookupmajorType==suffix_gereral^)?):movie?>REP圖13匹配演員的規(guī)則以匹配演員的規(guī)則為例做說明,該規(guī)則的名稱為:movie_with_actor,該規(guī)則分為左右兩部分,左邊部分是匹配的規(guī)則,此部分以正則表達式進行標示,右邊部分為匹配后應進行的操作。在該規(guī)則中,匹配的順序是:前導語出現(xiàn) 0次或1次->查看電影的動作出現(xiàn)0次或1次->演員出現(xiàn)1次->查看電影后綴詞出現(xiàn)0次或1次->通用結(jié)束語氣助詞0次或1次。4.4PR的實現(xiàn)建立繼承AbstractprocessingResourc髯實現(xiàn)ProcessingResoure接口的子類。每個PR都具有初始化定制的中文信息抽取系統(tǒng)和執(zhí)行兩個步驟。在執(zhí)行步驟中,除進行抽取動作外,還要計算匹配精度。所有 PR均采用管道的方式組織,更換或修改其中某一PR時不會對系統(tǒng)的整體產(chǎn)生影響,這樣便于系統(tǒng)升級與模塊復用。4.4Creole.xml的書寫Creole.xml文件對系統(tǒng)中需要實現(xiàn)的PR進行定義與組織,PR作為資源,可以在Creole.xml中定義它的名字、實現(xiàn)類名、參數(shù)與注釋等。系統(tǒng)在通過管道調(diào)用PR時,會首先讀入Creole.xml文件,然后獲取對每一PR的描述。例如本文中的BWPGazetteer資源,其Creole.xm文件配置如下:匸二亡,師F駝船二t盟?:二近;:EViFSazetzeer,jar<ZJAR>.lAS3j;b>rp.ga^-e.gazett-aez.BWP!zazette^z</"J_^^<?C']<Z?T>ABW?Gaz±tteer,</C2mM7><PA5JC'IE7ERNALFgunwt;”RUNTIME-IRtrus*COMMEtrr?"ThedocLmaattotfi .Doi:iiiLe!at</PflJt2tMETEP><PARflMEIERHWE^"annotationSetManeffROHTIME="tzueirCOKMETT=pTfifa^ncta:ions±trob±L5Sdfort?j£ £jjn^:etiaits"OPTIONAZ-^-rce iva,lang.String</? 工二Ea<PAtAl-IETERyJA?<E=,rj=z=zttra二orn0PII0nAL=,r:Jue,r>java.la^g.SEnng</FAAAMETER><PA7^1E7ERNAiiATi址占盹”DEFAULT,,Iist5rdefF,coMMEjn=,frie狂竝t?t旅filerit^JiscoflistsIr5UETiXES=,,dsri>?7RL<■■'空~Z~.><PA?A1'1E:EEDLFAJLI=friJrr-£rrCOr2-fEirT=,rri5三加;注丄叱廿梵dfor育北左丁thed5finiti-3i£HNAME=ir±nsodinj'
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年軍隊文職人員招聘之軍隊文職教育學題庫與答案
- 2025年軍隊文職人員招聘之軍隊文職管理學與服務考試題庫
- 2021-2022學年廣東省廣州市白云區(qū)六校七年級(下)期中數(shù)學試卷(含答案)
- 企業(yè)級數(shù)據(jù)安全合規(guī)策略制定服務協(xié)議
- 網(wǎng)絡直播平臺合作項目表
- 四川省成都市武侯區(qū)2024-2025學年七年級上學期期末生物學試題(含答案)
- 湖南省岳陽市岳陽縣2024-2025學年七年級上學期期末生物學試題(含答案)
- 語言學英語翻譯技能測試卷
- 濕地松采脂承包合同
- 團隊目標與績效考核表
- 護理相關(guān)法律法規(guī)
- 2024中國移動公司招聘高頻500題難、易錯點模擬試題附帶答案詳解
- 江蘇省宿遷市2024年中考數(shù)學試卷含答案
- 河道綜合治理工程施工組織設計(投標)
- 處方書寫規(guī)范考核試題及答案
- 餐飲配方傳授合同范本
- 22G101三維彩色立體圖集
- 福建省教師公開招聘考試(小學數(shù)學)模擬試卷1(共236題)
- 順豐快遞員工入職合同范本
- 《智慧農(nóng)業(yè)》教學課件
- 人教版小學英語單詞表(完整版)
評論
0/150
提交評論