版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
答辯委員會主任(簽字職稱 答辯委員會副主任(簽字答辯委員會委員(簽字): 年月日答辯委員會主任(簽字職稱 答辯委員會副主任(簽字答辯委員會委員(簽字): 年月日 名:韓 院(系:計(jì)算機(jī)科學(xué)與技 名:韓 院(系:計(jì)算機(jī)科學(xué)與技 業(yè):計(jì)算機(jī)科學(xué)與技 號任務(wù)起至日期 3月15日 Java語言來實(shí)現(xiàn),前臺數(shù)據(jù)展示用flex。于CRF模型的有指導(dǎo)方法。166520630指導(dǎo)教師簽 教研室主任簽 關(guān)鍵詞:Eventextractionistopresentaneventthroughstructuralformfromthearticledescribedbythenaturallanguage,suchaswhatpeoplewhereandwhattimetodoawhat,etc.Itisanimportantresearchpointfromtheareaofinformationextraction.Itcanbeappliedwithautomaticsummarization,quizzes,andinformationretrievalandotherfields.ThetraditionalEventextractionistopresentaneventthroughstructuralformfromthearticledescribedbythenaturallanguage,suchaswhatpeoplewhereandwhattimetodoawhat,etc.Itisanimportantresearchpointfromtheareaofinformationextraction.Itcanbeappliedwithautomaticsummarization,quizzes,andinformationretrievalandotherfields.Thetraditionaleventextractionisgenerallyperformedonaspecifictypeofextractionareas,suchasmusic,finance,etc.Thisarticleattemptstoextracteventsintheopendomain.Thispapermakesastudyofthetwostepsoftheeventextraction:eventtriggerextractionandeventargumentextraction,andcombinesthetwostepsandthendevelopsaneventextractionsystem.Fortheeventtriggerextractiontask,thispaperproposestwomethods,theyaretheunsupervised,dictionary-basedtriggerextractionmethodandasupervised,basedonthemodelofCRFtriggerextractionmethod.Thedictionary-basedtriggerextractionmethodutilizesthePekingUniversityModernChineseDictionary.Alltheverbsinthedictionarywasmarked,asareferencetoguidetheeventextraction.Therecognitionprocessisasfollows:usesyntaxruletothecandidatetriggers,andthenusethedictionarytofilterthecandidatetriggersandfinallygeneratethetriggers,theF-scoreachieves63%.TheCRFmodelbasedmethod,usestheCRF++tool,selectthelexical,semantic,syntacticfeatures,andthewindowsizetotrainthemodel,theF-scoreachieves67%.TheCRFmodelbasedmethodisbetterthanthedictionary-basedmethod.Fortheeventargumentextractiontask,thispaperusesasupervisedmethodbasedonMaximumEntropy.Comparedwiththepreviouseventextractionwork,thispapertreatthephraseasthebasicunitoftheeventargument.TheMaximumEntropymodelbasedeventargumentextractionmethodtreatsthetaskasabinaryclassificationtask,foreachofthewordinthesentence,extractthefeaturebythetemplate,andthendeterminewhetheritiseventargument.Thefeaturesincludethelexical,syntactic,phrasesandotherfeatures.TheF-scoreachievesKeywords:opendomain;eventextraction;triggerrecognition;event摘 摘 第1章緒 課題背景和意 國內(nèi)外研究現(xiàn) 本文的主要研究內(nèi) 第2章事件抽取的觸發(fā)詞識 語料資源與標(biāo) 無指導(dǎo)的觸發(fā)詞識 有指導(dǎo)的觸發(fā)詞識 本章小 第3章事件抽取的元素識 基于最大熵模型的事件元素抽 實(shí)驗(yàn)結(jié)果與分 本章小 第4章事件抽取的系統(tǒng)構(gòu) 系統(tǒng)的整體設(shè) 系統(tǒng)實(shí) 系統(tǒng)的運(yùn)行效 本章小 結(jié) 參考文 哈爾濱工業(yè)大學(xué)原創(chuàng)性聲 致 論11.1論11.1息抽取(InformationExtraction)的意義便在于此。注文本信息。信息抽取大致有三個(gè)研究點(diǎn),命名實(shí)體(NamedEntity)抽取、實(shí)體面積、經(jīng)濟(jì)損失等;從NBA新聞報(bào)道中抽取出比賽雙方的球隊(duì)、比賽時(shí)間、評測會議,MUC(MessageUnderstandingConference)ACE(AutomaticExtraction舞臺,由ACE替代。1-1效率。沃森、Siri的出現(xiàn),是結(jié)構(gòu)化的數(shù)據(jù)為問答系統(tǒng)提供支持的強(qiáng)力證據(jù)。WWW的建立,數(shù)據(jù)共享,人們可以訪問到很多知識1.2 基于模式匹配的 基于模式匹配的1-2識。采用模式匹配方法的事件抽取系統(tǒng)的執(zhí)行過程如圖1-3所示。但根據(jù)已經(jīng)1-3 基1-3 基于機(jī)器學(xué)習(xí)的f(x,yTateisi,YusukeMiyao,Jun-ichiTsujii2001年用全面的分析器成功在醫(yī)藥領(lǐng)域設(shè)計(jì)了事件抽取系統(tǒng)[1]。此后,HaiLeongChieuHweeTouNgME模型成功的引入到了事件抽取任務(wù)。Chieu使用了9種特征來訓(xùn)練最大熵模型,MUCACE所代替。ACE是一個(gè)全面的信息抽取評測會議,涉及bigrams、NE等。1.2.3中文事件抽取研CRF模OntonotesOntonotes語料介Ontonotes938篇文2-12-1事件的在原文中的句子。如“阿布拉莫夫遭遇了車禍”事件的觸發(fā)詞,如“遭遇”事件的發(fā)生時(shí)間,事件的發(fā)送時(shí)間信息,也是事件元素。如“91日”2-22.1.22-22.1.2互聯(lián)網(wǎng)新除了利用Ontonotes語料用來訓(xùn)練模型,本文章還利用了新浪的新聞?wù)Z料用取的隊(duì)列中,直到滿足停止條件。通常的爬蟲框架如圖2-3所示:互聯(lián)下載網(wǎng)抽取已爬取URL隊(duì)待爬取URL隊(duì)種子2-3XML2-4互聯(lián)下載網(wǎng)抽取已爬取URL隊(duì)待爬取URL隊(duì)種子2-3XML2-42-5所示:讀取2-42-52-42-5XML2-6濾2-6觸發(fā)詞詞典構(gòu)2-6濾2-6觸發(fā)詞詞典構(gòu)NLP領(lǐng)域來說,是一個(gè)以詞為粒度的數(shù)據(jù)庫。北大“現(xiàn)代漢詞典的分類情況如表2-1所示,其中加黑的動詞即要處理的,共20794個(gè)動候選觸詞典預(yù)處理:分詞、規(guī)則2-72-92-1名2-72-92-1名代動副數(shù) 總2-82-92.2.2實(shí)驗(yàn)結(jié)果2-82-92.2.2實(shí)驗(yàn)結(jié)果938600句測試句子上進(jìn)行測試。(P=(R=(F=(R=(F=2-22-3(1)詞。舉一個(gè)規(guī)則錯誤的例子,“前艙飛行員馮思廣跳傘時(shí)因低于彈射安全包線高度壯烈犧PRF2-10可以看出“濟(jì)空”(2)2-10可以看出“濟(jì)空”(2)觸發(fā)詞。例如,美國“航天”網(wǎng)站2日報(bào)道稱,“龍”攜帶了“包括”隨機(jī)向量場(CRF)機(jī)器學(xué)習(xí)模型,下面就先介紹一下CRF,再介紹試驗(yàn)情2.3.1模型介條件隨機(jī)場(ConditionalRandomField)是給定一組輸入隨機(jī)變量條件下變量間的依賴關(guān)系,在CRF中,隨機(jī)變量Y的分布為條件概率分布。原則條件隨機(jī)場和隱式馬可夫模型(HiddenMarkovModel,HMM)常被一起2-11所示。結(jié)合了最大熵模型(MaximumEntropy,ME)HMM條件隨機(jī)場和隱式馬可夫模型(HiddenMarkovModel,HMM)常被一起2-11所示。結(jié)合了最大熵模型(MaximumEntropy,ME)HMM烈的假設(shè)。CRF常用于一些標(biāo)注問題,如分詞、詞性標(biāo)注等等。HMM也常用于序列標(biāo)注,相對于HMM,CRF不需要那么強(qiáng)的條件,如各輸出之間相互獨(dú)2-11若xx1x2xnyy1y2yn表示狀態(tài)序列,在,x,i)(2-Z( t(,y,x,i) s(p(y|x)k liiZ(x)expktk(yi1,yi,x,i)lsl(yi,x,i)(2- tk和slk和l是對應(yīng)的權(quán)值。Zx是規(guī)范化因子,求2.3.2特征選(1)((2)2-7中,詞語“愛(3)2-12(4)1-31-31-32.3.3實(shí)驗(yàn)結(jié)果CRF模型用了工2.3.3實(shí)驗(yàn)結(jié)果CRF模型用了工具CRF++,這是一個(gè)開源CRF工具。它的使用方法命令:crf_learntemplate_filetrain_filemodel_file。三個(gè)文件從左至右依次經(jīng)過開發(fā)集的測試,得到最優(yōu)參數(shù),-aL1–c1–f1。命令:crf_test–mmodel_filetest_filesresult_file。三個(gè)文件從左至右依為訓(xùn)練集,后標(biāo)注的600句作為測試集。2-41PRF口為2、詞語窗口為1。2-52本特征和句法特征的組合,說明當(dāng)窗口為2時(shí)或多或少引入了一些噪聲。擴(kuò)充,詞語本身沒有。結(jié)果如表2-6所示:2-62(4)口為2、詞語窗口為1。2-52本特征和句法特征的組合,說明當(dāng)窗口為2時(shí)或多或少引入了一些噪聲。擴(kuò)充,詞語本身沒有。結(jié)果如表2-6所示:2-62(4)2-73PRFPRFPRF2-13所示的F值。圖中水平節(jié)點(diǎn)為特征組合,其中因?yàn)閳D表篇幅限制,用英文縮寫代替。FB是基本詞語特征,SE是詞義特征,SY是句法特征,ALL442-13論是單獨(dú)組合SE詞義特征還是組合SY句法特征,都能夠取得明顯的效果提升,提升空間從1%-15%,說明詞義特征以及句法特征都對識別有一定的作1%左右,而且有些窗口下甚至造成結(jié)果下降1%2-8CRFPRF 30 2-13所示的F值。圖中水平節(jié)點(diǎn)為特征組合,其中因?yàn)閳D表篇幅限制,用英文縮寫代替。FB是基本詞語特征,SE是詞義特征,SY是句法特征,ALL442-13論是單獨(dú)組合SE詞義特征還是組合SY句法特征,都能夠取得明顯的效果提升,提升空間從1%-15%,說明詞義特征以及句法特征都對識別有一定的作1%左右,而且有些窗口下甚至造成結(jié)果下降1%2-8CRFPRF 30 2.4本章首先總體介紹了實(shí)驗(yàn)的語料構(gòu)建,即利用Ontonotes語料。OntonotesF63%CRFCRF++工具,選取特征,1時(shí),F(xiàn)67%。3ACE對于事件元素抽取,是指從事件句中抽取實(shí)體、時(shí)間、數(shù)值等這三類3ACE對于事件元素抽取,是指從事件句中抽取實(shí)體、時(shí)間、數(shù)值等這三類3.1.1模型介f(x)1x與ymaxH(P)P(x)P(y|x)logP(y|x,s.t.EP(fi)EP(fi),i1,2,...,P(y|x)(3-yPX的期望值。經(jīng)過求解得1nexpwifi(x,y)Pw(y|x)1nexpwifi(x,y)Pw(y|x)(3-w其中Zw(nZw(x)expwifi(x,y)(3- 理論表明[6],對偶函數(shù)的極大化等價(jià)于最大熵模型的極大似然估計(jì)。3-13.1.2特征選(1)(2)Stanford詞性標(biāo)注工具,輸入為一個(gè)分完詞的句子,輸出為每個(gè)詞對應(yīng)的3-2(3)NP短語標(biāo)記3-2(3)NP短語標(biāo)記{B、I、的武裝人員向以色列南部地區(qū)發(fā)射了一枚炮彈?!崩渲校哟植烤渥由梢豢镁浞?,里面包含短語特征正好能吻合該問題,如圖3-3所示,可以看出,例子中標(biāo)注出的事件元素均為圖中的NP,及短語。得到了該句法表示一個(gè)短語時(shí)采用了{(lán)B、I、O}標(biāo)注體系[7-14],B表示短語的開頭,I表示短語的中間及結(jié)尾,O表示不是短語。短語特征能夠衡量一個(gè)事件元素的范圍。(4)P個(gè)詞P2。一個(gè)詞語是不是事件元素,是由其上下文所在的語義所決3-3(5)3-3(5)3-4圖所示的依存句法分析,雖然“加沙的武裝3-4(6)3-5,2元組形式,便可提取出各個(gè)詞語示,對于句子“理”到觸發(fā)詞“代替”的依存路徑為:ATT-SBV一職”,“3-53-6Path(7)B、I、O(8)F,B當(dāng)前詞語與觸發(fā)詞的相對位置,在觸發(fā)詞前面還是后面,前面標(biāo)記為后面標(biāo)記為“B”3.2(8)F,B當(dāng)前詞語與觸發(fā)詞的相對位置,在觸發(fā)詞前面還是后面,前面標(biāo)記為后面標(biāo)記為“B”3.2(P=(R=(F=經(jīng)過錯誤分析,如示例“參加11”無法抽出“新歌”,而把“新歌”O(jiān)什么位置都可以。最后一個(gè)模型的F值最高,經(jīng)過多重修改,最好的模型F0.7459。3-1最后一個(gè)模型的F值最高,經(jīng)過多重修改,最好的模型F0.7459。3-13.3各模型F 0 PRF去掉詞形+修正父節(jié)點(diǎn)+BIO44.14-1所示,可以大致分為三個(gè)模塊,預(yù)處理模塊、觸44.14-1所示,可以大致分為三個(gè)模塊,預(yù)處理模塊、觸接運(yùn)行的可執(zhí)行程序進(jìn)行訓(xùn)練和測試,而整個(gè)系統(tǒng)是基于Java的,不利于集4-14.2Flex。FlexAdobe4.2Flex。FlexAdobe公司開發(fā)。隨著網(wǎng)頁發(fā)展,富互聯(lián)網(wǎng)應(yīng)用程序的需求越來越打,F(xiàn)lex正是在這種背景下產(chǎn)生,來滿足企業(yè)級程序員的需求。FlexMXMLActionScript組成。MXML類似如JavaScript,一個(gè)是靜態(tài)頁面,一個(gè)是前臺的邏輯處理。此外,F(xiàn)lex提4-5View視圖,Controller控制)模式。模型層負(fù)責(zé)封裝應(yīng)用狀態(tài)、響應(yīng)狀態(tài)查JavaFlexBlazeDS軟件,它4.3系統(tǒng)的運(yùn)行件抽取的界面,展示抽取結(jié)果。如輸入例句“20051114.3系統(tǒng)的運(yùn)行件抽取的界面,展示抽取結(jié)果。如輸入例句“20051114-6綜合前面的基于CRF的觸發(fā)詞識別和基于最大熵的事件元素抽取,總的性能效4-1所示,其中完全匹配是整個(gè)嚴(yán)格的匹配,50%匹配指對于一個(gè)事件元4-1PRF4.4本章4.4本章Flex成功搭建了一個(gè)演示系統(tǒng)。本章結(jié)論結(jié)論CRF模型的觸發(fā)詞抽取方法?;鵉63%CRF模型的方法,利用1時(shí),F(xiàn)67%CRF模型的觸發(fā)詞抽取方法效果優(yōu)于基于詞55%,這說明詞典的準(zhǔn)確性還不事件元素抽取中,從例子“2005111日,周杰倫發(fā)行了他的第六張國語專參考AkaneYakushiji,YukaTateisi,YusukeMiyao,Jun-ichi參考AkaneYakushiji,YukaTateisi,YusukeMiyao,Jun-ichiTsujii.Eventextractionfrombiomedicalpapersusingafullparser[J].PacificSymposiumonBiocomputing2001(6):408-419.ChinatsuAone,MilaRamos-Santacruz.Alarge-scalerelationandeventextractionsystem[C].ANLC'00ProceedingsofthesixthconferenceonAppliednaturallanguageprocessing,2000:76-83.Jin-DongKim,TomokoOhta,SampoPyysalo,YoshinobuKano,Jun'ichiTsujii.OverviewofBioNLP'09sharedtaskoneventextraction[C].BioNLP'09ProceedingsoftheWorkshoponCurrentTrendsinBiomedicalNaturalLanguageProcessing:SharedTask,2009:1-9.infectiousdiseaseoutbreaks[C].HLT'02ProceedingsofthesecondinternationalconferenceonHumanLanguageTechnologyResearch,2002:366-369.MakotoMiw
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度“唐代書法與繪畫藝術(shù)品收藏與投資合同”3篇
- 2025年度體育賽事VI視覺形象合同3篇
- 2024簡約合同封面圖片
- 2025年度文化旅游景區(qū)場地經(jīng)營權(quán)出讓協(xié)議2篇
- 2025年度城市綜合體拆遷補(bǔ)償與開發(fā)合同4篇
- 2025便利店加盟店品牌保護(hù)及知識產(chǎn)權(quán)合同范本3篇
- 2024年03月廣東興業(yè)銀行廣州分行春季校園招考筆試歷年參考題庫附帶答案詳解
- 2024版股權(quán)轉(zhuǎn)讓委托的協(xié)議書
- 專業(yè)會計(jì)咨詢與服務(wù)協(xié)議精簡版版B版
- 2025年二零二五食堂工作人員聘用與食品安全培訓(xùn)及考核合同
- GB/T 14040-2007預(yù)應(yīng)力混凝土空心板
- 帶狀皰疹護(hù)理查房課件整理
- 奧氏體型不銹鋼-敏化處理
- 作物栽培學(xué)課件棉花
- 交通信號控制系統(tǒng)檢驗(yàn)批質(zhì)量驗(yàn)收記錄表
- 弱電施工驗(yàn)收表模板
- 絕對成交課件
- 探究基坑PC工法組合鋼管樁關(guān)鍵施工技術(shù)
- 國名、語言、人民、首都英文-及各地區(qū)國家英文名
- API SPEC 5DP-2020鉆桿規(guī)范
- 組合式塔吊基礎(chǔ)施工專項(xiàng)方案(117頁)
評論
0/150
提交評論