2013合肥工大-依存句法改進(jìn)中文問題里中心詞識(shí)別研究_第1頁
2013合肥工大-依存句法改進(jìn)中文問題里中心詞識(shí)別研究_第2頁
2013合肥工大-依存句法改進(jìn)中文問題里中心詞識(shí)別研究_第3頁
2013合肥工大-依存句法改進(jìn)中文問題里中心詞識(shí)別研究_第4頁
2013合肥工大-依存句法改進(jìn)中文問題里中心詞識(shí)別研究_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文問題里的中心詞識(shí)別研究ResearchontheRecognitionofFocusWordinChineseQuestion 者 學(xué)歷 科、專 計(jì)算機(jī)應(yīng)用技術(shù) 向 人工智能與數(shù)據(jù)挖掘?qū)熂疤?0134ResearchontheRecognitionofFocusWordinChineseQuestionQuestionclassificationisakeystepinautomaticallyunderstandingquestionwithnaturallanguageinQuestionAnsweringSystem.Findingfeaturescloselyrelatedtothequestion’scategoryisveryimportantintheimprovementofperformanceandefficiency.Focusword,whichisawordorphraseinaquestionandcanbestexpresswhatthequestionasks,containsrichsemanticinformationandareusefulforclassifyingquestions.StudiesinthisthesisaremainlyaboutfocuswordinChinesequestion.Indetail,studiesareabouttofindanewfocuswordrecognitionmethodwhiakesuseofcharacteristicsofChinesequestionsforbetterrecognitionaccuracy,andaimtoimprovequestionclassificationperformance.Ourcontributionsareas characteristicssuchaspart-of-speech(POS)andlocation,andthelimitationsbeingeasilyaffected bythetraining newrecognition combiningtheconditionrandomfields(CRF)andtransformation-basederror-drivenlearning(TBL)isproposedintermsoftheinvestigationonthecorrelationbetweenfocuswordandPOS,dependencyrelationsorinterrogativeinthesyntacticstructureofquestion. usesTBL, andrectifiestherecognitionresultofCRFuntiltherecognitionresultsconvergencesteadily,andfinallygetsorderedrulesthatcanrestrainthenegativeresultsofCRF.Besides,TBLisrefinedtosavetimeduringtrainingorderedrules.Empiricalresultsshowthevalidityofthemethod.Tofurther ethe ingsoffocuswordrecognition,thesemanticrelationshipoffocuswordandcorrespondingcategoryforaquestionisstudiedandafocuswordrecognitionmethodbasedoncategoryandsemanticsimilarityisdesigned.Inthismethod,semanticrelationshipbetweenfocuswordandquestioncategoriesisusedasanewtrainingfeaturesfortheCRFalgorithmtoimprovefocuswordrecognitionaccuracy.Empiricalresultsshowthevalidityofthemethod.Keywords:Chinesequestions;Focusword;Conditionrandomfields;Transformation-basederror-drivenlearning;Semanticsimilarity致謝時(shí)光如白駒過隙,三年的生涯即將結(jié)束了。還記得三年前的我,帶著一份欣喜與激動(dòng),一份惘然與憧憬,由此開始了我期待已久的生活。研究生的這三年,是艱辛并的三年,是付出與收獲的三年。然而,在我進(jìn)步與成長(zhǎng)的,一直都有老師和的陪伴。在成文之際,我要由衷地感謝一直陪伴我,鼓勵(lì)我,給我?guī)椭c指導(dǎo)的人們。首先我要感謝導(dǎo)師田 。田老師擁有嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,豐富的項(xiàng)目經(jīng)驗(yàn)。在學(xué)術(shù)研究方面,他指引我進(jìn)入了數(shù)據(jù)挖掘領(lǐng)域,并在研究工作的過程中,給予我悉心的指導(dǎo),鼓勵(lì)和幫助。在項(xiàng)目工作方面,他帶領(lǐng)進(jìn)入多個(gè)應(yīng)用項(xiàng)目組,鍛煉了的實(shí)際動(dòng)手能力,讓具備了一定的項(xiàng)目經(jīng)驗(yàn)并進(jìn)一步鞏固了專業(yè)知識(shí)。在生活方面,田老師也給予很多關(guān)心。感謝田老師三年的辛勤付出與栽培。他的認(rèn)真的工作作風(fēng)和積極的生活態(tài)度讓我受益終生。其次我要感謝胡學(xué)鋼教授。胡老師知識(shí)淵博,思維開闊,學(xué)術(shù)見解獨(dú)到。他不僅在學(xué)術(shù)上給予指導(dǎo),也在生活中給予。作為的主要,他認(rèn)真地工作態(tài)度也對(duì)產(chǎn)生了深遠(yuǎn)的影響。在這里,我還要感謝人工智能與數(shù)據(jù)挖掘的其他老師和,他們是張玉紅老師、師兄,和紀(jì)允,以及師弟師妹們。正是由于大家的共同努力,才擁有良好的學(xué)術(shù)氛圍和學(xué)習(xí)環(huán)境。特別是試驗(yàn)室的學(xué)術(shù)交流,大家共同研究的心得與體會(huì),在此過程中,我受益良多。同時(shí),我還要感謝計(jì)算機(jī)與信息學(xué)院的老師們,感謝這三年來對(duì)指導(dǎo)與幫助。習(xí)的征途上毫無顧慮地一路前行。作者:20134目錄第1章緒 研究背景與意 研究背 研究意 國(guó)內(nèi)外研究現(xiàn) 國(guó)外研究現(xiàn) 國(guó)內(nèi)研究現(xiàn) 本文研究的主要內(nèi) 本文使用的問題集和平 本文的組織結(jié) 本章小 第2章中文問題的中心 中心詞的概 問題中心詞的特性分 中心詞與類別的關(guān) 中心詞與它的位置之間的關(guān) 中心詞的標(biāo)注準(zhǔn) 幾種主要的中心詞識(shí)別方 基于詞性和位 基于句法結(jié) 條件隨機(jī) CRF在中心詞識(shí)別中的應(yīng) 幾個(gè)主要的步 特征提 特征模 傳統(tǒng)中心詞識(shí)別方法的比 本章小 第3章基于CRF和錯(cuò)誤驅(qū)動(dòng)的中心詞識(shí) 問題中疑問詞的提 中文問題中的疑問詞的特 攻讀期間參加研究的課題和的插圖圖1-1模塊之間的依賴關(guān) 圖2-1相似度值大于閾值的中心詞比 圖2-2各類別中相似度值大于閾值的中心詞比 圖2-3鏈?zhǔn)紺RF結(jié) 圖3-1子句與主句存在VV關(guān) 圖3-2子句與主句存在SBV關(guān) 圖3-3依存關(guān)系 圖3-4基于轉(zhuǎn)化的錯(cuò)誤驅(qū)動(dòng)學(xué) 圖3-5不同類別的中心詞標(biāo)注錯(cuò)誤的數(shù)目占整個(gè)錯(cuò)誤數(shù)目的比 圖4-1樹狀的義原層次結(jié) 圖4-2《同義詞詞林》的層次結(jié) 圖4-3CRF+類別+相似度方法在各個(gè)小類上的識(shí)別精 圖4-4識(shí)別精度發(fā)生變化的類 表格表2-1兩種中心詞識(shí)別精度對(duì) 表2-2一個(gè)中文問題的詞匯和詞法分析的結(jié) 表2-3CRF模型的特 表2-4中文問題的特 表2-5特征模板格 表3-1疑問詞表 表3-2詞性不同的疑問詞占整個(gè)疑問詞的比 表3-3疑問詞識(shí)別的結(jié) 表3-4LIP平臺(tái)中的依存關(guān)系類 表3-5規(guī)則模 表3-6中心詞的初始規(guī) 表3-7評(píng)價(jià)函數(shù)①、②取不同閾值時(shí)中心詞提取準(zhǔn)確 表3-8CRF+錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)與CRF學(xué)習(xí)的封閉測(cè)試 表3-9CRF+錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)與CRF學(xué)習(xí)的開放測(cè)試 表3-10訓(xùn)練集中實(shí)例較多、較少和難以確定中心詞的類別的實(shí)例數(shù)目.表4-1TREC分類體 表4-2中文問題分類體 表4-3《知網(wǎng)》義原的類 表4-4中心詞與類別體系間的語義相似 表4-5類別特征的不同組合對(duì)中心詞識(shí)別的影 表4-6不同的方法對(duì)中心詞識(shí)別結(jié)果的影 第1章緒論研究背景與意義隨著的飛速發(fā)展,網(wǎng)絡(luò)上數(shù)據(jù)資源呈式增長(zhǎng),如何快速搜索到有用的信息成為互聯(lián)網(wǎng)亟待解決的難題。對(duì)此,傳統(tǒng)的解決方法是采用搜索引擎,例如BaiduahooSoho等。但是各種傳統(tǒng)搜素引擎在為用戶獲取信息提供很大便利的同時(shí),也存在許多缺陷。傳統(tǒng)的搜索引擎依據(jù)關(guān)鍵字和關(guān)鍵字的組合進(jìn)行信息檢索,查詢一般停留在語法層和淺層語義上,沒有觸及語義和語用層,搜索的結(jié)果并不能讓人滿意。通常,搜索引擎返回的結(jié)果是相關(guān)的網(wǎng)頁,而不是針對(duì)用戶問題的答案,用戶仍需要從大量的信息中查找自己需要的信息,費(fèi)時(shí)費(fèi)力,當(dāng)用戶希望得到一個(gè)比較準(zhǔn)確的答案而不希望去大量相關(guān)文檔中去查找時(shí),傳統(tǒng)搜索引擎的局限性就很明顯了。為了克服傳統(tǒng)搜索引擎的缺陷,國(guó)內(nèi)外一些科研機(jī)構(gòu)和公司正在探索新的搜索工具。國(guó)內(nèi)的“知道、“搜索問答”等,可以接收用戶的自然語言提問,并給出相應(yīng)的答案,但是答案仍需要人為手動(dòng)編輯,檢索的結(jié)果不具有客觀性和靈活性。相比,Akvs公司開發(fā)了一款比較成功的搜索工具,用戶用自是網(wǎng)頁或文檔,從而使得信息搜索更加人性化、自動(dòng)化和智能化。在此基礎(chǔ)上,逐漸發(fā)展出自動(dòng)的機(jī)器問答系統(tǒng)(QuestionAnsweringSystem,QA)。問答系統(tǒng)作為信息檢索和自然語言處理領(lǐng)域的一個(gè)研究熱點(diǎn),它的主要任務(wù)是從海量信息中進(jìn)行答案的準(zhǔn)確定位查找和答案。一個(gè)完整的問答系統(tǒng)通常包括:?jiǎn)栴}分類、問題擴(kuò)展、搜索引擎、答案抽取、答案選擇。問題分類作為整個(gè)問答系統(tǒng)的第一步,任務(wù)是將一個(gè)問題分到一個(gè)特定的類別中去,為后期答案抽取提供約束。例如,對(duì)“人口最多的大陸在哪里?”,可將其歸于地點(diǎn)類中的大陸類(LOC_CONTINENT),從而縮小答案的搜索范圍??梢园褑栴}分類表示成一個(gè)函數(shù):F:Q→C,其中Q代表問題集合,C={c1,c2…cn},代表由n個(gè)問題類別組成的分類體系。對(duì)于輸入的任何問題,F(xiàn)利用先驗(yàn)知識(shí)將q到相應(yīng)的問題類別ci中。問題分類研究大多借鑒文本分類的思想,問題分類和文本分類都可以通過分析自然語言所包含的信息來確定它們所屬的類別。然而,它們之間有許多差異。與文本相比,問題中包含的詞較少,并且詞語本身所包含的詞匯信息不足,沒有足夠多的上下文環(huán)境信息,這使得問題分類更加。突出表現(xiàn)在,詞袋(Bag-of-Word)和N-grams這些表面特征上,這些特征在文本分類中常被選為分 很好的分類效果,然而在問題分類中,如果僅僅選用這些表面特征,分類效果并不理想[1]。所以,針對(duì)自然語言問題尋找有效的更合理的特征集,進(jìn)而構(gòu)造相應(yīng)的分類方法非常有必要。在最初的研究中,問題分類采用基于手工規(guī)則的方法[2],該方法由所屬領(lǐng)域的根據(jù)自己的專業(yè)知識(shí),借助正則表達(dá)式制定出分類規(guī)則。然而由于問題本身存在復(fù)雜性,且不可能窮舉出所有的規(guī)則,所以該方法具有擴(kuò)展性、適應(yīng)性差及費(fèi)事費(fèi)力等問題。目前,問題分類大多采用基于統(tǒng)計(jì)的方法,它通過對(duì)已標(biāo)注的語料進(jìn)行分析、處理、統(tǒng)計(jì)學(xué)習(xí),建立分類模型,并訓(xùn)練出對(duì)應(yīng)的分類器。該方法更強(qiáng)的適用性和更好的分類效果。利用統(tǒng)計(jì)學(xué)方法進(jìn)行分類時(shí),特征的選擇非常重要。特征選擇的目的是從原始的一組特征中找到帶有強(qiáng)類別信息的特征子集,避免或減少原始特征中不相關(guān)的信息所帶來的噪音,為問題分類提供方便。在特征集合中,疑問詞和中心詞保留了的問題信息,在問題分類中有著舉足輕重的地位。在大多數(shù)問題中,僅僅利用這兩個(gè)特征就可以將問題準(zhǔn)確分類[3,4]。但是,雖然疑問詞標(biāo)注的準(zhǔn)確率已經(jīng)很高,達(dá)到了98.97%[5],中心詞的標(biāo)注準(zhǔn)確率卻沒有那么理想,為此需要研究新的有效方法來提高中心詞的標(biāo)注精度。目前,關(guān)于問題分類、文本分類、短文本分類、抽取、特征提取等相關(guān)的研究比較多,但是關(guān)于中心詞的研究很少,所以本文希望借助已有的相關(guān)研究來探索中心詞識(shí)別的問題。中心詞提取可以被看成一個(gè)分類問題,即判斷一個(gè)詞是否是中心詞。在已有研究心詞的抽取主要是采用基于自定義規(guī)則[3,6-10]的方法。該方法不需要已標(biāo)記的語料庫,在特定類別中具有較高的準(zhǔn)確性和針對(duì)性。由于問題里的中心詞在語義、語法和詞性角色上都比較復(fù)雜,且中心詞的位置比較靈活,因此手動(dòng)總結(jié)的規(guī)則具有和類別的關(guān)系過于密切、工作量大且不靈活的缺點(diǎn),尤其當(dāng)語料庫發(fā)生改變時(shí),規(guī)則需重新制定?;诮y(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法是另一類中心詞抽取方法,可以自動(dòng)對(duì)問題中的特征進(jìn)行統(tǒng)計(jì)分析,既可以自動(dòng)識(shí)別中心詞,又避免規(guī)則的誤差。機(jī)器學(xué)習(xí)方法和規(guī)則的方法都有各自的優(yōu)點(diǎn),可以將這兩種方法結(jié)合起來用到中心詞識(shí)別中。條件隨機(jī)場(chǎng)模型在關(guān)于有序標(biāo)記任務(wù)的許多研究中都表現(xiàn)出較好的分類效果,經(jīng)過預(yù)處理的問題可以看為一組有序標(biāo)記,本文希望在此研究的基礎(chǔ)上通過組合規(guī)則的方法來提高中心詞識(shí)別的準(zhǔn)確率。除此之外,傳統(tǒng)的中心詞識(shí)別方法基本上是基于詞匯的表面特征,準(zhǔn)確率不高,因此需要對(duì)問題進(jìn)行更次的分析來提高識(shí)別精度,如語義關(guān)系、語法關(guān)系等。本文將研究借鑒的抽取策略及其它分類方法,并利用語義和語法關(guān)系來達(dá)到想要的結(jié)果。國(guó)內(nèi)外研究現(xiàn)狀中心詞抽取是一個(gè)很有性的工作,在許多問題分類研究中都有所涉及國(guó)外研究現(xiàn)狀國(guó)際上對(duì)英文的問題分類研究開始比較早,中心詞的識(shí)別問題也隨之而產(chǎn)生。在英文問題分類中,許多研究者對(duì)中心詞重要性的確定和識(shí)別做出了許多貢獻(xiàn)。在英文問題分類中,Li等人[11,12]首次提出用中心詞塊作為重要的分類特征之一,他們將疑問詞后第一個(gè)動(dòng)詞詞塊或第一個(gè)名詞詞塊作為中心詞塊。Krishnan等[13]用一個(gè)可以指示問題信息的續(xù)跨度的短語作為分類特征,稱作通知跨度。這兩種方法對(duì)許多問題分類比較有效,但是在一些情況下可能會(huì)導(dǎo)致特征集被引入噪音信息。如問題“Whatisagroupofturkeyscalled?”,該問題的中心詞塊和通知跨度都是“groupofturkeys”。詞“turkeys”有利于將該問題分到類別“ENTY:animal”中,然而,詞“group”可能會(huì)導(dǎo)致該問題被錯(cuò)誤分到類別“HUMAN:group”中。為解決以上問題,研究者提出了中心詞概念[14]。它是一個(gè)能夠反映問題所問內(nèi)容的單一的詞。對(duì)于上例,確切的中心詞是“turkeys”,這樣可以防止引入有誤導(dǎo)性的詞。在大多數(shù)實(shí)例中,中心詞都包含在中心詞塊或通知跨度中。雖然中心詞塊或通知跨度相對(duì)于其他誤導(dǎo)性詞在分類體系中扮演的角色更有力,然而,在分類中卻沒有中心詞有效。中心詞抽取方法的一個(gè)主要代表是基于問題的句法結(jié)構(gòu)。為了抽取中心詞,首先要對(duì)問題進(jìn)行語法分析來構(gòu)建一個(gè)語法樹。語法樹是一個(gè)基于語則的可以描繪一個(gè)句子語法結(jié)構(gòu)的樹。PFG(ProbbiliticContext-FreGrammars)[15-17]語法樹通常被用來對(duì)一個(gè)英文問題進(jìn)行語法分析,并比較好的效果。Collins[18]首次提到了基于語法樹的中心詞抽取方法。一些ollins規(guī)則來確定問題的中心詞。對(duì)于一個(gè)語則X→Y1…Yn,其中X和Yi在語法樹中不處在末端。中心詞規(guī)則指定語法樹右手方向的非末端為規(guī)則X的中心,在結(jié)果子樹上循環(huán)執(zhí)行這個(gè)過程,直到到達(dá)一個(gè)末端結(jié)點(diǎn)為止。然而,Collins規(guī)則在某些情況下并不恰當(dāng)。ollins規(guī)則認(rèn)為動(dòng)詞短語的優(yōu)先級(jí)比名詞短語的優(yōu)先級(jí)高,但是在問答系統(tǒng)中,主語和賓語比動(dòng)詞含有的語義信息,在一些情況下,一個(gè)問題的中心詞是名詞。隨后,為了提高中心詞規(guī)則的更廣的覆蓋面,Klein[19]等人通過修改Collins的語則,根據(jù)需要重新定義了語義中心詞規(guī)則來抽取中心詞。特別重新定義了關(guān)于抽取SBARQ、SQ、VP、SINV短語里的中心詞的規(guī)則,認(rèn)為名詞、名詞短語的優(yōu)先級(jí)大于動(dòng)詞、動(dòng)詞短語的優(yōu)先級(jí)。但是該方法也存在缺陷。如果抽取的中心詞是名稱、類型、種類等時(shí),該中心詞對(duì)分類沒有實(shí)際的意義。Huang[14為補(bǔ)充以上中心詞的識(shí)別方法,提出了一些依賴問題類別的有規(guī)律的表達(dá)式模式。用一個(gè)有規(guī)律的字符串表達(dá)式創(chuàng)建了一個(gè)二元特征。如果一個(gè)問題符合這個(gè)表達(dá)式,一個(gè)二元特征將會(huì)被放入到這個(gè)問題的特征集中。在訓(xùn)練集中,如果這個(gè)特征是有效的,它將被分類器挑選出來。實(shí)驗(yàn)證明這種方法是有效的,可以取得較好的分類效果。國(guó)內(nèi)研究現(xiàn)狀中文問答系統(tǒng)起步較晚,相對(duì)于英文而言,無論在研究規(guī)模還是在所達(dá)到的水平上,都有很大的差距。國(guó)內(nèi)研究問答系統(tǒng)的主要機(jī)構(gòu)有哈爾濱工業(yè)大學(xué)[20]、復(fù)旦大學(xué)[21]、 [22]等,它們都為國(guó)內(nèi)問答系統(tǒng)的發(fā)展做出了卓越的貢獻(xiàn)。問答系統(tǒng)的發(fā)展勢(shì)必造成研究者對(duì)問題分類的重視,但是有關(guān)問題分類的重要特征之一的中心詞研究卻還很少。最初,中心詞的抽取主要基于自定義規(guī)則。孫景廣、等[6]人將中詞定義為疑問意向詞,即表達(dá)“問題問的是什么”這么一個(gè)含義的詞。首先選取疑問詞右邊標(biāo)記為“n”的詞作為疑問意向詞,并最多選取兩個(gè),如果疑問詞的右邊沒有標(biāo)記為“n”的詞,則選取疑問詞左邊的“n”詞作為疑問意向詞,并最多選取兩個(gè)。田等[3]根據(jù)疑問詞在問題中出現(xiàn)的位置采用不同的中心詞搜索策略,若疑問詞是問題的第一個(gè)或者最后一個(gè)詞,尋找離疑問詞最近的“n”作為中心詞,若疑問詞出現(xiàn)在問題的其它位置,從疑問詞位置開始往后搜索,若能夠搜索到“n”“n”作為中心詞,若找不到則認(rèn)為句子沒有中心詞。然而由于中心詞的詞性的復(fù)雜性和位置的靈活性,給中心詞識(shí)別準(zhǔn)確率的進(jìn)一步提高帶來很大;另外,自定義的規(guī)則也具有局限性、覆蓋面窄的缺點(diǎn)。隨著中文自然語言處理技術(shù)的發(fā)展,為了得到有用的信息,人們希望從更次去分析問題的語義、結(jié)構(gòu)特征。段利國(guó)等[8]通過分析問題的語法結(jié)構(gòu)來提取問題的中心詞。其中依存關(guān)系為“HED”的詞為中心詞。例如問題“哪個(gè)機(jī)構(gòu)負(fù)責(zé)救助難民?”,通過語法分析后,“機(jī)構(gòu)”和“Root”的關(guān)系為“HED”,所以機(jī)構(gòu)是中心詞。然而,依存關(guān)系為“HED”的詞不一定是中心詞,同樣,許多中心詞的依存關(guān)系不是“HED”。所以該方法的覆蓋面仍然較窄。為了充分利用問題詞匯的詞性、語義、語法等特征,文獻(xiàn)[5]助CRF模型,選用每個(gè)詞的詞匯本身、詞性、修飾詞、修飾詞詞性、依存關(guān)系作為分類特征來識(shí)別中心詞,在很大程度上提高了中心詞識(shí)別的準(zhǔn)確率,同時(shí)使問題分類的精度[4]得到了明顯的提高。F模型在關(guān)于有序標(biāo)記任務(wù)的許多研究中都較好的分類效果,雖然統(tǒng)計(jì)學(xué)方法適用于大多數(shù)類型問題的中心詞識(shí)別,但是對(duì)于少數(shù)類型問題,中心詞識(shí)別效果并不是很好。所以仍需要在這種方法的基礎(chǔ)上做一些改進(jìn)。中心詞在問題里的作用類似于在文本里的作用,它們都高度概括了問題或文本的主要內(nèi)容,中心詞的抽取可以參考的研究方法。文獻(xiàn)[23]在詞匯間語義關(guān)聯(lián)(相似距離和共現(xiàn)距離)的基礎(chǔ)上,通過語義距離的計(jì)算,實(shí)現(xiàn)一種非監(jiān)督的自動(dòng)抽取方法,可以準(zhǔn)確便捷地處理大量的文本,并獲取對(duì)應(yīng)的。由于問題所含的詞通常比較少,所以簡(jiǎn)單的通過統(tǒng)計(jì)詞的共現(xiàn)頻率的方法更適合。雖然中心詞或都可以表達(dá)一句話或一段文本所要表達(dá)的信息。但是的研究通常是基于文本的,且通常不是一個(gè)詞,而是幾個(gè)詞夠成的字符串,因此中心詞研究并不能直接借鑒的研究成果。本文研究的主要內(nèi)容問題分類一直是自動(dòng)問答系統(tǒng)研究領(lǐng)域的一個(gè)重要課題,中心詞作為除疑問詞外最能表達(dá)問題語義信息的詞,如何準(zhǔn)確提取中心詞成為一個(gè)非常有研究?jī)r(jià)值的問題。本文的主要研究?jī)?nèi)容如下:針對(duì)基于規(guī)則方法以及機(jī)器學(xué)習(xí)方法在問題中心詞識(shí)別上的優(yōu)劣問題。研究利用條件隨機(jī)場(chǎng)的機(jī)器學(xué)習(xí)方法進(jìn)行中心詞初始標(biāo)注,并根據(jù)問題中心詞的語法特征,選擇一種有效的習(xí)規(guī)則方法,對(duì)最初分類的結(jié)果進(jìn)行校正。通過試驗(yàn),以提高中心詞識(shí)別的準(zhǔn)確率。由于語料庫有限,而從語法角度得到的習(xí)規(guī)則過多依賴于訓(xùn)練集的規(guī)模以及不同類型問題的分布情況,因此對(duì)于某些問題,規(guī)則集中可能沒有與之對(duì)應(yīng)的規(guī)則,導(dǎo)致識(shí)別性能不夠穩(wěn)定。為此,試圖分析中心詞與類別間的語義相似度規(guī)律,對(duì)機(jī)器學(xué)習(xí)方法分類的結(jié)果進(jìn)行校正,以降低規(guī)則的依賴性,提高中心詞識(shí)別的準(zhǔn)確性。本文使用的問題集和平臺(tái)本文實(shí)驗(yàn)所采用的問題集①是哈爾濱工業(yè)大學(xué)信息檢索提供的,在中文問題研究中有一定的代表性,總共有6312個(gè)問題。本文實(shí)驗(yàn)所用到的第平臺(tái)是哈爾濱工業(yè)大學(xué)的LTP平臺(tái),見圖1-1。LTP平臺(tái)是哈爾濱工業(yè)大學(xué)開發(fā)的漢語語言處理平臺(tái),底層以XML表示DOM處理文本。包含分句、分詞及詞性標(biāo)注、命名實(shí)體識(shí)別、依存分析器、語義角色標(biāo)注等八個(gè)模塊,各個(gè)模塊間相互依賴,用戶可以通過接口調(diào)用各個(gè)模塊,模塊的調(diào)用沒有嚴(yán)格的規(guī)定,唯一要求分句模塊在其它模塊之前調(diào)用。文本經(jīng)LTP平臺(tái)處理后,以XML的格式存放在內(nèi)存中。LTP平臺(tái)可以在VC2003(VC7.1、VC.NET、VS2008、VC6平臺(tái)下運(yùn)行。本文評(píng)價(jià)中心詞的性能指標(biāo)如下,即在所有實(shí)例中正確標(biāo)記中心詞的實(shí)例所占的比例,其中FP表示中心詞識(shí)別的準(zhǔn)確率:① FP=正確標(biāo)記中心詞的實(shí)例個(gè)數(shù)/所有實(shí)例個(gè) (式1-分分分分圖1-1本文的組織結(jié)構(gòu)本文共分為五章:第一章簡(jiǎn)單介紹了本文的研究背景,問答系統(tǒng)里中心詞識(shí)別的研究意義和國(guó)內(nèi)外現(xiàn)狀,以及給出了本文的主要研究?jī)?nèi)容和所需要的問題集和平臺(tái)。第二章主要對(duì)中心詞的概念和特點(diǎn)進(jìn)行了詳細(xì)的介紹,包括條件隨機(jī)場(chǎng)的原理及其在中心詞識(shí)別中的應(yīng)用,并介紹了如何使用CRF工具。第三章為解決中文問題里中心詞識(shí)別確的問題,提出了一種基于條件隨機(jī)場(chǎng)和錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)相結(jié)合的識(shí)別方法。首先給定了問題中疑問詞的提取方法,并探討了依存關(guān)系在中心詞識(shí)別中的作用。最后利用錯(cuò)誤驅(qū)動(dòng)方法對(duì)條件隨機(jī)場(chǎng)標(biāo)注結(jié)果進(jìn)行校正,并給出了錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)過程。另外,在訓(xùn)練有序規(guī)則的過程中,對(duì)錯(cuò)誤驅(qū)動(dòng)算法進(jìn)行了改進(jìn)。最后通過實(shí)驗(yàn)證明該方法的有效性以及存在的問題。第四章探討了類別體系和語義相似度在中心詞識(shí)別中的應(yīng)用。提出了一種將問題的每個(gè)詞和類別體系之間的語義關(guān)系作為訓(xùn)練條件隨機(jī)場(chǎng)模型的分類特征。給出了中心詞識(shí)別的具體過程。通過大量實(shí)驗(yàn)對(duì)比,取得了預(yù)期的效果。第五章對(duì)本文的進(jìn)行了總結(jié),介紹本文方法的主要思想以及遇到的問題,最后對(duì)未來的工作進(jìn)行了展望。本章小結(jié)本章首先介紹了中心詞識(shí)別的研究背景和意義,并給出了國(guó)內(nèi)外研究現(xiàn)狀。然后,針對(duì)中心詞識(shí)別確的問題,給出了本文主要的研究工作。接著,介紹本文所使用到的集和評(píng)價(jià)標(biāo)準(zhǔn)。最后,給出了本文的組織結(jié)構(gòu)。第2章中文問題的中心詞中心詞識(shí)別問題類似于傳統(tǒng)數(shù)據(jù)挖掘的分類問題,但是它們也有許多不同之處。首先,相對(duì)于傳統(tǒng)數(shù)據(jù)挖掘分類,用于中心詞分類的特征數(shù)據(jù)之間是有聯(lián)系的、非獨(dú)立的;其次,中心詞分類的類別只有兩類,分類的目的是確認(rèn)待分類的詞匯是否是中心詞;最后,傳統(tǒng)的數(shù)據(jù)不考慮次序問題,而中心詞識(shí)別考慮次序問題。本章首先分析介紹了中心詞的概念和特性,接著介紹了幾種常用的中心詞識(shí)別方法及其效果,最后,為了深入了解條件隨機(jī)場(chǎng)模型在問題里中心詞識(shí)別中的應(yīng)用,本章就條件隨機(jī)場(chǎng)模型和使用方法進(jìn)行了詳細(xì)的分析和研究。中心詞的概念中心詞(headword)的定義最初出現(xiàn)在英文問題中,中心詞被定義[14]為“singlewordthatspecifiestheobjectthatthequestionseeks”。而在中文問題里,中心詞一直都沒有明確的定義,本文參照已有的國(guó)內(nèi)外文獻(xiàn),規(guī)定本文的中心詞為問題中最能體現(xiàn)答案類型的詞或詞組。中心詞是最能體現(xiàn)答案類型的一個(gè)詞,也可以是由多個(gè)詞構(gòu)成的詞組,但是不包括疑問詞。不論是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)還是規(guī)則的問題分類,中心詞和疑問詞一樣,都是對(duì)分類結(jié)果起決定性作用的重要特征。在許多文獻(xiàn)心詞也可以被稱為焦點(diǎn)詞[4]、詞[8]。例如,問題“那達(dá)慕/n在/p/nz中/nd的/u意思/n是/v什么/r”的類別為描述類的意思類(DES_MEANING,因?yàn)樗闹行脑~為“意思”,可以直接通過該中心詞將其分類到意思類中。中文問題的中心詞比較復(fù)雜。首先,中心詞的詞性比較復(fù)雜,除了名詞(n)外,還可能是數(shù)詞(m、量詞(q)等,或者是它們的組合。例如:“/ni占地/v多少/r平方米/q”,希望得到一個(gè)有關(guān)面積類的答案,因此它屬于類別體系中數(shù)字類別里的面積類(NUM_AREA,問題中“平方米”可以表示面積,因此量詞“平方米”是中心詞。其次,一個(gè)問題中的中心詞可能有一個(gè)、多個(gè)或者沒有,如“登/v上/nd/u月球/n的/u人/n有/v哪/r幾/m位/q”,希望得到一個(gè)人物(HUM_)的答案,“人”和“位”都可以代表人的特征,因此可以選擇“|位”作為中心詞;問題“2012年/m/nh獎(jiǎng)/n的/u貨幣/n價(jià)值/n是/v多/r”(NUM_MONEY),“價(jià)值”是一個(gè)抽象概念,可以作為任何一個(gè)事物的屬性,因此它不能單獨(dú)地被認(rèn)為是中心詞來表示答案的類型,需要一個(gè)限定詞來縮小范圍,并使中心詞的語義表達(dá)更準(zhǔn)確,所以選取“貨幣|價(jià)值”作為中心詞。問題“為什么/r鴕鳥/n不/d能/v飛/v”屬于描述類里的原因類(DES_REASON,除疑問詞“為什么/r”外,沒有可以確定其類別的詞,因此該問題沒有中心詞。問題中心詞的特性分析中心詞與類別的關(guān)系中心詞是可以反映問題所含信息并能無歧義地表達(dá)問題本質(zhì)的詞的組合。例如“中國(guó)/ns的/u首都/n在/p哪兒/r”,該問題的本質(zhì)是詢問城市的名稱,因此首都是中心詞,它可以對(duì)該問題所屬的類別進(jìn)行限定,哪兒是疑問詞,除此之外的其它詞對(duì)問題的分類都沒有實(shí)質(zhì)性的幫助,甚至?xí)a(chǎn)生誤導(dǎo)。在本文的研究中,可以把中心詞識(shí)別看成一個(gè)分類問題,即判斷每個(gè)候選中心詞是中心詞還是不是中心詞,需要解決的問題就是如何正確地區(qū)分候選中心詞是兩個(gè)類別中的哪一類。本文將中心詞用“1”表示,非中心詞用“0”表示。中心詞和類別之間的關(guān)系比較緊密,通過計(jì)算語料庫里每個(gè)問題的中心詞和它所屬類別之間的語義相似度,圖2-1給出了相似度值大于某個(gè)閾值的中心詞比例。其中,語義相似度大于0.5的中心詞占68.87%。圖2-2給出了各類別中相似度值大于某個(gè)閾值的中心詞比例。對(duì)于某些類別,語料庫中找不到與之相對(duì)應(yīng)的類別,如TIME_HOLIDAY(時(shí)間_節(jié)假日)類,因此該類別滿足閾值的中心詞占該類別所有中心詞的比例為0,對(duì)于一些中心詞常為命名實(shí)體、名稱等的類別,如LOC_LAKE(地點(diǎn)_湖泊)類,其比例也比較低。除此之外的其它類別的比例相對(duì)較高,大于80%。所占比例0 閾圖2-1中心詞與它的位置之間的關(guān)系中心詞通常和疑問詞關(guān)系比較密切,在中文問題中,中心詞的語法結(jié)構(gòu)比較靈活。中文問題里的中心詞的語義角色可能為:疑問詞的修飾語;當(dāng)疑問詞包含在賓語中時(shí),整個(gè)問句的主語是中心詞;當(dāng)疑問詞包含在主語中時(shí),整個(gè)問句的賓語是中心詞;問題中詞的位置不同,它所代表的權(quán)重也不同,慮的問題。 0 圖2-2中心詞的標(biāo)注準(zhǔn)則本文中心詞的提取至少滿足以下幾個(gè)準(zhǔn)則:中心詞不能是停用詞停用詞在一個(gè)句子中只是為了滿足語法或功能的需要而存在,其本身并沒有實(shí)際的詞匯含義。通常停用詞可以分成兩類。一類是文本中包含的功能詞,這些詞比較普遍,與其他詞相比較,沒有什么實(shí)際含義,例如“于是”“仍”“在”等。另一類雖然包含詞匯信息,但是應(yīng)用十分廣泛,對(duì)處理自然語言數(shù)據(jù)沒有什么幫助,有時(shí)反而會(huì)降低處理效果,例如“它們”、“全體”、“別人”等。與停用詞相比,實(shí)詞不僅可以單獨(dú)充當(dāng)句法成分,而且與問題本身的關(guān)聯(lián)度大于停用詞,尤其是專有名詞、動(dòng)詞、時(shí)間地點(diǎn)詞、量詞等??梢酝ㄟ^常用停用詞表來去除無意義的詞。中心詞不能是疑問詞疑問詞作為問句提問的語言成分,雖然對(duì)問題分類非常重要,但是不希望它在包含答案的文本中出現(xiàn),因此讓它有別于中心詞。在本文,可以通過構(gòu)建疑問詞表來過濾候選中心詞。高頻詞優(yōu)先大部分中心詞(除了停用詞)都在多個(gè)問題中出現(xiàn),因此可以/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論