1006大設(shè)計(jì)翻譯版_第1頁(yè)
1006大設(shè)計(jì)翻譯版_第2頁(yè)
1006大設(shè)計(jì)翻譯版_第3頁(yè)
1006大設(shè)計(jì)翻譯版_第4頁(yè)
1006大設(shè)計(jì)翻譯版_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

GeneratingChineseriddleAuthor:TanChuanqiTutor:LvRiddleisregardedasoneofthemostuniqueandvitalelementsintraditionalChineseculture.Byusingcomputertechnologytogeneratetheriddleautomatically,ithelpstheindividualswithoutspecializedriddleknowledgetocreateriddles,thustogetmorepeopleinvolvedinriddlerelatedactivities,leadingtowiderpromotionoftraditionalChineseculture.ThisthesistakestheriddlesrelatedtothedeconstructionofChinesecharactersasthemajorresearcharea,whichemphasizesthecombinationofthewrittenformandthematchofcomponentsoftheChinesecharacter,byevaluatinganddescribingthevariouscomponentsfromtheshape,functionandmeaning.Thus,thisthesiswillfocusonthreemainpointsasByfirstlythisarticlepresentstheysisoftherelevantknowledgeoftheChineseriddle,fromthewayofriddles’constitutionaswellasthecommondescriptionoftheseparationofthecomponents.Thispaperfiguresoutthattheriddlegenerationistheprocessofseparating,explaining,andre-constructing.Thenextstepistosetuptherelevantcorpus.Bycrawlingriddlecorpus,andcombiningthemethodsofStatisticalNaturalLanguageProcessingandmanualannotation,thisthesispointsoutthemethodofextractingalignmentsandrulesiteratively,successfullyestablishedthecorpusofalignmentsandrules.Furthermore,thisthesisemploysthetemplate-basedmethodandreplacement-basedmethodforriddlegeneration.Theapproachconsistingofthecollaborationof“rankingaftergeneration”and“case-basedreasoning”isputforwardtogeneratingtheChineseriddles.Specifically,TheRankingSupportVectorMachineandlanguagemodelisusedtotraintherankingfunction,andcontributestojudgingthegeneratedriddles.TheexperimentalresultsillustratetheeffectivenessoftheproposedmethodforgeneratingChinesecharacterriddles.Inaddition,thisthesismakesconsiderablycontributestotheresearchinNaturalLanguageProcessingforChinesetraditional:riddlegeneration,template-basedgeneration,replacement-basedgeneration,riddleranking,rankingsupportvectormachine緒 研究背 國(guó)內(nèi)外研究現(xiàn) 研究目標(biāo)與內(nèi) 理解字謎構(gòu) 建立語(yǔ)料數(shù) 自動(dòng)生成字 課題來(lái) 的組織結(jié) 相關(guān)技術(shù)現(xiàn) 語(yǔ)料庫(kù)建 自然語(yǔ)言生成相關(guān)技 自然語(yǔ)言生成的體系結(jié) 自然語(yǔ)言生成的相關(guān)算 排序支持向量機(jī)算 統(tǒng)計(jì)語(yǔ)言模 本章小 字謎生成系統(tǒng)設(shè) 研究任務(wù)流程分 系統(tǒng)頂層流程分 數(shù)據(jù)資源分 字謎生成系統(tǒng)模塊設(shè) 本章小 語(yǔ)料庫(kù)建 謎語(yǔ)語(yǔ) 原始謎語(yǔ)數(shù) 預(yù)處理謎語(yǔ)數(shù) 謎語(yǔ)語(yǔ)料規(guī) 拆字 原始拆字表數(shù) 擴(kuò)展拆字表數(shù) 拆字表語(yǔ)料規(guī) 對(duì)齊關(guān)系與規(guī) 提取方案概要介 提取對(duì)齊關(guān)系與規(guī)則語(yǔ) 對(duì)齊關(guān)系語(yǔ)料數(shù) 對(duì)齊關(guān)系與規(guī)則規(guī) 本章小 字謎生成系 候選答案生成模 候選答案測(cè)試模 提取字謎特 訓(xùn)練語(yǔ)言模 基于排序支持向量機(jī)的排序算 系統(tǒng)實(shí) 本章小 實(shí)驗(yàn)結(jié)果評(píng)測(cè)與分 實(shí)驗(yàn)方 實(shí)驗(yàn)步 實(shí)驗(yàn)結(jié) 實(shí)驗(yàn)結(jié)果分析與總 本章小 總結(jié)與展 工作總 未來(lái)展 致 參考文 緒論2014年春節(jié)期間,連續(xù)三天《中國(guó)謎語(yǔ)大會(huì)》,目的就是為了弘揚(yáng)中華傳統(tǒng)文化、豐富群眾文化生活。中出現(xiàn)的謎語(yǔ),有從古代一直傳到現(xiàn)在的經(jīng)典謎語(yǔ),也有跟社會(huì)緊密相關(guān)的新謎語(yǔ)。雖說(shuō)謎語(yǔ)也一直在隨著時(shí)代的進(jìn)于并未系統(tǒng)學(xué)習(xí)過(guò)相關(guān)知識(shí)的普通謎語(yǔ)者來(lái)說(shuō),學(xué)習(xí)和創(chuàng)作謎語(yǔ)有著一定的難度。而普通人也難以自主創(chuàng)作謎語(yǔ),的則是參與猜謎語(yǔ)等相關(guān)活動(dòng)。好的參與有關(guān)謎語(yǔ)的活動(dòng),融入謎語(yǔ)這一傳統(tǒng)語(yǔ)言文化,這也將對(duì)傳統(tǒng)語(yǔ)言文化的 自然語(yǔ)言生成(NturlngugeGnrtion)作為自然語(yǔ)言處理(NturlngugeProing)中的一項(xiàng)重要任務(wù),旨在將計(jì)算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言。語(yǔ)言生成的研究報(bào)、文獻(xiàn)和信息查詢等等;其二,作為檢驗(yàn)特定語(yǔ)言理論的一種技術(shù)[1],如FwttGnSysStirlingNigl多語(yǔ)種生成系統(tǒng)(包括英語(yǔ)、德語(yǔ)、日語(yǔ)、法語(yǔ)、荷蘭語(yǔ)、西班牙語(yǔ)、交通大學(xué)的多語(yǔ)言天氣預(yù)報(bào)發(fā)布系統(tǒng)、交通大學(xué)和的導(dǎo)游系統(tǒng)以及中國(guó)科技大學(xué)的機(jī)器人足球現(xiàn)場(chǎng)解說(shuō)系統(tǒng)重慶大學(xué)的、易勇等人研究了中文詩(shī)詞的風(fēng)格判定,其主要討論了如何計(jì)算語(yǔ)言學(xué)自1998年至1999年建造了“中國(guó)古代詩(shī)詞計(jì)算機(jī)輔助640多萬(wàn)字的語(yǔ)料。以這個(gè)語(yǔ)料庫(kù)為實(shí)驗(yàn)材料,其還進(jìn)行了詞匯的自動(dòng)提取、自動(dòng)分析部分名家詩(shī)(160萬(wàn)字)的語(yǔ)料完成切分及詞性標(biāo)注的基礎(chǔ)上,系統(tǒng)又對(duì)唐宋詩(shī)的詞匯使用情況進(jìn)行了統(tǒng)計(jì)分析,提取了詞匯共現(xiàn)信息、詞匯對(duì)仗信息、作者詞匯特息以圖1.1微軟亞洲對(duì)聯(lián)系微軟亞洲的自然語(yǔ)言計(jì)算組則針對(duì)格律詩(shī)與對(duì)聯(lián)進(jìn)行了相關(guān)研究,其研發(fā)了的約束。拆字字謎便是這一修辭手法特征的。舉例來(lái)說(shuō),在《中國(guó)謎語(yǔ)大會(huì)》1.2(1.21.3.1學(xué)的特定解釋,而對(duì)齊關(guān)系與規(guī)則,就是輔助這一解釋過(guò)程的語(yǔ)料資源。第一章緒論料庫(kù)抽取出一套對(duì)應(yīng)語(yǔ)言知識(shí)以及語(yǔ)則已經(jīng)有了不少的研究工作。2080年代以來(lái),隨著計(jì)算機(jī)性能的飛速提高,語(yǔ)料庫(kù)的容量急劇增大,針對(duì)人類日常生活中使用的語(yǔ)言統(tǒng)稱為自然語(yǔ)言,自然語(yǔ)言處理(NaturalLanguage自然語(yǔ)言生成(NaturalLanguageGeneration,NLG)是以計(jì)算語(yǔ)言學(xué)和人工智能為基言知識(shí)的學(xué)習(xí),進(jìn)而生成能夠使人理解的文本或語(yǔ)音序列。生成過(guò)程中NLG系統(tǒng)依照..23漸成為人們關(guān)注的焦點(diǎn), 選 合合詞合詞2.1圖2.3NLG體系結(jié) 圖2.2管道模模板模板生成技術(shù)(Template-basedGeneration)是自然語(yǔ)言生成研究者們最開始使用的模式短語(yǔ)/規(guī)則擴(kuò)展技短語(yǔ)/規(guī)則擴(kuò)展技術(shù)(Phrase/PlanExpansion)基于Mann和Thompson修辭結(jié)構(gòu)理論,其思想是通過(guò)描述文本結(jié)構(gòu)的來(lái)生成文本,又稱為RST(RhetoricalStructureTheory)技術(shù)。此技術(shù)認(rèn)為文章是由句子、段落甚至更大的組成單位共同組成,排序支持向量機(jī)算法(RankingSupportVectorMachine,RSVM)是基于支持向量機(jī)算法(SupportVectorMachine,SVM)的擴(kuò)展應(yīng)用。支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論的Guyon和Vapnik等人提出了最優(yōu)邊界分類器算法[11]這是支持向量機(jī)算法的最初模型。1995年,Vapnik完整地提出了基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)學(xué)習(xí)算法[12]。 ,,

2.4H為分類超平面,H1、H2分別為過(guò)各類中離分類超平面最近的樣本且平2.4排序支持向量機(jī)算法(RSVM)的思想如下:在支持向量機(jī)算法(SVM)中,訓(xùn)練為樣本,,,,,,,而在排序?qū)W習(xí)的訓(xùn)練中,原始樣本為,,,,,若可認(rèn)為的排序應(yīng)比更高時(shí),即可生成訓(xùn)練樣本,SVMSVM算法 ,則樣本的排序應(yīng)于高,反之亦然字符識(shí)別系統(tǒng)以及機(jī)器自動(dòng)翻譯系統(tǒng)等。本文將介紹應(yīng)用很廣的n-gram模型。n-gram1980年提出來(lái),是一種應(yīng)用很廣的統(tǒng)計(jì)語(yǔ)言模型。它采用了馬爾科夫假設(shè),即認(rèn)為每個(gè)預(yù)測(cè)變量只與長(zhǎng)度為n-1的上下文有關(guān),即:n稱為模型的階數(shù),其取值決定了模型的精度和復(fù)雜性。試驗(yàn)表明,n值n=1、2,3Unigram、BigramTrigram模型[15]。Bigram下,以句子“<sIwantenglishfoods>

那么,我們?cè)趯?shí)際問(wèn)題時(shí),更大的n意味著對(duì)下一個(gè)詞出現(xiàn)的約束信息,具有更大的辨別力,更小的n意味著在訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),具有更可靠的統(tǒng)計(jì)信原則上,能用Bigram解決,絕不使用Trigram。本章主要介紹了本課題在研究過(guò)程中所可能用到的相關(guān)技術(shù)和理論基礎(chǔ)。2.1節(jié)介紹了語(yǔ)料庫(kù)建設(shè)的意義與方法。2.2節(jié)介紹了自然語(yǔ)言生成的體系結(jié)構(gòu),并介紹了三種3.3節(jié)具體分析本文要使用的數(shù)3.13.1中的中文字謎生成系統(tǒng),以上各研究任務(wù),建立語(yǔ)料數(shù)據(jù)、建立模型等等,均是為了實(shí)現(xiàn)中文字謎自動(dòng)生成的功能。3.1節(jié)從課題研究候選字輸入漢輸出候選字輸入漢輸出字3.2部分部分部分選取應(yīng)描 選取應(yīng)描 選取應(yīng)描描述描述描述述3.3法通過(guò)“千里”對(duì)應(yīng)“馬”擴(kuò)展出“百里”或“”能對(duì)應(yīng)什么,我們可以將這種對(duì)應(yīng)類似的比喻成專有名詞。而規(guī)則可以覆蓋、更廣范圍的對(duì)應(yīng)關(guān)系,一個(gè)對(duì)齊關(guān)系本文將其視為一種規(guī)則。通過(guò)這種規(guī)則,我們可以得到一類語(yǔ)料,比如“沒(méi)心情”對(duì)應(yīng)案,作為優(yōu)秀字謎輸出,此模塊則會(huì)涉及到語(yǔ)言模型(LanguageModel)、支持向量機(jī)3.4本章著重介紹了中文字謎自動(dòng)生成的研究任務(wù)、系統(tǒng)需求并給出了設(shè)計(jì)方案。3.1節(jié)從課題研究任務(wù)的角度分析了課題研究的流程。3.2節(jié)從系統(tǒng)實(shí)現(xiàn)的角度分析了中文字謎生成系統(tǒng)的系統(tǒng)流程。3.3節(jié)通過(guò)對(duì)字謎生成過(guò)程進(jìn)行微觀分析,介紹了本課題需要用到的數(shù)據(jù)資源。3.4節(jié)介紹了字謎生成系統(tǒng)的模塊設(shè)計(jì)方案。本章將首先介紹本課題利用的初始數(shù)據(jù)資源,然后將結(jié)合基于規(guī)則的方法與25條規(guī)則,最終建立起有關(guān)字謎生成的語(yǔ)料庫(kù)。本課題研究涉及到的三大語(yǔ)料資字謎,即謎底為一個(gè)字符的謎語(yǔ)作為本課題研究的原始數(shù)據(jù)集合,共計(jì)17210個(gè)謎4.1表4.1序謎謎1鄺2崽3哥4始5夢(mèng)6Z7埔8開9盂員,表4.2序謎謎1二2蘭3晴4榛5舂6奏7舂8日9秦楮謎語(yǔ)語(yǔ)料規(guī) 春日偶成榛67624.3所示。表4.3序漢部分部分部分1吖口丫2阿阝可3啊口阿4錒钅阿5嗄口夏6哎口艾7哀口衣8埃土矣9唉口矣愛(ài)爫冖友表4.4序漢部分部分部分3啊口阿表4.5序漢部分部分部分3啊口阝可4.1序漢部分部分部分1吖口丫2阿阝可3阝口丁4啊口阿5口阝可6錒钅阿7序漢部分部分部分1吖口丫2阿阝可3阝口丁4啊口阿5口阝可6錒钅阿7钅阝可8嗄口夏9哎口艾口乂吖口丫阿阝可阝口丁啊口阿口阝可以參文分詞的常見方法。規(guī)則與統(tǒng)計(jì)相結(jié)合的方法:規(guī)則處理的優(yōu)勢(shì)在于能充分利用現(xiàn)有的語(yǔ)言學(xué)研究成果,而統(tǒng)計(jì)處理的優(yōu)勢(shì)則在于它的全部知識(shí)是通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的參數(shù)訓(xùn)練自動(dòng)得到的,因此可以獲得很好的一致性和很高的覆蓋率,并且可以將一些以充分發(fā)揮兩者的優(yōu)勢(shì)[17]。有的獨(dú)特文學(xué),其語(yǔ)言表達(dá)方式不同于我們?nèi)粘=佑|的口語(yǔ)或語(yǔ)。謎語(yǔ)中的對(duì)4.1描規(guī)則找到的對(duì)應(yīng)關(guān)系。則提取謎語(yǔ)4.1考慮到漢語(yǔ)詞組一般不超過(guò),而在謎語(yǔ)中出現(xiàn)頻率高的單個(gè)漢字,往往起到其詞頻。其部分高頻結(jié)果如表4.6所示。表4.6二元詞組詞三元詞組詞四元詞組詞同心心ForeachinForeachin謎語(yǔ)語(yǔ)Foreach二元詞組/三元詞組/四元詞組in謎Foreachin謎底漢字的拆字表數(shù)Count[詞組,拆分Count[詞組,拆分4.7二元詞組對(duì)詞三元詞組對(duì)詞四元詞組對(duì)詞氵木山山木口宀日日木人馬宀9通過(guò)以上算法,本文得到了聯(lián)合謎底的詞頻統(tǒng)計(jì)結(jié)果。表4.7為按上述算法得到的提取規(guī)則獲得對(duì)齊關(guān)二元組,部分?jǐn)?shù)據(jù)見表4.8。表4.8“西”組數(shù)二元詞組詞Foreach子Foreach子序in高頻詞集Count[子序列Count[子序列利用這些規(guī)則,系統(tǒng)即可結(jié)合拆字表得到這些高頻的對(duì)應(yīng)關(guān)系,再利用這些規(guī)4.9為表4.9規(guī)表示方式含A-去掉字A中的部分A-去掉字A中的部分A-去掉字A中的部分A-去掉字A中的部分4381140904.10為部分語(yǔ)料表4.10對(duì)應(yīng)個(gè)數(shù)對(duì)應(yīng)漢字對(duì)應(yīng)對(duì)應(yīng)對(duì)應(yīng)對(duì)應(yīng)對(duì)應(yīng)木春松林口嘴氵水—日1勒1勛1劃1凼對(duì)齊關(guān)系與規(guī)則規(guī)系統(tǒng)將對(duì)齊關(guān)系按“漢字+對(duì)應(yīng)1+對(duì)應(yīng)2+??+對(duì)應(yīng)N”的形式,其部分?jǐn)?shù)據(jù) 二再一又北勒劃出](.)$A-B1出](.)$A-B1進(jìn)一步擴(kuò)展。4.3節(jié)介紹了對(duì)齊關(guān)系及規(guī)則語(yǔ)料的抽取。以上內(nèi)容共同構(gòu)成了本課題的字謎生成系統(tǒng)本課題并不希望涉及太多語(yǔ)言學(xué)知識(shí),即以生成可接受的字謎為目的,而不過(guò)分要5.1模板生ForeachForeachin謎底漢字的拆字表數(shù)Foreachin模板集替換生以字謎“雨落橫山”為例,本文將此謎面分析為“[]落[]”,針對(duì)漢字“雷”。若依然ForeachForeachin常用漢字集If漢字與謎底至多有一個(gè)拆分不同ThenForeach漢字的謎語(yǔ)語(yǔ)料in謎語(yǔ)語(yǔ)料庫(kù)通過(guò)分析字謎結(jié)構(gòu),分析謎面構(gòu)成方式,以我們掌握到的字謎語(yǔ)料為基礎(chǔ),擴(kuò)展出謎面的長(zhǎng)度:分析已有數(shù)據(jù)可發(fā)現(xiàn),絕大多數(shù)字謎的謎面是不超過(guò)10個(gè)字的對(duì)應(yīng)關(guān)系表示的過(guò)程。在分解漢字結(jié)構(gòu)時(shí),系統(tǒng)也有多種分解方式。以“湖”據(jù),并結(jié)合大多數(shù)人的習(xí)慣,一般漢字被拆分為2或3個(gè)部分為佳;5.1表5.1特征名稱特征含義其值abs(Length-5),通過(guò)調(diào)研與統(tǒng)計(jì)整個(gè)文本的n-gram一方面,一般語(yǔ)言模型使用的訓(xùn)練語(yǔ)料數(shù)據(jù)多來(lái)源于、小說(shuō)等文章,其語(yǔ)言風(fēng)表5.2輸入序列語(yǔ)言模型得分--5.19評(píng)分,其分?jǐn)?shù)意義見表5.3。表5.3評(píng)意123至右依次表示評(píng)分、標(biāo)注編號(hào)、LM_sentence、LM_sentenceDivideLength、表5.431:-2:-3:-4:-春到柳31:-2:-3:-4:-枝上柳31:-2:-3:-4:-梧桐31:-2:-3:-4:-疏林不31:-2:-3:-4:-樓前流31:-2:-3:-4:-斷橋流31:-2:-3:-4:-大樹迎31:-2:-3:-4:-斷橋31:-2:-3:-4:-橋邊21:-2:-3:-4:-處處春21:-2:-3:-4:-楊11:-2:-3:-4:-三十六11:-2:-3:-4:-斷橋11:-2:-3:-4:-春光迎11:-2:-3:-4:-柳梢頭11:-2:-3:-4:-春光11:-2:-3:-4:-相思表5.531:-2:-3:-4:-天下31:-2:-3:-4:-江水31:-2:-3:-4:-清江31:-2:-3:-4:-江水31:-2:-3:-4:-江上31:-2:-3:-4:-江31:-2:-3:-4:-江北31:-2:-3:-4:-江31:-2:-3:-4:-天31:-2:-3:-4:-一半31:-2:-3:-4:-江11:-2:-3:-4:-空上不11:-2:-3:-4:-不要功11:-2:-3:-4:-江頭不11:-2:-3:-4:-不要功11:-2:-3:-4:-不要江11:-2:-3:-4:-一橋飛架南11:-2:-3:-4:-江北不11:-2:-3:-4:-江左不11:-2:-3:-4:-掩蓋半天表5.631:-2:-3:-4:-窗外是31:-2:-3:-4:-回首31:-2:-3:-4:-回首是31:-2:-3:-4:-一口惹31:-2:-3:-4:-北國(guó)31:-2:-3:-4:-飛鳥鳴壟上行21:-2:-3:-4:-北國(guó)21:-2:-3:-4:-回頭不來(lái)此地21:-2:-3:-4:-四面壁11:-2:-3:-4:-回首11:-2:-3:-4:-鳥飛鳴11:-2:-3:-4:-窗外11:-2:-3:-4:-叩之前是非多11:-2:-3:-4:-飛鳥鳴11:-2:-3:-4:-亭中是11:-2:-3:-4:-南回11:-2:-3:-4:-西園惹11:-2:-3:-4:-結(jié)同心惹是非11:-2:-3:-4:-四圍11:-2:-3:-4:-明月一11:-2:-3:-4:-不要回11:-2:-3:-4:-日間不到權(quán)值向量,各特征的權(quán)值如表5.7所示。表5.7特征名稱權(quán)值向量----按以上排序函數(shù),測(cè)試系統(tǒng)即可對(duì)候選字謎進(jìn)行排序,從中選取較高的候選答表5.8二杜思湘秦春雨下按5.1及5.2小節(jié)的分析,以及第三章對(duì)系統(tǒng)設(shè)計(jì)及流程的分析,語(yǔ)料庫(kù)的建設(shè)、語(yǔ)言模型的訓(xùn)練、排序函數(shù)的訓(xùn)練工作均與最終生成系統(tǒng)的工作相,以上工作會(huì)先于生生成模表5.9屬類描Dictionary<string,表5.10方描模板生成方式主,question為用戶輸入AnswerPart(stringcharacter,模板生成方式中,為各部分找到描述方式,candidate,List<List<Beam>>bination,intlevel,List<Beam>list)Replace(stringcharacter)candidate,stringanswer,stringfrom,stringto)

最終結(jié)果存于candidate中替換生成方式主,question為用戶輸入的特征

5.11屬類描征其值為abs(Length-表5.12方描語(yǔ)言模

表5.13方描系統(tǒng)的候選答案生成模塊與候選答案測(cè)試模塊。5.3節(jié)介紹了中文字謎生成系統(tǒng)的詳細(xì)字,普通個(gè)人計(jì)算機(jī)可在1秒內(nèi)給出結(jié)果;對(duì)于拆分?jǐn)?shù)為3的漢字,一般可在2秒左右應(yīng)應(yīng) 810121416182022242628303234作為謎底的出現(xiàn)次數(shù)6.1按作為謎底出現(xiàn)的次數(shù)來(lái)劃分,將中文漢字分為作為謎底出現(xiàn)5次以下、6-2個(gè)謎語(yǔ)(2個(gè)則全部使用)作為測(cè)試將生成的標(biāo)注序列交由人工按表6.1的評(píng)分標(biāo)準(zhǔn)進(jìn)行標(biāo)注表6.1分評(píng)分標(biāo)準(zhǔn)12345表6.2謎語(yǔ)(思標(biāo)注標(biāo)注謎語(yǔ)(夢(mèng)標(biāo)注標(biāo)注5555442343235455555554545555545555354335謎語(yǔ)(杜標(biāo)注標(biāo)注謎語(yǔ)(畫標(biāo)注標(biāo)注3355424455山田接云55345455435555555555山中,果木凋555543555552.5%1表6.3系統(tǒng)整體統(tǒng)計(jì)謎語(yǔ)來(lái)源評(píng)模板生成替換生成謎語(yǔ)語(yǔ)料表6.4單個(gè)漢字統(tǒng)計(jì)全思?jí)舸簛啒?biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注模板生成4334替換生成5謎語(yǔ)語(yǔ)料4543554因畫木羊奮標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注模板生成534替換生成4謎語(yǔ)語(yǔ)料44455皓杜嗦朱調(diào)標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注模板生成3替換生成謎語(yǔ)語(yǔ)料554555抨單溈袒謂標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注標(biāo)注模板生成替換生成444謎語(yǔ)語(yǔ)料54445455分析實(shí)驗(yàn)結(jié)果,從統(tǒng)計(jì)中我們可以發(fā)現(xiàn),使用模板生成的字謎得分最低,本章介紹了中文字謎生成系統(tǒng)的測(cè)試方案、測(cè)試過(guò)程和。6.1節(jié)介紹了實(shí)驗(yàn)的測(cè)試方案。6.2介紹了系統(tǒng)的測(cè)試過(guò)程與。6.3節(jié)則對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析建立中文謎語(yǔ)這一特定語(yǔ)言的語(yǔ)料庫(kù),收集16472條中文字謎數(shù)據(jù)。使用14090個(gè)對(duì)齊關(guān)系。以上語(yǔ)料數(shù)據(jù)的建立,為自動(dòng)生成中文字謎奠定了會(huì)更好一些。若能提出更合適的方式,更方便的提取謎語(yǔ)相關(guān)的語(yǔ)料數(shù)據(jù),或利用致謝四以及畢業(yè)設(shè)計(jì)中所有給過(guò)我?guī)椭?、指?dǎo)和關(guān)心的各位老師、師兄師姐、同學(xué)和家算組(MSRA-NLC組)提供給我完成畢業(yè)設(shè)計(jì)的各類資源與幫助。得到了很大的提升,也讓我有了更加真實(shí)的項(xiàng)目經(jīng)歷。除了學(xué)習(xí),老師在生活上也感謝答辯組的各位老師,老師、老師、老師、老師,感謝各最后,要感謝我的家人,特別是我的父親和母親。用辛苦付出給了我接受高等教育的機(jī)會(huì),并在次遇到或?qū)η巴靖械矫糟臅r(shí)候,都會(huì)用支持和理解給繼續(xù)努力向前,不辜負(fù)的培養(yǎng)和期望。楊國(guó)文.自然語(yǔ)言生成研究的動(dòng)態(tài)與方向[J].當(dāng)代語(yǔ)言學(xué),1998,2:11-黃友能,.基于特定任務(wù)域的自然語(yǔ)言生成系統(tǒng)實(shí)現(xiàn)方法[J].鐵路計(jì)算機(jī)應(yīng)用羅鳳珠,.中國(guó)古代詩(shī)詞格律自動(dòng)檢索與教學(xué)系統(tǒng)[J].中文信息學(xué)報(bào),1999,13(1):35-42.2005,32(7):156-158.,胡俊峰.唐宋詩(shī)之詞匯自動(dòng)分析及應(yīng)用[J].語(yǔ)言暨語(yǔ)言學(xué),.JiangL,Z

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論