演化文摘系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文_第1頁
演化文摘系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文_第2頁
演化文摘系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文_第3頁
演化文摘系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文_第4頁
演化文摘系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

蘇州大學本科生畢業(yè)設(shè)計(論文)PAGEPAGE40演化文摘系統(tǒng)的設(shè)計與實現(xiàn)目錄TOC\o"1-3"\h\u24243摘要 13144Abstract 213591第一章緒論 3327551.1自動文摘的研究背景 34421.2自動文摘的研究意義 3324511.3本文結(jié)構(gòu) 317472第二章多文檔自動摘要的概念及研究現(xiàn)狀 4130382.1多文檔自動摘要的概念 427212.2多文檔自動摘要的研究現(xiàn)狀 413506第三章實現(xiàn)演化文摘系統(tǒng)的關(guān)鍵技術(shù)分析 534233.1自動文檔摘要技術(shù) 5323793.1.1自動摘錄 6313593.1.2基于理解的自動文摘 661043.1.3信息抽取 6197913.1.4基于結(jié)構(gòu)的自動文摘 7325973.2新聞脈絡(luò)技術(shù) 716692第四章演化文摘系統(tǒng)的分析與設(shè)計 8179694.1演化文摘系統(tǒng)的結(jié)構(gòu)分析 882194.2演化文摘系統(tǒng)的設(shè)計與實現(xiàn) 8157874.2.1待處理文檔的讀取 9289944.2.2文檔自動摘要 9182014.2.3按時間順序輸出摘要結(jié)果 10295534.2.4友好的人機界面 119670第五章實驗及結(jié)果分析 12260795.1語料的收集處理 12268135.2多文檔的自動摘要 13320835.3實驗結(jié)果及分析 1429675第六章總結(jié)與展望 1639126.1總結(jié) 16110626.2后續(xù)工作展望 162832參考文獻 166019致謝 17PAGEPAGE40摘要現(xiàn)代社會是一個信息社會,人們生活在這個社會中會發(fā)生自己的身邊充斥著各種各樣的信息。當處于這么一個大數(shù)據(jù)時代,面對著每天快速涌現(xiàn)的海量信息,人們完全無法將這些信息全部進行閱讀和吸收,因此如何對這些信息進行處理,進行選取和提煉出有用的部分就成為了人們迫切需要解決的問題。自動摘要是自然語言處理領(lǐng)域的重要組成部分,其主要工作就是對文檔進行自動摘取,提煉文檔的主要內(nèi)容和思想。自動文檔摘要技術(shù)的使用可以幫助人們解決這一難題,實現(xiàn)信息的壓縮提煉,使人們可以方便地獲取有用的信息。本文通過對自動文摘技術(shù)和新聞脈絡(luò)技術(shù)的了解及其實現(xiàn)的技術(shù)方法進行分析,設(shè)計實現(xiàn)了演化文摘系統(tǒng)。該系統(tǒng)的主要功能就是對同一主題事件的多個文檔信息進行自動摘要提取,并按時間順序排列輸出。其現(xiàn)實意義就是可以幫助人們在面對同一主題的較多信息時可以較為直觀清晰地了解事件的發(fā)展過程,獲得關(guān)鍵信息。關(guān)鍵詞:自動文檔摘要,新聞脈絡(luò)技術(shù),演化文摘AbstractModernsocietyisaninformationsociety,peoplelivinginthissocietywouldhappentofindhissidefilledwithavarietyofinformation.Wheninsuchabigdataera,facingtherapidemergenceofvastamountsofinformationeveryday,peopleareunabletoreadandabsorballtheinformationcompletely,sohowthatinformationisprocessed,selectitandextracttheusefulpartofitbecometheurgentproblemforpeopletosolve.Autosummaryisanimportantpartofthefieldofnaturallanguageprocessing,anditsmainjobistoautomaticallyextractthedocument,refinethemaincontentandideasofthedocument.Useautomaticdocumentsummarytechnologycanhelppeoplesolvethisproblem,toachievecompressionextractinformation,sothatpeoplecaneasilyaccessusefulinformation.Throughautomaticsummarizationtechniqueandunderstandingofthecontextoftechnologynewsandtechnicalmethodsimplementedtoanalyzetheevolutionofabstractsystemdesignandimplementation.Themainfunctionofthissystemistodocumentinformationonthesametopicmultipleeventsforautomaticextractionsummary,arrangedchronologicallyoutput.Itssignificanceisthatitcanhelppeopleinthefaceofmoreinformationonthesamesubjectcanbemoreintuitiveandclearunderstandingofthedevelopmentprocessoftheevent,accesstocriticalinformation.Keywords:automaticdocumentsummary,newscontexttechnology,evolutiondigest第一章緒論本章主要介紹了自動文檔摘要技術(shù)的研究背景和研究意義,以及進行文檔自動摘要的常規(guī)步驟,并在最后對本文的邏輯結(jié)構(gòu)進行了介紹。1.1自動文摘的研究背景現(xiàn)代社會是一個信息社會,人們生活在這個社會中會發(fā)生自己的身邊充斥著各種各樣的信息。當處于這么一個信息爆炸的大數(shù)據(jù)時代,面對著每天快速涌現(xiàn)出來的海量信息,人們完全無法將這些信息全部進行閱讀和吸收,因此如何對這些信息進行分析檢索和壓縮,并提煉出我們所需要的那部分信息就成為了人們關(guān)注的焦點,在這種情形下,自動文檔摘要就成為了人們解決這一難題的強有力的幫手。1.2自動文摘的研究意義自動文檔摘要可以幫助人們對大量的數(shù)據(jù)信息進行分析、整合,并根據(jù)用戶的個人需要,對文檔摘要的比例進行選取設(shè)定從而摘取出符合需求的文檔信息。自動文摘技術(shù)的出現(xiàn)幫助人們在信息檢索和信息處理方面節(jié)省了大量的人力、物力和財力,讓人們在文檔的編輯處理工作上節(jié)省了成本,同時也提高了信息查找的速度和準確度。此外,文檔自動摘要技術(shù)不僅可以作為一個單獨的系統(tǒng)來實現(xiàn)相關(guān)功能,也是自然語言處理領(lǐng)域不可或缺的重要組成部分,可以完成自然語言處理中的其他任務(wù),同時,還是“大數(shù)據(jù)時代”被人們視為研究重點的數(shù)據(jù)挖掘、數(shù)據(jù)處理的重要環(huán)節(jié)。因此,自動文檔摘要的研究可以幫助用戶實現(xiàn)信息的快速檢索,使用戶能高效地接收信息,其現(xiàn)在的研究應(yīng)用領(lǐng)域已經(jīng)擴展到互聯(lián)網(wǎng)應(yīng)用和自然語言處理的多個方面,成為不可或缺的重要組成部分??偟恼f來,自動文摘技術(shù)的研究有利于推進科學技術(shù)水平的提高,是非常有必要的。1.3本文結(jié)構(gòu)本文一共有5章,各章的具體內(nèi)容如下::緒論。這一部分主要向讀者介紹了自動文檔摘要技術(shù)的研究背景及研究自動摘要技術(shù)的現(xiàn)實意義,并對全文的結(jié)構(gòu)進行了簡單介紹。:自動摘要的概念及研究現(xiàn)狀。這一章的內(nèi)容分為兩個部分,首先闡述了自動文檔摘要技術(shù)的具體概念,其次對自動摘要技術(shù)的研究現(xiàn)狀進行了詳細介紹。:實現(xiàn)演化文摘系統(tǒng)的關(guān)鍵技術(shù)分析。這一章主要是對演化文摘系統(tǒng)實現(xiàn)過程中最關(guān)鍵的兩個技術(shù)的概述與分析,分別是自動文檔摘要技術(shù)與新聞脈絡(luò)技術(shù)。第四章:演化文摘系統(tǒng)的分析與設(shè)計。這一章的內(nèi)容與畢業(yè)設(shè)計有著緊密的聯(lián)系,先是對需要完成的演化文摘系統(tǒng)的結(jié)構(gòu)與所需實現(xiàn)的功能進行分析,然后完成各功能模塊的程序設(shè)計與代碼實現(xiàn)工作。第五章:實驗及結(jié)果分析。這一章的內(nèi)容是圍繞已實現(xiàn)的演化文摘系統(tǒng)的具體實驗及對實驗結(jié)果的分析來寫的,其中包括語料的收集整理,文檔的自動摘要及時間序排列,實驗結(jié)果的分析等多個部分。第六章:總結(jié)與展望。第五章是本文的最后一部分,這一章是對全文內(nèi)容的一個總結(jié),同時也對自動文摘技術(shù)的未來發(fā)展提出了設(shè)想和展望。第二章多文檔自動摘要的概念及研究現(xiàn)狀本章首先對自動摘要的概念進行了分析介紹,使讀者明白我們研究的究竟是什么,其具體的工作原理是什么,接著敘述了多文檔自動摘要技術(shù)的研究現(xiàn)狀,讓人們了解多文檔自動摘要這一技術(shù)的進展情況。2.1多文檔自動摘要的概念自動摘要是自然語言處理領(lǐng)域的重要組成部分,其主要工作就是通過句法分析技術(shù),文本生成技術(shù)等自然語言處理技術(shù)對句子進行壓縮和融合,簡單來講,就是對文檔進行自動摘取,提煉文檔的主要內(nèi)容和思想。而多文檔自動摘要技術(shù)顧名思義就是對多個文檔進行自動摘要處理。2.2多文檔自動摘要的研究現(xiàn)狀多文檔自動文摘就是將同一主題下的多個文本描述的主要信息按壓縮比提煉出一個文本的自然語言處理技術(shù)(Radev等2002)。多文檔自動文摘的研究工作最早在20世紀80年代開始,當時的研究工作還不具有普遍性,主要在科技文章中通過多種關(guān)系描述對科技文章的多文檔集合進行描述,由于科技文章結(jié)構(gòu)較強,關(guān)系容易刻畫,得到的效果較好,但這種方法僅限于該領(lǐng)域,不利于推廣。真正的任意域的多文檔自動文摘的研究是在1997年開始的(Barzilay1997)。通常多文檔自動文摘的過程包括三個步驟:文本分析、文本內(nèi)容的選取、文摘生成。所謂文本分析是對原文本進行分析處理,包括文檔主題分析、結(jié)構(gòu)分析、篇章分析等,從而識別出冗余信息;文本內(nèi)容選取是從文檔中找出重要信息,通過抽取或理解的方法壓縮文本形成文摘表示;文摘生成則實現(xiàn)對原文內(nèi)容的重組或根據(jù)內(nèi)部表示生成文摘,并確保文摘的連貫性。其中在文本內(nèi)容選取這一過程中,通過抽取方法形成的文摘稱為抽取型(Extraction)文摘,通過理解的方法形成的文摘稱為理解型(Abstraction)文摘。理解型文摘的方法(Barzilay2005),一般是從文檔中抽取反映主題內(nèi)容的重要語言單位,如詞、短語、句子等,再利用信息融合、壓縮等語言生成技術(shù)生成摘要,摘要句不局限于源文檔中的句子。該方法的優(yōu)點是文摘結(jié)果跳出了源文檔句子的局限,能夠較好地處理冗余,且主題連貫。然而由于理解型方法對語言生成技術(shù)要求較高,缺乏可靠的理論支撐和技術(shù),所以該方法生成的摘要很難付諸實用,目前仍處于實驗階段。抽取型文摘是提取文本中現(xiàn)成句子,不做處理或稍做處理,重新組織順序后組成摘要。這種方法的局限在于,性能嚴重依賴于源文檔中句子的質(zhì)量,且對于多文檔自動文摘,由于句子來源于不同文檔,句子的順序和組織也會大大影響摘要的可讀性和連貫性。但其產(chǎn)生的文摘對人類瀏覽和判斷是有幫助的(Hirao等2002),并可保證摘要句的語法,是目前理論研究的主要方向。第三章實現(xiàn)演化文摘系統(tǒng)的關(guān)鍵技術(shù)分析在演化文摘系統(tǒng)的實現(xiàn)過程中有兩個關(guān)鍵技術(shù)難點:(1)如何進行文檔內(nèi)容的自動摘要,(2)如何對多文檔的摘要內(nèi)容進行時間排序。在進行文檔內(nèi)容的自動摘要時需要研究并使用的技術(shù)就是多文檔自動摘要技術(shù),而對摘要內(nèi)容進行時間排序則需要使用到新聞脈絡(luò)技術(shù)。下面是對這兩個技術(shù)的詳細介紹。3.1自動文檔摘要技術(shù)經(jīng)過近些年來人們的不斷研究,自動文檔摘要技術(shù)的研究成果顯著。根據(jù)所處理文檔的類型不同,可以將自動摘要技術(shù)分為單文檔自動摘要和多文檔自動摘要兩種,此外,隨著科學技術(shù)的發(fā)展和網(wǎng)絡(luò)新事物的出現(xiàn),現(xiàn)在又新興了一種網(wǎng)頁文檔自動摘要技術(shù),因此由所處理文檔類型的不同一共有三種自動摘要技術(shù)。根據(jù)現(xiàn)有的研究成果來看,進行自動摘要的具體方法主要有四種:(1)自動摘錄,(2)基于理解的自動文摘,(3)信息抽取,(4)基于結(jié)構(gòu)的自動文摘。這四種摘要方法是目前使用較多的也是比較成熟的四種方法,下面對這四種方法進行解讀分析。3.1.1自動摘錄自動摘錄的方法一般講文檔內(nèi)容看做是若干個句子的線性排列,又將句子看做是若干個詞語的線性排列。在具體摘要時一般有以下五個步驟:(1)使用分詞器對全文進行分詞,(2)計算詞語的權(quán)重值,(3)計算句子的權(quán)重值,(4)根據(jù)詞的權(quán)重和句子的權(quán)重對全文的所有句子依據(jù)其權(quán)重按序排列,并根據(jù)設(shè)定的摘要比例來確定文摘句,(5)將所有選定的文摘句以文章的形式輸出顯示。自動摘錄在具體實現(xiàn)時相對簡單,但是其同樣也有不足之處:(1)摘要的內(nèi)容不全面。倘若文章中包含多個主題,很有可能會只對權(quán)重較大的主題內(nèi)容進行摘取,其他權(quán)重較小的主題內(nèi)容易被忽略。(2)摘要的內(nèi)容不簡潔。在一篇文章中,如果有一處多多處比較重要的內(nèi)容時,作者很可能在全文中會多次寫到這些內(nèi)容,這些句子在進行摘要時因為都是關(guān)鍵句,所以權(quán)重值都較高,以致最終的摘要結(jié)果中可能會有相同內(nèi)容的多次出現(xiàn),這種重復現(xiàn)象的出現(xiàn)必然造成文摘內(nèi)容的不簡潔。(3)摘要內(nèi)容不連貫。因為自動摘錄的摘要原理中已經(jīng)說過,最后是將權(quán)重較高的句子依據(jù)設(shè)定的比例輸出,這些句子相互之間很可能是不連續(xù)的,因此最終的摘要結(jié)果會是一個個句子的組合排列,但在內(nèi)容上卻無法連貫,使讀者的閱讀存在很多的不便。3.1.2基于理解的自動文摘基于理解的摘要方法是人工智能與自然語言處理的共同產(chǎn)物,它與自動摘錄主根本的區(qū)別就在于自動摘錄是通過計算句子權(quán)重直接選擇輸出,而它是通過分析文章的意義,最終將文章的主要思想表達出來。其具體實現(xiàn)步驟如下:(1)語法分析;(2)語義分析;(3)語義的提?。唬?)文摘輸出。不難看出,基于理解的文摘方式在摘要的質(zhì)量上肯定優(yōu)于自動摘錄,但是其在實際運用過程中同樣有不足:(1)因為這種方法是通過使用已有框架來進行語義的分析,因此它的發(fā)展完全受到語義分析技術(shù)發(fā)展的影響,而現(xiàn)有的語義分析技術(shù)還不是很完善。(2)在進行語義分析時,因為其框架發(fā)展的限制,所處理的內(nèi)容不能過多,否則無法自動歸納總結(jié)出文摘句進行輸出。這兩個缺點制約了這種方法的進一步發(fā)展和大規(guī)模使用。3.1.3信息抽取信息抽取的實現(xiàn)方法相對來說比基于理解的要簡單的多,它的具體做法就是設(shè)定一個框架,框架內(nèi)設(shè)置好空槽,并在框架內(nèi)設(shè)置好需要抽取的內(nèi)容,將抽取的內(nèi)容放在空槽內(nèi),就算完成摘要。這個框架就如同一張申請表,然后根據(jù)申請表的選項將文章中相對應(yīng)的內(nèi)容抽出來塞進表內(nèi)進行填空。信息抽取時使用的框架比基于理解的方法中所用的框架要簡單的多,也更容易實現(xiàn),但是這種按圖索驥的方式容易使得摘要的內(nèi)容千篇一律,語言上也顯得非常的呆板,沒有什么實際價值。3.1.4基于結(jié)構(gòu)的自動文摘對于一篇文章來說,文章的結(jié)構(gòu)清晰了,那么文章的主要內(nèi)容也就顯而易見了,基于結(jié)構(gòu)的摘要方法就是沿用的這一思想,將文章的結(jié)果弄清,再根據(jù)結(jié)構(gòu)去進行摘要。從文摘的質(zhì)量上來看,這種方法與基于理解的不相伯仲,都是比較好的。但是在實際執(zhí)行的過程中,并非像想象的那么美好,由于目前自然語言處理方面的研究水平的限制,在文章結(jié)構(gòu)的框架這一方面的研究進展較為緩慢,可用的模板也不多,因此進行實際的基于結(jié)構(gòu)的文摘操作仍存在不小的難度。以上是目前比較常見的四種自動文檔摘要技術(shù)的介紹與簡要分析。本文所設(shè)計的系統(tǒng)使用的是第一種方法——自動摘錄。3.2新聞脈絡(luò)技術(shù)新聞脈絡(luò)技術(shù),這個詞在很多人看來可能比較陌生,總覺得如果不是新聞工作者或者自然語言處理相關(guān)專業(yè)的人根本不會接觸到它,但是實際情況卻是很多人在生活中都或多或少地接觸過新聞脈絡(luò)技術(shù),甚至很多人每天都會去享受它所給我們帶來的便利。因為新聞脈絡(luò)技術(shù)的發(fā)展已經(jīng)不僅僅停留在理論層面,而是被實際運用在了我們的現(xiàn)實生活中。例如百度的新聞脈絡(luò)技術(shù)。如果你平時習慣用百度去搜索熱門事件的關(guān)鍵詞來獲知該事件的發(fā)展情況,在搜索框輸入“神十”、“H7N9”等關(guān)鍵詞進行搜索時,在搜索頁面的右側(cè)會出現(xiàn)清晰展示“事件發(fā)展脈絡(luò)”的時間軸信息圖。這是由百度全新推出的“百度新聞脈絡(luò)技術(shù)”,它會按照時間的順序把被搜索的熱點事件的發(fā)展過程按照時間軸的組織形式完整、清晰地呈現(xiàn),讓用戶在最短的時間內(nèi)輕松掌握一個新聞事件的來龍去脈。在這一技術(shù)出來之前,人們要想了解一個熱點事件,通常需要在搜索引擎、門戶網(wǎng)站、社區(qū)論壇等多處進行來回切換,費時費力不說,效果還不夠好。而百度“事件脈絡(luò)”則通過技術(shù)手段建立索引新聞數(shù)據(jù)庫并抽取事件生命周期中各個重要發(fā)展階段的基本要素,以時間為主線進行展現(xiàn),讓用戶再不用自己梳理,就能輕松了解整個事件的發(fā)展過程,從而有效提高獲取信息的效率,并引導用戶進行深度閱讀。除了H7N9,網(wǎng)民在搜索“馬航失聯(lián)”、“釣魚島形勢”、“越南事件”等熱點事件時,都能通過瀏覽右側(cè)的事件脈絡(luò),全面知曉事情的來龍去脈,實現(xiàn)熱點事件的快速閱讀、深入了解。業(yè)內(nèi)專家介紹說,普通搜索只需要實現(xiàn)關(guān)鍵字的精準匹配,而“事件脈絡(luò)”功能,則需要在掃描全網(wǎng)資源的基礎(chǔ)上,進行內(nèi)容的整合輸出。無論是對字面并不匹配但是實際內(nèi)容相關(guān)的信息抓取,還是對信息的權(quán)重劃分,抑或是重要時間節(jié)點的設(shè)置和排序,每一個步驟都隱含著精深的搜索技術(shù)。百度多年來的技術(shù)積累和創(chuàng)新基因,推動了搜索體驗的不斷完善和提高。更有專家表示,保持搜索技術(shù)先進性是百度的立身之本。本文所設(shè)計的演化文摘系統(tǒng)中將文檔的摘要結(jié)果按照時間順序排列這一功能的主要思想正是為了體現(xiàn)主題事件的發(fā)展脈絡(luò),其中心思想和百度新聞脈絡(luò)技術(shù)是不謀而合的。這一技術(shù)的使用有助于用戶清晰、直觀地了解系統(tǒng)處理的摘要結(jié)果。第四章演化文摘系統(tǒng)的分析與設(shè)計本章通過對演化文摘系統(tǒng)所需實現(xiàn)的功能進行了具體分析,弄清系統(tǒng)的結(jié)構(gòu)與設(shè)計的思路:針對多個待處理文檔和一個查詢,進行自動文檔摘要并對摘要結(jié)果按時間序排列輸出。之后就是對系統(tǒng)各模塊的功能進行具體分析并采用適當?shù)脑O(shè)計進行實現(xiàn)。4.1演化文摘系統(tǒng)的結(jié)構(gòu)分析本文所寫的演化文摘系統(tǒng)的主要設(shè)計目的是能夠針對同一主題的多個文檔進行自動摘要處理,并將處理的結(jié)果按照時間順序輸出,以使讀者能直觀地看出這一主題事件的發(fā)展歷程。因此,這個系統(tǒng)需要實現(xiàn)的功能主要包括:待處理文檔的讀取,文檔的自動摘要,摘要結(jié)果的時間順序排列輸出和友好的人機界面等。如圖4.1所示。圖4.14.2演化文摘系統(tǒng)的設(shè)計與實現(xiàn)在了解了演化文摘系統(tǒng)的主要功能和整個系統(tǒng)的整體框架后,我們就開始系統(tǒng)的設(shè)計與實現(xiàn)工作,使用的編程環(huán)境為Eclipse標準版。4.2.1待處理文檔的讀取要想實現(xiàn)演化文摘系統(tǒng)的眾多功能,第一步肯定毋庸置疑,首先需要將待處理的文檔進行讀取輸入工作,然后才能進行后續(xù)的操作。具體實現(xiàn)的代碼如下:(1)先創(chuàng)建一個文本,用來顯示讀取的多文檔的內(nèi)容,代碼如下:logRead=newJTextArea(29,37);logRead.setMargin(newInsets(5,5,5,5));logRead.setEditable(false);logSPRead=newJScrollPane(logRead);當點擊“讀入文本”按鈕時,會彈出文件選擇窗口,實現(xiàn)的代碼如下:FileNameExtensionFilterfilter=newFileNameExtensionFilter(".txt","txt");fcRead.addChoosableFileFilter(filter);//添加文件過濾fcRead.setFileFilter(fcRead.getAcceptAllFileFilter());//設(shè)置文件過濾fcRead.setMultiSelectionEnabled(true);//設(shè)置可選擇多個文件intreturnVal=fcRead.showOpenDialog(UserInterface.this);//打開“打開文件”對話框if(returnVal==JFileChooser.APPROVE_OPTION){ files=fcRead.getSelectedFiles(); logRead.append("當前打開文件分別是:"+newline); for(Filefile:files){ logRead.append(file.getName()+"."+newline); } logRead.append(newline);定義一個類ReadConfigUtil來實現(xiàn)文件讀取的具體操作功能,代碼略。4.2.2文檔自動摘要在進行文檔自動摘要時有很多種方法,在具體的編程階段,我調(diào)用了NLPir.java,這個是中科院中文分詞系統(tǒng)ICTCLAS開發(fā)的開源代碼,其主要功能是用來進行高頻詞的提取工作。我所采用的方法基本思路如下:(1)定義函數(shù)extractOneFile,該函數(shù)是提取摘要的控制執(zhí)行函數(shù)。讀程序,理解該類的構(gòu)造思想和整體原理可從這個函數(shù)進入,一步一步的解讀。publicstaticStringextractOneFile(Filefile)throwsIOException{...}讀取每個文檔的內(nèi)容時,將時間讀走,將內(nèi)容讀到content中。line=line.trim(); if(line.length()<mainSenLen&&line.charAt(line.length()-1)!='。'){ content.append(line+"。"); } else{ content.append(line);接下來統(tǒng)計摘要的數(shù)量。summarySize=content.length()*proportion;緊接著需要完成的代碼部分是這個自動摘要功能最關(guān)鍵也是最核心的部分,其主要思想是通過中文分詞,統(tǒng)計詞頻和詞性等信息,抽取出關(guān)鍵詞;把文章劃分成一個個的句子;通過各句中關(guān)鍵詞出現(xiàn)的情況定義出句子的重;把文摘句按照在原文中出現(xiàn)的順序輸出成摘要。關(guān)鍵代碼如下:intsentenceNum=countRepetitiveString(content,"。");//統(tǒng)計句子的數(shù)量 String[]sentence=newString[sentenceNum];//以“?!睘榉指?,拆分句子sentence=String.valueOf(content).split("。"); doublesenAverLen=countSenAverLen(sentence);//計算全文句子平均長度 intkeywordsNum=countSummarySize(content,senAverLen);//獲取關(guān)鍵詞數(shù)量--即摘要 大小 String[]keywords=newString[keywordsNum];//獲取關(guān)鍵詞keywords=Nlpir.createKeywordsSet(file.getAbsolutePath(),keywordsNum); int[]senWeight=countSentenceWeight(sentence,keywords);//提取全文句子權(quán)重 StringBuffersummary=writeSummary(sentence,senWeight,senAverLen,summarySize, keywordsNum);//向summary中寫入摘要 returnString.valueOf(summary);在對文檔進行摘要時,設(shè)置了一個初始值,按全文內(nèi)容的10%進行提前。staticdoubleproportion=0.10;4.2.3按時間順序輸出摘要結(jié)果在4.2.2中進行文檔內(nèi)容讀取時有一個關(guān)鍵步驟,那就是將文檔內(nèi)容中的時間讀走,我們進行時間排序時就是參考的這些被讀走的時間,因為這些時間節(jié)點都是相應(yīng)文檔中事件發(fā)生的日期,因此,按照這些抽取出來的時間對處理完的各文檔的摘要進行排序,并將最終結(jié)果保存在一個獨立文檔中,這樣用戶打開文檔,就能清楚了明白該事件的發(fā)展過程,即這一主題事件的演化情況。在進行時間排序時,程序是以冒泡排序算法,來實現(xiàn)文件時間排序的。將文件時間進行排序,最終目的是得到時間從早到晚的文件序號。for(inti=fileOrder.length-1;i>0;--i){//冒泡排序 for(intj=0;j<i;++j){ if(dates[j].after(dates[j+1])){ temp2=dates[j]; dates[j]=dates[j+1]; dates[j+1]=temp2; temp1=fileOrder[j]; fileOrder[j]=fileOrder[j+1]; fileOrder[j+1]=temp1; } }}returnfileOrder;經(jīng)過(1)中的冒泡算法排序后,最終的結(jié)果會自動根據(jù)預(yù)設(shè)置的路徑進行保存。logExtract.append("所有文本已經(jīng)處理完畢,按時間排序的全部摘要已經(jīng)存好!" +newline);logExtract.append("文件目錄:"+resultFile.getAbsolutePath()+newline);logExtract.append(newline);4.2.4友好的人機界面在完成了演化文摘系統(tǒng)的主要功能之后,還需要進行最后一個環(huán)節(jié)的工作,即友好的人機交互界面的設(shè)計。在進行界面設(shè)計時,每個功能模塊的按鈕是必不可缺的,同時為了方便用戶的使用,也是遵循人機界面設(shè)計應(yīng)應(yīng)當友好的原則,我還添加了“清除讀入欄”和“清空摘要欄”兩個功能按鈕。這樣當用戶在使用系統(tǒng)的過程中需要進行一次新的工程時可以不受上一次實驗的影響,充分體現(xiàn)系統(tǒng)設(shè)計的人性化。此外,為了體現(xiàn)系統(tǒng)的可拓展性,還設(shè)計添加了“查詢關(guān)鍵字”功能按鈕,但因與演化文摘系統(tǒng)設(shè)計的需要無關(guān),暫時沒有實現(xiàn)該功能,如果后續(xù)發(fā)展需要的話,可以較為輕松的實現(xiàn)此功能。各功能按鈕的具體實現(xiàn)代碼如下:bRead=newJButton("讀入文本");bReadClear=newJButton("清空讀入欄");bExtract=newJButton("提取摘要");bExtractClear=newJButton("清空摘要欄");運行程序后,系統(tǒng)將自動彈出控制界面,最終人機界面如圖4.2所示。圖4.2第五章實驗及結(jié)果分析這一章主要是對已經(jīng)編譯實現(xiàn)的演化文摘系統(tǒng)進行實驗,首先是進行待處理語料的收集與初步處理,其次就是通過運行程序來完成相應(yīng)的功能,即進行自動摘要并按時間序排列,最后對實驗的結(jié)果進行分析。5.1語料的收集處理在實驗正式開始之前,需要做一項準備工作,即待處理語料的收集處理。(1)首先進行語料的收集,考慮到本文所設(shè)計的是一個演化文摘系統(tǒng),更多的是為了體現(xiàn)一個主題事件的演化發(fā)展過程,因此,我們就收集一些同一主題的新聞稿作為語料,使其經(jīng)過系統(tǒng)的處理,最終能直觀地向用戶展示該事件的發(fā)展脈絡(luò)。(2)然后是對已收集的語料進行處理。為了實現(xiàn)摘要內(nèi)容的時間順序排序輸出功能,在文檔讀取時就寫過一句代碼,進行每個文檔內(nèi)容中時間的抽取,因此,為了使程序運行時能較快查找到內(nèi)容中的時間,減少系統(tǒng)的工作負擔和不必要的麻煩,在進行語料處理時,統(tǒng)一設(shè)置第一行的格式為“xxxx年xx月xx日”。正文內(nèi)容從第二行開始,確保內(nèi)容中無亂碼或無法識別的字符出現(xiàn)。將所有待處理的文檔均保存為.txt格式,編碼類型設(shè)置為UTF-8。處理結(jié)果如圖5.1所示。圖5.15.2多文檔的自動摘要本文設(shè)計的這一演化文摘系統(tǒng)最核心的功能就是文檔的自動摘要以及摘要結(jié)果的時間序排列輸出。以下就是對多文檔自動摘要的實驗。因為最終的實驗結(jié)果需要能體現(xiàn)新聞事件的發(fā)展脈絡(luò),因此,需要進行處理的文檔數(shù)量肯定為多個,最初進行語料收集處理時一共準備了8個文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論