




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)采集研究關(guān)鍵字采集 關(guān)鍵字采集采用搜索引擎技術(shù)自動搜索預設關(guān)鍵字,并對搜索結(jié)果進行URL去重、關(guān)鍵信息提取、入庫等處理,達到監(jiān)控互聯(lián)網(wǎng)敏感信息的目的。系統(tǒng)定義廣度搜索和深度搜索兩種方式,對互聯(lián)網(wǎng)信息進行搜索。廣度搜索在本系統(tǒng)中采用的方式為調(diào)用互聯(lián)網(wǎng)行業(yè)排名靠前的搜索引擎(谷歌、百度、奇虎、有道、盤古、即刻、搜搜等)對關(guān)鍵字進行搜索,同時對搜索結(jié)果進行整合、去重、分類,實現(xiàn)互聯(lián)網(wǎng)信息搜索能力的最大化。深度搜索則利用開源爬蟲程序Nutch對用戶指定網(wǎng)站進行深度挖掘,搜索匹配關(guān)鍵字的網(wǎng)頁信息。Nutch是一個開源Java實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。盡管Web搜索是漫游Internet的基本要求,但是現(xiàn)有web搜索引擎的數(shù)目卻在下降。并且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜索為其謀取商業(yè)利益.這顯然不利于廣大Internet用戶。Nutch為我們提供了這樣一個不同的選擇。相對于那些商用的搜索引擎,Nutch作為開放源代碼搜索引擎將會更加透明,從而更值得大家信賴?,F(xiàn)在所有主要的搜索引擎都采用私有的排序算法,而不會解釋為什么一個網(wǎng)頁會排在一個特定的位置。除此之外,有的搜索引擎依照網(wǎng)站所付的費用,而不是根據(jù)它們本身的價值進行排序。與它們不同,Nucth沒有什么需要隱瞞,也沒有動機去扭曲搜索的結(jié)果.Nutch將盡自己最大的努力為用戶提供最好的搜索結(jié)果。Nutch致力于讓每個人能很容易,同時花費很少就可以配置世界一流的Web搜索引擎。為了完成這一宏偉的目標,Nutch必須能夠做到:*每個月取幾十億網(wǎng)頁*為這些網(wǎng)頁維護一個索引*對索引文件進行每秒上千次的搜索*提供高質(zhì)量的搜索結(jié)果爬蟲crawler和查詢searcher。Crawler主要用于從網(wǎng)絡上抓取網(wǎng)頁并為這些網(wǎng)頁建立索引。Searcher主要利用這些索引檢索用戶的查找關(guān)鍵詞來產(chǎn)生查找結(jié)果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。Crawler和Searcher兩部分盡量分開的目的主要是為了使兩部分可以分布式配置在硬件平臺上,例如將Crawler和Searcher分別放在兩個主機上,這樣可以提升性能。Crawler的重點在兩個方面,Crawler的工作流程和涉及的數(shù)據(jù)文件的格式和含義。數(shù)據(jù)文件主要包括三類,分別是webdatabase,一系列的segment加上index,三者的物理文件分別存儲在爬行結(jié)果目錄下的db目錄下webdb子文件夾內(nèi),segments文件夾和index文件夾。那么三者分別存儲的信息是什么呢?一次爬行會產(chǎn)生很多個segment,每個segment內(nèi)存儲的是爬蟲Crawler在單獨一次抓取循環(huán)中抓到的網(wǎng)頁以及這些網(wǎng)頁的索引。Crawler爬行時會根據(jù)WebDB中的link關(guān)系按照一定的爬行策略生成每次抓取循環(huán)所需的fetchlist,然后Fetcher通過fetchlist中的URLs抓取這些網(wǎng)頁并索引,然后將其存入segment。Segment是有時限的,當這些網(wǎng)頁被Crawler重新抓取后,先前抓取產(chǎn)生的segment就作廢了。在存儲中。Segment文件夾是以產(chǎn)生時間命名的,方便我們刪除作廢的segments以節(jié)省存儲空間。Index是Crawler抓取的所有網(wǎng)頁的索引,它是通過對所有單個segment中的索引進行合并處理所得的。Nutch利用Lucene技術(shù)進行索引,所以Lucene中對索引進行操作的接口對Nutch中的index同樣有效。但是需要注意的是,Lucene中的segment和Nutch中的不同,Lucene中的segment是索引index的一部分,但是Nutch中的segment只是WebDB中各個部分網(wǎng)頁的內(nèi)容和索引,最后通過其生成的index跟這些segment已經(jīng)毫無關(guān)系了。Webdatabase,也叫WebDB,其中存儲的是爬蟲所抓取網(wǎng)頁之間的鏈接結(jié)構(gòu)信息,它只在爬蟲Crawler工作中使用而和Searcher的工作沒有任何關(guān)系。WebDB內(nèi)存儲了兩種實體的信息:page和link。Page實體通過描述網(wǎng)絡上一個網(wǎng)頁的特征信息來表征一個實際的網(wǎng)頁,因為網(wǎng)頁有很多個需要描述,WebDB中通過網(wǎng)頁的URL和網(wǎng)頁內(nèi)容的MD5兩種索引方法對這些網(wǎng)頁實體進行了索引。Page實體描述的網(wǎng)頁特征主要包括網(wǎng)頁內(nèi)的link數(shù)目,抓取此網(wǎng)頁的時間等相關(guān)抓取信息,對此網(wǎng)頁的重要度評分等。同樣的,Link實體描述的是兩個page實體之間的鏈接關(guān)系。WebDB構(gòu)成了一個所抓取網(wǎng)頁的鏈接結(jié)構(gòu)圖,這個圖中Page實體是圖的結(jié)點,而Link實體則代表圖的邊。在創(chuàng)建一個WebDB之后(步驟1),“產(chǎn)生/抓取/更新”循環(huán)(步驟3-6)根據(jù)一些種子URLs開始啟動。當這個循環(huán)徹底結(jié)束,Crawler根據(jù)抓取中生成的segments創(chuàng)建索引(步驟7-10)。在進行重復URLs清除(步驟9)之前,每個segment的索引都是獨立的(步驟8)。最終,各個獨立的segment索引被合并為一個最終的索引index(步驟10)。其中有一個細節(jié)問題,Dedup操作主要用于清除segment索引中的重復URLs,但是我們知道,在WebDB中是不允許重復的URL存在的,那么為什么這里還要進行清除呢?原因在于抓取的更新。比方說一個月之前你抓取過這些網(wǎng)頁,一個月后為了更新進行了重新抓取,那么舊的segment在沒有刪除之前仍然起作用,這個時候就需要在新舊segment之間進行除重。Nutch和LuceneNutch是基于Lucene的。Lucene為Nutch提供了文本索引和搜索的API。一個常見的問題是:我應該使用Lucene還是Nutch?最簡單的回答是:如果你不需要抓取數(shù)據(jù)的話,應該使用Lucene。常見的應用場合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個搜索頁面。在這種情況下,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù)并用LuceneAPI建立索引。在你沒有本地數(shù)據(jù)源,或者數(shù)據(jù)源非常分散的情況下,應該使用Nutch。在分析了Crawler工作中設計的文件之后,接下來我們研究Crawler的抓取流程以及這些文件在抓取中扮演的角色。Crawler的工作原理:首先Crawler根據(jù)WebDB生成一個待抓取網(wǎng)頁的URL集合叫做Fetchlist,接著下載線程Fetcher根據(jù)Fetchlist將網(wǎng)頁抓取回來,如果下載線程有很多個,那么就生成很多個Fetchlist,也就是一個Fetcher對應一個Fetchlist。然后Crawler用抓取回來的網(wǎng)頁更新WebDB,根據(jù)更新后的WebDB生成新的Fetchlist,里面是未抓取的或者新發(fā)現(xiàn)的URLs,然后下一輪抓取循環(huán)重新開始。這個循環(huán)過程可以叫做“產(chǎn)生/抓取/更新”循環(huán)。指向同一個主機上Web資源的URLs通常被分配到同一個Fetchlist中,這可防止過多的Fetchers對一個主機同時進行抓取造成主機負擔過重。另外Nutch遵守RobotsExclusionProtocol,網(wǎng)站可以通過自定義Robots.txt控制Crawler的抓取。在Nutch中,Crawler操作的實現(xiàn)是通過一系列子操作的實現(xiàn)來完成的。這些子操作Nutch都提供了子命令行可以單獨進行調(diào)用。下面就是這些子操作的功能描述以及命令行,命令行在括號中。1.創(chuàng)建一個新的WebDb(admindb-create).2.將抓取起始URLs寫入WebDB中(inject).3.根據(jù)WebDB生成fetchlist并寫入相應的segment(generate).4.根據(jù)fetchlist中的URL抓取網(wǎng)頁(fetch).5.根據(jù)抓取網(wǎng)頁更新WebDb(updatedb).6.循環(huán)進行3-5步直至預先設定的抓取深度。7.根據(jù)WebDB得到的網(wǎng)頁評分和links更新segments(updatesegs).8.對所抓取的網(wǎng)頁進行索引(index).9.在索引中丟棄有重復內(nèi)容的網(wǎng)頁和重復的URLs(dedup).10.將segments中的索引進行合并生成用于檢索的最終index(merge).關(guān)鍵字采集功能如下:1).提供現(xiàn)有關(guān)鍵詞庫內(nèi)的關(guān)鍵詞在搜索引擎上URL采集,并提供用戶自定義關(guān)鍵詞的采集。2).系統(tǒng)利用URL校驗的方式將獲取到的URL進行去重。3).URL采集爬蟲包含深度優(yōu)先和廣度優(yōu)先算法,并可配置爬取深度和用戶權(quán)限。4).提供對URL標簽解析功能。包含標題、日期、作者、metadata、正文等特定標簽下的內(nèi)容提取并分類。5).提供對搜索出結(jié)果的特定標簽內(nèi)關(guān)鍵信息進行抽取。6).有新聞資訊類網(wǎng)頁的正文信息抽取功能;采用團隊自己研發(fā)的普適抽取算法,可以準確抽取網(wǎng)頁正文。7).高效率Spider網(wǎng)頁抓取模塊,單機三個小時保持100萬網(wǎng)頁的抓取效率下,CPU和IO消耗仍然很低通過研究平臺的算法引擎,提取并分析用戶訪問wap日志的關(guān)鍵詞。某關(guān)鍵字在用戶訪問的內(nèi)容中的激增,說明這是一個最近發(fā)生或即將發(fā)生的熱門事件,結(jié)合熱門事件發(fā)現(xiàn)相應的營銷機會。功能:按時段匯總關(guān)鍵詞訪問量,及訪問該關(guān)鍵詞的用戶數(shù);支持查看每日訪問量最多和關(guān)注用戶數(shù)最多的前十個關(guān)鍵詞排名;按時段顯示各個關(guān)鍵詞訪問量、及關(guān)注用戶的分布,如圖3;對某個特定關(guān)鍵詞,按照關(guān)注次數(shù)分布以柱圖顯示用戶數(shù),關(guān)注次數(shù)分布如關(guān)注1次、2次、3次、4次、5次及以上。重點媒體采集重點媒體采集是利用抓取系統(tǒng)對于相關(guān)行業(yè)的網(wǎng)站url進行深度爬取,設置重點媒體爬取模版,定位重點媒體爬取內(nèi)容,以一定的時間間隔進行增量掃描,以便能第一時間獲取重點媒體的信息。點媒體采集功能如下:1).提供論壇解析規(guī)則知識庫,并配置好論壇解析規(guī)則知識庫內(nèi)的爬取模版,精準定位爬取內(nèi)容。2).提供用戶自定義設置媒體爬取模版的設置。3).提供每間隔5、10、15、60分鐘、3、6、9、12、24小時等一定的時間間隔進行增量和全量采集媒體信息。4)動態(tài)更新可以按照指定的頻率動態(tài)發(fā)現(xiàn)新資訊和新產(chǎn)品,并及時抽取相關(guān)信息。中文多文檔自動文摘主要是基于SVD分解(可以利用聚類來抽中心句作為文摘侯選句)1.自動文摘根據(jù)其處理文本的數(shù)量可以分為單文檔文摘和多文檔文摘。2.多文檔文摘將是智能搜索引擎的重要組成技術(shù),近來搜索引擎研究的熱點之一就是開放域問答系統(tǒng),所謂開放域問答系統(tǒng),即人們以自然語言提問,將獲得的答案以段落或句子的形式呈現(xiàn)給用戶,實際上,將搜索引擎返回的文檔經(jīng)過去重處理后,將相關(guān)的文檔有機地融合在一起,正是多文檔自動文摘研究的任務。因此從這個角度說,多文檔文摘技術(shù)的研究將極大的推動新一代搜索引擎的發(fā)展。3.從用戶的角度上講,做文摘的目的無非是兩個:第一、使信息簡潔、全面;第二、用流暢的語言來表達。實際上,對應于研究的角度也體現(xiàn)了這樣的思想,去冗余、抽取主要信息、生成流利的文摘。對于多文檔的研究主要包括兩個方面:主要信息的抽取和文摘的生成。4.信息的抽取的工作,以段落為單元的研究已沒有更多的余地,以句子為單元的研究成為主流。5.多文檔自動文摘系統(tǒng)的總體結(jié)構(gòu):首先需要做的是對原始文本的預處理,包括斷句、分詞;然后就是要計算文本單元之間的相似度,(可用隱含語義(LSI)的方法),處理的文本單元是在句子一級上的;有了句子間的相似度矩陣,接下來就是從句子集合中抽取出能夠概括主題的文摘句,(可用最大邊緣相關(guān)(MMR)的方法);將抽取出的文摘句進行排序,最后生成文摘。6.句子間相似度的計算:在不同的具體應用中,相似度的含義有所不同。例如,在基于實例的機器翻譯中,相似度主要用于衡量文本中詞語的可替換程度;而在信息檢索中,相似度更多的是反映文本與用戶查詢在意義上的符合程度,在自動問答中,相似度反映的是問題與答案的匹配程度,而在多文檔文摘系統(tǒng)中,相似度可以反映出局部主題信息的擬合程度。現(xiàn)在國內(nèi)外有很多學者在研究句子間相似度的計算,如ChrisH.Q.Ding.等人采用了隱含語義索引(LatentSemanticIndexing)的方法,國內(nèi)有學者利用骨架依存的方法計算漢語句子間相似度。在相似度計算中,按照對語句的分析深度來看,主要存在以下方法,一種是基于向量空間模型的方法,這種方法把句子看成為詞的線性序列,不對語句進行語法結(jié)構(gòu)分析,相應的語句相似度衡量機制只能利用句子的表層信息,即組成句子的詞的詞頻、詞性等信息。這種方法由于不加任何結(jié)構(gòu)分析,這種方法在計算語句之間的相似度時不能考慮句子整體結(jié)構(gòu)的相似性;另一種方法是對語句進行完全的句法與語義分析,這是一種深層結(jié)構(gòu)分析法,對被比較的兩個句子進行深層的句法分析,找出依存關(guān)系,并在依存分析結(jié)果的基礎上進行相似度計算?;诳臻g向量間模型的TF*IDF方法假設所有句子中包含的詞為w1,w2,…,wn,則每一個句子都可以用一個n維的向量T=<T1,T2,…,Tn>來表示。其中,Ti(1≤i≤n)的計算方法為:設n為wi在這個句子中出現(xiàn)的個數(shù),m為其他所有句子中含有wi的句子的個數(shù),M為句子的總數(shù),那么Ti=n×log(M/m)用同樣的方法,我們可以計算目標句子的n維向量T’=<T1’,T2’,…Tn’>。得到T和T’后,它們所對應的兩個句子之間相似度就可以T和T’這兩個向量之間夾角的余弦值來表示。TF*IDF方法綜合考慮了不同的詞在所有句子中的出現(xiàn)頻率(tf值)和這個詞對不同句子的分辨能力(idf值)?;陔[含語義索引的相似度計算自然語言文本中的詞匯(術(shù)語)具有一詞多義(polysemy)和一義多詞(synonymy)的特點。由于一詞多義,基于精確匹配的檢索算法會報告許多用戶不要的東西;由于一義多詞,基于精確匹配的檢索算法又會遺漏許多用戶想要的東西。以詞匯(term)為行,句子(sentence)為列做一個大矩陣,設一共有t行d列,矩陣元素為詞匯在句子中出現(xiàn)的頻度。Term-Sentence矩陣隱含語義索引的核心是奇異值分解,我們知道任一個實矩陣可以分解成為三個矩陣的乘積,即D=UΣVT,其中Σ是矩陣,由D*DT的特征值所構(gòu)成的對角矩陣,(按特征值從大到小排列),U是D*DT按特征值順序?qū)奶卣飨蛄繕?gòu)成的矩陣,V是DT*D按特征值順序?qū)奶卣飨蛄繕?gòu)成的矩。假設D是一個詞與句子矩陣,D的列向量和行向量分別代表文檔和term,矩陣D為m*n矩陣,m>n,且D的秩是n。如果把初始的n個列向量當作是基向量組,則文檔向量就可以從m維降低到n維且不失去也不增加任何信息,因為n個向量的線性空間至多為n(即n個向量的向量組它的秩至多為n),Σ的元素是從大到小排列,將前k個保留,后m-k個置零,得到新的近似矩陣D1,對于一個給定的k,開始的k個向量所組成的向量空間是最優(yōu)的。過程描述:Term-Sentence矩陣DSVD分解得到相似陣D1(k=2或者其它)D1中每一列代表一個句子向量,計算列與列之間的余弦向量,可以得到句子之間的相似度。經(jīng)過句子的兩兩比較,可以得到描述每一個句子與其他所有句子的相似度矩陣。相似度計算公式如下:其中,,,與為兩個不同的句子,為句子中包含的特征,為句子中包含的特征。LSI方法的缺點:1.多義詞將會影響LSI的結(jié)果。由于LSI的原始矩陣中只是記錄了詞在句子中出現(xiàn)的次數(shù),而沒有考慮詞義的信息,因此當同一個多義詞以不同的詞義出現(xiàn)在不同的句子中時,就會使LSI無法區(qū)分,從而影響了相似度計算結(jié)果。2.LSI的向量比較龐大,因此計算的代價比較大。3.計算近似矩陣時,參數(shù)K影響著近似矩陣的維數(shù),對于K值的最優(yōu)化選擇比較困難。我們系統(tǒng)中的K值是由總的句子數(shù)決定的,即總的句子數(shù)n*0.7。4.利用近似矩陣的余弦來計算句子間的相似度矩陣可能不是最好的方法。文摘句抽取文摘句的抽取是在得到句之間相似度矩陣的的基礎上進行的。在這部分大多數(shù)學者的做法是根據(jù)句子的相似度信息,通過合適的聚類方法對句子進行聚類,再通過抽取每類的中心來生成文摘句。多文檔集合最大的特點是信息的冗余性,應該說聚類是消除冗余的一種有效的策略。基于最大邊緣相關(guān)的文摘句抽取最大邊緣相關(guān)(以下簡稱MMR)是一種非常有效的使冗余最小而使相關(guān)性和差異性最大的方法。多文檔集合的最大的特點是信息的冗余性,而MMR是一種十分有效的去冗余并且取得最大相關(guān)性和差異性的方法。用于多文檔自動文摘的MMR(MMR-MD)公式定義如下:其中:其中:Sim1用來度量關(guān)聯(lián)對列的相似度Sim2是去冗余度D是文本集P是來自于文檔集合中的句子(例如:Pij是文檔Di中的句子j)Q是提問或用戶需求S是R中已經(jīng)被選出的句子組成的集合R\S是R中沒有被選出的句子集合C是文檔集中句子的聚類集合Cvw是C中包含句子Pvw的類的集合Cv是文檔Dv的所有句子所在類的集合|k|是第k類中的句子數(shù)|Cvw∩Cij|是Cvw和Cij相交的類的個數(shù)wi是權(quán)值,可選擇W是句子中的Pij中的一個詞type是詞的特殊類型,如城市名tDi是文檔Di的時間tmax是文檔集中最近一篇文檔的時間tmin是文檔集中最早一篇文檔的時間文摘句抽取文摘生成方法大致分為下列三類:統(tǒng)計學方法(statistical),基于知識的方法(knowledge-based)和通用語言學方法(generallinguistic)。統(tǒng)計學方法的文摘不需要理解原始文章的內(nèi)容,它依靠語料庫中某些指標的統(tǒng)計來完成文摘的工作。具有代表性的工作包括基于分類的方法和基于位置的方法。這種統(tǒng)計學的方法也可以稱為基于抽取的文摘生成方法。基于知識的方法則剛好與統(tǒng)計的方法相反,它使用各領(lǐng)域知識和自然語言技巧來理解文本的含義,然后生成文摘。具有代表性的工作有Radev關(guān)于恐怖主義領(lǐng)域的多文檔文摘。這種方法一般用于特定領(lǐng)域,和統(tǒng)計方法相比,它更復雜,但是能產(chǎn)生質(zhì)量更好的文摘。通用語言學方法同樣依賴自然語言處理的技巧,不同的是它與文章的主題無關(guān),是一種通用的方法,不需要特定領(lǐng)域的知識。但是在現(xiàn)階段,對文本內(nèi)容的理解還是一個難點。從語義級別去理解文本的內(nèi)容仍是一個巨大的挑戰(zhàn)。后兩種方法可以稱得上真正意義上的信息融合。生成文摘的排序算法文摘的生成實際是對文摘句的排序過程,對于多文檔,由于打破了文檔的界限,不同文檔間的句子是無序的,如果將抽取出的句子組成文摘,一般情況下需要考慮句子所在原文檔的時間信息及句子在原文檔中位置信息,由于我們研究的對象大多是同一事件相同時間不同網(wǎng)站的報道,因此對文摘句子的排序主要參考句子在文檔中的位置信息。這里我們通過以下方式來確定文摘句的順序:1.若兩個句子文檔號一致,則按句子的序號排列;2.否則對兩個句子所在的兩個類別中的其他句子遍歷,找到兩類中出現(xiàn)同一文檔中的句子,以它們的在文檔序號為參考,從而確定下來兩個文摘句先后位置;3.若上述兩種方法仍然不能確定,則通過與兩類都有關(guān)系第三類可間接找到文摘句前后關(guān)系。對于上述的過程,我們在這里解釋一下:比如要確定任意兩句(A,B)在文摘中的順序,如果它們屬于同一篇原文檔,順序就同它們在原文檔中的一樣;如果它們不屬于同一篇原文檔,則可以直接根據(jù)文摘句在各自的原文檔中的位置信息來確定它們在文摘中的位置。定義位置參數(shù):其中是文摘句i在原文檔中的序號,是文摘句子i所在的原文檔的句子總數(shù)。每一個文摘句都有自己的位置參數(shù),它們在文摘中的位置就由自己的位置參數(shù)確定,參數(shù)越小,位置越靠前;反之越靠后。理論上講對文摘句的排序,不存在一個最理想的排序方法,不同的人對這些句子的排序是略有差異的,因此對文摘句自動排序只需要找到可接受的結(jié)果.。基于理解的文摘生成基于理解的文摘生成是建立在聚類方法的基礎上的,多文檔文摘中聚完類后,每個類都形成了一個局部主題,在每一個局部主題中,包含的句子都是相似的。它們之間有很多信息可以互補,如果只是簡單的從這些相似的句子中選出一句作為這類的總結(jié),那么有些信息將會丟失。較好的一種方法是以其中包含信息最多的一句為中心句,將其它相似的句子中合適的信息添加進來,保持信息的豐滿,同時也不要影響句子的連貫性。這就涉及到了句子的壓縮和合并問題。對于壓縮和合并的研究,近期南加里福利亞大學的KevinKnight和DanielMarcu兩人做了不少工作。他們采用了概率噪音通道模型(noisychannelmodel)和基于決策的確定性模型(decision-basedmodel)。概率噪音通道模型建立源模型,通道模型和解碼模型來分析句子的壓縮;基于決策的確定性模型建立堆棧和對依存樹的四種操作:替換(shift),合并(reduce),刪除(drop),換名(assigntype)來實現(xiàn)句子的壓縮。另一個具有代表性的工作是哥倫比亞大學的HongyanJing所作的在單文檔文摘的環(huán)境下對原文的智能剪切與粘貼(IntelligentCuttingandPastingoftheInputDocument)。相對于基于抽取的文摘來說,他的這種cut_and_paste方法模擬人寫文摘的過程,對原文進行真正的編輯,因此能生成更準確更連貫的文摘。但這種方法需要大量的語料庫和與語言相關(guān)的知識,即給機器以人的經(jīng)驗,才能做出正確的決策。中文文檔自動摘要技術(shù)本節(jié)主要是從給句子打權(quán)重來抽取文摘的,充分利用了文章的結(jié)構(gòu)信息(標題,位置),詞的信息(指示詞,線索詞,詞頻,與主題詞的相似程度),句法結(jié)構(gòu)特征(句式,句長),排版特征與標記文本的格式符號。主要思想:基于詞及文章的結(jié)構(gòu)信息給句子打權(quán)重,然后排序,選最重要的句子作為關(guān)鍵句。(與基于先svd分解,后聚類的方法不同)自動摘要具有以下特點:(1)自動文摘應能將原文的主題思想或中心內(nèi)容自動提取出來。(2)文摘應具有概況性、客觀性、可理解性和可讀性。(3)可適用于任意領(lǐng)域現(xiàn)有的自動摘要方法自動摘錄基于理解的自動文摘信息抽取基于結(jié)構(gòu)的自動文摘中文自動摘要系統(tǒng)采用自動摘錄原文中句子生成摘錄性摘要,它將文本視為句子的線性序列,將句子視為詞的線性序列.然后通過計算句子的權(quán)值,對原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句,然后將所有文摘句按照它們在原文中的出現(xiàn)順序輸出自動摘錄自動摘錄(AutomaticExtraction)將文本視為句子的線性序列將句子視為詞的線性序列。它通常分4步進行:(1)計算詞的權(quán)值;(2)計算句子的權(quán)值;(3)對原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句;(4)將所有文摘句按照它們在原文中的出現(xiàn)順序輸出。在自動摘錄中,計算詞權(quán),句權(quán),選擇文摘句的依據(jù)是文本的6種形式特征:1)詞頻(Frequency):能夠指示文章主題的所謂有效詞(SignificantWords)往往是中頻詞。根據(jù)句子中有效詞的個數(shù)可以計算句子的權(quán)值,這是Luhn首先提出的自動摘錄方法的基本依據(jù)。V.A.Oswald主張句子的權(quán)值應按其所含代表性”詞串’的數(shù)量來計算,而Doyle則重視共現(xiàn)頻度最高的“詞對”。美國IBM公司在1960年前后研制了一套文摘自動生產(chǎn)程序ACSI-Matic,該程序在句權(quán)的計算方面對Luhn的方法進行了改進。1995年美國GE研究與開發(fā)中心的Lisa.F.Rau等人完成了ANES(AutomaticNewsExtractionSystem)系統(tǒng),該系統(tǒng)采用相對詞頻作為詞的權(quán)值2)標題(Title):標題是作者給出的提示文章內(nèi)容的短語,借助停用詞詞表(Stoplist),在標題或小標題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內(nèi)容往往有緊密的聯(lián)系,可以作為有效詞3)位置(Location):美國的P.E.Baxendale的調(diào)查結(jié)果顯示,段落的論題是段落首句的概率為85%,是段落末句的概率為7%。因此,有必要提高處于特殊位置的句子的權(quán)值。4)句法結(jié)構(gòu)(SyntacticStructure):句式與句子的重要性之間存在著某種聯(lián)系,比如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進入文摘。5)線索詞(Cue):Edmundson的文摘系統(tǒng)中有一個預先編制的線索詞詞典,詞典中的線索詞分為3種“取正值的褒義詞(BonusWords),取負指的貶義詞(StigmaWords),取零值的無效詞(NullWords)。句子的權(quán)值就等于句中每個線索詞的權(quán)值之和.70年代初,俄亥俄州立大學的JamesA.Rush教授和他的學生開發(fā)了ADAM(AutomaticDocumentAbstractingMethod)系統(tǒng).ADAM強調(diào)的是排斥句子的標準而不是選擇句子的標準,詞控表(WCL)中大多數(shù)詞是否定性的。6)指示性短語(IndicativePhrase):1977年,英國Lancaster大學的Palce提出根據(jù)各種“指示性短語”來選擇文摘句的方法.和線索詞相比。指示性短語的可靠性要強得多.這6種特征是自動摘錄的依據(jù),它們從不同角度指示了文章的主題,但都不夠準確,不夠全面.如果能夠?qū)⑸鲜龈鞣N特征“有機”地結(jié)合起來,即以W=f(F,T,L.S,C。I)作為計算句子權(quán)值的公式,其中W-句權(quán),F(xiàn)-詞頻,T-標題,L-位置,S-句法結(jié)構(gòu),C-線索詞,I-指示性短語,那么摘錄的質(zhì)量可望進一步提高。自動摘錄所依據(jù)的是文本形式上的規(guī)律,總的來說,任何一篇文章都不同程度地符合這些規(guī)律,因此自動摘錄能夠適用于非受限域,這是它突出的優(yōu)點。然而,具體地講,一篇文章常常在某些形式特征上符合常規(guī),而在另一些形式特征上違反常規(guī),或者是在文章的某一部分符合常規(guī),而在另一部分違反常規(guī),摘錄的結(jié)果能否抓住原文的中心內(nèi)容要看文章在多大程度上符合常規(guī)。因此,自動摘錄的質(zhì)量很不穩(wěn)定.當加權(quán)函數(shù)調(diào)整時又總是顧此失彼,對這一類文章的效果好了,對另一類文章的效果又差了。自動編制摘要應考慮的因素自動編制摘要需要智能化地從文獻中提取信息,在這個智能化過程中,可供考慮的因素有許多:篇章結(jié)構(gòu)特征(1)標題:文獻的標題、副標題、段落小標題是作者給出的提示文章內(nèi)容的短語,往往就是論文或其段落的綱要。(2)位置:美國的P.E.Baxendale分析了200個典型的文獻段落后發(fā)現(xiàn),段落的論題是段落首旬的概率為85%,是段落末句的概率為7%.前言、結(jié)論、第一章節(jié)、第一自然段、最后一段等中的句子往往能提示文獻的主題內(nèi)容,因此應對這些特殊位置的句子賦予較高的權(quán)值。詞的意義及數(shù)量特征(1)指示詞:一般地,很多文獻中都包含有“本文論述了”、“本文的目的”、“綜上所述”等類似字串的句子。這些字串我們稱之為“論題提示字串”或“主題提示句”.它們往往高度概括了文獻主題,是很好的文摘候選句。(2)線索詞:確定句子的權(quán)值,應考慮某些特殊的限制詞。事先在提示詞典中存貯一些限制詞,表示肯定的詞權(quán)值為正,表示否定的詞權(quán)值為負,無效的詞權(quán)值為零。句子的可能會等于其中各的權(quán)值之和.(3)與主題詞的相似程度:利用選定的詞表,判斷文本中的詞與文獻主題詞(可由人工干預事先選定或從文中抽取)是否同義詞、近義詞或有某種關(guān)聯(lián)關(guān)系。相似程序越大,詞的權(quán)值就越大。(4)詞頻:許多文摘的研究是以詞頻統(tǒng)計為基礎的。他們是基于這樣一種觀點,既文獻的主要內(nèi)容可用該文獻中含有最重要情報的句子的集合來表達,最重要的句子是含有該文獻重要詞匯的集合的句子,而該文獻中經(jīng)常使用的頻率最高的詞匯是最重要的詞匯,但就剔除那些頻率很高的無效的實義詞。句法結(jié)構(gòu)特征(1)句式:有研究表明,句子的重要性與句式之間有一定關(guān)聯(lián)。文章中重要的句子往往是陳述旬。因此選擇摘要句時,盡可能地抽取陳述句,應避免疑問句、感嘆句進入摘要中。(2)句長:體現(xiàn)文章主題內(nèi)容的句子往往是高度概括的句子。因此摘要句應選擇那些較精練簡短的句子,過度冗長的句子通常不適合選入摘要文中。排版特征在排版軟件日臻完善的前提下,對機讀文摘的排版格式也提出來了美的要求.編者往往通過特殊格式突出文獻的主題內(nèi)容:如加大字號、改為粗體或改為特殊字體,加下劃線、文字居中排列等等。確定詞或句的權(quán)值時,應考慮這些特殊的格式特征,適當?shù)貙?quán)值加大。標記文本的格式符號對于如今大量的標記文本,如HTML文件,可以根據(jù)文件中表示格式的符號抽取摘要.如<HEAD>與</HEAD>、<TITLE>與</TITLE>之間的文字可作為摘要的候選文字。中文自動摘要系統(tǒng)的設計目標(1)文本預處理:能利用標點符號對原文進行章節(jié)、段落、句子等預處理工作,將輸入的文本轉(zhuǎn)換成句子序列;(2)過濾:去掉不相關(guān)的句子;(3)分詞:利用給定的中文詞表,對文檔進行分詞:對于不能處理的詞,作單字處理。不必要進行詞性的判斷;根據(jù)停用詞表剔除無效的實義詞;(4)統(tǒng)計分析:通過分析統(tǒng)計句子的詞匯項信息,計算詞權(quán),確定文檔關(guān)鍵詞;(5)提取摘要:計算句子的權(quán)值,按權(quán)值大小對句子進行排序;(6)輸出摘要:按用戶要求輸出摘要。數(shù)據(jù)庫結(jié)構(gòu)設計分詞詞表名稱數(shù)據(jù)類型作用Wordsvarchar詞語W_IDbigint編號分句信息表名稱數(shù)據(jù)類型作用S_IDvarchar編號FreqsInt句子權(quán)值P_IDVarchar所在段落編號ContVarchar句子內(nèi)容分詞信息表名稱數(shù)據(jù)類型作用S_IDVarchar句子編號FreqsInt詞頻WordsVarchar詞語關(guān)鍵詞信息表名稱數(shù)據(jù)類型作用SIGVarchar詞語權(quán)值Freqsint詞頻WordsVarchar詞語停用詞信息表名稱數(shù)據(jù)類型作用WordsVarchar詞語系統(tǒng)功能模塊文本預處理模塊,分詞模塊,將提交的文檔進行分詞;統(tǒng)計分析模塊,將分詞進行統(tǒng)計處理,確定關(guān)鍵詞;提取摘要模塊,根據(jù)權(quán)值算法對句子分配權(quán)值,提取文檔摘要句;輸出摘要模塊,將提取的摘要句按在原文中的順序排列并進行適當處理,輸出給用戶。文本預處理模塊文本預處理模塊的主要任務是對文檔進行章節(jié)、段落、句子等劃分,主要以標點符號為劃分依據(jù)。符號對于語法或者語義的影響可能比較大,但是對于文本預處理而言,符號就是句子間隔,將輸入的原文本按照其所屬章節(jié)、段落和句子等信息進行標記。另外摘要句的句式多為陳述句,像感嘆句、疑問句等特殊句式一般不直接表達文章的中心主旨,考慮這些因素,因此在文檔預處理分析時,不對該類句式進行處理。在進行文檔劃分時,還應該考慮到全角半角標點標號的區(qū)別,為保證文本標識的準確性,還要處理文本的各種標點符號,識別文本的結(jié)構(gòu),最終達到以句子為單位對文本進行分隔的目的。統(tǒng)計分析模塊統(tǒng)計分析模塊主要功能是統(tǒng)計詞頻,計算詞條的權(quán)值,并進行關(guān)鍵詞的提取。WF(Wi)=F(Wi)(1)或WF(Wi)=F(Wi)*log(S/SF(Wi))(2)其中,WF(Wi)表示經(jīng)過計算得到的詞條的權(quán)重,F(xiàn)(Wi)表示詞條在文檔中出現(xiàn)的頻率,S表示句子集合中包含的所有句子數(shù)目,SF(Wi)為句子集合中出現(xiàn)過詞條Wi的所有句子數(shù)目。通過上述公式計算出詞的權(quán)值后,通過確定一個適當?shù)拈y值,剔出文檔中出現(xiàn)的權(quán)值低的詞,確定出最終的關(guān)鍵詞集合?!咀ⅰ浚和ㄟ^實驗,可以發(fā)現(xiàn)采用公式(2)計算詞語權(quán)值,對于那些在文檔中出現(xiàn)頻率相同而出現(xiàn)位置相對分散的詞語,詞語權(quán)值結(jié)果偏小;文檔中出現(xiàn)頻率高但位置分散的詞語最終權(quán)重也相對偏小。這也證明了,對于文檔中出現(xiàn)頻率相同的關(guān)鍵詞,如果它出現(xiàn)的位置相對集中,那么包含該關(guān)鍵詞的句子成為摘要句的可能性就會大大提高.因此,采用公式(2)來獲取關(guān)鍵詞的算法,要比直接采用詞語頻率作為選取條件獲取關(guān)鍵詞的算法更科學,更準確,更符合實際。提取摘要模塊提取摘要模塊是自動摘要系統(tǒng)的基礎,也是核心模塊,主要功能是采用權(quán)值分配算法對文檔中的句子分配權(quán)值,提取摘要句.包含文檔主要內(nèi)容的句子可以作為文摘句組成摘要。文摘句選擇是否合適直接關(guān)系到摘要的質(zhì)量,因此文摘句的提取模塊非常重要。該模塊主要有兩個關(guān)鍵之處:(一)權(quán)值算法為了定量地衡量句子的重要性,需要給文檔中的每個句子Si賦予權(quán)重WF(Si).通常采用有三個部分的加權(quán)方法,分別為段落加權(quán)、詞匯加權(quán)和句子加權(quán):段落加權(quán)的方法是:①處于篇首或篇末的段落權(quán)重高②包含關(guān)鍵詞種類多的段落權(quán)重高如果僅包含一個關(guān)鍵詞,但該關(guān)鍵詞在該段落中出現(xiàn)很多次,說明這個段落只是針對文章中的每一個分論點進行闡述,價值不大。重要的段落一定要包括多個不同的關(guān)鍵詞,在闡述它們之間的關(guān)系。③字數(shù)少的段落權(quán)重高詞匯加權(quán)的方法是:①在標題里出現(xiàn)的詞權(quán)重高②在文章中多次出現(xiàn)的詞權(quán)重高③在其它文章中很少出現(xiàn)的詞權(quán)重高④跨越了多個段落的詞權(quán)重高可能一個詞在一個段落里出現(xiàn)了很多次,但在其它段落里幾乎不出現(xiàn),說明這個詞和該段落的相關(guān)性非常大,但是不能概括全文的中心思想。句子加權(quán)的方法是:①所在段落權(quán)重高的句子其權(quán)重也高②出現(xiàn)在段落首句或末句位置的句子權(quán)重高③包含很多高權(quán)重關(guān)鍵詞的句子權(quán)重高④出現(xiàn)線索詞,例如“總而言之”,“綜上所述”等詞匯的句子權(quán)重高系統(tǒng)主要考慮以下因素:1)句子中包含的詞條的重要性.句中詞條權(quán)重之和越大,則說明句子的重要性可能越大。由于文檔中相當一部分詞條對文檔內(nèi)容的影響不大,因此可以只考慮關(guān)鍵詞集合中的詞.同時,詞條權(quán)重之和應該除以句子所包含的詞條總數(shù),得到句子的平均詞條權(quán)重,從而消除句子長度的影響。2)句子在文章中所處的位置。如首句、末句等處的句子往往在較大程序上概述了文章的內(nèi)容.對于出現(xiàn)在這些位置的句子應該加大權(quán)重。段首權(quán)重比例因子為2,段末權(quán)重比例因子為1.5。3)某些具有特殊標記的句子.如果句子中包含了“綜上所述”、“總而言之”等等表示概括性的詞,則說明該句子能概括文章的意思,應該加大權(quán)重,其比例因子為2。綜合上述因素,系統(tǒng)使用下面的權(quán)重計算公式:WF(Sj)=∑WF(Wji)/S(Wji)(3)或WF(Sj)=∑WF(Wji)/S(Wji)*L(Sj)*C(Sj)(4)其中,WF(Sj)是經(jīng)過計算得到的句子Sj的權(quán)重,∑WF(Wji)是Sj中包含的關(guān)鍵詞詞條權(quán)重值和,S(Wji)是Sj中包含的所有詞條總數(shù)目,L(Sj)是位置權(quán)重比例因子,C(Sj)是特殊標記權(quán)重因子。(二)摘要句的選取在生成文檔摘要之前,需要先確定摘要的大小。該值可以是摘要占原文檔大小的比例,也可以用摘要包含的句子數(shù)目或者被除數(shù)來表示。同時,所生成的摘要的大小應該是可以動態(tài)調(diào)整的,以滿足用戶的各種需要。由于時間和技術(shù)上的原因,系統(tǒng)只考慮了包含關(guān)鍵句的數(shù)目來選取摘要,然后按自然序輸出。在確定每個句子的權(quán)值后,將句子按照權(quán)值大小降序排列:然后把權(quán)值大的幾個拿出來作為文摘句,并按照它們在原文中出現(xiàn)順序輸出,從而得到摘要。因此系統(tǒng)較適合單文檔的自動摘要處理。自動摘要系統(tǒng)流程基于句子權(quán)值的自動摘要方法采用純語言學手段,因而能夠處理非受限域的文本,適應了當前處理大規(guī)模真實語料的需求。但也并非能夠處理任意類型的文章。文章可以分為兩種類型一是描寫敘述類,如各種文學作品可稱為記敘文;一是說理論證類,如各種科學論文,報刊上的社論、評論等,可以統(tǒng)稱之為論說文。前者以形象思維為基礎,由于對形象思維的規(guī)律尚不清楚,因此很難用計算機對其進行模擬。后者以抽象思維為基礎,研究抽象思維的學科是形式邏輯,形式邏輯的研究從亞里士多德算起已有兩千多年的歷史,已經(jīng)成熟。根據(jù)以上認識,系統(tǒng)面向論說文,對記敘文不適用。自動摘要的一般步驟如下:1)首先應抓住文章的主要內(nèi)容,也就是抓住關(guān)鍵詞句。系統(tǒng)主要是通過中文詞表掃描匹配全文,去掉文檔中停用詞表中的詞,再從中提取詞表中含有的詞,然后進行篩選,確定關(guān)鍵詞。2)確定能夠反映文檔核心的關(guān)鍵句。在目前的技術(shù)條件下,雖然計算機可通過對關(guān)鍵詞的分析組合成一個完整的句子,但是實現(xiàn)起來比較復雜,而且技術(shù)也很不成熟。所以目前比較簡單的方法,仍然是從原文中提取原句作為關(guān)鍵句。系統(tǒng)采取了統(tǒng)計句權(quán)的方法,即將相關(guān)句子根據(jù)制定的規(guī)則加權(quán),然后根據(jù)加權(quán)結(jié)果選取文摘句。3)組合、輸出文章摘要.由于摘要中都是陳述句,所以先將句子中的疑問句、感嘆句排除,再適當?shù)鼐C合加權(quán)。加權(quán)后將各被選句的權(quán)值按大小排序,將權(quán)值大于閾值的句子按在原文中的順序排列組成文檔摘要并輸出.自動摘要流程圖自動文本摘要技術(shù)綜述自動文本摘要技術(shù)從20世紀50年代開始興起,最初是以統(tǒng)計學為支撐,依靠文章中的詞頻、位置等信息為文章生成摘要,主要適用于格式較為規(guī)范的技術(shù)文檔。從90年代開始,隨著機器學習技術(shù)在自然語言處理中的應用,自動文本摘要技術(shù)中開始融入人工智能的元素。針對新聞、學術(shù)論文等主題明確、結(jié)構(gòu)清晰的文檔,一些自動摘要技術(shù)[1-2]使用貝葉斯方法和隱馬爾可夫模型抽取文檔中的重要句子組成摘要。到了21世紀,自動文本摘要技術(shù)開始廣泛應用于網(wǎng)頁文檔。針對網(wǎng)頁文檔結(jié)構(gòu)較為松散、主題較多的特點,網(wǎng)頁文檔摘要領(lǐng)域出現(xiàn)了一些較新的自動摘要技術(shù),比如基于圖排序的摘要方法等。我們可以根據(jù)自動文本摘要技術(shù)本身的特點對其進行分類。根據(jù)摘要的主題聚焦性,自動文本摘要又可分為普適摘要和查詢相關(guān)的摘要。其中,普適摘要會盡量覆蓋文章中的所有主題并將冗余最小化;而查詢相關(guān)的摘要則是抽取文章中和查詢詞緊密相關(guān)的內(nèi)容。所產(chǎn)生的摘要從形式上可以分為文摘(extract)和摘要(abstract),文摘通過抽取原文中的重要句子所組成,而摘要則對相關(guān)語義信息用新的句子進行描述。目前,大多數(shù)的摘要方法都是基于文摘的方法。根據(jù)摘要所覆蓋的文檔數(shù)量,自動文本摘要可以分為單文檔摘要與多文檔摘要。單文檔摘要技術(shù)為單個文檔生成摘要,而多文檔摘要技術(shù)則為多個主題類似的文檔產(chǎn)生摘要。單文檔自動摘要技術(shù)單文檔自動摘要技術(shù)針對單個文檔,對其中的內(nèi)容進行抽取,并針對用戶或者應用需求,將文中最重要的內(nèi)容以壓縮的形式呈現(xiàn)給用戶。常見的單文檔摘要技術(shù)包括基于特征的方法、基于詞匯鏈的方法和基于圖排序的方法。(1)基于特征的方法文檔摘要中常用的文章特征包括詞頻、特定段落(如首末段)、段落的特定句子(如首末句)等。Luhn在1958年發(fā)表的論文[3]指出,頻繁出現(xiàn)的單詞與文章主題有比較大的關(guān)聯(lián),因此可以根據(jù)各單詞出現(xiàn)的頻率給文中的句子打分,以得分最高的幾個句子組成文章的摘要。有趣的是,后來的評估表明[4],這個看似最簡單的方法,準確率卻比后來不少復雜的方法要高。Baxendale等人通過從句子位置特征入手,通過計算文章中段落首末句出現(xiàn)主題句的概率,選取得分最高的若干句子生成摘要[5]。Edmundson利用線索詞(cuewords)、標題詞、句子位置以及關(guān)鍵詞頻等3個因素,計算每個句子的權(quán)重,得分最高的幾個句子作為摘要[6]?!緳C器學習方法的運用】到了20世紀90年代,隨著機器學習在自然語言處理領(lǐng)域應用的興起,自動摘要技術(shù)中也逐漸開始出現(xiàn)一些基于機器學習的方法。在Edmundson的研究基礎上[6],Kupiec在1995年提出一種新的方法[1],通過樸素貝葉斯分類模型去判定文章里的每個句子是否應該抽取為摘要。在Kupiec的方法中,假設s是某一句子,S是組成摘要的句子集合,F1,...,Fk為文章的k個特征,假設這k個特征相互獨立,則有以下公式:(1)通過公式(1)計算出每個句子成為文章摘要的概率,最后得分最高的幾個句子抽取出來作為文章的摘要。Aone等人在1999年開發(fā)出一個基于貝葉斯分類模型的系統(tǒng)DimSim[7],在這個系統(tǒng)中他們采用了更多的文章特征來計算句子的摘要概率,如詞組頻率(itemfrequency)以及倒文檔頻率(inversedocumentfrequency)等。他們在該系統(tǒng)中使用了詞組別名的匹配方法,例如把IBM與InternationalBusinessMachines等同起來,從而改善了摘要的質(zhì)量。通過對句子位置進行深入的分析,Lin與Hovy根據(jù)每個句子的位置加權(quán)計算句子的分值[8]。他們將該方法應用到了針對新聞類文章摘要的TIPSTER系統(tǒng),并在該系統(tǒng)中將加權(quán)規(guī)則針對一般文章也做了優(yōu)化。但由于不同文章的邏輯結(jié)構(gòu)往往不同,這個方法只在特定的領(lǐng)域才會有較好的摘要效果。Lin等人在1999年提出另一種摘要方法[9]。在這種方法中,他們假設文章中用于摘要抽取的各種特征是相互關(guān)聯(lián)的,并使用了決策樹(decisiontrees),而不是貝葉斯分類模型對句子打分,抽取得分最高的部分句子作為文章摘要。另外,在Osborne等人提出的基于數(shù)線性模型(Log-LinearModels)的摘要方法中[10],他們注意到了各種特征間的關(guān)聯(lián)性,并通過實驗證明了這種模型比樸素貝葉斯模型的提取效果要好。該模型可以用下面的公式表示:其中l(wèi)是標簽(在該模型里存在兩種標簽:該句子被抽取為摘要或不被抽取為摘要),s是要標注的某個項,為對應特征的權(quán)重。Conroy與O'leary在2001年提出一種使用隱馬爾可夫模型(hiddenMarkovmodel)的摘要方法[2]。該方法也使用了一些文章的特征來確定句子的分值,如句子位置、句內(nèi)詞數(shù)以及句內(nèi)詞語與文章詞語的相似度等。(2)基于詞匯鏈的方法:基于詞匯鏈的方法主要通過對文章內(nèi)容進行自然語言分析生成摘要。這類方法中,有代表性的方法是Miller在1995年提出的[11]。該方法通過分析生成詞匯鏈(lexicalchain)來做摘要提取,主要分為3個步驟:a.選擇候選詞的集合;b.根據(jù)與詞匯鏈里成員的相關(guān)程度,為每個候選詞選擇詞匯鏈;c.如果發(fā)現(xiàn)候選詞與某詞匯鏈相關(guān)度高,則把候選詞加入詞匯鏈內(nèi)。最后該方法根據(jù)長度與一致性給每個鏈打分,并使用一些啟發(fā)式方法挑選部分詞匯鏈生成摘要。在此基礎上,Ono等人在1994年提出了結(jié)合修辭結(jié)構(gòu)的應用[12];Marcu則更進一步地提出了修辭學理論[13-14]。Marcu把文章中的文字段分為兩類:中心段與隨從段,并把這些文字段建立成樹狀關(guān)系并以此生成摘要。(3)基于圖排序的方法:基于圖排序的文本摘要方法的一般思想是把文章分解為若干單元(句子或段落等),每個單元對應一個圖的頂點,單元間的關(guān)系作為邊,最后通過圖排序的算法(如PageRank、manifoldranking等)得出各頂點的得分,并在此基礎上生成文本摘要。在以句圖結(jié)構(gòu)表示文檔的基礎上,Mihalcea等人使用了PageRank算法來提取出關(guān)鍵的句子生成文檔摘要[15]。在該方法中,他們把每個句子作為圖的頂點,句子間的相似度作為頂點間的邊。句子間的相似度由句子內(nèi)容的重疊程度決定,通過兩個句子間的共同單詞數(shù)量計算而得。為了避免長句子分數(shù)過高的情況,他們把得出的數(shù)值與句子長度相除。只有在兩個句子間的相似度大于零時,它們對應的頂點才會有邊相連。文章對應圖的生成有3種建模方法:無向加權(quán)圖;有向加權(quán)圖,邊的方向順著文章句子順序,邊的權(quán)重為兩句子間的相似度;與第二種方法方向相反的有向加權(quán)圖。最后,他們使用了HITS、PageRank與無向圖的聯(lián)通性等方法進行了試驗,最后得出每個句子對應的分數(shù),由得分最高的句子組成文章的摘要。耿煥同等人則利用句子間的共同詞,提出了一種基于詞共現(xiàn)圖的文檔自動摘要算法[16],通過詞共現(xiàn)圖形成的主題信息以及不同主題間的連接特征信息自動地提取文檔摘要。多文檔自動摘要技術(shù)多文檔自動摘要的目的是為包含多份文檔的文檔集合生成一份能概括這些文檔主要內(nèi)容的摘要。相對單文檔自動摘要,多文檔自動摘要除了要剔除多份文檔中的冗余內(nèi)容外,還要能夠識別不同文檔中的獨特內(nèi)容,使得生成的摘要能夠盡量的簡潔完整。多文檔自動摘要的研究從20世紀90年代開始興起,盡管目前還沒有非常滿意的解決方案,但不少人員組織一直在做各種嘗試,如Google公司的GoogleNews(),哥倫比亞大學的ColumbiaNewsBlaster(/)等。該領(lǐng)域一個較早的工作來自于哥倫比亞大學的自然語言處理小組,他們在1995年開發(fā)出SUMMONS系統(tǒng)(SUMMarizingOnlineNewS),并在新聞領(lǐng)域的多文檔摘要取得不錯效果[17]。有些多文檔摘要方法通過聚類(clustering)方法來識別文檔集合中的共同主題,并從每個聚類中摘取句子組成摘要[18-19],或者是從各聚類中生成一個重新組合過的句子[20]。還有些方法使用最大邊緣相關(guān)(maximalmarginalrelevance)理論評估每個段落,并使用重要的段落組成最終摘要[21]。最早的多文檔摘要技術(shù)只能處理同一語言的文檔集合,但后來的一些研究把該技術(shù)拓展到多語言環(huán)境[22]。多文檔自動摘要領(lǐng)域一個比較有代表性的方法是Erkan等人提出的LexRank方法[23]。與Mihalcea在單文檔摘要領(lǐng)域的工作[15]類似,LexRank方法也通過句子間的相似性來為多文檔構(gòu)建句圖。不同的是,LexRank方法使用到詞頻(termfrequency,即tf)與倒排文檔頻率(inversedocumentfrequency,即idf)來衡量句子間的相似性。tf指一個單詞在某文檔中出現(xiàn)的次數(shù),idf的計算公式如下:其中N代表集合中的文檔數(shù)量,表示單詞i在個文檔出現(xiàn)。Erkan等人把文檔中的句子構(gòu)建成一個N維的向量,假設,表示詞w在句子s中的出現(xiàn)次數(shù),則句子x與句子y的相似度計算公式為:Carbonell與Goldstein提出了主題驅(qū)動式的多文檔摘要(Topic-drivenSummarization)方法[24],該方法使用最大邊緣相關(guān)度模型去除多文檔內(nèi)的冗余內(nèi)容并選擇合適的段落來組成摘要。劉德榮等人提出了一種基于主題概念的多文檔自動摘要方法[25],通過對文檔主題概念的關(guān)聯(lián)分析判斷多文檔間的相關(guān)度,并利用HOWNET(一個描述有關(guān)概念及其屬性之間的關(guān)系的知識庫)來計算文獻主題概念的內(nèi)聚度實現(xiàn)多文檔的自動摘要。另外,Mani與Bloedornd使用基于圖的方法[26]來發(fā)現(xiàn)不同文檔中的相似內(nèi)容和相異內(nèi)容,并通過對相異內(nèi)容評分排序,抽取得分最高的部分組成多文檔摘要。網(wǎng)頁文檔自動摘要技術(shù)相較于傳統(tǒng)的文檔,網(wǎng)頁文檔有著結(jié)構(gòu)較為松散、主題多樣化等特點。同時,除了文檔文本的內(nèi)容,網(wǎng)頁中往往還會有一些額外的信息可以用于文檔摘要,比如網(wǎng)頁上的評論、標簽[27]等。這些額外信息往往與文章主題高度相關(guān),同時也是用戶關(guān)注的焦點。利用這些信息,可以使產(chǎn)生的網(wǎng)頁摘要有效聚焦于用戶所普遍感興趣的主題。Meishan等人[28]把網(wǎng)頁里面的評論關(guān)系區(qū)分為3種:主題、引用與提及,并把它們之間的關(guān)系建模成3種圖,并使用基于圖和基于張量(tensor-based)方法對每個評論打分以評估其重要性,最后使用基于特征方法或統(tǒng)一文檔方法(uniform-documentapproach)從文檔中提取出句子組成網(wǎng)頁文檔摘要。Sun等人[29]認為對某一網(wǎng)頁進行操作的用戶對網(wǎng)頁內(nèi)容應該是有所理解的,比如用戶點擊網(wǎng)頁鏈接時,往往對鏈接所指向的頁面內(nèi)容會有一個初步判斷?;谶@個設想,他們提出了一種結(jié)合網(wǎng)頁鏈接點擊生成網(wǎng)頁內(nèi)容摘要的方法。另外,馬慧芳等人提出了一種基于文本關(guān)系圖的網(wǎng)頁文檔摘要技術(shù)[30],利用搜索引擎的返回結(jié)果,為多個網(wǎng)頁文檔自動產(chǎn)生摘要,以提高搜索引擎使用效率。JaehuiPark與TomohiroFukuhara[31]通過社群書簽(SocialBookmarks,比如del.icio.us、Digg、YouTube與A等)里面的評論與標簽入手去生成文章摘要。他們開發(fā)了SSNote系統(tǒng)來對分析del.icio.us的評論與標簽,并提取出摘要。自動摘要方法綜述摘要的分類也依據(jù)分類標準的不同而不同。一般地,我們依據(jù)摘要的功能將摘要分為指示性摘要(IndicativeSummary)、信息性摘要(InformationSummary)和評論性摘要(EvaluativeSummary)。指示性摘要提供閱讀者足夠的信息,使其能夠根據(jù)這些信息判斷并決定是否閱讀源文檔;信息性摘要提供豐富的信息內(nèi)容,有時甚至可以取代原文檔;評論性摘要以摘要形式對原文檔作評論,可提供閱讀者不同角度的評論。自動摘要所要考慮的因素有摘要的準確率、蓋全率、文件摘要壓縮比(CompressionRatio)、摘要可讀性、流暢性、用戶焦點等,這些因素直接影響自動摘要結(jié)果的好壞。自動摘要的分類:依照產(chǎn)生方式分為:自動生成摘要、自動摘錄摘要;前者是經(jīng)過自然語言處理所自動生成的語句;后者是原始文件的摘錄(Extract),即直接由原文件中節(jié)錄出語句與段落片段。依照文檔對象的數(shù)量分為:單文檔摘要、多文檔摘要;依照讀者需求分為:一般性摘要、偏重摘要;前者為所有讀者提供一般性的摘要;后者依據(jù)特定用戶的需求(如詢問用戶感興趣的主題)產(chǎn)生專屬摘要。隨著信息爆炸時代的來臨,如何為用戶產(chǎn)生特定需求的摘要已經(jīng)愈來愈被看重。依照是否借助語料庫分為:基于語料庫的摘要、普通摘要;前者需要有語料庫,需要借助機器學習;后者則無需語料庫,也不需要學習過程。依照信息對象的承載方式不同分為:文檔自動摘要、多媒體資源自動摘要;前者的信息對象是文字內(nèi)容,盡管文檔格式可能不一致;后者的對象包括音頻或者視頻自動摘要歷史自動摘要研究始于1958年,由美國IBM公司的Luhn開創(chuàng)了自動摘要研究的先河.接著,美國馬里蘭州大學的Edmundson、美國俄亥俄州立大學的Rush、英國Lancaster大學的Paice等選取字詞的不同特征作為提取摘要的關(guān)鍵。這一階段人們只是圍繞文章字詞層面進行特征提取,只是簡單地依賴粗糙的統(tǒng)計數(shù)據(jù)和不同性質(zhì)的特征的簡單線性疊加。隨后,人們開始考慮文檔的句法特征和語義特征。建立起以人工智能特別是計算語言學為基礎的方法。美國耶魯大學的Schank、意大利Udine大學的Fum等、美國GE研究開發(fā)中心的Rau等分別應用腳本分析、一階謂詞邏輯推理和框架等表示文檔的結(jié)構(gòu)和意義,從而分析和推理得到文檔的摘要。至此,自動摘要研究分為兩大陣營:基于統(tǒng)計的機械摘要和基于意義的理解摘要。除此之外,人們也在試圖尋求其他的解決方法。特別是隨著機器學習、認知心理學、語言學等領(lǐng)域不斷涌現(xiàn)出新的成果,自動摘要研究也進入了一個多元化的新時代。美國Syracuse大學的Liddy提出仿人的方法,日本Toshiba公司的KenjiOno等依據(jù)修辭結(jié)構(gòu)研究自動摘要,蘇聯(lián)的E.F.skoroxod’ko依據(jù)語句關(guān)聯(lián)網(wǎng)生成摘要,美國的Kupiec提出以基于語料庫的方法來計算每個語句的權(quán)值,以色列BenGruion大學的ReginaBarzilay,依據(jù)詞匯鏈進行摘要。日本北海道大學的Maeda依據(jù)句子語用功能提取摘要。美國多倫多大學的DanielMarcu采用修辭結(jié)構(gòu)樹的方法提取摘要。美國馬塞諸塞州大學采用查詢擴展的方法選取摘要。在國內(nèi)自動摘要的研究則起步較晚,直到1985年王兵才正式撰文介紹國外的自動摘要的研究情況。從20世紀80年代末,我國才先后有大學和研究機構(gòu)開展研究,并取得了許多重要理論成果,實現(xiàn)了一批應用系統(tǒng)。上海交通大學王永成教授從20世紀80年代末開始研究自動摘要,1997年研制了OA中文文獻自動摘要系統(tǒng)。80年代末,東北大學姚天順教授和香港城市理工大學聯(lián)合開展了面向中文的“全文自動摘要系統(tǒng)”的研究。90年代初中國科學院軟件研究所的李小濱、徐越在北京大學馬希文教授的指導下開發(fā)了EAAS(EnglishAutomaticAbstractSystem)系統(tǒng)。哈爾濱工業(yè)大學王開鑄教授分別于1992年、1994年、1997年和1998年研制了MATAS型軍事領(lǐng)域摘要系統(tǒng)、HIT-863I型摘要系統(tǒng)、HIT-97型英文摘要系統(tǒng)和HIT-863II型摘要系統(tǒng)。2003年,復旦大學吳立德教授研制了文本自動綜述系統(tǒng)。北京郵電大學的鐘義信教授則先后實現(xiàn)了面向計算機病毒的Glance系統(tǒng),面向新聞報道的News系統(tǒng),和面向神經(jīng)網(wǎng)絡學習算法領(lǐng)域的Ladies系統(tǒng)。自動摘要方法研究的初期,人們把研究重點放在字詞的特征分析上,試圖找出哪些特征可以表征出文檔的主要內(nèi)容,而這些特征又是如何表現(xiàn)文檔的主要內(nèi)容;接著,人們意識到單單只是對字詞的特征分析不能有效地反應出文檔的主要內(nèi)容,人們開始考慮字詞的詞法特征、句子的句法特征和語義特性,試圖找出一種合適的表征文檔的結(jié)構(gòu)框架和進行分析和推理的一組規(guī)則,再依據(jù)規(guī)則分析和推理得出文章的主要內(nèi)容;但是這使得實現(xiàn)起來過于困難,也達不到人們預期的效果,所以人們開始找尋新的突破點。隨著其他相關(guān)學科不斷涌現(xiàn)出新的成果,人們開始把重點轉(zhuǎn)向文檔的篇章結(jié)構(gòu),試圖弄清楚作者是如何把那些零散的語言片斷組織成一篇文檔的,而這些語言片斷又是如何反應表達文檔內(nèi)容的。自動摘要方法分類(1)基于特征分析的方法基于特征分析的方法將句子視為詞的線性序列,將文本視為句子的線性序列。首先,計算詞的權(quán)值;其次,計算句子的權(quán)值;再次,對原文中的所有句子按權(quán)值高低排列,將權(quán)值最高的若干句子確定成摘要句;最后,將所有摘要句按它們在原文檔中的出現(xiàn)順序輸出。字詞的特征包括詞頻、標題、主題詞、線索詞、指示性短語、位置等。值得一提的是,特殊的文檔格式對文檔的內(nèi)容能起特殊的提示作用,可以將其作為特征。例如,HTML網(wǎng)頁中很多標記(Tag)對文檔的內(nèi)容有相當豐富的提示。字詞的權(quán)值計算是依據(jù)上面這些特征,采用基于字詞統(tǒng)計的向量空間模型法來計算權(quán)值。在向量空間模型中,句子Si被形式化為n維空間中的向量,形式為,該向量中每一維表示該字詞Wi的特征權(quán)值,例如:,表示W(wǎng)i在描述文檔內(nèi)容時所起作用的重要程度。字詞Wi的權(quán)重計算公式如下:在此,是一組調(diào)節(jié)系數(shù),不同的文章類型調(diào)節(jié)系數(shù)可能不同。調(diào)節(jié)系數(shù)可以憑借經(jīng)驗給出,或者根據(jù)機器學習自動產(chǎn)生。而每個句子Si權(quán)重計算公式如下:此外,由于語料庫語言學的迅速發(fā)展,人們將語料庫應用于自動摘要研究。語料庫分為訓練庫和測試庫。系統(tǒng)首先利用機器學習從已經(jīng)備有人工摘要的同類型訓練庫中探索出該類文檔摘要的共同特性,選擇適當?shù)膶W習算法依據(jù)相關(guān)的領(lǐng)域知識來產(chǎn)生摘要提取規(guī)則。然后在測試庫中應用這些共同特性來自動生成摘要。最后比較系統(tǒng)自動生成的摘要和專家提取的摘要,計算系統(tǒng)的準確率和召回率,以此評估系統(tǒng)的優(yōu)劣?;谔卣鞣治龅姆椒ㄊ且环N完全基于統(tǒng)計學的方法?!緝?yōu)點】方法很簡單,實現(xiàn)也很簡單。不受研究對象的領(lǐng)域限制,也不受文檔類型的限制?!救秉c】由于缺乏對文檔的深度分析,導致摘要可能覆蓋不全面,或者是不精準。也可能同時摘取了不同段落中意思表達相同的語句,從而造成數(shù)據(jù)冗余。在語句邏輯的連貫性上,此方法得出的摘要可能不連貫甚至不通順。(2)基于計算語言學的方法20世紀70~80年代初期,計算語言學的研究成果開始應用于文檔自動摘要。這個時期的研究,重點在于如何構(gòu)建知識表示模型和如何利用領(lǐng)域知識進行推理。此類方法先識別出文檔中的時間、地點、人物和事件等基本實體,并將之套用在事先定義好的模板或者框架中,接著經(jīng)由這些知識表示模型的推演來得知文件內(nèi)容的主題,最終用模板來生成摘要。在知識表示的選擇上,相對于不同的領(lǐng)域、不同類型的文章,人們采用不同的知識表示模型來表示文檔。Schank利用腳本分析簡單故事,并總結(jié)故事得出摘要;DeJong利用預先設置好的梗概劇本預測英文新聞文檔中可能出現(xiàn)的一個或者一組事件,并證實預測結(jié)果,給出實際信息;美國的Tait研制的Scrable系統(tǒng)在預處理前將文檔轉(zhuǎn)換成概念依存結(jié)構(gòu)(CD);Fum等建立一階謂詞形式的機內(nèi)表示,通過規(guī)則推理和演算生成摘要;德國康斯坦茨大學的Kuhlen等以框架作為知識表示,針對微處理器領(lǐng)域的科技文檔,通過全文的語法語義分析生成摘要;Rau等以公司合并的新聞報道為處理對象,采用關(guān)鍵詞過濾和模式匹配生成類似于框架的概念表示,最后提取預期內(nèi)容?!緝?yōu)點】基于計算語言學的方法利用領(lǐng)域知識得到文檔的內(nèi)容,由此進行判斷和推理,最終得到摘要的意義表示,所以抽取的摘要也較為全面和精準,在邏輯上也較為連貫通順?!救秉c】面向大規(guī)模真實語料,它既沒有合適通用的知識表示模型,也沒有通用的分析和推理機制。它必須對處理的文檔限定在一個領(lǐng)域范圍內(nèi),這使得系統(tǒng)難以移植。此外,知識表示模型過于復雜,實現(xiàn)也非常困難。(3)基于篇章結(jié)構(gòu)的方法篇章是一個有機的結(jié)構(gòu)體,篇章中的不同成分承擔著不同的功能,各部分之間存在著錯綜復雜的關(guān)系?;谄陆Y(jié)構(gòu)的方法試圖分析篇章的結(jié)構(gòu)特征,找出文章的核心摘要。目前基于篇章結(jié)構(gòu)的研究方向主要有:修辭結(jié)構(gòu)分析(RhetoricalStructureAnalysis)、語用分析(PragmaticsAnalusis)、詞匯鏈(LexicalChain)、關(guān)聯(lián)圖(RelationshipMap)和潛在語義分析(LatentSemanticAnalysis)等。(3.1)修辭結(jié)構(gòu)分析修辭結(jié)構(gòu)理論是由Mann和Thompson提出來的,它的核心思想是修辭關(guān)系,修辭關(guān)系是連接兩個互不重疊的Nucleus集和Satellite集的一種關(guān)系。Nucleus集與Satellite集的區(qū)別在于Nucleus集表現(xiàn)的是作者的寫作意圖,而Satellite集是輔助讀者理解和證明Nucleus集的。Nucleus集的理解獨立于Satellite集,而反之則不然。修辭關(guān)系一般是一個Nucleus集對應一個Satellite集,不過也有例外,比如對比(Contrast)系就是多核(Multi-Nuclear)的。由于修辭結(jié)構(gòu)理論定義的句間關(guān)系易于形式化,且精細準確,所以人們把修辭結(jié)構(gòu)理論引入自動摘要,開始針對特定領(lǐng)域的研究對象確定修辭關(guān)系。此外,基于修辭結(jié)構(gòu)注標的英語新聞語料庫也被建立并用來訓練和評估基于修辭結(jié)構(gòu)理論的自動摘要算法。Ono定義了34種修辭關(guān)系,并給出了相關(guān)連接詞。例如,Serial關(guān)系,中文稱其為連續(xù)關(guān)系,標記為〈SR〉,相關(guān)的連接詞有Thus(因而、然而)、Then(然后)。由句子的連接詞或者謂詞來推導句子間的修辭關(guān)系,并建立修辭關(guān)系分析樹。通過修辭關(guān)系重要度我們可以從修辭關(guān)系分析樹中提取文檔的主要內(nèi)容。修辭關(guān)系的識別主要依靠連接詞或者謂詞,如果文章中這些詞的數(shù)量很少,那么修辭關(guān)系的識別精準度將大大減低。(3.2)語用分析科技文獻的寫作有比較嚴格的規(guī)范,文獻中不同部分承擔著不同的語用功能,根據(jù)語用功能可以將文檔的主體部分識別出來構(gòu)成摘要。最早捷克斯洛伐克人Janos提出了依據(jù)功能句子觀(FSP)理論進行文檔濃縮的方法。FSP是布拉格學派Mathesius等提出的一種語篇分析理論,采用該理論的目的是為了通過對句子語用功能的分類,將文檔的主干(TextProper)和枝葉(Metatext)區(qū)別開來。文檔的主干由主題(Theme)和述題(Rheme)構(gòu)成,以不同的主題推進方式相互銜接。主干是需要重點分析和摘錄的內(nèi)容,而枝葉則可以排除在摘要之外。隨后,Maeda將句子的信息功能分為:背景、主題、方法、結(jié)果、例子、應用、比較和討論,并認為主題、方法、結(jié)果和討論是文檔的主干,應進入摘要。Liddy通過對人工摘要的大量調(diào)查歸納出經(jīng)驗摘要(EmpiricalAbstract)的基本結(jié)構(gòu):背景、目的、方法、結(jié)果、結(jié)論和附錄,其中每一項內(nèi)容中包括了一些規(guī)則,通過這些規(guī)則將文檔中承擔這些功能的片段識別出來,從而組成摘要。語用分析有個關(guān)鍵問題就是如何確定句子的功能,但不是每一種文體都能明確分析出句子功能。所以這種方法是不是適合其他類似新聞、小說等文體有待進一步研究(3.3)詞匯鏈認知心理學認為作者在進行寫作的過程中是由作者本身所認知的概念空間中去定義某個用詞的詞義,接著再組合這些定義好的詞句而構(gòu)成為一篇文章。當讀者讀文檔時,他所做的事情是試著去重組并構(gòu)建當初作者所認知的概念空間,借此得到相同語義的理解和認知。我們可以認為文檔中所描述的概念其實是由擁有該概念意義的所有字詞組成的結(jié)果,于是提出詞匯鏈概念。所謂詞匯鏈就是一篇文檔中相同意義的字詞所組成的集合,每個詞匯鏈代表這篇文檔所要描述的一個概念,也就是對于這篇文檔的一個認知。首先將文檔中的名詞詞匯都提取出來,接著借由HowNet來判斷每個字詞所代表的意義,并將具有相同詞義的字詞串起來組成詞匯鏈。詞匯鏈生成后,定義詞匯鏈中強鏈(StrongestChains),它是用來生成摘要的依據(jù)。將選出的強鏈依據(jù)分數(shù)高低排序。因為詞匯鏈中所有的詞都反映相同的概念,所以我們從每個強鏈中選取一個典型詞(TypicalWord)來表達詞匯鏈的主題,選取包含了典型詞的語句作為摘要,值得注意的是,為了使摘要在邏輯上更加通順流暢,必須對摘要進行指代銷解處理。而HowNet構(gòu)建字詞間的相似關(guān)系時可能因為其中某個字詞的意義辨析錯誤而導致產(chǎn)生錯誤的詞匯鏈,這樣所得到的認知模型便可能偏離原文所要表達的意思。(3.4)關(guān)聯(lián)圖【定義】關(guān)聯(lián)圖是這樣一個網(wǎng)絡,它將一個語言單元的各個子單元(段落或句子,甚至是字詞)視為節(jié)點,并在兩個有語義聯(lián)系的子單元之間引一條邊,從而形成的一個關(guān)聯(lián)網(wǎng)絡。在網(wǎng)絡中,一個節(jié)點與其他節(jié)點相連的邊數(shù)稱為該節(jié)點的度。節(jié)點的度越大,則節(jié)點在網(wǎng)絡中的重要性越高。對于篇幅較短的文檔,一般以句子組成關(guān)聯(lián)網(wǎng)絡,與很多句子都有聯(lián)系的中心句被確認為摘要句。而句子間的關(guān)系可通過詞間關(guān)系或連接詞等確定;對于篇幅較長的文檔,句子之間的關(guān)聯(lián)網(wǎng)絡將十分龐大,可將文檔視為段落的關(guān)聯(lián)網(wǎng)絡??梢再x予每個段落一個特征向量(???HOW???),兩個段落特征向量的內(nèi)積作為這兩個段落的關(guān)聯(lián)強度。如果兩個段落的關(guān)聯(lián)強度超過給定閾值,則認為兩個段落有語義聯(lián)系。與很多段落都有聯(lián)系的中心段被提取出來組成一篇文檔的摘要。依據(jù)段落關(guān)聯(lián)圖抽取的摘要相比由句子組裝起來的摘要,由段落拼接起來的摘要連貫性更高。但是,由于最重要的段落中也可能包含一些無關(guān)緊要的句子,所以基于段落關(guān)聯(lián)圖抽取的摘要顯得不夠精練。關(guān)聯(lián)圖的關(guān)鍵在于如何確定語句或者段落間的關(guān)聯(lián)強度,而潛在語義分析是解決這一問題的一種有效方法?;诮y(tǒng)計方案的自動摘要眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子Iamastudent,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。上海\o"搜索引擎優(yōu)化"SEO服務,分詞的結(jié)果是:上海\o"搜索引擎優(yōu)化"SEO服務1.引言信息社會不斷發(fā)展,如何快速獲取信息的主旨,如何快速閱讀新信息,成為亟待解決的問題。文本自動摘要應運而生,它能夠?qū)Υ罅康男畔⑦M行提煉、濃縮,成為解決上述問題的有力工具。文本自動摘要,是指對文本信息內(nèi)容進行概括,提取主要內(nèi)容進而形成摘要的過程[1]。人們利用計算機對文本信息進行處理,用簡明扼要的文字概括其主要內(nèi)容,指明文本中概念、實體間的關(guān)系,生成基本反映文章主題的摘要信息,摘要的形式可以是文本段落或句子。2.文本自動摘要的算法分類到目前為止,文本自動摘要的研究工作都是努力從文本中抽取出重要的文本片段,其算法可以分為三大類[2]:第一類為領(lǐng)域相關(guān)算法。這是基于知識理解的算法,為了獲得較為準確的摘要,必須利用語義領(lǐng)域的先驗知識和文本結(jié)構(gòu)信息。這類算法準確度高,但應用范圍受領(lǐng)域限制。算法涉及到信息抽取技術(shù)、從特定數(shù)據(jù)庫中生成報告和事件摘要的技術(shù)。第二類為領(lǐng)域無關(guān)算法。這是基于統(tǒng)計的算法,同時利用語言學技術(shù)來識別文檔中的重要段落或語句。這類算法與領(lǐng)域無關(guān),但精度低。算法涉及到統(tǒng)計技術(shù)、健壯的淺層語言技術(shù)。其中統(tǒng)計技術(shù)與信息抽取中采用的相似,如向量空間模型、項頻率和反文檔頻率TF/IDF。而語言技術(shù)從詞匯相關(guān)度技術(shù)到健壯的首語重復解決策略。第三類是兩者相互融合得到的算法。文本自動摘要經(jīng)歷幾十年的研究,主要采用以下四種方法:基于統(tǒng)計的自動摘要、基于理解的自動摘要、基于信息抽取的自動摘要和基于結(jié)構(gòu)的自動摘要。目前主流的中文分詞算法有以下3種:1、基于字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的詞數(shù)最?。?。還可以將上述各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公寓沙發(fā)采購合同范例
- 人材機合同范例
- 出讓土地施工合同范例
- 親子衣服出租合同范例
- 保潔公司異地經(jīng)營合同范例
- 上海房屋裝修合同范例
- 書銷售及合同范例
- 傭金勞務合同范例 英文
- 分區(qū)招商合同范例
- 公園租賃空地合同范例
- 《老年肺炎臨床診斷與治療專家共識(2024年版)》臨床解讀
- 人教版 八年級英語下冊 Unit 2 單元綜合測試卷(2025年春)
- 2025年無錫商業(yè)職業(yè)技術(shù)學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年中國金屬加工液市場調(diào)查研究報告
- 探索商業(yè)保險與家庭醫(yī)生簽約服務的合作模式與前景
- 2024年中國疾病預防控制中心人事處招聘考試真題
- 《工程熱力學》課件-12 理想氣體的基本熱力過程
- 2025年中國高壓變頻器行業(yè)深度調(diào)研與投資戰(zhàn)略規(guī)劃分析報告
- 2025年貴州通服安順分公司招聘筆試參考題庫含答案解析
- 2025年陜西建筑安全員-C證考試(專職安全員)題庫附答案
- 個人汽車租賃協(xié)議與個人汽車租賃合同
評論
0/150
提交評論